Informations

Quelle est l'origine de l'ADN indésirable ?

Quelle est l'origine de l'ADN indésirable ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

La plupart des eucaryotes possèdent une certaine quantité d'ADN indésirable dans leurs noyaux cellulaires. Quelle est (sont) l'origine (s) de cet ADN indésirable, Et est-ce vraiment indésirable (superflu) ?


« ADN indésirable » est plus judicieusement nommé ADN non codant. Ceci est défini comme toute région d'ADN qui ne code pas pour un gène ou plus précisément n'est pas dans un cadre de lecture ouvert. Dans le génome humain, plus de 98% sont constitués d'ADN non codant. Cependant, plus nous en apprenons sur la biologie moléculaire, plus nous comprenons la fonction biologique et l'importance de l'ADN non codant. Voici des exemples de fonctions importantes :

  1. Régions régulatrices qui contrôlent l'expression d'un gène
  2. Régions codant pour l'ARN régulateur
  3. Régions où la régulation épigénétique a lieu

Cependant, il existe également des régions qui n'ont probablement pas de fonction biologique bénéfique, qui peuvent à juste titre être qualifiées de déchets :

  1. Les transposons sont des régions génétiques qui peuvent se copier (soit par un ARN enzymatiquement actif, soit en codant pour la protéine transposase). On pense qu'ils ont évolué en tant que "gènes égoïstes" et il existe plusieurs mécanismes de défense connus contre les transposons malveillants (siRNA, RNAi). Les transposons et les mécanismes de défense sont aujourd'hui devenus des outils puissants dans la recherche en biologie moléculaire.
  2. Séquences de rétrovirus endogènes qui sont des restes de rétrovirus qui se sont insérés dans la lignée germinale et deviennent inactifs par mutation.

Cependant, même ces régions « poubelles » sont censées avoir des fonctions évolutives importantes telles que la protection contre les mutations par les rétrovirus : parce qu'il existe de grandes régions d'ADN où l'ordre et la fonction précis ne sont pas importants, un rétrovirus qui s'insère à des positions aléatoires du génome est moins susceptible de causer des dommages permanents.


En bref, nous connaissons de nombreux mécanismes par lesquels les génomes peuvent s'agrandir. Les tétrapodes ont eu au moins deux doublements complets de leur génome au cours de leur histoire ; les transposons se dilatent ; insert de rétrovirus; les duplications partielles conduisent à des pseudogènes. Et ces mécanismes d'expansion peuvent être rapides - les duplications complètes du génome doublent en une seule génération.

Mais nous connaissons très peu de mécanismes par lesquels les génomes peuvent devenir plus petits, et la plupart d'entre eux sont très lents, et très peu sont ciblés.

D'un point de vue mécaniste, il est très difficile d'imaginer un moyen ciblé d'éliminer rapidement et avec une précision de 100 % l'ADN inutile mais inoffensif. Si la précision n'est pas de 100 %, alors la voie serait plus nocive que l'ADN qu'elle cherche à éliminer.

La clé est que si l'ADN supplémentaire est inoffensif ou presque inoffensif, il n'y a aucune raison de l'éliminer, et il y a des raisons (erreurs de suppression) de ne pas essayer de le supprimer.

La réponse courte et simple est donc que les génomes peuvent accumuler de l'ADN inutile beaucoup plus facilement qu'ils ne peuvent s'en débarrasser. C'est juste du bon sens, qui correspond à 30 ans d'expérimentation.


« Junk DNA » révèle la nature de nos anciens ancêtres

La clé pour résoudre l'une des grandes énigmes de la biologie évolutive, l'origine des vertébrés - des animaux avec un squelette interne fait d'os - a été révélée dans de nouvelles recherches du Dartmouth College et de l'Université de Bristol.

Les vertébrés sont les plus complexes anatomiquement et génétiquement de tous les organismes, mais expliquer comment ils ont atteint cette complexité a contrarié les scientifiques. L'étude, publiée aujourd'hui [20 octobre] dans Actes de l'Académie nationale des sciences prétend avoir résolu cette énigme scientifique en analysant la génomique des poissons vivants primitifs tels que les requins et les lamproies, et de leurs parents sans épines tels que les ascidies.

Alysha Heimberg du Dartmouth College et ses collègues ont étudié les relations familiales des vertébrés primitifs. L'équipe a utilisé des microARN, une classe de minuscules molécules découvertes récemment et résidant dans ce qui a généralement été considéré comme de l'« ADN indésirable », pour montrer que les lamproies et les anguilles visqueuses sont des parents éloignés des vertébrés à mâchoires.

Alysha a déclaré : « Nous apprenons de nos résultats que la lamproie et la myxine sont également apparentées aux vertébrés à mâchoires et que la myxine n'est pas représentative d'un vertébré plus primitif, ce qui suggère que le vertébré ancestral était plus complexe qu'on ne l'avait pensé auparavant.

“Les vertébrés évoluent depuis des centaines de millions d'années, mais expriment toujours les mêmes gènes de microARN dans les mêmes organes qu'à leur apparition.”

L'équipe a ensuite testé l'idée que ce sont ces mêmes gènes de l'ADN indésirable, les microARN, qui étaient responsables de l'origine de l'évolution des caractéristiques anatomiques des vertébrés. Ils ont découvert que la même suite de microARN était exprimée dans les mêmes organes et tissus, chez les lamproies et les souris.

Le co-auteur, le professeur Philip Donoghue de l'école des sciences de la Terre de l'Université de Bristol, a déclaré : "L'origine des vertébrés et l'origine de ces gènes ne sont pas une coïncidence."

Le professeur Kevin Peterson du Dartmouth College a déclaré : "Cette étude montre non seulement la voie à suivre pour comprendre l'origine évolutive de notre propre lignée, mais elle nous aide également à comprendre comment notre propre génome a été assemblé dans les temps lointains."


Contenu

  1. ^ Pennisi E (septembre 2012). "Génomique. Le projet ENCODE écrit l'éloge de l'ADN indésirable". Science. 337 (6099): 1159-1161. doi:10.1126/science.337.6099.1159. PMID22955811.
  2. ^
  3. Le consortium du projet ENCODE (septembre 2012). « Une encyclopédie intégrée des éléments d'ADN dans le génome humain ». La nature. 489 (7414) : 57-74. Code bibliographique : 2012Natur.489. 57T. doi: 10.1038/nature11247. PMC3439153 . PMID22955616. .
  4. ^ Erreur de citation : La référence nommée Costa non codante a été invoquée mais jamais définie (voir la page d'aide).
  5. ^ uneb
  6. Carey M (2015). ADN indésirable : un voyage à travers la matière noire du génome. Columbia University Press. ISBN9780231170840.
  7. ^
  8. McKie R (24 février 2013). "Les scientifiques attaqués sur la revendication que" l'ADN indésirable "est vital à la vie". L'observateur.
  9. ^
  10. Eddy SR (novembre 2012). « Le paradoxe de la valeur C, l'ADN indésirable et ENCODE ». Biologie actuelle. 22 (21) : R898-9. doi: 10.1016/j.cub.2012.10.002 . PMID23137679. S2CID28289437.
  11. ^
  12. Doolittle WF (avril 2013). "Est-ce que l'ADN indésirable est superposé ? Une critique d'ENCODE". Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 110 (14) : 5294-300. Code bibliographique : 2013PNAS..110.5294D. doi: 10.1073/pnas.1221376110. PMC3619371 . PMID23479647.
  13. ^
  14. Palazzo AF, Gregory TR (mai 2014). "Le cas de l'ADN indésirable". PLOS Génétique. 10 (5) : e1004351. doi: 10.1371/journal.pgen.1004351. PMC4014423 . PMID24809441.
  15. ^
  16. Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (2013). "Sur l'immortalité des téléviseurs : "fonction" dans le génome humain selon l'évangile sans évolution d'ENCODE". Biologie et évolution du génome. 5 (3) : 578-90. doi: 10.1093/gbe/evt028. PMC3622293 . PMID23431001.
  17. ^
  18. Ponting CP, Hardison RC (novembre 2011). "Quelle fraction du génome humain est fonctionnelle ?". Recherche sur le génome. 21 (11) : 1769-1776. doi:10.1101/gr.116814.110. PMC3205562 . PMID21875934.
  19. ^ uneb
  20. Kellis M, Wold B, Snyder MP, Bernstein BE, Kundaje A, Marinov GK, et al. (avril 2014). « Définition des éléments fonctionnels de l'ADN dans le génome humain ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 111 (17) : 6131-8. Code bibliographique : 2014PNAS..111.6131K. doi: 10.1073/pnas.1318948111. PMC4035993. PMID24753594.
  21. ^
  22. Rands CM, Meader S, Ponting CP, Lunter G (juillet 2014). « 8,2 % du génome humain est contraint : variation des taux de renouvellement entre les classes d'éléments fonctionnels de la lignée humaine ». PLOS Génétique. 10 (7) : e1004525. doi: 10.1371/journal.pgen.1004525. PMC4109858 . PMID25057982.
  23. ^
  24. Mattick JS (2013). « L'étendue de la fonctionnalité dans le génome humain ». Le Journal HUGO. 7 (1) : 2. doi:10.1186/1877-6566-7-2. PMC4685169.
  25. ^
  26. Morris K, éd. (2012). ARN non codants et régulation épigénétique de l'expression génique : moteurs de la sélection naturelle. Norfolk, Royaume-Uni : Caister Academic Press. ISBN978-1904455943.

La quantité d'ADN génomique total varie considérablement d'un organisme à l'autre, et la proportion d'ADN codant et non codant au sein de ces génomes varie également considérablement. Par exemple, il a été initialement suggéré que plus de 98% du génome humain ne code pas pour les séquences protéiques, y compris la plupart des séquences dans les introns et la plupart des ADN intergéniques, tandis que 20% d'un génome procaryote typique n'est pas codant. [3]

Chez les eucaryotes, la taille du génome, et par extension la quantité d'ADN non codant, n'est pas corrélée à la complexité de l'organisme, une observation connue sous le nom d'énigme de la valeur C. [4] Par exemple, le génome de la cellule unicellulaire Polychaos dubium (anciennement connu sous le nom Amibe dubia) a été rapporté pour contenir plus de 200 fois la quantité d'ADN chez l'homme. [5] Le poisson-globe Rubripes de Takifugu génome est seulement environ un huitième de la taille du génome humain, mais semble avoir un nombre comparable de gènes environ 90 % de la Takifugu le génome est un ADN non codant. [2] Par conséquent, la plus grande partie de la différence de taille du génome n'est pas due à une variation de la quantité d'ADN codant, mais plutôt à une différence dans la quantité d'ADN non codant. [6]

En 2013, un nouveau « record » du génome eucaryote le plus efficace a été découvert avec Utricularia gibba, une plante de la vessie qui n'a que 3% d'ADN non-codant et 97% d'ADN codant. Des parties de l'ADN non codant étaient supprimées par la plante, ce qui suggère que l'ADN non codant n'est peut-être pas aussi critique pour les plantes, même si l'ADN non codant est utile pour les humains. [1] D'autres études sur les plantes ont découvert des fonctions cruciales dans des portions d'ADN non codant qui étaient auparavant considérées comme négligeables et ont ajouté une nouvelle couche à la compréhension de la régulation des gènes. [7]

Éléments cis- et trans-réglementaires Modifier

Les éléments cis-régulateurs sont des séquences qui contrôlent la transcription d'un gène voisin. Beaucoup de ces éléments sont impliqués dans l'évolution et le contrôle du développement. [8] Les éléments cis peuvent être situés dans des régions non traduites 5' ou 3' ou à l'intérieur d'introns. Les éléments trans-régulateurs contrôlent la transcription d'un gène distant.

Les promoteurs facilitent la transcription d'un gène particulier et sont généralement situés en amont de la région codante. Les séquences amplificatrices peuvent également exercer des effets très éloignés sur les niveaux de transcription des gènes. [9]

Introns Modifier

Les introns sont des sections non codantes d'un gène, transcrites dans la séquence d'ARNm précurseur, mais finalement éliminées par épissage d'ARN au cours de la transformation en ARN messager mature. De nombreux introns semblent être des éléments génétiques mobiles. [dix]

Etudes des introns du groupe I de Tétrahymène les protozoaires indiquent que certains introns semblent être des éléments génétiques égoïstes, neutres pour l'hôte car ils se retirent des exons flanquants pendant le traitement de l'ARN et ne produisent pas de biais d'expression entre les allèles avec et sans l'intron. [10] Certains introns semblent avoir une fonction biologique importante, peut-être grâce à la fonctionnalité du ribozyme qui peut réguler l'activité de l'ARNt et de l'ARNr ainsi que l'expression des gènes codant pour les protéines, évidente chez les hôtes qui sont devenus dépendants de ces introns sur de longues périodes, par exemple, les trnL-intron se trouve dans toutes les plantes vertes et semble avoir été hérité verticalement pendant plusieurs milliards d'années, dont plus d'un milliard d'années dans les chloroplastes et 2 à 3 milliards d'années supplémentaires auparavant dans les ancêtres cyanobactériens des chloroplastes. [dix]

Pseudogènes Modifier

Les pseudogènes sont des séquences d'ADN, liées à des gènes connus, qui ont perdu leur capacité de codage des protéines ou qui ne sont plus exprimées dans la cellule. Les pseudogènes résultent de la rétrotransposition ou de la duplication génomique de gènes fonctionnels et deviennent des « fossiles génomiques » qui ne sont pas fonctionnels en raison de mutations qui empêchent la transcription du gène, comme dans la région du promoteur du gène, ou altèrent fatalement la traduction du gène, comme des codons stop ou des décalages de cadre prématurés. [11] Les pseudogènes résultant de la rétrotransposition d'un intermédiaire d'ARN sont connus sous le nom de pseudogènes traités. Les pseudogènes issus des restes génomiques de gènes dupliqués ou de résidus de gènes inactivés sont des pseudogènes non traités. [11] Les transpositions de gènes mitochondriaux autrefois fonctionnels du cytoplasme au noyau, également connues sous le nom de NUMT, sont également considérées comme un type de pseudogène commun. [12] Les numts se produisent dans de nombreux taxons eucaryotes.

Alors que la loi de Dollo suggère que la perte de fonction des pseudogènes est probablement permanente, les gènes silencieux peuvent en fait conserver leur fonction pendant plusieurs millions d'années et peuvent être "réactivés" en séquences codant pour les protéines [13] et un nombre substantiel de pseudogènes sont activement transcrits. [11] [14] Parce que les pseudogènes sont supposés changer sans contrainte évolutive, ils peuvent servir de modèle utile du type et des fréquences de diverses mutations génétiques spontanées. [15]

Séquences répétées, transposons et éléments viraux Modifier

Les transposons et rétrotransposons sont des éléments génétiques mobiles. Les séquences répétées de rétrotransposons, qui comprennent des éléments nucléaires intercalés longs (LINE) et des éléments nucléaires intercalés courts (SINE), représentent une grande partie des séquences génomiques de nombreuses espèces. Les séquences Alu, classées comme un élément nucléaire court intercalé, sont les éléments mobiles les plus abondants dans le génome humain. Certains exemples ont été trouvés de SINE exerçant un contrôle transcriptionnel de certains gènes codant pour des protéines. [16] [17] [18]

Les séquences de rétrovirus endogènes sont le produit de la transcription inverse de génomes de rétrovirus dans les génomes de cellules germinales. Une mutation au sein de ces séquences rétro-transcrites peut inactiver le génome viral. [19]

Plus de 8 % du génome humain est constitué de séquences de rétrovirus endogènes (principalement décomposées), dans le cadre de la fraction de plus de 42 % qui est visiblement dérivée de rétrotransposons, tandis qu'un autre 3 % peut être identifié comme étant les restes de transposons d'ADN. Une grande partie de la moitié restante du génome qui est actuellement sans origine expliquée devrait avoir trouvé son origine dans des éléments transposables qui étaient actifs il y a si longtemps (> 200 millions d'années) que des mutations aléatoires les ont rendus méconnaissables. [20] La variation de la taille du génome dans au moins deux types de plantes est principalement le résultat de séquences de rétrotransposons. [21] [22]

Télomères Modifier

Les télomères sont des régions d'ADN répétitif à l'extrémité d'un chromosome, qui offrent une protection contre la détérioration chromosomique pendant la réplication de l'ADN. Des études récentes ont montré que les télomères fonctionnent pour aider à sa propre stabilité. Les ARN contenant des répétitions télomériques (TERRA) sont des transcrits dérivés des télomères. Il a été démontré que TERRA maintient l'activité de la télomérase et allonge les extrémités des chromosomes. [23]

Le terme « ADN indésirable » est devenu populaire dans les années 1960. [24] [25] Selon T. Ryan Gregory, la nature de l'ADN indésirable a été discutée pour la première fois explicitement en 1972 par un biologiste génomique, David Comings, qui a appliqué le terme à tout l'ADN non codant. [26] Le terme a été formalisé la même année par Susumu Ohno, [6] qui a noté que la charge mutationnelle des mutations délétères plaçait une limite supérieure au nombre de loci fonctionnels auxquels on pouvait s'attendre compte tenu d'un taux de mutation typique. Ohno a émis l'hypothèse que les génomes de mammifères ne pourraient pas avoir plus de 30 000 loci sous sélection avant que le « coût » de la charge mutationnelle ne provoque un déclin inéluctable de la valeur adaptative et, éventuellement, l'extinction. Cette prédiction reste robuste, le génome humain contenant environ 20 000 gènes (codant les protéines). Une autre source de la théorie d'Ohno était l'observation que même des espèces étroitement apparentées peuvent avoir des tailles de génome largement (ordres de grandeur) différentes, ce qui avait été surnommé le paradoxe de la valeur C en 1971. [27]

Le terme « ADN indésirable » a été remis en cause au motif qu'il provoque une forte a priori l'hypothèse d'une non-fonctionnalité totale et certains ont recommandé d'utiliser à la place une terminologie plus neutre telle que « ADN non codant ». [26] Pourtant, "l'ADN indésirable" reste une étiquette pour les portions d'une séquence génomique pour lesquelles aucune fonction discernable n'a été identifiée et qui, grâce à une analyse génomique comparative, n'apparaissent sous aucune contrainte fonctionnelle suggérant que la séquence elle-même n'a fourni aucun avantage adaptatif.

Depuis la fin des années 70, il est devenu évident que la majorité de l'ADN non codant dans les grands génomes trouve son origine dans l'amplification égoïste d'éléments transposables, dont W. Ford Doolittle et Carmen Sapienza en 1980 ont écrit dans le journal La nature: "Lorsqu'il est démontré qu'un ADN donné, ou une classe d'ADN, de fonction phénotypique non prouvée a développé une stratégie (telle que la transposition) qui assure sa survie génomique, alors aucune autre explication de son existence n'est nécessaire." [28] On peut s'attendre à ce que la quantité d'ADN indésirable dépende du taux d'amplification de ces éléments et du taux auquel l'ADN non fonctionnel est perdu. [29] Dans le même numéro de La nature, Leslie Orgel et Francis Crick ont ​​écrit que l'ADN indésirable a « peu de spécificité et confère peu ou pas d'avantage sélectif à l'organisme ». [30] Le terme apparaît principalement dans la science populaire et de manière familière dans les publications scientifiques, et il a été suggéré que ses connotations pourraient avoir retardé l'intérêt pour les fonctions biologiques de l'ADN non codant. [31]

Certaines preuves indiquent que certaines séquences "d'ADN poubelle" sont des sources d'activité fonctionnelle (future) dans l'évolution par exaptation d'ADN à l'origine égoïste ou non fonctionnel. [32]

Projet ENCODE Modifier

En 2012, le projet ENCODE, un programme de recherche soutenu par le National Human Genome Research Institute, a rapporté que 76% des séquences d'ADN non codantes du génome humain étaient transcrites et que près de la moitié du génome était en quelque sorte accessible aux protéines génétiques régulatrices. tels que les facteurs de transcription. [33] Cependant, la suggestion d'ENCODE que plus de 80% du génome humain est biochimiquement fonctionnel a été critiquée par d'autres scientifiques, [34] qui soutiennent que ni l'accessibilité des segments du génome aux facteurs de transcription ni leur transcription ne garantit que ces segments ont une fonction biochimique et que leur transcription est sélectivement avantageuse. Après tout, des sections non fonctionnelles du génome peuvent être transcrites, étant donné que les facteurs de transcription se lient généralement à de courtes séquences qui se trouvent (au hasard) sur tout le génome. [35]

De plus, les estimations beaucoup plus faibles de la fonctionnalité avant ENCODE étaient basées sur conservation génomique estimations à travers les lignées de mammifères. [27] [36] [37] [38] La transcription et l'épissage répandus dans le génome humain ont été discutés comme un autre indicateur de la fonction génétique en plus de la conservation génomique qui peut manquer des séquences fonctionnelles mal conservées. [39] En outre, une grande partie de l'ADN indésirable apparent est impliquée dans la régulation épigénétique et semble être nécessaire pour le développement d'organismes complexes. [40] [41] [42] Approches génétiques peut manquer des éléments fonctionnels qui ne se manifestent pas physiquement sur l'organisme, approches évolutives ont des difficultés à utiliser des alignements de séquences multispécifiques précis car les génomes d'espèces même étroitement apparentées varient considérablement, et avec approches biochimiques, bien qu'ayant une reproductibilité élevée, les signatures biochimiques ne signifient pas toujours automatiquement une fonction. [39] Kellis et al. ont noté que 70 % de la couverture de transcription était inférieure à 1 transcrit par cellule (et peut donc être basée sur une transcription de fond parasite). D'un autre côté, ils ont fait valoir qu'une fraction de 12 à 15 % de l'ADN humain peut être soumise à une contrainte fonctionnelle et peut encore être une sous-estimation lorsque des contraintes spécifiques à la lignée sont incluses. En fin de compte, les approches génétiques, évolutives et biochimiques peuvent toutes être utilisées de manière complémentaire pour identifier des régions pouvant être fonctionnelles dans la biologie humaine et les maladies. [39] Certains critiques ont soutenu que la fonctionnalité ne peut être évaluée qu'en référence à une hypothèse nulle appropriée. Dans ce cas, l'hypothèse nulle serait que ces parties du génome ne sont pas fonctionnelles et ont des propriétés, que ce soit sur la base de la conservation ou de l'activité biochimique, qui seraient attendues de telles régions sur la base de notre compréhension générale de l'évolution moléculaire et biochimie. Selon ces critiques, tant qu'il n'a pas été démontré qu'une région en question possède des caractéristiques supplémentaires, au-delà de ce qui est attendu de l'hypothèse nulle, elle devrait être provisoirement étiquetée comme non fonctionnelle. [43]

Certaines séquences d'ADN non codantes doivent avoir une fonction biologique importante. Ceci est indiqué par des études de génomique comparative qui rapportent des régions hautement conservées d'ADN non codant, parfois sur des échelles de temps de centaines de millions d'années. Cela implique que ces régions non codantes sont soumises à une forte pression évolutive et à une sélection positive. [44] Par exemple, dans les génomes des humains et des souris, qui ont divergé d'un ancêtre commun il y a 65 à 75 millions d'années, les séquences d'ADN codant pour les protéines ne représentent qu'environ 20 % de l'ADN conservé, les 80 % restants de l'ADN conservé représentés dans les régions non codantes. [45] La cartographie des liaisons identifie souvent les régions chromosomiques associées à une maladie sans preuve de variantes codantes fonctionnelles des gènes dans la région, suggérant que les variantes génétiques causant la maladie se trouvent dans l'ADN non codant. [45] L'importance des mutations de l'ADN non codant dans le cancer a été explorée en avril 2013. [46]

Les polymorphismes génétiques non codants jouent un rôle dans la susceptibilité aux maladies infectieuses, telles que l'hépatite C. [47] De plus, les polymorphismes génétiques non codants contribuent à la susceptibilité au sarcome d'Ewing, un cancer des os pédiatrique agressif. [48]

Certaines séquences spécifiques d'ADN non codant peuvent être des caractéristiques essentielles à la structure des chromosomes, à la fonction centromère et à la reconnaissance des chromosomes homologues au cours de la méiose. [49]

Selon une étude comparative de plus de 300 génomes procaryotes et plus de 30 génomes eucaryotes, [50] les eucaryotes semblent nécessiter une quantité minimale d'ADN non codant. Le montant peut être prédit à l'aide d'un modèle de croissance pour les réseaux génétiques réglementaires, ce qui implique qu'il est requis à des fins réglementaires. Chez l'homme, le minimum prédit est d'environ 5% du génome total.

Plus de 10 % des 32 génomes de mammifères peuvent fonctionner par la formation de structures secondaires d'ARN spécifiques. [51] L'étude a utilisé la génomique comparative pour identifier les mutations compensatoires de l'ADN qui maintiennent les appariements de bases d'ARN, une caractéristique distinctive des molécules d'ARN. Plus de 80 % des régions génomiques présentant des preuves évolutives de la conservation de la structure de l'ARN ne présentent pas une forte conservation de la séquence d'ADN.

L'ADN non codant peut peut-être servir à diminuer la probabilité de perturbation des gènes lors du croisement chromosomique. [52]

Preuve des scores polygéniques et GWAS Modifier

Les études d'association à l'échelle du génome (GWAS) et l'analyse par apprentissage automatique de grands ensembles de données génomiques ont conduit à la construction de prédicteurs polygéniques pour les traits humains tels que la taille, la densité osseuse et de nombreux risques de maladie. Des prédicteurs similaires existent pour les espèces végétales et animales et sont utilisés dans la sélection agricole. [54] L'architecture génétique détaillée des prédicteurs humains a été analysée et les effets significatifs utilisés dans la prédiction sont associés à des régions d'ADN très éloignées des régions codantes. La fraction de variance prise en compte (c'est-à-dire la fraction du pouvoir prédictif capturé par le prédicteur) dans les régions codantes par rapport aux régions non codantes varie considérablement pour différents traits complexes. Par exemple, la fibrillation auriculaire et le risque de maladie coronarienne sont principalement contrôlés par des variantes dans les régions non codantes (fraction de variance non codante supérieure à 70 %), tandis que le diabète et l'hypercholestérolémie présentent le schéma opposé (variance non codante d'environ 20 à 30 % ). [53] Les différences individuelles entre les humains sont clairement affectées de manière significative par des loci génétiques non codants, ce qui est une preuve solide d'effets fonctionnels. Les génotypes de l'exome entier (c'est-à-dire qui contiennent des informations limitées aux régions codantes uniquement) ne contiennent pas suffisamment d'informations pour construire ou même évaluer des prédicteurs polygéniques pour de nombreux traits complexes et risques de maladie bien étudiés.

En 2013, il a été estimé qu'en général, jusqu'à 85% des loci GWAS ont des variantes non codantes comme association causale probable. Les variantes sont souvent courantes dans les populations et devraient affecter les risques de maladie par le biais de petits effets phénotypiques, par opposition aux effets importants des variantes mendéliennes. [55]

Certaines séquences d'ADN non codantes déterminent les niveaux d'expression de divers gènes, à la fois ceux qui sont transcrits en protéines et ceux qui sont eux-mêmes impliqués dans la régulation des gènes. [56] [57] [58]

Facteurs de transcription Modifier

Certaines séquences d'ADN non codantes déterminent où se fixent les facteurs de transcription. [56] Un facteur de transcription est une protéine qui se lie à des séquences d'ADN non codantes spécifiques, contrôlant ainsi le flux (ou transcription) d'informations génétiques de l'ADN à l'ARNm. [59] [60]

Opérateurs Modifier

Un opérateur est un segment d'ADN auquel se lie un répresseur. Un répresseur est une protéine de liaison à l'ADN qui régule l'expression d'un ou plusieurs gènes en se liant à l'opérateur et en bloquant la fixation de l'ARN polymérase au promoteur, empêchant ainsi la transcription des gènes. Ce blocage de l'expression est appelé refoulement. [61]

Améliorateurs Modifier

Un amplificateur est une courte région d'ADN qui peut être liée à des protéines (facteurs agissant en trans), un peu comme un ensemble de facteurs de transcription, pour améliorer les niveaux de transcription des gènes dans un groupe de gènes. [62]

Silencieux Modifier

Un silencieux est une région de l'ADN qui inactive l'expression des gènes lorsqu'elle est liée par une protéine régulatrice. Il fonctionne de manière très similaire en tant qu'amplificateurs, ne différant que par l'inactivation des gènes. [63]

Promoteurs Modifier

Un promoteur est une région de l'ADN qui facilite la transcription d'un gène particulier lorsqu'un facteur de transcription s'y lie. Les promoteurs sont généralement situés à proximité des gènes qu'ils régulent et en amont de ceux-ci. [64]

Isolateurs Modifier

Un isolant génétique est un élément limite qui joue deux rôles distincts dans l'expression des gènes, soit en tant que code bloquant l'amplificateur, soit rarement en tant que barrière contre la chromatine condensée. Un isolant dans une séquence d'ADN est comparable à un diviseur de mot linguistique tel qu'une virgule dans une phrase, car l'isolant indique où se termine une séquence améliorée ou réprimée. [65]

Évolution Modifier

Des séquences partagées d'ADN apparemment non fonctionnel sont une preuve majeure de descendance commune. [66]

Les séquences pseudogènes semblent accumuler les mutations plus rapidement que les séquences codantes en raison d'une perte de pression sélective. [15] Cela permet la création d'allèles mutants qui incorporent de nouvelles fonctions qui peuvent être favorisées par la sélection naturelle. Ainsi, les pseudogènes peuvent servir de matière première à l'évolution et peuvent être considérés comme des "protogènes". [67]

Une étude publiée en 2019 montre que de nouveaux gènes (appelés de novo naissance génétique) peuvent être façonnés à partir de régions non codantes. [68] Certaines études suggèrent qu'au moins un dixième des gènes pourraient être fabriqués de cette manière. [68]

Corrélations à longue portée Modifier

Une distinction statistique entre les séquences d'ADN codantes et non codantes a été trouvée. Il a été observé que les nucléotides dans les séquences d'ADN non codantes présentent des corrélations de loi de puissance à longue distance alors que les séquences codantes ne le font pas. [69] [70] [71]

Anthropologie médico-légale Modifier

La police recueille parfois de l'ADN comme preuve à des fins d'identification médico-légale. Comme décrit dans Maryland c. Roi, une décision de la Cour suprême des États-Unis en 2013 : [72]

La norme actuelle pour les tests ADN médico-légaux repose sur une analyse des chromosomes situés dans le noyau de toutes les cellules humaines. «Le matériel d'ADN dans les chromosomes est composé de régions "codantes" et "non-codantes". Les régions codantes sont appelées gènes et contiennent les informations nécessaires à une cellule pour fabriquer des protéines. . . . Régions non codantes pour les protéines. . . ne sont pas directement liés à la fabrication de protéines, [et] ont été appelés ADN « poubelle ». L'adjectif "poubelle" peut induire en erreur le profane, car en fait c'est la région de l'ADN utilisée avec une quasi-certitude pour identifier une personne. [72]


L'affaire de l'ADN indésirable

Les génomes sont comme des livres de vie. Mais jusqu'à récemment, leurs couvertures étaient verrouillées. Enfin, nous pouvons maintenant ouvrir les livres et les parcourir. Mais nous n'avons qu'une compréhension modeste de ce que nous voyons réellement. Nous ne savons toujours pas dans quelle mesure notre génome code des informations importantes pour notre survie et dans quelle mesure il ne s'agit que d'un rembourrage brouillé.

Aujourd'hui est un bon jour pour plonger dans le débat sur la composition du génome, grâce à la publication d'un commentaire intéressant d'Alex Palazzo et Ryan Gregory dans PLOS Génétique. C'est ce qu'on appelle "L'affaire de l'ADN indésirable".

Le débat sur le génome peut devenir vertigineux. Je trouve que le meilleur antidote au vertige est un peu d'histoire. Cette histoire commence au début des années 1900.

À l'époque, les généticiens savaient que nous portons des gènes - des facteurs transmis des parents à la progéniture qui influencent notre corps - mais ils ne savaient pas de quoi étaient faits les gènes.

Cela a changé à partir des années 1950. Les scientifiques ont reconnu que les gènes étaient constitués d'ADN, puis ont compris comment les gènes façonnent notre biologie.

Notre ADN est une chaîne d'unités appelées bases. Nos cellules lisent les bases dans un tronçon d'ADN – un gène – et construisent une molécule appelée ARN avec une séquence correspondante. Les cellules utilisent ensuite l'ARN comme guide pour construire une protéine. Notre corps contient de nombreuses protéines différentes, qui lui donnent une structure et effectuent des tâches telles que la digestion des aliments.

Mais dans les années 1950, les scientifiques ont également commencé à découvrir des morceaux d'ADN en dehors des régions codant pour les protéines qui étaient également importantes. Ces éléments dits régulateurs ont agi comme des commutateurs pour les gènes codant pour les protéines. Une protéine se verrouillant sur l'un de ces commutateurs pourrait inciter une cellule à fabriquer de nombreuses protéines à partir d'un gène donné. Ou cela pourrait arrêter complètement le gène.

Pendant ce temps, les scientifiques ont également trouvé des morceaux d'ADN dans le génome qui ne semblaient être ni des gènes codant pour des protéines ni des éléments régulateurs. Dans les années 1960, par exemple, Roy Britten et David Kohne ont trouvé des centaines de milliers de segments d'ADN répétitifs, chacun d'entre eux ne mesurant que quelques centaines de bases. Beaucoup de ces séquences répétitives étaient le produit d'étirements d'ADN ressemblant à des virus. Ces morceaux d'« ADN égoïste » ont fait des copies d'eux-mêmes qui ont été réinsérées dans le génome. Des mutations les ont ensuite réduits en fragments inertes.

D'autres scientifiques ont découvert des copies supplémentaires de gènes qui présentaient des mutations les empêchant de fabriquer des protéines, ce que l'on a appelé les pseudogènes.

Le génome humain, nous le savons maintenant, contient environ 20 000 gènes codant pour des protéines. Cela peut sembler beaucoup de matériel génétique. Mais il ne représente qu'environ 2% du génome. Certaines plantes sont encore plus extrêmes. Alors que nous avons environ 3,2 milliards de bases dans nos génomes, les oignons en ont 16 milliards, principalement constitués de séquences répétées et d'ADN de type virus.

Le reste du génome est devenu un désert mystérieux pour les généticiens. Ils partaient en expédition pour cartographier les régions non codantes et essayaient de comprendre de quoi elles étaient faites.

Certains segments d'ADN se sont avérés avoir des fonctions, même s'ils ne codaient pas pour des protéines ou servaient de commutateurs. Par exemple, nos cellules fabriquent parfois des molécules d'ARN qui ne servent pas simplement de modèles pour les protéines. Au lieu de cela, ils ont leurs propres tâches, telles que la détection de produits chimiques dans la cellule. Ainsi, ces segments d'ADN sont également considérés comme des gènes, mais pas comme des gènes codant pour des protéines.

L'exploration du génome s'est accompagnée d'une floraison d'étiquettes, dont certaines ont été utilisées de manière confuse – et parfois négligente. « ADN non codant » est devenu un raccourci pour l'ADN qui ne code pas les protéines. Mais l'ADN non codant pourrait toujours avoir une fonction, telle que la coupure de gènes ou la production de molécules d'ARN utiles.

Les scientifiques ont également commencé à faire référence à «l'ADN indésirable». Différents scientifiques ont utilisé le terme pour désigner différentes choses. Le généticien japonais Susumu Ohno a utilisé le terme lors de l'élaboration d'une théorie sur la façon dont l'ADN mute. Ohno a envisagé la duplication accidentelle de gènes codant pour des protéines. Plus tard, des mutations frapperaient les nouvelles copies de ces gènes. In a few cases, the mutations would give the new gene copies a new function. In most, however, they just killed the gene. He referred to the extra useless copies of genes as junk DNA. Other people used the term to refer broadly to any piece of DNA that didn’t have a function.

And then–like crossing the streams in Ghostbusters–junk DNA and non-coding DNA got mixed up. Sometimes scientists discovered a stretch of non-coding DNA that had a function. They might clip out the segment from the DNA in an egg and find it couldn’t develop properly. BAM!–there was a press release declaring that non-coding DNA had long been dismissed as junk, but lo and behold, non-coding DNA can do something after all.

Given that regulatory elements were discovered in the 1950s (the discovery was recognized with Nobel Prizes), this is just illogical.

Nevertheless, a worthwhile questioned remained: how of the genome had a function? How much was junk?

To Britten and Kohne, the idea that repeating DNA was useless was “repugnant.” Seemingly on aesthetic grounds, they preferred the idea that it had a function that hadn’t been discovered yet.

Others, however, argued that repeating DNA (and pseudogenes and so on) were just junk–vast vestiges of disabled genetic material that we carry down through the generations. If the genome was mostly functional, then it was hard to see why it takes five times more functional DNA to make an onion than a human–or to explain the huge range of genome sizes:

In recent years, a consortium of scientists carried out a project called the Encyclopedia of DNA Elements (ENCODE for short) to classify all the parts of the genome. To see if non-coding DNA was functional, they checked for proteins that were attached to them–possibly switching on regulatory elements. They found a lot of them.

“These data enabled us to assign biochemical functions for 80% of the genome, in particular outside of the well-studied protein-coding regions,” they reported.

Science translated that conclusion into a headline, “ENCODE Project writes eulogy for junk DNA.”

A lot of defenders of junk have attacked this conclusion–or, to be more specific, how the research got translated into press releases and then into news articles. In their new review, Palazzo and Gregory present some of the main objections.

Just because proteins grab onto a piece of DNA, for example, doesn’t actually mean that there’s a gene nearby that is going to make something useful. It could just happen to have the right sequence to make the proteins stick to it.

And even if a segment of DNA does give rise to RNA, that RNA may not have a function. The cell may accidentally make RNA molecules, which they then chop up.

If I had to guess why Britten and Kohne found junk DNA repugnant, it probably had to do with evolution. Darwin, after all, had shown how natural selection can transform a population, and how, over millions of years, it could produce adaptations. In the 1900s, geneticists turned his idea into a modern theory. Genes that boosted reproduction could become more common, while ones that didn’t could be eliminated from a population. You’d expect that natural selection would have left the genome mostly full of functional stuff.

Palazzo and Gregory, on the other hand, argue that evolution devrait produce junk. The reason has to do with the fact that natural selection can be quite weak in some situations. The smaller a population gets, the less effective natural selection is at favoring beneficial mutations. In small populations, a mutation can spread even if it’s not beneficial. And compared to bacteria, the population of humans is very small. (Technically speaking, it’s the “effective population size” that’s small–follow the link for an explanation of the difference.) When non-functional DNA builds up in our genome, it’s harder for natural selection to strip it out than if we were bacteria.

While junk is expected, a junk-free genome is not. Palazzo and Gregory based this claim on a concept with an awesome name: mutational meltdown.

Here’s how it works. A population of, say, frogs is reproducing. Every time they produce a new tadpole, that tadpole gains a certain number of mutations. A few of those mutations may be beneficial. The rest will be neutral or harmful. If harmful mutations emerge at a rate that’s too fast for natural selection to weed them out, they’ll start to pile up in the genome. Overall, the population will get sicker, producing fewer offspring. Eventually the mutations will drive the whole population to extinction.

Mutational meltdown puts an upper limit on how many genes an organism can have. If a frog has 10,000 genes, those are 10,000 potential targets for a harmful mutation. If the frog has 100,000 genes, it has ten times more targets.

Estimates of the human mutation rate suggest that somewhere between 70 to 150 new mutations strike the genome of every baby. Based on the risk of mutational meltdown, Palazzo and Gregory estimate that only ten percent of the human genome can be functional.* The other ninety percent must be junk DNA. If a mutation alters junk DNA, it doesn’t do any harm because the junk isn’t doing us any good to begin with. If our genome was 80 percent functional–the figure batted around when the ENCODE project results first came out–then we should be extinct.

It may sound wishy-washy for me to say this, but the junk DNA debates will probably settle somewhere in between the two extremes. Is the entire genome functional? No. Is everything aside from protein-coding genes junk? No–we’ve already known that non-coding DNA can be functional for over 50 years. Even if “only” ten percent of the genome turns out to be functional, that’s a huge collection of DNA. It’s six times bigger than the DNA found in all our protein-coding genes. There could be thousands of RNA molecules scientists have yet to understand.

Even if ninety percent of the genome does prove to be junk, that doesn’t mean the junk hasn’t played a role in our evolution. As I wrote last week in the New York Times, it’s from these non-coding regions that many new protein-coding genes evolve. What’s more, much of our genome is made up of viruses, and every now and then evolution has, in effect, harnessed those viral genes to carry out a job for our own bodies. The junk is a part of us, and it, too, helps to make us what we are.

*I mean functional in terms of its sequence. The DNA might still do something important structurally–helping the molecule bend in a particular way, for example.

[Update: Fixed caption. Tweaked the last paragraph to clarify that it’s not a case of teleology.]


Glossaire

DNA: Deoxyribonucleic acid is the chemical that stores genetic information in our cells. Shaped like a double helix, DNA passes down from one generation to the next.

RNA: Ribonucleic acid is a type of molecule used in making proteins in the body.

Genome: The complete genetic makeup of an organism, which contains all the biological information to build and keep it alive.

Gene: A stretch of DNA that tells a cell how to make specific proteins or RNA molecules.

Enzyme: A molecule that promotes a chemical reaction inside a living organism.

Stem cell: A biological master cell that can multiply and become many different types of tissue. They can also replicate to make more stem cells.


Functions for the Useless

Nearly a decade after the completion of the Human Genome Project, which gave us the first full read of our genetic script at the start of the century, a team of over 400 scientists released what they called the Encyclopedia of DNA Elements , or ENCODE for short. The international collaboration explored the function of every letter in the genome. The results of the massive undertaking called for a reassessment of junk DNA. Though less than two percent of the genome makes proteins, around 80 percent carries out some sort of function.

What fell into ENCODE’s definition of functionality was pretty broad, however. Any “biochemical activity” was fair game — getting transcribed into RNA, even if chopped later in the process, qualified sequences as functional. But many of the “junk” sections do have important roles, including regulating how DNA is transcribed and translated from there into proteins. If protein-coding sequences are the notes of a symphony, then some of the non-coding sequences act like the conductor, influencing the pace and repetitions of the masterpiece.

But not every bit of junk DNA might have a functional use. In a study published in Molecular Biology of the Cell in 2008, scientists cleaned junk DNA from yeast’s genome. For particular genes, they got rid of introns — the sections that get chopped away after DNA transcription. They reported the intron removal had no significant consequences for the cells under laboratory conditions, supporting the notion that they don’t have any function.

But studies published in Nature this year argued otherwise. When food is scarce, researchers found these sequences are essential for yeast survival. The usefulness of these introns might depend on the context, these studies argue — still a far cry from being junk.


Research team finds important role for junk DNA

Scientists have called it "junk DNA." They have long been perplexed by these extensive strands of genetic material that dominate the genome but seem to lack specific functions. Why would nature force the genome to carry so much excess baggage?

Now researchers from Princeton University and Indiana University who have been studying the genome of a pond organism have found that junk DNA may not be so junky after all. They have discovered that DNA sequences from regions of what had been viewed as the "dispensable genome" are actually performing functions that are central for the organism. They have concluded that the genes spur an almost acrobatic rearrangement of the entire genome that is necessary for the organism to grow.

It all happens very quickly. Genes called transposons in the single-celled pond-dwelling organism Oxytricha produce cell proteins known as transposases. During development, the transposons appear to first influence hundreds of thousands of DNA pieces to regroup. Then, when no longer needed, the organism cleverly erases the transposases from its genetic material, paring its genome to a slim 5 percent of its original load.

Laura Landweber (Photo: Denise Applewhite)

"The transposons actually perform a central role for the cell," said Laura Landweber, a professor of ecology and evolutionary biology at Princeton and an author of the study. "They stitch together the genes in working form." The work appeared in the May 15 edition of Science.

In order to prove that the transposons have this reassembly function, the scientists disabled several thousand of these genes in some Oxytricha. The organisms with the altered DNA, they found, failed to develop properly.

Other authors from Princeton's Department of Ecology and Evolutionary Biology include: postdoctoral fellows Mariusz Nowacki and Brian Higgins 2006 alumna Genevieve Maquilan and graduate student Estienne Swart. Former Princeton postdoctoral fellow Thomas Doak, now of Indiana University, also contributed to the study.

Landweber and other members of her team are researching the origin and evolution of genes and genome rearrangement, with particular focus on Oxytricha because it undergoes massive genome reorganization during development.

In her lab, Landweber studies the evolutionary origin of novel genetic systems such as Oxytricha's. By combining molecular, evolutionary, theoretical and synthetic biology, Landweber and colleagues last year discovered an RNA (ribonucleic acid)-guided mechanism underlying its complex genome rearrangements.

"Last year, we found the instruction book for how to put this genome back together again -- the instruction set comes in the form of RNA that is passed briefly from parent to offspring and these maternal RNAs provide templates for the rearrangement process," Landweber said. "Now we've been studying the actual machinery involved in the process of cutting and splicing tremendous amounts of DNA. Transposons are very good at that."

The term "junk DNA" was originally coined to refer to a region of DNA that contained no genetic information. Scientists are beginning to find, however, that much of this so-called junk plays important roles in the regulation of gene activity. No one yet knows how extensive that role may be.

Instead, scientists sometimes refer to these regions as "selfish DNA" if they make no specific contribution to the reproductive success of the host organism. Like a computer virus that copies itself ad nauseum, selfish DNA replicates and passes from parent to offspring for the sole benefit of the DNA itself. The present study suggests that some selfish DNA transposons can instead confer an important role to their hosts, thereby establishing themselves as long-term residents of the genome.


Is 75% of the Human Genome Junk DNA?

By the rude bridge that arched the flood,
Their flag to April’s breeze unfurled,
Here once the embattled farmers stood,
And fired the shot heard round the world.

–Ralph Waldo Emerson, Concord Hymn

Emerson referred to the Battles of Lexington and Concord, the first skirmishes of the Revolutionary War, as the “shot heard round the world.”

While not as loud as the gunfire that triggered the Revolutionary War, a recent article published in Genome Biology and Evolution by evolutionary biologist Dan Graur has garnered a lot of attention, 1 serving as the latest salvo in the junk DNA wars—a conflict between genomics scientists and evolutionary biologists about the amount of functional DNA sequences in the human genome.

Clearly, this conflict has important scientific ramifications, as researchers strive to understand the human genome and seek to identify the genetic basis for diseases. The functional content of the human genome also has significant implications for creation-evolution skirmishes. If most of the human genome turns out to be junk after all, then the case for a Creator potentially suffers collateral damage.

According to Graur, no more than 25% of the human genome is functional—a much lower percentage than reported by the ENCODE Consortium. Released in September 2012, phase II results of the ENCODE project indicated that 80% of the human genome is functional, with the expectation that the percentage of functional DNA in the genome would rise toward 100% when phase III of the project reached completion.

If true, Graur’s claim would represent a serious blow to the validity of the ENCODE project conclusions and devastate the RTB human origins creation model. Intelligent design proponents and creationists (like me) have heralded the results of the ENCODE project as critical in our response to the junk DNA challenge.

Junk DNA and the Creation vs. Evolution Battle

Evolutionary biologists have long considered the presence of junk DNA in genomes as one of the most potent pieces of evidence for biological evolution. Skeptics ask, “Why would a Creator purposely introduce identical nonfunctional DNA sequences at the same locations in the genomes of different, though seemingly related, organisms?”

When the draft sequence was first published in 2000, researchers thought only around 2–5% of the human genome consisted of functional sequences, with the rest being junk. Numerous skeptics and evolutionary biologists claim that such a vast amount of junk DNA in the human genome is compelling evidence for evolution and the most potent challenge against intelligent design/creationism.

But these arguments evaporate in the wake of the ENCODE project. If valid, the ENCODE results would radically alter our view of the human genome. No longer could the human genome be regarded as a wasteland of junk rather, the human genome would have to be recognized as an elegantly designed system that displays sophistication far beyond what most evolutionary biologists ever imagined.

ENCODE Skeptics

The findings of the ENCODE project have been criticized by some evolutionary biologists who have cited several technical problems with the study design and the interpretation of the results. (See articles listed under “Resources to Go Deeper” for a detailed description of these complaints and my responses.) But ultimately, their criticisms appear to be motivated by an overarching concern: if the ENCODE results stand, then it means key features of the evolutionary paradigm can’t be correct.

Calculating the Percentage of Functional DNA in the Human Genome

Graur (perhaps the foremost critic of the ENCODE project) has tried to discredit the ENCODE findings by demonstrating that they are incompatible with evolutionary theory. Toward this end, he has developed a mathematical model to calculate the percentage of functional DNA in the human genome based on mutational load—the amount of deleterious mutations harbored by the human genome.

Graur argues that junk DNA functions as a “ sponge ” absorbing deleterious mutations, thereby protecting functional regions of the genome. Considering this buffering effect, Graur wanted to know how much junk DNA must exist in the human genome to buffer against the loss of fitness—which would result from deleterious mutations in functional DNA—so that a constant population size can be maintained.

Historically, the replacement level fertility rates for human beings have been two to three children per couple. Based on Graur’s modeling, this fertility rate requires 85–90% of the human genome to be composed of junk DNA in order to absorb deleterious mutations—ensuring a constant population size, with the upper limit of functional DNA capped at 25%.

Graur also calculated a fertility rate of 15 children per couple, at minimum, to maintain a constant population size, assuming 80% of the human genome is functional. According to Graur’s calculations, if 100% of the human genome displayed function, the minimum replacement level fertility rate would have to be 24 children per couple.

He argues that both conclusions are unreasonable. On this basis, therefore, he concludes that the ENCODE results cannot be correct.

Response to Graur

So, has Graur’s work invalidated the ENCODE project results? À peine. Here are four reasons why I’m skeptical.

1. Graur’s estimate of the functional content of the human genome is based on mathematical modeling, not experimental results.

An adage I heard repeatedly in graduate school applies: “Theories guide, experiments decide.” Though the ENCODE project results théoriquement don’t make sense in light of the evolutionary paradigm, that is not a reason to consider them invalid. A growing number of studies provide independent expérimental validation of the ENCODE conclusions. (Go here and here for two recent examples.)

To question experimental results because they don’t align with a theory’s predictions is a “ Bizarro World ” approach to science. Experimental results and observations determine a theory’s validity, not the other way around. Yet when it comes to the ENCODE project, its conclusions seem to be weighed based on their conformity to evolutionary theory. Simply put, ENCODE skeptics are doing science backwards.

While Graur and other evolutionary biologists argue that the ENCODE results don’t make sense from an evolutionary standpoint, I would argue as a biochemist that the high percentage of functional regions in the human genome makes perfect sense. The ENCODE project determined that a significant fraction of the human genome is transcribed. They also measured high levels of protein binding.

ENCODE skeptics argue that this biochemical activity is merely biochemical noise. But this assertion does not make sense because (1) biochemical noise costs energy and (2) random interactions between proteins and the genome would be harmful to the organism.

Transcription is an energy- and resource-intensive process. To believe that most transcripts are merely biochemical noise would be untenable. Such a view ignores cellular energetics. Transcribing a large percentage of the genome when most of the transcripts serve no useful function would routinely waste a significant amount of the organism’s energy and material stores. If such an inefficient practice existed, surely natural selection would eliminate it and streamline transcription to produce transcripts that contribute to the organism’s fitness.

Apart from energetics considerations, this argument ignores the fact that random protein binding would make a dire mess of genome operations. Without minimizing these disruptive interactions, biochemical processes in the cell would grind to a halt. It is reasonable to think that the same considerations would apply to transcription factor binding with DNA.

2. Graur’s model employs some questionable assumptions.

Graur uses an unrealistically high rate for deleterious mutations in his calculations.

Graur determined the deleterious mutation rate using protein-coding genes. These DNA sequences are highly sensitive to mutations. In contrast, other regions of the genome that display function—such as those that (1) dictate the three-dimensional structure of chromosomes, (2) serve as transcription factors, and (3) aid as histone binding sites—are much more tolerant to mutations. Ignoring these sequences in the modeling work artificially increases the amount of required junk DNA to maintain a constant population size.

3. The way Graur determines if DNA sequence elements are functional is questionable.

Graur uses the selected-effect definition of function. According to this definition, a DNA sequence is only functional if it is undergoing negative selection. In other words, sequences in genomes can be deemed functional seul if they evolved under evolutionary processes to perform a particular function. Once evolved, these sequences, if they are functional, will resist evolutionary change (due to natural selection) because any alteration would compromise the function of the sequence and endanger the organism. If deleterious, the sequence variations would be eliminated from the population due to the reduced survivability and reproductive success of organisms possessing those variants. Hence, functional sequences are those under the effects of selection.

In contrast, the ENCODE project employed a causal definition of function. Accordingly, function is ascribed to sequences that play some observationally or experimentally determined role in genome structure and/or function.

The ENCODE project focused on experimentally determining which sequences in the human genome displayed biochemical activity using assays that measured

  • transcription,
  • binding of transcription factors to DNA,
  • histone binding to DNA,
  • DNA binding by modified histones,
  • DNA methylation, and
  • three-dimensional interactions between enhancer sequences and genes.

In other words, if a sequence is involved in any of these processes—all of which play well-established roles in gene regulation—then the sequences must have functional utility. That is, if sequence Q performs function g, then sequence Q is functional.

So why does Graur insist on a selected-effect definition of function? For no other reason than a causal definition ignores the evolutionary framework when determining function. He insists that function be defined exclusively within the context of the evolutionary paradigm. In other words, his preference for defining function has more to do with philosophical concerns than scientific ones—and with a deep-seated commitment to the evolutionary paradigm.

As a biochemist, I am troubled by the selected-effect definition of function because it is theory-dependent. In science, cause-and-effect relationships (which include biological and biochemical function) need to be established experimentally and observationally, independent of any particular theory. Once these relationships are determined, they can then be used to evaluate the theories at hand. Do the theories predict (or at least accommodate) the established cause-and-effect relationships, or not?

Using a theory-dependent approach poses the very real danger that experimentally determined cause-and-effect relationships (or, in this case, biological functions) will be discarded if they don’t fit the theory. And, again, it should be the other way around. A theory should be discarded, or at least reevaluated, if its predictions don’t match these relationships.

What difference does it make which definition of function Graur uses in his model? A big difference. The selected-effect definition is more restrictive than the causal-role definition. This restrictiveness translates into overlooked function and increases the replacement level fertility rate.

4. Buffering against deleterious mutations is a function.

As part of his model, Graur argues that junk DNA is necessary in the human genome to buffer against deleterious mutations. By adopting this view, Graur has inadvertently identified function for junk DNA. In fact, he is not the first to argue along these lines. Biologist Claudiu Bandea has posited that high levels of junk DNA can make genomes resistant to the deleterious effects of transposon insertion events in the genome. If insertion events are random, then the offending DNA is much more likely to insert itself into “junk DNA” regions instead of coding and regulatory sequences, thus protecting information-harboring regions of the genome.

If the last decade of work in genomics has taught us anything, it is this: we are in our infancy when it comes to understanding the human genome. The more we learn about this amazingly complex biochemical system, the more elegant and sophisticated it becomes. Through this process of discovery, we continue to identify functional regions of the genome—DNA sequences long thought to be “ junk. "

In short, the criticisms of the ENCODE project reflect a deep-seated commitment to the evolutionary paradigm and, bluntly, are at war with the experimental facts.

Bottom line: if the ENCODE results stand, it means that key aspects of the evolutionary paradigm can’t be correct.


Perennial Problem of C-Value

Information and Structure.

The junk idea long predates genomics and since its early decades has been grounded in the “C-value paradox,” the observation that DNA amounts (C-value denotes haploid nuclear DNA content) and complexities correlate very poorly with organismal complexity or evolutionary “advancement” (10 ⇓ ⇓ ⇓ –14). Humans do have a thousand times as much DNA as simple bacteria, but lungfish have at least 30 times more than humans, as do many flowering plants and some unicellular protists (14). Moreover, as is often noted, the disconnection between C-value and organismal complexity is also found within more restricted groups comprising organisms of seemingly similar lifestyle and comparable organismal or behavioral complexity. The most heavily burdened lungfish (Protopterus aethiopicus) lumbers around with 130,000 Mb, but the pufferfish Takifugu (Auparavant Fugu) rubripes gets by on less than 400 Mb (15, 16). A less familiar but better (because monophyletic) animal example might be amphibians, showing a 120-fold range from frogs to salamanders (17). Among angiosperms, there is a thousandfold variation (14). Additionally, even within a single genus, there can be substantial differences. Salamander species belonging to Pléthodon boast a fourfold range, to cite a comparative study popular from the 1970s (18). Sometimes, such within-genus genome size differences reflect large-scale or whole-genome duplications and sometimes rampant selfish DNA or transposable element (TE) multiplication. Schnable et al. (19) figure that the maize genome has more than doubled in size in the last 3 million y, overwhelmingly through the replication and accumulation of TEs for example. If we do not think of this additional or “excess” DNA, so manifest through comparisons between and within biological groups, as junk (irrelevant if not frankly detrimental to the survival and reproduction of the organism bearing it), how then are we to think of it?

Of course, DNA inevitably does have a basic structural role to play, unlinked to specific biochemical activities or the encoding of information relevant to genes and their expression. Centromeres and telomeres exemplify noncoding chromosomal components with specific functions. More generally, DNA as a macromolecule bulks up and gives shape to chromosomes and thus, as many studies show, determines important nuclear and cellular parameters such as division time and size, themselves coupled to organismal development (11 ⇓ –13, 17). The “selfish DNA” scenarios of 1980 (20 ⇓ –22), in which C-value represents only the outcome of conflicts between upward pressure from reproductively competing TEs and downward-directed energetic restraints, have thus, in subsequent decades, yielded to more nuanced understandings. Cavalier-Smith (13, 20) called DNA’s structural and cell biological roles “nucleoskeletal,” considering C-value to be optimized by organism-level natural selection (13, 20). Gregory, now the principal C-value theorist, embraces a more “pluralistic, hierarchical approach” to what he calls “nucleotypic” function (11, 12, 17). A balance between organism-level selection on nuclear structure and cell size, cell division times and developmental rate, selfish genome-level selection favoring replicative expansion, and (as discussed below) supraorganismal (clade-level) selective processes—as well as drift—must all be taken into account.

These forces will play out differently in different taxa. González and Petrov (23) point out, for instance, that Drosophile and humans are at opposite extremes in terms of the balance of processes, with the minimalist genomes of the former containing few (but mostly young and quite active) TEs, whereas at least one-half of our own much larger genome comprises the moribund remains of older TEs, principally SINEs and LINEs (short and long interspersed nuclear elements). Such difference may in part reflect population size. As Lynch notes, small population size (characteristic of our species) will have limited the effectiveness of natural selection in preventing a deleterious accumulation of TEs (24, 25).

Zuckerkandl (26) once mused that all genomic DNA must be to some degree “polite,” in that it must not lethally interfere with gene expression. Indeed, some might suggest, as I will below, that true junk might better be defined as DNA not currently held to account by selection for any sort of role operating at any level of the biological hierarchy (27). However, junk advocates have to date generally considered that even DNA fulfilling bulk structural roles remains, in terms of encoded information, just junk. Cell biology may require a certain C-value, but most of the stretches of noncoding DNA that go to satisfying that requirement are junk (or worse, selfish).

In any case, structural roles or multilevel selection theorizing are not what ENCODE commentators are endorsing when they proclaim the end of junk, touting the existence of 4 million gene switches or myriad elements that determine gene expression and assigning biochemical functions for 80% of the genome. Indeed, there would be no excitement in either the press or the scientific literature if all the ENCODE team had done was acknowledge an established theory concerning DNA’s structural importance. Rather, the excitement comes from interpreting ENCODE’s data to mean that a much larger fraction of our DNA than until very recently thought contributes to our survival and reproduction as organisms, because it encodes information transcribed or expressed phenotypically in one tissue or another, or specifically regulates such expression.

A Thought Experiment.

ENCODE (5) defines a functional element (FE) as “a discrete genome segment that encodes a defined product (for example, protein or non-coding RNA) or displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure).” A simple thought experiment involving FEs so-defined is at the heart of my argument.

Suppose that there had been (and probably, some day, there will be) ENCODE projects aimed at enumerating, by transcriptional and chromatin mapping, factor footprinting, and so forth, all of the FEs in the genomes of Takifugu and a lungfish, some small and large genomed amphibians (including several species of Pléthodon), plants, and various protists. There are, I think, two possible general outcomes of this thought experiment, neither of which would give us clear license to abandon junk.

The first outcome would be that FEs (estimated to be in the millions in our genome) turn out to be more or less constant in number, regardless of C-value—at least among similarly complex organisms. If larger C-value by itself does not imply more FEs, then there will, of course, be great differences in what we might call functional density (FEs per kilobase) (26) among species. FEs spaced by kilobases in Arabidopsis would be megabases apart in maize on average. Averages obscure details: the extra DNA in the larger genomes might be sequestered in a few giant silent regions rather than uniformly stretching out the space between FEs or lengthening intragenic introns. However, in either case, this DNA could be seen as a sort of polite functionless filler or diluent. At best, such DNA might have functions only of the structural or nucleoskeletal/nucleotypic sort. Indeed, even this sort of functional attribution is not necessary. There is room within an expanded, pluralistic and hierarchical theory of C-value (see below) (12, 27) for much DNA that makes no contribution whatever to survival and reproduction at the organismal level and thus is junk at that level, although it may be under selection at the sub- or supraorganismal levels (TEs and clade selection).

If the human genome is junk-free, then it must be very luckily poised at some sort of minimal size for organisms of human complexity. We may no longer think that mankind is at the center of the universe, but we still consider our species’ genome to be unique, first among many in having made such full and efficient use of all of its millions of SINES and LINES (retrotransposable elements) and introns to encode the multitudes of lncRNAs and house the millions of enhancers necessary to make us the uniquely complex creatures that we believe ourselves to be. However, were this extraordinary coincidence the case, a corollary would be that junk would not be defunct for many other larger genomes: the term would not need to be expunged from the genomicist’s lexicon more generally. As well, if, as is commonly believed, much of the functional complexity of the human genome is to be explained by evolution of our extraordinary cognitive capacities, then many other mammals of lesser acumen but similar C-value must truly have junk in their DNA.

The second likely general outcome of my thought experiment would be that FEs as defined by ENCODE increase in number with C-value, regardless of apparent organismal complexity. If they increase roughly proportionately, FE numbers will vary over a many-hundredfold range among organisms normally thought to be similarly complex. Defining or measuring complexity is, of course, problematic if not impossible. Still, it would be hard to convince ourselves that lungfish are 300 times more complex than Takifugu or 40 times more complex than us, whatever complexity might be. More likely, if indeed FE numbers turn out to increase with C-value, we will decide that we need to think again about what function is, how it becomes embedded in macromolecular structures, and what FEs as defined by ENCODE have to tell us about it.


What's the origin of junk DNA? - La biologie

NIST-led Research De-Mystifies Origins Of 'Junk' DNA

One man's junk, is another's treasure
Washington - Mar 26, 2004
A debate over the origins of what is sometimes called "junk" DNA has been settled by research involving scientists at the Center for Advanced Research in Biotechnology (CARB) and a collaborator, who developed rigorous proof that these mysterious sections were added to DNA "late" in the evolution of life on earth--after the formation of modern-sized genes, which contain instructions for making proteins.

A biologist with the Commerce Department's National Institute of Standards and Technology (NIST) led the research team, which reported its findings in the March 10 online edition of Molecular Biology and Evolution.

The results are based on a systematic, statistically rigorous analysis of publicly available genetic data carried out with bioinformatics software developed at CARB.

In humans, there is so much apparent "junk" DNA (sections of the genome with no known function) that it takes up more space than the functional parts. Much of this junk consists of "introns," which appear as interruptions plopped down in the middle of genes.

Discovered in the 1970s, introns mystify scientists but are readily accounted for by cells: when the cellular machinery transcribes a gene in preparation for making a protein, introns are simply spliced out of the transcript.

Research from the CARB group appears to resolve a debate over the "early versus late" timing of the appearance of introns. Since introns were discovered in 1978, scientists have debated whether genes were born split (the "introns-early" view), or whether they became split after eukaryotic cells (the ones that gave rise to animals and their relatives) diverged from bacteria roughly 2 billion years ago (the "introns-late" view).

Bacterial genomes lack introns. Although the study did not attempt to propose a function for introns, or determine whether they are beneficial or harmful, the results appear to rule out the "introns-early" view.

The CARB analysis shows that the probability of a modern intron's presence in an ancestral gene common to the genes studied is roughly 1 percent, indicating that the vast majority of today's introns appeared subsequent to the origin of the genes.

This conclusion is supported by the findings regarding placement patterns for introns within genes. It long has been observed that, in the sequences of nitrogen-containing compounds that make up our DNA genomes, introns prefer some sites more than others. The CARB study indicates that these preferences are side effects of late-stage intron gain, rather than side effects of intron-mediated gene formation.

The CARB results are based on an analysis of carefully processed data for 10 families of protein-coding genes in animals, plants, fungi and their relatives (see sidebar for details of the method used). A variety of statistical modeling, theoretical, and automated analytical approaches were used while most were conventional, their combined application to the study of introns was novel.

The CARB study also is unique in using an evolutionary model as the basis for inferring the presence of ancestral introns. The research was made possible in part by the increasing availability, over the past decade, of massive amounts of genetic sequence data.

The lead researcher is Arlin B. Stoltzfus of NIST collaborators include Wei-Gang Qiu, formerly of CARB and the University of Mayland and now at Hunter College in New York City, and Nick Schisler, currently at Furman University, Greenville, S.C.

CARB is a cooperative venture of NIST and the University of Maryland Biotechnology Institute.

CARB's Approach to Understanding the Origins of 'Junk' DNA

Scientists long have compared the sequences of chemical compounds in different proteins, genes and entire genomes to derive clues about structure and function.

The most sophisticated comparative methods are evolutionary and rely on matching similar sequences from different organisms, inferring family trees to determine relationships, and reconstructing changes that must have occurred to create biologically relevant differences.

This type of analysis is usually done with one sequence family at a time. The Center for Advanced Research in Biotechnology (CARB), a cooperative venture of the Commerce Department's National Institute of Standards and Technology (NIST) and the University of Maryland Biotechnology Institute, developed software to automate the analysis of dozens--and perhaps hundreds, eventually--of sequence families at a time.

The automated methods also assess the reliability of all the information, so that conclusions are based on the most reliable parts of the analysis.

The CARB method has two parts. The first part consists of a combination of manual and automated processing of gene data from public databases. The data are clustered into families through matching of similar sequences, first in pairs and then in groups.

Then family trees are developed indicating how the genes are related to each other. A file is developed for each family that includes data on sequence matches, intron locations, family trees and reliability measures.

These datasets then are loaded into the second part of the system, which is fully automated. It consist of a relational database combined with software that computes probabilities for introns being present in ancestral genes using a method developed at CARB.

Each gene is assigned to a kingdom (plants, animals, fungi and others), and a matrix of intron presence/absence data is determined for each family based on the sequence alignments. This matrix, along with the family tree, is used to estimate ancestral states of introns, as well as rates of intron loss and gain. Additional software is used for analysis and visualization of results.

The CARB study analyzed data for 10 families of protein-coding genes in multi-celled organisms, encompassing 1,868 introns at 488 different positions.

Life-Seeking Chip Will Join Space Probes
Pasadena (UPI) Mar 23, 2004
U.S. scientists said Tuesday they have developed a miniature laboratory that can spot a tell-tale chemical signature of life.

With the rise of Ad Blockers, and Facebook - our traditional revenue sources via quality network advertising continues to decline. And unlike so many other news sites, we don't have a paywall - with those annoying usernames and passwords.



Commentaires:

  1. Buinton

    Hmm ... rien du tout.

  2. Custennin

    Félicitations, ça va avoir une bonne idée juste en passant

  3. Julrajas

    Ne vous en faites pas !

  4. Mebei

    Je crois que tu as eu tort. Écrivez-moi dans PM, parlez.



Écrire un message