Informations

Quantification de l'expression des gènes

Quantification de l'expression des gènes


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai découvert que de nombreuses études utilisent la concentration d'ARNm comme « proxy » pour l'activité des protéines, car il devrait y avoir une corrélation entre les niveaux d'ARNm et les niveaux d'expression des protéines. Comment l'activité des protéines est-elle quantifiée ? Quelle quantité est utilisée ? Quels sont les niveaux d'expression des protéines ?

Je fais une analyse de données statistiques en utilisant cet ensemble de données. J'aimerais comprendre pourquoi ils se sont intéressés à mesurer la concentration d'ARNm après l'irradiation gamma des cellules (et en général, il me semble que les biologistes de nombreuses expériences s'y intéressent). J'ai trouvé sur ce site cette discussion sur la corrélation entre la concentration d'ARNm (donc le niveau d'expression des gènes) et le "niveau d'expression des protéines". Par conséquent, je voulais savoir ce qu'est ce dernier. De plus, dans l'article lié à mon jeu de données est écrit

Très peu de gènes de réparation de l'ADN ont affiché une expression différentielle significative chez P. furiosus après une irradiation gamma.

Puis

les données que nous avons rapportées ici suggèrent que Protéines de réparation de l'ADN chez P. furiosus et plusieurs autres archées sont exprimés de manière constitutive et qu'ils peuvent être présents dans la cellule à un niveau suffisant pour maintenir l'intégrité du matériel génétique de la cellule.

Donc, en rassemblant ce que les scientifiques concluent avec ce que MattDMo m'a répondu et ce qui est discuté ici, je pense que je peux conclure que le "niveau d'expression des protéines" est une mesure de la quantité de protéine réellement traduite à partir de l'ARNm, qu'alors (en ce cas) agira efficacement pour réparer l'ADN. Par conséquent, le "niveau d'expression des protéines", ainsi que "l'activité des protéines", indique les protéines traduites à partir de l'ARNm et qui agiront activement pour réparer les dommages à l'ADN (dans ce cas, nous parlons de protéines de réparation d'ADN et de gènes de réparation d'ADN).

Je dois dire que je ne sais pas très bien ce que signifie "les protéines de réparation de l'ADN sont exprimées de manière constitutive", mais je pense que c'est que les protéines de réparation de l'ADN ont déjà été traduites à partir de l'ARNm et sont donc "présentes dans la cellule à un niveau suffisant pour maintenir l'intégrité du matériel génétique de la cellule" (comme on dit peu après).

Tout cela a du sens pour moi si je pense à mon premier objectif qui était de comprendre la raison de mesurer la concentration d'ARNm. Nous nous y intéressons car il devrait y avoir une corrélation entre la concentration d'ARNm (niveau d'expression génique) et les protéines réellement traduites à partir de l'ARNm de ce gène spécifique, afin de savoir quel type de protéines agira efficacement dans les processus de réparation de l'ADN (dans ce cas ).

Je me demande si toute cette interprétation est correcte…


Qu'est-ce que le niveau d'expression des protéines ?

C'était le titre original du message, que j'ai édité moi-même parce que je considère la réponse comme triviale, mais la question comme plus substantielle. Pour traiter le trivial d'abord:

« Niveau » n'est pas une unité scientifique et ne peut être utilisé sans ambiguïté que comme un terme scientifique dans son sens anglais en relation avec les liquides, par ex. « Le niveau de mercure dans le thermomètre avait baissé. », « La terre est à 10 mètres au-dessus du niveau de la mer. »

Il est utilisé par certaines personnes dans un discours ou un écrit informel pour indiquer une quantification indéfinie, et en raison de son ambiguïté même, il doit être fortement déconseillé dans la communication scientifique.

Ainsi, ni moi ni personne d'autre ne pouvons dire ce qu'est le «niveau d'expression des protéines» sans découvrir ce que l'auteur de la phrase entendait (s'il le savait) dans un cas particulier : la quantité ou la concentration de protéines, ou le taux de sa synthèse.

Quantification

Considérons quelques aspects généraux d'une molécule cellulaire pouvant nécessiter une quantification: Quantité, taux de synthèse, taux de dégradation et, le cas échéant, activité biologique.

La quantification des molécules à sa base est le nombre d'espèces, ou, plus pratiquement, leur masse totale (grammes), si possible liée à leur masse moléculaire (c'est-à-dire moles). La vitesse de leur synthèse ou de leur dégradation est exprimée en termes de variation de leur quantité en unité de temps.

Afin de comparer différents systèmes une référence est nécessaire pour la quantification. Cela peut être par unité de volume, par cellule, par g de protéine cellulaire, par g d'ADN, etc. (Cependant, pour la comparaison de systèmes similaires ou au sein d'un système, la référence est souvent omise.)

L'activité biologique de molécules n'a de sens que si les molécules sont, en effet, biologiquement actives (par exemple des enzymes). Il est exprimé en unités liées à cette activité.

Exemples de quantification pour les protéines

Les unités réelles utilisées dans la quantification sont déterminées par la façon dont on est capable de mesurer le paramètre d'intérêt.

Montant relatif de protéine : Vous pouvez détecter une protéine par l'intensité de la coloration d'une bande sur un gel, ou par l'étendue de la précipitation à l'aide d'un anticorps correspondant. Ceux-ci devraient être calibrés par rapport à des normes afin de convertir les mesures expérimentales brutes en g ou en mole de protéine. Les unités typiques de quantité relative sont g/g de protéine totale, g/g d'ADN.

Vitesse de synthèse ou de dégradation de protéines. Vous pouvez détecter la synthèse de protéines par le taux d'incorporation d'acides aminés radioactifs dans des protéines non radioactives et le taux de dégradation par la libération d'acides aminés radioactifs à partir de protéines pré-marquées. Les unités de synthèse typiques seraient le mg d'acide aminé incorporé par minute par mg de protéine totale. (Cela peut être converti en molécules synthétisées ou dégradées par minute, si nécessaire.)

« Activité des protéines »: L'utilisation de ce terme est ne pas conseillé. En termes chimiques, l'activité d'une molécule est une mesure de sa "concentration effective", et en ce qui concerne les protéines, elle ne serait l'affaire que des biophysiciens et autres. D'autres biologistes associeraient le terme à l'activité biologique qu'une protéine telle qu'une enzyme pourrait avoir, mais comme de nombreuses protéines sont structurelles, le terme «activité» ne peut pas être appliqué aux protéines en général. Lorsqu'elle présente un intérêt, elle serait quantifiée en fonction de la nature de l'activité, par ex. une enzyme est quantifiée en unités liées à la quantité de substrat convertie en produit en un temps donné.

Quantification de l'expression génique à l'aide de puces oligonucléotidiques

Les deux extrêmes dans la quantification de l'expression des gènes sont l'étude détaillée de l'expression de un gène particulier coder une protéine pour laquelle des informations et des outils sont disponibles ; et l'étude générale de l'expression de de nombreux gènes en utilisant des méthodes modernes qui permettent l'étude de nombreuses molécules simultanément. Ces méthodes comprenaient la spectrométrie de masse (pour les petits métabolites), l'électrophorèse sur gel bidimensionnelle (pour les protéines) et les puces à ADN ou RNAseq (pour l'ARNm). En général, dans ce dernier cas, on examinerait l'effet d'un agent ou d'une condition sur l'ensemble du spectre de l'expression génique.

Examinons technologie des puces à ADN car c'est la principale préoccupation de l'affiche.

La technologie des puces à ADN mesure les quantités relatives d'ARNm.

La méthodologie consiste à amplifier un mélange d'espèces d'ARNm par transcription inverse en ADNc, qui sont marqués avec un colorant fluorescent. L'ADNc est hybride à des oligonucléotides immobilisés sur la base des séquences des gènes dans l'organisme, et la force du signal de fluorescence est supposée être proportionnelle à la quantité d'espèces d'ARNm individuelles dans l'échantillon. Cependant, les données fournies à l'utilisateur sont l'intensité relative de l'image au sein de l'expérience, plutôt que des unités qui permettent de calculer la quantité réelle d'ARNm.

Comment ces quantités relatives d'ARNm sont-elles liées à l'expression des gènes ?

  1. Les quantités relatives d'ARNm sont une mesure relative de la taux de synthèse des protéines (3 en dig.), si l'on suppose que la vitesse de synthèse de chaque protéine est également proportionnelle à la quantité de son ARNm (a en dig.) ce qui serait limitatif. Il s'agit d'une hypothèse raisonnable dans la plupart des cas étant donné que l'ARNm est dégradé plus rapidement que la protéine. (Ils ne sont pas une mesure de la quantité de protéines - b dans dig.)

  2. Les quantités relatives d'ARNm ne peuvent pas être considérées comme une mesure du taux de transcription d'un ARNm à partir de son gène (1 en dig.) en raison de l'effet relativement plus important de la dégradation de l'ARNm (2 en dig.) sur la concentration à l'état d'équilibre des ARNm. , et le fait que différents ARNm ont des demi-vies différentes.

Post-scriptum pour l'affiche

J'ai essayé de rendre cette réponse générale, pour qu'elle soit utile à plus de gens. Comme l'affiche n'est pas une biologiste, elle peut encore avoir des difficultés à comprendre le contexte des expériences biologiques qui ont généré les données qu'elle analyse.

Le système biologique d'intérêt est l'expression des gènes, qui englobe toute la série d'événements depuis la transcription des gènes en ARNm et leur traduction en protéine. L'arrière-plan est que certains gènes sont (presque) toujours exprimés, quelles que soient les circonstances physiologiques, car ils sont nécessaires pour maintenir la structure et les fonctions quotidiennes de la cellule. C'est ce qu'on appelle constitutif expression, des exemples étant l'expression des gènes des actines cytosquelettiques ou des protéines ribosomiques. D'autres gènes ne sont exprimés ('activés') qu'en cas de besoin (et peuvent être appelés inductible). La question ici semble être de savoir si les gènes des enzymes impliquées dans la réparation de l'ADN sont exprimés tout le temps (de manière constitutive) pour faire face à "l'usure normale" de l'ADN, ou si leur expression ne se produit qu'en réponse à une insulte connue pour endommager l'ADN, comme l'irradiation gamma.

Comme je l'ai mentionné, en tant que scientifique expérimental, une approche qui peut être adoptée ici consiste à examiner l'expression d'une ou deux protéines bien caractérisées qui sont connues pour être impliquées dans la réparation de l'ADN. Cependant, il peut y avoir des protéines impliquées dans ce processus dont vous n'êtes pas au courant, donc les méthodes modernes d'examen de l'expression de tous les gènes dans un organisme (si la séquence d'ADN est connue) - puces à oligonucléotides ou, mieux, RNASeq. Ces méthodes mesurent les quantités relatives d'ARNm dans une cellule. C'est ne pas une Procuration pour la quantité de protéine ou le taux de sa synthèse (le terme «activité protéique» n'a pas de sens et n'est pas et ne doit pas être utilisé), c'est comme ça, mais c'est aussi un réflexion du expression des gènes qui codent les ARNm. Aucune expression, aucun ARNm.

Vous pouvez considérer les approches microarray et RNASeq comme des expéditions de pêche. Si vous trouvez des ARNm qui ne sont présents qu'après que la cellule a reçu un stimulus ou une insulte, l'expression de l'ARNm s'est produite (que les quantités soient ou non directement proportionnelles à la vitesse de synthèse). Si l'ARNm est synthétisé, vous pouvez supposer qu'il est traduit en la protéine qu'il code. Dans le cas de l'irradiation gamma, vous pouvez supposer que tout ARNm qui montre une augmentation importante de la quantité code pour une protéine impliquée dans la protection de la cellule contre le rayonnement. Cela présentera un intérêt scientifique, surtout si ce n'est pas ce que l'on anticipait.


L'assemblage du transcrit améliore la quantification de l'expression des éléments transposables dans les données RNA-seq unicellulaires

Les éléments transposables (TE) font partie intégrante du transcriptome de l'hôte. Les ARN non codants contenant du TE (ARNnc) présentent une spécificité tissulaire considérable et jouent un rôle important au cours du développement, notamment le maintien des cellules souches et la différenciation cellulaire. Les progrès récents dans l'ARN-seq unicellulaire (scRNA-seq) ont révolutionné l'analyse de l'expression génique spécifique au type cellulaire. Cependant, il manque des outils de quantification efficaces scRNA-seq adaptés aux TE, ce qui limite notre capacité à disséquer la dynamique d'expression des TE à une résolution unicellulaire. Pour résoudre ce problème, nous avons établi un pipeline de quantification d'expression TE compatible avec les données scRNA-seq générées sur plusieurs plates-formes technologiques. Nous avons construit des références d'ARNnc contenant du TE à l'aide de données RNA-seq en vrac et avons montré que la quantification de l'expression de TE au niveau du transcrit réduit efficacement le bruit. Comme preuve de principe, nous avons appliqué cette stratégie à des cellules souches embryonnaires de souris et capturé avec succès le profil d'expression de rétrovirus endogènes dans des cellules individuelles. Nous avons étendu notre analyse aux données scRNA-seq des premiers stades de l'embryogenèse de la souris. Nos résultats ont illustré l'expression dynamique de TE aux stades préimplantatoires et ont révélé 146 transcrits d'ARNnc contenant TE avec une spécificité tissulaire substantielle pendant la gastrulation et l'organogenèse précoce.


Quantification de l'expression génique - Biologie

Tous les articles publiés par MDPI sont rendus immédiatement disponibles dans le monde entier sous une licence en libre accès. Aucune autorisation particulière n'est requise pour réutiliser tout ou partie de l'article publié par MDPI, y compris les figures et les tableaux. Pour les articles publiés sous licence Creative Common CC BY en accès libre, toute partie de l'article peut être réutilisée sans autorisation à condition que l'article original soit clairement cité.

Les articles de fond représentent la recherche la plus avancée avec un potentiel important d'impact élevé dans le domaine. Les articles de fond sont soumis sur invitation individuelle ou sur recommandation des éditeurs scientifiques et font l'objet d'un examen par les pairs avant leur publication.

L'article de fond peut être soit un article de recherche original, une nouvelle étude de recherche substantielle qui implique souvent plusieurs techniques ou approches, ou un article de synthèse complet avec des mises à jour concises et précises sur les derniers progrès dans le domaine qui passe systématiquement en revue les avancées les plus passionnantes dans le domaine scientifique. Littérature. Ce type d'article donne un aperçu des orientations futures de la recherche ou des applications possibles.

Les articles du Choix de l'éditeur sont basés sur les recommandations des éditeurs scientifiques des revues MDPI du monde entier. Les rédacteurs en chef sélectionnent un petit nombre d'articles récemment publiés dans la revue qui, selon eux, seront particulièrement intéressants pour les auteurs ou importants dans ce domaine. L'objectif est de fournir un aperçu de certains des travaux les plus passionnants publiés dans les différents domaines de recherche de la revue.


Autres fichiers et liens

  • APA
  • Standard
  • Harvard
  • Vancouver
  • Auteur
  • BIBTEX
  • SIF

Résultats de recherche : Contribution à la revue › Article › peer-review

T1 - Quantification de l'expression des gènes

T2 - l'importance d'être subtil

AU - Silva, Gustavo Monteiro

N1 - Copyright de l'éditeur : © 2016 Les auteurs. Publié sous les termes de la licence CC BY 4.0

N2 - L'expression des gènes est régulée à la fois au niveau de l'ARNm et des protéines via des commutateurs marche-arrêt et un contrôle affiné. Dans leur étude récente, Edfors et al (2016) utilisent des méthodes de protéomique ciblées très précises et examinent dans quelle mesure la quantité de protéine produite par transcrit d'ARNm varie selon les différents tissus. Ils constatent que la majeure partie des concentrations de protéines est fixée à un niveau par gène : cette relation, le rapport protéine/ARNm, est constante à travers les types de cellules et les tissus, mais varie de plusieurs ordres de grandeur à travers les gènes.

AB - L'expression des gènes est régulée à la fois au niveau de l'ARNm et de la protéine par des commutateurs marche-arrêt et un contrôle affiné. Dans leur étude récente, Edfors et al (2016) utilisent des méthodes de protéomique ciblées très précises et examinent dans quelle mesure la quantité de protéine produite par transcrit d'ARNm varie selon les différents tissus. Ils constatent que la majeure partie des concentrations de protéines est fixée à un niveau par gène : cette relation, le rapport protéine/ARNm, est constante à travers les types de cellules et les tissus, mais varie de plusieurs ordres de grandeur à travers les gènes.


Le bruit de l'expression des gènes pourrait déclencher la différenciation des cellules souches

Au cours du développement cellulaire, les gènes essentiels, tels que les facteurs de transcription, sont souvent faiblement exprimés dans la différenciation cellulaire et peuvent présenter une grande variabilité. C'est ce qu'on appelle le « bruit biologique ». Il est théorisé que le bruit d'expression génique est un facteur décisif pour le destin cellulaire, mais les différences dans l'expression de ces gènes sont difficiles à détecter dans les données.

Aujourd'hui, Dominic Grün, un chercheur du groupe de recherche Max Planck de l'Université de Fribourg (Allemagne), a mis au point une méthode pour mesurer le bruit de l'expression génique dans des groupes d'états cellulaires très similaires ou apparentés. Il espère que cela permettra de mieux comprendre dans quelle mesure le bruit régule le développement cellulaire.

« Les méthodes d'analyse actuellement disponibles se concentrent presque exclusivement sur la quantification et l'interprétation des niveaux d'expression génique au sein d'une cellule individuelle. Mais les implications biologiques du bruit d'expression génique pendant la différenciation cellulaire et les transitions d'état cellulaire n'ont pas été explorées en profondeur », a commenté Grün.

La nouvelle méthode de calcul, connue sous le nom de VarID, implique un algorithme capable de quantifier la dynamique de la variabilité de l'expression génique à partir de données de séquençage d'ARN unicellulaire. Par conséquent, il identifie des quartiers localement homogènes avec une variabilité d'expression génique différentielle.

Avec la méthode VarID, il est possible d'étudier la dynamique du bruit d'expression génique tout au long de la différenciation des cellules souches en cellules matures. Cela peut montrer à quel point le développement est contrôlé par le bruit d'expression génique et s'il est même nécessaire à la différenciation cellulaire.

« De nombreuses maladies, telles que le cancer, surviennent parce que les cellules ne se développent pas complètement de la cellule souche à la maturité. Au lieu de cela, ils restent à un stade précurseur et prolifèrent de manière incontrôlée », a expliqué Grün. « Nous voulons comprendre ce qui se passe dans la cellule lorsque le développement est ainsi perturbé. Par conséquent, nous avons mis au point des algorithmes uniques pour le traitement et l'analyse des données monocellulaires. »

Grün a utilisé la méthode VarID pour suivre l'activité des facteurs de transcription essentiels au cours du développement des globules rouges chez la souris. Il a découvert que ces facteurs de transcription essentiels sont faiblement exprimés mais très variables dans les cellules souches sanguines, ce qui suggère qu'ils sont responsables du déclenchement de la différenciation.

« La méthode VarID ouvre la porte pour faire la lumière sur le rôle du bruit d'expression génique lors de la différenciation des cellules souches. Puisque nous sommes maintenant capables de lire dans le bruit de la différenciation des cellules souches, nous espérons découvrir comment ce processus est contrôlé pour mieux comprendre comment le bruit régule les décisions relatives au destin des cellules », a conclu Grün.


Perspectives d'avenir

À mesure que les technologies de séquençage progressent, les outils informatiques devront évoluer en parallèle pour résoudre de nouveaux défis techniques et prendre en charge de nouvelles applications. Par exemple, alors que la capacité des plates-formes de séquençage à produire des lectures plus longues devient une réalité, de nouvelles méthodes de mappage sont nécessaires pour aligner avec précision et efficacité les longues lectures. Étant donné que des lectures plus longues peuvent couvrir plusieurs jonctions d'exon et d'exon, l'identification et la quantification d'isoformes alternatives s'amélioreront considérablement avec les informations supplémentaires codées dans les lectures plus longues. De plus, à mesure que les méthodes de laboratoire mûrissent pour permettre le séquençage de quantités infimes d'ARN, des approches statistiques complexes seront nécessaires pour faire la distinction entre le bruit technique et la variation biologique significative. Ces progrès faciliteront l'analyse des transcriptomes dans des types et des états cellulaires rares, permettant aux chercheurs de reconstituer des réseaux biologiques actifs au niveau cellulaire. De plus, ces avancées permettront à l'analyse du transcriptome d'évoluer dans le domaine du diagnostic clinique. Par exemple, une surveillance plus précoce du dépistage du cancer et de la grossesse pourrait être réalisée en séquençant l'ARN cancéreux ou l'ARN fœtal dans le sang maternel. De plus, l'intégration du séquençage du génome entier avec RNA-Seq dans des échantillons plus grands fournira une meilleure compréhension de la variation génétique de la régulation. Ces avancées expérimentales et bioinformatiques fourniront une puissante boîte à outils pour caractériser pleinement le transcriptome en ce qui concerne les questions biologiques fondamentales, ainsi que son impact croissant sur la médecine personnalisée.


Tous les codes de classification des revues scientifiques (ASJC)

  • APA
  • Standard
  • Harvard
  • Vancouver
  • Auteur
  • BIBTEX
  • SIF

Résultats de recherche : Contribution à la revue › Article › peer-review

T1 - Méthodes de quantification de l'expression génique en éco-immunologie

AU - Fassbinder-Orth, Carol A.

N1 - Informations sur le financement : Ce travail a été soutenu par la Society for Integrative and Comparative Biology (DAB, DCE, DCPB) et le National Science Foundation Research Coordination Network in Ecoimmunology [NSF ISO 094177].

N2 - Synopsis Historiquement, l'utilisation de techniques moléculaires de pointe pour étudier l'expression des gènes immunologiques et les voies cellulaires associées a été largement limitée aux organismes modèles. Peu d'études ont été réalisées pour quantifier les réponses immunologiques moléculaires d'espèces non modèles, en particulier en réponse à des facteurs environnementaux, à des événements biologiques ou à une exposition à des parasites. Cette pénurie d'informations est due en grande partie au manque de séquences génétiques non-modèles spécifiques à l'espèce et de réactifs immunologiques disponibles, ainsi qu'à une technologie d'un coût prohibitif. Cependant, avec le développement rapide de diverses technologies de séquençage et de transcriptomique, le profilage de l'expression génique d'organismes non modèles est devenu possible. Les technologies et les concepts explorés ici incluent un aperçu des technologies actuelles pour quantifier l'expression des gènes, notamment : la qPCR, les dosages d'ADN ramifié multiplex, les puces à ADN et le profilage de l'expression des gènes (séquençage de l'ARN [RNA-Seq]) basé sur le séquençage de nouvelle génération. Des exemples de l'avancement de ces technologies dans des systèmes non modèles sont discutés. De plus, les applications, les limites et la faisabilité de l'utilisation de ces méthodologies dans des systèmes non modèles pour répondre aux questions d'immunologie écologique et d'écologie des maladies sont spécifiquement abordées.

AB - Synopsis Historiquement, l'utilisation de techniques moléculaires de pointe pour étudier l'expression génique immunologique et les voies cellulaires associées a été largement limitée aux organismes modèles. Peu d'études ont été réalisées pour quantifier les réponses immunologiques moléculaires d'espèces non modèles, en particulier en réponse à des facteurs environnementaux, à des événements biologiques ou à une exposition à des parasites. Cette pénurie d'informations est due en grande partie au manque de séquences génétiques non-modèles spécifiques à l'espèce et de réactifs immunologiques disponibles, ainsi qu'à une technologie d'un coût prohibitif. Cependant, avec le développement rapide de diverses technologies de séquençage et de transcriptomique, le profilage de l'expression génique d'organismes non modèles est devenu possible. Les technologies et les concepts explorés ici incluent un aperçu des technologies actuelles pour quantifier l'expression des gènes, notamment : la qPCR, les dosages d'ADN ramifié multiplex, les puces à ADN et le profilage de l'expression des gènes (séquençage de l'ARN [RNA-Seq]) basé sur le séquençage de nouvelle génération. Des exemples de l'avancement de ces technologies dans des systèmes non modèles sont discutés. De plus, les applications, les limites et la faisabilité de l'utilisation de ces méthodologies dans des systèmes non modèles pour répondre aux questions d'immunologie écologique et d'écologie des maladies sont spécifiquement abordées.


Analyse de spectre singulier en forme pour quantifier l'expression génique, avec application au début Drosophile Embryon

Ces dernières années, avec le développement des technologies de microscopie automatisée, le volume et la complexité des données d'images sur l'expression des gènes ont considérablement augmenté. La seule façon d'analyser quantitativement et globalement de telles données biologiques est de développer et d'appliquer de nouvelles approches mathématiques sophistiquées. Ici, nous présentons des extensions de l'analyse de spectre singulier 2D (2D-SSA) pour une application aux ensembles de données 2D et 3D d'images d'embryons. Ces extensions, circulaires et de forme 2D-SSA, sont appliquées à l'expression des gènes dans la couche nucléaire juste sous la surface de la Drosophile (mouche des fruits) embryon. Nous considérons la projection cylindrique couramment utilisée de l'ellipsoïde Drosophile embryon. Nous démontrons comment les versions circulaires et en forme de 2D-SSA aident à décomposer les données d'expression en composants identifiables (comme la tendance et le bruit), ainsi qu'à séparer les signaux de différents gènes. La détection et l'amélioration de la sous-correction et de la surcorrection en imagerie multicanal sont abordées, ainsi que l'extraction et l'analyse des caractéristiques 3D dans les modèles d'expression génique 3D.

1. Introduction

Alors que la disponibilité des séquences du génome a radicalement révolutionné la recherche biologique et biomédicale, notre compréhension de la façon dont les gènes codent les mécanismes de régulation est encore limitée. Le développement embryonnaire dépend de manière critique de ces mécanismes de régulation afin que les cellules se différencient dans les bonnes positions et aux bons moments. La compréhension globale de la régulation des gènes dans le développement nécessite de déterminer à une résolution cellulaire in vivo quand et où chaque gène est exprimé. De nouveaux atlas de résolution cellulaire dynamique aborderont la question de savoir comment les facteurs de transcription des gènes influencent la structuration de l'expression [1].

Avec le développement des technologies de microscopie automatisée ces dernières années, le volume et la complexité des données d'images ont augmenté au point qu'il n'est plus possible d'extraire des informations sans utiliser d'outils informatiques. Les biologistes s'appuient de plus en plus sur les informaticiens pour proposer de nouvelles solutions et de nouveaux logiciels [2]. De tels outils informatiques ont été essentiels pour traiter les images générées par la microscopie à haut débit d'un grand nombre et de variétés d'échantillons biologiques dans diverses conditions. Les progrès récents dans l'étiquetage, l'imagerie et l'analyse d'images informatiques permettent d'effectuer des mesures quantitatives plus facilement et de manière beaucoup plus détaillée dans une gamme d'organismes (par exemple, Arabidopsis, Ciona, Drosophile, C. elegans, souris, Platynereis, et poisson zèbre) [1, 3-6]. En particulier, l'imagerie de petits organismes intacts uniques, comme Drosophile et C. elegans, est désormais réalisable avec une haute résolution en deux dimensions, trois dimensions et dans le temps, ce qui donne lieu à des ensembles de données d'images massifs disponibles pour une analyse informatique complète.

Ces ensembles de données quantitatives à grande échelle fournissent de nouvelles informations pour répondre à de nombreuses questions fondamentales en biologie du développement. Les entrées initiales pour dériver des informations quantitatives sur l'expression des gènes et la morphologie embryonnaire sont généralement des données d'image brutes de marqueurs fluorescents colorés dans du matériel fixe. Ces ensembles d'images brutes sont ensuite analysés par des algorithmes de calcul qui extraient des caractéristiques telles que l'emplacement des cellules, la forme des cellules et la concentration de produits géniques. En fin de compte, le moyen le plus puissant d'analyser des données spatiales 3D en biologie consiste à développer et à appliquer de nouvelles approches mathématiques sophistiquées, permettant la comparaison rigoureuse de plusieurs caractéristiques quantitatives [8, 9].

Dans cette publication, nous présentons de nouveaux outils de calcul pour analyser la structuration des gènes pour des ensembles de données à trois dimensions spatiales, appliqués aux premiers Drosophile embryons. Ces outils sont une extension de l'analyse spectrale singulière bidimensionnelle (2D-SSA).

Introduction à la méthode. L'analyse du spectre singulier [10-15] a été initialement suggérée comme méthode de décomposition de séries chronologiques en une somme de composants identifiables tels que la tendance (ou modèle), les oscillations et le bruit. Un avantage de cette méthode est qu'elle ne nécessite pas de modèle de bruit à priori. Nous décomposons les séries de données en un ensemble de séries élémentaires, les analysons, choisissons les composantes appropriées, et finalement sommons les composantes identifiables ensemble en classes. Par exemple, la sélection de composants de lissage peut produire un lissage adaptatif. SSA est très utile pour l'analyse exploratoire car la méthode peut traiter le bruit modulé, c'est-à-dire le bruit qui peut dépendre des valeurs de tendance (par exemple, a une nature multiplicative).

Récemment SSA a été étendu pour l'analyse d'objets bidimensionnels (2D-SSA), par exemple, des images numériques [16, 17]. La décomposition des images est plus compliquée que l'analyse des séries chronologiques en raison de la variabilité des motifs 2D. Mais les méthodes qui sont facilement contrôlables et adaptatives, telles que 2D-SSA, peuvent avoir une large applicabilité.

2D-SSA a beaucoup en commun avec la méthode 2D-ESPRIT (voir [18]), qui est basée sur la forme paramétrique des images et a de nombreuses applications. Les méthodes 2D-SSA et sous-spatiales associées sont appliquées à l'analyse de texture [19], à la sismologie [20], aux données d'expression spatiale des gènes [21] et à l'imagerie médicale [22].

L'article [23] a appliqué le 2D-SSA à l'analyse des terrains numériques en géologie et a démontré que le 2D-SSA est un outil utile pour analyser différents niveaux de détails dans les données de surface. Plus tard, sur la base de la théorie donnée dans [17], 2D-SSA a été appliqué aux données d'expression génique pour séparer le bruit nucléaire de la tendance d'expression [21].

Les articles [24, 25] présentent des extensions de 2D-SSA qui augmentent la gamme d'applications de SSA. Dans le présent article, nous démontrons comment ces extensions peuvent être appliquées à l'analyse des données d'expression génique.

Ce document est structuré comme suit. La section 2 décrit les ensembles de données qui ont été analysés. La section 3 décrit la nouvelle méthodologie et les sections 4 et 5 illustrent l'approche sur plusieurs exemples.

Les nouvelles approches décrites ici, circulaires et formées 2D-SSA, sont particulièrement applicables aux surfaces cylindriques (telles qu'utilisées pour Drosophile embryons), pour éviter les effets de bord et les motifs de forme irrégulière. Par exemple, la zone de données de bonne qualité dans une image (par exemple, sans sursaturation) peut être non rectangulaire et même présenter des lacunes. De plus, comme la projection plane d'un Drosophile l'embryon est presque elliptique, la capacité d'analyser des formes non rectangulaires peut être utile.

La section 4 traite du problème de la détection et de l'amélioration de la sous-correction et de la surcorrection en imagerie multicanal, tandis que la section 5 examine le problème de l'analyse de la forme des bandes pour le gène même sauté. La section 6 contient une brève discussion et des conclusions.

2. Matériaux

Les données sont tirées du Berkeley Drosophila Transcription Network Project (BDTNP) [4], qui contient des mesures tridimensionnelles (3D) de la concentration relative d'ARNm pour 95 gènes en début de développement (y compris escargot (sna)) et les profils d'expression des protéines pour quatre gènes (bicoïde, géant, bossu (hb) et Krüppel (Kr)) au cours des cycles de clivage nucléaire 13 (C13) et 14 (C14A). BDTNP Release 2 contient des ensembles de données individuels (fichiers PointCloud) pour 2830 embryons (http://bdtnp.lbl.gov/Fly-Net/bioimaging.jsp). Ces données ont été enregistrées aux coordonnées de 6078 noyaux sur le cortex embryonnaire et présentées sous la forme d'un ensemble de données intégré (fichier VirtualEmbryo, avec des outils de visualisation et d'analyse). Les embryons ont été fixés et colorés par fluorescence pour marquer les profils d'expression de l'ARNm de deux gènes plus l'ADN nucléaire. L'un des gènes colorés a même été ignoré (veille) ou tarazu fushi (ftz), qui ont été utilisés comme marqueurs fiduciaires pour l'enregistrement spatial ultérieur.

3. Méthodes

3.1. Analyse de spectre singulier 2D

Nous suivrons la structure commune des algorithmes 2D-SSA décrite dans [24, 25]. Cette structure commune consiste en des étapes d'intégration, de décomposition, de regroupement et de reconstruction. L'entrée pour un algorithme 2D-SSA consiste en une image

et la forme d'une fenêtre mobile (qui est le paramètre principal de l'algorithme). La sortie d'un algorithme 2D-SSA est la décomposition en composants identifiables de la forme

Schéma commun d'algorithmes de type SSA

(1) Étape d'encastrement. Construction de la matrice de trajectoire

, où est un espace de matrices de type Hankel structurées. La structure de la matrice (et de l'espace ) dépend de la modification de l'algorithme et de la fenêtre mobile. D'une manière générale, les colonnes de la matrice trajectoire sont constituées des fenêtres se déplaçant le long de l'image, transformées en vecteurs par un ordre fixe d'éléments de fenêtre. Dans un sens, la taille de la fenêtre reflète la résolution de la méthode, c'est-à-dire que des fenêtres plus grandes conduisent à des décompositions plus détaillées.

(2) Étape de décomposition. Décomposition en valeur singulière (SVD) de la matrice de trajectoire

sont des triplets propres (en abrégé ET) et se composent de valeurs singulières, de vecteurs singuliers gauche et droit de . Les vecteurs propres peuvent être transformés en forme de fenêtre. Cela signifie que nous pouvons considérer les vecteurs propres comme des images et les appeler images propres.

(3) Étape de regroupement. Cloison

et regroupement de sommations dans la décomposition SVD pour obtenir une décomposition matricielle groupée

est appelé élémentaire. Le but de cette étape est de regrouper les composants SVD pour obtenir une décomposition interprétable de l'objet initial. Ceci peut être réalisé au moyen d'une analyse de triplets propres.

(4) Étape de reconstruction. Décomposition de l'image initiale, où

est l'opérateur de projection sur l'espace (e.g., hankelization dans le cas 1D).

Expliquons le sens de l'opérateur de plongement pour le cas 1D, car il est plus simple et démontre la méthodologie générale. Pour une série unidimensionnelle

, on prend des fenêtres 1D mobiles de longueur

et construire les colonnes de la matrice trajectoire sous les formes

vecteurs décalés nous rassemblons une matrice de Hankel avec des nombres égaux sur les antidiagonales appelée la matrice de trajectoire

Il est bien connu que les matrices de Hankel sont liées à des séries constituées de sommes de produits de polynômes, d'exponentielles et d'ondes sinusoïdales et le problème est de séparer cette somme en addendes. Si nous pouvons séparer les approximations exponentielles et polynomiales du résidu, alors nous pouvons extraire des tendances et des modèles. If we are able to separate sine waves with different frequencies, then we can construct a decomposition on components with different frequency ranges.

The singular value decomposition (SVD) of the trajectory matrix constructs a sequence of elementary matrices, which provides the best approximations of the initial matrix and, in a sense, of the initial series: , , and so on. Thus, we obtain the optimal decomposition, which is adaptive to the initial series. Note that the maximal number of the decomposition elements is equal to

. SSA theory explains why we can group the elementary components in the SVD expansion to solve such problems as, for example, smooth approximation and extraction of regular oscillations.

After a proper grouping, we obtain a matrix , which is close to a Hankel matrix, but not exactly Hankel. We can find the Hankel matrix closest to

by hankelization, that is, by averaging values by antidiagonals. Thus, we obtain the series consisting of ,

, etc. Les mth term is determined as

The role of is as follows. Small provides a decomposition to a small number of components, which mostly differ by frequency, and where the leading components present slowly varying series like the trend. Larger leads to more detailed decomposition. This gives more chance to extract a component however, some components can mix. Therefore, if the data series has a trend with a complex form or has periodicities with complex modulation, then window lengths should be moderate.

These generalities also hold for the case of 2D-SSA. In practice, the difference between 1D and 2D is in the construction of the trajectory matrices, which are quasi-Hankel, in particular Hankel-block-Hankel. The moving window is two-dimensional, for example, a rectangle. In this paper, we introduce circular SSA, for treating rectangles with periodic boundary conditions, for example, data sets on cylindrical geometries. Small window size corresponds to smoothing. We can take into consideration the structure of the image in different directions by choosing different sizes in different directions. The trajectory matrix is constructed from vectorized windows of arbitrary shape moving within the whole image (including circular domains, for periodic boundary conditions).

3.2. Particular Cases

For a rectangular image, with a rectangular window which moves within the image boundaries, we obtain the standard 2D-SSA method. If the image and the window are of arbitrary shape, the shaped version of 2D-SSA is applied [25]. If the window can cross the boundary of the image, we obtain a circular version of 2D-SSA.

For example, let us take an image (a matrix in the mathematical sense)

. Then we have a set of 4 windows in the ordinary version,

, and two additional windows, , , in the circular case. For the circular case, the trajectory matrix will have the form

One can see that the 2D trajectory matrix consists of trajectory matrices from each matrix’s row.

3.3. Choice of Parameters, Separability, and Component Identification

Approach to the choice of window size for one-dimensional time series is thoroughly described in [13, 26]. Recommendations for 2D objects are more complicated. For extraction of so-called objects of finite rank (sums of products of polynomials, exponentials, and sinusoids), which satisfy linear recurrence relations (LRRs), windows should be large, up to half of the object size. However, real-world patterns usually have complex form and satisfy LRRs only approximately and locally. The window needs to agree with this local character. In particular, sine waves are exactly governed by an LRR. However, if a 2D-sine wave has a slowly changing location, then only its local parts satisfy an LRR. The window sizes need to be in accordance with the scale of this locality. Choice of window size is always a balance between the local and the global scales of the data.

Generally, SSA can separate smooth patterns from noise for a wide variety of patterns. For regular patterns, 2D-SSA can be applied whether the pattern varies smoothly or sharply. However, if the pattern is not regular, variation needs to be smooth in order to use 2D-SSA for signal separation. Irregular pattern with sharp variation is poorly separated by 2D-SSA. If, however, the sharp change occurs in narrow area, this can be cut out, and the remaining data analyzed by shaped SSA, which is a version of 2D-SSA with a nonrectangular shape of the image or the window.

Elementary components are grouped based on their similarity to the data components being extracted. For regular components like sine waves, the number of elementary components can be calculated from theory. Also, patterns usually have a limited frequency range (usually lacking high frequencies). In general, therefore, leading elementary components with the appropriate frequency characteristics are ascribed to pattern.

In this paper we show how 2D-SSA can be used to remove noise, to separate regular oscillations from slowly varying patterns (for correcting erroneous unmixing procedures), and to extract stripes for their further analysis. Shaped SSA allows for the analysis of complex patterns by splitting images into several parts.

Drosophile early gene expression (before the midblastula transition) produces smooth and simple patterns suitable for 2D-SSA processing. A number of web resources have such datasets (BDTNP BID [4], Fly-FISH http://fly-fish.ccbr.utoronto.ca [27], FlyEx http://urchin.spbcas.ru/flyex [28] see also [29, 30]). Shaped SSA can also be useful for a common subset of this data, in which patterns fall sharply to zero. In these cases, subregions can be excised or analyzed separately from the whole image. The gene sna is a typical Drosophile example seen in the BDTNP BID such compact patterns are also seen in other experimental organisms, such as the nine zebrafish genes [31]. We expect 2D-SSA and shaped SSA to therefore have broad applicability to image processing in developmental biology.

The problem of unmixing expression patterns from two different genes in one image [32] requires additional conditions. Specifically, information is needed on the unmixed expression of each gene (i.e., data from one gene in the absence of the other gene). If the two genes have slowly varying patterns, they cannot readily be separated by SSA. In such cases, SSA cannot be used to detect or correct errors in mixed images. However, SSA is an effective unmixing method for cases in which one gene has an approximately regular structure, and this differs from the structure of the other gene. In this paper, we apply SSA to signal unmixing and image correction for such cases from Drosophile Les données.

3.4. Data Preprocessing

Initially, the data for 2D-SSA analysis should be measured on a regular grid. Data for gene expression are measured at nuclei, which are not regularly located on a 3D surface of embryo (which is roughly ellipsoidal in shape). The first step of preprocessing is a cylindrical projection of the data (centred on the major axis of the ellipsoid the major axis of the embryo is found by principal component analysis). We then interpolate the data to a regular grid on this cylinder. We analyze a central region of the cylinder, in order to avoid corruptions near the poles from the ellipsoid to cylinder transformation. After 2D-SSA decomposition, we interpolated the data back onto the nuclear centers. This interpolation is performed for smooth components residuals are calculated as the difference between the initial data and interpolated smooth components.

Interpolation involves Delaunay triangulation followed by linear interpolation of nuclear centers to the triangulation.

3.5. Mise en œuvre

The algorithms are implemented in the Rssa and BioSSA packages in R. Rssa is a general-purpose package containing effective implementation of singular spectrum analysis and its 2D extensions. 2D-SSA algorithms are time- and memory-consuming and therefore it is very important to have an effective implementation. A description of Rssa with examples can be found in [24, 33]. Les R-package BioSSA is an addition to Rssa for application to fly embryo gene expressions data and is briefly described at http://biossa.github.io/.

4. Periodic Patterns Produced by Unmixing Algorithms

Different emission spectra for fluorescent probes allows for the simultaneous staining for 3-4 gene products in embryonic tissues. Quantitative imaging projects [4, 30] use the same gene in one of these channels in all embryos, for reliable quantitative comparisons, registration, and so forth. The gene used for this marking in Drosophile embryos is commonly one of the pair-rule genes (such as eve ou ftz), which have a characteristic periodic 7-stripe expression pattern.

Multichannel imaging suffers from an inherent problem of overlapping emission spectra (when the fluorescent markers are simultaneously excited (e.g., [34])), where light from more than one fluorescent dye is collected by a given acquisition channel. To computationally reduce this “crosstalk,” an automated channel unmixing method was developed and applied to the BDTNP data [32].

The problem with this approach in large scale projects with automatic data processing is that the unmixing parameters can end up being too high or too low. If the parameters are overestimated, unmixing produces an overcorrection, which is manifest as a partial subtraction of the common, reference pattern from the pattern of the second gene (the gene under study for the embryo). With periodic reference patterns (eve, ftz), this produces periodic grooves in the “unmixed” pattern. Figure 1 shows the effects of such overcorrection in one of the BDTNP embryos.


Introduction

In the presence of genetic or environmental perturbations, differential expression of genes, orchestrated by dedicated regulatory circuits, shapes the physiological responses of the cell. Common physiological responses to perturbations, e.g. in response to stress or during oncogenic transformation, often include changes in the cell growth rate and metabolism. In turn, both growth rate and metabolic parameters of the cell can exert global influences on gene expression, as demonstrated by landmark studies in E. coli (1–4) and in yeast (5–8). Thus, the gene expression program following a perturbation reflects a joint effect of the specific regulatory circuits that are induced (or repressed) by the perturbation, as well as the global influence on gene expression by an altered physiological state (Fig 1A). Further complexities arise as gene expression and cell physiology operate in mutual feedback (4, 9), which can lead to the emergence of complex behaviours (10). Currently, a quantitative framework to understand the global effects of cell physiology on gene expression is lacking. Development of such a framework would allow perturbation-specific gene regulation mechanisms to be uncoupled from global gene expression control, and allow synthetic gene circuits with complex behaviours to be designed (9, 10).

A. Gene expression profiles of a cell depends on both specific gene expression programs induced by specific perturbations, as well as the global influence on gene expression by the physiological state of the cell.

B. Experimental design to orthogonally probe the effects of growth rate and amino acid metabolism on gene expression. Cells were grown in chemostats at controlled growth rates and media composition. GR, growth rate AA, amino acid XIA, Xia et al (22,23). In AA experiments, carbon-limited conditions (blue rows), the “Gln” condition and the “Gln*” condition differ in the concentration of Gln and glucose in the chemostat feed media see Table S1 for full details.

C. Number of differentially expressed (DE FDR < 0.01) genes at mRNA and protein (prot) levels in the GR experiments, AA experiments, and XIA experiments, showing that a large number of genes are regulated by growth rate and metabolic parameter.

Seminal studies in the field (11–13) have previously examined the interaction between growth rate, metabolic parameters, and gene expression, using microarrays and relative-quantitative metabolomics, in the eukaryal model organism Saccharomyces cerevisiae. Herein we revisit these interactions using RNAseq-based absolute-quantitative transcriptomics, showing substantial changes in absolute quantities of mRNA between different growth conditions which cannot be captured with relative-quantitative data. We further provide absolute-quantitative proteomics and intracellular amino acid abundance, in a total of 22 steady-state yeast cultures in biological triplicates, as a high-quality resource to the community. The 22 steady-state conditions were designed to orthogonally probe the effects of growth rate and metabolic parameters related to amino acids on gene expression (Fig 1B). Nous avons trouvé que

90% of genes are globally influenced by the cell growth rate and/or metabolic parameters. The growth rate-induced gene expression changes were coordinated at the transcript and protein levels, and were associated with the availabilities of the transcription and translation machineries. In contrast, gene expression control by metabolic parameters were not associated with the availability of transcription and translation machineries, but were likely regulated by the availabilities of amino acids and nucleotides. We found that genes related to central carbon metabolism (CCM) were distinctly regulated, reflecting unique control mechanisms to ensure robust expression of this metabolic pathway. Finally, by re-analyzing gene expression profiles of a distantly related yeast, Schizosaccharomyces pombe, and of the human Burkitt’s lymphoma cell line P493-6, we demonstrated that our findings can be broadly applied to uncouple global gene expression control from regulation by specific transcriptional and translational circuits, allowing novel biological insights in gene regulation to be uncovered.


Quantifying Gene Co-Expression Heterogeneity in Cancer Towards Efficient Network Biomarker Design

It is well known that cancer is a highly heterogeneous disease, and the predictive capability of targeted gene signature approach suffers from the inter-tumor heterogeneity. Here we propose a framework to quantify the molecular heterogeneity of tumors from gene-gene relational perspective using co-expression networks and interactome data. We believe that to understand individualized gene behavior across patients, relational status of genes needs to be considered because complex disease phenotype is often caused by failures of genetic interactions in cancer cells.

We quantified gene-gene relational heterogeneity from a benchmark data set using co-expression networks inferred from Microarray data, and showed that genes related to breast cancer metastasis can be stratified to different classes based on their relational status obtained from pair-wise comparisons of co-expression networks. Further we used the relational heterogeneity information to predict patient survival and found that relationally heterogeneous gene set is less predictive than relatively conserved cancer genes. We explored heterogeneity gene sets using interactome data and identified densely connected components that are causal to inter-tumor heterogeneity. We independently validated our approach with two patient cohorts. Our results demonstrated the efficiency of using heterogeneity information to design network markers.

Current Bioinformatics

Titre:Quantifying Gene Co-Expression Heterogeneity in Cancer Towards Efficient Network Biomarker Design

LE VOLUME: 10 PROBLÈME: 3

Auteurs):Shang Gao, Abdullah Sarhan, Reda Alhajj, Jon Rokne, Doug Demetrick and Jia Zeng

Affiliation :College of Computer Science and Technology, Jilin University, Changchun, Jilin, China.

Résumé:It is well known that cancer is a highly heterogeneous disease, and the predictive capability of targeted gene signature approach suffers from the inter-tumor heterogeneity. Here we propose a framework to quantify the molecular heterogeneity of tumors from gene-gene relational perspective using co-expression networks and interactome data. We believe that to understand individualized gene behavior across patients, relational status of genes needs to be considered because complex disease phenotype is often caused by failures of genetic interactions in cancer cells.

We quantified gene-gene relational heterogeneity from a benchmark data set using co-expression networks inferred from Microarray data, and showed that genes related to breast cancer metastasis can be stratified to different classes based on their relational status obtained from pair-wise comparisons of co-expression networks. Further we used the relational heterogeneity information to predict patient survival and found that relationally heterogeneous gene set is less predictive than relatively conserved cancer genes. We explored heterogeneity gene sets using interactome data and identified densely connected components that are causal to inter-tumor heterogeneity. We independently validated our approach with two patient cohorts. Our results demonstrated the efficiency of using heterogeneity information to design network markers.


Voir la vidéo: بناء البروتين النسخ والترجمة (Septembre 2022).


Commentaires:

  1. Ackley

    Puis-je publier sur mon blog?

  2. Viramar

    Vous vous êtes retiré de la conversation

  3. Felippe

    Vous avez tort. Nous devons discuter. Écrivez-moi dans PM, cela vous parle.

  4. Lad

    frais!!! Je l'attends depuis longtemps ...

  5. Haefen

    Excusez-moi, j'ai supprimé cette question

  6. Kagakree

    Une autre option est également possible



Écrire un message