Information

Welche Informationen vermitteln Microarray-Bilder?

Welche Informationen vermitteln Microarray-Bilder?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

OK, ich habe gelesen, dass eine Zelle 4 Arten von digitalen (genauer gesagt diskreten) Daten erzeugt, nämlich DNA, RNA, Protein (Sequenzen, die als Stringsequenzen von Nukleotiden/Aminosäuren kodiert werden können) und Mikroarray-Bilder. Ich bin kein Biologe, aber mein Interesse gilt der Statistik und Informationstheorie dieser Daten. Ich würde gerne wissen, welche Informationen das DNA-Mikroarray-Bild vermittelt? Welche Informationen erhalten wir beispielsweise nach der Verarbeitung mit Hilfe einer geeigneten Software?

Beispiel für ein Mikroarray-Bild:


Jeder Spot überlappt mit einem Oligonukleotid Sonde, das entworfen ist, um eine spezifische Nukleinsäuresequenz zu identifizieren. Genexpressionsarrays weisen Sonden auf, die zu Sequenzen komplementär sind, die von den Exons abgeleitet sind; daher hybridisieren sie mit diesen Sequenzen.

Vor der Hybridisierung wird die cDNA (in diesem Fall) mit einem fluoreszierenden Molekül wie Cy3 oder Cy5 markiert (zwei Farbstoffe können verwendet werden, um behandelt und kontrolliert zu differenzieren). Beachten Sie, dass jeder Spot viele Sondenmoleküle enthält. Die Fluoreszenzintensität ist proportional zur Anzahl der hybridisierten DNA-Stränge, die wiederum proportional zu ihrer Expression in der Probe ist.

Zur Microarray-Datenanalyse stehen umfangreiche Texte zur Verfügung, die Sie ganz leicht finden können.


Was Sie wissen müssen, bevor Sie chromosomale Mikroarrays bestellen

Chromosomale Microarray (CMA)-Tests können bei sachgemäßer Anwendung ein leistungsstarkes Diagnosewerkzeug sein. Die CMA-Technologie und der Testprozess können sich von anderen Labortests unterscheiden, die Sie gewohnt sind, aber mit Beachtung der in diesem Programm beschriebenen Schritte können Sie diesen Test erfolgreich in Ihrer Praxis anwenden. In diesem Abschnitt besprechen wir das Hintergrundwissen, das Sie benötigen, um zu entscheiden, ob Sie chromosomale Microarrays bestellen möchten, einschließlich der Funktionsweise des Tests, was er erkennt und wann er sich als nützlich erwiesen hat. Im Folgenden sind die wichtigsten Fragen aufgeführt, die Sie verstehen sollten, bevor Sie sich für einen Test mit chromosomalem Microarray entscheiden.

Was erkennt ein chromosomaler Microarray?

Chromosomale Microarray (CMA)-Tests suchen nach zusätzlichen (duplizierten) oder fehlenden (gelöschten) Chromosomensegmenten, die manchmal als Kopienzahlvarianten (CNVs) bezeichnet werden. Diese beinhalten:

  • Mikrodeletionen und Mikroduplikationen von Chromosomensegmenten, die zu klein sind, um unter dem Mikroskop zu sehen, aber mehrere Gene enthalten können (siehe Abbildung unten)
  • Die meisten Anomalien der Chromosomenzahl (Trisomie, Monosomie usw.), einschließlich Down-Syndrom
  • Die meisten unausgeglichenen Neuordnungen der Chromosomenstruktur (Translokationen usw.)

Abhängig von der Plattform kann CMA auch Folgendes erkennen:

  • Übermäßige Homozygotie, die auf ein Risiko für eine rezessive Erkrankung oder Prägungsstörungen hindeutet (weitere Informationen finden Sie unter Ergebnisse anwenden)
  • Triploidie und andere Duplikationen des gesamten Chromosomensatzes (Tetraploidie etc.)

Wie beim traditionellen Karyotyp kann durch CMA-Tests ein Mosaik (eine Mischung aus normalen und abnormalen Zellen) von mehr als 20-25% nachgewiesen werden. Die Erkennungsraten variieren mit der spezifischen Testplattform ms).

Was bedeutet CMA nicht erkennen?

Kein Test kann alle genetischen Erkrankungen ausschließen. Manche Varianten erfordern einen anderen Test, und manche Regionen sind technisch schwer zu isolieren und zu analysieren.

  • Kleine Veränderungen in der Abfolge einzelner Gene (Punktmutationen)
  • Winzige Duplikationen und Deletionen von DNA-Segmenten innerhalb eines einzelnen Gens (zum Beispiel Fragile-X-Syndrom)
  • Ausgeglichene Chromosomenumlagerungen (ausgeglichene Translokationen, Inversionen)

Die Grenzen des CMA-Tests variieren auch mit der verwendeten Methodik. Die meisten CMA können Mosaike unter 20-25% nicht erkennen. Einige Plattformen erkennen eine übermäßige Homozygotie oder Triploidie nicht so gut wie andere. (Weitere Informationen zu den verschiedenen CMA-Plattformen finden Sie im Abschnitt Bestellung.)

Wie funktioniert CMA?

&ldquoMicroarray&rdquo bezieht sich auf eine Mikrochip-basierte Testplattform, die eine automatisierte Massenanalyse vieler DNA-Stücke gleichzeitig ermöglicht. CMA-Chips verwenden Markierungen oder Sonden, die an bestimmte Chromosomenregionen binden. Die Computeranalyse wird verwendet, um das genetische Material eines Patienten mit dem einer Referenzprobe zu vergleichen. Ein Unterschied zwischen der DNA eines Patienten und der Referenzprobe wird als Variante bezeichnet.

Welche Patienten könnten davon profitieren?

CMA ist deutlich nützlich für Personen, die kein bestimmtes bekanntes Syndrom (wie das Down-Syndrom) haben, aber eines der folgenden Symptome aufweisen:

    Entwicklungsverzögerung/intellektuelle Beeinträchtigung
  • Autismus-Spektrum-Störungen
  • Mehrere angeborene Anomalien, einschließlich dysmorpher Gesichtszüge

CMA kann auch der kostengünstigste Test sein, wenn Ihr Differenzial mehr als eine Bedingung enthält, die von der Technologie erkannt werden könnte. Es ist möglich, dass Patienten mehr als eine genetische Erkrankung haben, und dies könnte in Betracht gezogen werden, wenn ein Patient Merkmale aufweist, die normalerweise nicht mit einer etablierten Diagnose zusammenhängen. Ein genetischer Spezialist kann helfen, festzustellen, ob zusätzliche Tests wie CMA nützlich wären.

CMA wird derzeit für die Anwendung bei anderen Patientengruppen untersucht, und ihre Anwendung wird im Laufe der Zeit zunehmen. In diesen Fällen kann es besonders nützlich sein wenn andere Tests keine Diagnose ergeben haben:

  • Unerklärliche Anfallsleiden
  • Wachstumsverzögerung
  • Psychiatrische Krankheit
  • Neuromuskuläre Erkrankungen

Wie werden Ergebnisse klinisch verwendet?

CMA-Tests können ein Zugang zu mehr Hilfe für Familien von Kindern mit zuvor nicht diagnostizierten Erkrankungen sein. Eine bei CMA gefundene Variante kann nicht nur eine lang erwartete Erklärung für die klinischen Befunde eines Patienten sein, sondern auch das Management auf folgende Weise beeinflussen:

  • Spezifische kognitive, Entwicklungs- und Funktionsprofile, die mit einigen Varianten verbunden sind, leiten die Prognose, das Management und die pädagogischen Interventionen.
  • Bei Syndromen können Bewertungen oder Überweisungen angezeigt sein, um auf Komplikationen zu untersuchen, die sonst möglicherweise übersehen worden wären.
  • Familienstudien informieren über die reproduktive Planung und das Screening für gefährdete Familienmitglieder.

Eine CMA-Diagnose kann der Familie auch psychosozialen Nutzen bringen, einschließlich des Zugangs zu einer neuen Unterstützungsgemeinschaft von Personen mit einer ähnlichen Diagnose. Beispiele und Ressourcen zum klinischen Nutzen von CMA-Ergebnissen finden Sie in den folgenden Fallbeispielen und im Abschnitt „Ergebnisse anwenden“.

Sollte CMA die traditionelle Chromosomenanalyse oder andere genetische Tests ersetzen?

Im Jahr 2010 empfahl das American College of Medical Genetics CMA als First-Tier-Test in der Population von Personen mit Entwicklungsverzögerung, intellektueller Beeinträchtigung, Autismus-Spektrum und mehreren angeborenen Anomalien.

CMA führt in 10-15% zu einer Diagnose, was deutlich besser ist als die

3% Ausbeute bei traditioneller Chromosomenanalyse. CMA kann auch die meisten groben Chromosomenanomalien erkennen, die durch den Standard-Karyotyp nachgewiesen werden.

Der Karyotyp ist immer noch für Patienten geeignet, die stark auf die Merkmale einer bestimmten Chromosomenanomalie-Diagnose wie das Down-Syndrom passen. Gezielte molekulargenetische Tests sind für Erkrankungen wie das Fragile-X-Syndrom geeignet, die durch CMA nicht erkannt werden. Eine CMA kann jedoch nützlich sein, wenn diese Tests keine Diagnose ergeben haben, wenn ein Patient eine Diagnose hat, aber einen ungewöhnlichen Verlauf hat oder wenn das Differential mehrere Erkrankungen mit überlappenden Merkmalen umfasst.

Befunde, die auf eine spezifische Diagnose hindeuten, die auf gezielte Tests hindeutet, können sein:

  • Charakteristische physikalische Eigenschaften
  • Spezifische Konstellationen angeborener Fehlbildungen
  • Bestimmte kognitive/Entwicklungsprofile
  • Klares Erbmuster in der Familie

Wenden Sie sich im Zweifelsfall an einen Spezialisten für klinische oder Laborgenetik (siehe Wie erhalte ich Hilfe?).

Was sind die Kosten und Risiken?

Im Allgemeinen kosten Gentests mehr als routinemäßige Labortests. Während die CMA derzeit teurer ist als die traditionelle Chromosomenanalyse, ist die diagnostische Ausbeute bei Patienten mit bestimmten Indikationen deutlich höher. Die Kosten sinken, da sich die Technologie verbessert.

Es besteht die Gefahr unsicherer, nicht aussagekräftiger oder unerwarteter Befunde. Ein negatives Ergebnis ist jedoch bei einer diagnostischen Suche nicht unbedingt nicht hilfreich. Die möglichen klinischen und psychosozialen Auswirkungen verschiedener Ergebnisse müssen von Fall zu Fall abgewogen werden. Tipps für diesen Prozess finden Sie in den Abschnitten zur Beratung vor und nach dem Test.


Produktdetails

Katalognummer Anzahl der Antigene Beschreibung
PA001 120 Allgemeine Umfrage zu menschlichen Autoantigenen
PA002 120 Erkrankungen des menschlichen Gehirns und des zentralen Nervensystems
PA003 120 Krebs und Neoplasien beim Menschen
PA006 75 Häufige Allergene des Menschen
PA009 41 NEU! SARS-CoV-2-Coronavirus-Proteine
PA010 120 NEU! Humane Autoimmunität, Allergie und Infektion
PA012 120 NEU! Humane Coronavirus-assoziierte Autoimmunität (CAA)

Nylon-Membran-Arrays

Wo einst der Engpass bei der Genexpressionsanalyse die Laborarbeit war, ist es bei der Array-Analyse die Computerarbeit. Da ein einzelnes Array-Experiment Tausende von Datenpunkten erzeugen kann, besteht die Hauptherausforderung der Technik darin, die Daten zu verstehen. Viele kommerzielle Unternehmen bieten Bildanalysesoftware an, darunter BioDiscovery (ImaGene) und Imaging Research (ArrayVision). Darüber hinaus bieten viele Array-Hersteller Software speziell für die Analyse ihrer Arrays an und bieten die Analyse als Dienstleistung an.

Für die Membran-Array-Analyse wird eine Datei mit den Daten durch Phosphoimaging erzeugt und diese Datei wird dann mit Software analysiert. Die Software korreliert Spots mit Genen und kann Spot-Intensitäten für differentielle Expressionsstudien vergleichen.

Glasarray-Daten werden in ähnlicher Weise behandelt, aber die Fluoreszenz des Bildes wird gescannt und die Software ermöglicht die individuelle oder gleichzeitige Erkennung der Fluoreszenz jeder Probe zur Analyse. Die meisten Softwarepakete können mehrere Arrays gleichzeitig analysieren.


Datenbanken für Systembiologie

Jürgen Eils, . Martin Ginkel, in Computational Systems Biology, 2006

2 Normen

Es gibt fortlaufende Bemühungen, Standards für das Melden und Speichern von experimentellen Daten von bestimmten Methodentypen zu entwickeln. Der Standard Minimum Information About a Microarray Experiment (MIAME) wurde entwickelt, um den Datenexport und die Beschreibung von Microarray-Experimenten mit dem Ziel einer eindeutigen Experimentinterpretation durch die gesamte Forschungsgemeinschaft zu unterstützen (Brazma et al. 2001). Die MicroArray Gene Expression Markup Language (MAGE-ML) basiert auf dem MAGE-Objektmodell (MAGE-OM) und kann für den Microarray-Datenaustausch verwendet werden (Spellman et al. 2002). Die HUPO-Nomenklatur (Human Proteome Organization) zur Erleichterung des Datenvergleichs, -austauschs und der Verifikation im Bereich der Proteomik wurde von der Proteomics Standards Initiative entwickelt ( Orchard et al. 2003 Orchard et al. 2005 ). Vor kurzem wurde eine Kommission mit dem Ziel gebildet, Standards für die funktionelle Enzymcharakterisierung zu setzen, genannt Standards for Reporting Enzymology Data (STRENDA). Die in OME beschriebenen Standards für den Umgang mit mikroskopischen Daten unterstützen Projekte, die beispielsweise RNAi-Screening und Anwendungen verwenden, die mehrdimensionale Bildspeicherung und -analyse erfordern. Das XML-Schema (Extensible Markup Language) OME XML wurde etabliert, um den Datentransfer zu standardisieren (Swedlow et al. 2003). Mikroarray- und Proteomik-Standards wurden in das Systembiologische Objektmodell (SysBio-OM) integriert, das die Darstellung von Mikroarray- und Proteinexpressionsdaten sowie Daten zur Beschreibung von Protein-zu-Protein-Interaktionen und Metabolismus unterstützt (Xirasagar et al. 2004).


NEU Produkt! SARS-CoV-2 Coronavirus Antigen Microarrays. Weitere Informationen zu diesen Microarrays finden Sie unter https://www.genecopoeia.com/product/omicsarray-antigen-microarrays/.

Neben vorgefertigten Arrays sind auch Arrays mit maßgeschneiderten Proteinsätzen sowie Array-Profiling-Dienste und Datenanalysen erhältlich.

  • Multiplexfähig. OmicsArray&trade Antigen-Microarrays können bis zu 120 Antigene gleichzeitig testen, verglichen mit 1 Protein gleichzeitig für ELISA.
  • Hoher Durchsatz. Jeder Objektträger kann bis zu 15 Proben parallel verarbeiten.
  • Hohe Empfindlichkeit. Jedes Array kann nur 1 pg/ml Antikörper nachweisen, was 100-mal empfindlicher ist als ELISA.
  • Kleines Probenvolumen. Zum Nachweis wird nur 1 ul Serum benötigt.
  • Schnell. Von der Probe zu den Daten in nur 2 Wochen.

Glykobiologie

David F. Smith, . Richard D. Cummings, in Methods in Enzymology, 2010

2 Der gedruckte Glycan-Microarray des Consortium for Functional Glycomics (CFG)

Glycan Array Synthesis Core (Core D) produziert das CFG Glycan Microarray (http://www.functionalglycomics.org/static/consortium/organization/sciCores/cored.shtml), wie zuvor beschrieben (Blixt et al., 2004). Abbildung 19.1 bietet eine Zusammenfassung der Schritte zur Herstellung des Glykan-Arrays und der anschließenden Analyse eines GBP mit einer Vielzahl von Fluoreszenznachweismethoden, um Daten in einem Histogrammformat zu erzeugen. Das CFG-Array wird auf Mikroskop-Objektträger aus Glas gedruckt, die mit NHS (SCHOTT Nexterion ® Slide H, SCHOTT North America, Elmsford, NY) derivatisiert sind. Alle Glykane, die für den Glykan-Array-Synthesekern D des CFG verfügbar sind, besitzen ein primäres Amin an einem Linker, der an das reduzierende Ende jedes Glykans gebunden ist. Die Glykanstrukturen und die Struktur einzelner Linker für jede Version des CFG-Glykan-Mikroarrays sind verfügbar unter (http://www.functionalglycomics.org/static/consortium/resources/resourcecoreh8.shtml). Das erste gedruckte Glykan-Mikroarray, das 2005 erhältlich war, war v2.0 und enthielt 264 Glykan-Targets und wurde über 5 Jahre in acht Iterationen auf 511 Glykane erweitert. Jedes Glycan-Target wird mit der gleichen Konzentration gedruckt (100 μm) in Wiederholungen von sechs. Nur wenige Nanogramm jedes Glykans sind in einem Spotdurchmesser von . mit dem Objektträger verbunden

100 Mikrometer. Eine GAL-Datei, die a.TXT Datei, die die Position jedes Spots auf dem Microarray identifiziert, jeden Microarray definiert und die Ausrichtung der Glykanspots mit Fluoreszenzbildern der GBP-Bindung ermöglicht. Die gedruckten Glykan-Mikroarrays sind stabil und werden getrocknet bei Raumtemperatur gelagert.

Abbildung 19.1 . Analyse des Glykan-bindenden Proteins (GBP) auf Mikroarrays definierter Glykane. (A) Definierte Glykane gedruckt und kovalent gekoppelt an aktivierte Glasträger werden mit einem biotinylierten GBP abgefragt und in einem zweiten Schritt mit Cyanin5-markiertem Streptavidin nachgewiesen. (B) Alternative Strategien zur Erkennung von GBPs auf dem Microarray. (C) Die durchschnittliche RFU, die während des Fluoreszenzscannens von Replikatspots erzeugt wird, wird berechnet und die Daten werden als Histogramme der Fluoreszenzintensität oder relativen Fluoreszenzeinheiten (RFU) mit Standardabweichung oder Standardfehler des Mittelwerts in Fehlerbalken angezeigt.


Resultate und Diskussionen

Ein hypothetisches Szenario

Geschätzte Normalisierungsfaktoren sollten sicherstellen, dass ein Gen mit dem gleichen Expressionsniveau in zwei Proben nicht als DE nachgewiesen wird. Um die Notwendigkeit komplexerer Normalisierungsverfahren in RNA-seq-Daten weiter hervorzuheben, betrachten Sie ein einfaches Gedankenexperiment. Stellen Sie sich vor, wir haben ein Sequenzierungsexperiment, bei dem zwei RNA-Populationen, A und B, verglichen werden. Nehmen Sie in diesem hypothetischen Szenario an, dass jedes Gen, das in B exprimiert wird, in A mit der gleichen Anzahl von Transkripten exprimiert wird. Nehmen Sie jedoch an, dass Probe A auch einen Satz von Genen enthält, die in Anzahl und Expression gleich sind und in B nicht exprimiert werden. Somit hat Probe A doppelt so viele gesamte exprimierte Gene wie Probe B, d. h. ihre RNA-Produktion ist doppelt so groß wie Probe B. Angenommen, jede Probe wird dann auf die gleiche Tiefe sequenziert. Ohne zusätzliche Anpassung hat ein in beiden Proben exprimiertes Gen im Durchschnitt die Hälfte der Reads von Probe A, da die Reads auf doppelt so viele Gene verteilt sind. Daher würde die korrekte Normalisierung Probe A um den Faktor 2 anpassen.

Das obige hypothetische Beispiel unterstreicht die Vorstellung, dass der Anteil der Reads, die einem bestimmten Gen in einer Bibliothek zugeschrieben werden, von den Expressionseigenschaften der gesamten Probe und nicht nur von der Expressionsstärke dieses Gens abhängt. Offensichtlich ist das obige Beispiel künstlich. Es gibt jedoch biologische und sogar technische Situationen, in denen eine solche Normalisierung erforderlich ist. Wenn beispielsweise eine RNA-Probe kontaminiert ist, entfernen die Reads, die die Kontamination darstellen, die Reads von der echten Probe, wodurch die Anzahl der interessierenden Reads sinkt und der Anteil für jedes Gen ausgeglichen wird. Wie wir jedoch zeigen, werden echte biologische Unterschiede in der RNA-Zusammensetzung zwischen den Proben der Hauptgrund für die Normalisierung sein.

Sampling-Framework

Eine formalere Erklärung für das Erfordernis der Normalisierung verwendet den folgenden Rahmen. Definieren Ja gkals beobachtete Anzahl für Gen g in der Bücherei k zusammengefasst aus den Rohdaten, μ gkals wahres und unbekanntes Expressionsniveau (Anzahl der Transkripte), L gwie die Länge des Gens g und n kals Gesamtzahl der Lesevorgänge für die Bibliothek k. Wir können den Erwartungswert von modellieren Ja gkwie:

S krepräsentiert den gesamten RNA-Output einer Probe. Das Problem, das der Analyse von RNA-Seq-Daten zugrunde liegt, ist, dass während n kist bekannt, S kist unbekannt und kann je nach RNA-Zusammensetzung von Probe zu Probe stark variieren. Wie oben erwähnt, wenn eine Population einen größeren Gesamt-RNA-Output hat, dann werden RNA-seq-Experimente im Vergleich zu einer anderen Probe viele Gene unterbemustern.

An dieser Stelle belassen wir die Varianz im obigen Modell für Ja gknicht spezifiziert. Je nach experimenteller Situation scheint Poisson für technische Replikate geeignet zu sein [6, 7] und Negative Binomial für die zusätzliche Variation, die bei biologischen Replikaten beobachtet wurde [14]. Es ist auch erwähnenswert, dass in der Praxis die L gwird im Allgemeinen in die μ gkParameter und wird in der Inferenzprozedur nicht verwendet. Es ist jedoch gut etabliert, dass Genlängenverzerrungen bei der Analyse der Genexpression eine herausragende Rolle spielen [15].

Der getrimmte Mittelwert der M-Werte-Normalisierungsmethode

Die gesamte RNA-Produktion, S k, kann nicht direkt abgeschätzt werden, da wir nicht die Expressionsniveaus und die wahre Länge jedes Gens kennen. Die relative RNA-Produktion von zwei Proben, F k = S k/S k' , im Wesentlichen eine globale Faltenänderung, leichter bestimmt werden. Wir schlagen eine empirische Strategie vor, die die Gesamtexpressionsniveaus von Genen zwischen Proben unter der Annahme gleichsetzt, dass die Mehrheit von ihnen keine DE sind. Ein einfacher, aber robuster Weg, das Verhältnis der RNA-Produktion abzuschätzen, verwendet einen gewichteten getrimmten Mittelwert der logarithmischen Expressionsverhältnisse (getrimmter Mittelwert der M-Werte (TMM)). Für Sequenzierungsdaten definieren wir die genweisen Log-Fold-Changes als:

und absolute Ausdrucksstufen:

Um die beobachteten M-Werte robust zusammenzufassen, trimmen wir sowohl die M-Werte als auch die A-Werte, bevor wir den gewichteten Durchschnitt nehmen. Präzisionsgewichte (inverse der Varianz) werden verwendet, um der Tatsache Rechnung zu tragen, dass Log-Fold-Änderungen (effektiv ein logarithmisches relatives Risiko) von Genen mit größeren Read-Counts eine geringere Varianz auf der Logarithmus-Skala aufweisen. Weitere Informationen finden Sie unter Materialien und Methoden.

Für einen Vergleich mit zwei Stichproben ist nur ein relativer Skalierungsfaktor (F k) erforderlich. Er kann verwendet werden, um beide Bibliotheksgrößen (die Referenz durch dividieren und Nicht-Referenz mit multiplizieren) in der statistischen Analyse anzupassen (zum Beispiel Fishers exakter Test siehe Materialien und Methoden für weitere Details).

Normalisierungsfaktoren über mehrere Proben können berechnet werden, indem eine Probe als Referenz ausgewählt und der TMM-Faktor für jede Nicht-Referenzprobe berechnet wird. Ähnlich wie bei Vergleichen mit zwei Stichproben können die TMM-Normalisierungsfaktoren in das statistische Modell eingebaut werden, das zum Testen auf DE verwendet wird. Ein Poisson-Modell würde beispielsweise die beobachtete Bibliotheksgröße in eine effektive Bibliotheksgröße ändern, die den modellierten Mittelwert anpasst (z. B. unter Verwendung eines zusätzlichen Offsets in einem verallgemeinerten linearen Modell siehe Materialien und Methoden für weitere Details).

Ein Leber-Nieren-Datensatz

Wir haben unsere Methode auf einen öffentlich verfügbaren Transkriptionsprofil-Datensatz angewendet, der mehrere technische Replikate einer Leber- und Nieren-RNA-Quelle verglichen hat [6]. Abbildung 1a zeigt die Verteilung der M-Werte zwischen zwei technischen Replikaten der Nierenprobe nach dem Standardnormalisierungsverfahren zur Berücksichtigung der Gesamtzahl der Ablesungen. Die Verteilung der M-Werte für diese technischen Replikate konzentriert sich um Null. Abbildung 1b zeigt jedoch, dass die logarithmischen Verhältnisse zwischen einer Leber- und einer Nierenprobe signifikant in Richtung einer höheren Expression in der Niere ausgeglichen sind, selbst nach Berücksichtigung der Gesamtzahl der Ablesungen. Ebenfalls hervorgehoben (grüne Linie) ist die Verteilung der beobachteten M-Werte für eine Reihe von Haushaltsgenen, die eine signifikante Verschiebung von Null weg zeigt. Bei einer Skalierung auf die Gesamtzahl von Reads entsprechend normalisierte RNA-Seq-Daten, dann ist eine solche Verschiebung der log-fachen Änderungen nicht zu erwarten. Die Erklärung für diese Verzerrung ist einfach. Das M-gegen-A-Diagramm in Abbildung 1c veranschaulicht, dass es einen prominenten Satz von Genen mit höherer Expression in der Leber gibt (schwarzer Pfeil). Als Ergebnis ist die Verteilung der M-Werte (Leber zu Niere) in die negative Richtung schief. Da diesen leberspezifischen Genen ein großer Teil der Sequenzierung gewidmet ist, steht für die verbleibenden Gene weniger Sequenzierung zur Verfügung, wodurch die M-Werte (und damit die DE-Calls) proportional in Richtung nierenspezifisch verzerrt werden.

Für RNA-seq-Daten ist eine Normalisierung erforderlich. Daten aus [6] zum Vergleich der logarithmischen Verhältnisse von (ein) technische Repliken und (B) Leber- versus Nieren-Expressionsspiegel, nach Anpassung an die Gesamtzahl der Ablesungen in jeder Probe. Die grüne Linie zeigt die geglättete Verteilung der Log-Fold-Änderungen der Housekeeping-Gene. (C) Ein M-gegen-A-Diagramm zum Vergleich von Leber und Niere zeigt einen klaren Offset von Null. Grüne Punkte zeigen 545 Housekeeping-Gene an, während die grüne Linie das mittlere Log-Verhältnis der Housekeeping-Gene anzeigt. Die rote Linie zeigt den geschätzten TMM-Normalisierungsfaktor. Die orangefarbenen Punkte heben die Gene hervor, die nur in einem der Leber- oder Nierengewebe beobachtet wurden. Der schwarze Pfeil hebt den Satz prominenter Gene hervor, die größtenteils für die Gesamtverzerrung der logarithmischen Veränderungen verantwortlich sind.

Die Anwendung der TMM-Normalisierung auf dieses Probenpaar führt zu einem Normalisierungsfaktor von 0,68 (-0,56 auf der log2-Skala, dargestellt durch die rote Linie in Abbildung 1b, c), was die Unterabtastung der meisten Lebergene widerspiegelt. Der TMM-Faktor ist robust für Daten mit geringerer Abdeckung, bei denen mehr Gene mit Nullzählungen erwartet werden können (Abbildung S1a in Zusatzdatei 1) und ist stabil für vernünftige Werte der Trimmparameter (Abbildung S1b in Zusatzdatei 1). Die Verwendung der TMM-Normalisierung in einem statistischen Test für DE (siehe Materialien und Methoden) führt zu einer ähnlichen Anzahl von Genen, die in Leber (47%) und Niere (53 %) signifikant höher sind. Im Gegensatz dazu führt die Standardnormalisierung (auf die Gesamtzahl der Reads, wie sie ursprünglich in [6] verwendet wurde) dazu, dass die Mehrheit der DE-Gene in der Niere signifikant höher ist (77%). Bemerkenswerterweise werden nach der TMM-Normalisierung noch weniger als 70 % der Gene, die unter Verwendung der Standardnormalisierung als DE identifiziert wurden, nachgewiesen (Tabelle 1). Darüber hinaus stellen wir fest, dass die logarithmischen Veränderungen für eine große Menge von Housekeeping-Genen (aus [16]) im Durchschnitt sehr nahe am geschätzten TMM-Faktor von Null versetzt sind, was unserem robusten Schätzverfahren Glaubwürdigkeit verleiht. Darüber hinaus sind bei Verwendung des nicht adjustierten Testverfahrens 8 % bzw. 70 % der Housekeeping-Gene in Leber und Niere signifikant hochreguliert. Nach der TMM-Anpassung ändert sich der Anteil der DE-Housekeeping-Gene auf 26% bzw. 41%, was eine niedrigere Gesamtzahl und symmetrischer zwischen den beiden Geweben ist. Natürlich wird der in RNA-seq-Daten beobachtete Bias der log-Verhältnisse in Microarray-Daten (aus denselben RNA-Quellen) nicht beobachtet, vorausgesetzt, die Microarray-Daten wurden entsprechend normalisiert (Abbildung S2 in Zusatzdatei 1). Zusammengenommen zeigen diese Ergebnisse eine kritische Rolle für die Normalisierung von RNA-seq-Daten.

Andere Datensätze

Die globale Verschiebung der log-fachen Änderung, die durch RNA-Zusammensetzungsunterschiede verursacht wird, tritt in anderen RNA-seq-Datensätzen in unterschiedlichem Ausmaß auf. Zum Beispiel ein M-gegen-A-Diagramm für den Cloonan et al. [12]-Datensatz (Abbildung S3 in Zusatzdatei 1) ergibt einen geschätzten TMM-Skalierungsfaktor von 1,04 zwischen den beiden Proben (Embryokörper versus embryonale Stammzellen), die auf dem SOLiD™-System sequenziert wurden. Das M-gegen-A-Diagramm für diesen Datensatz hebt auch einen interessanten Satz von Genen hervor, die eine geringere Gesamtexpression, jedoch eine höhere in embryoiden Körpern aufweisen. Dies erklärt die positive Verschiebung der log-fachen Veränderungen für die verbleibenden Gene. Der TMM-Skalierungsfaktor erscheint nahe den medianen log-fachen Veränderungen unter einem Satz von ungefähr 500 Maus-Haushaltsgenen (aus [17]). Als weiteres Beispiel ist die Li et al. [18] Der Datensatz mit dem llumina 1G Genome Analyzer zeigt eine Verschiebung der Gesamtverteilung der log-fachen Änderungen und ergibt einen TMM-Skalierungsfaktor von 0,904 (Abbildung S4 in Zusatzdatei 1). Es gibt jedoch sequenzierungsbasierte Datensätze, die ziemlich ähnliche RNA-Outputs aufweisen und möglicherweise keine signifikante Anpassung erfordern. Zum Beispiel die small-RNA-seq-Daten von Kuchenbauer et al. [19] zeigt nur einen mäßigen Bias in den Log-Fold-Changes (Abbildung S5 in Zusatzdatei 1).

Spike-in-Kontrollen können zur Normalisierung verwendet werden. In diesem Szenario werden jeder Probe kleine, aber bekannte Mengen an RNA aus einem fremden Organismus in einer bestimmten Konzentration zugesetzt. Um Spike-in-Kontrollen zur Normalisierung zu verwenden, muss das Verhältnis der Konzentration des Spikes zur Probe während des gesamten Experiments konstant gehalten werden. In der Praxis ist dies schwierig zu erreichen und kleine Abweichungen führen zu einer verzerrten Schätzung des Normalisierungsfaktors. Zum Beispiel mit der eingespikten DNA aus dem Mortazavi et al. Datensatz [11] würde zu unrealistischen Schätzungen des Normalisierungsfaktors führen (Abbildung S6 in Zusatzdatei 1). Wie bei Microarrays ist es im Allgemeinen robuster, Normalisierungsfaktoren anhand der experimentellen Daten sorgfältig abzuschätzen (z. B. [20]).

Simulationsstudien

Um den Nutzenbereich der TMM-Normalisierungsmethode zu untersuchen, haben wir einen Simulationsrahmen entwickelt, um die Auswirkungen der RNA-Zusammensetzung auf die DE-Analyse von RNA-Seq-Daten zu untersuchen. Zunächst simulieren wir Daten aus nur zwei Bibliotheken. Wir schließen Parameter für die Anzahl der Gene ein, die in jeder Probe eindeutig exprimiert werden, sowie Parameter für den Anteil, die Größe und die Richtung der unterschiedlich exprimierten Gene zwischen den Proben (siehe Material und Methoden). Abbildung 2a zeigt ein M-gegen-A-Diagramm für eine typische Simulation mit einzigartigen Genen und DE-Genen. Durch die Simulation unterschiedlicher Gesamt-RNA-Outputs weist die Mehrheit der Nicht-DE-Gene logarithmische Veränderungen auf, die von Null versetzt sind. In diesem Fall führt die Verwendung der TMM-Normalisierung zur Berücksichtigung der zugrunde liegenden RNA-Zusammensetzung zu einer geringeren Anzahl von Fehlerkennungen mit einem exakten Fisher-Test (Abbildung 2b). Durch viele Wiederholungen der Simulation über einen weiten Bereich von Simulationsparametern hinweg finden wir eine gute Übereinstimmung beim Vergleich der wahren Normalisierungsfaktoren aus der Simulation mit denen, die mittels TMM-Normalisierung geschätzt wurden (Abbildung S7 in Zusatzdatei 1).

Simulationen zeigen, dass die TMM-Normalisierung robust ist und die Normalisierung der Bibliotheksgröße übertrifft. (ein) Ein Beispiel für die Simulationsergebnisse, die die Notwendigkeit einer Normalisierung aufgrund von Genen zeigen, die eindeutig in einer Probe exprimiert werden (orange Punkte) und asymmetrische DE (blaue Punkte). (B) Bei der TMM-Normalisierung wird im Vergleich zur Standard-Normalisierung eine niedrigere Falsch-Positiv-Rate beobachtet.

Um die Leistung der TMM-Normalisierung mit zuvor verwendeten Methoden im Kontext der DE-Analyse von RNA-seq-Daten weiter zu vergleichen, erweitern wir die obige Simulation um replizierte Sequenzierungsläufe. Konkret vergleichen wir drei veröffentlichte Methoden: längennormalisierte Zähldaten, die log-transformiert und quantisnormalisiert wurden, wie von Cloonan implementiert et al. [12], eine Poisson-Regression [6] mit Bibliotheksgröße und TMM-Normalisierung und ein exakter Poisson-Test [8] mit Bibliotheksgröße und TMM-Normalisierung. Wir vergleichen nicht direkt mit der in Balwierz . vorgeschlagenen Normalisierung et al. [13] da der Leber- und Nierendatensatz keiner Potenzgesetzverteilung zu folgen scheint und recht unterschiedliche Zählverteilungen aufweist (Abbildung S8 in Zusatzdatei 1). Darüber hinaus ist es angesichts der beobachteten Verzerrung der RNA-Zusammensetzung nicht klar, ob die Gleichsetzung der Zählverteilungen über die Proben das logischste Verfahren ist. Außerdem vergleichen wir die Normalisierung nicht direkt mit der Normalisierung der virtuellen Länge [2] oder RPKM [11], da eine statistische Analyse der transformierten Daten nicht erwähnt wurde. Wir veranschaulichen jedoch mit M-gegen-A-Plots, dass ihre Normalisierung die Verzerrung der RNA-Zusammensetzung nicht vollständig beseitigt (Abbildungen S9 und S10 in Zusatzdatei 1).

Für die Simulation haben wir eine empirische gemeinsame Verteilung von Genlängen und -zahlen verwendet, da die Cloonan et al. Verfahren erfordert beides. Wir haben die Simulationsdaten Poisson-verteilt erstellt, um technische Replikate nachzuahmen (Abbildung S11 in Zusatzdatei 1). Abbildung 3a zeigt Plots falscher Entdeckungen zwischen den Genen, die beiden Erkrankungen gemeinsam sind, wobei wir 10 % gruppenspezifische Expression für die erste Erkrankung eingeführt haben, 5 % DE auf einem zweifachen Niveau, davon 80 % höher in die erste Bedingung. Der Ansatz, der die für Microarray-Daten entwickelte Methodik verwendet, schneidet gleichmäßig schlechter ab, wie man erwarten könnte, da die Verteilungsannahmen für diese Methoden ziemlich unterschiedlich sind. Unter den verbleibenden Methoden (Poisson-Likelihood-Ratio-Statistik, Poisson-Exact-Statistik) ist die Leistung wieder sehr ähnlich, die TMM-Normalisierung verbessert beide dramatisch.

False Discovery Plots, die mehrere veröffentlichte Methoden vergleichen. Die rote Linie zeigt die längennormalisierte moderierte t-Statistik-Analyse. Die durchgezogenen und gestrichelten Linien zeigen die normalisierte Bibliotheksgröße bzw. die TMM-normalisierte Poisson-Modellanalyse. Die blauen und schwarzen Linien repräsentieren den LR-Test bzw. den exakten Test. Es ist ersichtlich, dass die Verwendung der TMM-Normalisierung zu einer viel geringeren Rate falscher Entdeckungen führt.


Schlussfolgerungen

Die Sequenzierung ganzer Genome und die Einführung von Technologien, die gleichzeitig die Expression von Tausenden von Genen messen können, bietet der biologischen Forschung eine globale Perspektive, die dem Trend der letzten Jahrzehnte der Verengung auf hochspezialisierte Forschungsfelder entgegenwirkt. Die optimale Nutzung dieser unschätzbaren Ressourcen durch Forscher erfordert jedoch die Entwicklung von Bergbauwerkzeugen, um Daten in einem Zeitrahmen zu untersuchen und zu interpretieren, der mit der beeindruckenden Geschwindigkeit, mit der sie generiert werden, kompatibel ist. Individuelles Wissen baut auf Assoziationen zwischen den Informationen auf, die wir aus der Literatur gewinnen. Die hier beschriebene Methode ahmt diesen Lernprozess nach, indem sie sinnvolle Begriffe aus wissenschaftlichen Publikationen verknüpft, um ein kohärentes Bild der Beziehungen innerhalb komplexer Gengruppen zu erstellen. Da diese Analyse unabhängig von der Kenntnis der Genfunktion durchgeführt wird, bietet sie ein Mittel, um die biologische Bedeutung komplexer Expressionsdaten auf unvoreingenommene Weise schnell zu untersuchen.


Zukünftige Richtungen

Die Untersuchung genetischer Störungen wandelt sich von der Untersuchung einzelner Gene isoliert hin zur Entdeckung zellulärer Gennetzwerke, dem Verständnis ihrer komplexen Wechselwirkungen und der Identifizierung ihrer Rolle bei Krankheiten. 19 Damit beginnt ein ganz neues Zeitalter der individuell zugeschnittenen Medizin. Bioinformatics will guide and help molecular biologists and clinical researchers to capitalise on the advantages brought by computational biology. 20 The clinical research teams that will be most successful in the coming decades will be those that can switch effortlessly between the laboratory bench, clinical practice, and the use of these sophisticated computational tools.


Schau das Video: DNA microarray explained english speak (Januar 2023).