Information

Sequenzierung an der Primerstelle ungenau

Sequenzierung an der Primerstelle ungenau


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Die Zeiten, in denen ich eine Probe zur Sequenzierung geschickt habe, sowohl die Vorwärts- als auch die Rückwärtsprimerstellen, zeigen eine hohe Ungenauigkeit, während der Rest des Gens korrekt sequenziert ist. Aus diesem Grund sind die Sequenzen von my in silico Konstrukt und sequenzierte Probe stimmen in diesem Abschnitt nicht überein; aber sie richten sich zu fast 100% am Rest des Gens aus.

Gibt es dafür einen Grund? Ist dies einfach ein Sequenzierungsartefakt oder sollte ich der sequenzierten Probe vertrauen und davon ausgehen, dass die Primerstellen mutiert sind?


Die äußersten Enden der Sequenzierungs-Reads, die von den meisten, wenn nicht allen Sequenzierungstechnologien erhalten werden, sind normalerweise von geringerer Qualität, wenn auch häufiger in der 5'-Region. Sie sollten diese Daten ignorieren oder noch besser zusätzliche Primer entwickeln, die weiter entfernt sind, um auch diese Region einzukapseln, wenn Sie sie dringend benötigen.

Unten ist eine ziemlich typische Ausgabe der FASTQC-Analyse von Illumina-Sequenzierungsdaten. Sie können sehen, wie die Qualität in der Mitte des Lesevorgangs ihren Höhepunkt erreicht (Basisindex auf der x-Achse. Sie würden wahrscheinlich Ähnliches für die Sanger-Sequenzierung sehen, die Sie vermutlich verwenden.


So entwerfen Sie eine Grundierung

Oligonukleotid-Primer sind notwendig, wenn eine PCR-Reaktion durchgeführt wird. Man muss Primer entwerfen, die komplementär zur Matrizenregion der DNA sind. Sie werden chemisch synthetisiert, indem Nukleotide miteinander verbunden werden. Man muss wiederholt die reaktiven Gruppen an einem Nukleotid selektiv blockieren und entblocken, wenn ein Nukleotid einzeln hinzugefügt wird. Die Haupteigenschaft von Primern besteht darin, dass sie Sequenzen auf dem Matrizenmolekül entsprechen müssen (muss zum Matrizenstrang komplementär sein). Primer müssen jedoch nicht vollständig dem Matrizenstrang entsprechen, es ist jedoch wichtig, dass das 3’-Ende des Primers vollständig dem DNA-Matrizenstrang entspricht, damit die Elongation fortschreiten kann. Normalerweise wird am 3’-Ende ein Guanin oder Cytosin verwendet, und das 5’-Ende des Primers weist normalerweise Abschnitte von mehreren Nukleotiden auf. Außerdem müssen beide 3'-Enden der hybridisierten Primer zueinander zeigen.

Auch die Größe der Grundierung ist sehr wichtig. Kurze Primer werden hauptsächlich zur Amplifikation eines kleinen, einfachen DNA-Fragments verwendet. Andererseits wird ein langer Primer verwendet, um eine eukaryontische genomische DNA-Probe zu amplifizieren. Ein Primer sollte jedoch nicht zu lang (> 30-mer Primer) oder zu kurz sein. Kurze Primer erzeugen ein ungenaues, unspezifisches DNA-Amplifikationsprodukt, und lange Primer führen zu einer langsameren Hybridisierungsrate. Im Durchschnitt sollte das zu amplifizierende DNA-Fragment eine Größe von 1-10 kB haben.

Die Struktur des Primers sollte relativ einfach sein und keine interne Sekundärstruktur enthalten, um eine interne Faltung zu vermeiden. Außerdem muss ein Primer-Primer-Annealing vermieden werden, das Primer-Dimere erzeugt und den Amplifikationsprozess unterbricht. Wenn man sich beim Designen nicht sicher ist, welches Nukleotid an einer bestimmten Position innerhalb des Primers platziert werden soll, kann man mehr als ein Nukleotid an dieser Position einschließen, die als gemischte Stelle bezeichnet wird. Man kann auch ein nukleotidbasiertes molekulares Insert (Inosin) anstelle eines regulären Nukleotids für breitere Paarungsfähigkeiten verwenden.


Abstrakt

Bakterielle 16S-ribosomale DNA (rDNA)-Amplikons werden häufig bei der Klassifizierung von unkultivierten Bakterien verwendet, die in Umweltnischen leben. Primer, die auf konservative Regionen der rDNAs abzielen, werden verwendet, um Amplikons von varianten Regionen zu erzeugen, die in der taxonomischen Zuordnung informativ sind. Ein Problem besteht darin, dass die prozentuale Deckung und der Anwendungsbereich der in früheren Studien verwendeten Primer weitgehend unbekannt sind. In dieser Studie wurden zunächst konservative Fragmente verfügbarer rDNA-Sequenzen abgebaut und dann verwendet, um innerhalb der Fragmente nach Kandidaten-Primern zu suchen, indem die Bedeckungsrate gemessen wurde, die als Prozentsatz der bakteriellen Sequenzen, die das Ziel enthielten, definiert wurde. Es wurden 30 vorhergesagte Primer mit einer hohen Bedeckungsrate (>90%) identifiziert, die im Wesentlichen in den gleichen konservativen Regionen wie bekannte Primer in früheren Berichten lokalisiert waren, wohingegen 30% der bekannten Primer mit einer Bedeckungsrate von <90% assoziiert waren. Der Anwendungsbereich der Primer wurde auch untersucht, indem die Prozentsätze der fehlgeschlagenen Nachweise in Bakterienstämmen berechnet wurden. Die Primer A519–539, E969–983, E1063–1081, U515 und E517 werden wegen ihrer hohen Deckkraft in fast allen Stämmen dringend empfohlen. Wie erwartet, werden die drei vorherrschenden Stämme Firmicutes, Gemmatimonadetes und Proteobacteria am besten durch die vorhergesagten Primer abgedeckt. Die in diesem Bericht empfohlenen Primer sollen eine umfassende und zuverlässige Untersuchung der bakteriellen Diversität in metagenomischen Studien ermöglichen.

Zitat: Wang Y, Qian P-Y (2009)Konservative Fragmente in bakteriellen 16S-rRNA-Genen und Primer-Design für 16S-ribosomale DNA-Amplikons in metagenomischen Studien. PLoS ONE 4(10): e7401. https://doi.org/10.1371/journal.pone.0007401

Editor: Dawn Field, NERC Center for Ecology and Hydrology, Vereinigtes Königreich

Empfangen: 23. Juni 2009 Akzeptiert: 13. September 2009 Veröffentlicht: 9. Oktober 2009

Urheberrechte ©: © 2009 Wang, Qian. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Finanzierung: KAUST Globale Partnerschaft. Die Geldgeber spielten keine Rolle beim Studiendesign, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.


ERGEBNISSE

Beschreibung des Barcode-Assays

Unser Ansatz zur Quantifizierung der DNA-Polymerase-Fidelität ist in Abbildung 1 dargestellt. Ein Pool von Templates mit identischen Sequenzen durchläuft eine Verlängerungsrunde mit der interessierenden Polymerase (Abbildung 1A). Die Primer (Abbildung 1B) enthalten eine randomisierte 12-bp-Barcode-Sequenz, um jedes Produkt mit einem einzigartigen „Produkt-Barcode“ zu versehen. Die Primer enthalten auch einen für jede Reaktionsbedingung einzigartigen „Bedingungs-Barcode“, der es ermöglicht, mehrere Reaktionen gleichzeitig zu bündeln und zu sequenzieren. Nach der Verlängerung durch die interessierende Polymerase wird der komplementäre Strang durch eine High-Fidelity-Polymerase unter Verwendung eines Primers derselben Struktur synthetisiert. Dieser komplementäre Strang wird dann unter Verwendung von Primern, die zu den partiellen Illumina-Adaptern an beiden Enden des Produkts komplementär sind, PCR-amplifiziert, wodurch eine Bibliothek mit mehreren Strichcode-Kopien jedes Originalprodukts erzeugt wird. Nach der Paired-End-Sequenzierung werden die Lesevorgänge nach den Produkt-Barcodes an beiden Enden gruppiert (Abbildung 1C). Fehler, die bei der anfänglichen Verlängerung durch die interessierende Polymerase erzeugt wurden, sollten in allen Kopien des Produkts vorhanden sein. Sequenzierungsfehler können erkannt werden, da sie höchstwahrscheinlich nur in einem Bruchteil der Kopien vorhanden sind und somit eliminiert werden können. Nachdem Sequenzierungsfehler herausgefiltert wurden, werden die DNA-Polymerasefehler für jedes Produkt erhalten. Dieser Ansatz unterliegt keinen PCR-Quantifizierungsfehlern, da die Fehlerraten anhand der Anzahl der einzelnen Produkte und nicht anhand ihrer endgültigen amplifizierten Menge quantifiziert werden.

Schema der Barcode-Strategie. (EIN) Workflow zur Generierung von Produkten für die Paired-End-Sequenzierung. Der Pool von Matrizen wird unter Verwendung der interessierenden Polymerase repliziert. Die komplementären Stränge werden dann unter Verwendung einer High-Fidelity-Polymerase synthetisiert. In beiden Fällen wird ein spezieller Primer (grün und orange) verwendet, der einen partiellen Illumina-Adapter, einen zufälligen Produkt-Barcode und einen Zustands-Barcode enthält. Zum partiellen Illumina-Adapter komplementäre Primer werden verwendet, um die komplementären Stränge mittels PCR zu amplifizieren, wodurch die Sequenzierungsbibliothek gebildet wird. Jedes Amplifikationsprodukt ist mit einem einzigartigen Satz von Produkt-Barcodes versehen, die seine Herkunft angeben. (B) Der spezielle Primer enthält einen Teil des Illumina-Sequenzierungsadapters, einen für jede Reaktion einzigartigen „Bedingungs-Barcode“, einen randomisierten „Produkt-Barcode“ mit 12 bp, der jedes Produkt eindeutig markiert, und die Priming-Sequenzierung für die interessierende Region. (C) Nach der Sequenzierung werden die Reads nach Konditionsbarcode und Produktbarcode gruppiert. Sequenzen werden auf die richtige Sequenz ausgerichtet und Fehler werden aufgerufen. Fehler werden nur beibehalten, wenn sie in allen Kopien vorhanden sind, andernfalls werden sie als Folgefehler verworfen.

Schema der Barcode-Strategie. (EIN) Workflow zur Generierung von Produkten für die Paired-End-Sequenzierung. Der Pool von Matrizen wird unter Verwendung der interessierenden Polymerase repliziert. Die komplementären Stränge werden dann unter Verwendung einer High-Fidelity-Polymerase synthetisiert. In beiden Fällen wird ein spezieller Primer (grün und orange) verwendet, der einen partiellen Illumina-Adapter, einen zufälligen Produkt-Barcode und einen Zustands-Barcode enthält. Zum partiellen Illumina-Adapter komplementäre Primer werden verwendet, um die komplementären Stränge mittels PCR zu amplifizieren, wodurch die Sequenzierungsbibliothek gebildet wird. Jedes Amplifikationsprodukt ist mit einem einzigartigen Satz von Produkt-Barcodes versehen, die seine Herkunft angeben. (B) Der spezielle Primer enthält einen Teil des Illumina-Sequenzierungsadapters, einen für jede Reaktion einzigartigen „Bedingungs-Barcode“, einen randomisierten „Produkt-Barcode“ mit 12 bp, der jedes Produkt eindeutig markiert, und die Priming-Sequenzierung für die interessierende Region. (C) Nach der Sequenzierung werden die Reads nach Konditionsbarcode und Produktbarcode gruppiert. Sequenzen werden auf die richtige Sequenz ausgerichtet und Fehler werden aufgerufen. Fehler werden nur beibehalten, wenn sie in allen Kopien vorhanden sind, andernfalls werden sie als Folgefehler verworfen.

Zusätzlich zur Beseitigung von Sequenzierungsfehlern haben wir Maßnahmen ergriffen, um andere Quellen von falsch positiven Ergebnissen während des gesamten Protokolls zu minimieren. Wir erzeugten die Ausgangsmatrizen durch klonale Amplifikation eines Plasmids, das die Matrizensequenz in enthält E coli. E coli Die Replikation weist eine geringe Fehlerrate von etwa 1 × 10 –9 Fehlern pro Basenpaar pro Replikation auf ( 27) und erzeugt einen homogenen Start-Template-Pool. Wir haben auch Fehler bei der Synthese und PCR-Amplifikation des komplementären Strangs minimiert, indem wir die Q5-DNA-Polymerase (Q5), die verfügbare DNA-Polymerase mit der höchsten Genauigkeit, verwendet haben.

Entfernung von Sequenzierungsfehlern und Quantifizierung der DNA-Polymerase-Fehlerrate

Um zu testen, ob die Barcode-Strategie Sequenzierungsfehler reduzieren kann, haben wir die Fehlerrate der Q5-DNA-Polymerase (Q5) bestimmt, wenn unterschiedliche Anzahlen von Produktkopien verwendet wurden, um Sequenzierungsfehler zu filtern. Dazu haben wir Produkte nach der Anzahl der durch die Sequenzierung erfassten Kopien gruppiert und die Fehlerquote in Abhängigkeit von der Kopienanzahl ermittelt. Da Q5 sowohl für die anfängliche Verlängerung als auch für die komplementäre Strangsynthese verwendet wurde, wurde die wahre Fehlerrate als die Hälfte des aufgezeichneten Wertes berechnet. Diese Fehlerraten wurden über zwei Template-Sequenzen gemittelt: eine 188 Basensequenz innerhalb der Chloramphenicol-Acetyltransferase (cm R ) Gen des pBeloBac11 Plasmidvektor und eine 281-Basen-Sequenz innerhalb der LacZα Gen des pOPINP Plasmidvektor (Ergänzungstabellen S2 und S3). Eine Replik über die LacZα Locus wurde ausgeschlossen, da die Matrize Hinweise auf DNA-Schäden zeigte (Ergänzende Abbildung S1).

Bei Produkten mit nur einer Kopie konnten Sequenzierungsfehler und Polymerasefehler nicht getrennt werden und die aufgezeichnete Fehlerrate betrug 1,3 × 10 –4 Substitutionen/bp (Abbildung 2). Bei Produkten mit 2 Kopien sank die Fehlerrate auf 5,6 × 10 –6 Substitutionen/bp, da Sequenzierungsfehler beseitigt wurden. Wenn mehr Kopien vorhanden waren, verringerte sich die Substitutionsfehlerrate weiter auf 4,4 × 10 –6 Substitutionen/bp für 5 Kopien. Durch die Sequenzierung erzeugte Deletionen und Insertionen wurden ebenfalls entfernt, wobei diese Fehlerraten von 0,99 × 10 –5 Deletionen/bp und 2,2 × 10 –7 Insertionen/bp bei 1 Kopie auf keine erkannten Deletionen oder Insertionen bei 5 Kopien abnahmen (Abbildung 2). Dies zeigt, dass unser Barcode-Verfahren erfolgreich die Trennung und Beseitigung von Sequenzierungsfehlern ermöglicht.

Q5-Fehlerrate in Abhängigkeit von der Produktkopiennummer. Da die Anzahl der zum Vergleich verwendeten Produktkopien erhöht wird, werden Sequenzierungsfehler zunehmend eliminiert. Fehlerbalken zeigen Standardfehler an.

Q5-Fehlerquote als Funktion der Produktkopiennummer. Da die Anzahl der zum Vergleich verwendeten Produktkopien erhöht wird, werden Sequenzierungsfehler zunehmend eliminiert. Fehlerbalken zeigen Standardfehler an.

Wir haben die durchschnittlichen Fehlerraten von 3′→5′ Exonuklease-defizientem Klenow-Fragment (Klenow (exo-)), Taq, E coli DNA-Polymerase IV der Y-Familie (Pol IV) und Q5 über die Cm R , LacZα (-) Strang, und LacZα (+) Strang-Loci (Ergänzungstabellen S4 und S5) zum Vergleich mit veröffentlichten Werten. Um Sequenzierungsfehler zu minimieren und gleichzeitig die Produktanzahl zu maximieren, haben wir Produkte mit 3 oder mehr Exemplaren analysiert. Die Q5-Fehlerrate wurde von unseren Messungen abgezogen, um Fehler zu berücksichtigen, die während der Komplementärstrangsynthese gemacht wurden. Wir haben die Fehlerraten über zwei technische Replikate gemessen, wobei Replikate durch Entnahme von Aliquots aus dem Template-Pool und parallele Durchführung des Assays durchgeführt wurden. Wir verglichen unsere Ergebnisse mit denen, die zuvor mit denaturierender Gradienten-Gelelektrophorese (DGGE) ( 23), Sequenzierung mutierter Bakterienkolonien mit LacZα Vorwärtsmutationsselektion ( 11, 28–31) oder direkte Sequenzierung von Bakterienkolonien ohne phänotypische Selektion ( 10, 32) (Ergänzungstabelle S6). Unsere Fehlerraten für Klenow (exo-) und Taq waren sowohl den DGGE- als auch den direkten Sequenzierungswerten ähnlich (Abbildung 3). Im Gegensatz dazu waren unsere Fehlerraten für Klenow (exo-), Taq, Pol IV und Q5 im Durchschnitt 7-mal höher für Substitutionen und 3-mal höher für Deletionen als die LacZα Werte des Vorwärtsmutationsassays. Um die Ursache für diesen Unterschied zu untersuchen, haben wir den Fall der Pol IV-Replikation über die LacZα (+)-Strang. Wir haben zuerst die Pufferbedingungen für die Pol IV-Replikation über die LacZα (+)-Strang, um dem in der entsprechenden Vorwärtsmutationsassay-Studie zu entsprechen (siehe Materialien und Methoden für die Pufferzusammensetzung). Dadurch wurden die Fehlerquoten von 1,06 × 10 –3 sub/bp und 1,3 × 10 –3 del/bp auf 4,6 × 10 –4 sub/bp und 6,3 × 10 –4 del/bp reduziert. Anschließend haben wir die phänotypisch nicht nachweisbaren Fehler entfernt (11) und die Fehlerrate weiter auf 3,2 × 10 –4 sub/bp und 4,6 × 10 –4 del/bp reduziert (Ergänzende Methoden). Diese insgesamt 3-fache Reduktion zeigt, dass Extensionsbedingungen und phänotypische Nachweisbarkeit einen signifikanten Einfluss auf die Fehlerraten haben und die Diskrepanz teilweise erklären können. Da jedoch einige LacZα Die Ergebnisse des Vorwärtsmutationsassays waren bis zu 20-mal niedriger als unsere Messungen, eine signifikante Abweichung bleibt jedoch bestehen. Somit entsprachen unsere Messungen den Ergebnissen anderer nicht-phänotypischer Techniken, schienen jedoch von denen des Mutationsassays abzuweichen.

Vergleich der Fehlerraten aus unserem Barcode-Sequenzierungsassay (roter Kreis) mit Ergebnissen aus der denaturierenden Gradienten-Gelelektrophorese (DGGE) (schwarze Dreiecke), Sequenzierung mutierter Bakterienkolonien mit LacZα Vorwärtsmutationsselektion (schwarze Kreise) oder direkte Sequenzierung von Bakterienkolonien ohne phänotypische Selektion (schwarze Quadrate) (siehe Ergänzungstabelle S6). Bei unseren Testwerten sind die roten Punkte Mittelwerte und die roten Balken zeigen den Standardfehler an.

Vergleich der Fehlerraten aus unserem Barcode-Sequenzierungsassay (roter Kreis) mit Ergebnissen aus der denaturierenden Gradienten-Gelelektrophorese (DGGE) (schwarze Dreiecke), Sequenzierung mutierter Bakterienkolonien mit LacZα Vorwärtsmutationsselektion (schwarze Kreise) oder direkte Sequenzierung von Bakterienkolonien ohne phänotypische Selektion (schwarze Quadrate) (siehe Ergänzungstabelle S6). Bei unseren Testwerten sind die roten Punkte Mittelwerte und die roten Balken zeigen den Standardfehler an.

Schwankungen in der Fehlerrate und Identifizierung von Fehler-Hotspots

Die Treue der DNA-Polymerase variiert über eine Matrize hinweg. Um diese Variation und ihre Reproduzierbarkeit zu untersuchen, haben wir die Häufigkeit von Einzelbasen-Substitutionen für die Replikation von Pol IV (39 641 Substitutionen in 163 949 Produkten) und Klenow (exo-) (4046 Substitutionen in 122 846 Produkten) über die LacZα Locus (–)-Strang für jeweils zwei technische Replikate (Ergänzungstabelle S4). Die Fehlerspektren (Abbildung 4A und ergänzende Abbildung S2) veranschaulichen, dass die Fehlerrate entlang der Vorlage von Basis zu Basis erheblich variierte. Die Variation reichte über zwei Größenordnungen, und die Fehlerraten an jeder Basis waren zwischen den Wiederholungen für Pol IV reproduzierbar (Pearson ρ = 0,97, P < 0,01) und Klenow (exo-) (Pearson ρ = 0,74, P < 0,01) (Fig. 4B), was anzeigt, dass die Variation nicht auf Abtastrauschen zurückzuführen war. Pol IV und Klenow (exo-) unterschieden sich auffallend in ihren Fehlerspektren (Spearman ρ = 0.13, P < 0,01) (Fig. 4C), was darauf hindeutet, dass diese Variationen Polymerase-spezifisch waren. Um zu demonstrieren, wie das Abtastrauschen eine genaue Charakterisierung dieser Variationen erschweren würde, haben wir die Fehlerspektren zufällig auf 50 bis 2000 Fehler unterabgetastet und mit dem Original verglichen. Wir haben dies 100 Mal wiederholt, um die durchschnittliche Ähnlichkeit bei jeder Fehlerstichprobennummer zu erhalten. Die über die gesamte Vorlage gemittelten Fehlerraten blieben ähnlich (Ergänzende Abbildung S3), aber die Korrelation zwischen den Fehlerraten an jeder Basis verbesserte sich von ρ ∼0,30 bei 50 Fehlern auf ρ ∼0,95 bei 2000 Fehlern (Abbildung 4D). Um Fehler-Hotspots zu identifizieren, passen wir als Nächstes die Verteilung von Substitutionsfehlern pro Basisposition an eine Kombination von Poisson-Verteilungen an, indem wir das computergestützte Analyse der Mischungsverteilungen (C.A.MAN)-Paket verwenden ( 33) (Abbildung 5A und ergänzende Abbildung S4). Als Hotspots wurden zunächst jene Positionen definiert, die deutlich von der angepassten Verteilung abwichen (P < 0,05 mit Benjamini-Hochberg-Korrektur unter Annahme der Unabhängigkeit). Dies ergab einen Fehler-Hotspot im Klenow-(exo-)Spektrum an Position 260, der 13-mal fehleranfälliger war als der Durchschnitt (Ergänzende Abbildung S2). Eine Unterabtastung machte es schwierig, diesen Hotspot zu unterscheiden, da der Hotspot selbst bei 500 Fehlern nur in 50 % der Unterabtastungs-Replikate aufgerufen wurde (Abbildung 5B). Wenn die Definition von 'Hotspot' gelockert wurde, um alle Positionen einzubeziehen, die zur Poisson-Verteilung mit dem höchsten mittleren Fehlerparameter gehören, könnten wir 2 Hotspots an den Positionen 106 und 132 im Pol IV-Spektrum identifizieren, die fünfmal fehleranfälliger waren als der Durchschnitt , und 2 Hotspots an den Positionen 80 und 260 in den Klenow-(Exo-)Spektren, die 5- und 13-mal fehleranfälliger waren als der Durchschnitt (Ergänzende Abbildung S2).Um die Möglichkeit auszuschließen, dass die Fehlerspektren von Pol IV und Klenow (exo-) unterschiedlich waren, weil ihre Verlängerungspuffer unterschiedlich waren, wiederholten wir die Analyse nach Verwendung von Pol IV-Puffer für beide Polymerasen. Nach wie vor bestand eine schlechte Korrelation (Spearman ρ = 0,31, P < 0,01) und keine Überlappung in Hotspots. Zusammenfassend konnten wir Variationen der Fehlerrate identifizieren, die sowohl reproduzierbar als auch Polymerase-spezifisch sind.

Variationen in der Substitutionsfehlerrate bei der Replikation der LacZα (−) Strangvorlage. (EIN) Eine Momentaufnahme der ersten 30 Basen des Replikationsprodukts für Pol IV und Klenow (exo-) veranschaulicht Variationen der Substitutionsfehlerrate über das Template hinweg. Die Länge des Balkens gibt die Fehlerrate an. (B) Korrelationsdiagramme der Fehlerraten an jeder Basisposition zwischen technischen Replikaten für Pol IV-Replikate (21 212 und 18 429 Mutationen) und Klenow (exo-) (1973 und 2073 Mutationen) zeigen, dass die Variationen reproduzierbar waren und daher nicht auf Stichprobenrauschen zurückzuführen sind . R1 und R2 bezeichnen die ersten bzw. zweiten Replikate. Ein Ausreißer für Klenow (exo-) bei 1,66 × 10 –3 (Replikat 1) und 2,04 × 10 –3 Fehler/bp (Replikat 2) wurde aus der Analyse ausgeschlossen. (C) Korrelationsdiagramme der Fehlerränge für Pol IV gegen Klenow (exo-) zeigen, dass die Fehlerspektren je nach Polymerase auffallend unterschiedlich sind. (D) Pearson-Korrelationskoeffizient zwischen dem ursprünglichen Fehlerspektrum und einer unterabgetasteten Kopie, wenn die Anzahl der Fehler pro unterabgetasteter Kopie geändert wird. Durchschnittlich 100 Wiederholungen bei jeder Fehlernummer.

Variationen in der Substitutionsfehlerrate bei der Replikation der LacZα (−) Strangvorlage. (EIN) Eine Momentaufnahme der ersten 30 Basen des Replikationsprodukts für Pol IV und Klenow (exo-) veranschaulicht Variationen in der Substitutionsfehlerrate über das Template hinweg. Die Länge des Balkens gibt die Fehlerrate an. (B) Korrelationsdiagramme der Fehlerraten an jeder Basisposition zwischen technischen Replikaten für Pol IV-Replikate (21 212 und 18 429 Mutationen) und Klenow (exo-) (1973 und 2073 Mutationen) zeigen, dass die Variationen reproduzierbar waren und daher nicht auf Stichprobenrauschen zurückzuführen sind . R1 und R2 bezeichnen die ersten bzw. zweiten Replikate. Ein Ausreißer für Klenow (exo-) bei 1,66 × 10 –3 (Replikat 1) und 2,04 × 10 –3 Fehler/bp (Replikat 2) wurde aus der Analyse ausgeschlossen. (C) Korrelationsdiagramme der Fehlerränge für Pol IV gegen Klenow (exo-) zeigen, dass die Fehlerspektren je nach Polymerase auffallend unterschiedlich sind. (D) Pearson-Korrelationskoeffizient zwischen dem ursprünglichen Fehlerspektrum und einer unterabgetasteten Kopie, wenn die Anzahl der Fehler pro unterabgetasteter Kopie geändert wird. Durchschnittlich 100 Wiederholungen bei jeder Fehlernummer.

Identifizierung von Substitutionsfehler-Hotspots. (EIN) Histogramme, die die Verteilung der Substitutionsfehler pro Basenposition für Pol IV und Klenow (exo-) Replikation über die LacZα (−) Strangvorlage. Die Histogramme werden mit dem C.A.MAN-Paket an eine Kombination von Poisson-Verteilungen (rot) angepasst. Hotspots und ihre Positionen werden angezeigt. Der Hotspot mit roten Buchstaben wurde als außergewöhnlich für die angepasste Verteilung identifiziert (α < 0,05, Benjamini-Hochberg korrigiert). Die schwarz markierten Hotspots wurden unter einer lockereren Definition identifiziert, die alle Positionen umfasste, die zur Poisson-Verteilung mit dem höchsten mittleren Fehlerparameter gehörten. (B) Frequenz, mit der der Hotspot der Klenow-(exo-)Position 260 identifiziert wird, wenn das ursprüngliche Spektrum unterabgetastet wird. Durchschnittlich 100 Wiederholungen bei jeder Fehlerstichprobennummer.

Identifizierung von Substitutionsfehler-Hotspots. (EIN) Histogramme, die die Verteilung der Substitutionsfehler pro Basenposition für Pol IV und Klenow (exo-) Replikation über die LacZα (−) Strangvorlage. Die Histogramme werden mit dem C.A.MAN-Paket an eine Kombination von Poisson-Verteilungen (rot) angepasst. Hotspots und ihre Positionen werden angezeigt. Der Hotspot mit roten Buchstaben wurde als außergewöhnlich für die angepasste Verteilung identifiziert (α < 0,05, Benjamini-Hochberg korrigiert). Die schwarz markierten Hotspots wurden unter einer lockereren Definition identifiziert, die alle Positionen umfasste, die zur Poisson-Verteilung mit dem höchsten mittleren Fehlerparameter gehörten. (B) Frequenz, mit der der Hotspot der Klenow-(exo-)Position 260 identifiziert wird, wenn das ursprüngliche Spektrum unterabgetastet wird. Durchschnittlich 100 Wiederholungen bei jeder Fehlerstichprobennummer.

Um die Vorteile unseres Assays bei der Charakterisierung von Fehlerspektren zu demonstrieren, haben wir das Einbasen-Substitutionsspektrum von Pol IV kartiert, das über die LacZα Locus (+)-Strang (837 Substitutionen in 6578 Produkten) und verglichen unsere Ergebnisse mit denen, die unter Verwendung des LacZα Vorwärtsmutationsassay (66 Substitutionen) ( 31) (Ergänzende Abbildung S5). Unsere Verlängerung wurde im gleichen Puffer durchgeführt, der im Vorwärtsmutationsassay berichtet wurde. Die Korrelation zwischen den Fehlerprofilen war auch nach der Begrenzung unseres Spektrums auf phänotypisch nachweisbare Fehler (Spearman ρ = 0,30, P < 0,01), wahrscheinlich aufgrund der kleinen Probengröße des Vorwärtsmutationsassayspektrums. Während aus unseren Daten drei Fehler-Hotspots (unter der gelockerten Definition) an den Positionen 23, 95 und 270 identifiziert werden konnten, konnte außerdem nur 1 Fehler-Hotspot an der Basisposition 95 aus den Mutationsassay-Daten identifiziert werden (Ergänzende Abbildung S4), da die anderen zwei Hotspots sind phänotypisch nicht nachweisbar. Dieser Vergleich veranschaulicht die Bedeutung einer Hochdurchsatz- und nicht phänotypischen Methode bei der Fehlerprofilierung und Hotspot-Identifikation.

Einfluss einer DNA-Läsion auf die Wiedergabetreue

DNA-Läsionen beeinträchtigen die Genauigkeit und Replikationskinetik der DNA-Polymerase, aber Zellen enthalten Transläsions-Synthese-Polymerasen, die speziell angepasst sind, um über Läsionen hinweg zu synthetisieren. Um zu testen, ob unser Assay die Auswirkungen einer Läsion auf die DNA-Polymerase-Fidelität korrekt messen kann, haben wir die Fehlerrate des Läsionsbypasses durch Pol IV, eine Transläsionssynthese-Polymerase, über einer N 2 -Furfuryl-dG-Läsion untersucht. Die N 2 -Furfuryl-dG-Läsion ist ein strukturelles Analogon der Hauptläsion, die in mit Nitrafurazon behandelten Zellen gebildet wird, und Pol IV kann diese Läsion effektiv umgehen ( 34). Wir verglichen das Fehlerspektrum von Pol IV, das über die N 2 -Furfuryl-dG-Läsion repliziert, mit dem von Pol I, einer genauen 3′→5′-Exonuklease-fähigen replikativen Polymerase, sowie von Klenow (exo-). Das läsionshaltige („beschädigte“) Substrat und das läsionsfreie (Kontroll-)Substrat wurden durch Ligieren von 20 Basen-Oligonukleotiden in das M13mp7(L2)-Plasmid hergestellt (siehe Materialien und Methoden). Um falsch positive Ergebnisse aufgrund von Oligonukleotidsynthesefehlern zu berücksichtigen, haben wir die Kontrollsubstratfehlerspektren von den beschädigten Substratfehlerspektren abgezogen.

Alle drei Polymerasen hatten eine erhöhte Substitutionsfehlerrate, wenn DNA über die Läsion synthetisiert wurde. Wie erwartet hatte Pol IV die niedrigste Fehlerrate von 1,27 × 10 −2 Substitutionen/bp (Tabelle 1), während Pol I und Klenow (exo-) viel fehleranfälliger waren und Fehler bei Raten von 1,25 × 10 −1 Substitutionen machten /bp bzw. 1,93 × 10 –1 Substitutionen/bp. Die relativ niedrige Fehlerrate von Pol IV stimmt mit früheren kinetischen Messungen der DNA-Replikation über die N 2 -Furfuryl-dG-Läsion überein, die zeigten, dass Pol IV die richtige Base mit einer höheren kinetischen Rate als Pol I enthält ( 34). Der dominante Fehlertyp war bei den DNA-Polymerasen unterschiedlich. Die G*·dTTP-Fehlpaarung (C→T-Übergang) war am häufigsten für Pol IV mit 1,13 × 10 –2 Vorkommen/Bp und auch für Pol I mit 1,17 × 10 –1 Vorkommen/Bp. Dieses Ergebnis stimmt mit früheren kinetischen Messungen für Pol IV überein, die berichten, dass Thymin gegenüber der Läsion mit der größten Geschwindigkeit eingebaut wurde ( 34) (Ergänzungstabelle S7). Im Gegensatz dazu wurde das Klenow-(exo-)Substitutionsspektrum von der G*·dGTP-Fehlpaarung dominiert, die mit einer Rate von 1,42 × 10 −1 Fehlern/bp auftrat. Wir haben auch die Replikationstreue an Basen neben der Läsionsstelle charakterisiert (ergänzende Abbildung S6). Obwohl es den Anschein hat, dass die Replikationstreue in der Nähe der Läsion reduziert ist, gibt es sowohl in den Läsions- als auch in den Kontrollspektren Fehler-Hotspots, die durch Inkonsistenzen in der Oligonukleotidsynthese oder Schäden durch die Matrizenpräparation verursacht zu sein scheinen. Insgesamt kann die Fehlerrate an der Läsion mit Sicherheit gemessen werden, aber die Charakterisierung der Genauigkeit um die Läsion erfordert zusätzliche Untersuchungen.

Fehlerraten für jede DNA-Polymerase bei der Replikation über die N 2 -Furfuryl-dG-Läsion

. Fehlerrate bei N 2 -Furfuryl-dG-Läsion (Fehler/bp).
Mutationsart. DNA-Polymerase IV. Klenow (exo-) . DNA-Polymerase I.
G*·dTTP 1.13 × 10 −2 4.47 × 10 −2 1.17 × 10 −1
G*·dATP 1.30 × 10 −3 6.17 × 10 −3 1.11 × 10 −3
G*·dGTP 8.58 × 10 −5 1.42 × 10 −1 7.33 × 10 −3
Gesamt 1.27 × 10 −3 1.93 × 10 −1 1.25 × 10 −1
. Fehlerrate bei N 2 -Furfuryl-dG-Läsion (Fehler/bp).
Mutationsart. DNA-Polymerase IV. Klenow (exo-) . DNA-Polymerase I.
G*·dTTP 1.13 × 10 −2 4.47 × 10 −2 1.17 × 10 −1
G*·dATP 1.30 × 10 −3 6.17 × 10 −3 1.11 × 10 −3
G*·dGTP 8.58 × 10 −5 1.42 × 10 −1 7.33 × 10 −3
Gesamt 1.27 × 10 −3 1.93 × 10 −1 1.25 × 10 −1
. Fehlerrate bei N 2 -Furfuryl-dG-Läsion (Fehler/bp).
Mutationsart. DNA-Polymerase IV. Klenow (exo-) . DNA-Polymerase I.
G*·dTTP 1.13 × 10 −2 4.47 × 10 −2 1.17 × 10 −1
G*·dATP 1.30 × 10 −3 6.17 × 10 −3 1.11 × 10 −3
G*·dGTP 8.58 × 10 −5 1.42 × 10 −1 7.33 × 10 −3
Gesamt 1.27 × 10 −3 1.93 × 10 −1 1.25 × 10 −1
. Fehlerrate bei N 2 -Furfuryl-dG-Läsion (Fehler/bp).
Mutationsart. DNA-Polymerase IV. Klenow (exo-) . DNA-Polymerase I.
G*·dTTP 1.13 × 10 −2 4.47 × 10 −2 1.17 × 10 −1
G*·dATP 1.30 × 10 −3 6.17 × 10 −3 1.11 × 10 −3
G*·dGTP 8.58 × 10 −5 1.42 × 10 −1 7.33 × 10 −3
Gesamt 1.27 × 10 −3 1.93 × 10 −1 1.25 × 10 −1

DISKUSSION

Wir haben gezeigt, dass das Multiplexen von Amplikonbibliotheken zur Untersuchung der Diversität in metagenomischen Proben aufgrund des Mistagging-Phänomens anfällig für hartnäckige Kreuzkontaminationsereignisse ist. Sowohl Single-Tagging- als auch gesättigte Double-Tagging-Strategien sind durch zahlreiche und nicht erkennbare kritische Misttags fehlerhaft. Wir haben gezeigt, dass nicht-kombinatorische Designs das Auftreten kritischer Fehlmarkierungen minimieren, indem sie die Bildung unerwarteter Kombinationen auslösen, aber eine schlechte Multiplexing-Kapazität bieten. Der LSD repräsentiert den optimalen Kompromiss zwischen der Fähigkeit zur Fehlerminimierung von nicht-kombinatorischen Designs (7) und der Multiplexing-Kapazität von SAD (32). LSD erzwingt unkritische Fehler in Designs, die nach einer Reihe möglicher Kombinationen und einer Reihe von Stichproben definiert sind, wie der Vergleich mit der SAD bei identischen Sättigungsgraden zeigt. Wenn man sich beispielsweise auf ein LSD verlässt, das 30 Vorwärts- und 30 Rückwärtsprimer umfasst, die jeweils 10 Mal verwendet werden, könnte man 300 Proben (oder 100 Proben in dreifacher Ausführung) bei einem Sättigungsgrad von nur 33% multiplexen. Dies bietet einen perfekten Rahmen für unsere Filtermethode basierend auf unkritischen Misttags-Informationen, aber auch einen erheblichen Zeit- und Kostengewinn. Darüber hinaus reduziert die Begrenzung der Anzahl der eingesetzten markierten Primer die Probleme der Tag-Fehlidentifizierung durch das Design hochvariabler Tag-Sequenzen (9) sowie das Risiko einer Kreuzkontamination während der Handhabung.

Das Ausmaß des Mistagging-Phänomens übertrifft bei weitem die Erwartungen früherer Studien, die sich auf markierte Primerkonstrukte stützten (6, 9). Es wurde vorgeschlagen, dass eine der Hauptursachen für die Fehlmarkierung die Primer-Kreuzkontamination ist (6, 8). In 60-zyklischen PCR-Tests mit nur einem von zwei markierten Primern in der Mischung erhielten wir jedoch keine positiven Ergebnisse, und in einer zusätzlichen Bibliothek mit mehr als 300 000 Reads fanden wir nur 0,096% davon markiert mit mindestens einem von neun markierten Primer, die von 40 bestellten Primern unberührt gelassen wurden (Daten nicht gezeigt). Daher scheint der Einfluss von Primer-Kreuzkontaminationen vernachlässigbar und nur aufgrund der Sequenzierungstiefe von HTS sichtbar. Bis zu einem gewissen Grad können speziell gereinigte Primer diese Quelle der Fehlmarkierung mildern, jedoch mit hohem Aufwand für zahlreiche Proben und sogar ohne sie vollständig zu entfernen ( 9).

Unsere Studie zeigt deutlich, dass die Fehltagging-Ereignisse hauptsächlich während der PCR auftreten, die mit dem Pool markierter Amplikons durchgeführt wurde. Dies wird durch die Tatsache demonstriert, dass die Klone, die eine Probe kontaminieren, von den anderen Proben stammen, die innerhalb derselben Bibliothek gemultiplext wurden. PCR-freie Methoden zur Herstellung von Bibliotheken sind vielversprechend, erfordern jedoch hohe Mengen an Input-DNA. Dies könnte durch Multiplexen von mehr Proben oder nicht-homologem Material wie einem Speziesgenom oder Transkriptom erreicht werden ( 33). Es wurde gezeigt, dass die Häufigkeit der Chimärenbildung umgekehrt proportional zur Komplexität der der PCR unterzogenen Sequenzprobe ist ( 34). Daher erhöht das Multiplexen von nicht-homologen PCR-Produkten vor der Bibliotheksvorbereitungs-PCR die Sequenzdiversität und verringert den Einfluss von Chimären, die wahrscheinlich für die Rekombination von Fragmentenden verantwortlich sind, wo sich die Tags befinden. Daher könnte bei komplexeren Umwelt-DNA-Proben vorhergesagt werden, dass chimäre-getriebene Fehlmarkierungen weniger auffällig sein könnten. Ihr Auftreten kann jedoch in den gleichen Mengen wie Chimären liegen, die normalerweise in Umweltproben beobachtet werden. Dies könnte erklären, was wir in der LSD-Bibliothek beobachtet haben, in der sowohl foraminifere als auch eukaryotische PCR-Produkte gemultiplext wurden. Alternativ kann das Poolen großer Mengen von PCR-Produkten die Menge der zugeführten DNA erhöhen. Diese zweite Lösung ist jedoch riskant, da PCR-Produkte stabile Laborkontaminanten sind, die unter HTS-Bedingungen leicht entdeckt werden können ( 35). Obwohl attraktive Methoden zur Indexierung von Bibliotheken florieren, ist es ratsam, PCR-Produkte während der ersten Amplifikation zu markieren, um potenzielle Kontaminanten zurückverfolgen zu können.

Diese erste PCR bereichert eine spezifische Diversität aus komplexen Proben, erzeugt aber auch Verzerrungen, die für die Inflation von Diversitätsschätzungen ( 36, 37) und die Einführung von artefaktischer Variabilität zwischen den Proben ( 38 ) verantwortlich sind. Um solche Verzerrungen zu korrigieren, können interne Kontrollen wie co-sequenzierte simulierte Gemeinschaftsproben eingesetzt werden ( 33), ihre Eignung hängt jedoch von ihrer Komplexität ab ( 39). Stattdessen erfordert unsere Filtermethode keine zusätzliche Stichprobe, sondern verlässt sich direkt auf die Eigenschaften der Daten selbst. Darüber hinaus ist es besonders für HTS geeignet, da seine statistische Aussagekraft mit der Menge der Sequenzdaten steigt. Tatsächlich bietet eine höhere Menge an nicht kritischen Fehlern eine feinere Auflösung bei der Erkennung und Entfernung kritischer Fehler.

Theoretisch sollte jede Spezies-Genom-Matrize genau eine ISU produzieren, einschließlich der polymorphen Kopien eines Gens. Unser Filter arbeitet mit einer solchen Auflösung, weil es ISU-zentriert ist, d. h. es berechnet die Lesehäufigkeitsverteilung über die Samples jeder ISU unabhängig. Daher beruht es nicht auf einem eindeutigen Häufigkeitsschwellenwert, der auf alle Proben angewendet wird, sondern berechnet einen anderen Schwellenwert für jede ISU in jeder Probe, der unterschiedliche Probensequenzierungstiefen berücksichtigt ( 40, 41). Darüber hinaus erfordert unser Filter keine Abstimmung subjektiver Parameter, was zu unterschiedlichen Sätzen willkürlicher Schwellenwerte führt (19, 20). Da unser Ansatz völlig parameterfrei ist, hat er den größten Vorteil, dass er die Erstellung von synoptischen Modellen für vergleichbarere Diversitätsanalysen ermöglicht.

Die Robustheit unseres Ansatzes wird durch den Einbau von PCR-Replikaten stark verstärkt. Wie unsere Studie gezeigt hat, sind die mit nicht-kombinatorischen Tag-Paaren markierten Replikate weniger anfällig für Kreuzkontaminationen durch identische Fehltags oder für die Anhäufung zufälliger Fehler. Tatsächlich entspricht die Wahrscheinlichkeit solcher gleichzeitig auftretenden Ereignisse dem Produkt der Wahrscheinlichkeiten, die jedem Replikat zugeordnet sind. Für die Filterung fehlerhafter Sequenzen wurde die Bedeutung technischer Replikate hervorgehoben ( 23, 42). Ein Ansatz besteht darin, sich auf die Vereinigung von Replikaten zu konzentrieren, unter der Annahme, dass die gesamte Probenkomplexität durch einzelne PCRs verfehlt wird ( 43) und weil willkürliche abundanzbasierte Filterung dazu führen kann, dass viele seltene echte Arten entfernt werden ( 44, 45). Ein anderer Ansatz besteht darin, die Diversität an der Kreuzung von Replikaten zu analysieren, wobei davon ausgegangen wird, dass in jeder PCR echte Arten nachgewiesen werden. Selbst bei nur 17% der Diversität, die sich auf die Replikate verteilt ( 46), wurde diese konservative Annahme zuvor ( 23) und durch unsere eigenen Ergebnisse bestätigt, obwohl wir aufgrund der Größe unserer simulierten Community-Stichproben falsch positive Artefakte nicht ausschließen können. Der Einbau von PCR-Replikaten in ein Multiplexing-Design ist unter dieser Annahme nicht trivial, da (i) mehr Replikate zu mehr Fehlmarkierungen führen können und (ii) die gleichen Chimären wahrscheinlich bei allen Replikaten auftreten, da die anfängliche Sequenzdiversität in den Replikaten von . ähnlich ist eine Probe ( 34, 47). Es muss ein Kompromiss zwischen der Anzahl der Proben und dem Umfang der Replikation in Betracht gezogen werden, um sicherzustellen, dass Sequenzen seltener Spezies aus Replikaten ungefiltert bleiben. Schließlich ist darauf hinzuweisen, dass bei nicht umweltbezogenen Studien, in denen die markierten Proben zusammengelegt werden, die gleiche Vorsicht bei der falschen Kennzeichnung und bei der Anwendung von Linderungsmaßnahmen zu beachten ist ( 48).

Zusammenfassend schlagen wir einige Empfehlungen vor, um die Genauigkeit von HTS-Datensätzen basierend auf gemultiplexten Amplikonbibliotheken zu erhöhen:

Verbieten Sie Single-Tagging- und gesättigte Double-Tagging-Designs.

Wählen Sie markierte Primer-Kombinationen gemäß LSD, um die Informationen zum Fehltagging zu maximieren.

Minimieren Sie die Probensättigung, um den Anteil kritischer Fehletiketten zu reduzieren.

Integrieren Sie mindestens zwei PCR-Replikate, um fehlerhafte ISUs zu entfernen.

Markieren Sie PCR-Replikate mit markierten Primern, die nur einmal verwendet werden, um Fehlmarkierungen zwischen den Replikaten zu vermeiden.

Verwenden parameterfrei, datengesteuert und ISU-zentriert filternder Ansatz.

Vermeiden Sie lange Primerkonstrukte für Multi-Spezies-Proben.

Einige dieser Empfehlungen lassen sich leicht umsetzen. Wir bieten einen LSD-Generator zur Unterstützung bei der Entwicklung von Double-Tagging-Strategien und einen Filter, der Fehltagging-Muster und PCR-Replikate berücksichtigt. Unser Ansatz ermöglicht eine genaue Rauschunterdrückung von HTS-Daten und bewahrt sowohl die relative Häufigkeit als auch das Vorkommen seltener, echter Sequenzvorlagen. Wir sind überzeugt, dass die Verbindung einer robusten experimentellen Planung mit einer leistungsstarken Sequenzdatenfilterung die beste Lösung ist condicio sine qua non von umfassenden Erhebungen, die den Einsatz zahlreicher Proben und Replikate erfordern.

Die Autoren danken Simon Gregory, Sev Kender und Juan Montoya für fruchtbare Kommentare zum Manuskript sowie anonymen Gutachtern für hilfreiche Kommentare und Fasteris SA für die Sequenzierungsdienste.


Sequenzierung an der Primerstelle ungenau - Biologie

Long-Read-/Sequenzierungstechnologien der dritten Generation führen zu einer neuen Revolution in der Genomik, da sie eine Möglichkeit bieten, Genome, Transkriptome und Metagenome mit einer beispiellosen Auflösung zu untersuchen.

SMRT und Nanoporen-Sequenzierung ermöglichen erstmals die direkte Untersuchung verschiedener Arten von DNA-Basenmodifikationen.

Darüber hinaus kann die Nanoporentechnologie RNA direkt sequenzieren und RNA-Basenmodifikationen identifizieren.

Aufgrund der Portabilität des MinION und der Existenz extrem einfacher Methoden zur Herstellung von Bibliotheken ermöglicht die Nanoporen-Technologie erstmals die Durchführung von Hochdurchsatz-Sequenzierungen im Feld und an entfernten Orten. Dies ist von enormer Bedeutung für die Erhebung von Ausbrüchen in Entwicklungsländern.

Vor 40 Jahren war das Aufkommen der Sanger-Sequenzierung revolutionär, da damit erstmals vollständige Genomsequenzen entschlüsselt werden konnten. Eine zweite Revolution kam, als Next-Generation-Sequencing (NGS)-Technologien auftauchten, die die Genomsequenzierung viel billiger und schneller machten. NGS-Methoden haben jedoch mehrere Nachteile und Fallstricke, insbesondere ihre kurzen Lesevorgänge. Vor kurzem erschienen Methoden der dritten Generation/Long-Read, die Genom-Assemblies von beispielloser Qualität produzieren können. Darüber hinaus können diese Technologien epigenetische Modifikationen an nativer DNA direkt nachweisen und ermöglichen die Sequenzierung des gesamten Transkripts ohne Zusammenbau. Dies ist die dritte Revolution in der Sequenzierungstechnologie. Hier überprüfen und vergleichen wir die verschiedenen Long-Read-Methoden. Wir diskutieren ihre Anwendungen und ihre jeweiligen Stärken und Schwächen und zeigen Zukunftsperspektiven auf.


3 Hauptenzyme der DNA-Replikation | Zellen-Biologie

Eine Primase ist ein Enzym, das die RNA-Primer herstellt, die für die Initiation von Okazaki-Stücken auf dem nacheilenden Strang erforderlich sind. Primase-Aktivität erfordert die Bildung eines Komplexes aus Primase und mindestens sechs anderen Proteinen. Dieser Komplex wird Primo-Som genannt.

Das Primo-Som enthält Pre-Priming-Proteine ​​– willkürlich als Proteine ​​i, n, n’ und n” bezeichnet – sowie das Produkt der Gene DNA B und DNA C. Das Primo-Som führt die anfängliche Priming-Aktivität für führende Strang, bei dem die Synthese kontinuierlich in der Gesamtrichtung 5′ bis 3′ stattfindet.

Es führt auch das wiederholte Priming der Synthese von Okazaki-Fragmenten für den nacheilenden Strang durch, wobei die Synthese diskontinuierlich in der Gesamtrichtung 3′ bis 5′ erfolgt.

Die Primase zeigt eine sehr starke Präferenz für die Initiierung mit Adenosin, gefolgt von Guanosin, und dies legt nahe, dass die Initiierung von Okazaki-Fragmenten an bestimmten Stellen des nacheilenden Strangs erfolgen kann. Der kleine Phagen P4, das nur etwa 20 Okazaki-Fragmente pro Replikationsrunde benötigt, zeigt keine bevorzugten Initiationsstellen.

Die eng mit der eukaryontischen DNA-Polymerase Q verbundene Primase besteht aus zwei Untereinheiten und weist keine strengen Sequenzanforderungen auf. Aber es handelt nicht zufällig.

Enzym # 2. DNA-Polymerase:

DNA-Polymerase ist ein Enzym, das eine neue DNA auf einem Matrizenstrang herstellt. Sowohl prokaryontische als auch eukaryontische Zellen enthalten mehr als eine Spezies von DNA-Polymerase-Enzymen. Nur einige dieser Enzyme replizieren tatsächlich und manchmal werden sie als DNA-Replikasen bezeichnet. Die anderen sind an untergeordneten Rollen in der Replikation beteiligt und/oder par­ticipieren die Reparatursynthese von DNA, um beschädigte Sequenzen zu ersetzen.

DNA-Polymerase katalysiert die Bildung einer Phosphodiesterbindung zwischen der 3′ Hydroxylgruppe am wachsenden Ende einer DNA-Kette (dem Primer) und der 5′ Phosphatgruppe des ankommenden Desoxyribonukleosidtriphosphats (Abb. 20.8).

Das Wachstum erfolgt in der Richtung 5’→3′ und die Reihenfolge, in der die Desoxyribonukleotide hinzugefügt werden, wird durch die Basenpaarung an eine DNA-Matrizenkette bestimmt. Somit benötigt das Enzym neben vier Typen von Desoxyribonukleotiden und Mg++-Ionen sowohl Primer- als auch Matrizen-DNA (Abb. 20.9 und 20.10). Es wurde keine DNA-Polymerase gefunden, die in der Lage ist, DNA-Ketten zu initiieren.

DNA-Polymerasen, die aus Prokaryoten und Eukaryoten isoliert wurden, unterscheiden sich in mehreren Aspekten. Nachfolgend wird eine kurze Beschreibung dieser Enzyme gegeben:

(i) Prokaryotische DNA-Polymerase:

Es gibt drei verschiedene Arten von prokaryotischen DNA-Polymerasen, die als DNA-Poly­merase I, II und III bezeichnet werden. Diese Enzyme wurden aus Prokaryonten isoliert. Die DNA-Polymerase I oder das Romberg-Enzym wurde erstmals von Arthur Kornberg et al. aus E. coli isoliert und 1956 für die DNA-Synthese verwendet. Kornberg erhielt für diese Arbeit 1959 (gemeinsam mit Severo Ochoa) den Nobelpreis.

DNA-Polymerase ist ein Protein von MR109.000 in Form einer einzelnen Polypeptidkette. Es enthält nur eine Sulfhydrylgruppe und eine Disulfidgruppe – der Rest am N-Terminus ist Methionin.

Die meisten der prokaryotischen DNA-Polymerase I zeigen die folgenden Aktivierungen:

ii. 3′ → 5′ Exonuklease-Aktivität.

iii. 5′ → 3′ Exonuklease-Aktivität.

NS. Exzision der RNA-Primer, die bei der Initiation der DNA-Synthese verwendet wurden.

DNA-Polymerase I ist hauptsächlich für die Synthese neuer DNA-Strange verantwortlich. Dies ist die Polymeraseaktivität. Die Syntheserichtung des neuen Strangs’ ist immer 5′ → 3′. Es wird jedoch geschätzt, dass DNA-Polymerase während der DNA-Replikation mit einer Häufigkeit von 10-5 falsche Basen einbaut. Dies ist nicht wünschenswert.

Daher besitzt die DNA-Polymerase auch eine 3′ 5′ Exonuklease-Aktivität (Abb. 20.11), die es ihr ermöglicht, den neu synthetisierten DNA-Strang zu prüfen und zu bearbeiten und dadurch die Fehler, die während der DNA-Replikation gemacht wurden, zu korrigieren. Eine Exonuklease ist ein Enzym, das Nukleinsäuren an den freien Enden abbaut.

Wenn daher die zu synthetisierende DNA-Kette eine terminale Fehlpaarung aufweist, dh die Insertion einer falschen Base in die neue Kette, schneidet die 3’→5′ Exonuklease-Aktivität der DNA-Polymerase I in umgekehrter Richtung die falsche Base ab und sofort die dasselbe Enzym, dh DNA-Polymerase I, initiiert die Synthese der richtigen Base in der wachsenden neuen Kette erneut.

Daher wird aufgrund dieser dualen Aktivität der DNA-Polymerase I die Wahrscheinlichkeit von Fehlern bei der DNA-Replikation verringert.

Die 5′ → 3′ Exonuklease-Aktivität der DNA-Polymerase I ist ebenfalls sehr wichtig. Es funktioniert bei der Entfernung des DNA-Segments, das durch die Bestrahlung mit ultravioletten Strahlen und anderen Mitteln beschädigt wurde. Eine Endonuklease (abbaut Nukleinsäure durch einen internen Schnitt) muss den DNA-Strang nahe der Schadensstelle spalten, bevor 5′ → 3′ Exonuklease-Aktion der DNA-Polymerase I stattfinden kann.

Die 5′ → 3′ Exonuklease-Aktivität der DNA-Polymerase I funktioniert auch bei der Entfernung von RNA-Primern von DNA. Die Ribonukleotide werden aufgrund der 5′ → 3′ Polymeraseaktivität des Enzyms sofort durch Desoxyribonukleotide ersetzt.

Die prokaryontische DNA-Polymerase II wurde in der pol A – Mutante von E. coli entdeckt. Pol A ist ein Gen, das für die Synthese von Polymerase I verantwortlich ist. Daher fehlt der Mutante von pol A – die DNA-Polymerase I oder das Kornberg-Enzym. In Abwesenheit von DNA-Polymerase I findet jedoch auch die Replikation der DNA in einem solchen Mutantentyp statt.

Daher ist es offensichtlich, dass DNA-Poly­merase II eine Rolle bei der DNA-Replikation einer solchen Mutante spielt. DNA-Polymerase II hat eine 5’→3′ Polymeraseaktivität, verwendet jedoch eine DNA-Matrize mit Lücken. Dieses Enzym hat auch die 3′ → 5′, aber nicht die 5′ → 3′ Exonuklease-Aktivität. Die Funktion der E.coli-DNA-Polymerase II in vivo ist unbekannt.

Prokaryotische DNA-Polymerase III wurde auch in der pol A –-Mutante entdeckt. Es gibt starke Hinweise darauf, dass Polymerase III im Gegensatz zu DNA-Polymerase I und II für die DNA-Synthese essentiell ist. Die beste Matrize für DNA-Polymerase III ist doppelsträngige DNA mit sehr kleinen Lücken, die 3′-OH-Priming-Enden enthalten. In der DNA-Polymerase II ist das Kernenzym eng mit zwei kleinen Untereinheiten verbunden.

Das Kernenzym hat sowohl 3′ → 5′ Exonuklease (die am Korrekturlesen beteiligt sein könnte) als auch 5’→ 3′ Exonuklease Aktivitäten, obwohl letztere nur in vitro auf Duplex-DNA mit einem einzelsträngigen 5′ Schwanz.

Dieses Enzym hat eine höhere Affinität für Nukleotidtriphosphat als die DNA-Polymerase I und II und katalysiert die Synthese von DNA-Ketten mit sehr hohen Geschwindigkeiten, dh 10-15 Mal schneller als Polymerase I. Die wichtigsten Eigenschaften der drei DNA-Polymerasen sind zusammengefasst in Tabelle 22.3.

Ein DNA-Polymerase-Molekül hat vier funktionelle Stellen, die an der Polymerase-Aktivität beteiligt sind.

Diese Seiten sind:

(iii) Primer-Terminusstelle und

Die Matrizenstelle bindet an den DNA-Strang, der während der DNA-Replikation und -Shytion als Matrize fungiert, und hält ihn in der richtigen Orientierung. Die Primerstelle ist die Stelle, an der die Primerketten angefügt werden, an die die Nukleotide angefügt werden.

Die Primerterminusstelle stellt sicher, dass der Primer, der an die Primerstelle bindet, ein freies 3′-OH hat. Ein Primer ohne freies 3′-OH kann nicht an diese Stelle binden.

Die Triphosphatstelle ist die Stelle für die Bindung des Desoxyribonukleotids 5′-Triphosphat, das komplementär zum entsprechenden Nukleotid der Matrize ist und die Bildung einer Phosphodiesterbindung zwischen dem 5′ Phosphat dieses Nukleotids und dem 3′-OH des terminalen katalysiert Primer-Nukleotid. Darüber hinaus gibt es eine 3’→5′ Exonuklease-Stelle und eine 5′-3′ Exonuklease-Stelle der DNA-Poly­merase I.

(ii) Eukaryotische DNA-Polymerase:

In höheren Eukaryoten gibt es mindestens vier DNA-Polymerasen, die als α, β,ja und und ein fünftes (ɛ) wurde kürzlich beschrieben. In Hefe-DNA entspricht Polymerase I DNA-Polymerase a, Polymerase II bis e, Polymerase III bis 6 und Polymerase m bis S und sie wurden entsprechend umbenannt.

Polymerase α ist in den Zellkernen vorhanden. Die DNA-Polymerase a zeigt eine optimale Aktivität mit einer DNA-Matrize mit Lücken, zeigt jedoch eine bemerkenswerte Fähigkeit, einzelsträngige DNA zu verwenden, indem sie vorübergehende Haarnadeln bildet. Es wird nicht an Duplex-DNA binden.

Das native, nicht abgebaute Enzym besteht aus einer 180 K Da Polymerase zusammen mit drei Untereinheiten – den 60 und 50 K Da Untereinheiten von etwa 70, 60 und 50 K Da. Die Assoziation der 180 kDa-Polymerase mit dem 70 kDa-Protein führt dazu, dass die 3’→5′ Exonuklease-Aktivität der größeren Untereinheiten eine Primase-Aktivität umfasst, die es dem Enzym ermöglicht, die Replikation auf ungeprimten einzelsträngigen zyklischen DNAs zu initiieren.

Daher weist Polymerase a eine duale Aktivität auf, d. h. sowohl die Polymerase- als auch die Primase-Aktivität. Die Assoziation von Primase mit DNA-Polymerase α ist auf die DNA-Synthesephase beschränkt.

Polymerase β ist auch in den Kernen vorhanden. Es zeigt eine optimale Aktivität mit nativer DNA, die durch begrenzte Behandlung mit nativer DNA-ase I aktiviert wird, um einzelsträngige Nicks und kurze Lücken mit 3′-OH-Priming-Termini zu erzeugen, und zeigt auch eine vernachlässigbare Aktivität mit denaturierter DNA. Es wird angenommen, dass DNA-Polymerase β eine Rolle bei der Reparatur von DNA spielt.

Polymerase δ ist in der sich teilenden Zelle vorhanden und hat ähnliche Eigenschaften wie Polymerase a, jedoch mit 3′ → 5′ Exonuklease-Aktivität. Die Aktivität der Polymerase δ hängt von der Aktivität an zwei Hilfsproteinen ab: Cyclin und Aktivator I.

Aufgrund des Vorhandenseins ungefähr gleicher Aktivitäten der DNA-Polymerase α und δ wurde vorgeschlagen, dass sie als Dimer an der Replikationsgabel wirken, wobei die hochprozessive Polymerase δ auf den führenden Strang und die Primease-assoziierte Polymerase a auf den nacheilenden Strang wirkt .

Die von Cyclin oder PCNA (Proliferation Cell Nuclear Antigen) unabhängige Form der DNA-Polymerase 6 ist als Polymerase e bekannt, die zwei aktive Polymerase-Untereinheiten von 220 und 145 KDa aufweist. DNA-Polymerase e ist wahrscheinlich auch an der Replikation beteiligt und es wurde vorgeschlagen, dass sie die DNA-Polymerase a bei der Synthese von Okazaki-Fragmenten übernimmt.

Polymerase ja kommt in geringen Mengen in tierischen Zellen vor. Es kommt auch in Mitochon­dria und Chloroplasten vor und soll für die Replikation des Chromosoms dieser Organellen verantwortlich sein. Aus Hühnerembryonen isolierte DNA-Polymerase 7 ist ein Tetramer mit vier identischen Untereinheiten. Es hat auch eine Korrekturlese-Exonuklease-Aktivität.

Enzym # 3. DNA-Ligasen:

DNA-Ligase ist ein wichtiges Enzym, das an der DNA-Replikation beteiligt ist. DNA-Ligasen katalysieren die Bildung einer Phosphodiesterbindung zwischen dem freien 5′ Phosphat-Ende eines Oligo- oder Polynukleotids und der 3′-OH-Gruppe eines zweiten Oligos oder Polynukleotids daneben.

Ein Ligase-AMP-Komplex scheint ein obligates Intermediat zu sein und wird bei E. coli und B. subtilis durch Reaktion mit NAD und bei Säugetier- und Phagen-infizierten Zellen mit ATP gebildet.

Die Adenylgruppe wird dann vom Enzym auf den 5′ Phosphoryl-Terminus der DNA übertragen. Die aktivierte Phosphorylgruppe wird dann durch den 3′-Hydroxyl-Terminus der DNA angehängt, um eine Phosphodiesterbindung zu bilden. DNA-Ligasen verbinden aufeinanderfolgende Okazaki-Fragmente, die während der diskontinuierlichen DNA-Replikation erzeugt wurden, und versiegeln die von der DNA-Polymerase hinterlassenen Nicks.

Umgekehrte Transkriptase:

Die bisher diskutierten Enzyme werden für die DNA-Synthese auf dem elterlichen DNA-Stammstrang benötigt. Bei bestimmten RNA-Viren oder Retroviren gibt es jedoch ein Enzym – RNA-abhängige DNA-Polymerase oder reverse Transkriptase genannt – das den elterlichen RNA-Strang als Matrize für die DNA-Synthese verwendet.

Das unmittelbare Produkt dieser Enzymaktivität ist die Bildung eines doppelsträngigen RNA-DNA-Hybrids, das das Ergebnis der Synthese eines komplementären DNA-Strangs unter Verwendung von einzelsträngiger viraler RNA als Matrize ist. Dieses Enzym verwendet virale RNA als Matrize.


Aufdeckung der Komplexität von Transkriptomen mit RNA-Seq

In den letzten Jahren hat die Einführung massiv paralleler Sequenzierungsplattformen für Next Generation Sequencing (NGS)-Protokolle, die in der Lage sind, gleichzeitig hunderttausende DNA-Fragmente zu sequenzieren, die Landschaft der genetischen Studien dramatisch verändert. RNA-Seq für Transkriptomstudien, Chip-Seq für die DNA-Protein-Interaktion, CNV-Seq für große Genom-Nukleotidvariationen sind nur einige der faszinierenden neuen Anwendungen, die von diesen innovativen Plattformen unterstützt werden. Unter ihnen ist RNA-Seq vielleicht die komplexeste NGS-Anwendung. Expressionsniveaus spezifischer Gene, differentielles Spleißen, allelspezifische Expression von Transkripten können durch RNA-Seq-Experimente genau bestimmt werden, um viele biologisch bedingte Probleme zu lösen. All diese Attribute sind mit bisher weit verbreiteten Hybridisierungs- oder Tag-Sequenz-basierten Ansätzen nicht ohne weiteres erreichbar. Die beispiellose Sensibilität und die große Menge verfügbarer Daten, die von NGS-Plattformen produziert werden, bieten jedoch klare Vorteile sowie neue Herausforderungen und Probleme. Diese Technologie bringt die große Kraft, um mehrere neue biologische Beobachtungen und Entdeckungen zu machen, und erfordert auch einen erheblichen Aufwand bei der Entwicklung neuer Bioinformatik-Tools, um mit diesen riesigen Datendateien umzugehen. Das Papier soll einen Überblick über die RNA-Seq -Methodik geben und sich insbesondere auf die Herausforderungen konzentrieren, die diese Anwendung sowohl aus biologischer als auch aus bioinformatischer Sicht mit sich bringt.

1. Einleitung

Es ist allgemein bekannt, dass die genetische Information über die Boten-RNA (mRNA) in einem fein regulierten Prozess von der DNA auf die Proteine ​​übertragen wird. Um eine solche Regulation zu erreichen, ist die konzertierte Wirkung mehrerer cis-wirkender Proteine ​​erforderlich, die an Gen-flankierende Regionen – „Kern“- und „Hilfs“-Regionen binden [1]. Insbesondere Kernelemente, die sich an den Grenzen der Exons befinden, sind für die Initiierung der prä-mRNA-Prozessierung unbedingt erforderlich, während Hilfselemente, die in Anzahl und Position variieren, entscheidend für ihre Fähigkeit sind, die basale Spleißaktivität von a . zu verstärken oder zu hemmen Gen.

Bis vor kurzem – vor weniger als 10 Jahren – bezeichnete das zentrale Dogma der Genetik mit dem Begriff „Gen“ einen DNA-Abschnitt, dessen entsprechende mRNA für ein Protein kodiert. Nach dieser Ansicht wurde RNA als „Brücke“ bei der Übertragung biologischer Informationen zwischen DNA und Proteinen angesehen, während die Identität jedes exprimierten Gens und seiner Transkriptionsebenen allgemein als „Transkriptom“ bezeichnet wurden [2]. Es wurde angenommen, dass es hauptsächlich aus ribosomaler RNA (80–90%, rRNA), Transfer-RNA (5–15%, tRNA), mRNA (2–4%) und einem kleinen Anteil an intragener (dh intronischer) und intergener nicht-kodierender RNA besteht RNA (1%, ncRNA) mit undefinierten regulatorischen Funktionen [3]. Insbesondere sowohl intragene als auch intergene Sequenzen, die mit repetitiven Elementen angereichert sind, gelten seit langem als genetisch inert und bestehen hauptsächlich aus „Junk“- oder „egoistischer“ DNA [4]. In jüngerer Zeit wurde gezeigt, dass die Menge an nicht-kodierender DNA (ncDNA) mit der Komplexität des Organismus zunimmt und von 0,25% des Genoms von Prokaryonten bis zu 98,8% des Menschen reicht [5]. Diese Beobachtungen haben den Beweis verstärkt, dass ncDNA eher als Junk-DNA wahrscheinlich die treibende Kraft für die Vielfalt und biologische Komplexität lebender Organismen darstellt.

Seit Anbeginn der Genetik ist die Beziehung zwischen DNA-Gehalt und biologischer Komplexität lebender Organismen ein fruchtbares Feld für Spekulationen und Debatten [6]. Bis heute haben mehrere Studien, einschließlich neuerer Analysen, die während des ENCODE-Projekts durchgeführt wurden, die durchdringende Natur der eukaryotischen Transkription gezeigt, wobei fast die gesamte Länge der nicht wiederholenden Regionen des Genoms transkribiert wird [7].

Die unerwartete Komplexität, die mit der Entdeckung endogener kleiner interferierender RNA (siRNA) und microRNA (miRNA) auftrat, war nur die Spitze des Eisbergs [8]. Lange eingestreute nichtkodierende RNA (lincRNA), Promotor- und Terminator-assoziierte kleine RNA (PASR bzw. TASR), Transkriptionsstartstellen-assoziierte RNA (TSSa-RNA), Transkriptionsinitiations-RNA (tiRNA) und viele andere [8] Teil der verstreuten und sich vernetzenden Teile eines komplizierten Transkriptionspuzzles. Um weitere Schwierigkeiten zu verursachen, gibt es darüber hinaus Hinweise darauf, dass die meisten der bisher identifizierten pervasiven Transkripte nur in spezifischen Zelllinien (in den meisten Fällen in mutierten Zelllinien) mit bestimmten Wachstumsbedingungen und/oder bestimmten Geweben gefunden wurden. Vor diesem Hintergrund stellt die Entdeckung und Interpretation der Komplexität eines Transkriptoms ein entscheidendes Ziel für das Verständnis der funktionellen Elemente eines solchen Genoms dar. Die Aufdeckung der Komplexität des genetischen Codes lebender Organismen durch die Analyse der molekularen Bestandteile von Zellen und Geweben wird zu einem umfassenderen Wissen über viele biologische Probleme wie das Auftreten von Krankheiten und das Fortschreiten führen.

Das Hauptziel der gesamten Transkriptom-Analysen besteht darin, alle in einer bestimmten Zelle/einem Gewebe exprimierten Transkripte – in einem bestimmten Stadium – zu identifizieren, zu charakterisieren und zu katalogisieren, mit dem großen Potenzial, die richtigen Spleißmuster und die Struktur von Genen zu bestimmen und zu quantifizieren die unterschiedliche Expression von Transkripten sowohl bei physiologischen als auch bei pathologischen Zuständen [9].

In den letzten 15 Jahren hat die Entwicklung der Hybridisierungstechnologie zusammen mit den Tag-Sequenz-basierten Ansätzen einen ersten tiefen Einblick in dieses Gebiet ermöglicht, aber ohne Zweifel die Markteinführung der NGS-Plattformen , mit all ihren“Seq“-Anwendungen, hat die Denkweise der Molekularbiologie völlig revolutioniert.

Das Ziel dieses Papiers ist es, einen Überblick über die RNA-Seq-Methodik zu geben, wobei versucht wird, alle Herausforderungen hervorzuheben, die diese Anwendung sowohl aus biologischer als auch aus bioinformatischer Sicht mit sich bringt.

2. Sequenzierungstechnologien der nächsten Generation

Seit der ersten vollständigen Nukleotidsequenz eines Gens, die 1964 von Holley [10] veröffentlicht wurde, und den ersten Entwicklungen von Maxam und Gilbert [11] und Sanger et al. [12] In den 1970er Jahren (siehe Abbildung 1) war die Welt der Nukleinsäuresequenzierung eine RNA-Welt, und die Geschichte der Nukleinsäuresequenzierungstechnologie war weitgehend in der Geschichte der RNA-Sequenzierung enthalten.


In den letzten 30 Jahren hat die Molekularbiologie große Fortschritte gemacht und 2004 wird als das Jahr in Erinnerung bleiben, das das Gebiet dank der Einführung massiv paralleler Sequenzierungsplattformen, der Sequenzierung der nächsten Generation-Ära, [13–15], begann. Pionier dieser Instrumente war der Roche (454) Genome Sequencer (GS) im Jahr 2004 (http://www.454.com/), der mehrere hunderttausend DNA-Fragmente mit einer Leselänge von mehr als 100 Basenpaaren gleichzeitig sequenzieren kann ( bp). Das aktuelle GS FLX Titanium produziert mehr als 1 Million Reads mit über 400 bp. Im Jahr 2006 folgte der Illumina Genome Analyzer (GA) (http://www.illumina.com/), der zig Millionen 32-bp-Reads generieren kann. Heute produziert Illumina GAIIx 200 Millionen 75–100 bp-Reads. Die letzte, die auf den Markt kam, war die Applied Biosystems-Plattform basierend auf Sequencing by Oligo Ligation and Detection (SOLiD) (http://www3.appliedbiosystems.com/AB_Home/index.htm), die 400 Millionen 50-bp-Reads produzieren kann , und dem Helicos BioScience HeliScope (http://www.helicosbio.com/), dem ersten Einzelmolekül-Sequenzer, der 400 Millionen 25–35 bp-Reads produziert.

Während sich die einzelnen Ansätze in ihren technischen Details stark unterscheiden, liegt das Wesen dieser Systeme in der Miniaturisierung einzelner Sequenzierungsreaktionen. Jede dieser miniaturisierten Reaktionen wird mit DNA-Molekülen in Grenzverdünnungen geimpft, so dass sich in jeder ein einzelnes DNA-Molekül befindet, das zuerst amplifiziert und dann sequenziert wird. Genauer gesagt wird die genomische DNA zufällig in kleinere Größen zerlegt, aus denen entweder Fragment-Templates oder Mate-Paar-Templates erzeugt werden. Ein gemeinsames Thema bei den NGS-Technologien ist, dass die Matrize an eine feste Oberfläche oder einen Träger gebunden wird (Immobilisierung durch Primer oder Matrize) oder indirekt immobilisiert wird (durch Bindung einer Polymerase an den Träger). Die Immobilisierung von räumlich getrennten Templaten ermöglicht gleichzeitig Tausende bis Milliarden von Sequenzierungsreaktionen. Das physikalische Design dieser Instrumente ermöglicht eine optimale räumliche Anordnung jeder Reaktion und ermöglicht ein effizientes Auslesen durch Laserscanning (oder andere Methoden) für Millionen einzelner Sequenzierungsreaktionen auf einem Standard-Objektträger. Obwohl die immense Menge an generierten Daten attraktiv ist, kann man argumentieren, dass die Eliminierung des Klonierungsschrittes für die Sequenzierung der DNA-Fragmente der größte Vorteil dieser neuen Technologien ist. Alle aktuellen Verfahren ermöglichen die direkte Verwendung kleiner DNA/RNA-Fragmente, die ihre Insertion in ein Plasmid oder einen anderen Vektor nicht erfordern, wodurch ein kostspieliger und zeitaufwändiger Schritt der traditionellen Sanger-Sequenzierung entfällt.

Es steht außer Zweifel, dass die Markteinführung von NGS-Technologien unser Denken über wissenschaftliche Ansätze in der Grundlagenforschung, der angewandten und der klinischen Forschung verändert hat. Die breiteste Anwendung von NGS könnte die Neusequenzierung verschiedener Genome und insbesondere menschlicher Genome sein, um unser Verständnis davon zu verbessern, wie genetische Unterschiede Gesundheit und Krankheit beeinflussen. Tatsächlich wurden diese Plattformen schnell auf viele genomische Kontexte angewendet, was zu den folgenden „Seq“-Protokollen führte: RNA-Seq für die Transkriptomik, Chip-Seq für die DNA-Protein-Interaktion, DNase-Seq für die Identifizierung der aktivsten regulatorischen Regionen, CNV -Seq für die Variation der Kopienzahl und Methyl-Seq für die genomweite Profilierung epigenetischer Markierungen.

3. RNA-Seq

RNA-Seq ist vielleicht eine der komplexesten Anwendungen der nächsten Generation. Expressionsniveaus, differentielles Spleißen, allelspezifische Expression, RNA-Editierung und Fusionstranskripte sind wichtige Informationen beim Vergleich von Proben für krankheitsbezogene Studien. Diese Attribute, die durch hybridisierungsbasierte oder tagsequenzbasierte Ansätze nicht ohne weiteres verfügbar sind, können jetzt viel einfacher und präziser erhalten werden, wenn eine ausreichende Sequenzabdeckung erreicht wird. Allerdings müssen noch viele andere wesentliche Feinheiten in den RNA-Seq-Daten untersucht und verstanden werden.

Hybridisierungsbasierte Ansätze beziehen sich typischerweise auf die Microarray-Plattformen. Bis vor kurzem boten diese Plattformen der wissenschaftlichen Gemeinschaft ein sehr nützliches Werkzeug, um Tausende von Merkmalen in einem einzigen Experiment gleichzeitig zu untersuchen, und stellten eine zuverlässige, schnelle und kostengünstige Technologie zur Analyse der Genexpressionsmuster bereit. Aufgrund ihrer Natur leiden sie unter Hintergrund- und Kreuzhybridisierungsproblemen und ermöglichen es den Forschern, nur die relative Häufigkeit von RNA-Transkripten zu messen, die im Array-Design enthalten sind [16]. Diese Technologie, die die Genexpression durch einfache Quantifizierung – über eine indirekte Methode – der hybridisierten und markierten cDNA misst, ermöglicht nicht den Nachweis von RNA-Transkripten aus wiederholten Sequenzen, bietet einen begrenzten Dynamikbereich und ist nicht in der Lage, sehr subtile Veränderungen der Genexpressionsniveaus zu erkennen , entscheidend für das Verständnis jeder biologischen Reaktion auf exogene Reize und/oder Umweltveränderungen [9, 17, 18].

Andere Methoden wie Serial, Cap Analysis of Gene Expression (SAGE bzw. CAGE) und Polony Multiplex Analysis of Gene Expression (PMAGE), Tag-basierte Sequenzierungsmethoden, messen die absolute Häufigkeit von Transkripten in einer Zelle/Gewebe/Organ und erfordern keine Vorkenntnisse über eine Gensequenz, wie dies bei Microarrays der Fall ist [19]. Diese Analysen bestehen in der Generierung von Sequenz-Tags aus fragmentierter cDNA und deren anschließender Verkettung vor der Klonierung und Sequenzierung [20]. SAGE ist eine leistungsstarke Technik, die daher als unverzerrter digitaler Microarray-Assay angesehen werden kann. Obwohl die SAGE-Sequenzierung erfolgreich verwendet wurde, um die Transkriptionslandschaft verschiedener genetischer Störungen wie Diabetes [21, 22], Herz-Kreislauf-Erkrankungen [23] und Downs-Syndrom [24, 25] zu erforschen, ist die Klonierung jedoch ziemlich mühsam und Sequenzierungsschritte, die ihre Verwendung bisher eingeschränkt haben.

Im Gegensatz dazu hat RNA-Seq auf NGS-Plattformen klare Vorteile gegenüber den bestehenden Ansätzen [9, 26]. Erstens ist RNA-Seq im Gegensatz zu hybridisierungsbasierten Technologien nicht auf den Nachweis bekannter Transkripte beschränkt und ermöglicht so die Identifizierung, Charakterisierung und Quantifizierung neuer Spleißisoformen. Darüber hinaus ermöglicht es Forschern, die korrekte Genannotation zu bestimmen und – bei Einzelnukleotidauflösung – die Transkriptionsgrenzen von Genen und die exprimierten Single Nucleotide Polymorphisms (SNPs) zu definieren. Weitere Vorteile von RNA-Seq im Vergleich zu Microarrays sind das geringe „Hintergrundsignal“, das Fehlen einer Obergrenze für die Quantifizierung und folglich der größere dynamische Bereich der Expressionsniveaus, über die Transkripte nachgewiesen werden können. RNA-Seq-Daten zeigen auch eine hohe Reproduzierbarkeit sowohl für technische als auch für biologische Replikate.

Neuere Studien haben die Vorteile der Verwendung von RNA-Seq klar gezeigt [27–50]. Tabelle 1 enthält eine kurze Beschreibung aktueller und relevanterer Veröffentlichungen über RNA-Seq in Säugetieren.

Viele Forschungsgruppen konnten bekannte Transkripte präzise quantifizieren, neue transkribierte Regionen innerhalb von intronischen oder intergenen Regionen entdecken, die Antisense-Transkription charakterisieren, alternatives Spleißen mit neuen Kombinationen bekannter Exonsequenzen oder neu transkribierten Exons identifizieren, die Expression von Wiederholungselemente und die Analyse einer großen Anzahl bekannter und möglicher neuer Kandidaten für exprimierte SNPs sowie die Identifizierung von Fusionstranskripten und anderen neuen RNA-Kategorien.

3.1. Probenisolierung und Bibliotheksvorbereitung

Der erste Schritt bei RNA-Seq-Experimenten ist die Isolierung von RNA-Proben. Die weitere RNA-Verarbeitung hängt streng von der Art der durchzuführenden Analyse ab. Da „Transkriptom“ als die vollständige Sammlung transkribierter Elemente in einem Genom definiert ist (siehe [2]), besteht es aus einer Vielzahl von Transkripten, sowohl mRNA als auch nicht-mRNA, und einer großen Menge (90–95 % ) von rRNA-Spezies. Um eine vollständige Transkriptomanalyse durchzuführen, die nicht auf annotierte mRNAs beschränkt ist, ist die selektive Depletion von reichlich vorhandenen rRNA-Molekülen (5S, 5.8S, 18S und 28S) ein wichtiger Schritt. Hybridisierung mit rRNA-sequenzspezifischem 5

-Biotin-markierte Oligonukleotidsonden und die anschließende Entfernung mit Streptavidin-beschichteten magnetischen Kügelchen ist das Hauptverfahren, um selektiv große rRNA-Moleküle aus der gesamten isolierten RNA zu entfernen. Da rRNA – aber nicht verkappte mRNAs – durch die Anwesenheit von

Phosphat, basiert ein nützlicher Ansatz für die selektive Ribo-Depletion auf der Verwendung einer Exonuklease, die spezifisch RNA-Moleküle abbauen kann, die ein Phosphat tragen (mRNA-ONLY-Kit, Epicentre). Im Vergleich zur polyadenylierten (polyA+) mRNA-Fraktion ist die ribo-depletierte RNA an nicht-polyA-mRNA, vorprozessierter RNA, tRNA, regulatorischen Molekülen wie miRNA, siRNA, small ncRNA und anderen RNA-Transkripten mit noch unbekannter Funktion angereichert (siehe Übersicht [8]).

Wie genau die RNA-Sequenzierung die ursprünglichen RNA-Populationen widerspiegelt, wird hauptsächlich im Bibliotheksvorbereitungsschritt bestimmt, der für die gesamten Transkriptomprotokolle entscheidend ist. Obwohl NGS-Protokolle zuerst für die Analyse genomischer DNA entwickelt wurden, wurden diese technischen Verfahren schnell und effektiv an die Sequenzierung von doppelsträngiger (ds) cDNA für Transkriptomstudien angepasst [51].

Eine doppelsträngige cDNA-Bibliothek kann gewöhnlich hergestellt werden unter Verwendung von: (1) fragmentierter doppelsträngiger (ds) cDNA und (2) hydrolysierter oder fragmentierter RNA.

Das Ziel des ersten Ansatzes besteht darin, hochwertige cDNAs voller Länge aus interessierenden RNA-Proben zu erzeugen, die fragmentiert und dann zur weiteren Amplifikation und Sequenzierung an einen Adapter ligiert werden. Da der Primeradapter übrigens an eine fragmentierte ds-cDNA ligiert ist, würde jegliche Information über die Transkriptionsrichtung vollständig verloren gehen. Die Beibehaltung der Gestrandetheit ist für die Datenanalyse von grundlegender Bedeutung. Sie ermöglicht die Bestimmung der Richtung der Transkription und der Genorientierung und erleichtert den Nachweis von gegensätzlichen und überlappenden Transkripten. Um diesem biologisch relevanten Problem Rechnung zu tragen und damit zu vermeiden, wurden bisher viele Ansätze entwickelt, wie beispielsweise die Vorbehandlung der RNA mit Natriumbisulfit zur Umwandlung von Cytidin in Uridin [52]. Andere alternative Protokolle, die sich darin unterscheiden, wie die Adapter in die ds-cDNA eingefügt werden, wurden kürzlich veröffentlicht: direkte Ligation von RNA-Adaptern an die RNA-Probe vor oder während der reversen Transkription [30, 31, 53] oder Einbau von dUTP während der Zweitstrangsynthese und Verdauung mit Uracil-Nglycosylase-Enzym [45]. Zum Beispiel enthält das SOLiD Whole Transcriptome Kit zwei verschiedene Sätze von Oligonukleotiden mit einer einzelsträngigen degenerierten Sequenz an einem Ende und einer definierten Sequenz, die für die Sequenzierung am anderen Ende erforderlich ist, wodurch die Orientierung der RNA in der Ligationsreaktion eingeschränkt wird. Die Erzeugung von ds-cDNA aus RNA umfasst eine Reihe von Schritten. Zuerst wird RNA unter Verwendung von reverser Transkriptase mit entweder zufälligen Hexameren oder Oligo(dT) als Primer in Erststrang-cDNA umgewandelt. Die resultierende Erststrang-cDNA wird dann in doppelsträngige cDNA umgewandelt, mit DNAse I weiter fragmentiert und dann zur Amplifikation und Sequenzierung an Adapter ligiert [54]. Der Vorteil der Verwendung von Oligo-dT besteht darin, dass die Mehrheit der produzierten cDNA polyadenylierte mRNA sein sollte und daher mehr von der erhaltenen Sequenz informativ (nicht ribosomal) sein sollte. Der wesentliche Nachteil besteht darin, dass das Reverse-Transkriptase-Enzym mit einer charakteristischen Geschwindigkeit von der Matrize abfällt, was zu einer Verzerrung in Richtung der führt

Ende der Transkripte. Bei langen mRNAs kann dieser Bias ausgeprägt sein, was zu einer Unterrepräsentation (oder schlimmer in Abwesenheit) des Transkriptendes in den Daten führt. Die Verwendung von Zufallsprimern wäre daher die bevorzugte Methode, um dieses Problem zu vermeiden und eine bessere Darstellung des Endes langer ORFs zu ermöglichen. Wenn jedoch Oligo-dT-Primer zum Priming verwendet werden, kann die Steigung, die durch die abnehmende Häufigkeit von Reads gegen Ende des ORF gebildet wird, in einigen Fällen nützlich sein, um den Ursprungsstrang für neue Transkripte zu bestimmen, wenn die Stranginformation nicht vorhanden ist beibehalten [28, 37].

Die Fragmentierung von RNA im Gegensatz zu DNA hat den klaren Vorteil, dass mögliche Sekundärstrukturen, insbesondere für tRNA und miRNA, reduziert werden, was zu einer großen Heterogenität in der Abdeckung führt und auch zu einer umfassenderen Transkriptomanalyse führen kann (Abbildung 2). In diesem Fall wird die RNA-Probe zunächst unter Anwendung kontrollierter Temperatur oder chemischer/enzymatischer Hydrolyse fragmentiert, an Adapter ligiert und durch komplementäre Primer retrotranskribiert. Bisher wurden verschiedene Protokolle entwickelt. Tatsächlich können die Adaptersequenzen unter Verwendung von T4-RNA-Ligase direkt an die zuvor fragmentierten RNA-Moleküle ligiert werden, und die resultierende Bibliothek kann mit speziell für die Adaptersequenzen geeigneten Primerpaaren revers transkribiert und dann sequenziert werden. Ein weiterer Ansatz, der kürzlich in [55] beschrieben wurde, besteht in der in vitro Polyadenilierung von RNA-Fragmenten, um eine Matrize für den nächsten Schritt der reversen Transkription zu haben, unter Verwendung von poly(dT)-Primern, die beide Adaptersequenzen (Linker) enthalten, die Rücken an Rücken durch eine Endonuklease-Stelle getrennt sind. Die resultierenden cDNAs werden zirkularisiert und dann an der Endonukleasestelle in den Adaptoren gespalten, wodurch ss-cDNA mit den Adaptoren an beiden Enden zurückbleibt [55]. Ein drittes von [33] beschriebenes Protokoll, das als Double-Random-Priming-Verfahren bezeichnet wird, verwendet biotinylierte Random-Primer (einen Sequenzierungsprimer P1 am Ende und ein Random-Oktamer am Ende). Nach einer ersten Random-Priming-Reaktion werden die Produkte unter Verwendung von Streptavidin-Kügelchen isoliert und eine zweite Random-Priming-Reaktion wird an einer Festphase mit einem Random Octamer durchgeführt, der den Sequenzierungsprimer P2 trägt. Danach werden zweite zufällige Priming-Produkte von Streptavidin-Kügelchen durch Hitze freigesetzt, PCR-amplifiziert, Gel-gereinigt und schließlich einem Sequenzierungsprozess aus dem P1-Primer unterzogen. Darüber hinaus haben die Autoren, wie bereits erwähnt, in [45] dUTP – ein Surrogat für dTTP – bei der Zweitstrangsynthese verwendet, um einen selektiven Abbau des zweiten cDNA-Strangs nach Adapterligation mit einer Uracil-N-Glycosylase zu ermöglichen. Die Verwendung von konstruierten DNA-Adaptern, kombiniert mit dem dUTP-Protokoll, stellt sicher, dass nur der cDNA-Strang, der dem „echten“ Transkript entspricht, für die Amplifikation und Sequenzierung der Bibliothek verwendet wird, wodurch die Stränge der Gentranskription bewahrt wird [45].


Bibliotheksvorbereitung und klonale Amplifikation. Schematische Darstellung eines Workflows zur Bibliotheksvorbereitung in RNA-Seq-Experimenten auf der SOLiD-Plattform. In der Abbildung ist eine Gesamt-RNA-Probe nach Abreicherung von rRNA dargestellt, die sowohl polyA- als auch nicht-polyA-mRNA, tRNAs, miRNAs und kleine nicht-kodierende RNAs enthält. Ribo-depletierte Gesamt-RNA wird fragmentiert (1), dann an spezifische Adaptersequenzen ligiert (2) und retro-transkribiert (3). Die resultierende cDNA wird durch Gelelektrophorese größenselektiert (4), und cDNAs werden mittels PCR amplifiziert (5). Anschließend wird die Größenverteilung ausgewertet (6). Für die klonale Amplifikation von cDNA-Bibliotheken wird eine Emulsions-PCR mit einem cDNA-Fragment pro Bead verwendet (7). Gereinigte und angereicherte Kügelchen werden schließlich auf Glasobjektträger (8) aufgebracht, die durch Ligation sequenziert werden können.

Unabhängig vom Verfahren zum Erstellen der Bibliothek sollte jedoch besondere Sorgfalt darauf verwendet werden, einen vollständigen Abbau während der RNA-Fragmentierung zu vermeiden.

Der nächste Schritt der Sequenzierungsprotokolle ist die klonale Amplifikation der cDNA-Fragmente.

Illumina, 454 und SOLiD verwenden klonal amplifizierte Template. Insbesondere die letzten beiden Plattformen verwenden ein innovatives Verfahren, die Emulsions-PCR (emPCR), um Sequenzierungsvorlagen in einem zellfreien System herzustellen. cDNA-Fragmente aus einer Fragment- oder Paired-End-Bibliothek werden in Einzelstränge aufgetrennt und unter Bedingungen, die ein DNA-Molekül pro Perle begünstigen, auf Kügelchen eingefangen. Nach der emPCR- und Bead-Anreicherung werden Millionen von ihnen chemisch mit einer aminobeschichteten Glasoberfläche (SOLiD) vernetzt oder in einzelnen PicoTiterPlate (PTP)-Wells (454) deponiert, in denen die NGS-Chemie durchgeführt werden kann. Festphasen-Amplifikation (Illumina) kann auch verwendet werden, um zufällig verteilte, klonal amplifizierte Cluster aus Fragment- oder Mate-Paar-Templaten auf einem Glasobjektträger herzustellen. Hochdichte Vorwärts- und Rückwärtsprimer werden kovalent an den Objektträger gebunden, und das Verhältnis der Primer zur Matrize definiert die Oberflächendichte. Dieses Verfahren kann bis zu 200 Millionen räumlich getrennte Matrizencluster erzeugen, die Enden für die Primerhybridisierung bereitstellen, die benötigt wird, um die NGS-Reaktion zu starten. Ein anderer Ansatz ist die Verwendung von Einzelmolekül-Templaten (Helicos BioScience), die normalerweise auf festen Trägern immobilisiert sind, bei denen keine PCR-Amplifikation mehr erforderlich ist, wodurch die Insertion möglicher Störmutationen in die Templates vermieden wird. Darüber hinaus stellen AT- und GC-reiche Sequenzen Amplifikationsprobleme dar, mit einer Über- oder Unterrepräsentation bei Genom-Alignments und -Assemblies. Spezifische Adapter werden an die fragmentierten Template gebunden und dann an räumlich verteilte Primer hybridisiert, die kovalent an den festen Träger gebunden sind [56].

3.2. Sequenzierung und Bildgebung

NGS-Plattformen verwenden unterschiedliche Sequenzierungschemie und methodische Verfahren.

Illumina und HeliScope verwenden die Cyclic Reversible Termination (CRT), was die Verwendung von reversiblen Terminatoren (modifiziertes Nukleotid) in einer zyklischen Methode impliziert. Eine DNA-Polymerase, die an die geprimte Matrize gebunden ist, fügt ein fluoreszenzmodifiziertes Nukleotid pro Zyklus hinzu, dann werden die verbleibenden nicht eingebauten Nukleotide weggewaschen und ein Imaging-Capture wird durchgeführt. Ein Spaltungsschritt geht dem nächsten Einbauzyklus voraus, um die terminierende/inhibierende Gruppe und den Fluoreszenzfarbstoff zu entfernen, gefolgt von einem zusätzlichen Waschen.Obwohl diese beiden Plattformen dieselbe Methodik verwenden, verwendet Illumina die Vierfarben-CRT-Methode, bei der alle 4 Nukleotide gleichzeitig mit verschiedenen Farbstoffen integriert werden. HeliScope verwendet die Einfarben-CRT-Methode (Cy5-Farbstoff).

Substitutionen sind die häufigste Fehlerart, wobei ein höherer Anteil von Fehlern auftritt, wenn das zuvor eingebaute Nukleotid eine G-Base ist [57]. Die Unterdarstellung von AT-reichen und GC-reichen Regionen, wahrscheinlich aufgrund von Amplifikationsfehlern während der Templatpräparation [57–59], ist ein häufiger Nachteil.

Im Gegensatz dazu verwendet das SOLiD-System die Sequenzierung durch Ligation (SBL) mit 1,2-Nukleotid-Sonden basierend auf dem Farbraum, was ein einzigartiges Merkmal von SOLiD ist. Es hat den Hauptvorteil, die Genauigkeit beim Aufrufen von Farben und Einzelnukleotidvariationen (SNV) zu verbessern, wobei letzteres eine angrenzende gültige Farbänderung erfordert. Insbesondere wird ein universeller Primer an die Matrizenkügelchen hybridisiert und eine Bibliothek von 1,2-Nukleotidsonden wird hinzugefügt. Nach der Vierfarben-Bildgebung werden die ligierten Sonden chemisch gespalten, um eine 5-Phosphatgruppe zu erzeugen. Sondenhybridisierung und -ligation, Bildgebung und Sondenspaltung werden zehnmal wiederholt, um zehn Farbaufrufe zu ergeben, die in Intervallen von fünf Basen beabstandet sind. Der verlängerte Primer wird dann von den festphasengebundenen Matrizen abgezogen. Eine zweite Ligaturrunde wird mit a . durchgeführt

Primer, der die Abfragebasen zurücksetzt und die entsprechenden zehn Farben eine Position nach links aufruft. Es folgen zehn Ligationszyklen, gefolgt von drei Ligationszyklen. Farbaufrufe aus den fünf Ligationsrunden werden dann in eine lineare Sequenz (der csfasta-Farbraum) geordnet und an einem Referenzgenom ausgerichtet, um die Sequenz zu entschlüsseln. Der häufigste Fehlertyp, der bei der Verwendung dieser Plattform beobachtet wird, sind Substitutionen, und ähnlich wie bei Illumina haben SOLiD-Daten auch eine Unterrepräsentation von AT- und GC-reichen Regionen gezeigt [58].

Ein anderer Ansatz ist die Pyrosequenzierung (auf 454), eine nichtelektrophoretische Biolumineszenzmethode, die im Gegensatz zu den oben genannten Sequenzierungsansätzen in der Lage ist, die Freisetzung von Pyrophosphat zu messen, indem es nach enzymatischen Reaktionen proportional in sichtbares Licht umgewandelt wird. Beim Einbau des komplementären dNTP verlängert die DNA-Polymerase den Primer und pausiert. Die DNA-Synthese wird nach der Zugabe des nächsten komplementären dNTP im Dispensierzyklus erneut gestartet. Die enzymatische Kaskade erzeugt ein als Flussdiagramm aufgezeichnetes Licht mit einer Reihe von Picks, die einer bestimmten DNA-Sequenz entsprechen. Einfügungen und Löschungen sind die häufigsten Fehlertypen.

Eine ausgezeichnete und detaillierte Übersicht über die biotechnologischen Aspekte von NGS-Plattformen findet sich in [15].

3.3. Von der Biologie zur Bioinformatik

Die beispiellose Sensibilität der von NGS-Plattformen erzeugten Daten bringt die Möglichkeit mit sich, viele neue biologische Beobachtungen zu machen, auf Kosten eines erheblichen Aufwands bei der Entwicklung neuer Bioinformatik-Tools zum Umgang mit diesen riesigen Datendateien.

Zunächst einmal können die Rohbilddateien aus einem Lauf einiger Sequenzer der nächsten Generation Terabytes an Speicherplatz erfordern, was bedeutet, dass das einfache Verschieben der Daten von der Maschine eine technische Herausforderung für die Computernetzwerke vieler Forschungszentren darstellen kann. Selbst wenn die Daten von der Maschine zur weiteren Verarbeitung übertragen werden, wird ein herkömmlicher Desktop-Computer außerdem hoffnungslos von der Datenmenge eines einzigen Durchlaufs übertroffen. Als Ergebnis ist die Verwendung eines kleinen Computerclusters äußerst vorteilhaft, um Rechenengpässe zu reduzieren.

Ein weiteres Problem ist die Verfügbarkeit von Software, die für die Durchführung von Downstream-Analysen erforderlich ist. Tatsächlich besteht das Ergebnis eines RNA-Seq-Experiments nach der Bild- und Signalverarbeitung aus 10–400 Millionen kurzen Reads (zusammen mit ihren Base-Call-Qualitätswerten), typischerweise von 30–400 bp, abhängig von der verwendeten DNA-Sequenzierungstechnologie, seine Version und die Gesamtkosten der Experimente.

Die NGS-Datenanalyse hängt stark von der richtigen Zuordnung von Sequenzierungs-Reads zu entsprechenden Referenzgenomen oder von deren Effizienz ab de novo Montage. Das Mapping von NGS-Lesevorgängen mit hoher Effizienz und Zuverlässigkeit steht derzeit vor mehreren Herausforderungen. Wie von [60] festgestellt wurde, sind die Unterschiede zwischen den Sequenzierungsplattformen in Probenvorbereitung, Chemie, Art und Menge der Rohdaten und Datenformate sehr groß, was bedeutet, dass jede Plattform Daten erzeugt, die von charakteristischen Fehlerprofilen betroffen sind. Zum Beispiel kann das 454-System Reads mit Insertions- oder Deletionsfehlern während Homopolymer-Läufen erzeugen und weniger, aber längere Sequenzen im Fasta-ähnlichen Format generieren, was die Anpassung klassischer Alignment-Algorithmen ermöglicht und Fasta-Reads produzieren, aber sie sind kürzer und erfordern daher spezielle Alignment-Algorithmen. Der SOLiD neigt auch dazu, am Ende der Reads Verzerrungen zu akkumulieren, verwendet jedoch eine Di-Base-Codierungsstrategie und jede Sequenzausgabe wird in einem Farbraum-Csfasta-Format codiert. Daher sind einige Sequenzfehler korrigierbar, was eine bessere Unterscheidung zwischen Sequenzierungsfehlern und Polymorphismus ermöglicht, auf Kosten der Notwendigkeit von Analysewerkzeugen, die explizit für die Handhabung dieses Aspekts der Daten entwickelt wurden. Es ist nicht verwunderlich, dass für Endanwender keine „Box-Standard“-Software zur Verfügung steht, daher ist die Implementierung individualisierter Datenverarbeitungspipelines, die Kombination von Drittanbieterpaketen und neuen Berechnungsmethoden der einzig empfehlenswerte Ansatz. Während einige bestehende Pakete bereits die Lösung allgemeiner Aspekte der RNA-Seq-Analyse ermöglichen, erfordern sie aufgrund der fehlenden klaren Dokumentation der meisten Algorithmen und der Vielfalt der Formate auch einen zeitaufwändigen Aufwand. Tatsächlich ist eine sehr klare Dokumentation der Algorithmen erforderlich, um ein vollständiges Verständnis der verarbeiteten Daten zu gewährleisten. Die Akzeptanz von Eingabe-/Ausgabe-Datenformaten für Referenzausrichtungen, Baugruppen und erkannte Varianten durch die Gemeinschaft ist ebenfalls wesentlich, um das Datenverwaltungsproblem zu erleichtern. Die Lösung dieser Probleme kann einfach die Softwarelücke von der Sequenzverarbeitung (Base-Calling, Alignment oder Assemblierung, Positionszählung und Variantenerkennung) zur Sequenzanalyse (Annotation und funktionaler Einfluss) verlagern.

3.4. Genom-Ausrichtung und Reads-Assembly

Der erste Schritt jeder NGS-Datenanalyse besteht in der Zuordnung der Sequenz-Reads zu einem Referenzgenom (und/oder zu bekannten annotierten transkribierten Sequenzen), falls verfügbar, oder de novo Zusammenbauen, um eine Transkriptionskarte auf Genomskala zu erzeugen. (siehe Abbildung 3 für eine Illustration einer klassischen RNA-Seq-Computerpipeline). Die Entscheidung für eine der Strategien basiert hauptsächlich auf der konkreten Anwendung. Unabhängig von dem verfolgten Ansatz gibt es jedoch einen vorbereitenden Schritt, der nützlich sein kann, der die Anwendung einer Qualitätsfilterung beinhaltet, um Lesevorgänge mit schlechter Qualität zu entfernen und die Rechenzeit und den Aufwand für die weitere Analyse zu reduzieren.


Die Analyse des Transkriptoms von Organismen ohne ein spezifisches Referenzgenom erfordert de novo Assemblierung (oder eine gesteuerte Assemblierung mit Hilfe eng verwandter Organismen) von Expressions-Sequenz-Tags (ESTs) unter Verwendung von Short-Read-Assembly-Programmen wie [61, 62]. Eine sinnvolle Strategie zur Verbesserung der Qualität der Assembly besteht darin, die Leseabdeckung zu erhöhen und verschiedene Lesetypen zu mischen. RNA-Seq-Experimente ohne Referenzgenom schlagen jedoch spezifische Merkmale und Herausforderungen vor, die den Rahmen dieser Arbeit sprengen würden. Wir verweisen die Leser auf [63, 64] für weitere Details.

In den meisten Fällen ist das Referenzgenom verfügbar und die Kartierung kann entweder mit dem gesamten Genom oder mit bekannten transkribierten Sequenzen durchgeführt werden (siehe z. B. [28–30, 32, 34, 37, 40, 46, 47]). In beiden Fällen ist dieser vorbereitende, aber entscheidende Schritt der rechenintensivste des gesamten Prozesses und hängt stark von der Art der verfügbaren Sequenzen (Leselänge, Fehlerprofil, Datenmenge und Datenformat) ab. Es überrascht nicht, dass dieser Knotenpunkt immer noch ein sehr prominentes Forschungsgebiet darstellt (siehe zB [65–67] für eine Übersicht) und in den letzten Jahren eine große Anzahl verschiedener Algorithmen hervorgebracht hat (zB [68 –78]). Offensichtlich unterstützen nicht alle die verfügbaren Plattformen vollständig oder sind für alle Durchsatzmengen oder Genomgrößen skalierbar. Dennoch befinden sich die Sequenzierungstechnologien noch in einer Entwicklungsphase mit einer sehr schnellen Steigerung von Durchsatz, Leselänge und Datenformaten nach wenigen Monaten. Folglich wird die bereits verfügbare Mapping-/Assembly-Software ständig weiterentwickelt, um sich an die neuen Datenformate anzupassen, mit der Datenmenge zu skalieren und ihren Rechenaufwand zu reduzieren. Auch neue Softwares ergänzen ständig das Panorama. Darüber hinaus bietet die Alignment-Phase von Reads aus RNA-Seq-Experimenten viele andere Feinheiten, die als Standard-Mapping-Algorithmen betrachtet werden können, die die Komplexität des Transkriptoms nicht vollständig ausnutzen können und modifiziert oder angepasst werden müssen, um Spleißereignisse in Eukaryoten zu berücksichtigen.

Der einfachste Weg, solche Schwierigkeiten zu bewältigen, besteht darin, die Lesevorgänge direkt auf bekannte transkribierte Sequenzen abzubilden, mit dem offensichtlichen Nachteil, dass neue Transkripte fehlen. Alternativ können die Reads kontinuierlich dem Genom zugeordnet werden, jedoch mit der zusätzlichen Möglichkeit, Reads abzubilden, die Spleißverbindungen überqueren. In diesem Fall unterscheiden sich die Algorithmen davon, ob sie das Modell von Junctions benötigen oder nicht. Algorithmen wie Erange [37] oder RNA-mate [79] erfordern eine Bibliothek von Verbindungen, die unter Verwendung bekannter Spleißverbindungen konstruiert wurden, die aus Datenbanken extrahiert wurden, und auch ergänzt durch einen Satz mutmaßlicher Spleißverbindungen, die beispielsweise durch einen kombinatorischen Ansatz für Gene erhalten wurden. Modell- oder ESTs-Sequenzen. Offensichtlich erlauben solche Ansätze nicht, Kreuzungen abzubilden, die nicht zuvor in der Bibliothek der Kreuzungen zusammengestellt wurden. Auf der anderen Seite ermöglichen Algorithmen wie WT [69], QPALMA [80], TopHat [81], G.Mo.R-Se [63] und PASS [78] möglicherweise die Erkennung neuer Spleißisoformen, da sie eine ausgefeiltere Kartierungsstrategie. Zum Beispiel teilt WT [69] die Reads in linke und rechte Teile, richtet jeden Teil am Genom aus und versucht dann, jede Ausrichtung auf der anderen Seite zu erweitern, um die Verbindung zu erkennen. Während TopHat [81] zuerst die Reads gegen das gesamte Referenzgenom mit [77] abbildet, zweitens die kartierten Reads in Inseln von Kandidaten-Exons aggregiert, auf denen ein Konsensmaß berechnet wird, dann potenzielle Donor-/Akzeptor-Spleißstellen unter Verwendung benachbarter Exons generiert und schließlich versucht, die Reads, die dem Genom nicht zugeordnet sind, an diesen Spleißverbindungssequenzen auszurichten.

Die meisten RNA-Seq-Pakete basieren auf optimiertem Short-Read Ader Mapper [68, 69, 72, 77] und die Mapping-Strategie wird ausgeführt, indem mehrere Läufe oder Zyklen durchgeführt werden. Am Ende jedes Zyklus werden die nicht übereinstimmenden Reads von einem Extrem abgeschnitten und ein weiterer Alignment-Schritt wird versucht (siehe z. B. [79]). Für jede Ausrichtung können spezifische Toleranzen eingestellt werden, um die Menge der abbildbaren Daten zu erhöhen. Natürlich am einfachsten Ader Der Ansatz besteht darin, die Sequenz-Reads über das Genom zu kartieren, sodass der Benutzer nur die Anzahl der tolerierten Fehlpaarungen angeben kann, obwohl andere Verfahren auch die Verwendung von Lücken im Alignment ermöglichen. Eine solche Flexibilität kann für den Rest der Analyse von Vorteil sein, da sowohl Sequenzierungsfehler, die normalerweise mit der Länge der Sequenz zunehmen, als auch SNPs Substitutionen und Insertion/Deletion von Nukleotiden in den Reads verursachen können. Andererseits führt die Erhöhung der Abbildungsflexibilität auch zu einem höheren Rauschpegel in den Daten. Der Kompromiss zwischen der Anzahl der gemappten Lesevorgänge und der Qualität des resultierenden Mappings ist ein sehr zeitaufwändiger Prozess ohne eine optimale Lösung.

Am Ende des Mapping-Algorithmus kann man zwischen drei Arten von Reads unterscheiden: Reads, die eindeutig auf das Genom oder auf die Splice Junctions abbilden (Uniquely Mappable Reads, UMR), Reads mit mehreren (gleich oder ähnlich wahrscheinlichen) Orten entweder auf das Genom oder zu den Spleißverbindungen (Multilocation Mappable Reads, MMR) und Reads ohne einen bestimmten Mapping-Standort. MMRs entstehen überwiegend aus konservierten Domänen paraloger Genfamilien und aus Repeats. Der Anteil kartierbarer Reads, bei denen es sich um MMRs handelt, hängt von der Länge des Reads, dem untersuchten Genom und der Expression in der einzelnen Probe ab, liegt jedoch bei Bibliotheken aus Säugetieren typischerweise zwischen 10–40% [30, 37]. Die meisten Studien [28, 34] verwarfen MMRs in der Regel aus der weiteren Analyse und beschränkten die Aufmerksamkeit nur auf UMRs. Diese Auslassung führt eindeutig zu experimentellen Verzerrungen, verringert die Abdeckung und verringert die Möglichkeit, exprimierte Regionen wie aktive Retrotransposons und Genfamilien zu untersuchen. Eine alternative Strategie für die Entfernung der MMRs besteht darin, sie probabilistisch jedem genomischen Ort zuzuordnen, auf den sie kartieren. Die einfachste Zuordnung berücksichtigt gleiche Wahrscheinlichkeiten. Weitaus bessere Ergebnisse wurden jedoch mit einer Schuld-durch-Assoziations-Strategie erzielt, die die Wahrscheinlichkeit berechnet, dass MMRs von einem bestimmten Locus ausgehen. In [82] schlugen die Autoren vor, MMRs jedem ihrer Kartierungsorte proportional zuzuordnen, basierend auf eindeutigen Übereinstimmungen mit entweder UMRs und anderen MMRs. Eine solche Technik wurde später in [79] übernommen. Im Gegensatz dazu berechneten die Autoren in [83] die Wahrscheinlichkeit als das Verhältnis zwischen der Anzahl der UMRs, die in einem nominellen Fenster auftreten, das jeden von der betrachteten MMR besetzten Locus umgibt, und der Gesamtzahl der UMRs proximal zu allen mit dieser MMR assoziierten Loci. In ähnlicher Weise wurden in [37] die MMRs unter Berücksichtigung der Expressionsniveaus ihrer jeweiligen Genmodelle fraktioniert ihren verschiedenen möglichen Positionen zugeordnet. Alle diese Rettungsstrategien führen zu einer wesentlich höheren Transkriptomabdeckung und geben Expressionsschätzungen in besserer Übereinstimmung mit Microarrays als solche, die nur UMRs verwenden (siehe [37, 83]). Vor kurzem wurde in [84] ein ausgeklügelterer Ansatz vorgeschlagen. Die Autoren führten latente Zufallsvariablen ein, die die wahren Mappings darstellen, wobei die Parameter des grafischen Modells den Isoform-Expressionsniveaus, Leseverteilungen über Transkripte und Sequenzierungsfehlern entsprechen. Sie ordneten MMRs zu, indem sie die Wahrscheinlichkeit der Expressionsniveaus unter Verwendung eines Expectation-Maximization (EM)-Algorithmus maximierten. Darüber hinaus zeigten sie auch, dass bisherige Rettungsmethoden, die in [37, 82] vorgestellt wurden, in etwa einer Iteration von EM entsprechen. Unabhängig vom konkreten Vorschlag stellen wir fest, dass alle oben genannten Techniken mit Daten, die die RNA-Strangigkeit bewahren, viel besser funktionieren. Alternativ sollte die Verwendung von Paired-End-Protokollen dazu beitragen, das MMR-Problem zu lindern. Wenn einer der gepaarten Reads auf ein sich stark wiederholendes Element im Genom abbildet, der zweite jedoch nicht, können beide Reads eindeutig dem Referenzgenom zugeordnet werden. Dies wird erreicht, indem zuerst der erste nicht-wiederholte Read eindeutig mit einer genomischen Position abgeglichen wird und dann innerhalb eines Größenfensters, basierend auf dem bekannten Größenbereich der Bibliotheksfragmente, nach einer Übereinstimmung für den zweiten Read gesucht wird. Die Nützlichkeit dieses Ansatzes wurde gezeigt, um das Read-Matching von 85% (single reads) auf 93% (paired reads) zu verbessern [70], was eine signifikante Verbesserung der Genomabdeckung ermöglicht, insbesondere in Wiederholungsregionen. Derzeit sind alle Sequenzierungstechnologien der nächsten Generation in der Lage, Daten aus Paired-End-Reads zu generieren, aber leider unterstützen bisher nur wenige RNA-Seq-Software die Verwendung von Paired-End-Reads in Verbindung mit dem Spleißverbindungs-Mapping.

Einer der möglichen Gründe dafür, dass Reads nicht auf das Genom und die Spleißstellen abbilden, ist das Vorhandensein von höheren Sequenzierungsfehlern in der Sequenz. Andere Gründe können in höheren Polymorphismen, Insertion/Deletion, komplexen Exon-Exon-Verbindungen, miRNA und kleiner ncRNA identifiziert werden: Solche Situationen könnten möglicherweise durch eine ausgeklügeltere oder kombinierte Ausrichtungsstrategie wiederhergestellt werden.

Sobald das Mapping abgeschlossen ist, kann der Benutzer das Alignment in einem Genom-Browser (siehe Abbildung 4 für ein Screenshot-Beispiel) wie dem UCSC Genome Browser [85] (http://genome.ucsc.edu/) oder dem Integrative Genomics Viewer (IGV) (http://www.broadinstitute.org/igv) oder auf speziellen Browsern wie EagleView [86], MapView [87] oder Tablet [88], die einige sehr informative Ansichten von die Ergebnisse auf verschiedenen Aggregationsebenen. Solche Tools ermöglichen es, das erhaltene Alignment mit Datenbankannotationen und anderen Informationsquellen zu integrieren, spezifische Polymorphismen gegen Sequenzfehler zu beobachten, gut dokumentierte Artefakte aufgrund der DNA-Amplifikationen zu identifizieren sowie andere Problemquellen wie die Uneinheitlichkeit zu erkennen der Reads-Berichterstattung über das Transkript. Leider wird in vielen Fällen die direkte Visualisierung der Daten durch das Fehlen eines gemeinsamen Formats für den Ausrichtungsalgorithmus behindert, was einen enormen Mehraufwand bei der Formatkonvertierung für Visualisierungszwecke, Merkmalsextraktion und andere nachgelagerte Analysen verursacht. Erst kürzlich wurde das SAM-Format (Sequencing Alignment/Map) [89] als möglicher Standard zum Speichern von Read-Alignment gegenüber Referenzsequenzen vorgeschlagen.


(ein)
(B)
(C)
(ein)
(B)
(C) Strangspezifische Read-Verteilung im UCSC Genome Browser und IGV. (a) UCSC Genome Browser, der ein Beispiel für gestrandete Sequenzen zeigt, die durch ein RNA-Seq-Experiment auf einer NGS-Plattform generiert wurden. Insbesondere der Screenshot – einer charakteristischen „Schwanz-zu-Schwanz“-Orientierung zweier menschlicher Gene – zeigt deutlich die spezifische Expression in beiden Strängen, wo sich diese beiden Gene überlappen, was darauf hindeutet, dass die Gestrandetheit von Reads erhalten bleibt. (b) Dieselbe genomische Position im IGV-Browser, die die Verteilung der Reads (farbige Blöcke) entlang des TMED1-Gens zeigt. Die grauen Pfeile zeigen den Sinn der Transkription an. Die spezifische Expression in beiden Strängen, an denen sich die Gene überlappen, zeigt an, dass die Stränge der Reads erhalten bleibt. In (c) eine stärkere Vergrößerung der Reads-Kartierung auf die gleiche Region auf Nukleotidebene, nützlich für die SNP-Analyse. Die Chromosomenpositionen sind oben und genomische Loci der Gene sind unten in jedem Feld gezeigt.
3.5. Quantifizierung der Genexpression und der Fülle von Isoformen

Browsergesteuerte Analysen sind sehr wichtig, um die Qualität der Daten zu visualisieren und auf Basis der verfügbaren Annotationen und Mapped Reads spezifische Ereignisse zu interpretieren. Sie liefern jedoch nur ein qualitatives Bild des untersuchten Phänomens und die enorme Datenmenge erlaubt es nicht, sich ohne weiteres auf die relevantesten Details zu konzentrieren. Daher besteht die zweite Phase des größten Teils der RNA-Seq-Pipeline in der automatischen Quantifizierung der Transkriptionsereignisse über das gesamte Genom (siehe Abbildung 4). Aus dieser Sicht besteht das Interesse sowohl in der Quantifizierung bekannter Elemente (d. h. bereits annotierte Gene oder Exons) als auch im Nachweis neuer transkribierter Regionen, definiert als transkribierte DNA-Segmente, die noch nicht als Exons in Datenbanken annotiert sind. Die Fähigkeit, diese nicht annotierten Regionen zu erkennen, obwohl sie biologisch relevant sind, ist einer der Hauptvorteile der RNA-Seq gegenüber der Microarray-Technologie. Normalerweise ist der Quantifizierungsschritt die Vorstufe eines jeden Differentialausdrucksansatzes, siehe Abbildung 5.


Abbildung und Quantifizierung des Signals. RNA-seq-Experimente erzeugen kurze Reads, die von prozessierten mRNAs sequenziert wurden. Wenn ein Referenzgenom verfügbar ist, können die Reads mit einer effizienten Alignment-Software darauf abgebildet werden. Klassische Alignment-Tools werden Reads, die in ein Exon fallen, genau abbilden, aber sie können gespleißte Reads nicht abbilden. Um solche Probleme zu bewältigen, müssen geeignete Mapper in Betracht gezogen werden, die entweder auf einer Junctions-Bibliothek oder auf komplexeren Ansätzen basieren. Nach dem Mapping-Schritt können annotierte Features quantifiziert werden.

Um einen quantitativen Ausdruck für annotierte Elemente (wie Exons oder Gene) innerhalb eines Genoms abzuleiten, besteht der einfachste Ansatz darin, den Ausdruck als die Gesamtzahl der Reads bereitzustellen, die den Koordinaten jedes annotierten Elements zugeordnet sind. In der klassischen Form gewichtet eine solche Methode alle Reads gleich, obwohl sie das Genom mit unterschiedlicher Stringenz abbilden.Alternativ kann die Genexpression als Summe der Anzahl von Reads berechnet werden, die jede Basisposition des annotierten Elements abdecken, auf diese Weise wird die Expression in Bezug auf die Basisabdeckung bereitgestellt. In beiden Fällen hängen die Ergebnisse von der Genauigkeit der verwendeten Genmodelle ab und die quantitativen Messungen sind eine Funktion der Anzahl der kartierten Reads, der Länge der interessierenden Region und der molaren Konzentration des spezifischen Transkripts. Eine einfache Lösung, um den Stichprobengrößeneffekt zu berücksichtigen, besteht darin, die beobachteten Zählungen für die Länge des Elements und die Anzahl der zugeordneten Lesevorgänge zu normalisieren. In [37] schlugen die Autoren die Reads pro Kilobase pro Million of mapped reads (RPKM) als quantitatives normalisiertes Maß zum Vergleich sowohl verschiedener Gene innerhalb derselben Probe als auch von Expressionsunterschieden unter biologischen Bedingungen. In [84] betrachteten die Autoren zwei alternative Maße der relativen Expression: den Anteil an Transkripten und den Anteil an Nukleotiden des Transkriptoms, die von einem bestimmten Gen oder einer bestimmten Isoform gebildet werden.

Obwohl scheinbar leicht zu erhalten, können RPKM-Werte aufgrund der fehlenden klaren Dokumentation der verwendeten Analysealgorithmen mehrere Unterschiede zwischen den Softwarepaketen aufweisen, die auf den ersten Blick verborgen sind. Zum Beispiel verwendet ERANGE [37] eine Vereinigung von bekannten und neuen Exon-Modellen, um Reads zu aggregieren und einen Wert für jede Region zu bestimmen, die auch gespleißte Reads und zugewiesene Multireads enthält, während [30, 40, 81, 90] auf bekannte oder vorgegebene beschränkt sind Exons/Genmodelle. Wie in [91] festgestellt, beeinflussen jedoch mehrere experimentelle Aspekte die RPKM-Quantifizierung, darunter die Integrität der Input-RNA, das Ausmaß der in der Probe verbleibenden ribosomalen RNA, die Größenauswahlschritte und die Genauigkeit der verwendeten Genmodelle.

Im Prinzip sollten RPKMs die wahre RNA-Konzentration widerspiegeln, dies gilt, wenn die Proben eine relativ einheitliche Sequenzabdeckung über das gesamte Genmodell aufweisen. Das Problem ist, dass derzeit alle Protokolle nicht die gewünschte Einheitlichkeit bieten, siehe zum Beispiel [37], wo die Kolmogorov-Smirnov-Statistik verwendet wird, um die beobachtete Reads-Verteilung auf jedem ausgewählten Exon-Modell mit der theoretischen einheitlichen zu vergleichen. Ähnliche Schlussfolgerungen sind unter anderem auch in [57, 58] dargestellt.

Darüber hinaus sollte beachtet werden, dass die RPKM-Messung nicht als Allheilmittel für alle RNA-Seq-Experimente angesehen werden sollte. Trotz der Bedeutung des Themas erhielt die Expressionsquantifizierung nicht die erforderliche Aufmerksamkeit von der Community und in den meisten Fällen wurde die Auswahl getroffen, obwohl die Hauptfrage die Erkennung unterschiedlich exprimierter Elemente ist. In Bezug auf diesen Punkt in [92] wird die inhärente Verzerrung der Transkriptlänge veranschaulicht, die RNA-Seq-Experimente beeinflusst. Tatsächlich ist die Gesamtzahl der Reads für ein gegebenes Transkript ungefähr proportional sowohl zum Expressionsniveau als auch zur Länge des Transkripts. Mit anderen Worten, ein langes Transkript weist im Vergleich zu einem kurzen Gen mit ähnlicher Expression mehr Reads-Mapping auf. Da die Aussagekraft eines Experiments proportional zur Stichprobengröße ist, besteht eine größere statistische Aussagekraft, um eine unterschiedliche Expression für längere Gene nachzuweisen. Daher haben kurze Transkripte im Vergleich zu langen Transkripten in derselben Probe immer einen statistischen Nachteil. Messungen vom RPKM-Typ liefern ein durch die Länge des Gens normalisiertes Expressionsniveau, und dies löst nur scheinbar das Problem, es liefert ein unverzerrtes Maß für das Expressionsniveau, ändert aber auch die Varianz der Daten in einer längenabhängigen Weise, was zu demselben führt Verzerrung der differentiellen Expressionsschätzung. Um einem solchen inhärenten Bias Rechnung zu tragen, schlugen die Autoren in [92] vor, einen Ansatz mit Fenstern fester Länge mit einer Fenstergröße kleiner als das kleinste Gen zu verwenden. Diese Methode kann aggregierte Tag-Zählungen für jedes Fenster berechnen und sie folglich auf differenzielle Expression bewerten. Da die Analyse jedoch auf Fensterebene durchgeführt wird, wird ein Teil der Daten verworfen, außerdem leidet ein solcher Ansatz unter einer verringerten Power und hochexprimierte Gene werden wahrscheinlicher erkannt, da die Probenvarianz mit der Expression abnimmt Niveau. Tatsächlich sollte beachtet werden, dass die Probenvarianz sowohl von der Transkriptlänge als auch vom Expressionsniveau abhängt.

Schließlich stellen wir fest, dass Annotationsdateien oft ungenau sind, Grenzen nicht immer genau abgebildet werden, Mehrdeutigkeiten und Überschneidungen zwischen Transkripten häufig auftreten und noch nicht vollständig gelöst sind. Bezüglich dieses Problems schlugen die Autoren in [93] eine Methode vor, die auf der Definition von „Union-Intersection-Genen“ basiert, um die interessierende genomische Region und darin normierte absolute und relative Expressionsmaße zu definieren. Auch in diesem Fall beobachten wir, dass alle Strategien viel besser mit Daten funktionieren, die die RNA-Strangigkeit bewahren, was eine äußerst wertvolle Information für die Transkriptom-Annotation ist, insbesondere für Regionen mit überlappender Transkription aus entgegengesetzten Richtungen.

Die oben beschriebenen Quantifizierungsverfahren berücksichtigen keine neue transkribierte Region. Obwohl bereits mehrere Studien gezeigt haben, dass RNA-Seq-Experimente mit ihrer hohen Auflösung und Sensitivität ein großes Potenzial haben, viele neue transkribierte Regionen aufzudecken, die durch Microarrays nicht identifizierbar sind, wird der Nachweis neuer transkribierter Regionen hauptsächlich durch ein Schiebefenster und heuristische Ansätze erreicht . In [94] werden Abschnitte zusammenhängender Expression in intergenischen Regionen identifiziert, nachdem alle UTRs aus dem intergenischen Suchraum entfernt wurden, indem eine Kombination von Informationen verwendet wird, die aus Tiling-Chip- und Sequenzdaten und visueller Inspektion und manueller Kuration stammen. Das Verfahren ist recht komplex und liegt vor allem an den fehlenden Strandedness-Informationen in ihrem Experiment. Im Gegenteil, die Hybridisierungsdaten sind von diesen Problemen weniger betroffen, da sie die Transkriptionsrichtung unterscheiden und keinen Bias aufweisen (siehe [94] für weitere Details). Dann müssen neue transkribierte Regionen eine Länge von mindestens 70 bp und eine durchschnittliche Sequenzabdeckung von 5 Reads pro bp aufweisen. Ein ähnlicher Ansatz mit unterschiedlicher Wahl der Schwelle und des Fensters wurde in [40] vorgeschlagen, wo die Autoren entweder intergene und intronische Regionen untersuchten. Die Wahl der Parameter wird durch Schätzung des Rauschpegels mittels eines Poisson-Modells des nichtkodierenden Teils des Genoms bewertet. In [45] ist das gesamte Genom in 50 bp-Fenster aufgeteilt (nicht überlappend). Eine genomische Region wird als eine neue transkribierte Region definiert, wenn sie aus der Vereinigung von zwei aufeinanderfolgenden Fenstern resultiert, wobei mindestens zwei Sequenz-Reads pro Fenster kartiert werden. Außerdem sollte die Lücke zwischen jeder neuen transkribierten Region mindestens 50 bp betragen und die Lücke zwischen einer neuen transkribierten Region und einem annotierten Gen (mit dem gleichen Strang) mindestens 100 bp. Ein etwas ausgefeilterer Ansatz wird in ERANGE [37] verwendet. Reads, die nicht in bekannte Exons fallen, werden zu Kandidaten-Exons aggregiert, indem Regionen mit mindestens 15 Reads benötigt werden, deren Starts nicht mehr als 30 bp voneinander entfernt sind. Die meisten Kandidaten-Exons werden benachbarten Genmodellen zugeordnet, wenn sie sich innerhalb einer vorgebbaren Entfernung zum Modell befinden.

Diese Studien unter anderem enthüllen viele dieser neuen transkribierten Regionen. Leider scheinen die meisten von ihnen kein Protein zu kodieren, und daher müssen ihre Funktionen oft noch bestimmt werden. In jedem Fall deuten diese neuen transkribierten Regionen in Kombination mit vielen unentdeckten neuen Spleißvarianten darauf hin, dass die Transkriptkomplexität erheblich höher ist als bisher angenommen. Folglich können weitere RNA-Seq-Experimente und ausgefeiltere Analysemethoden es aufdecken.

Die Komplexität von Säugetiertranskriptomen wird auch durch alternatives Spleißen verstärkt, das es einem Gen ermöglicht, mehrere Transkriptisoformen zu produzieren. Alternatives Spleißen umfasst Ereignisse wie Exon-Skipping, Alternatives oder Spleißen, sich gegenseitig ausschließende Exons, Intronretention und „kryptische“ Spleißstellen (siehe Abbildung 6). Die Häufigkeit des Auftretens alternativer Spleißereignisse wird noch immer unterschätzt. Es ist jedoch bekannt, dass mehrere Transkript-Isoformen, die von einem einzigen Gen produziert werden, zu Protein-Isoformen mit unterschiedlichen Funktionen führen können und dass alternatives Spleißen in großem Umfang an verschiedenen physiologischen und pathologischen Prozessen beteiligt ist. Einer der wichtigsten Vorteile der RNA-Seq-Experimente ist die Möglichkeit, das Transkriptom auf Isoformebene zu verstehen und zu vergleichen (siehe [95, 96]). In diesem Zusammenhang müssen zwei rechnerische Probleme gelöst werden: der Nachweis verschiedener Isoformen und deren Quantifizierung hinsichtlich der Transkripthäufigkeit.


(ein)
(B)
(C)
(D)
(e)
(F)
(g)
(h)
(ein)
(B)
(C)
(D)
(e)
(F)
(g)
(h) Alternatives Spleißen. Schematische Darstellung der möglichen Muster des alternativen Spleißens eines Gens. Boxen sind diskrete Exons, die unabhängig in das mRNA-Transkript eingeschlossen oder davon ausgeschlossen werden können. Hellblaue Kästchen stellen konstitutive Exons dar, violette und rote Kästchen sind alternativ gespleißte Exons. Gestrichelte Linien repräsentieren alternative Spleißereignisse. (a) Kanonisches Exon-Skipping (b) 5

alternatives Spleißen (d) sich gegenseitig ausschließendes Spleissereignis, bei dem nur eine von zwei oder mehr Exonvarianten ausgewählt wird (e) Intraexonische „kryptische“ Spleißstelle, die den Ausschluss eines Teils des Exons aus dem Transkript verursacht (f) Verwendung neuer alternativ 5

Erste Vorschläge zur Lösung dieser Probleme basierten im Wesentlichen auf einer manuellen Gen-für-Gen-Inspektion, bei der die Aufmerksamkeit in der Regel eher auf den Nachweis alternativer Spleißformen als auf deren Quantifizierung gerichtet war. Zum Beispiel kann die Kenntnis von Exon-Exon-Übergangs-Reads und von Übergängen, die in einige isoformspezifische Regionen fallen, nützliche Informationen zum Identifizieren verschiedener Isoformen liefern. Die Zuverlässigkeit einer Splicing-Junction wird in der Regel durch Zählen von Merkmalen wie der Anzahl der Reads, die der Junction zugeordnet werden, der Anzahl der Nichtübereinstimmungen bei jedem zugeordneten Read, der Zuordnungsposition auf der Junction und der Position der Nichtübereinstimmungen in einer Art heuristischen Ansatzes bewertet. Leider können diese Techniken nicht auf Genomebene skaliert werden und sind von einer hohen Falsch-Positiv- und Falsch-Negativ-Rate betroffen.

Den oben genannten Ideen folgend, entdeckten die Autoren in [40] Kreuzungen, indem sie die Wahrscheinlichkeit eines zufälligen Treffers für einen Lesevorgang der Länge berechneten

an den Spleißstellen der Länge

mit höchstens einer gewissen Anzahl von Fehlanpassungen. In [95] verwendeten die Autoren verschiedene ähnliche Informationen wie die oben beschriebenen, um Klassifikatoren auf der Grundlage der logistischen Regression für die Erkennung von Spleißstellen zu trainieren. In [97] führten die Autoren eine neue Metrik ein, um die Qualität jedes Junction-Reads zu messen. Dann schätzten sie die Verteilung einer solchen Metrik entweder in Bezug auf bekannte Exon-Spleiß-Übergänge und zufällige Spleiß-Übergänge und implementierten ein empirisches statistisches Modell, um Exon-Übergänge zu erkennen, indem die Wahrscheinlichkeit bewertet wurde, dass eine beobachtete Ausrichtungsverteilung von einem echten Übergang stammt.

Der einfache Nachweis spezifischer Isoformen liefert keine brauchbaren Informationen über deren quantitative Häufigkeit. Grundsätzlich sind die oben beschriebenen Quantifizierungsverfahren gleichermaßen auf die Quantifizierung der Isoformexpression anwendbar. In der Praxis ist es jedoch schwierig, die isoformspezifische Expression zu berechnen, da die meisten Reads, die den Genen zugeordnet sind, von mehr als einer Isoform geteilt werden und es dann schwierig wird, jeden Read nur einer bestimmten Isoform zuzuordnen. Folglich sollte sich die Zuweisung auf Inferenzmethoden stützen, die alle Datenzuordnungen zu einer bestimmten Region berücksichtigen.

Mehrere vorgeschlagene Methoden zur Ableitung der Häufigkeit von Isoformen basieren auf der vorläufigen Kenntnis der genauen Annotation der Isoformen, auf der Annahme einer gleichmäßigen Verteilung der Reads über das Transkript, auf dem Poisson-Modell für die Anzahl der Reads und die gleiche Gewichtung für jeden Read, unabhängig von der Qualität des Spiels. Die Methoden sind oft darauf beschränkt, nur die Fälle zu behandeln, in denen eine relativ kleine Anzahl von Isoformen ohne verwirrende Effekte aufgrund der Überlappung zwischen den Genen vorhanden ist. Insbesondere in [98] zeigten die Autoren, dass die Komplexität einiger Isoformen-Sets das Schätzproblem basierend auf aktuellen RNA-Seq-Protokollen immer noch nicht identifizierbar machen kann und leiteten eine mathematische Charakterisierung von identifizierbaren Isoformen-Sets ab. Der Hauptgrund für einen solchen Effekt ist, dass aktuelle Protokolle mit kurzen Single-End-Reads RNA-Seq nur lokale Eigenschaften eines Transkripts beurteilen können. Es ist möglich, dass die Kombination von Short-Read-Daten mit längeren Reads oder Paired-End-Reads bei der Bewältigung solcher Herausforderungen noch weiter gehen kann.

Vor kurzem schlugen die Autoren in [90] eine statistische Methode vor, bei der ähnlich wie in [34] die Anzahl der Reads, die in ein annotiertes Gen mit mehreren Isoformen fallen, als Poisson-Variable modelliert wird. Sie leiteten den Ausdruck jeder einzelnen Isoform unter Verwendung des Maximum-Likelihood-Ansatzes ab, dessen Lösung durch die Lösung eines konvexen Optimierungsproblems erhalten wurde. Um den Grad der Unsicherheit der Schätzungen zu quantifizieren, führten sie durch Wichtigkeitsstichproben statistische Rückschlüsse auf die Parameter aus der Posterior-Verteilung durch. Interessanterweise zeigten sie, dass ihre Methode als Erweiterung des RPKM-Konzepts angesehen werden kann und bei nur einer Isoform auf den RPKM-Index reduziert wird. Ein Versuch, die Annahme von Uniform Reads Sampling zu lockern, wird in [84] vorgeschlagen. In diesem Artikel vereinheitlichten die Autoren die Vorstellungen von Reads, die mehreren Orten zugeordnet werden können, d. Dann schätzten sie die Häufigkeit der Isoformen als Expressionsniveaus mit maximaler Wahrscheinlichkeit unter Verwendung des EM-Algorithmus. Die Poisson-Verteilung ist auch die Hauptannahme in [99], wo ein umfassender Ansatz für das Problem der Vorhersage alternativer Isoformen vorgestellt wird. Insbesondere wird das Vorhandensein eines alternativen Spleißereignisses innerhalb derselben Probe mit dem Chi-Quadrat-Test nach Pearson für den Parameter einer Multinomialverteilung bewertet und der EM-Algorithmus wird verwendet, um die Häufigkeit jeder Isoform zu schätzen.

3.6. Differentialausdruck

Das Endziel der meisten Transkriptomstudien ist die Quantifizierung von Expressionsunterschieden über mehrere Proben hinweg, um die unterschiedliche Genexpression zu erfassen, probenspezifische alternative Spleißisoformen und ihre unterschiedliche Häufigkeit zu identifizieren.

In Anlehnung an die für die Mikroarray-Analyse verwendeten Methoden begannen die Forscher, sich dieser entscheidenden Frage zu nähern, indem sie statistische Hypothesentests in Kombination mit Mehrfachvergleichsfehlerverfahren der beobachteten Zählungen (oder der RPKM-Werte) auf Gen-, Isoform- oder Exon-Ebene verwendeten. Tatsächlich wandten die Autoren in [30] die empirische Bayes-moderierte

-Test vorgeschlagen in [100] auf das normalisierte RPKM. In Microarray-Experimenten wird die Häufigkeit eines bestimmten Transkripts jedoch als Fluoreszenzintensität gemessen, die effektiv als kontinuierliche Reaktion modelliert werden kann, während bei RNA-Seq-Daten die Häufigkeit normalerweise eine Zählung ist. Daher scheinen Verfahren, die für Microarrays erfolgreich sind, für den Umgang mit solchen Daten nicht geeignet zu sein.

Eine der bahnbrechenden Arbeiten zum Umgang mit solchen Unterschieden ist [34], in der die Autoren die aggregierte Reads-Zahl für jedes Gen unter Verwendung der Poisson-Verteilung modelliert haben. Man kann beweisen, dass die Anzahl der von einem Gen (oder einer Transkriptisoform) beobachteten Reads einer Binomialverteilung folgt, die durch eine Poisson-Verteilung angenähert werden kann, unter der Annahme, dass RNA-Seq-Reads einem zufälligen Sampling-Prozess folgen, bei dem jeder Read abgetastet wird unabhängig und einheitlich von jedem möglichen Nukleotid in der Probe. In diesem Aufbau verwendeten die Autoren in [34] einen Likelihood-Ratio-Test, um auf signifikante Unterschiede zwischen den beiden Bedingungen zu testen. Das Poisson-Modell wurde auch von [40] verwendet, wobei die Autoren die in [101] vorgeschlagene Methode verwendeten, um die Signifikanz der differentiellen Expression zu bestimmen. Im Gegenteil, in [83] schätzten die Autoren einfach den Unterschied in der Expression eines Gens zwischen zwei Bedingungen durch die Differenz der Zählanteile

berechnet mit einem klassischen

-Teststatistik. In [18] verwendeten die Autoren den exakten Test von Fishers, um die Gene mit relativ kleinen Zahlen besser zu gewichten. In ähnlicher Weise verwendeten die Autoren in [99] das Poisson-Modell und den exakten Test von Fishers, um eine alternative Exon-Nutzung zwischen den Bedingungen zu erkennen.

Kürzlich wurden in [102, 103] ausgefeiltere Ansätze vorgeschlagen. In [102] schlagen die Autoren einen empirischen Bayesschen Ansatz vor, der aufgrund der negativen Binomialverteilung sehr flexibel ist und für eine bestimmte Wahl des Hyperparameters auf das Poisson-Modell reduziert wird. Sie führten differentielle Expressionstests unter Verwendung eines moderierten Bayes-Ansatzes durch, der dem in [100] beschriebenen ähnlich war, aber für Daten angepasst wurde, die Zählungen sind. Wir haben beobachtet, dass die Methode darauf ausgelegt ist, Veränderungen zwischen zwei oder mehr Gruppen zu finden, wenn mindestens eine der Gruppen Messungen wiederholt hat. In [103] wurde die beobachtete Anzahl von Reads, die einem bestimmten Gen zugeordnet wurden, das aus einer bestimmten Probe erhalten wurde, unter Verwendung der Binomialverteilung modelliert. Unter dieser Annahme kann nachgewiesen werden, dass das logarithmische Verhältnis zwischen den beiden auf das Intensitätssignal konditionierten Stichproben (d. h. der Durchschnitt der beiden logarithmischen Zählungen) einer ungefähren Normalverteilung folgt, die zur Bewertung der Signifikanz des Tests verwendet wird. Alle oben genannten Methoden gehen davon aus, dass die Quantifizierung der interessierenden Merkmale unter den experimentellen Bedingungen bereits erfolgt ist und jeder Read nur einem Element zugeordnet wurde werden richtig herausgefiltert. Im Gegensatz dazu sind die oben beschriebenen Methoden nicht direkt geeignet, Isoformenunterschiede zu erkennen, es sei denn, die Quantifizierung der Isoformenhäufigkeit wurde mit spezifischen Ansätzen durchgeführt. Um solche Schwierigkeiten zu bewältigen, schlugen die Autoren in [104] ein hierarchisches Bayes-Modell vor, um direkt auf das differentielle Expressionsniveau jeder Transkript-Isoform als Reaktion auf zwei Bedingungen zu schließen. Der Unterschied in der Expression jeder Isoform wird mittels eines inversen Gammamodells modelliert und eine latente Variable wird eingeführt, um die Auswahl der Isoform zu lenken. Das Modell kann die Heteroskedastizität der Sequence Read Coverage handhaben und die Inferenz wird unter Verwendung des Gibbs-Samplers ausgeführt.

Es sollte beachtet werden, dass diese Techniken zwar bereits interessante biologische Erkenntnisse liefern, aber an mehreren realen Datensätzen, in denen verschiedene Arten von Replikaten verfügbar sind, nicht ausreichend validiert und auch nicht ausreichend hinsichtlich Vor- und Nachteilen verglichen wurden. Wie bei jeder neuen Biotechnologie ist es wichtig, die verschiedenen Variationsquellen, die die Messung der interessierenden biologischen Effekte beeinflussen können, sorgfältig zu untersuchen und die Reproduzierbarkeit der biologischen Ergebnisse statistisch streng zu bewerten, was bisher oft unterlassen wurde. Tatsächlich sollte berücksichtigt werden, dass es eine Vielzahl von experimentellen Effekten gibt, die möglicherweise die Variabilität, den Bias erhöhen oder mit sequenzierungsbasierten Maßnahmen verwechselt werden könnten, was zu einem Missverständnis der Ergebnisse führen könnte. Leider wurde diesen Problemen bisher wenig Aufmerksamkeit geschenkt. Um diese Lücke zu schließen, präsentierten die Autoren in [93] einen statistischen Inferenzrahmen für die Transkriptomanalyse unter Verwendung von RNA-Seq-mapping-read-Daten.Insbesondere schlugen sie eine neue statistische Methode vor, die auf log-linearer Regression basiert, um Beziehungen zwischen Read-Counts und biologischen und experimentellen Variablen zu untersuchen, die Eingabeproben sowie interessierende genomische Regionen beschreiben. Der Hauptvorteil des log-linearen Regressionsansatzes besteht darin, dass sowohl biologische Effekte als auch eine Vielzahl experimenteller Effekte berücksichtigt werden können. Ihre Arbeit stellt einen der wenigen Versuche dar, die Analyse von RNA-Seq-Daten aus einem allgemeinen Blickwinkel zu betrachten.

4. Herausforderungen und Perspektiven für NGS

Von der Entwicklung der Sanger-Methode bis zur Fertigstellung des HGP hat die Genetik bedeutende Fortschritte beim Verständnis von Geninhalt und -funktion gemacht. Obwohl die Human Genome-, HapMap- und ENCODE-Projekte [7, 105, 106] bedeutende Errungenschaften erreicht haben, sind wir noch weit davon entfernt, die genomische Diversität beim Menschen und zwischen den Arten sowie die Variationen der Genexpression und ihre Regulation in sowohl physiologische als auch pathologische Zustände. Seit dem Erscheinen der ersten NGS-Plattformen im Jahr 2004 war klar, dass das Verständnis dieser Vielfalt mit Kosten von etwa 5–10 Millionen US-Dollar pro Genomsequenz [107] außerhalb der realen Möglichkeiten der meisten Forschungslabors liegt und weit davon entfernt ist, einzelne individuelle wirtschaftliche Potenziale. Bis heute befinden wir uns in der Ära der „1000 Dollar Genome“, und obwohl diese wichtige Barriere noch nicht durchbrochen wurde, wird derzeit davon ausgegangen, dass dieses Ziel bis Ende 2010 erreicht wird. Es ist wahrscheinlich, dass die rasante Entwicklung der DNA-Sequenzierungstechnologie, die Forschern die Möglichkeit bietet, Daten über genetische Variationen und Muster der Genexpression in einem noch nie dagewesenen Umfang zu generieren, wird innerhalb weniger Jahre zu einem Routinewerkzeug für Forscher und Kliniker werden.

Wie wir sehen können, führt die Zahl der Anwendungen und die große Menge biologischer Fragen, die durch „Seq“-Experimente auf NGS-Plattformen beantwortet werden können, zu einer Revolution in der Landschaft der Molekularbiologie, aber das Ungleichgewicht zwischen dem Tempo, mit dem technologische Innovationen vorangetrieben werden in den Plattformen eingeführt und die daraus ableitbaren biologischen Entdeckungen wächst. Das Risiko besteht darin, dass eine Flut von „zu wenig genutzten“ Informationen entsteht, die in wenigen Monaten nutzlos werden, weil die neue produziert wird. Es ist notwendig, in eine gleichwertige Entwicklung neuer Rechenstrategien und Fachkenntnisse zu investieren, um mit den Datenmengen umzugehen, die durch die aktuelle Generation neuer Sequenzierungsinstrumente erzeugt werden, um ihren potenziellen Nutzen zu maximieren.

Diese Plattformen schaffen eine neue Welt zum Erkunden, nicht nur bei der Definition experimenteller/technischer Verfahren von groß angelegten Analysen, sondern auch bei der nachgelagerten Computeranalyse und bei der Unterstützung der bioinformatischen Infrastrukturen, die für eine qualitativ hochwertige Datengenerierung und deren korrekte Unterstützung erforderlich sind biologische Deutung. In der Praxis haben sie den Engpass von der Generierung experimenteller Daten auf ihr Management und ihre statistische und computergestützte Analyse verlagert. Es gibt einige wichtige Punkte zu beachten. Der erste ist das Datenmanagement: Eine nachgelagerte Computeranalyse wird ohne eine entsprechende Infrastruktur der Informationstechnologie (IT) schwierig. Die Terabyte an Daten, die bei jedem Sequenzierungslauf erzeugt werden, erfordern eine beträchtliche Speicher- und Backup-Kapazität, was die experimentellen Kosten erheblich erhöht. Der zweite betrifft die Protokolle für die Rohdatenproduktion: Jede Plattform hat ihre Besonderheiten sowohl in der Probenvorbereitung als auch in der Art und Menge der produzierten Rohdaten und erfordert daher individuelles Labor-Know-how und Datenverarbeitungs-Pipelines. Drittens erscheinen neben herstellerspezifischer und kommerzieller Software kontinuierlich mehrere andere Open-Source-Analysetools. Leider gibt es oft eine unvollständige Dokumentation und es ist leicht, mehr Zeit in die Evaluierung von Software-Suiten zu investieren als in die Analyse der Ausgabedaten. Welche Software auch immer verwendet wird, die wichtigste Frage ist, ihre Grenzen und Annahmen zu verstehen. Die Annahme von Standards für Eingabe-/Ausgabedaten durch die Gemeinschaft ist ebenfalls wesentlich, um das Problem der Datenverwaltung effizient zu bewältigen. Bisher galten die Bemühungen hauptsächlich der technologischen Entwicklung und nicht dem methodischen Gegenstück. Auch die Wahl eines sorgfältigen Versuchsdesigns wurde nicht immer ausreichend berücksichtigt.

Was die RNA-Seq angeht, müssen wir uns sowohl aus biologischer als auch aus rechnerischer Sicht noch einigen kritischen Fragen stellen. RNA-seq-Protokolle sind äußerst empfindlich und erfordern eine sehr sorgfältige Qualitätskontrolle für jeden Nasslaborschritt. So muss bei allen technischen Verfahren die Kontamination von Reagenzien mit RNAse und der Abbau von RNA, auch nur teilweise, vermieden werden. Die Qualität der gesamten isolierten RNA ist der erste und wahrscheinlich wichtigste Punkt für ein RNA-Seq-Experiment. Eine schlechte Ausbeute der polyA-Anreicherung oder eine geringe Effizienz der gesamten RNA-Ribodepletion sind ebenfalls kritische Punkte für die Herstellung hochwertiger RNA für den Bibliotheksaufbau. Es ist klar, dass unabhängig von dem Verfahren zum Erstellen der Bibliothek besondere Sorgfalt aufgewendet werden sollte, um einen vollständigen Abbau der RNA während des kontrollierten RNA-Fragmentierungsschritts zu vermeiden. Um die Direktionalität der Gentranskription korrekt zu bestimmen und den Nachweis von gegensätzlichen und überlappenden Transkripten innerhalb gendichter genomischer Regionen zu erleichtern, sollte außerdem besondere Sorgfalt darauf verwendet werden, die Stränge der RNA-Fragmente während der Bibliotheksherstellung zu bewahren. Um eine gleichmäßigere Abdeckung über die gesamte Transkriptlänge bereitzustellen, sollte außerdem nach dem Entfernen der rRNA ein zufälliges Priming für reverse Transkriptionsprotokolle anstelle eines Oligo-dT-Primings (mit der Tendenz einer geringen Abdeckung an den 5 Enden) durchgeführt werden. Schließlich sollte berücksichtigt werden, dass für die Plattformen, die auf CRT und SBL basieren, Substitutionen und eine Unterrepräsentation von AT-reichen und GC-reichen Regionen, wahrscheinlich aufgrund von Amplifikationsfehlern während der Template-Präparation, die häufigste Fehlerart sind. Im Gegensatz dazu stellen Insertionen und Deletionen für Pyrosequenzierungsplattformen einen gemeinsamen Nachteil dar.

Was die Datenanalyse anbelangt, ist zu den oben genannten Punkten anzumerken, dass die meisten verfügbaren Softwares für das Read-Alignment für genomisches Mapping konzipiert sind und daher nicht vollständig in der Lage sind, Exon-Junctions zu entdecken. Die klassische Erweiterung für den Umgang mit RNA-Seq-Daten beinhaltet die Vorkonstruktion von Junction-Bibliotheken, wodurch die Möglichkeit der Entdeckung neuer Junctions reduziert wird. Es wäre wünschenswert, neue Methoden zu entwickeln, die sowohl eine neue Junction-Detektion als auch die Verwendung von Paired-End-Reads ermöglichen, die für genauere Studien besonders vielversprechend sind. Darüber hinaus sind weitere Entwicklungen erforderlich, um die Bedeutung neuer transkribierter Regionen, die Konstruktion neuer mutmaßlicher Gene und die genaue Quantifizierung jeder Isoform zu bewerten, für die es noch an statistischen Methoden mangelt. Was den Nachweis der differentiellen Expression betrifft, wurden vorhandene Techniken nicht ausreichend anhand biologischer Daten validiert und hinsichtlich Spezifität und Sensitivität verglichen. Von potenziell großer Bedeutung ist außerdem das Fehlen biologischer Replikate, die es unmöglich machen, das Ausmaß einzelner Effekte in Bezug auf technische Effekte abzuschätzen. Biologische Replikate sind in einem RNA-Seq-Experiment unerlässlich, um verallgemeinerte Schlussfolgerungen über die "echten" Unterschiede zu ziehen, die zwischen zwei oder mehr biologischen Gruppen beobachtet werden.

Sich solchen multidisziplinären Herausforderungen zu stellen, wird der Schlüsselpunkt für einen fruchtbaren Transfer von Laborstudien zu klinischen Anwendungen sein. Tatsächlich wird die Verfügbarkeit von kostengünstigen, effizienten und genauen Technologien für die Genexpression und Genomsequenzierung nützlich sein, um pathologische Genexpressionsprofile bei einer Vielzahl von häufigen genetischen Störungen einschließlich Typ-II-Diabetes, Herz-Kreislauf-Erkrankungen, Parkinson-Krankheit und Downs-Syndrom bereitzustellen. Darüber hinaus wird die Anwendung von NGS auf die aufstrebenden Disziplinen Pharmakogenomik und Nutrigenomik es ermöglichen, die Arzneimittelreaktion und die Nährstoff-Gen-Interaktionen auf der Grundlage der genetischen Ausstattung des einzelnen Patienten zu verstehen, was wiederum zur Entwicklung zielgerichteter Therapien für viele menschliche Krankheiten oder maßgeschneiderte Nährstoffergänzung [108].

Wissen

Wir danken den anonymen Gutachtern, deren wertvolle Kommentare dazu beigetragen haben, das Papier wesentlich zu verbessern. Diese Arbeit wurde vom CNR-Bioinformatics Project unterstützt.

Verweise

  1. D. D. Licatalosi und R. B. Darnell, „RNA-Verarbeitung und ihre Regulierung: globale Einblicke in biologische Netzwerke“, Natur Bewertungen Genetik, Bd. 11, nein. 1, S. 75–87, 2010. Ansicht auf: Verlagsseite | Google Scholar
  2. V. E. Velculescu, L. Zhang, W. Zhou et al., „Charakterisierung des Hefetranskriptoms“, Zelle, Bd. 88, Nr. 2, S. 243–251, 1997. View at: Publisher Site | Google Scholar
  3. J. Lindberg und J. Lundeberg, „Die Plastizität des Säugetiertranskriptoms“, Genomik, Bd. 95, nein. 1, S. 1–6, 2010. Ansicht auf: Verlagsseite | Google Scholar
  4. W. F. Doolittle und C. Sapienza, „Selbstsüchtige Gene, das Phänotyp-Paradigma und die Genomevolution“, Natur, Bd. 284, Nr. 5757, S. 601–603, 1980. Ansicht bei: Google Scholar
  5. R. J. Taft, M. Pheasant und J. S. Mattick, „Die Beziehung zwischen nicht-proteinkodierender DNA und eukaryotischer Komplexität“, BioEssays, Bd. 29, nein. 3, S. 288–299, 2007. View at: Publisher Site | Google Scholar
  6. T. Cavalier-Smith, „Zellvolumen und die Evolution der Genomgröße von Eukaryonten“, in Die Evolution der Genomgröße, T. Cavalier-Smith, Hrsg., S. 105–184, John Wiley & Sons, Chichester, UK, 1985. Ansicht bei: Google Scholar
  7. E. Birney, J. A. Stamatoyannopoulos, A. Dutta et al., „Identifikation und Analyse von funktionellen Elementen in 1% des menschlichen Genoms durch das ENCODE-Pilotprojekt“, Natur, Bd. 447, Nr. 7146, S. 799–816, 2007. Ansicht auf: Publisher-Site | Google Scholar
  8. A. Jacquier, „Das komplexe eukaryotische Transkriptom: unerwartete durchdringende Transkription und neuartige kleine RNAs“, Natur Bewertungen Genetik, Bd. 10, nein. 12, S. 833–844, 2009. View at: Publisher Site | Google Scholar
  9. Z. Wang, M. Gerstein und M. Snyder, „RNA-Seq: ein revolutionäres Werkzeug für die Transkriptomik“, Natur Bewertungen Genetik, Bd. 10, nein. 1, S. 57–63, 2009. View at: Publisher Site | Google Scholar
  10. R. W. Holley, „Alanine transfer RNA“, in Nobelvorlesungen für Molekularbiologie 1933–1975, S. 285–300, Elsevier North Holland, New York, NY, USA, 1977. Ansicht bei: Google Scholar
  11. A. M. Maxam und W. Gilbert, „Eine neue Methode zur Sequenzierung von DNA“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 74, Nr. 2, S. 560–564, 1977. Ansicht bei: Google Scholar
  12. F. Sanger, S. Nicklen und A. R. Coulson, „DNA-Sequenzierung mit kettenabbrechenden Inhibitoren“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 74, Nr. 12, S. 5463–5467, 1977. Ansicht bei: Google Scholar
  13. E. R. Mardis, „DNA-Sequenzierungsmethoden der nächsten Generation“, Jährliche Überprüfung der Genomik und Humangenetik, Bd. 9, S. 387–402, 2008. View at: Publisher Site | Google Scholar
  14. J. Shendure und H. Ji, „DNA-Sequenzierung der nächsten Generation“, Natur Biotechnologie, Bd. 26, nein. 10, S. 1135–1145, 2008. View at: Publisher Site | Google Scholar
  15. M. L. Metzker, „Sequenzierungstechnologien der nächsten Generation“, Natur Bewertungen Genetik, Bd. 11, nein. 1, S. 31–46, 2010. Ansicht auf: Verlagsseite | Google Scholar
  16. R. A. Irizarry, D. Warren, F. Spencer et al., „Multi-Labor-Vergleich von Microarray-Plattformen“, Naturmethoden, Bd. 2, nein. 5, S. 345–349, 2005. View at: Publisher Site | Google Scholar
  17. P. A. C. 't Hoen, Y. Ariyurek, H. H. Thygesen et al., „Deep sequencing-based expression analysis zeigt große Fortschritte in Robustheit, Auflösung und Inter-Labor-Portabilität über fünf Microarray-Plattformen.“ Nukleinsäureforschung, Bd. 36, nein. 21, Artikel e141, 2008. View at: Publisher Site | Google Scholar
  18. J. S. Bloom, Z. Khan, L. Kruglyak, M. Singh und A. A. Caudy, „Messung der differentiellen Genexpression durch Short-Read-Sequenzierung: quantitativer Vergleich mit 2-Kanal-Genexpressions-Mikroarrays“, BMC Genomics, Bd. 10, Artikel 221, 2009. View at: Publisher Site | Google Scholar
  19. M. Harbers und P. Carninci, „Tag-basierte Ansätze für die Transkriptomforschung und Genom-Annotation“, Naturmethoden, Bd. 2, nein. 7, S. 495–502, 2005. View at: Publisher Site | Google Scholar
  20. M. P. Horan, „Anwendung der seriellen Analyse der Genexpression auf das Studium menschlicher genetischer Erkrankungen“, Humangenetik, Bd. 126, Nr. 5, S. 605–614, 2009. Ansicht bei: Google Scholar
  21. H. Misu, T. Takamura, N. Matsuzawa et al., „Gene, die an der oxidativen Phosphorylierung beteiligt sind, werden in der Leber von Patienten mit Typ-2-Diabetes mit Nüchternhyperglykämie koordiniert hochreguliert.“ Diabetologie, Bd. 50, nein. 2, S. 268–277, 2007. View at: Publisher Site | Google Scholar
  22. T. Takamura, H. Misu, T. Yamashita und S. Kaneko, „SAGE-Anwendung in der Diabetesstudie“, Aktuelle Pharmazeutische Biotechnologie, Bd. 9, nein. 5, S. 392–399, 2008. View at: Publisher Site | Google Scholar
  23. D. V. Gnatenko, J. J. Dunn, S. R. McCorkle, D. Weissmann, P. L. Perrotta und W. F. Bahou, „Transcript Profiling of Human Platelets using Microarray and Serial Analysis of Genexpression“, Blut, Bd. 101, Nr. 6, S. 2285–2293, 2003. View at: Publisher Site | Google Scholar
  24. C. A. Sommer, E. C. Pavarino-Bertelli, E. M. Goloni-Bertollo und F. Henrique-Silva, „Identification of dysregulated genes in lymphocytes from children with Down Syndrome“, Genom, Bd. 51, Nr. 1, S. 19–29, 2008. Ansicht auf: Verlagsseite | Google Scholar
  25. W. Malagó Jr., C. A. Sommer, C. Del Cistia Andrade et al., „Gene Expression Profile of Human Down Syndrome Leukocytes“, Kroatische medizinische Zeitschrift, Bd. 46, Nr. 4, S. 647–656, 2005. Ansicht bei: Google Scholar
  26. B.T. Wilhelm und J.-R. Landry, „RNA-Seq-quantitative Messung der Expression durch massiv parallele RNA-Sequenzierung“, Methoden, Bd. 48, nein. 3, S. 249–257, 2009. View at: Publisher Site | Google Scholar
  27. M. N. Bainbridge, R. L. Warren, M. Hirst et al., „Analyse der Prostatakrebszelllinie LNCaP-Transkriptom mit einem Sequenzierungs-durch-Synthese-Ansatz“, BMC Genomics, Bd. 7, Artikel 246, 2006. View at: Publisher Site | Google Scholar
  28. U. Nagalakshmi, Z. Wang, K. Waern et al., „Die Transkriptionslandschaft des Hefegenoms definiert durch RNA-Sequenzierung“, Wissenschaft, Bd. 320, Nr. 5881, S. 1344–1349, 2008. View at: Publisher Site | Google Scholar
  29. T. T. Torres, M. Metta, B. Ottenwälder und C. Schlötterer, „Gene expression profiling by massally parallel sequencing“, Genomforschung, Bd. 18, nein. 1, S. 172–177, 2008. Ansicht auf: Publisher Site | Google Scholar
  30. N. Cloonan, A. R. R. Forrest, G. Kolle et al., „Stammzell-Transkriptom-Profiling über massive mRNA-Sequenzierung“, Naturmethoden, Bd. 5, nein. 7, S. 613–619, 2008. View at: Publisher Site | Google Scholar
  31. L. J. Core, J. J. Waterfall und J. T. Lis: „Nascent RNA Sequencing zeigt weit verbreitete Pausen und divergente Initiationen bei menschlichen Promotoren.“ Wissenschaft, Bd. 322, Nr. 5909, S. 1845–1848, 2008. Ansicht auf: Verlagsseite | Google Scholar
  32. S.-I. Hashimoto, W. Qu, B. Ahsan et al., „Hochauflösende Analyse des 5'-End-Transkriptoms mit einem DNA-Sequenzer der nächsten Generation“, Plus eins, Bd. 4, nein. 1, Artikel e4108, 2009. Ansicht auf: Verlagsseite | Google Scholar
  33. H. Li, M. T. Lovci, Y.-S. Kwon, M.G. Rosenfeld, X.-D. Fu und G. W. Yeo, „Bestimmung der Tag-Dichte, die für die digitale Transkriptomanalyse erforderlich ist: Anwendung auf ein androgensensitives Prostatakrebsmodell“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 105, Nr. 51, S. 20179–20184, 2008. Ansicht auf: Verlagsseite | Google Scholar
  34. J. C. Marioni, C. E. Mason, S. M. Mane, M. Stephens und Y. Gilad, „RNA-Seq: an Assessment of Technical Reproduibility and Vergleich mit Genexpressionsarrays“, Genomforschung, Bd. 18, nein. 9, S. 1509–1517, 2008. View at: Publisher Site | Google Scholar
  35. R. D. Morin, M. D. O'Connor, M. Griffith et al., „Anwendung der massiv parallelen Sequenzierung auf das microRNA-Profiling und die Entdeckung in menschlichen embryonalen Stammzellen“, Genomforschung, Bd. 18, nein. 4, S. 610–621, 2008. View at: Publisher Site | Google Scholar
  36. R. D. Morin, M. Bainbridge, A. Fejes et al., „Profiling the HeLa S3 Transcriptom using randomly primed cDNA and massally parallel short-read sequencing“, BioTechniken, Bd. 45, nein. 1, S. 81–94, 2008. Ansicht auf: Verlagsseite | Google Scholar
  37. A. Mortazavi, B. A. Williams, K. McCue, L. Schaeffer und B. Wold, „Mapping and Quantifying Säugetiertranskriptome durch RNA-Seq“, Naturmethoden, Bd. 5, nein. 7, S. 621–628, 2008. Ansicht auf: Verlagsseite | Google Scholar
  38. R. Rosenkranz, T. Borodina, H. Lehrach und H. Himmelbauer, „Characterizing the Maus ES-Zell-Transkriptom mit Illumina-Sequenzierung“, Genomik, Bd. 92, Nr. 4, S. 187–194, 2008. Ansicht auf: Verlagsseite | Google Scholar
  39. D. J. Sugarbaker, W. G. Richards, G. J. Gordon et al., „Transkriptom-Sequenzierung von malignen Pleuramesotheliom-Tumoren“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 105, Nr. 9, S. 3521–3526, 2008. View at: Publisher Site | Google Scholar
  40. M. Sultan, M. H. Schulz, H. Richard et al., „Eine globale Ansicht der Genaktivität und des alternativen Spleißens durch tiefe Sequenzierung des menschlichen Transkriptoms“, Wissenschaft, Bd.321, nein. 5891, S. 956–960, 2008. View at: Publisher Site | Google Scholar
  41. Y. W. Asmann, E. W. Klee, E. A. Thompson et al., " 3 ' tag digital gene expression profiling of human brain and universal reference RNA using Illumina Genome Analyzer", BMC Genomics, Bd. 10, Artikel 531, 2009. Ansicht bei: Google Scholar
  42. I. Chepelev, G. Wei, Q. Tang und K. Zhao, „Nachweis einzelner Nukleotidvariationen in exprimierten Exons des menschlichen Genoms mit RNA-Seq“, Nukleinsäureforschung, Bd. 37, nein. 16, Artikel e106, 2009. Ansicht auf: Verlagsseite | Google Scholar
  43. J. Z. Levin, M. F. Berger, X. Adiconis et al., „Gezielte Sequenzierung der nächsten Generation eines Krebstranskriptoms verbessert die Erkennung von Sequenzvarianten und neuartigen Fusionstranskripten.“ Genombiologie, Bd. 10, nein. 10, Artikel R115, 2009. Ansicht auf: Verlagsseite | Google Scholar
  44. C. A. Maher, N. Palanisamy, J. C. Brenner et al., „Chimäre Transkriptentdeckung durch Paired-End-Transkriptom-Sequenzierung“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 106, Nr. 30, S. 12353–12358, 2009. View at: Publisher Site | Google Scholar
  45. D. Parkhomchuk, T. Borodina, V. Amstislavskiy et al., „Transkriptomanalyse durch strangspezifische Sequenzierung komplementärer DNA“, Nukleinsäureforschung, Bd. 37, nein. 18, Artikel e123, 2009. View at: Publisher Site | Google Scholar
  46. T. E. Reddy, F. Pauli, R. O. Sprouse et al., „Genomische Bestimmung der Glukokortikoid-Antwort offenbart unerwartete Mechanismen der Genregulation“ Genomforschung, Bd. 19, nein. 12, S. 2163–2171, 2009. Ansicht auf: Verlagsseite | Google Scholar
  47. F. Tang, C. Barbacioru, Y. Wang et al., „mRNA-Seq-Gesamt-Transkriptom-Analyse einer einzelnen Zelle“, Naturmethoden, Bd. 6, nein. 5, S. 377–382, 2009. View at: Publisher Site | Google Scholar
  48. R. Blekhman, J. C. Marioni, P. Zumbo, M. Stephens und Y. Gilad, „Geschlechts- und Abstammungsspezifisches alternatives Spleißen bei Primaten“, Genomforschung, Bd. 20, nein. 2, S. 180–189, 2010. Ansicht auf: Publisher Site | Google Scholar
  49. G. A. Heap, J. H. M. Yang, K. Downes et al., „Genomweite Analyse des allelischen Expressionsungleichgewichts in menschlichen Primärzellen durch Hochdurchsatz-Transkriptom-Resequenzierung“, Humane molekulare Genetik, Bd. 19, nein. 1, S. 122–134, 2010. Ansicht auf: Verlagsseite | Google Scholar
  50. D. Raha, Z. Wang, Z. Moqtaderi et al., „Enge Assoziation von RNA-Polymerase II und vielen Transkriptionsfaktoren mit Pol III-Genen“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 107, Nr. 8, S. 3639–3644, 2010. View at: Publisher Site | Google Scholar
  51. S. Marguerat und J. Bahler, „RNA-Seq: Von der Technologie zur Biologie“, Zelluläre und molekulare Biowissenschaften, Bd. 67, Nr. 4, S. 569–579, 2010. Ansicht auf: Website des Herausgebers | Google Scholar
  52. Y. He, B. Vogelstein, V. E. Velculescu, N. Papadopoulos und K. W. Kinzler, „Die Antisense-Transkriptome menschlicher Zellen“, Wissenschaft, Bd. 322, Nr. 5909, S. 1855–1857, 2008. Ansicht auf: Verlagsseite | Google Scholar
  53. R. Lister, R. C. O'Malley, J. Tonti-Filippini et al., „Hochintegrierte Einzelbasenauflösungskarten des Epigenoms in Arabidopsis“, Zelle, Bd. 133, Nr. 3, S. 523–536, 2008. View at: Publisher Site | Google Scholar
  54. B. T. Wilhelm, S. Marguerat, I. Goodhead und J. Bahler, „Defining transcribed regions using RNA-Seq“, Naturprotokolle, Bd. 5, nein. 2, S. 255–266, 2010. Ansicht auf: Publisher-Site | Google Scholar
  55. N. T. Ingolia, S. Ghaemmaghami, J. R. S. Newman und J. S. Weissman, „Genomweite Analyse in vivo der Translation mit Nukleotidauflösung unter Verwendung von Ribosomen-Profiling“, Wissenschaft, Bd. 324, Nr. 5924, S. 218–223, 2009. View at: Publisher Site | Google Scholar
  56. T. D. Harris, P. R. Buzby, H. Babcock et al., „Einzelmolekül-DNA-Sequenzierung eines viralen Genoms“, Wissenschaft, Bd. 320, Nr. 5872, S. 106–109, 2008. View at: Publisher Site | Google Scholar
  57. J. C. Dohm, C. Lottaz, T. Borodina und H. Himmelbauer, „Substantial biases in ultra-short read datasets from high throughput DNA sequencing“, Nukleinsäureforschung, Bd. 36, nein. 16, Artikel e105, 2008. View at: Publisher Site | Google Scholar
  58. O. Harismendy, P. C. Ng, R. L. Strausberg et al., „Evaluation of Next Generation Sequencing Platforms for population Targeted Sequencing Studies“, Genombiologie, Bd. 10, nein. 3, Artikel R32, 2009. View at: Publisher Site | Google Scholar
  59. L. W. Hillier, G. T. Marth, A. R. Quinlan et al., „Whole-genome sequencing and Variant Discovery in C. elegans,” Naturmethoden, Bd. 5, nein. 2, S. 183–188, 2008. View at: Publisher Site | Google Scholar
  60. J. D. McPherson, „Kluft der nächsten Generation“, Naturmethoden, Bd. 6, nein. 11S, S. S2–S5, 2009. Ansicht bei: Google Scholar
  61. D. R. Zerbino und E. Birney, „Velvet: algorithms for de novo short readassembly using de Bruijn graphs“, Genomforschung, Bd. 18, nein. 5, S. 821–829, 2008. Ansicht auf: Website des Herausgebers | Google Scholar
  62. I. Birol, S. D. Jackman, C. B. Nielsen et al., „De-novo-Transkriptom-Assemblierung mit ABySS“, Bioinformatik, Bd. 25, nein. 21, S. 2872–2877, 2009. View at: Publisher Site | Google Scholar
  63. F. Denoeud, J.-M. Aury, C. Da Silva et al., „Annotating Genome with Massive-scale RNA Sequencing“, Genombiologie, Bd. 9, nein. 12, Artikel R175, 2008. View at: Publisher Site | Google Scholar
  64. M. Yassoura, T. Kaplana, H. B. Fraser et al., „Ab-initio-Konstruktion eines eukaryotischen Transkriptoms durch massiv parallele mRNA-Sequenzierung“, Proceedings of the National Academy of Sciences of the United States of America, Bd. 106, Nr. 9, S. 3264–3269, 2009. View at: Publisher Site | Google Scholar
  65. C. Trapnell und S. L. Salzberg, „Wie man Milliarden von kurzen Lesevorgängen auf Genome abbildet“ Natur Biotechnologie, Bd. 27, nein. 5, S. 455–457, 2009. View at: Publisher Site | Google Scholar
  66. P. Flicek und E. Birney, „Sense from Sequence Reads: Methods for Alignment and Assembly“, Naturmethoden, Bd. 6, Beilage 11, S. S6–S12, 2009. Ansicht bei: Google Scholar
  67. D. S. Horner, G. Pavesi, T. Castrignanò et al., „Bioinformatics-Ansätze für Genomik und Post-Genomik-Anwendungen der Sequenzierung der nächsten Generation“, Briefings in Bioinformatik, Bd. 11, nein. 2, S. 181–197, 2009. Ansicht auf: Verlagsseite | Google Scholar
  68. A. Cox, „ELAND: effiziente lokale Ausrichtung von Nukleotiddaten“, unveröffentlicht, http://bioit.dbi.udel.edu/howto/eland. Ansehen bei: Google Scholar
  69. „Applied Biosystems Mappread- und Whole-Transkriptom-Softwaretools“, http://www.solidsoftwaretools.com/. Ansehen bei: Google Scholar
  70. H. Li, J. Ruan und R. Durbin, „Mapping kurzer DNA-Sequenzierungs-Reads und Aufrufen von Varianten mithilfe von Mapping-Qualitätswerten“, Genomforschung, Bd. 18, nein. 11, S. 1851–1858, 2008. View at: Publisher Site | Google Scholar
  71. A. D. Smith, Z. Xuan und M. Q. Zhang: „Die Verwendung von Qualitätswerten und längeren Lesevorgängen verbessert die Genauigkeit der Solexa-Lesezuordnung.“ BMC Bioinformatik, Bd. 9, Artikel 128, 2008. View at: Publisher Site | Google Scholar
  72. R. Li, Y. Li, K. Kristiansen und J. Wang, „SOAP: kurzes Oligonukleotid-Alignment-Programm“, Bioinformatik, Bd. 24, nein. 5, S. 713–714, 2008. View at: Publisher Site | Google Scholar
  73. R. Li, C. Yu, Y. Li et al., „SOAP2: ein verbessertes ultraschnelles Werkzeug für die Ausrichtung von kurzen Lesevorgängen“, Bioinformatik, Bd. 25, nein. 15, S. 1966–1967, 2009. Ansicht unter: Verlagsseite | Google Scholar
  74. B. D. Ondov, A. Varadarajan, K. D. Passalacqua und N. H. Bergman, „Efficient mapping of Applied Biosystems SOLiD sequence data to a reference Genome for Functional Genomic Applications“, Bioinformatik, Bd. 24, nein. 23, S. 2776–2777, 2008. View at: Publisher Site | Google Scholar
  75. H. Jiang und W. H. Wong, „SeqMap: Mapping massiver Mengen von Oligonukleotiden auf das Genom“, Bioinformatik, Bd. 24, nein. 20, S. 2395–2396, 2008. View at: Publisher Site | Google Scholar
  76. H. Lin, Z. Zhang, M. Q. Zhang, B. Ma und M. Li: „ZOOM! Zillionen von Oligos kartiert“ Bioinformatik, Bd. 24, nein. 21, S. 2431–2437, 2008. View at: Publisher Site | Google Scholar
  77. B. Langmead, C. Trapnell, M. Pop und S. L. Salzberg, „Ultraschnelles und speichereffizientes Alignment kurzer DNA-Sequenzen zum menschlichen Genom“, Genombiologie, Bd. 10, nein. 3, Artikel R25, 2009. View at: Publisher Site | Google Scholar
  78. D. Campagna, A. Albiero, A. Bilardi et al., „PASS: a program to align Short Sequences“, Bioinformatik, Bd. 25, nein. 7, S. 967–968, 2009. View at: Publisher Site | Google Scholar
  79. N. Cloonan, Q. Xu, G. J. Faulkner et al., „RNA-MATE: eine rekursive Kartierungsstrategie für Hochdurchsatz-RNA-Sequenzierungsdaten“, Bioinformatik, Bd. 25, nein. 19, S. 2615–2616, 2009. View at: Publisher Site | Google Scholar
  80. F. De Bona, S. Ossowski, K. Schneeberger und G. Rätsch, „Optimal Spliced ​​Alignments of Short Sequence Reads“, Bioinformatik, Bd. 24, nein. 16, S. i174–i180, 2008. View at: Publisher Site | Google Scholar
  81. C. Trapnell, L. Pachter und S. L. Salzberg, „TopHat: Entdeckung von Spleißverbindungen mit RNA-Seq“, Bioinformatik, Bd. 25, nein. 9, S. 1105–1111, 2009. Ansicht auf: Verlagsseite | Google Scholar
  82. G. J. Faulkner, A. R. R. Forrest, A. M. Chalk et al., „Eine Rettungsstrategie für die Multimapping-Kurzsequenz-Tags verfeinert die Erhebungen der Transkriptionsaktivität durch CAGE.“ Genomik, Bd. 91, Nr. 3, S. 281–288, 2008. View at: Publisher Site | Google Scholar
  83. T. Hashimoto, M. J. L. de Hoon, S. M. Grimmond, C. O. Daub, Y. Hayashizaki und G. J. Faulkner, „Probabilistic Resolution of Multi-Mapping Reads in massiv parallel sequencing data using MuMRescueLite“, Bioinformatik, Bd. 25, nein. 19, S. 2613–2614, 2009. View at: Publisher Site | Google Scholar
  84. B. Li, V. Ruotti, R. M. Stewart, J. A. Thomson und C. N. Dewey, „RNA-Seq Genexpression Estimate with Read Mapping Unsicherheit“, Bioinformatik, Bd. 26, nein. 4, S. 493–500, 2009. View at: Publisher Site | Google Scholar
  85. W. J. Kent, C. W. Sugnet, T. S. Furey et al., „The human Genome browser at UCSC“, Genomforschung, Bd. 12, nein. 6, S. 996–1006, 2002. View at: Publisher Site | Google Scholar
  86. W. Huang und G. Marth, „EagleView: a Genome Assembly Viewer für Sequenzierungstechnologien der nächsten Generation“, Genomforschung, Bd. 18, nein. 9, S. 1538–1543, 2008. View at: Publisher Site | Google Scholar
  87. H. Bao, H. Guo, J. Wang, R. Zhou, X. Lu und S. Shi, „MapView: Visualisierung der Ausrichtung von kurzen Lesevorgängen auf einem Desktop-Computer“, Bioinformatik, Bd. 25, nein. 12, S. 1554–1555, 2009. View at: Publisher Site | Google Scholar
  88. I. Milne, M. Bayer, L. Cardle et al., „Visualisierung der Sequenzmontage der Tablette der nächsten Generation“, Bioinformatik, Bd. 26, nein. 3, S. 401–402, 2010. Ansicht auf: Verlagsseite | Google Scholar
  89. H. Li, B. Handsaker, A. Wysoker et al., „Das Sequenz-Alignment/Map-Format und SAMtools“, Bioinformatik, Bd. 25, nein. 16, S. 2078–2079, 2009. View at: Publisher Site | Google Scholar
  90. H. Jiang und W. H. Wong, „Statistische Schlussfolgerungen für die Isoform-Expression in RNA-Seq“, Bioinformatik, Bd. 25, nein. 8, S. 1026–1032, 2009. View at: Publisher Site | Google Scholar
  91. S. Pepke, B. Wold und A. Mortazavi, „Berechnung für ChIP-Seq- und RNA-Seq-Studien“, Naturmethoden, Bd. 6, nein. 11S, S. S22–S32, 2009. Ansicht bei: Google Scholar
  92. A. Oshlack und M. J. Wakefield, „Transcript Length Bias in RNA-Seq data confounds systembiology“, Biologie Direkt, Bd. 4, Artikel 14, 2009. View at: Publisher Site | Google Scholar
  93. J. H. Bullard, E. A. Purdom, K. D. Hansen, S. Durinck und S. Dudoit, „Statistische Inferenz in mRNA-Seq: explorative Datenanalyse und differentielle Expression“, Tech. Rep. 247/2009, University of California, Berkeley, 2009. Ansicht bei: Google Scholar
  94. B. T. Wilhelm, S. Marguerat, S. Watt et al., „Dynamisches Repertoire eines eukaryotischen Transkriptoms, das bei Einzelnukleotidauflösung untersucht wurde“, Natur, Bd. 453, Nr. 7199, S. 1239–1243, 2008. Ansicht auf: Verlagsseite | Google Scholar
  95. Q. Pan, O. Shai, L. J. Lee, B. J. Frey und B. J. Blencowe, „Deep Surveying of Alternative Splicing Complex in the human Transcriptom by high throughput sequencing“, Naturgenetik, Bd. 40, nein. 12, S. 1413–1415, 2008. View at: Publisher Site | Google Scholar
  96. E. T. Wang, R. Sandberg, S. Luo et al., „Alternative Isoformregulation in humanen Gewebetranskriptomen“, Natur, Bd. 456, Nr. 7221, S. 470–476, 2008. View at: Publisher Site | Google Scholar
  97. L. Wang, Y. Xi, J. Yu, L. Dong, L. Yen und W. Li, „Eine statistische Methode zum Nachweis von alternativem Spleißen mit RNA-Seq“, Plus eins, Bd. 5, nein. 1, Artikel e8529, 2010. Ansicht auf: Verlagsseite | Google Scholar
  98. D. Hiller, H. Jiang, W. Xu und W. H. Wong, „Identifizierbarkeit der Isoform-Dekonvolution von Junction-Arrays und RNA-Seq“, Bioinformatik, Bd. 25, nein. 23, S. 3056–3059, 2009. View at: Publisher Site | Google Scholar
  99. H. Richard, M. H. Schulz, M. Sultan et al., „Vorhersage alternativer Isoformen aus Exon-Expressionsniveaus in RNA-Seq-Experimenten“, Nukleinsäureforschung, Bd. 38, Nr. 10, s. e112, 2010. Ansicht auf: Website des Herausgebers | Google Scholar
  100. G. K. Smyth, „Lineare Modelle und empirische Bayes-Methoden zur Bewertung der differentiellen Expression in Mikroarray-Experimenten“, Statistische Anwendungen in Genetik und Molekularbiologie, Bd. 3, nein. 1, Artikel 3, 2004. Ansicht bei: Google Scholar
  101. S. Audic und J.-M. Claverie, „Die Bedeutung digitaler Genexpressionsprofile“, Genomforschung, Bd. 7, nein. 10, S. 986–995, 1997. Ansicht bei: Google Scholar
  102. M. D. Robinson, D. J. McCarthy und G. K. Smyth, „edgeR: a bioconductor package for different expression analysis of digital gene expression data“, Bioinformatik, Bd. 26, nein. 1, S. 139–140, 2010. Ansicht auf: Publisher Site | Google Scholar
  103. L. Wang, Z. Feng, X. Wang, X. Wang und X. Zhang, „DEGseq: ein R-Paket zur Identifizierung unterschiedlich exprimierter Gene aus RNA-Seq-Daten“, Bioinformatik, Bd. 26, nein. 1, S. 136–138, 2009. View at: Publisher Site | Google Scholar
  104. S. Zheng und L. Chen, „Ein hierarchisches Bayes-Modell zum Vergleich von Transkriptomen auf der Ebene der einzelnen Transkript-Isoformen“, Nukleinsäureforschung, Bd. 37, nein. 10, Artikel e75, 2009. View at: Publisher Site | Google Scholar
  105. F. S. Collins, E. S. Lander, J. Rogers und R. H. Waterson, „Die euchromatische Sequenz des menschlichen Genoms beenden“, Natur, Bd. 431, Nr. 7011, S. 931–945, 2004. Ansicht auf: Verlagsseite | Google Scholar
  106. International Human Genome Sequencing Consortium, „Eine Haplotypkarte des menschlichen Genoms“, Natur, Bd. 437, Nr. 7063, S. 1299–1320, 2005. Ansicht bei: Google Scholar
  107. E. R. Mardis, „Das 1.000-Dollar-Genom vorwegnehmen“ Genombiologie, Bd. 7, nein. 7, Artikel 112, 2006. Ansicht bei: Google Scholar
  108. V. Costa, A. Casamassimi und A. Ciccodicola, „Ära der Ernährungsgenomik: Möglichkeiten für ein auf das Genom zugeschnittenes Ernährungsschema“, Das Journal für Ernährungsbiochemie, Bd. 21, nein. 6, S. 457–467, 2010. Ansicht auf: Website des Herausgebers | Google Scholar

Urheberrechte ©

Copyright © 2010 Valerio Costa et al. Dies ist ein Open-Access-Artikel, der unter der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium erlaubt, vorausgesetzt, das Originalwerk wird ordnungsgemäß zitiert.


Sequenzierung an der Primerstelle ungenau - Biologie

Eine Geschichte der Genomsequenzierung:

Die Sequenzierung des menschlichen Genoms zusammen mit verwandten Organismen stellt eines der größten wissenschaftlichen Unterfangen in der Geschichte der Menschheit dar. Die aus der Sequenzierung gewonnenen Informationen werden die Rohdaten für das explodierende Gebiet der Bioinformatik liefern, in dem Informatik und Biologie in symbiotischer Harmonie leben. Die vom Human Genome Project im Jahr 1990 vorgeschlagene groß angelegte Sequenzierung wäre ohne moderne Computereinrichtungen niemals möglich gewesen.Nur vor zwanzig Jahren wären Computer angesichts einer so gewaltigen Datenmenge machtlos gewesen. Homologe Identifizierung und Genomcharakterisierung zwischen Organismen, die Millionen von Nukleotiden bilden, war bis zur rasanten Weiterentwicklung von Mikrochips und Prozessoren in den letzten zwei Jahrzehnten unvorstellbar. Darüber hinaus wäre das erste sequenzierte Genom eines lebenden Organismus, Haemophilus influenzae, ohne die an den Einrichtungen des Instituts für Genforschung (TIGR) entwickelten Computermethoden unmöglich gewesen. Dies ist zwar technisch kein Aspekt der Bioinformatik, aber diese Entwicklung wäre mit den Computern von gestern unmöglich gewesen. Die kurze Geschichte der Genomsequenzierung begann mit Frederic Sangers Erfindung der Sequenzierung vor fast 25 Jahren.

Die Kunst, die DNA-Sequenz zu bestimmen, ist nach ihrem brillanten Pionier als Sanger-Sequenzierung bekannt. Bei dieser Technik werden fluoreszenzmarkierte DNA-Fragmente entsprechend ihrer Länge auf einem Polyacrylimid-Gel (PAGE) getrennt. Die Base am Ende jedes Fragments kann dann sichtbar gemacht und durch den Farbstoff identifiziert werden, mit dem es reagiert. Die zeit- und arbeitsintensive Natur der Gelvorbereitung und -durchführung sowie die erforderlichen großen Probenmengen erhöhen den Zeit- und Kostenaufwand für die Genomsequenzierung. Diese Bedingungen reduzieren die Effizienz von Sequenzierungsprojekten drastisch und schränken die Forscher letztendlich in ihren Sequenzierungsversuchen ein.

Bakteriophage fX174 war das erste Genom, das sequenziert wurde, ein virales Genom mit nur 5.368 Basenpaaren (bp). Frederic Sanger erfand in einer weiteren revolutionären Entdeckung die Methode der "Shotgun"-Sequenzierung, eine Strategie, die auf der Isolierung zufälliger DNA-Stücke aus dem Wirtsgenom basiert, die als Primer für die PCR-Amplifikation des gesamten Genoms verwendet werden. Die amplifizierten DNA-Anteile werden dann durch ihre überlappenden Regionen zusammengesetzt, um zusammenhängende Transkripte (auch als Contigs bekannt) zu bilden. Der letzte Schritt beinhaltete die Verwendung von benutzerdefinierten Primern, um die Lücken zwischen den Contigs aufzuklären und so das vollständig sequenzierte Genom zu erhalten. Sanger verwendete erstmals fünf Jahre später die "Shotgun"-Sequenzierung, um die Bakteriophage 1-Sequenz zu vervollständigen, die mit 48 502 bp signifikant größer war. Diese Methode ermöglichte es, Sequenzierungsprojekte viel schneller voranzutreiben, wodurch der Umfang realistischer Sequenzierungsvorhaben erweitert wurde. Seitdem wurden einige andere virale und organellare Genome mit ähnlichen Techniken sequenziert, wie das 229-kb-Genom des Cytomegalovirus (CMV), das 192-kb-Genom von Vaccinia und das 187-kb-Mitochondrien- und das 121-kb-Chloroplasten-Genom von Marchantia polymorpha. und das 186 kb Genom der Pocken.

Der Erfolg bei der viralen Genomsequenzierung beruhte auf der relativ geringen Länge ihres genetischen Codes. 1989 gründete Andre Goffeau ein europäisches Konsortium zur Sequenzierung des Genoms der Keimhefe Saccharomyces cerevisiae (12,5 Mb). An der europäischen Zusammenarbeit von Goffeau waren 74 verschiedene Labors beteiligt, die in das Projekt einbezogen wurden, in der Hoffnung, die Homologen ihrer Lieblingsgene zu sequenzieren. Die meisten Laboratorien verwendeten Sangers "Shotgun"-Sequenzierungsmethode, die zum anerkannten Standard für die Genomsequenzierung geworden war. S. Cerevisiae hatte eine Sequenz, die ungefähr 60-mal größer war als alle zuvor versuchten Sequenzen, was darauf hindeutet, warum Goffeau sich gezwungen sah, eine Gruppe von Laboratorien zur Zusammenarbeit einzuladen. Die Sequenzierung von Modellorganismen wie S. Cerevisiae schien damals der logische Schritt zur späteren Charakterisierung des menschlichen Genoms zu sein, eine Aufgabe, die aufgrund seiner gewaltigen Größe von 3.000 Mb den Rahmen der Technik sprengte. Die Sequenzierung kleinerer Genome würde die Probleme mit Sequenzierungstechniken aufzeigen, die schließlich die Technologie verfeinern würden, die in Großprojekten wie H. Sapiens verwendet werden soll. Darüber hinaus würden durch die Aufklärung ihrer genetischen Ausstattung wertvolle Erkenntnisse über diese Organismen gewonnen.

Im folgenden Jahr wurde eine Vielzahl ehrgeiziger Sequenzierungsvorschläge in die Wege geleitet, von denen 1990 das Human Genome Project eingeführt wurde. Das US Human Genome Project (HGP) ist eine gemeinsame Anstrengung des Energieministeriums und des National Institute of Health, die wurde als dreistufiges Programm konzipiert, um genetische Karten, physikalische Karten und schließlich die vollständige Nukleotidsequenzkarte der menschlichen Chromosomen zu erstellen. Die ersten beiden Ziele des Projekts sind praktisch erfüllt und nun konzentriert sich der Großteil der Arbeiten auf die genaue Nukleotidsequenz des Menschen. Im Zuge dieser Verlautbarung begannen drei Projekte zur Aufklärung der Sequenzen kleinerer Modellorganismen, die S. Cerevisiae in ihrem wissenschaftlichen Nutzen ähnlich sind, wie beispielsweise Escherichia. coli, Mycoplasma capricolum und Caenorhabditis. elegans. Man hoffte, dass diese Projekte die Effizienz der Sequenzierung erhöhen würden, aber leider verfehlten sie diese Aufgabe. Viele erwarteten, dass E. coli das erste vollständig sequenzierte Genom sein würde, aber zum Schock der wissenschaftlichen Gemeinschaft gewann ein Außenstehender das Rennen um die erste vollständige Genomsequenz eines freien lebenden Organismus, Haemophilus influenzae.

Ein Team unter der Leitung von J. Craig Venter vom Institute for Genomic Research (TIGR) und dem Nobelpreisträger Hamilton Smith von der Johns Hopkins University sequenzierte das 1,8-Mb-Bakterium mit neuen Computermethoden, die in der TIGR-Anlage in Gaithersburg, Maryland, entwickelt wurden. Frühere Sequenzierungsprojekte waren durch das Fehlen angemessener Rechenansätze zum Zusammensetzen der großen Menge an Zufallssequenzen eingeschränkt, die durch "Shotgun"-Sequenzierung erzeugt wurden. Bei der konventionellen Sequenzierung wird das Genom mühsam in geordnete, überlappende Segmente zerlegt, die jeweils bis zu 40 Kb DNA enthalten. Diese Segmente werden in kleinere Stücke "geschossen" und dann sequenziert, um das Genom zu rekonstruieren. Venters Team verwendete einen umfassenderen Ansatz, indem es das gesamte 1,8 Mb H. Influenzae-Genom "shotgunning" machte. Früher wäre ein solcher Ansatz gescheitert, weil die Software nicht existierte, um eine so große Menge an Informationen genau zusammenzustellen. Eine von TIGR entwickelte Software namens TIGR Assembler war dieser Aufgabe gewachsen und fügte die etwa 24.000 DNA-Fragmente wieder zum gesamten Genom zusammen. Nachdem das H. Influenzae-Genom "shotgunned" und die Klone ausreichend gereinigt worden waren, benötigte die TIGR-Assembler-Software etwa 30 Stunden CPU-Zeit auf einem SPARCenter 2000 mit einem halben Gigabyte RAM, was von der enormen Komplexität der Berechnung zeugt.

Venters H. Influenzae-Projekt hatte keine Finanzierung durch das National Institute of Health erhalten, was auf die ernsthaften Zweifel an seinem ehrgeizigen Vorschlag hindeutet. Es wurde einfach nicht geglaubt, dass ein solcher Ansatz die große 1,8-Mb-Sequenz des Bakteriums genau sequenzieren könnte. Venter bewies, dass alle falsch waren und gelang es, das Genom in 13 Monaten zu einem Preis von 50 Cent pro Base zu sequenzieren, was halb so viel kostete und drastisch schneller war als die konventionelle Sequenzierung. Diese neue Methode der Sequenzierung führte in den folgenden Jahren durch TIGR zu einer Vielzahl fertiggestellter Sequenzen. Mycoplasma Genitalium , ein Bakterium, das mit Infektionen des Fortpflanzungstrakts in Verbindung gebracht wird und dafür bekannt ist, das kürzeste Genom aller frei lebenden Organismen zu haben, wurde von TIGR in einem Zeitraum von acht Monaten zwischen Januar und August 1995 sequenziert – ein außergewöhnliches Beispiel für die Effizienz von Die neue Sequenzierungsmethode von TIGR. TIGR veröffentlichte daraufhin die erste Genomsequenz eines Vertreters der Archaea, Methanococcus jannaschii, die erste Genomsequenz eines Schwefel-metabolisierenden Organismus, Archaeoglobus fulgidus, die Genomsequenz des Erregers der Ulkuskrankheit Helicobacter pylori und die Genomsequenz der Lyme-Borreliose-Spirochaete, Borrelia burgdorferi .

Die dramatische Führungsrolle von TIGR auf dem Gebiet der Genomsequenzierung ging einher mit der endgültigen Fertigstellung von zwei der größten Genomsequenzen, dem Bakterium E. Coli K-12 und der Hefe S. Cerevisiae im Jahr 1997. Diese Projekte waren der Höhepunkt von über sieben Jahre intensiver Arbeit. Das Hefegenom war das Endergebnis einer enormen internationalen Zusammenarbeit von mehr als 600 Wissenschaftlern aus über 100 Labors, die das größte dezentralisierte Experiment in der modernen Molekularbiologie darstellen. Die letzte Arbeit repräsentierte die Bemühungen von Wissenschaftlern aus Japan, Europa, Kanada und den Vereinigten Staaten, die größte jemals erstellte Sequenz in voller Länge (12 Mb) zu produzieren. In einer unglaublichen Demonstration organisatorischer Beherrschung wurden nur 3,4% des gesamten Sequenzierungsaufwands auf die Labore dupliziert. Die E. coli-Sequenz war erheblich kleiner (4,6 Mb), aber ebenso wichtig im Hinblick auf den experimentellen Nutzen. E. Coli ist das bevorzugte Modell in der biochemischen Genetik, Molekularbiologie und Biotechnologie, und seine genomische Charakterisierung wird zweifellos die Forschung zu einem umfassenderen Verständnis dieses wichtigen experimentellen, medizinischen und industriellen Organismus fördern.

Am Ende des Jahres 1997 haben wir die Hälfte der Zeit, die für den Abschluss des Humangenomprojekts vorgesehen ist, das voraussichtlich am 30. September 2005 endet, ungefähr fünfzig Jahre nach der bahnbrechenden Arbeit von Watson und Crick. Gegenwärtig haben große Gruppen ungefähr 50 Mb menschlicher DNA sequenziert, die weniger als 1,5% des 3.000 Mb Genoms darstellen. Die geschätzte Fertigstellung des menschlichen Genoms bis zum Jahr 2.000 erscheint recht optimistisch, wenn man bedenkt, dass die weltweite Sequenzierungskapazität im großen Maßstab etwa 100 Mb pro Jahr beträgt. Um das Genom zu vervollständigen, muss die durchschnittliche Produktion auf 400 Mb pro Jahr steigen. Mehrere Faktoren, darunter die langsame Sanger-Sequenzierung und das hohe Genauigkeitsziel des HGP, das einen Fehler von 10.000 Basen zulässt, schränken die Fähigkeit der Forscher ein, schneller vorzugehen. Weiterentwicklungen in der Sanger-Sequenzierung oder möglicher Ersatz für diesen zeitintensiven Prozess werden notwendig sein, um das Ziel des HGP bis zum Jahr 2005 abzuschließen.

Bis September 1997 waren dreizehn Genomsequenzen frei lebender Organismen fertiggestellt, darunter die beiden größten, E. Coli und Hefe, sowie elf weitere mikrobielle Genome mit einer Länge von 4,2 Mb. Vier weitere Großprojekte sind im Gange, darunter die Sequenzierung der Nematode C. Elegans, die zu 71 % abgeschlossen ist, der Fruchtfliege Drosophola Melanogaster, die zu 6 % abgeschlossen ist, der Maus, die zu weniger als 1 % abgeschlossen ist, und der Mensch, der nur 1,5% abgeschlossen ist. Diese Statistik ist beeindruckend, wenn man bedenkt, dass es noch vor vier Jahren noch keine abgeschlossenen Sequenzen gab.

Die schnelle Verbreitung biologischer Informationen in Form von Genomsequenzen war der Hauptfaktor bei der Schaffung des Gebiets der Bioinformatik, das sich auf die Erfassung, Speicherung, den Zugriff, die Analyse, die Modellierung und die Verteilung der vielen Arten von Informationen konzentriert, die in DNA-Sequenzen. Dieses Gebiet wird durch die steigenden Anforderungen an mehr Informationen über die derzeit zur Sequenzmanipulation verwendeten Algorithmen herausgefordert. Das wachsende Sequenzwissen des menschlichen Genoms wird mit der Etablierung des Periodensystems im 19. Jahrhundert verglichen. So wie frühere Chemiker alle Elemente systematisch in einem Array organisierten, das ihre Unterschiede und Ähnlichkeiten erfasste, wird das Human Genome Project es modernen Wissenschaftlern ermöglichen, ein biologisches Periodensystem zu konstruieren, das Nukleotideinheiten in Beziehung setzt. Das Periodensystem wird keine 100 Elemente enthalten, sondern 100.000 Gene, die nicht ihre Ähnlichkeit in der elektronischen Konfiguration widerspiegeln, sondern ihre evolutionäre und funktionelle Beziehung. Die Bioinformatik wird das Werkzeug des modernen Wissenschaftlers bei der Interpretation dieses Periodensystems der biologischen Informationen sein.

Für Kommentare zum Papier senden Sie eine E-Mail an den Autor: Edmund Pillsbury.
Coole Genomsequenzierungs-Sites

Um die Pioniere der Genomsequenzierung zu sehen, besuchen Sie The Institute for Genomic Research
und ihre private Tochtergesellschaft Human Genome Sciences. Sequenzen für Haemophilus influenzae, Mycoplasma Genitalium, Methanococcus jannaschii, Archaeoglobus fulgidus, Helicobacter pylori und Borrelia burgdorferi finden Sie zusammen mit Links zu ihren Artikeln auf der TIGR-Site.

Nicht-kommerzielle Sequenzierungsprojekte mit einer Produktionskapazität von mehr als 1 MB (aufgelistet vom größten zum kleinsten):

Datenbanken für Regierungssequenzen:

1) Das National Center for Biotechnology Information (NCBI) --- Dies ist eine großartige Ressource. . . enthält GenBank, das bundesstaatliche Sequenz-Repository, in dem jeder Sequenzen einreicht.
2) Genome Sequence Database (GSDB) am National Center for Genome Resources (Sante Fe, New Mexico).
3) Die Genomdatenbank (GDB) --- weltweites Repository für Kartierungsinformationen.

Sequenzierungsprojekte in Bearbeitung:

Liste zusammengestellt von Edmund Pillsbury, bei Problemen oder Fragen bitte per E-Mail.


Diese Arbeit wurde durch das universitäre Forschungsschwerpunktprogramm (UFSP) unterstützt. Evolution in Aktion der Universität Zürich. Diese Arbeit nutzte die Infrastruktur von S3IT (www.s3it.uzh.ch), dem Team Service and Support for Science IT der Universität Zürich.

Mitgliedschaften

Institut für Molekulare Lebenswissenschaften, Universität Zürich, Winterthurerstrasse 190, Zürich, 8057, Schweiz

Stephan Schmeing & Mark D. Robinson

SIB Schweizerisches Institut für Bioinformatik, Winterthurerstrasse 190, Zürich, 8057, Schweiz


Schau das Video: DNA-DNA-Hybridisierung vs. DNA-Sequenzierung - Das Duell (Dezember 2022).