Information

Was sind die Einschränkungen der aktuellen Nukleotidsequenzierungstechnologien?

Was sind die Einschränkungen der aktuellen Nukleotidsequenzierungstechnologien?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mit der Illumina-Plattform ist es kostengünstig und (relativ) einfach, große Mengen an DNA oder RNA zu sequenzieren. Es gibt verschiedene andere Plattformen (Roche/454, SOLiD, PacBio, Ion Torrent), jede mit ihren eigenen Vorteilen, aber Illumina scheint trotz seiner Einschränkungen für viele Anwendungen ziemlich beliebt zu sein.

Idealerweise wünschen wir uns eine Sequenzierungstechnologie, die lange, fehlerfreie Reads mit hohem Durchsatz erzeugt. An diesem Punkt scheint es jedoch, dass wir eine Wahl treffen müssen: Durchsatz oder Länge (und Qualität). PacBio scheint vielversprechend zu sein, aber das letzte Mal, was ich gehört habe, waren sie immer noch nicht in der Lage, ihre Forderungen zu erfüllen.

Was sind die molekularen und biochemischen Grenzen unserer aktuellen Sequenzierungstechnologien? Wieso den nicht wir schon lange, fehlerfreie Reads mit hohem Durchsatz haben?


Es scheint, als ob Sie Ihre eigene Frage beantwortet haben, das Signal einiger Moleküle, die durch ein Enzym oder eine Polymerase laufen, neigt dazu, nach einigen hundert Basen aus der Synchronisation zu fallen. Wenn ein Enzym zur Sequenzierung strenger im Zeitschritt wäre, könnte das zum Beispiel helfen. Die Maschinen lesen Spuren in vier Kanälen mit schönen Unebenheiten für jede Basis. Ein schönes Beispiel finden Sie in diesem Artikel. Sie können sehen, dass es schwierig wird zu sagen, wie viele Basen es gibt, wenn zu viele der gleichen Basis hintereinander vorhanden sind. Mit der Zeit werden sich alle vier Spuren verwischen und du kannst Adam nicht von Thelma unterscheiden, wenn du meine Bedeutung verstehst.

Aber es gibt noch andere Engpässe.

Die Sequenzer geben derzeit eine so hohe Datenmenge aus, dass die Analyse der Bedeutung der ausgegebenen Daten nicht schnell genug analysiert werden kann. Dies folgt dem Trend in der Biotechnologie der letzten 12 Jahre oder so - mehr Sequenzdaten, Mikroarray-Daten, mehr Mutationsdaten, mehr Genome als Menschen, die sie tatsächlich verwenden können, um die Biologie zu verstehen. Es gibt jetzt einen kleinen Analyse-Engpass.

Daher haben einige dieser Sequenzer größere Leselängen, was die Zusammenstellung einer Sequenz erleichtern kann. Diese Sequenzer kosten in der Regel mehr. Wenn Sie zum Beispiel eine Bibliothek haben, um ein kleines Pilz- oder Algengenom zu sequenzieren, erhalten Sie die Antwort jetzt in einem Tag oder weniger zurück. In Form von 1 Tb an Reads sind es vielleicht 50 bis 200 bp lang. Es kann einige Zeit in Anspruch nehmen, dies zu einer neuartigen Genomsequenz zusammenzusetzen, noch mehr, um die Gene zu finden, die Gennetzwerke aus einer Vorlage von Pfaden aufzubauen usw. Stellen Sie sich vor, wie tausend Sequenzer Tag und Nacht herauspumpen und Sie erhalten die Bild Ich versuche hier zu malen.

Über Kosten. Ion Torrent und die neuen Oxford-Nanopore-Sequenzer sind wirklich billig - $50.000 bis vielleicht $900 für den USB-Sequenzer von Oxford Nanopore. Die meisten anderen Systeme kosten Hunderttausende von Dollar. Ion Torrent und Nanopore haben mehr Einwegartikel – Sie werfen einen Chip oder sogar den gesamten Sequenzer weg – zu einem Preis von Hunderten von Dollar pro Probe.


F1) Was sind die molekularen und biochemischen Einschränkungen unserer aktuellen Sequenzierungstechnologien?

A1) AFAIK:

Illumina hat es schwer, lange Reads zu produzieren (obwohl miseq jetzt Reads generieren kann, die 300bp haben und gepaart werden können, das sogenannte gepaarte Ende 2X300), da nach einer bestimmten Anzahl von Basen synthetisiert und mit der Kamera aufgezeichnet werden (Illumina wird durch Synthese sequenziert). , im Grunde fügen Sie Basen hinzu und messen die Fluoreszenz bei jedem Zyklus), dh nach einer bestimmten Anzahl von "Zyklen" können Sie Syncro verlieren und die Qualität der Basen nimmt ab.

PacBio kann sehr lange Moleküle erzeugen, aber sie haben immer noch große Probleme mit der Zuverlässigkeit des Lesens der Basen (ich weiß nicht, was hier das Problem ist)

F2) Warum haben wir nicht schon lange, fehlerfreie Lesevorgänge mit hohem Durchsatz?

A2) Weil es schwer ist! Aber wir bewegen uns darauf zu!


Kurze Einführung in drei Generationen der Genomsequenzierungstechnologie

Es ist über 30 Jahre her, dass 1977 die erste Generation der DNA-Sequenzierungstechnologie entwickelt wurde. In dieser Zeit hat die Sequenzierungstechnologie erhebliche Fortschritte gemacht. Von der ersten Generation bis zur dritten Generation und sogar der vierten Generation hat die Sequenzierungstechnologie die Leselänge von lang zu kurz und von kurz zu lang erfahren. Obwohl die Short-Read-Sequenzierungstechnologie der zweiten Generation immer noch den aktuellen globalen Sequenzierungsmarkt dominiert, entwickeln sich die Sequenzierungstechnologien der dritten und vierten Generation im Laufe der zwei Jahre rasant weiter. Jede Transformation der Sequenzierungstechnologie führt zu einer enormen Rolle bei der Förderung der Genomforschung, der krankheitsmedizinischen Forschung, der Arzneimittelentwicklung, der Züchtung und anderer Bereiche. Dieser Blog konzentriert sich hauptsächlich auf die aktuelle Genomsequenzierung Technologien und deren Sequenzierungsprinzipien.

Die Entwicklung der Sequenzierungstechnologie
1952 beendeten Hershey und Chase das berühmte Experiment zur Infektion von Bakterien mit T2-Phagen, das effektiv bewies, dass DNA ein genetisches Material ist. 1953 zeigten Crick und Watson ihr DNA-Modell in der britischen Zeitschrift –Nature. Nach einer gründlichen Studie an der Cambridge University beschrieben sie das DNA-Modell mit „Doppelhelix“. 1958 schlug Francis Crick das genetische Zentraldogma vor, das 1970 in Nature wiederholt wurde. Der genetische Code, auch bekannt als Codons, genetische Codons oder Tripelcodes, bestimmt die Nukleotidsequenz der Aminosäuresequenz im Protein, die aus drei aufeinanderfolgende Nukleotide. 1966 gab Hola bekannt, dass der genetische Code entschlüsselt worden sei. Im Jahr 1974 schlug Szibalski, ein polnischer Genetiker, die genetische Rekombinationstechnologie als Konzept der synthetischen Biologie vor. DNA-rekombinante Technologie, auch Gentechnik genannt, zielt darauf ab, DNA-Moleküle in vitro zu rekombinieren und in den entsprechenden Zellen zu proliferieren. 1983 wurde die PCR (Polymerase Chain Reaction) von Dr. Kary B. Mullis entwickelt. Es handelt sich um eine molekularbiologische Technik, die zur Amplifikation bestimmter DNA-Fragmente verwendet wird, was als die spezielle DNA-Replikation in vitro angesehen werden kann.

1977 wurde A. M. Maxam und W. Gilbert etablierten zunächst ein Verfahren zur Bestimmung der DNA-Fragmentsequenz, das auch als chemisches Abbauverfahren nach Maxam-Gilbert bezeichnet wird. Gegenwärtig handelt es sich bei diesem von Sanger vorgeschlagenen chemischen Abbauverfahren und enzymatischen Verfahren (Dideoxykettenabbruchverfahren) um schnelle Sequenzierungstechniken. 1986 wurde der erste automatisierte Sequenzer —abi prism 310 Genanalysator von einer amerikanischen Firma —Pe Abi entwickelt. Und dann nutzten Hood und Smith fluoreszenzmarkiertes dNTP für die Elektrophorese-Technologie. Daher wurde der erste kommerzielle automatische Sequenzer geboren. Danach wurde 1996 der Kapillarelektrophorese-Sequenzer und 1998 der automatische Sequenzer vom Typ 3700 entwickelt.

Im Jahr 2008 entwarf und entwickelte die Quake-Gruppe den HeliScope-Sequenzer, der auch ein Loop-Chip-Sequenziergerät ist. Im selben Jahr wurde die Nanoporen-Sequenzierung basierend auf der Elektrophorese-Technologie entwickelt. Im nächsten Jahr wurde SMRT entwickelt. 2010 kamen ion PGM und GeXP zum Einsatz.

Im Jahr 2005 entwarf das Unternehmen Roche die 454-Technologie –genome sequencer 20 system—ein Ultrahochdurchsatz-Genomsequenzierungssystem, das von Nature als Meilenstein in der Entwicklung der Sequenzierungstechnologie gelobt wurde. Im Jahr 2006 wurde der illumina-Sequenzer entwickelt, der für DNA-Bibliotheken geeignet ist, die mit verschiedenen Methoden hergestellt werden. Im Jahr 2007 wurde Solid System entwickelt.

Sequenziertechnologie der ersten Generation
Die erste Generation der Sequenzierungstechnologie basiert auf der 1975 von Sanger und Coulson entwickelten Kettenabbruchmethode oder der 1976 und 1977 von Maxam und Gulbert erfundenen chemischen Methode (Kettenabbau). Und Sanger beurteilte 1977 die erste Genomsequenz von Phage X174 mit der Gesamtlänge von 5375 Basen. Seitdem hat der Mensch die Fähigkeit erworben, die Natur der genetischen Unterschiede des Lebens zu ergründen, und es ist auch der Beginn des genomischen Zeitalters. Forscher verbessern die Sanger-Methode während der Aufführung weiter. Auf der Grundlage der verbesserten Sanger-Methode wurde 2001 die erste menschliche Genomkarte fertiggestellt. Das Kernprinzip der Sanger-Methode besteht darin, dass ddNTP während der DNA-Synthese aufgrund des Fehlens von Hydroxyl in seinen 2 ‘und 3’ keine Phosphodiesterbindung bilden kann. So kann es verwendet werden, um die DNA-Synthesereaktion zu unterbrechen. Geben Sie einen bestimmten Anteil von ddNTP mit radioaktiver Isotopenmarkierung, einschließlich ddATP, ddCTP, ddGTP und ddTTP, in vier DNA-Synthese-Reaktionssysteme. Nach Gelelektrophorese und Autoradiographie können die DNA-Sequenzen der Proben anhand der Position der elektrophoretischen Bande bestimmt werden.

Neben der Sanger-Methode ist es erwähnenswert, dass während der Entwicklung der Sequenzierungstechnologie viele andere Sequenzierungstechnologien auftauchten, wie z. B. die Pyrophosphat-Sequenzierungsmethode, die Ligationsenzymmethode und so weiter. Unter diesen wurde später das Pyrophosphat-Sequenzierungsverfahren von der Firma Roche für die 454-Technik verwendet, während das Ligationsenzymverfahren für die SOLID-Technik von der Firma ABI verwendet wurde. Die gemeinsame Kernmethode von beiden war die Verwendung von dNTP, das die DNA-Synthese unterbrechen kann, ähnlich wie ddNTP in der Sanger-Methode.

Alles in allem hat die erste Generation der Sequenzierungstechnologie die Leselängenfähigkeit von 1000 bp mit einer Genauigkeit von 99,999 %, was das Hauptmerkmal ist. Seine hohen Kosten, sein geringer Durchsatz und andere Nachteile führen jedoch zu ernsthaften Auswirkungen auf seine wirkliche großtechnische Anwendung. Daher ist die Sequenzierungstechnologie der ersten Generation nicht die idealste Sequenzierungsmethode. Durch Entwicklung und Verbesserung wurde die zweite Generation der Sequenzierungstechnologie geboren, symbolisiert durch die 454-Technologie von Roche, die Solexa von Illumina, die Hiseq-Technologie und die Solid-Technologie von ABI. Die zweite Generation der Sequenzierungstechnologie kann nicht nur die Sequenzierungskosten erheblich reduzieren, sondern auch die Sequenzierungsgeschwindigkeit drastisch erhöhen und dabei eine hohe Genauigkeit beibehalten. Die Durchlaufzeit der Sequenzierungstechnologie der zweiten Generation zum Abschluss eines Humangenomprojekts kann nur eine Woche betragen, während die Verwendung der Sequenzierungstechnologie der ersten Generation zum Erreichen desselben Ziels drei Jahre beträgt. Allerdings ist die Leselänge der zweiten Generation der Sequenzierungstechnologie viel kürzer als die der ersten Generation.

Im nächsten Blog-Kapitel stellen wir weiterhin die zweite Generation von . vor Sequenziertechnik.


Abstrakt

Das Gebiet der Einzelzellgenomik entwickelt sich rasant weiter und liefert viele neue Erkenntnisse über komplexe biologische Systeme, die von der Vielfalt mikrobieller Ökosysteme bis hin zur Genomik menschlicher Krebserkrankungen reichen. In diesem Aufsatz geben wir einen Überblick über den aktuellen Stand auf dem Gebiet der Einzelzell-Genomsequenzierung. Zuerst konzentrieren wir uns auf die technischen Herausforderungen bei der Durchführung von Messungen, die von einem einzelnen DNA-Molekül ausgehen, und untersuchen dann, wie einige dieser jüngsten methodischen Fortschritte die Entdeckung einer unerwarteten neuen Biologie ermöglicht haben. Zu den hervorgehobenen Bereichen gehört die Anwendung der Einzelzell-Genomik zur Untersuchung mikrobieller Dunkler Materie und zur Bewertung der pathogenen Rolle des genetischen Mosaiks in mehrzelligen Organismen mit Schwerpunkt auf Krebs. Wir versuchen dann, die Fortschritte vorherzusagen, die wir in den nächsten Jahren erwarten.


Sequenzierung der nächsten Generation und ihre Anwendungen

Anuj Kumar Gupta , UD Gupta , in Tierbiotechnologie (Zweite Ausgabe) , 2020

Ionenhalbleitersequenzierung

Ionen-Torrent: Diese Technologie arbeitet nach dem Prinzip des Nachweises der Freisetzung von Wasserstoffionen während des Einbaus eines neuen Nukleotids in die wachsende DNA-Matrize. In der Natur wird beim Einbau eines Nukleotids in einen DNA-Strang durch eine Polymerase ein Wasserstoffion als Nebenprodukt freigesetzt. Ion Torrent verwendet mit seinem Ion Personal Genome Machine (PGM™)-Sequenzer ein hochdichtes Array von mikrobearbeiteten Wells, um den Nukleotid-Einbau massiv parallel durchzuführen. Jedes Well enthält eine andere DNA-Matrize. Unter den Wells befindet sich eine ionensensitive Schicht, gefolgt von einem proprietären Ionensensor. Das Ion verändert den pH-Wert der Lösung, was von einem Ionensensor erfasst wird. Liegen zwei identische Basen auf dem DNA-Strang, verdoppelt sich die Ausgangsspannung und der Chip zeichnet zwei identische Basen auf, die ohne Scannen, Kamera und Licht aufgerufen werden. Anstatt Licht wie bei der 454-Pyrosequenzierung zu detektieren, stellt die Ion Torrent-Technologie eine direkte Verbindung zwischen den chemischen und den digitalen Ereignissen her. Wasserstoffionen werden auf Ionenhalbleiter-Sequenzierungschips detektiert. Diese Ionen-Halbleiterchips werden wie alle anderen Halbleiterchips entwickelt und hergestellt, die in elektronischen Geräten verwendet werden. Diese werden in Form von Wafern aus einer Siliziumkugel geschnitten. Die Transistoren und Schaltungen werden dann musterübertragen und anschließend mittels Photolithographie auf die Wafer geätzt. Dieser Vorgang wird 20 Mal oder öfter wiederholt, wodurch ein mehrschichtiges System von Schaltkreisen entsteht.

Ion hat sich eine Vielzahl von Sequenzern mit kleinem und großem Datenausgang ausgedacht, die je nach Anwendung und Nutzung zu verwenden sind. Ion Torrent PGM™ generiert eine Gesamtdatenausgabe von 30 MB bis 2 GB, je nach verwendetem Ionen-Halbleiter-Sequenzierungschip. Im September 2012 brachte Ion Torrent jedoch sein größeres System, das Ion Proton, auf den Markt. Es verwendet größere Chips mit höheren Dichten und kann daher für Transkriptom-, Exom- und größere Gen-Panels geeignet sein. Obwohl Ion Proton in der Lage ist, viel größere Ausgaben zu erzeugen, etwa 10 GB, ist es wesentlich teurer. Ihre neueren Sequencer mit höherem Durchsatz namens Ion S5 und S5XL können je nach verwendetem Chiptyp eine Datenausgabe von 2 bis 130 Millionen Lesevorgängen erzeugen, je nach verwendetem Chip etwa 4 Stunden Laufzeit. Die erhaltene Leselänge beträgt 200 und 400 bp für IonTorrent und IonProton, während S5 und S5XL auch 600 bp-Reads sequenzieren können.

Vorteile: Ion Torrent erzeugt eine Leselänge von etwa 200–600 bp, die verwendet wird, um Lücken in der durch andere Technologien hergestellten Anordnung zu füllen. Aufgrund der geringen Kosten haben sich Ionenplattformen im klinischen Bereich durchgesetzt. Die kurze Laufzeit dieser Technik erleichtert auch mehrere Durchläufe zur Erzeugung von mehr Daten in einer gegebenen Zeit.

Einschränkungen: Ionenplattformen liegen zwischen riesigen Datentechnologien und Technologien mit langer Leselänge. Während Short-Read-Technologien durch riesige erzeugte Daten erleichtert werden, muss Ion die Gesamtdatenausgabe verbessern. Die gemeldete höhere Fehlerrate und das vorzeitige Abschneiden von Sequenzen können es schwierig machen, eine erste Wahl zu sein, wenn sehr hochwertige Daten erforderlich sind (PubMed Central ID: PMC4249215).


Dieser Prozess umfasst eine Mischung von Techniken: bakterielle Klonierung oder PCR-Matrizenreinigung Markierung von DNA-Fragmenten unter Verwendung der Kettenabbruchmethode mit Energietransfer, farbstoffmarkierte Didesoxynukleotide und eine DNA-Polymerase-Kapillarelektrophorese und Fluoreszenzdetektion, die vierfarbige Plots zur Darstellung der DNA liefert Reihenfolge.

Ein Qualitätsmaß für ein sequenziertes Genom. Ein fertiges Genom, allgemein als fertiges Genom bezeichnet, ist von höherer Qualität als ein Genom in Entwurfsqualität, mit mehr Basisabdeckung und weniger Fehlern und Lücken (z das Genom mit 341 Lücken und hat eine Fehlerrate von 1 pro 100.000 bp).

Dieses rekombinante DNA-Molekül besteht aus einer bekannten Region, normalerweise einer Vektor- oder Adaptersequenz, an die ein universeller Primer binden kann, und der Zielsequenz, die typischerweise ein unbekannter zu sequenzierender Teil ist.

Assays, die Sequenzierungstechnologien der nächsten Generation verwenden. Sie umfassen Methoden zur Bestimmung des Sequenzgehalts und der Häufigkeit von mRNAs, nicht-kodierenden RNAs und kleinen RNAs (zusammen als RNA-seq bezeichnet) und Methoden zur Messung genomweiter Profile von immunpräzipitierten DNA-Protein-Komplexen (ChIP-seq), Methylierungsstellen ( Methyl-seq) und DNase-I-Überempfindlichkeitsstellen (DNase-seq).

Dieser Aufsatz beschreibt hauptsächlich Technologieplattformen, die mit einem entsprechenden Unternehmen verbunden sind, aber das Polonator G.007-Instrument, das von Danaher Motions (ein Dover-Unternehmen) hergestellt und vertrieben wird, ist eine Open-Source-Plattform mit frei verfügbarer Software und Protokollen. Benutzer stellen ihre eigenen Reagenzien basierend auf veröffentlichten Berichten oder in Zusammenarbeit mit George Church und Kollegen oder anderen Technologieentwicklern her.

Eine Fragmentbibliothek wird durch zufälliges Scheren genomischer DNA in kleine Größen von <1 kb hergestellt und erfordert weniger DNA als für eine Mate-Paar-Bibliothek erforderlich wäre.

Eine genomische Bibliothek wird hergestellt, indem gescherte DNA, die für eine gegebene Größe, wie 2 kb, ausgewählt wurde, zirkularisiert, wodurch die Enden, die zuvor voneinander entfernt waren, in große Nähe gebracht werden. Das Schneiden dieser Kreise in lineare DNA-Fragmente erzeugt Mate-Paar-Templates.

Dies tritt bei schrittweisen Additionsverfahren auf, wenn wachsende Primer für einen gegebenen Zyklus aus der Synchronität geraten. Nachlaufende Stränge (z. n − 1 aus dem erwarteten Zyklus) resultieren aus unvollständiger Extension und führenden Strängen (z. B. n + 1) resultieren aus der Zugabe mehrerer Nukleotide oder Sonden in einer Population identischer Matrizen.

Dunkle Nukleotide oder Sonden

Ein Nukleotid oder eine Sonde, die keine Fluoreszenzmarkierung enthält. Es kann aus seiner Spaltung und Verschleppung aus dem vorherigen Zyklus gewonnen oder hydrolysiert werden vor Ort von seinem farbstoffmarkierten Gegenstück im aktuellen Zyklus.

Totale interne Reflexionsfluoreszenz

Ein Fluoreszenz-Bildgebungsgerät mit Totalreflexion erzeugt eine evaneszente Welle, d. h. eine stationäre Nahfeld-Erregungswelle – mit einer Intensität, die von der Oberfläche weg exponentiell abnimmt. Diese Welle breitet sich über eine Grenzfläche aus, beispielsweise einen Glasobjektträger, was zur Anregung fluoreszierender Moleküle in der Nähe (<200 nm) oder an der Oberfläche und der anschließenden Erfassung ihrer Emissionssignale durch einen Detektor führt.

Bibliotheken mutierter DNA-Polymerasen

Eine große Anzahl gentechnisch veränderter DNA-Polymerasen kann entweder durch ortsgerichtete oder zufällige Mutagenese erzeugt werden, was zu einer oder mehreren Aminosäuresubstitutionen, -insertionen und/oder -deletionen in der Polymerase führt. Das Ziel dieses Ansatzes ist es, modifizierte Nukleotide effizienter während der Sequenzierungsreaktion einzubauen.

Diese sind nur für Einzelmolekültechniken nützlich und werden durch mehrmaliges Sequenzieren desselben Matrizenmoleküls hergestellt. Die Daten werden dann ausgerichtet, um einen „Konsens-Lesevorgang“ zu erzeugen, wodurch stochastische Fehler reduziert werden, die bei einem gegebenen Lesesequenz-Lesevorgang auftreten können.

Eine Oligonukleotidsequenz, in der eine Abfragebase mit einem bestimmten Farbstoff assoziiert ist (zum Beispiel entspricht A an der ersten Position einem grünen Farbstoff). Ein Beispiel für einen degenerierten Ein-Basen-Sondensatz ist '1-Sonden', was anzeigt, dass das erste Nukleotid die Abfragebase ist. Die restlichen Basen bestehen entweder aus entarteten (vier mögliche Basen) oder universellen Basen.

Eine Oligonukleotidsequenz, in der zwei Abfragebasen mit einem bestimmten Farbstoff assoziiert sind (zum Beispiel werden AA, CC, GG und TT mit einem blauen Farbstoff kodiert). '1,2-Sonden' zeigt an, dass das erste und das zweite Nukleotid die Abfragebasen sind. Die restlichen Basen bestehen entweder aus entarteten oder universellen Basen.

Eine Nukleotidsubstitution hat zwei Farbaufrufe, einen von der 5'-Position und einen von der 3'-Position der Dinukleotidsequenz. Beim Vergleich mit einem Referenzgenom wird die Basensubstitution in der Zielsequenz durch zwei spezifische, benachbarte Farben kodiert. In Abbildung 3b ist die Sequenz 'CCT' als blau-gelb kodiert ('CC' = blau 'CT' = gelb), aber das Ersetzen des mittleren 'C' durch 'A' würde zu zwei Farbwechseln zu grün-rot führen. Jede andere Farbfolge kann als Fehler verworfen werden.

Bei zwei Basen-kodierten Sonden wird das Fluoreszenzsignal oder die Farbe, die während der Bildgebung erhalten wird, mit vier Dinukleotidsequenzen mit einer 5'- und 3'-Base assoziiert. Der Farbraum ist die Sequenz überlappender Dinukleotide, die vier gleichzeitige Nukleotidsequenzen kodiert. Die Ausrichtung mit einem Referenzgenom ist die genaueste Methode zur Übersetzung des Farbraums in eine einzelne Nukleotidsequenz.

Nullmoden-Wellenleiter-Detektoren

Dieses Nanostrukturgerät hat einen Durchmesser von 100 nm, was kleiner ist als die Laserwellenlängen von 532 nm und 643 nm, die in der Pacific Biosciences-Plattform verwendet werden. Licht kann sich nicht durch diese kleinen Wellenleiter ausbreiten, daher der Begriff Nullmode. Diese aluminiumbeschichteten Wellenleiter sind so konzipiert, dass sie eine evaneszente Welle erzeugen (siehe Glossarbegriff „totale interne Reflexionsfluoreszenz“), die das Beobachtungsvolumen an der Oberfläche der Polymerasereaktion bis in den Zekloliterbereich (10 −21 l) erheblich reduziert. Dies bietet einen Vorteil für die Polymerisationsreaktion, die bei höheren Konzentrationen an farbstoffmarkierten Nukleotiden durchgeführt werden kann.

Fluoreszenz-Resonanz-Energieübertragung

Dies ist im Allgemeinen ein System, das aus zwei Fluoreszenzfarbstoffen besteht, von denen einer ein Donorfarbstoff (ein blauerer Fluorophor) und der andere ein Akzeptorfarbstoff (ein röterer Fluorophor) ist. Wenn die beiden Farbstoffmoleküle in enge Nachbarschaft gebracht werden (normalerweise ≤30 nm), wird die Energie des angeregten Donorfarbstoffs auf den Akzeptorfarbstoff übertragen, wodurch dessen Emissionsintensitätssignal erhöht wird.

Alle Sequenzvarianten außer Einzelnukleotidvarianten, einschließlich Blocksubstitutionen, Insertionen oder Deletionen, Inversionen, segmentale Duplikationen und Kopienzahlunterschiede.

Ein Projekt zielte darauf ab, seltene Sequenzvarianten mit geringen Allelfrequenzen von 1% in normalen Genomen aus HapMap-Proben zu entdecken.

Ein Projekt mit dem Ziel, kostengünstige Hochdurchsatztechnologien zur Neusequenzierung aller proteinkodierenden Regionen des menschlichen Genoms zu entwickeln und zu validieren.

Die Untersuchung von Gemeinschaften gemischter mikrobieller Genome, die in Tieren, Pflanzen und Umweltnischen vorkommen. Proben werden gesammelt und analysiert, ohne dass isolierte Mikroben im Labor kultiviert werden müssen. Das Human-Mikrobiom-Projekt zielt darauf ab, einen Referenzsatz mikrobieller Genome aus verschiedenen Lebensräumen des menschlichen Körpers zu charakterisieren, einschließlich Nasen-, Mund-, Haut-, Magen-Darm- und Urogenitalregionen, und zu bestimmen, wie sich Veränderungen im menschlichen Mikrobiom auf Gesundheit und Krankheit auswirken.

Ein Projekt mit dem Ziel, Einzelnukleotidvarianten und Strukturvarianten zu entdecken, die mit schweren Krebsarten wie Gehirnkrebs (Glioblastoma multiforme), Lungenkrebs (Plattenepithelkarzinom) und Eierstockkrebs (seröses Zystadenokarzinom) in Verbindung gebracht werden.

Ein Projekt, das darauf abzielte, einen offenen Zugang zu menschlichen Genomsequenzen von Freiwilligen bereitzustellen und Werkzeuge zur Interpretation dieser Informationen und deren Korrelation mit entsprechenden persönlichen medizinischen Informationen zu entwickeln.


Vergleich der beiden aktuellen Sequenzierungstechnologien für die Genomassemblierung: HiFi-Reads des Pacbio Sequel II-Systems und ultralange Reads von Oxford Nanopore

Die Verfügbarkeit von Referenzgenomen hat das Studium der Biologie revolutioniert. In den letzten zehn Jahren wurden mehrere konkurrierende Technologien entwickelt, um die Qualität und Robustheit von Genomanordnungen zu verbessern. Die beiden weit verbreiteten Long-Read-Sequencing-Anbieter – Pacbio (PB) und Oxford Nanopore Technologies (ONT) – haben kürzlich ihre Plattformen aktualisiert: PB ermöglichen HiFi-Reads mit hohem Durchsatz mit Basisauflösung von >99% und ONT-generierte Reads mit einer Länge von bis zu 2 Mb. Wir haben die beiden aktuellen Plattformen auf ein einzelnes Reis-Individuum angewendet und dann die beiden Baugruppen verglichen, um die Vorteile und Grenzen jeder einzelnen zu untersuchen. Die Ergebnisse zeigten, dass die ultralangen ONT-Reads eine höhere Kontiguität lieferten und insgesamt 18 Contigs produzierten, von denen 10 zu einem einzigen Chromosom zusammengesetzt waren, verglichen mit 394 Contigs und drei Contigs auf Chromosomenebene für die PB-Assemblierung. Die ultralangen ONT-Reads verhinderten auch Montagefehler, die durch lange repetitive Regionen verursacht wurden, für die wir insgesamt 44 Gene für falsche Redundanzen und 10 Gene für falsche Verluste in der PB-Assemblierung beobachteten, was zu Über-/Unterschätzungen der Genfamilien in diesen langen repetitiven Regionen führte . Wir stellten auch fest, dass das PB HiFi generierte Assemblies mit erheblich weniger Fehlern auf der Ebene einzelner Nukleotide und kleiner InDels liest als das ONT-Assembly, das durchschnittlich 1,06 Fehler pro Kb-Assembly erzeugte und schließlich 1.475 falsche Genannotationen über veränderte oder verkürzte Proteine ​​erzeugte Vorhersagen.


ERKENNUNG VON GENOMVERÄNDERUNGEN DURCH -OMICS-TECHNOLOGIEN

In den letzten 15 Jahren wurden verschiedene fortschrittliche Technologien entwickelt, die die Ansammlung und Bewertung von großen Datensätzen biologischer Moleküle ermöglichen, einschließlich DNA-Sequenz (das Genom), Transkripte (das Transkriptom mit RNA), DNA-Modifikation (das Epigenom) und , in geringerem Maße Proteine ​​und deren Modifikationen (das Proteom) und Metaboliten (das Metabolom). Solche Datensätze ermöglichen vergleichende Analysen von Nicht-GE- und GE-Linien, sodass Auswirkungen auf die Genexpression, den Stoffwechsel und die Zusammensetzung von Pflanzen besser beurteilt werden können. Der Zugang zu den Technologien ermöglicht auch die Analyse des Ausmaßes der natürlichen Variation einer Pflanzenart auf DNA-, RNA-, Protein-, Metabolit- und epigenetischer Ebene, wodurch festgestellt werden kann, ob die Variation in gentechnisch veränderten Pflanzen innerhalb des natürlich vorkommenden Bereichs und zwischen den Sorten liegt. Wie unten für jeden der -omics-Datentypen erörtert, waren die Technologien zum Zugriff auf die Moleküle im Jahr 2015 relativ neu, entwickelten sich jedoch schnell. Einige Technologien waren einsatzbereit, um Datensätze zur Bewertung der Auswirkungen gentechnischer Ereignisse zu generieren, als der Bericht des Ausschusses verfasst wurde. Andere werden im kommenden Jahrzehnt in Präzision und Durchsatz zunehmen und könnten eines Tages nützliche Technologien zur Bewertung der Auswirkungen gentechnischer Ereignisse sein. Die von Präsident Obama im Januar 2015 6 angekündigte Precision Medicine Initiative konzentriert sich auf das Verständnis, wie sich genetische Unterschiede zwischen Individuen und Mutationen in Krebszellen und erkrankten Zellen (im Vergleich zu gesunden Zellen) auf die menschliche Gesundheit auswirken. Ein analoges Projekt, das verschiedene -omics-Ansätze bei Nutzpflanzen mit Gentechnik und konventioneller Züchtung nutzt, könnte das Verständnis pflanzenbiologischer Prozesse tiefgreifend verbessern, was wiederum auf die Bewertung der Auswirkungen gentechnischer Veränderungen bei Nutzpflanzen angewendet werden könnte.

Genomik

Eine Möglichkeit festzustellen, ob Gentechnik zu Off-Target-Effekten geführt hat (ob durch Kerntransformation mit Agrobakterium oder Genkanonen, RNAi oder neu entstehende Technologien wie Genome Editing) besteht darin, das Genom der gentechnisch veränderten Pflanze mit einem Beispiel—oder Referenzgenom der nicht gentechnisch veränderten Mutterpflanze zu vergleichen. Das Referenzgenom ist wie ein Bauplan für die Art, der die allelische Vielfalt aufdeckt und die mit dem Phänotyp verbundenen Gene identifiziert. Wenn man die natürliche Variation einer Art kennt, kann man das gentechnisch veränderte Genom mit dem Referenzgenom vergleichen, um festzustellen, ob die Gentechnik zu erwarteten oder unbeabsichtigten Veränderungen geführt hat, und um einen Kontext für die Beurteilung zu gewinnen, ob Veränderungen nachteilige Auswirkungen haben könnten. Da es inhärente DNA-Sequenzvariationen zwischen Pflanzen innerhalb einer Art und sogar zwischen Sorten gibt, müssten alle gentechnisch veränderten Veränderungen mit dem nicht-GE-Elternteil und dem Bereich der natürlichen genomischen Variation verglichen werden. Das heißt, gentechnische Veränderungen müssen in einen angemessenen Kontext gestellt werden.

Hintergrund

Im Juli 1995 wurde die erste Genomsequenz eines lebenden Organismus, des Bakteriums Hämophilus-Influenza (1.830.137 Basenpaare) wurde berichtet (Fleischmann et al., 1995). Möglich wurde diese bahnbrechende technologische Errungenschaft durch die Entwicklung automatisierter DNA-Sequenzierungsverfahren, verbesserter Rechenleistung des Computers und der Entwicklung von Algorithmen zur Rekonstruktion eines vollständigen Genoms auf der Grundlage fragmentierter, zufälliger DNA-Sequenzen. Im Oktober 1995 wurde das Genom des Bakteriums Mycoplasma genitalium veröffentlicht wurde (Fraser et al., 1995), diese verfestigte Gesamtgenom-Shotgun-Sequenzierung und -Assemblierung als das Verfahren zum Erhalten von Genomsequenzen. In den nächsten zwei Jahrzehnten entstanden höhere Durchsätze und kostengünstigere Methoden für die Genomsequenzierung und -assemblierung (für eine Übersicht siehe McPherson, 2014) und ermöglichten die Sequenzierung der Genome von Hunderten von Arten sowie Tausenden von Individuen in allen Königreichen von Leben. Beispielsweise wurden seit der Veröffentlichung des Entwurfs der Sequenz des menschlichen Referenzgenoms im Jahr 2001 (Lander et al., 2001 Venter et al., 2001) Tausende einzelner menschlicher Genome sequenziert, einschließlich solcher vergleichender Genomsequenzierungsprojekte wie: ein umfassender Katalog der menschlichen Variation von Tausenden von Individuen, 7 normale versus Tumorzellen eines einzelnen Individuums, Familien mit erblichen genetischen Störungen und erkrankte versus gesunde Populationen. Diese Projekte konzentrierten sich darauf, die allelische Diversität in einer Art zu erkennen und Gene mit Phänotypen wie der Neigung zu bestimmten Krankheiten in Verbindung zu bringen.

Einschränkungen der derzeitigen De-Novo-Genomsequenzierungs- und -assemblierungsmethoden für Pflanzen

Aktuelle Methoden zur Sequenzierung eines Genoms und zur De-novo-Zusammensetzung eines Genoms beinhalten eine zufällige Fragmentierung von DNA, die Erzeugung von Sequenz-Reads und die Rekonstruktion der ursprünglichen Genomsequenz unter Verwendung von Assemblierungsalgorithmen. Obwohl die Methoden robust sind und sich ständig verbessern, ist es wichtig zu beachten, dass sie nicht die vollständige Genomsequenz komplexer Eukaryoten liefern. Tatsächlich ist sogar die menschliche Genomsequenz, für die Milliarden von Dollar ausgegeben wurden, um eine qualitativ hochwertige Referenzgenomsequenz zu erhalten, die eine Fülle nützlicher Informationen zum Verständnis der Humanbiologie einschließlich Krebs und anderer Krankheiten liefert, noch unvollständig. Bei Pflanzen ist der Maßstab für einen qualitativ hochwertigen Genomaufbau der der Modellarten Arabidopsis thaliana, das ein extrem kleines Genom hat, das im Jahr 2000 veröffentlicht wurde (Arabidopsis Genominitiative, 2000). Mehr als 15 Jahre nach der Veröffentlichung des A. thaliana Referenzgenomsequenz und mit der Verfügbarkeit von Sequenzen von mehr als 800 zusätzlichen Akzessionen 8 fehlten noch schätzungsweise 30� Millionen Nukleotide der Sequenz in der A. thaliana Col-0-Referenzgenom-Assembly (Bennett et al., 2003). Die meisten der fehlenden Sequenzen sind stark repetitiv (wie ribosomale RNA-Gene und zentromerische Wiederholungen), aber einige Gen-enthaltende Regionen fehlen aufgrund technischer Herausforderungen. Mit zunehmender Genomgröße und repetitiver Sequenzkomplexität wird die vollständige Darstellung der Genomsequenz schwieriger. Tatsächlich haben die Genom-Assemblies der meisten wichtigen Nutzpflanzenarten (Mais, Weizen, Gerste und Kartoffel) alle nur Entwurfsqualität und weisen erhebliche Lücken auf (Schnable et al., 2009 Potato Genome Sequencing Consortium, 2011 International Barley Genome Sequencing, 2012 Li et al., 2014a) keine bietet eine vollständige, vollständige Darstellung des Genoms.

Als das Komitee seinen Bericht verfasste, waren bei mehreren großen Nutzpflanzen Projekte im Gange, die dem Projekt menschlicher 10.000 Genome gleichwertig sind, um die Gesamtdiversität der Art durch die Dokumentation des “pan-Genoms” zu bestimmen (Weigel und Mott, 2009). . It has been surprising in several of these studies that there is substantial genomic diversity in some plant species not only in allelic composition but also in gene content (Lai et al., 2010 Hirsch et al., 2014 Li et al., 2014b). Thus, a single “reference” genome sequence derived from a single individual of a species will fail to represent the genetic composition and diversity of the overall population adequately and will therefore limit interpretations of directed changes in the genome (such as ones that can be delivered by emerging genome-editing methods that are being used to generate GE crops).

Resequencing: Assessing Differences Between the Reference and Query Genome

Once the DNA sequence of a crop's genome is assembled well enough to serve as a reference genome, resequencing becomes a powerful and cost-effective method for detecting genomic differences among related accessions (individuals) or GE lines. Resequencing entails generating random-sequence reads of the query genome (the genome that is being compared with the reference genome), aligning those sequence reads with a reference genome, and using algorithms to determine differences between the query and the reference. The strengths of this approach are that it is inexpensive and permits many query genomes to be compared with the reference genome and thereby provides substantial data about similarities and differences between individuals in a species (Figure 7-5). However, limitations of the approach can affect determination of whether two genomes are different. First, sequence read quality will affect data interpretation in that read errors can be misinterpreted as sequence polymorphisms. Second, the coverage of sequence reads generated can limit interrogation of the whole genome because the sampling is random and some regions of the genome are underrepresented in the read pool. Third, library construction 9 and sequencing bias will affect which sequences are present in the resequencing dataset and consequently available for alignment with the reference genome. Fourth, read-alignment algorithms fail to detect all polymorphisms if the query diverges too widely from the reference, especially with insertions and deletions or with SNPs near them. Fifth, read alignments and polymorphism detection are limited to nonrepetitive regions of the genome, so regions that are repetitive in the genome cannot be assessed for divergence. Although obstacles remain, resequencing is a powerful method for measuring differences in genome sequences between wild-type plants (normal untransformed individuals) and engineered plants. With expected improvements in technology, the resolution of resequencing to reveal differences between two genomes will improve.

FIGURE 7-5

Detection of genome, epigenome, transcriptome, proteome, and metabolome alterations in genome-edited, genetically engineered plants. SOURCE: Illustration by C. R. Buell. NOTE: To perform various -omics assessments of genome-edited plants, both the wild-type (more. )

Computational Approaches

Alternatives to resequencing approaches to identify polymorphisms in DNA sequence between two genomes were emerging when the committee was writing its report. The foundation of computational approaches to identify polymorphisms is algorithms that perform k-mer counting (a k-mer is a unique nucleotide sequence of a given length) in which unique k-mers are identified in two read pools (for example, wild type and mutant) and k-mers that differ between the two samples are then computationally identified. Those k-mers are then further analyzed to identify the nature of the polymorphism (SNP versus insertion or deletion) and to associate the polymorphism with a gene and potential phenotype (Nordstrom et al., 2013 Moncunill et al., 2014). The sensitivity and specificity of such programs are comparable with or better than the current methods that detect SNPs and insertions/deletions by using genome-sequencing methods and thus have the potential to identify more robustly genome variation introduced through genetic engineering. The committee expects the field to continue to develop rapidly and to enable researchers to read genomic DNA with increased sensitivity and specificity.

Utility of Transcriptomics, Proteomics, and Metabolomics in Assessing Biological Effects of Genetic Engineering

As stated in the 2004 National Research Council report Safety of Genetically Engineered Foods, understanding the composition of food at the RNA, protein, and metabolite levels is critical for determining whether genetic engineering results in a difference in substantial equivalence compared to RNA, protein, and metabolite levels in conventionally bred crops (NRC, 2004 see Chapter 5). Although the genome provides the 𠇋lueprint” for the cell, assessment of the transcriptome, proteome, and metabolome can provide information on the downstream consequences of genome changes that lead to altered phenotype. Methods used to assess transcripts, proteins, and metabolites in plants are described below with the committee's commentary on limitations of the sensitivity and specificity of detection and interpretation that existed when this report was being written. One caveat in the use of any of these techniques is related to inherent biological variation regardless of genetic-engineering status. Even with identical genotypes grown under identical conditions, there is variation in the transcriptome, proteome, and metabolome. Scientists address such variation by using biologically replicated experiments and multiple -omics and molecular-biology approaches. In addition to biological variation, allelic variation results in different levels of transcripts, proteins, and metabolites in different accessions. To provide context to any observed changes in the transcriptome, proteome, or metabolome attributable to a genetic-engineering event, the broader range of variation in commercially grown cultivars of a crop species can be compared with that of a GE line to determine whether modified levels are outside the realm of variation in a crop. Thus, in assessment of GE crops, interpretation must be in the context of inherent biological and allelic variation of the specific crop. Assessment is also made difficult by the fact that scientists have little or no knowledge of what functions a substantial number of genes, transcripts, proteins, and metabolites perform in a plant cell.

Transkriptomik

Advancements in high-throughput sequencing technologies have enabled the development of robust methods for quantitatively measuring the transcriptome, the expressed genes in a sample. One method, known as RNA sequencing (RNA-seq), entails isolation of RNA, conversion of the RNA to DNA, generation of sequence reads, and bioinformatic analyses to assess expression levels, alternative splicing, and alternative transcriptional initiation or termination sites (Wang et al., 2009 de Klerk et al., 2014). This method can be applied to mRNA, small RNAs (which include interfering RNAs involved in RNAi), total RNA, RNA bound to ribosomes, and RNA-protein complexes to gain a detailed assessment of RNAs in a cell. Methods to construct RNA-seq libraries, generate sequence reads, align to a reference genome, and determine expression abundances are fairly robust even with draft genome sequences if they provide nearly complete representation of the genes in the genome (Wang et al., 2009 de Klerk et al., 2014). Statistical methods to determine differential expression between any two samples, such as two plants with identical genotypes at different developmental stages, are continuing to mature but are limited by inherent biological variation in the transcriptome. Indeed, variation between independent biological replicates of wild-type tissues is well documented. For example, estimation of whole-transcriptome expression abundance in independent biological replicates of a given experimental treatment is considered to be highly reproducible if Pearson's correlation values are more than 0.95 values greater than 0.98 are typically observed. However, even with high Pearson's correlation values, numerous genes may exhibit different expression among biological replicates. Thus, differential gene expression in GE plants would need to be compared with the observed variation in gene expression in biological replicates of untransformed individuals to ensure the absence of major effects of the genetic-engineering event on the transcriptome.

Overshadowing any expression differences discovered between a wild-type plant and an engineered plant is the fact that little is known about the exact function of a substantial number of genes, transcripts, and proteins for any plant species. In maize, nearly one-third of the genes have no meaningful functional annotation even when informative functional annotation is provided, the annotation was most likely assigned by using automated transitive annotation methods that depend heavily on sequence similarity. Thus, even if differentially expressed genes are detected between the wild-type and GE samples, interpreting them in the context of health or effects on the ecosystem may be challenging at best. For example, a study of the effects of expression of the antifungal protein in rice that was introduced with genetic engineering showed changes in about 0.4 percent of the transcriptome in the GE lines (Montero et al., 2011). Analysis of 20 percent of the changes indicated that 35 percent of the unintended effects could be attributed to the tissue-culture process used for plant transformation and regeneration, whereas 15 percent appeared to be event-specific and attributable to the presence of the transgene. About 50 percent of the changes that were attributed to the presence of the transgene were in expression of genes that could be induced in the non-GE rice by wounding. It is impossible to determine whether the changes in transcript levels recorded in the study indicate that the GE rice might be worse than, equal to, or better than its non-GE counterpart as regards food safety. One way to assess the biological effects of genetic engineering on the transcriptome is to include a variety of conventionally bred cultivars in the study and determine whether the range of expression levels in the GE line falls within the range observed for the crop, but this method will not provide definitive evidence of food or ecosystem safety.

Proteomik

Several methods permit comparison of protein composition and post-translational protein modifications between samples (for review, see May et al., 2011). For example, two-dimensional difference in-gel electrophoresis permits quantitative comparison of two proteomes through differential labeling of the samples followed by separation and quantification (Figure 7-5 D). In mass spectrometry (MS), another method for examining the proteome, proteins are first broken into specific fragments (often by proteases, which are enzymes that catalyze the cleavage of proteins into peptides at specific sites) and fractionated with such techniques as liquid chromatography. Then the mass-to-charge ratios of the peptides are detected with MS. MS data typically provide a unique “signature” for each peptide, and the identity of the peptides is typically determined by using search algorithms to compare the signatures with databases of predicted peptides and proteins derived from genome or transcriptome sequence data. Differential isotope labeling can be used in the MS approach to determine quantitative differences in protein samples. One limitation of all current proteomic techniques is sensitivity whole-proteome studies typically detect only the most abundant proteins (Baerenfaller et al., 2008). Furthermore, sample-preparation methods need to be modified to detect different fractions of the proteome (such as soluble versus membrane-bound and small versus large proteins) (Baerenfaller et al., 2008). Thus, to provide a broad assessment of the proteome, an array of sample-preparation methods must be used. Finally, as with the other -omics methods, interpretation of the significance of proteomic differences is made difficult by the fact that scientists have little knowledge of what a large number of proteins do in a plant cell.

Metabolomics

It is common practice in evaluating GE crops for regulatory approval to require targeted profiling of specific metabolites or classes of metabolites that may be relevant to the trait being developed or that are known to be present in the target species and to be potentially toxic if present at excessive concentrations. Under current regulatory requirements, substantial metabolic equivalence is assessed on the basis of concentrations of gross macromolecules (for example, protein or fiber), such nutrients as amino acids and sugars, and specific secondary metabolites that might be predicted to cause concern.

As with genomics, transcriptomics, and proteomics, the approaches collectively known as metabolomics have been developed to determine the nature and concentrations of all metabolites in a particular organism or tissue. It has been argued that such information should be required before a GE crop clears regulatory requirements for commercialization. However, in contrast with genomic and transcriptomic approaches, with which it is now technically easy to assess DNA sequences and measure relative concentrations of most or all transcripts in an organism with current sequencing technologies respectively, metabolomics as currently performed can provide useful data only on a subset of metabolites. That is because each metabolite is chemically different, whereas DNA and RNA comprise different orderings of just four nucleotide bases. Metabolites have to be separated, usually with gas chromatography or high-performance liquid chromatography their nature and concentrations are then determined, usually with MS. The mass spectra are compared with a standard library of chemicals run on the same analytical system. The major problem for this type of metabolomic analysis of plants is the possession in the plant kingdom of large numbers of genus-specific or even species-specific natural products (see section 𠇌omparing Genetically Engineered Crops and Their Counterparts” in Chapter 5 for discussion of plant natural products). Advanced commercial platforms for plant metabolomics currently measure about 200 identified compounds, usually within primary metabolism, and less broadly distributed natural products are poorly represented (Clarke et al., 2013). However, these approaches can differentiate a much larger number of distinct but unidentified metabolites, and it is useful to know whether concentrations of a metabolite are specifically affected in a GE crop even if the identity of the particular metabolite is not known. For example, with a combination of separation platforms coupled to mass spectrometry, it was possible to resolve 175 unique identified metabolites and 1,460 peaks with no or imprecise metabolite annotation, together estimated to represent about 86 percent of the chemical diversity of tomato (Solanum lycopersicum) as listed in a publicly available database (Kusano et al., 2011). Although such an approach allows one to determine whether metabolite peaks are present in a GE crop but not in the non-GE counterpart or vice versa, metabolomics, in the absence of a completely defined metabolome for the target species in which the toxicity of all components is known, is not able to determine with confidence that a GE or non-GE plant does not contain any chemically identified molecule that is unexpected or toxic.

An alternative approach to nontargeted analysis of metabolites is to perform metabolic fingerprinting and rely on statistical tools to compare GE and non-GE materials. That does not necessarily require prior separation of metabolites and can use flow-injection electrospray ionization mass spectrometry (Enot et al., 2007) or nuclear magnetic resonance (NMR) spectroscopy (Baker et al., 2006 Ward and Beale, 2006 Kim et al., 2011). NMR spectroscopy is rapid and requires no separation but depends heavily on computational and statistical approaches to interpret spectra and evaluate differences.

Generally, with a few exceptions, metabolomic studies have concluded that the metabolomes of crop plants are affected more by environment than by genetics and that modification of plants with genetic engineering typically does not bring about off-target changes in the metabolome that would fall outside natural variation in the species. Baseline studies of the metabolomes (representing 156 metabolites in grain and 185 metabolites in forage) of 50 genetically diverse non-GE DuPont Pioneer commercial maize hybrids grown at six locations in North America revealed that the environment had a much greater effect on the metabolome (affecting 50 percent of the metabolites) than did the genetic background (affecting only 2 percent of the metabolites) the difference was more striking in forage samples than in grain samples (Asiago et al., 2012). Environmental factors were also shown to play a greater role than genetic engineering on the concentrations of most metabolites identified in Bt rice (Chang et al., 2012). In soybean, nontargeted metabolomics was used to demonstrate the dynamic ranges of 169 metabolites from the seeds of a large number of conventionally bred soybean lines representing the current commercial genetic diversity (Clarke et al., 2013). Wide variations in concentrations of individual metabolites were observed, but the metabolome of a GE line engineered to be resistant to the triketone herbicide mesotrione (which targets the carotenoid pathway that leads to photobleaching of sensitive plants) did not deviate with statistical significance from the natural variation in the current genetic diversity except in the expected changes in the targeted carotenoid pathway. Similar metabolomic approaches led to the conclusion that a Monsanto Bt maize was substantially equivalent to conventionally bred maize if grown under the same environmental conditions (Vaclavik et al., 2013) and that carotenoid-fortified GE rice was more similar to its parental line than to other rice varieties (Kim et al., 2013). Those studies suggest that use of metabolomics for assessing substantial equivalence will require testing in multiple locations and careful analysis to differentiate genetic from environmental effects, especially because there will probably be effects of gene𠄾nvironment interactions.

Some metabolomic and transcriptomic studies have suggested that transgene insertion or the tissue-culture process involved in regeneration of transformed plants can lead to “metabolic signatures” associated with the process itself (Kusano et al., 2011 Montero et al., 2011). That was reported for GE tomatoes with overproduction of the taste-modifying protein miraculin, although it was pointed out by the authors that, as in comparable studies with other GE crops, “the differences between the transgenic lines and the control were small compared to the differences observed between ripening stages and traditional cultivars” (Kusano et al., 2011).

For metabolomics to become a useful tool for providing enhanced safety assessment of a specific GE crop, it will be necessary to develop a chemical library that contains all potential metabolites present in the species under all possible environmental conditions. It is a daunting task that may be feasible for a few major commodity crops under currently occurring biotic and abiotic stresses, but even that would not necessarily cover future environmental conditions. Annotated libraries of metabolites are unlikely to be developed for minor crops in the near future.

The Epigenome

Hintergrund

Whereas the DNA sequence of a gene encodes the mRNA that is translated into the corresponding protein, the rate at which a gene in the nucleus of a eukaryotic cell is transcribed into mRNA can be heavily influenced by chemical modification of the DNA of the gene and by chemical modification of the proteins associated with the DNA. In plants and other eukaryotes, genomic nuclear DNA can be chemically modified and is bound to an array of proteins in a DNA–protein complex termed chromatin. The major proteins in chromatin are histone proteins, which have an important role in regulating the accessibility of the transcriptional machinery to the gene and its promoter (regulatory region) and thereby control synthesis of mRNAs and proteins. Multiple types of histone proteins are found in plants, each with an array of post-translational modification (for example, acetylation and methylation) that can affect transcriptional competence of a gene. DNA can also be covalently modified by methylation of cytosines that affect transcriptional competence. Collectively, those modifications, which influence the expression of genes and are inheritable over various time spans, are known as epigenetic marks.

Epigenetic marks are determinants of transcriptional competence, and alteration of the epigenetic state (which occurs naturally but infrequently) can alter expression profiles or patterns of target genes. For example, when a transposable element inserts in or near a gene, the gene can be “silenced” as regions near a transposon become highly methylated and transcription-ally suppressed owing to the activity of the cell's native RNA-mediated DNA methylation machinery. Different epigenetic marks occur naturally in crop species examples of transposable element-mediated gene silencing include allelic variation at the tomato 2-methyl-6-phytylquinol methyltransferase gene involved in vitamin E biosynthesis (Quadrana et al., 2014) and imprinting as seen in endosperm tissue, in which differential insertion of transposable elements occurs in the maternal and paternal parents (Gehring et al., 2009).

Methods of Characterizing the Epigenome

Methods of characterizing the epigenome are available and improving rapidly. For DNA methylation, high-throughput, single-nucleotide resolution can be obtained through bisulfite sequencing (BS-seq for review, see Feng et al., 2011 Krueger et al., 2012). BS-seq methods mirror that of genome resequencing except that the genomic DNA is first treated with bisulfite, which converts cytosines to uracils but does not affect 5-methyl-cytosine residues. As a consequence, nonmethylated cytosines will be detected as thymidines after the polymerase chain reaction step during epigenome-library construction. After sequencing, reads are aligned with a reference genome sequence, and nonmethylated cytosines are detected as SNPs and compared with a parallel library constructed from untreated DNA (see section above “Resequencing: Assessing Differences Between the Reference and Query Genome” Figure 7-5). There are limitations of BS-seq approaches, such as incomplete conversion of cytosines, degradation of DNA, and an inability to assess the full methylome because of read mapping limitations, sequencing depth, and sequencing errors, as described above for resequencing. Another limitation is the dynamic nature of plant genome cytosine methylation. Plants derived from an identical parent that have not been subject to any traditional selection or GE transformation can have different epigenomes𠅊n example of 𠇎pigenetic drift” (Becker et al., 2011). Thus, determining the epigenome of a plant at one specific point in time will not necessarily indicate the future epigenome of offspring of that plant.

Histone marks can be detected through chromatin immunoprecipitation coupled with high-throughput sequencing (ChIP-Seq for review see Yamaguchi et al., 2014 Zentner and Henikoff, 2014). First, chromatin is isolated so that the proteins remain bound to the DNA. Then the DNA is sheared, and the DNA that is bound to specific histone proteins is selectively removed by using antibodies specific to each histone mark. The DNA bound to an antibody is then used to construct a library that is sequenced and aligned with a reference genome, and an algorithm is used to define the regions of the genome in which the histone mark is found. Sensitivity and specificity of ChIP-Seq depend heavily on the specificity of the histone-mark antibodies, on technical limitations in alignment of sequence reads with the reference genome, and on the overall quality of the reference genome itself. Also, the present state of understanding does not permit robust prediction of the effects of many epigenetic modifications on gene expression, and gene expression can be more thoroughly and readily assessed by transcriptomics.

Evaluation of Crop Plants Using -Omics Technologies

The -omics evaluation methods described above hold great promise for assessment of new crop varieties, both GE and non-GE. In a tiered regulatory approach (see Chapter 9), -omics evaluation methods could play an important role in a rational regulatory framework. For example, consider the introduction of a previously approved GE trait such as a Bt protein in a new variety of the same species. Having an -omics profile in a new GE variety that is comparable to the profile of a variety already in use should be sufficient to establish substantial equivalence (Figure 7-6, Tier 1). Furthermore, -omics analyses that reveal a difference that is understood to have no adverse health effects (for example, increased carotenoid content) should be sufficient for substantial equivalence (Figure 7-6, Tier 2).

FIGURE 7-6

Proposed tiered crop evaluation strategy crops using -omics technologies. SOURCE: Illustration by R. Amasino. NOTE: A tiered set of paths can be taken depending on the outcome of the various -omics technologies. In Tier 1, there are no differences between (more. )

The approach described above could also be used across species. For example, once it is established that production of a protein (such as a Bt protein) in one plant species poses no health risk, then the only potential health risk of Bt expression in another species is unintended off-target effects. -Omics analyses that reveal no differences (Figure 7-6, Tier 1) or in which revealed differences present no adverse health effects (Figure 7-6, Tier 2) in comparison with the previously deregulated GE crop or the range of variation found in cultivated, non-GE varieties of the same species provide evidence for substantial equivalence. As discussed in Chapter 5 (see section “Newer Methods for Assessing Substantial Equivalence”), there have been more than 60 studies in which -omics approaches were used to compare GE and non-GE varieties, and none of these studies found differences that were cause for concern.

There are also scenarios for which -omics analyses could indicate that further safety testing is warranted, such as if -omics analyses reveal a difference that is understood to have potential adverse health effects (for example, increased expression of genes responsible for glycoalkaloid synthesis) (Figure 7-6, Tier 3). Another scenario is if -omics analyses reveal a change of a protein or metabolite for which the consequences cannot be interpreted and are outside the range observed in GE and non-GE varieties of the crop (Figure 7-6, Tier 4). It is important to note that a Tier 4 scenario is not in and of itself an indication of a safety issue. The functions or health effects of consumption of many genes and corresponding RNAs, proteins, and metabolites in non-GE plants are not known. Furthermore, the chemical structure of many metabolites in plants that can be detected as “peaks” in various analytical systems is not known. Substantially more basic knowledge is needed before -omics datasets can be fully interpreted.

The state of the art of the different -omics approaches varies considerably. Advances in the efficiency of DNA-sequencing technology enable a complete genome or transcriptome to be sequenced at a cost that is modest on the scale of regulatory costs. Transcriptomics could play an important role in evaluation of substantial equivalence because it is relatively straightforward to generate and compare extensive transcriptomic data from multiple biological replicates of a new crop variety versus its already-in-use progenitor. As noted above, if no unexpected differences are found, this is evidence of substantial equivalence. It is possible that two varieties with equivalent transcriptomes have a difference in the level of a metabolite due to an effect of the product of a transgene on translation of a particular mRNA or on activity of a particular protein, but these are unlikely scenarios.

It is also straightforward and relatively low in cost to generate genome-sequence data from many individuals from a new GE or non-GE variety to determine which lineage has the fewest nontarget changes to its genome. As noted earlier in the chapter, mutagenesis, although currently classified as conventional breeding, can result in extensive changes to the genome thus generating DNA sequence data will be useful in evaluating varieties produced by this method.

Metabolomic and proteomic techniques cannot presently provide a complete catalog of the metabolome or proteome. Nevertheless, these -omics approaches can play a role in assessment. For example, a similar metabolome or proteome in a new variety compared to an existing variety provides supporting evidence of substantial equivalence, whereas a difference can indicate that further evaluation may be warranted.

The most thorough evidence of substantial equivalence would result from a complete knowledge of the biochemical constituents of one crop variety compared to other varieties. As noted above, that is not possible with present techniques for the proteome and metabolome. However, looking to the future, an increasing knowledge base of plant biochemistry will translate into fewer analyses that result in a Tier 4 situation, and basic research in plant biochemistry will continue to expand the knowledge base that will enable the thorough and rational evaluation of new crop varieties basic research will also expand fundamental understanding of basic biological processes in plants and thus enable advances in molecular plant breeding.

FINDING: Application of -omics technologies has the potential to reveal the extent of modifications of the genome, the transcriptome, the epigenome, the proteome, and the metabolome that are attributable to conventional breeding, somaclonal variation, and genetic engineering. Full realization of the potential of -omics technologies to assess substantial equivalence would require the development of extensive species-specific databases, such as the range of variation in the transcriptome, proteome, and metabolome in a number of genotypes grown in diverse environmental conditions. Although it is not yet technically feasible to develop extensive species-specific metabolome or proteome databases, genome sequencing and transcriptome characterization can be performed.

RECOMMENDATION: To realize the potential of -omics technologies to assess intended and unintended effects of new crop varieties on human health and the environment and to improve the production and quality of crop plants, a more comprehensive knowledge base of plant biology at the systems level (DNA, RNA, protein, and metabolites) should be constructed for the range of variation inherent in both conventionally bred and genetically engineered crop species.


Schau das Video: Intelligente Datenübertragung zur digitalen Vernetzung. Internet der Dinge IoT (Dezember 2022).