Information

Gilt das Zwei-State-Genexpressionsmodell für konstitutive Gene?

Gilt das Zwei-State-Genexpressionsmodell für konstitutive Gene?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Wikipedia definiert konstitutive Gene als

ein Gen, das kontinuierlich transkribiert wird, im Gegensatz zu einem fakultativen Gen, das nur bei Bedarf transkribiert wird.

Ich habe keinen starken theoretischen Hintergrund in Biologie / Molekularbiologie und studiere derzeit die Genexpression analytisch, insbesondere das Zwei-Zustands-Modell der Genexpression, bei dem ein Gen im 'ON'- oder 'OFF'-Zustand sein kann. Aus dieser Definition verstehe ich, dass sich konstitutive Gene immer im 'ON'-Zustand befinden, obwohl ich nicht sicher bin, ob dies der Fall ist, da andere Quellen konstitutive Gene als Gene beschreiben, die auf einem relativ konstanten Niveau exprimiert werden, was immer noch sein könnte ein Gen, das zwischen 'ON/OFF'-Zuständen schwankt.


Unterscheidung der Genaktivierungsraten von phänotypischen Variationen

Stochastische genetische Umschaltung durch intrinsisches Rauschen ist ein wichtiger Prozess bei der Genexpression. Wenn die Raten der Genaktivierung/-inaktivierung im Vergleich zu den Synthese-/Abbauraten von mRNAs und Proteinen relativ langsam, schnell oder mittel sind, kann die Variabilität der Protein- und mRNA-Spiegel sehr unterschiedliche dynamische Muster aufweisen. Es ist wünschenswert, einen systematischen Ansatz bereitzustellen, um ihre dynamischen Schlüsselmerkmale in verschiedenen Regimen zu identifizieren, mit dem Ziel, zu unterscheiden, in welchem ​​​​Regime sich ein betrachtetes Genregulationsnetzwerk befindet, von seinen phänotypischen Variationen.

Ergebnisse

Wir untersuchten ein Genexpressionsmodell mit positiven Rückkopplungen, wenn die genetischen Umschaltraten über einen weiten Bereich variieren. Mit dem Ziel, eine Methode zur Unterscheidung des Regimes der Wechselraten bereitzustellen, konzentrieren wir uns zunächst darauf, die wesentliche Dynamik des Genexpressionssystems in verschiedenen Fällen zu verstehen. Im Bereich der langsamen Schaltgeschwindigkeiten haben wir festgestellt, dass die effektive Dynamik auf unabhängige Evolutionen auf zwei getrennten Schichten reduziert werden kann, die den Genaktivierungs- und -inaktivierungszuständen entsprechen, und die Übergänge zwischen zwei Schichten sind seltene Ereignisse, wonach das System hauptsächlich deterministisch verläuft ODE-Trajektorien auf einer bestimmten Schicht, um neue stationäre Zustände zu erreichen. Die Energielandschaft in diesem Regime kann mit Hilfe des Gaußschen Mischungsmodells gut approximiert werden. Im Bereich der mittleren Schaltraten haben wir die mittlere Schaltzeit analysiert, um die Stabilität des Systems in verschiedenen Parameterbereichen zu untersuchen. Wir diskutierten auch den Fall schneller Schaltraten aus der Sicht der Übergangszustandstheorie. Basierend auf den erhaltenen Ergebnissen haben wir einen Vorschlag gemacht, diese drei Regime in einem Simulationsexperiment zu unterscheiden. Wir identifizierten das Zwischenregime aus der Tatsache, dass die Stärke des zellulären Gedächtnisses geringer ist als in den anderen beiden Fällen, und das schnelle und das langsame Regime können durch ihr unterschiedliches Störungs-Antwort-Verhalten in Bezug auf die Schaltraten-Störungen unterschieden werden.

Schlussfolgerungen

Wir haben ein Simulationsexperiment vorgeschlagen, um die langsamen, mittleren und schnellen Regime zu unterscheiden, was der Hauptpunkt unserer Arbeit ist. Um dieses Ziel zu erreichen, haben wir systematisch die wesentliche Dynamik des Genexpressionssystems untersucht, wenn sich die Wechselraten in unterschiedlichen Regimen befinden. Unser theoretisches Verständnis liefert neue Einblicke in die Genexpressionsexperimente.

Elektronisches Zusatzmaterial

Die Online-Version dieses Artikels (doi:10.1186/s12918-015-0172-0) enthält ergänzendes Material, das autorisierten Benutzern zur Verfügung steht.


Hintergrund

Obwohl die Bedeutung der Stochastik bei der Genexpression vor mehr als drei Jahrzehnten erwartet wurde [1-3], wurde die Existenz einer starken stochastischen Komponente bei der Genexpression erst vor kurzem experimentell nachgewiesen, was zeigt, dass isogene Zellen trotz konstanter Umweltbedingungen zeigen signifikante Schwankungen ihrer Genexpressionsniveaus [4-10]. Darüber hinaus wurde gezeigt, dass regulierte Stochastik und die daraus resultierende phänotypische Diversität an mehreren biologischen Prozessen beteiligt sind [11], einschließlich Zelldifferenzierung [12,13], Entwicklung [14,15], Virus-Entscheidungsfindung [12,16] und das Überleben von Bakterien bei Umweltstress [17-20].

Viele Studien haben gezeigt, dass das durchschnittliche Expressionsniveau eines Gens stark von seiner genomischen Position abhängt [21-25]. In kultivierten Zellen ist der Positionseffekt zum Schweigen (ähnlich der Variation des Positionseffekts in Drosophila und Säugetiere) ist ein gut charakterisiertes Beispiel für den Einfluss von Chromatin auf die Genexpression bei einem stabil integrierten Transgen tritt eine fortschreitende Stummschaltung des Reporters ein, mit einer stark von der Integrationsstelle abhängigen Geschwindigkeit [26]. Mehrere Studien, die auf Behandlungen mit 5-Azacytidin (einem DNA-Demethylierungsmittel [27]) und mit Trichostatin A (einem Histon-Deacetylase-Hemmer [28]) basieren, haben gezeigt, dass DNA-Methylierung und Histon-Acetylierung eine zentrale Rolle in diesem Prozess spielen. Tatsächlich kehren diese Behandlungen die Extinktion des Transgens um [26,29]. Fast alle dieser Studien haben sich jedoch auf den Mittelwert der Genexpression konzentriert, und nur wenige haben sich mit der Frage nach den Beziehungen zwischen stochastischer Genexpression und Chromatin in Hefe [30-35] oder höheren Eukaryoten [36-35] beschäftigt. 39].

Anfänglich in Prokaryoten [4,40] durchgeführt, wurden Experimente zur Erforschung der molekularen Ursachen der stochastischen Genexpression schnell auf Hefemodelle ausgedehnt [6,31,41,42]. Diese Experimente legten nahe, dass neben trivialen Aspekten wie der Anzahl kleiner Moleküle auch komplexere Ursachen wie das Chromatin-Remodeling wichtige Akteure bei der stochastischen Genexpression sind [43]. Genauer gesagt ist von den verschiedenen möglichen Quellen der Stochastik eine besonders vielversprechend, nämlich die ortsabhängige Chromatindynamik (z Kandidat, um die Regulation der stochastischen Genexpression zu erklären. Diese Rolle des Chromatins wurde durch die Arbeit von Becskei . hervorgehoben et al., der 2005 die Existenz von genomischen Domänen im Hefegenom nachwies, die ein geringes Transkriptionsrauschen (d. h. den Teil der stochastischen Genexpression, der aus einer unregelmäßigen Transkriptproduktion entsteht) erzeugen [31]. Im folgenden Jahr analysierte Raj . die Variabilität der mRNA-Spiegel von Tandem- und Nicht-Tandem-integrierten Transgenpaaren in Säugerzellen et al. identifizierten den Einfluss der genomischen Domäne auf das Transkriptionsrauschen, was auf die Bedeutung der Wechselrate zwischen Chromatinzuständen durch Remodeling hindeutet. Bei einer Chromatindekondensation bzw. -kondensation würde es zu einer Genaktivierung bzw. -inaktivierung kommen [36]. Um die Wirkung des Chromatin-Remodelings auf die Promotoraktivierung und damit auf die stochastische Genexpression zu analysieren, verwendeten Raser und O'Shea Hefestämme, denen Komponenten der Chromatin-Remodeling-Komplexe fehlen. Eine wichtige Schlussfolgerung ihrer Arbeit war, dass die Veränderung von Chromatin-remodellierenden Enzymen zu Veränderungen der stochastischen Genexpression führte [42]. Die meisten dieser Studien haben jedoch versucht, die Chromatindynamik mit indirekten Ansätzen mit der stochastischen Genexpression zu verknüpfen [31,36,42,44].

In vielen Situationen, von Prokaryoten bis zu Eukaryoten, wurde gezeigt, dass einfache mathematische Modelle, die die Transkriptionsdynamik als Zwei-Zustands-Prozess beschreiben, die stochastische Expression eines Gens effektiv erklären [45,46]. Tatsächlich ist das Zwei-Staaten-Modell, auch als „Random-Telegraph-Modell“ bekannt [47,48], mittlerweile ein Standard auf diesem Gebiet. Dieses Modell geht davon aus, dass der Promotor zufällig zwischen zwei Zuständen wechselt, „an“ und „aus“, wobei nur der erstere das Auftreten von Initiationsereignissen ermöglicht. Diese Übergänge könnten mehreren Mechanismen entsprechen, einschließlich der Montage und Demontage spezifischer Komplexe, der Progression durch den Zellzyklus oder der Rekrutierung des Locus in Transkriptionsfabriken [49]. In vielen Fällen stützen Beweise die Hypothese, dass diese „Ein“- und „Aus“-Zustände hauptsächlich alternative Chromatin-Konfigurationen widerspiegeln [50].

Vor kurzem mit einem kurzlebigen Luciferase-Protein, Suter et al. überwachten die Transkription mit hoher zeitlicher Auflösung in einzelnen Säugerzellen und identifizierten Transkriptionsschübe, einen Mechanismus, der zuvor bei Prokaryonten und Eukaryonten vorgeschlagen wurde [4,36]. Mit dem Random-Telegraph-Modell charakterisierten sie die zeitlichen Muster von Transkriptions-Bursts für verschiedene Gene und erhielten die Verteilungen der „Ein“- und „Aus“-Zeiten [51]. Harper et al. führten eine ergänzende Analyse des Transkriptionsburstings in einzelnen Säugerzellen durch [52]. Durch Quantifizierung der Zeitabhängigkeit und des zyklischen Verhaltens der Transkriptionspulse des Prolaktin-Promotors schätzten sie die Länge und Variation sowohl transkriptionell aktiver als auch inaktiver Phasen ab. Beide Studien weisen auf die Existenz einer refraktären „Aus“-Phase hin, unterscheiden sich jedoch in Bezug auf die Rolle des Chromatin-Remodelings im Gegensatz zur Suter-Studie, in der die Chromatinumgebung bei der Bildung von Berstmustern eine untergeordnete Rolle zu spielen schien, Harper et al. schlossen daraus, dass das Chromatin-Remodeling eine wichtige Rolle beim Timing des transkriptionalen Burstings spielen könnte. Schließlich, basierend auf Zeitraffer-Fluoreszenzmikroskopieexperimenten, gekoppelt mit der Verwendung des Zwei-Zustands-Modells, Dar et al. gaben kürzlich eine umfassende Studie zum Rauschen in Säugerzellen [53]. In ihrer Arbeit schlugen diese Autoren vor, dass das transkriptionale Bursting im Gegensatz zur konstitutiven Expression im gesamten menschlichen Genom dominiert. Darüber hinaus fanden sie durch die Analyse von mehr als 8.000 verschiedenen genomischen Loci heraus, dass sowohl die Häufigkeit als auch die Burst-Größe je nach chromosomaler Position variieren. Daher bleibt die Rolle der Chromatindynamik bei der Kontrolle der stochastischen Genexpression in höheren Eukaryoten ein zentrales Thema der Debatte.

In einer vorläufigen Studie zeigte unsere Gruppe mit isogenen Zellpopulationen, die einen fluoreszierenden Reporter exprimieren, dass die Modifikation von Chromatinmarkierungen unter Verwendung von Chromatin-modifizierenden Mitteln wie 5-Azacytidin (5-AzaC) und Trichostatin A (TSA) signifikante Auswirkungen auf mittlere Fluoreszenzintensität (MFI) und normalisierte Varianz (NV, dh die Varianz normalisiert durch das Quadrat des Mittelwerts) [11]. Wir zeigten auch, dass TSA und 5-AzaC unterschiedliche Wirkungen auf NV hatten, während ihre Wirkungen auf MFI ähnlich waren. Schließlich untersuchten wir die mögliche Reversibilität der durch Durchflusszytometrie identifizierten Effekte nach den medikamentösen Behandlungen, und stellten fest, dass MFI, NV und die Form der Fluoreszenzverteilungen dazu neigten, nach Behandlungsende zu ihren ursprünglichen Werten zurückzukehren. Dieses Ergebnis, das die vollständige Reversibilität des zellulären Systems nach wichtigen Veränderungen des Chromatinzustands zeigt, legt nahe, dass Zellen in der Lage sein könnten, ihr Niveau der stochastischen Genexpression durch Modifikationen von Chromatinmarkierungen vorübergehend zu modifizieren, bevor sie in ihren ursprünglichen physiologischen Zustand zurückkehren.

Um den möglichen Einfluss der Chromatin-Öffnungs-/Schließungsdynamik auf die Stochastik der Genexpression zu untersuchen, wurde im nächsten Schritt biologische Experimente mit einer Modellierungsanalyse kombiniert. Zu diesem Zweck erzeugten wir eine Reihe klonaler isogener Zellpopulationen aus Hühnererythrozyten-Vorläufern (6C2-Zellen). Diese Populationen wurden stabil mit einer einzigartigen Kopie eines Reportergens transfiziert, das für das rot fluoreszierende Protein mCherry kodiert, aber der Reporter wurde in jedem Klon an unterschiedlichen chromosomalen Positionen eingefügt (Abbildung ​ (Abbildung 1, 1 , links). Zytometrie-Messungen fanden wir erhebliche Unterschiede von Klon zu Klon in der stochastischen Expression des Reporters. Insbesondere hatten einige Klone sehr ähnliche MFI, aber unterschiedliche NV-Werte. Da der einzige Unterschied zwischen diesen Klonen die genomische Position des Reporters war , müssen die beobachteten Unterschiede in der stochastischen Genexpression auf den chromosomalen Positionierungseffekt zurückzuführen sein, wie zum Beispiel die lokusspezifische Dynamik des Chromatins, das das Transgen umgibt.Um zu beurteilen, ob die Chromatindynamik die Stochastik der Genexpression signifikant beeinflusst, behandelten wir einige Klone mit 5-AzaC Zellreaktionen auf diese Medikamente zeigten eindeutig, dass sowohl MFI als auch NV betroffen waren, was darauf hindeutet, dass die Chromatinumgebung des re Porter-Gen spielt eine bedeutende Rolle bei der Stochastik seiner Expression. Dieses Ergebnis bestätigte die vorläufigen Schlussfolgerungen unseres Teams [11]. Durch die Anpassung eines Zweizustandsmodells an die experimentellen Daten lieferten wir eine mechanistische Interpretation der Klon-zu-Klon-Vielfalt der Expressionsmuster in Bezug auf Unterschiede in der Chromatindynamik. Genauer gesagt haben wir auf der Grundlage sowohl analytischer Ableitungen [45] als auch Simulationen [54] die Dynamik des Modells untersucht und seine kinetischen Parameter iterativ verfeinert. Das Ergebnis war eine genaue Reproduktion der Verteilung der Expressionsspiegel vor, während und nach der medikamentösen Behandlung.

Experimentelle Strategie zur Bewertung der Rolle der Chromatinumgebung auf die stochastische Genexpression. Nach der Generierung zellulärer Klone, die den fluoreszierenden Reporter exprimieren mCherry, stabil als einmalige Kopie in das Genom integriert, wurden die durch Durchflusszytometrie ('FACS') erhaltenen Fluoreszenzverteilungen mit simulierten Verteilungen verglichen, die durch ein Zwei-Zustands-Modell ('Modell') erzeugt wurden. Nach experimenteller Bestimmung und Untersuchung von Transkriptions-Translations-Parametern (ρ, Transkriptionsrate γ, Translationsrate ρ ˜ , mRNA-Abbaurate γ ˜ , Proteinabbaurate und α, Proteinfluoreszenzkoeffizient), wurden die besten Parametersätze identifiziert und dann zur Berechnung der spezifischen Chromatindynamik verwendet (kAnund kaus, die jeweils die Öffnungs- und Schließübergangsraten des Chromatins an der Reporterintegrationsstelle sind) für jeden Klon.

Unsere aktuelle Studie unterstützt die Ansicht, dass die Expressionsdynamik stark von kurzen und seltenen Transkriptionsausbrüchen angetrieben wird, wie zuvor in anderen Modellen, einschließlich Säugetiermodellen, beschrieben. Der größte Fortschritt dieser Arbeit besteht jedoch darin, dass die Dauer und Intensität der Bursts zwar keine starken Unterschiede von Klon zu Klon aufwiesen, die Zeit zwischen den Bursts jedoch stark von der genomischen Position abhängt und weitgehend durch medikamentöse Behandlungen beeinflusst wird, die Chromatin. Daher erweist sich die positionsabhängige Öffnungsdynamik von Chromatin als Schlüsseldeterminante der Stochastik in der Genexpression.


Methoden

Wir betrachten ein Genexpressionsmodell mit vier Zuständen mit positiver Rückkopplungsschleife (Abb. 1 a). Proteine ​​sind in diesem System Selbstaktivatoren, da sie an DNA binden und den Transkriptionsschritt aktivieren können. Die Chromatinöffnung wird relativ einfach, wenn die DNA an ein monomeres regulatorisches Protein gebunden ist. Offene Chromatinstruktur ist für die Transkription zulässig, geschlossenes Chromatin jedoch nicht. Die Geschwindigkeit der mRNA-Produktion erreicht ihr Maximum im gebundenen und offenen Zustand der DNA. Darüber hinaus unterliegen Proteine ​​und mRNAs einem Abbau, der in Abb. 1 a nicht dargestellt ist. Unter der Annahme, dass Bindung und Freisetzung regulatorischer Proteine ​​im schnellen Gleichgewicht stehen [20, 21], kann dieses Vierzustandsmodell durch die Quasi-Steady-State-Approximation (QSSA) in ein Zweizustandsmodell (Abb. 1 b) vereinfacht werden ( Details zur Ableitung siehe Zusatzdatei 1) [22, 23]. Wir werden sagen, dass das Gen ist offen (abgeschlossen) wenn das Chromatin offen (geschlossen) ist und das System durch Genaktivierungs-/Inaktivierungsschritte zwischen offenen und geschlossenen Genzuständen wechselt.

Schematische Darstellung des genetischen Switching-Modells mit positivem Feedback. ein Vier-Staaten-Modell. Ein einzelnes regulatorisches Protein kann an die DNA binden und die Effizienz der Chromatinöffnung verbessern. Wenn das Chromatin geöffnet ist, wird mRNA synthetisiert und später in ein regulatorisches Protein übersetzt. Die vier Zustände der DNA sind (i) geschlossen und unbeschränkt, (ii) geschlossen und beschränkt, (iii) offen und unbeschränkt, (iv) offen und beschränkt. Die Umschaltungen zwischen den benachbarten Zuständen sind reversibel. B Vereinfachtes Zwei-Zustands-Modell. Das Binden/Entbinden wird durch die QSSA reduziert

Im Zweizustandsmodell treten sechs Reaktionen unter vier chemischen Spezies auf. Alle an diesem System beteiligten Reaktionen sind in Tabelle 1 zusammengefasst. Hier m und n sind die Anzahlen von Proteinmolekülen bzw. mRNA-Molekülen. Die Sprungrate in den offenen Zustand und die Transkriptionsrate werden durch die relative Besetzung des Proteins an der DNA-Bindungsstelle (d. h. Ö P), wohingegen die Sprungrate in den geschlossenen Zustand nicht von der Anzahl der Proteine ​​beeinflusst wird. Ö P hat die form Ö P=n/(n+K), wo K ist eine Konstante durch Reduktion und repräsentiert die Stärke des positiven Feedbacks. Es ist tatsächlich die bedingte Wahrscheinlichkeit des Zustands (iv) in Abb. 1 a, wenn das Chromatin offen ist. Die Raten k g Ö P+k g0 und k R Ö P+k R0 charakterisieren die Genaktivierung und mRNA-Synthese, die von der Anzahl der Proteine ​​abhängig sind. Die Konstanten D g, k P, D R und D P entsprechen den Raten von Geninaktivierung, Proteinsynthese, mRNA und Proteinabbau. In der Tat, wenn wir annehmen, dass Dimerproteine ​​(oder andere Proteine ​​vom Multimertyp) das Gen anstelle des Monomerproteins regulieren, Ö P wird die form haben Ö P=n k /(n k +K k ). Der Wert von k wird die wesentliche Dynamik des Genexpressionsmodells nicht beeinflussen, vorausgesetzt, wir wählen den richtigen Parameterbereich in Bezug auf verschiedene k. Unter einigen vernünftigen Annahmen sind die meisten Ableitungen und Ergebnisse im nächsten Abschnitt immer noch richtig (siehe Zusatzdatei 1 für Details).

Aufgrund des Eigenrauschens kann die Dynamik des Systems durch die chemische Mastergleichung (CME) [1, 24–27] beschrieben werden als

wo P α(m,n) steht für die Wahrscheinlichkeit, dass es m mRNA-Moleküle und n Proteinmoleküle im System, wenn das Gen geöffnet ist (α=1) oder geschlossen (α=0). Eine Möglichkeit, das Verhalten des Systems zu untersuchen, besteht darin, die Gleichungen numerisch zu lösen. 1-(2) durch Abschneiden der Domäne und Setzen der Randbedingungen P α(m,n)=0 wenn (mgeqslant M) , (ngeqslant N) (m,n ist groß genug, α=0,1). Aber nur diese Lösung zu erhalten bedeutet nicht, dass wir den wesentlichen Mechanismus der Dynamik verstehen, und der Rechenaufwand kann enorm sein, wenn die mittlere Anzahl von Molekülen in diesem System ziemlich groß ist. Daher versuchen wir, andere Wege zu finden, um etwas über die Dynamik zu erfahren.

Wir definieren einen Schlüsselparameter κ zwei charakteristische Zeitskalen des Problems zu vergleichen: die Zeitskala (d_

^<-1>), auf dem sich der Genzustand ändert und die Zeitskala (d_^<-1>), auf dem sich die Anzahl der Protein- und mRNA-Moleküle ändert, wobei (d_

^<-1>) ist die Lebensdauer eines einzelnen Proteins und (d_^<-1>) ist die Lebensdauer des offenen Genzustands. Das Verhältnis κ=D g/D P kann jeden positiven Wert annehmen, was zu deutlichen Unterschieden in der Dynamik führt. Kleine Verhältnisse (κ ≪ 0,01) beschreiben lange Zeitskalen der Änderung von Genzuständen, verglichen mit der Zeitskala, auf der sich mRNA- und Proteinzahlen ändern. In diesem Regime bleibt dem System genügend Zeit, um einen stabilen Zustand zu erreichen, wenn das Gen entweder offen oder geschlossen ist. Der Übergang von einem stationären Zustand in einen anderen erfolgt immer unmittelbar nach den genetischen Schaltern. Große Werte des Verhältnisses (κ ≫ 1) weisen darauf hin, dass sich die Genzustände sehr schnell ändern, während die Synthese und der Abbau von Protein- und mRNA-Molekülen relativ langsam ablaufen. Wie κ gegen Unendlich geht, weist das System die deterministischen Merkmale auf [13, 15]. Wann κ weder groß noch klein genug ist, finden genetische Schalter, Transkription und Translation auf der gleichen Zeitskala statt. Die Dynamik in diesem Regime ist kompliziert, und analytische Ergebnisse sind schwer zu erreichen. Also greifen wir auf numerische Simulationen zurück und extrahieren nützliche Informationen. In allen drei Regimen können bei richtiger Wahl der Parameter metastabile Zustände auftreten. Tatsächlich werden wir in späteren Berechnungen einen Satz biologisch relevanter Parameter verwenden (siehe Zusätzliche Datei 1 für Details). Der Einfachheit halber nennen wir den stationären Zustand mit einer relativ großen Anzahl von Proteinen als An Zustand, während der Steady-State mit einer relativ kleinen Anzahl von Proteinen aus Zustand.


Schlussfolgerungen

Frühere Versuche, HIV-Transkription und -Latenz über mathematische Modelle zu simulieren, haben entweder einen oder zwei Promotor-Zustände angenommen, wobei einige Studien Tat-positives Feedback einschließen und andere sich dafür entschieden haben, es auszuschließen 17,19,30,32,33,40,41 . In diesem Artikel verfolgten wir einen umfassenderen Ansatz und präsentieren eine vergleichende Analyse multipler Promotor-Aktivierungsmechanismen mit vielen Feedback-Strukturen und Variationen im transkriptionalen Bursting-Verhalten. Wir entschieden uns auch, den Parameterraum zu untersuchen, der sehr niedrige basale Transkriptionsraten umfasst, der in früheren Studien nicht berücksichtigt wurde, aber repräsentativer für latentes virales Verhalten sein könnte. Darüber hinaus präsentierten wir die neuartige Anwendung eines Drei-Zustands-Modells (bestehend aus zwei inaktiven Zuständen und einem aktiven Zustand) im spezifischen Kontext von HIV und kombiniert mit Tat-positivem Feedback. Wir finden, dass dieses Modell die beobachtete heterogene Reaktivierung genauer widerspiegelt und daher möglicherweise besser geeignet ist, um zu bewerten, wie Rauschen die Virusclearance beeinflusst.

Während frühere Studien experimentelle chemische Störungsdaten, die aus HIV-Latenzmodellen von Zelllinien abgeleitet wurden, an ein Zwei-Zustands-LTR-Modell angepasst haben 8,30,31,32,33, legen unsere Ergebnisse nahe, dass die Hinzufügung eines dritten Zustands mehr Parameter liefert, mit denen beschreiben die Mechanismen, die die Latenz aufrechterhalten und die experimentellen Daten genauer anpassen können. Zwei Substanzklassen – Aktivatoren von Transkriptionsfaktoren und Histondeacetylase(HDAC)-Inhibitoren – sind vielversprechende Beispiele für HIV-Latenzumkehrmittel (LRA), die in mehreren Latenzmodellen und in Patientenproben getestet wurden 42,43,44 . Diese Medikamente führen jedoch oft nicht zu einer vollständigen Aktivierung, selbst in Zelllinien-Latenzmodellen, teilweise aufgrund zusätzlicher Repressionsmechanismen, einschließlich CpG-Methylierung und Histon-Methylierung 37,45 . Das Drei-Zustands-Modell bietet ein Mittel, um diese zusätzlichen repressiven Zustände mathematisch zu beschreiben und effektiver zu simulieren, wie kombinatorische Behandlungen Integrationsstellen beeinflussen, die die Transkription stark einschränken.

Letztendlich ermöglichten uns die in diesem Artikel vorgestellten Modellierungsrahmen, zu untersuchen, wie stochastische Fluktuationen auf der Ebene des Promotors zur experimentell beobachteten phänotypischen Variabilität von Zelle zu Zelle bei der Reaktivierung aus der Latenz beitragen. Obwohl einfache Computermodelle, wie in diesem Artikel vorgestellt, eine enorme Komplexität experimenteller Beobachtungen rekapitulieren können, können sich zukünftige Modellierungsbemühungen auf detailliertere und genauere Darstellungen der Chromatinbiologie und der Transkriptionsregulation konzentrieren.


Theorie des Transkriptionsburstings: Stochastik in den Transkriptionsraten

Transcription Bursting erzeugt Variation zwischen den Individuen einer gegebenen Population. Das Platzen entsteht als Folge des zufälligen Ein- und Ausschaltens des Transkriptionsprozesses. Es gibt mindestens drei Teilprozesse, die an dem Berstphänomen mit unterschiedlichen Zeitskalenregimen beteiligt sind, nämlich. Flipping über die On-Off-Zustandskanäle, mikroskopische Transkriptionselongationsereignisse und die mesoskopische Transkriptionsdynamik zusammen mit dem mRNA-Recycling. Wir zeigen, dass die Verteilung der resultierenden Transkriptionsraten überstreut ist, wenn die Flipping-Dynamik mit den mikroskopischen Elongationsereignissen gekoppelt ist. Dies wiederum spiegelt sich als platzende Transkription mit einer überdispergierten Nicht-Poisson-Typ-Verteilung der mRNA-Zahlen wider. Wir zeigen weiter, dass es optimale Flipping-Raten gibt (αC, βC), bei dem der stationäre Fano-Faktor und die mit den mRNA-Zahlen verbundene Varianz Maxima erreichen. Diese optimalen Punkte sind über ( alpha_ = sqrt <eta_left( <eta_+ gamma_ > echts)> ) . Hier α ist die Geschwindigkeit des Umschaltens vom eingeschalteten in den ausgeschalteten Zustand, β ist die Geschwindigkeit des Umschaltens vom ausgeschalteten in den eingeschalteten Zustand und γR ist die Zerfallsrate von mRNA. Wann α = β = χ mit Nullrate im Aus-Zustandskanal, dann gibt es optimale Flippingraten, bei denen der nicht-stationäre Fano-Faktor und die Varianz Maxima erreichen. Hier ( chi_ simeq <<3k_^ < + >> mathord^ < + >> <2links( <1 + k_^ < + >t> ight)>>> ight. kern-0pt> ​​<2left( <1 + k_^ < + >t> ight)>> ) (hier ( k_^ < + >) ist die Transkriptionsrate rein durch den Elongationskanal im eingeschalteten Zustand) ist die optimale Flipping-Rate, bei der die Varianz der mRNA ein Maximum erreicht und ( chi_ simeq <<1.72>mathord t>> ight. kern-0pt> ​​t> ) ist die optimale Flipping-Rate, bei der der Fano-Faktor ein Maximum erreicht. Eine genaue Beobachtung des Transkriptionsmechanismus zeigt, dass die RNA-Polymerase mehrere Runden einer Stall-Continue-Typ-Dynamik durchführt, bevor sie eine vollständige mRNA erzeugt. Basierend auf dieser Beobachtung modellieren wir das Transkriptionsereignis als stochastische Trajektorie der Transkriptionsmaschinerie über diese Elongationskanäle im Ein-Aus-Zustand. Jedes mRNA-Transkript folgt einer anderen Trajektorie. Die Gesamtzeit, die eine gegebene Trajektorie benötigt, ist die First-Passage-Time (FPT). Invers zu dieser FPT ist die resultierende Transkriptionsrate, die mit der bestimmten mRNA verbunden ist. Daher ist die zur Erzeugung eines bestimmten mRNA-Transkripts erforderliche Zeit eine Zufallsvariable. Für eine Stall-Continue-Typ-Dynamik der RNA-Polymerase zeigen wir, dass die durchschnittliche Gesamttranskriptionsrate als (k_ simeq h_^ < + >k_^ < + >) wobei ( k_^ < + >simeq <^ < + >> mathord^ < + >> L>> echts. kern-0pt> ​​L> ) , λ + R die mikroskopische Transkriptionselongationsrate im eingeschalteten Kanal ist und L die Länge eines vollständigen mRNA-Transkripts ist und h + = [β/(α + β)] ist die stationäre Zustandswahrscheinlichkeit, die Transkriptionsmaschinerie im eingeschalteten Kanal zu finden.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Beziehung zwischen PBNs und anderen probabilistischen grafischen Modellen

Probabilistische graphische Modelle, die üblicherweise in der Computerbiologie für die Netzrekonstruktion verwendet werden, stellen die Mittel zur Darstellung komplexer gemeinsamer Verteilungen bereit. Beispiele hierfür sind PBNs, Bayessche Netze und deren Varianten, zB dynamische und hierarchische Bayessche Netze, Hidden-Markov-Modelle, Faktorgraphen, Markov-Zufallsfelder, bedingte Zufallsfelder, Markov-Logiknetze usw. In diesem Abschnitt diskutieren wir die Beziehung zwischen den beiden sie, die normalerweise verwendet werden, um mit Systemdynamik umzugehen: die PBNs und die dynamischen Bayesschen Netzwerke, wobei letztere Hidden-Markov-Modelle verallgemeinern.

Ein Bayes-Netzwerk ist im Wesentlichen eine grafische, kompakte Darstellung einer gemeinsamen Wahrscheinlichkeitsverteilung. Das Bayessche Netz besteht aus zwei Elementen. Erstens, ein gerichteter azyklischer Graph (DAG), bei dem die Ecken des Graphen Zufallsvariablen darstellen und die gerichteten Kanten oder deren Fehlen das sogenannte Markovasche Annahme, die besagt, dass jede Variable unabhängig von ihren Nicht-Nachkommen ist, wenn ihre Eltern gegeben sind[8, 123]. Zweitens ein Satz lokaler bedingter Wahrscheinlichkeitsverteilungen für jeden Knoten, wenn seine Eltern im Graphen gegeben sind. Durch die Kettenregel der Wahrscheinlichkeiten lässt sich die gemeinsame Wahrscheinlichkeitsverteilung auf den Zufallsvariablen im Graphen in ein Produkt der lokalen bedingten Wahrscheinlichkeiten zerlegen, d. h. wenn n zufällige Variablen x ich, ich = 1,2,…,n und Pa(x ich) bezeichnet die Eltern von x ich im Graphen dann die gemeinsamen Wahrscheinlichkeitsverteilungsfaktoren als

Zwei verschiedene Bayes-Netzwerke können denselben Satz von Unabhängigkeiten codieren. Solche Netzwerke nennt man Äquivalent. Äquivalente Netze können beim Rückschluss auf das Netz aus Messdaten nicht unterschieden werden. Eine Möglichkeit, diese Schwierigkeit zu umgehen, besteht darin, gezielte Interventionsexperimente durchzuführen, die den Bereich möglicher Netzwerkarchitekturen eingrenzen können.

Dynamische Bayes-Netzwerke (DBNs) sind Erweiterungen von Bayes-Netzwerken auf den zeitlichen Bereich und können zur Modellierung stochastischer Prozesse verwendet werden[70]. DBNs verallgemeinern Hidden-Markov-Modelle und lineare dynamische Systeme, indem sie die bedingten Abhängigkeiten und Unabhängigkeiten zwischen Variablen im Zeitverlauf darstellen. Im Gegensatz zu Bayesschen Netzwerken können DBNs verwendet werden, um Feedback-Beziehungen zu modellieren, ein allgegenwärtiges Element in der genetischen Regulation. Im Vergleich zu PBNs unterstützen dynamische Bayes-Netzwerke die Zuweisung quantitativer Zustandswerte, wodurch dieser Modellierungsansatz flexibler für den Umgang mit verschiedenen Datentypen wird. DBNs werden allgemein verwendet, um biologische Netzwerke wie Genregulationsnetzwerke[124–127], Signalübertragungsnetzwerke, z. B.[128–130], metabolische Netzwerke[131] sowie Netzwerke in Physiologie und Medizin[132–136] darzustellen. .

Wie in[137] gezeigt, können PBNs und binärwertige DBNs, von denen angenommen wird, dass sie anfängliche und Übergangs-Bayes-Netzwerke nur innerhalb bzw. zwischen aufeinanderfolgenden Slice-Verbindungen aufweisen, dieselbe gemeinsame Wahrscheinlichkeitsverteilung über ihre gemeinsamen Variablen darstellen. Dies gilt sowohl für unabhängige als auch für abhängige Varianten von PBNs. Es gibt jedoch viele statistisch äquivalente PBNs, die einem DBN entsprechen. Einerseits kann das PBN-Framework aus probabilistischer Sicht als redundant angesehen werden. Andererseits ist es aus funktioneller Sicht reicher, weil es die regulatorischen Rollen verschiedener Gensets detaillierter modelliert als die bedingten Wahrscheinlichkeiten in DBNs[137]. Die Umwandlungsalgorithmen zwischen den beiden Modellierungsformalismen werden in[137] sowohl für unabhängige als auch für abhängige PBNs vorgestellt. Auch die Erweiterungen von Standard-PBNs zu kontextsensitiven PBNp werden diskutiert. Die Störungen und der Kontextwechsel können in den DBN-Formalismus eingeführt werden, indem dem dynamischen Bayes-Netzwerk zusätzliche versteckte Knoten hinzugefügt werden, wie in[137] gezeigt.

In Bezug auf Anwendungen hat sich gezeigt, dass sowohl der PBN- als auch der DBN-Ansatz grundsätzlich eine gute Leistung bei der Inferenz von Genregulationsnetzwerken aus Microarray-Daten aufweisen[138]. Darüber hinaus ermöglicht es die Verbindung zwischen PBNs und DBNs, die erweiterten DBNs auf PBNs-Tools anzuwenden und umgekehrt. So existiert bereits eine reichhaltige Sammlung von Lerntheorien und Algorithmen für DBNs und Methoden zur Analyse des zeitlichen Verhaltens von DBNs sind bereits etabliert. Diese Techniken können so zugeschnitten werden, dass sie direkt im Kontext von PBNs angewendet werden. Umgekehrt können das Werkzeug zur Steuerung des stationären Verhaltens der Netze, Werkzeuge zur Netzprojektion, Knotenadjunktion, Auflösungsreduktion sowie effiziente Lernverfahren auf DBNs angewendet werden.

Wie in[139] dargestellt, können PBNs und dynamische Bayessche Netzwerke als aus einer probabilistischen (Markov-Kette) und einer (booleschen) Logikkomponente bestehend betrachtet werden. Im Fall eines dynamischen Bayesschen Netzes wird die Wahrscheinlichkeitskomponente durch eine bedingte Wahrscheinlichkeitskettenregel und eine Markov-Kette definiert, während die logische Komponente durch eine Aussagenlogik mit strukturellen Anforderungen gegeben ist. Wie in[139] gezeigt, werden Bayessche Netze mit ihren hierarchischen und dynamischen Varianten sowie probabilistische Boolesche Netze alle durch Markov-Logiknetze verallgemeinert. Es gilt die gleiche Trennung der Komponenten. Für ein Markov-Logiknetzwerk ist die Wahrscheinlichkeitskomponente ein Markov-Zufallsfeld und die Logikkomponente ist die Logik erster Ordnung. Wir verweisen auf[139] für weitere Details zu diesem Framework, seinen Anwendungen in Biologie und Medizin sowie der Beziehung zu Bayes-Netzwerken.


RECOMB Regulatory Genomics / Systembiologie / DREAM Conference 2010

Im dritten Jahr haben sich drei Konferenzen zu genetischer Regulation, Systembiologie und Netzwerkbiologie zusammengeschlossen. An fünf Tagen, vom 16. bis 20. November 2010, verband das Treffen in der Riverside Church in der Nähe der Columbia University die 7. RECOMB Satellite Conference on Regulatory Genomics unter dem Vorsitz von Manolis Kellis und Ziv Bar-Joseph mit der 6. RECOMB Satellite Conference on Systems Biology und die 5. DREAM-Konferenz unter dem Vorsitz von Gustavo Stolovitzky und Andrea Califano.

Neben den im Tagungsbericht zusammengefassten Keynote-Vorträgen boten die Konferenzen sowohl mündliche als auch Posterpräsentationen spannender neuer Arbeiten in diesen dynamischen Feldern. Darüber hinaus hob die DREAM-Konferenz die Ergebnisse der letzten Runde der "Challenges" hervor, um die Fähigkeiten der Teilnehmer beim Erlernen biologischer Netzwerke aus verblindeten Daten zu bewerten. Ausführlichere Berichte und Videos von der Konferenz können über die Navigationsleiste oben abgerufen werden.

Verwenden Sie die Registerkarten oben, um einen Besprechungsbericht und Multimedia zu dieser Veranstaltung zu finden.

Präsentationen erhältlich von:

Matti Annala (Technische Universität Tampere, Finnland)
Nicola Barbarini (Universität Pavia, Italien)
Harmen Bussemaker (Columbia University)
Alberto de la Fuente (CRS4)
Tom Gingeras (Labor in Cold Spring Harbor)
Vân Anh Huynh-Thu (Universität Lüttich, Belgien)
Leonid Kruglyak (Princeton University)
Robert Küumlffner (Ludwig-Maximilians-Universität München, Deutschland)
Po-Ru-Loh (MIT)
Daniel Marbach (Massachusetts Institute of Technology)
Randall T. Moon (HHMI und University of Washington)
Raquel Norel (IBM-Forschung)
Yaron Orenstein (Universität Tel Aviv)
Rob Patro (Universität Maryland)
Scott Powers (Labor in Cold Spring Harbor)
Bobby Prill (IBM-Forschung)
Stuart Schreiber (HHMI, Broad Institute of Harvard und MIT)
Eran Segal (Weizmann Institute of Science, Israel)
Michael Snyder (Stanford University)
Peter Sorger (Harvard Medical School)
John Stamatoyannopoulos (Universität Washington)
Hans-Jürgen Thiesen (Universität Rostock)
Marc Vidal (Harvard Medical School)
Matthieu Vignes (Institut National de la Recherche Agronomique (INRA), Toulouse, Frankreich)
Matthew Weirauch (Universität Toronto)

Bild: Phylogenetisches Abhängigkeitsnetzwerk zur HIV-Adaption.
Kredit: Jonathan Carlson und David Heckerman (Microsoft Research).

Präsentiert von:

Strategien zur Identifizierung und Validierung neuer Komponenten von Signalübertragungsnetzwerken

Randall T. Moon (HHMI, University of Washington)
    1. Einführung in das Wnt-beta-Catenin-Netzwerk 2. Der Signalweg Förderung und Hemmung Kontextabhängige Rollen bei Erwachsenen 3. Identifizierung und Validierung von Signalnetzwerken 4. Proteomische Screens Screens kleiner Moleküle 5. Einschränkungen Integration von Screens 6. Zusammenfassung Danksagungen und Schlussfolgerungen

Transkriptionelles Lego: Vorhersagbare Kontrolle der Genexpression durch Manipulation von Promotor-Bausteinen

Eran Segal (Weizmann Institute of Science)
    1. Einführung 2. Das Modellierungsgerüst 3. Messung der Expression einer Promotorsequenz 4. Messung von systematisch variierten Sequenzelementen 5. Das Vorhandensein, die Länge und die Stärke der Grenze 6. Faktor- und Ortsaffinität Die TF-Stelle Die Bedeutung des Abstands 7 Die Feinabstimmung der Expressionsniveaus 8. Die Bedeutung von Nukleosomen-ungünstigen Sequenzen Danksagungen und Schlussfolgerungen

Überbrückung der Lücke mit niedermolekularen Krebssonden

Stuart Schreiber (HHMI, Broad Institute of Harvard und MIT)
    1. Einführung 2. Kartierung der Genotyp/SM-Sensitivität 3. Targeting nicht-onkogener Co-Abhängigkeiten Modellierung 4. ROS-Biologie und niedermolekulare Sensitivität Das CTD2-Netzwerk 5. Zelllinienmodelle von Krebs CCLE und das Kit für niedermolekulare Sonden 6. Globales Clustering von Pilotphasendaten Studien 7. Danksagung und Schlussfolgerungen

Interaktome Netzwerke und menschliche Krankheiten

Marc Vidal (Dana–Farber Cancer Institute)
    1. Einleitung 2. Der Netzwerkansatz und globale Eigenschaften Biologische Eigenschaften 3. Empirisch kontrollierte Kartierung Untersuchung von Netzwerkstörungen, Experimente 4. Vergleich genetischer Variationen und Pathogene 5. Gen- und kantenzentrierte Sicht der Evolution Paralogs Actin-Familie 6. Die Evolution von interaktiven Netzwerken 7. Danksagung, Zusammenfassung und Schlussfolgerungen

Signaltransduktion und pharmazeutischer Mechanismus aus Bottom-Up- und Top-Down-Perspektive

Peter Sorger (Harvard Medical School)
    1. Einführung 2. EGFR-Signalgebung und ErbB-Rezeptoren ErbB1-Experiment 3. ErbB2- und ErbB3-Phosphoumsatz 4. Unterschiede in der Phosphodynamik 5. Modellimplementierungen und Ratenschätzungen 6. Netzwerkkontext Rückschluss auf Unterschiede in Topologien 7. Vergleichs- und Clusteringmodelle Fuzzy-Logik Modellierung Kontextspezifisches Mapping 8. Zusammenfassung Fördermöglichkeiten Danksagung und Schlussfolgerungen

Identifizierung onkogener Treiber und prädiktiver Biomarker bei Leberkrebs

Scott Powers (Labor in Cold Spring Harbor)
    1. Einführung HCC-Behandlungsoptionen 2. Onkogene aktiviert beim humanen HCC Onkogenomisches cDNA-Screening 3. Vorhersagealgorithmen POFUT1 4. CCND1 und FGF19 5. Onkogenomisches Screening bei Eierstockkrebs 6. Danksagung und Schlussfolgerungen

Genome und Variation

Michael Snyder (Stanford University)
    1. Einführung Sequenzierung mit verschiedenen Technologien 2. Kartierung struktureller Variationen TF-Bindungsvariation in Hefe 3. Ste12-Bindung und sechs neue Faktoren Trans QTLs Amn1 und Flo8 4. TF-Bindungsvariation zwischen Menschen Kartierbare Variationen 5. Schlussfolgerungen und Anerkennung

Was ist die genetische Grundlage der phänotypischen Variation?

Leonid Kruglyak (Princeton University)
    1. Einführung Größe und Erblichkeit 2. Aufgliederung genetisch komplexer Phänotypen durch Hefe 3. 4NQO-Sensitivität Bewertung von Effekten und Wechselwirkungen Architektonische Unterschiede 4. Aufgliederung komplexer Merkmale in Populationen Einfache Allelmuster 5.Zusammenfassung und zukünftige Richtungen Danksagung und Schlussfolgerungen

Eukaryotische Transkriptome: Komplex, multifunktional, kompartimentiert und elegant

Thomas Gingeras (Labor in Cold Spring Harbor)
    1. Einleitung 2. GENCODE Änderungen der RNAseq-Daten 3. Subzelluläre Kompartimentierung ENCODE-Transkriptom-Projekt IDR 4. Nicht kommentierte Transkripte Fazit

Identifizierung der genetischen Determinanten der TF-Aktivität

Harmen Bussemaker (Columbia University)
    1. Einführung Modellierungsphilosophie 2. Aspekte der TF-Funktion Identifizierung genetischer Determinanten der TF-Faktor-Aktivität 3. Identifizierung durch Protein-Protein-Interaktionsdaten 4. Zusammenfassung und Schlussfolgerung

Von Vielfalt lernen

Rob Patro (Universität Maryland)

Vorhersage der Peptidreaktivität mit humanem IVIg durch einen wissensbasierten Ansatz

Nicola Barbarini (Universität Pavia, Italien)

Eine DREAM5-Methode mit der besten Leistung für die Vorhersage der TF-Bindungsaffinität in PBM-Mikroarrays

Matti Annala (Technische Universität Tampere, Finnland)

Analysieren von PBM-Daten, um Bindungsstellenmotive zu finden und TF-Bindungsintensitäten vorherzusagen

Yaron Orenstein (Universität Tel Aviv)

Rekonstruktion von Gen-Regulatory-Netzwerken mit Bayesschen Netzwerken, dem Dantzig-Selektor und dem Lasso: Eine Meta-Analyse

Matthieu Vignes (Institut National de la Recherche Agronomique, Toulouse, Frankreich)

Max-Korrelation Min-Redundanz und andere Regressionsvarianten sagen den Phänotyp in DREAM5 . vorher

Po-Ru Loh (Massachusetts Institute of Technology)

Regulatorische Netzwerkinferenz mit GENIE3: Bewerbung für die DREAM5 Challenge

Vân Anh Huynh-Thu (Universität Lüttich, Belgien)

Inferenz von GRNs durch ANOVA

Robert Küffner (Ludwig-Maximilians-Universität, München, Deutschland)

Epitop-Antikörper-Erkennung (EAR)

Hans-Jürgen Thiesen (Universität Rostock)

Lernen und Testen von Transkriptionsfaktormodellen unter Verwendung von Proteinbindungs-Mikroarrays

Matt Weirauch (Universität Toronto)

Die Herausforderungen der DREAM5-Systemgenetik

Alberto de la Fuente (CRS4)

Profiling von Netzwerkinferenzmethoden: Die DREAM5-Netzwerkinferenzherausforderung

Daniel Marbach (Massachusetts Institute of Technology)

DREAM5 Challenge2 Ergebnisse

Raquel Norel (IBM-Forschung)

DREAM5 Challenge 1 Ergebnisse: Epitop-Antikörper-Erkennung (EAR)

Bobby Prill (IBM-Forschung)

DREAM5 Challenge 3 Ergebnisse: Systemgenetik A & B

Bobby Prill (IBM-Forschung)

DREAM5 Challenge 4 Ergebnisse: [Gen] Netzwerk-Inferenz

Bobby Prill (IBM-Forschung)

Projekte, Datenbanken und Tools

Säugetier-Gensammlung
Diese Datenbank bietet Forschern uneingeschränkten Zugang zu sequenzvalidierten Protein-kodierenden cDNA-Klonen voller Länge für menschliche, Maus- und Rattengene.

Datenbank für menschliche Genmutationen
Diese Datenbank sammelt veröffentlichte Genläsionen, die für menschliche Erbkrankheiten verantwortlich sind.

Der Krebsgenom-Atlas
Der Krebsgenom-Atlas ist ein umfassender und koordinierter Versuch, unser Verständnis der Genetik von Krebs mithilfe innovativer Genomanalysetechnologien zu beschleunigen.

Internationales Krebsgenom-Konsortium (ICGC)
Ziel des ICGC ist die umfassende Beschreibung genomischer, transkriptomischer und epigenomischer Veränderungen in 50 verschiedenen Tumorarten und/oder -subtypen, die weltweit von klinischer und gesellschaftlicher Bedeutung sind.

Pathway Portal für Krebsgenomik
Dieses Portal bietet den direkten Download und die Visualisierung umfangreicher Datensätze zur Krebsgenomik, derzeit Prostatakrebs, Sarkom und Glioblastoma multiforme. (Demo-Video)

Cancer Target Discovery and Development (CTD 2 ) Netzwerk
Das Netzwerk zielt darauf ab, neue wissenschaftliche Ansätze zu entwickeln, um die Übersetzung genomischer Entdeckungen in neue Behandlungen zu beschleunigen.

ChemBank
ChemBank ist eine öffentliche, webbasierte Informatikumgebung, die Daten enthält, die aus kleinen Molekülen und kleinen Molekülen stammen, sowie Ressourcen zum Studium der Daten.

ENCODE-Projekt
Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente in der menschlichen Genomsequenz zu identifizieren.

GENCODE-Projekt
Das GENCODE-Projekt ist ein Teilprojekt des ENCODE-Scale-up-Projekts, dessen Ziel es ist, alle evidenzbasierten Genmerkmale im gesamten menschlichen Genom mit hoher Genauigkeit zu annotieren

modENCODE
modENCODE wird versuchen, alle sequenzbasierten Funktionselemente in der Caenorhabditis elegans und Drosophila melanogaster Genome.

NIH Roadmap Epigenetics Mapping Consortium
Das NIH Roadmap Epigenetics Mapping Consortium zielt darauf ab, eine öffentliche Ressource menschlicher epigenomischer Daten bereitzustellen, um die Grundlagenbiologie und krankheitsorientierte Forschung zu katalysieren.

Pfad Commons
Pathway Commons ist ein Tool zum Suchen und Visualisieren von Informationen zu öffentlichen biologischen Pfaden.

Online Mendelsche Vererbung beim Menschen (OMIM)
OMIM ist ein umfassendes, maßgebliches und aktuelles Kompendium der menschlichen Gene und genetischen Phänotypen.

Pfam
Pfam ist eine große Sammlung von Proteinfamilien, die jeweils durch mehrere Sequenz-Alignments repräsentiert werden und Hidden-Markov-Modelle (HMMs)

UCSC Genom-Browser
Diese Site enthält die Referenzsequenz und Arbeitsentwürfe für eine große Sammlung von Genomen.

1000 Genome Projekt
Das 1000-Genome-Projekt zielt darauf ab, die Genome einer großen Anzahl von Menschen zu sequenzieren, um eine umfassende Ressource zur menschlichen genetischen Variation bereitzustellen.

Katalog genomweiter Assoziationsstudien
Der Catalogue of Genome-wide Association Studies listet Studien auf, die versuchen, mindestens 100.000 Einzelnukleotid-Polymorphismen (SNPs) zu untersuchen.

Zeitungsartikel

Steven Altschuler

Altschuler SJ, Angenent SB, Wang Y, Wu LF. Über die spontane Entstehung der Zellpolarität. Natur. 2008454(7206):886-889.

Charlie Boone

Costanzo M, Baryshnikova A, Bellay J, et al. Die genetische Landschaft einer Zelle. Wissenschaft. 2010327(5964):425-431.

RD Dowell, O. Ryan, A. Jansen et al. Genotyp zu Phänotyp: ein komplexes Problem. Wissenschaft. 2010328(5977):469.

Harmen Bussemaker

Brauner TA. Genome. 2. Auflage. Oxford: Wiley-Liss 2002.

Rockman MV, Kruglyak L. Genetik der globalen Genexpression. Nat. Rev. Genet. 20067(11):862-872.

Tom Ingwer

Leonid Kruglyak

Khan Z, Bloom JS, Garcia BA, Singh M, Kruglyak L. Proteinquantifizierung unter Hunderten von experimentellen Bedingungen. Proz. Natl. Akad. Wissenschaft VEREINIGTE STAATEN VON AMERIKA. 2009106(37):15544-15548.

Randall T. Moon

Major MB, Mond RT. „Omic“-Risikobewertung. Sci-Signal. 20092(72):eg7.

Scott Powers

Chris Sander

Cerami EG, Gross BE, Demir E, et al. Pathway Commons, eine Webressource für Daten zu biologischen Pfaden. Nukleinsäuren Res. 201139(Datenbankproblem):D685-690.

Taylor BS, Barretina J, Socci ND, et al. Funktionelle Kopienzahlveränderungen bei Krebs. Plus eins. 20083(9):e3179.

Stuart Schreiber

Schreiber SL, Shamji AF, Clemons PA, et al. Auf dem Weg zur patientenorientierten Krebstherapie. Nat. Biotechnologie. 201028(9):904-906.

Eran Segal

Peter Sorger

Morris MK, Saez-Rodriguez J, Sorger PK, Lauffenburger DA. Logikbasierte Modelle zur Analyse von Zellsignalisierungsnetzwerken. Biochemie. 201049(15):3216-3224.

Michael Snyder

Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB. Annotieren nicht-kodierender Regionen des Genoms. Nat. Rev. Genet. 201011(8):559-571.

Kasowski M, Grubert F, Heffelfinger C, et al. Variation der Transkriptionsfaktorbindung beim Menschen. Wissenschaft. 2010328(5975):232-235.

John Stamatoyannopoulos

Bernstein BE, Stamatoyannopoulos JA, Costello JF et al. Das NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnologie. 201028(10):1045-1048.

Marc Vidal

Goh K, Cusick ME, Valle D, et al. Das menschliche Krankheitsnetzwerk. Proz. Natl. Akad. Wissenschaft VEREINIGTE STAATEN VON AMERIKA. 2007104(21):8685-8690.

TRAUM-Herausforderungen

Candès und Tao. 2007. Der Dantzig-Selektor: Statistische Schätzung, wenn p viel größer als n ist. Ann. Statistik.35:2313-2351.

Friedman N, Linial M, Nachman I, Pe'er D. Verwendung von Bayes-Netzwerken zur Analyse von Expressionsdaten. J. Computer. Biol. 20007(3-4):601-620.

Margolin AA, Wang K, Lim WK et al. Reverse Engineering von Mobilfunknetzen. Nat-Protokoll. 20061(2):662-671.

Tiengo A, Barbarini N, Troiani S, Rusconi L, Magni P. Ein Perl-Verfahren zur Proteinidentifizierung durch Peptide Mass Fingerprinting. BMC Bioinformatik. 200910 Ergänzung 12:S11.

Veranstalter

Ziv Bar-Joseph, PhD

Ziv Bar-Joseph ist Associate Professor am Lane Center for Computational Biology der Carnegie Mellon University. Bevor er diese akademische Position antrat, verbrachte Bar-Joseph 4 Jahre (1999–2003) in Cambridge, Massachusetts, wo er unter der Anleitung von David Gifford und Tommi Jaakkola in Informatik promovierte. Er absolvierte seine Master- und Bachelorarbeit an der Hebräischen Universität und erwarb einen BSc in Informatik und Mathematik und dann einen M. Sc. in Informatik.

Bei Carnegie Mellon arbeitet er in den Bereichen Computerbiologie, Bioinformatik und maschinelles Lernen. Bar-Joseph leitet auch die Systembiologie-Gruppe, in der Forscher Computermethoden zum Verständnis der Wechselwirkungen, Dynamik und Erhaltung komplexer biologischer Systeme entwickeln. Einige seiner früheren Arbeiten konzentrierten sich auf die spannenden Gebiete des verteilten Rechnens und der Computergrafik.

Andrea Califano, PhD

Andrea Califano ist Professor für biomedizinische Informatik an der Columbia University, wo er mehrere campusübergreifende Aktivitäten in der Computer- und Systembiologie leitet. Califano ist außerdem Co-Direktor des Center for Computational Biology and Bioinformatics, Direktor des Center for the Multiscale Analysis of Genetic Networks und stellvertretender Direktor für Bioinformatik am Irving Cancer Research Center.

Califano promovierte in Physik an der Universität Florenz und untersuchte das Verhalten hochdimensionaler dynamischer Systeme. Von 1986 bis 1990 war er wissenschaftlicher Mitarbeiter in der Exploratory Computer Vision Group am IBM Thomas J. Watson Research Center, wo er an mehreren Algorithmen für maschinelles Lernen arbeitete, darunter die Interpretation zwei- und dreidimensionaler visueller Szenen. 1997 wurde er Programmdirektor des IBM Computational Biology Center und 2000 war er Mitbegründer von First Genetic Trust, Inc., um translationale Genomforschung und infrastrukturbezogene Aktivitäten im Rahmen groß angelegter Patientenstudien mit genetischen Komponenten zu verfolgen.

Manolis Kellis, PhD

Manolis Kellis ist Associate Professor of Computer Science am MIT und Mitglied des Computer Science and Artificial Intelligence Laboratory sowie des Broad Institute of MIT and Harvard, wo er die MIT Computational Biology Group leitet. Seine Gruppe wurde kürzlich finanziert, um die integrativen Analysebemühungen des modENCODE-Projekts für Drosophila melanogaster und auch für die integrative Analyse des NIH Epigenome Roadmap Project. Er erhielt den US Presidential Early Career Award in Science and Engineering (PECASE) für seine NIH R01-Arbeit in Computational Genomics, den NSF CAREER Award, das Alfred P. Sloan Fellowship, den Karl Van Tassel Chair in EECS, den Distinguished Alumnus 1964 Chair , und den Ruth und Joel Spira Teaching Award in EECS. Kellis promovierte am MIT, wo er den Sprowls-Preis für die beste Doktorarbeit in Informatik und das erste Paris-Kanellakis-Graduiertenstipendium erhielt. Vor seiner Tätigkeit in der Computerbiologie arbeitete er am MIT und am Xerox Palo Alto Research Center an künstlicher Intelligenz, Skizzen- und Bilderkennung, Robotik und Computergeometrie.

Gustavo Stolovitzky, PhD

Gustavo Stolovitzky ist Manager der Functional Genomics and Systems Biology Group am IBM Computational Biology Center in IBM Research. Die Gruppe Funktionelle Genomik und Systembiologie ist an mehreren Projekten beteiligt, darunter DNA-Chip-Analyse und Genexpressions-Data-Mining, Reverse Engineering von metabolischen und Genregulationsnetzwerken, Modellierung des Herzmuskels, Beschreibung emergenter Eigenschaften des Myofilaments, Modellierung von P53-Signalwegen und Durchführen einer massiv parallelen Signatursequenzierungsanalyse.

Stolovitzky promovierte in Maschinenbau an der Yale University und arbeitete an der Rockefeller University und am NEC Research Institute, bevor er zu IBM kam. Er war als Joliot Invited Professor am Laboratoire de Mecanique de Fluides in Paris und als Gastwissenschaftler am Physik-Department der Chinese University of Hong Kong tätig. Stolovitzky ist Mitglied des Lenkungsausschusses der Systems Biology Discussion Group der New York Academy of Sciences.

Lautsprecher

Steven Altschuler, PhD
Matti Annala

Technische Universität Tampere, Finnland
Email

Nicola Barbarini, PhD
Charlie Boone, PhD
Harmen Bussemaker, PhD
Alberto de la Fuente, PhD
Tom Gingeras, PhD
Van Anh Huynh-Thu
Leonid Kruglyak, PhD
Robert Küffner, PhD

Ludwig-Maximilians-Universität, München, Deutschland
E-Mail | Webseite | Veröffentlichungen

Po-Ru Loh
Randall T. Moon, PhD
Raquel Norel, PhD
Yaron Orenstein
Rob Patro
Scott Powers, PhD

Cold Spring Harbor Laboratory
E-Mail | Webseite

Bobby Prill, PhD
Chris Sander, PhD

Memorial Sloan-Kettering-Krebszentrum, Sloan-Kettering-Institut
E-Mail | Webseite | Veröffentlichungen

Stuart Schreiber, PhD

HHMI, Broad Institute of Harvard und MIT
E-Mail | Webseite | Veröffentlichungen

Eran Segal, PhD

Weizmann Institute of Science, Israel
E-Mail | Webseite | Veröffentlichungen

Michael Snyder, PhD
Peter Sorger, PhD
John Stamatoyannopoulos, PhD
Gustavo Stolovitzky, PhD
Marc Vidal, PhD
Matthieu Vignes, PhD

Institut National de la Recherche Agronomique (INRA), Toulouse, Frankreich
E-Mail | Webseite | Veröffentlichungen

Matthew Weirauch, PhD
Don Monroe

Don Monroe ist ein Wissenschaftsautor mit Sitz in Murray Hill, New Jersey. Nachdem er am MIT in Physik promoviert hatte, forschte er mehr als fünfzehn Jahre lang an den Bell Labs in Physik und Elektroniktechnologie. Er schreibt über Biologie, Physik und Technik.

Sponsoren

Im dritten Jahr haben sich drei Konferenzen zu genetischer Regulation, Systembiologie und Netzwerkbiologie zusammengeschlossen. An fünf Tagen verband das Treffen in der Riverside Church in der Nähe der Columbia University die 7. RECOMB-Satellitenkonferenz für regulatorische Genomik unter dem Vorsitz von Manolis Kellis und Ziv Bar-Joseph mit der 6. RECOMB-Satellitenkonferenz für Systembiologie und der 5. DREAM-Konferenz unter dem Vorsitz von Gustavo Stolovitzky und Andrea Califano.

Neben den unten zusammengefassten Keynote-Vorträgen boten die Konferenzen sowohl mündliche als auch Posterpräsentationen spannender neuer Arbeiten in diesen dynamischen Feldern. Darüber hinaus hob die DREAM-Konferenz die Ergebnisse der neuesten Runde der "Challenges" hervor, um die Fähigkeiten der Teilnehmer beim Erlernen biologischer Netzwerke aus verblindeten Daten zu bewerten.

Signalisierung

Die Expressionsmuster von Zellen hängen teilweise vom zellulären Kontext ab, der durch Signalwege wie den Wnt- und ErbB-Weg bereitgestellt wird, die jeweils an Krebs beteiligt sind. Die Stimulation des vielseitigen Wnt-Signalwegs hat je nach Zeitpunkt und Ort deutlich unterschiedliche Wirkungen. Um Moleküle zu finden, die diese Empfindlichkeit kontrollieren, Randall Moon verwendet sowohl Frosch- und Fischembryoassays als auch zellbasierte Assays mit siRNA, Proteomik und kleinen Molekülen. Die Integration der Ergebnisse dieser Bildschirme trägt dazu bei, ihre individuellen Schwächen auszugleichen, aber mehrere Validierungsschritte sind immer noch entscheidend, sagte er. Peter Sorger integriert Signalexperimente und -modelle, einschließlich des ErbB-Signalwegs, auf verschiedenen Detailebenen. Sorgers Modelle reichen von Differentialgleichungen für detaillierte Dynamiken bis hin zu Booleschen Modellen für große Netzwerke. Er stellte einen inhärenten Konflikt zwischen dem Grad der biologischen Details und der Fähigkeit fest, Modellparameter zu bestimmen.

Krebs

Leberkrebs zeigt weit verbreitete Veränderungen der Genkopienzahlen. Scott Powers untersuchten Genomregionen, die bei diesen Krebsarten häufig amplifiziert werden, und fanden 18 Gene, deren Überexpression Leberkrebs in einem Mausmodell verursacht. Diese Gene können als Biomarker für die Signalwege nützlich sein, die in bestimmten Tumoren gestört sind. Krebsgenomprojekte zeigen, dass die Mutationen bei jedem Patienten unterschiedlich sind, aber tendenziell eine gemeinsame Gruppe von Signalwegen betreffen. Chris Sander ist der Ansicht, dass die besten Therapien diese gemeinsamen Module erkennen, aber Kombinationen von Medikamenten verwenden, die auf bestimmte Untergruppen von Patienten abzielen.

Heterogenität

Heterogenität in Zellpopulationen ist allgegenwärtig, sagte Steven Altschuler, und ist oft biologisch wichtig. Da sich einzelne Zellen völlig anders als der Bevölkerungsdurchschnitt verhalten können, müssen Forscher ihre Verwendung von Durchschnittswerten begründen. Erkennen der heterogenen Verteilung von transkribierter RNA in verschiedenen subzellulären Kompartimenten, sagte Thomas Ingwer, lässt Forscher seltene Transkripte finden. Etwa die Hälfte des Genoms wird transkribiert und verarbeitet, sagt er, und es scheint viele Arten von RNA zu enthalten, deren Funktion noch nicht verstanden ist.

Störungen

Die Analyse der Reaktion von Zellen auf kleine Moleküle, sagte Stuart Schreiber, bietet biologische Einblicke in zelluläre Prozesse sowie das Potenzial für Therapeutika. Er und seine Kollegen katalogisieren systematisch Dosis-Wirkungs-Beziehungen für ein Panel hochspezifischer Moleküle, die zusammen mit der genetischen Charakterisierung von Zellen ein wichtiges Instrument für die Umsetzung der Wissenschaft in Behandlungen darstellen sollen. Marc Vidal sagte, dass die zunehmende Kartierung und das zunehmende Verständnis von Netzwerken wie denen von Proteininteraktionen wichtige biologische Erkenntnisse liefern. Mehr als die Hälfte der Mutationen, die zu Krankheiten beim Menschen führen, scheinen die Interaktion von Makromolekülen zu verändern, anstatt die einzelnen Molekülarten zu lähmen. Diese "edgetic"-Mutationen können helfen, die engen Beziehungen zwischen vielen Krankheiten zu erklären.

Genetische Interaktionen

Die Muster der genetischen Interaktion, beispielsweise welche Genpaare synthetische Letalität zeigen, wenn beide deletiert sind, geben einen aussagekräftigen Einblick in ihre Funktionen, sagte Charlie Boone. Er und seine Mitarbeiter nutzen quantitative Analysen, um alle 18 Millionen möglichen Doppelmutanten der 6000 Hefegene zu bewerten und aufbauend auf den Ergebnissen Netzwerke aufzubauen. Aber die natürliche Variabilität ist viel komplizierter, weil Genvarianten typischerweise kleine Auswirkungen haben und vor dem Hintergrund von Variationen in anderen Genen auftreten. Der Hintergrund kann die Wirkung einer Variante verändern und Versuche verwirren, erbliche Merkmale auf einzelne Varianten zurückzuführen. Leonid Kruglyak hat Methoden entwickelt, um alle genetischen Loci zu kartieren, die zu kontinuierlich variablen Merkmalen beitragen, und zeigt viele Loci und komplexe Wechselwirkungen zwischen ihnen auf.

Genomweite Regulierung

Unterschiede in regulatorischen Interaktionen, insbesondere in der Bindung von Transkriptionsfaktoren, sind sowohl für viele individuelle Variationen als auch für Krankheiten verantwortlich, sagte Michael Snyder. Die Sequenzunterschiede, die Bindungsvariationen zugrunde liegen, betreffen oft nicht die Motive der Transkriptionsfaktoren selbst, sondern andere Cofaktoren, die für die wenigen Gene, die sie regulieren, ebenso wichtig sein können. Die allgemeine Zugänglichkeit der DNA zu regulatorischen Molekülen kann mithilfe der Endonuklease DNase I kartiert werden, sagte John Stamatoyannopoulos, und das Muster seiner Bindung über das Genom spiegelt Entwicklungslinien wider. Auf Einzelnukleotidebene ergibt die Spaltung einen spezifischen Fingerabdruck für jeden Transkriptionsfaktor.

Wechselwirkungen zwischen DNA und Proteinen

Die Organisation von Nukleosomen und Transkriptionsfaktoren wird weitgehend durch ihre sequenzabhängige Affinität erklärt, sagte Eran Segal. Sein Team hat einen quantitativen Expressionsassay entwickelt, um die Auswirkungen von Sequenzänderungen zu untersuchen, einschließlich der dramatischen Wirkung starrer Polyadenosin-Sequenzen bei der Hemmung der Bildung von Nukleosomen und ermöglicht so den Zugang von Transkriptionsfaktoren zur DNA. Die berechnete Bindungsaffinität von Proteinen an DNA sollte Abhängigkeiten zwischen verschiedenen Positionen beinhalten, sagte Harmen Bussemaker, wie durch die sequenzabhängige Spaltung von DNA durch DNase I gezeigt. Die Verwendung vorhergesagter Affinitäten ermöglicht es Forschern, die genetischen Determinanten von Transkriptionsfaktoren präzise zu extrahieren.

Die DREAM-Herausforderungen

Die DREAM fordert die kritische Bewertung von Methoden heraus, um aus Hochdurchsatzdaten Rückschlüsse auf biologische Systeme zu ziehen. Aufgrund der Vielfalt der Messtechniken und biologischen Problemstellungen werden die verschiedenen Herausforderungen von Jahr zu Jahr angepasst und angepasst.

In diesem Jahr waren die Mitorganisatoren der Challenges Gustavo Stolovitzky, Robert Prill, und Julio Saez-Rodriguez. Die Wertung wurde von Prill und angeführt Raquel Norel, mit Website-Unterstützung von Tom Garben. Es gab vier Herausforderungen für DREAM5.

Die Herausforderung Epitop-Antikörper-Erkennung (EAR) mussten die Teams vorhersagen, welche Peptide mit einer Reihe von Antikörpern reagieren würden, basierend auf der bekannten Reaktivität einer ähnlichen Gruppe von Peptiden. Die Daten wurden zusammengestellt von Hans-Jürgen Thiessen und seine Kollegen. Die leistungsstärksten Teams, vertreten durch Rob Patro und Nicola Barbarini beide verwendeten eine maschinelle Klassifikation, die hauptsächlich auf zahlreichen Merkmalen von Peptidsequenzdaten beruhte.

Die Herausforderung Transkription-Faktor-DNA-Motiv-Erkennung Daten wurden zusammengestellt von Matt Weirauch und Tim Hughes von Protein-Binding Microarrays (PBMs). Die größte Herausforderung bestand darin, die Bindungspräferenzen von Transkriptionsfaktoren an eine Vielzahl von DNA-Sequenzen basierend auf den gemessenen Spezifitäten eines Trainingssatzes von Transkriptionsfaktoren vorherzusagen. Eine zusätzliche Herausforderung bestand darin, die in jedem Experiment getesteten Transkriptionsfaktoren zu identifizieren. Das leistungsstärkste Team für die Hauptherausforderung, vertreten durch Matti Annala, verwendet ein lineares Affinitätsmodell, das auf den informativsten kurzen Sequenzen basiert. Dieses Team teilte sich den Titel des besten Performers für die Bonusrunde mit einem Team, das vertreten ist durch Yaron Orenstein mit dem Amadeus Motivfinder, ebenfalls basierend auf den informativsten Kurzsequenzen.

Die Herausforderung Systemgenetik verwendet die Art von Daten, die aus Kreuzungen zwischen zwei sehr unterschiedlichen reinen Stämmen hervorgehen. Die Kreuzung bringt eine große Anzahl unterschiedlicher Nachkommen hervor, jeder mit einem Genotyp, der für jedes Gen das eine oder andere Elternallel aufweist. Die Daten wurden zusammengestellt von Alberto de la Fuente und seine Kollegen. Teil A dieser Herausforderung verwendete simulierte Daten aus einem 1000-Gen-Netzwerk mit beiden cis und trans genetische Variationen. Das leistungsstärkste Team, vertreten durch Matthieu Vignes, verschiedene Algorithmen verwendet und die Ergebnisse kombiniert. Teil B verwendete experimentelle Daten zur Schimmelresistenz in Sojabohnen. Das leistungsstärkste Team, vertreten durch Po-Ru Loh, verwendete eine Rangordnungstransformation, um zu vermeiden, von extremen Ausreißern überschwemmt zu werden, und schloss boolesche logische Kombinationen ein, um mögliche Interaktionen zwischen Genen zu berücksichtigen.

Die Netzwerk-Inferenz-Herausforderung stellte bei DREAM-Meetings eine wiederkehrende Herausforderung dar, ein Gennetzwerk aus Expressionsniveaus in verschiedenen gestörten Zuständen abzuleiten. Daniel Marbach, Jim Costello, Diogo Camacho und Jim Collins stellten die Daten zusammen. Sie enthielten Daten von einem perfekt bekannten in silico Netzwerk, wie in früheren DREAM-Herausforderungen, aber auch drei Sätze biologischer Daten. Hefe und E coli die Daten wurden basierend auf gut akzeptierten Netzwerken für diese Arten bewertet. Im Gegensatz dazu sind Daten für Staphylococcus aureus wurde nicht bewertet, wird aber verwendet, um eine Community-Vorhersage zu generieren, da es für diese Mikrobe kein akzeptiertes Netzwerk gibt. Der beste Performer insgesamt und in silico wurde vertreten durch Vacircn Anh Huynh-Thu, und verwendeten, wie in ihrer Best-Performer-Analyse von DREAM4, ein Entscheidungsbaummodell. Der beste Performer für in vivo Daten, dargestellt durch Robert Kuumlffner, war ebenfalls eine Wiederholung von DREAM4 und verwendete den ANOVA-Test.

Die gleichzeitige Einbeziehung biologischer und simulierter Daten stellt eine wichtige Reifung der DREAM-Herausforderungen dar und kann ihnen helfen, mehr Aufmerksamkeit von Biologen für diese Inferenzmethoden zu gewinnen.

Lautsprecher:
Randall Moon, Universität von Washington
Peter Sorger, Harvard Medical School und Massachusetts Institute of Technology

Höhepunkte

  • Der Wnt-Signalweg ist an vielen Prozessen beteiligt, einschließlich der Embryonalentwicklung und der Zellregeneration, aber seine Wirkung variiert stark mit dem zellulären Kontext.
  • Zellbasierte Assays im großen Maßstab, einschließlich siRNA-Knockdowns, proteomische Netzwerke und Screenings kleiner Moleküle, geben wichtige Hinweise darauf, welche Gene und Proteine ​​die Signalübertragung auf diesem Signalweg modulieren.
  • Die Integration von Daten aus mehreren Screens identifiziert Kandidaten genauer als einzelne Analysen, aber mehrere Validierungsebenen sind immer noch entscheidend, um genaue Schlussfolgerungen zu gewährleisten.
  • Dynamische Messungen des Erb-Signalwegs zeigten einen schnellen Umsatz des Phosphorylierungszustands, der im Gegensatz zu den normalen langen Erholungszeiten steht und für die Modellierung von Arzneimittelreaktionen entscheidend ist.
  • Es gibt einen inhärenten Konflikt zwischen der umfassenden biologischen Modellierung und der Fähigkeit, Parameterwerte zu bestimmen, aber die Auswahl der aussagekräftigsten Experimente kann die Effizienz dieses Prozesses erheblich verbessern.
  • Die Modellierung großer Netzwerke erfordert Ansätze wie Boolesche oder Fuzzy-Logik, die effizienter sind als erschöpfende Differentialgleichungen.

Sezieren der Wnt-Signalisierung

Die biologische Signalgebung definiert den biologischen Kontext, in dem genetische Programme ausgeführt werden. In seiner 25-jährigen Erforschung des Wnt-Signalwegs Randall Moon hat gelernt, wie wichtig unabhängige Kontrollen der biologischen Bedeutung sind. "Mehrere Validierungsebenen sind unglaublich wichtig", sagt er, insbesondere da Forscher neue Hochdurchsatz-Tools anwenden, die viele molekulare Kandidaten für Rollen in einem Signalweg generieren.

Der transmembrane Wnt-Rezeptor initiiert Signale, die eine Vielzahl von Prozessen beeinflussen. In der Entwicklung ist dieses Signal zum Beispiel von zentraler Bedeutung für die Organisation von Geweben und Organen, so dass Froschembryonen als Reaktion auf fremde Wnt-Signale einen zweiten Kopf entwickeln. Bei Erwachsenen ist der Signalweg für die Regeneration und die Stammzellhomöostase wichtig, während eine übermäßige Wnt-Signalübertragung zu verschiedenen Tumoren führt.

„Die Wnt-Signalgebung kann je nachdem, wann und wo sie exprimiert wird, ganz unterschiedliche Wirkungen haben“, betonte Moon und erzeugte fast gegensätzliche Veränderungen in identischen Zellen, deren Alter sich nur um wenige Stunden unterscheidet. "Das Kennzeichen der Wnt-Signalisierung ist, dass sie kontextabhängig ist."

"Die Schlüsselkontrolle dieses Signalwegs konzentriert sich auf die Regulierung der Stabilität des &beta-Catenin-Proteins", bemerkte er, das durch Translokation in den Zellkern die Transkription modifiziert. &beta-Catenin-Aktivität wird durch Ubiquitinierung reguliert, die das Protein für den proteosomalen Abbau angreift. Die Wnt-Signalgebung hemmt diese Ubiquitinierung.

Viele von Moons Experimenten werden mit Embryonen durchgeführt, zum Beispiel von Fröschen und Zebrafischen, wo er feststellte, dass "der Wnt-Signalweg in einem ganz normalen Kontext genutzt wird" in verschiedenen Geweben. Um andere potenzielle Akteure in der Wnt-Signalübertragung zu identifizieren, verwendet Moon zellbasierte Assays wie siRNA-Knockdowns, Proteomik und niedermolekulare Assays. Dennoch, betonte er, sei es wichtig, "die Gültigkeit aller Treffer zu maximieren, damit man nicht all seine Zeit damit verbringt, Treffern hinterherzujagen".

Moon beschrieb ein siRNA-Screening basierend auf einem optimierten Luciferase-Reporter auf das Vorhandensein von &beta-Catenin, das in einem Zelltyp 804 Treffer aus einer 22.325 Genbibliothek produzierte. Ein zweiter Screen, der drei zusätzliche siRNAs für jedes Gen verwendete und eine Reaktion in mehreren Zelllinien erforderte, reduzierte die Zahl der Kandidaten auf 310. Ein dritter Screen, der die Expression der endogenen Gene, nicht nur der exogenen Reporter, quantifizierte, reduzierte die Zahl auf 63 Gene.

Die abschließende Validierung suchte entweder nach stereotypen Wnt-mutierten Phänotypen in Zebrafischembryonen oder nach einer proteomischen Analyse, die das Gen in einem Protein-Protein-Interaktionsnetzwerk mit anderen Elementen des Wnt/&beta-Catenin-Wegs positionierte. In einem Beispiel identifizierte dieser Prozess AGGF1, der "für die Modulation von etwa der Hälfte der &beta-Catenin-Zielgene erforderlich ist", sagte Moon.

Bei einem ähnlichen Erfolg legten proteomische Screens nahe, dass das Tumorsuppressorprotein WTX mit β-Catenin interagierte. Um diese Vorhersage zu überprüfen, verifizierte Moons Team, dass rekombinantes WTX mit &beta-Catenin interagiert, wahrscheinlich seine Ubiquitinierung erhöht und somit sein Niveau niedrig hält. „Alles, was aus einem Proteomik-Screening oder einem siRNA-Screening hervorgeht, muss letztendlich auf die Ebene des biochemischen Verständnisses gebracht werden“, betonte er.

In einem dritten zellbasierten Assay, so Moon, „verwenden wir Screenings mit kleinen Molekülen, um potenzielle Therapeutika zu entwickeln, aber auch um Komponenten von Signalwegen zu identifizieren.“ Untersuchung einer Bibliothek von Verbindungen, ähnlich der von beschriebenen Stuart Schreiber, identifizierte ein von der FDA zugelassenes Medikament namens Riluzol. Der Glutamatrezeptor GRM1, auf den dieses Medikament abzielt, war zuvor nicht in der &beta-Catenin-Signalübertragung erkannt worden, daher weist die Technik auf eine neue Biologie sowie ein potenzielles Therapeutikum hin. "Die Verwendung von Screens mit kleinen Molekülen zur Identifizierung von Komponenten eines Signalweges ist sehr wirkungsvoll", bemerkte Moon.

Obwohl jeder zellbasierte Assay für sich allein nützlich ist, "ist die Integration dieser Techniken ein wirkungsvoller Weg, um den Mangel eines einzelnen Screens auszugleichen", sagte Moon. „Die größte Einschränkung von siRNAs besteht darin, dass sie viele Treffer außerhalb des Ziels liefern und Sie keinen Einblick in den Signalmechanismus erhalten“, während die Proteomik „viele Daten liefert, aber absolut keinen Hinweis darauf, ob Ihre Treffer funktionsfähig sind“. Wenn Forscher bei diesen Tests eine hohe Signifikanzschwelle festlegen, riskieren sie, vielversprechende Kandidaten zu verpassen. Durch die Kombination von siRNA- und Kleinmolekül-Screenings identifizierten Moon und seine Kollegen eine bestimmte Kinase als Beitrag zum Wnt/&beta-Catenin-Weg und validierten sie mittels Massenspektrometrie.

Modellierung der Signaldynamik

Für eine vollständige Analyse der Signalübertragung muss man nicht nur wissen, welche Moleküle interagieren, sondern auch, wie sie sich gegenseitig beeinflussen. Peter Sorger beschrieb einige der Bemühungen seines Teams, vollständigere Modelle auf mehreren verschiedenen Beschreibungsebenen zu erstellen.

In einem Projekt wurde die Dynamik des Epidermal-Wachstumsfaktor-Rezeptors (EGFR, auch ErbB1 und Her1 genannt) gemessen. Die Bindung von extrazellulärem EGF an dieses Transmembranmolekül bewirkt eine Homodimerisierung oder Heterodimerisierung mit anderen Mitgliedern der ErbB-Familie, auf die bei der Krebstherapie häufig abgezielt wird. Das Dimer wird dann phosphoryliert, wodurch es intrazelluläre Proteine ​​mit SH2- oder PTB-Bindungsdomänen andocken und für weitere Signalübertragung aktivieren kann.

„Dies ist eine gut verstandene Klasse von Proteinen“, beobachtete Sorger, und Studien haben gezeigt, dass die Anpassung an einen Liganden mehrere Stunden anhält. Mehrere Medikamente hemmen die Rezeptorantwort, einige durch Bindung an die ATP-Tasche von ErbB1. Überraschenderweise wird der Rezeptor als Reaktion auf eines dieser Medikamente, Gefitinib, in zehn Sekunden und nicht in Stunden dephosphoryliert. "Es war eine viel schnellere Dephosphorylierungsreaktion, als wir uns vorgestellt hatten", bemerkte Sorger. Die ErbB2- oder ErbB3-Bindungspartner sowie Shc und andere nachgeschaltete Proteine ​​wurden ebenfalls schnell dephosphoryliert.

Die Forscher modellierten dieses Verhalten erfolgreich mit Differentialgleichungen, die die sehr hohe Hintergrundkonzentration von ATP erklären. "Diese Medikamente versuchen, in Gegenwart eines 2 millimolaren Konkurrenten Zugang zu ihrer Bindungstasche zu bekommen, was therapeutisch eines ihrer größten Probleme darstellt", bemerkte Sorger.

Um die Wirkungen eines anderen Medikaments, Lapatinib, zu modellieren, war ein komplexeres Modell mit 47 gewöhnlichen Differentialgleichungen erforderlich, die Übergänge des Rezeptors in eine inaktive Konfiguration beinhalten. "Ein schneller Umsatz ist notwendig, um den Unterschied zwischen den beiden Medikamenten zu erkennen", bemerkte Sorger. "Wenn man sich ein scheinbar 25 Jahre altes Stück Biologie in einer einfachen dynamischen Umgebung ansieht, hat man zu der Vorstellung geführt, dass diese Signalosomen tatsächlich hochdynamisch sind."

Die zunehmende Komplexität dieser Modelle sei zwar biologisch begründet, stelle aber einen "unvermeidlichen Kompromiss" dar, sagte Sorger. "Wenn wir die zugrunde liegenden Hypothesen immer ausgefeilter werden, haben wir größere Schwierigkeiten, einen rigorosen Rahmen für zukünftige Schlussfolgerungen zu erstellen." Sorgers Team geht dieses Problem teilweise an, indem es statistische Wertebereiche herleitet und nicht täuschend genaue Werte.

Vergleich von Modellen für vier Krebszelllinien: Die effizientesten Modelle zur Darstellung der Antworten von vier verschiedenen Krebszelllinien weisen signifikante Unterschiede in ihren Interaktionen auf (verschiedenfarbige Pfeile).

Postdoc William Chen analysierte, wie gut verschiedene RNAi-Knockdown-Experimente die Parameter für eine bekannte Netzwerktopologie bestimmen. Er stellte fest, dass die Auswahl der aussagekräftigsten Spezies für den Knockdown auf der Grundlage einer detaillierten Analyse viel effizienter war als die zufällige Auswahl von Experimenten. "Die drei besten Experimente sind im Durchschnitt besser als 25 zufällig ausgewählte RNAi", sagte Sorger, obwohl die besten Entscheidungen "nicht offensichtlich intuitiv" waren, selbst wenn das Netzwerk bekannt war. Die Kombination von RNAi mit anderen Experimenten war noch effizienter.

Obwohl detaillierte mathematische Modelle der Signalisierung sehr nützlich sein können, macht die Schwierigkeit bei der Bestimmung von Parametern diese Detailgenauigkeit für umfassendere Netzwerke unpraktisch. Eine Manifestation dieser Schwierigkeit sei der fehlende Konsens über die Topologie von Netzwerken, bemerkte Sorger. "Je nachdem, wo Sie in der Literatur hingehen, werden Sie eine andere Vorstellung davon finden, wie das Netzwerk aussehen sollte."

Sorger und seine Mitarbeiter haben ein experimentelles System umfassend charakterisiert, das aus Kulturen von primären menschlichen Leberzellen und Leberkrebszelllinien besteht. Sie setzen diese Linien vielen Störungen aus und messen viele Reaktionen, wie die Zytokinproduktion und die Reaktion mit phosphospezifischen Antikörpern.

Bei der Modellierung dieses Systems baute Julio Saez-Rodriguez ein Konsensnetzwerk aus Informationen in der Literatur auf und verfeinerte das Modell dann anhand von Experimenten. Der Konsens sei "zu einem ziemlich großen Teil der Zeit falsch", sagte Sorger, hauptsächlich weil die Literatur Links aufzeigte, die in den Experimenten keine Unterstützung hatten. Unter Verwendung einer einfachen Zwei-Zustands-Logik-Beschreibung für die Knoten und unter Bestrafung zusätzlicher Komplexität stellten die Forscher zufrieden fest, dass die Daten durch ein viel einfacheres Modell beschrieben werden konnten, als sie zu Beginn hatten. Die resultierenden Modelle, die für jeden der Zelltypen separat erstellt wurden, ermöglichten es dem Team zu bestimmen, wie sich die Primär- und Tumorzelllinien in der Netzwerktopologie unterscheiden.

Sorgers Team versucht auch, die detaillierten mathematischen Modelle und die vereinfachten Booleschen Modelle zu überbrücken, indem es sich eine "Fuzzy-Logik"-Beschreibung ansieht. "Fuzzy-Logik ermöglicht es Ihnen, einen geraden Ein-Aus-Übergang in diskreter Logik zu nehmen und ihn stattdessen als allmählichen Übergang zu codieren", sagte er, ist aber immer noch ziemlich effizient.

Lautsprecher:
Scott Powers, Cold Spring Harbor Laboratory
Chris Sander, Memorial Sloan-Kettering-Krebszentrum

Höhepunkte

  • Deletionen und Insertionen, die bei der genetischen Analyse von Lebertumoren häufig nachgewiesen werden, können auf mögliche protektive Gene bzw. Onkogene hinweisen.
  • Die Transfektion von Mäusen mit cDNA aus solchen amplifizierten Genen bestätigte 18 bekannte und neue Onkogene.
  • Diese Gene können nützlicher sein, um zu Biomarkern zu führen, die anzeigen, welche Signalwege bei einem bestimmten Patienten gestört sind, anstatt als direkte therapeutische Ziele.
  • Die genetische Analyse zeigt, dass Patienten, die anscheinend den gleichen Krebs haben, oft unterschiedliche spezifische Mutationen aufweisen, aber diese Mutationen stören jeweils gemeinsame Module.
  • Eine auf individuelle Variationen zugeschnittene kombinatorische Therapie ist wahrscheinlich der beste Weg, um Krebs zu bekämpfen.
  • Bei großen Netzwerken kann es effektiver sein, zuerst statistische Eigenschaften abzuleiten und dann spezifische Beispiele auszuwählen, als aus einzelnen Lösungen zu verallgemeinern.

Neue Onkogene bei Leberkrebs finden

Genetische Veränderungen sind ein häufiges Merkmal bei Krebserkrankungen und machen sie viel vielfältiger und schwieriger zu behandeln. Jüngste Projekte, darunter der Cancer Genome Atlas und das International Cancer Genome Consortium, charakterisieren umfassend die genetische Variation bei mehreren Krebsarten in der Hoffnung, gemeinsame Merkmale und neue Wege zu ihrer Behandlung zu finden.

Bei Leberkrebs ist von den bekannten Krebsgenen, auf die bestehende Therapien abzielen, "keine tatsächlich mit irgendeiner Häufigkeit mutiert", sagte Scott Powers. Er und seine Kollegen haben Krebsgenomdaten verwendet, um neue Kandidatengene für Therapeutika oder für neue Biomarker zur Therapieführung zu finden.

"Etwa 80 % der Leberkrebsarten weisen umfangreiche Variationen der DNA-Kopienzahl auf", bemerkte Powers. Er und sein Cold Spring Harbor-Kollege Scott Lowe untersuchten zuvor Regionen, die in den Krebsarten häufig deletiert wurden, um mithilfe von Kurz-RNA-Knockdown-Experimenten schützende Gene zu identifizieren. In seiner aktuellen Arbeit sagte Powers: "Wir haben amplifizierte Regionen genommen und untersucht, welche Onkogene enthalten, nicht indem wir sie mit RNAi abgebaut haben, sondern indem wir sie mit cDNAs überexprimiert haben." Mit verifizierten Sequenzen aus der Mammalian Gene Collection transfizierte sein Team Maus-Hepatozyten, die so modifiziert wurden, dass sie anfällig für Krebs sind. In diesen Zellen ging der Tumorsuppressor p53 verloren und das Myc-Onkogen wurde überexprimiert - "zwei sehr häufige genetische Veränderungen bei Leberkrebs".

Mit Kandidaten-Onkogenen transfizierte Zellen wurden in die Milz injiziert. "Wenn Sie dies sorgfältig tun, werden die Zellen über das Blutsystem in der gesamten Leber verteilt", sagte Powers. Von 124 cDNAs, die wegen ihrer Überexpression bei Krebs ausgewählt wurden, erzeugten 18 in diesem Mausmodell neue Leberkrebse.

Darüber hinaus waren Gene aus kleinen amplifizierten Regionen viel eher echte Onkogene als "Passagiere". Für die größten amplifizierten Regionen, mehr als 10 Megabasen, waren die Chancen, dass ein Gen ein Treiber ist, nicht viel höher als für einen Kontrollsatz, sagte Powers. "Um über diese kleinen Amplikons hinauszugehen, müssen wir in Zukunft einen hybriden Ansatz der rechnerischen Selektion entwickeln."

"Dies war der größte Datensatz von cDNAs von Onkogenen, der jemals konstruiert wurde", sagte Powers, damit die Forscher überprüfen konnten, welche Computeransätze die Onkogene vorhergesagt haben könnten. Sie fanden heraus, dass weder das weit verbreitete RNA-Expressionsniveau noch die GRAIL-Methode statistisch signifikante Vorhersagen machten.

Die Methode, die am besten funktionierte, basierte auf einem Protein-funktionellen Interaktionsnetzwerk mit etwa 20.000 Interaktionen. "Der endgültige Algorithmus ist die Schuld durch Assoziation", sagte Powers.Die endgültige Punktzahl für ein Gen basiert auf der höchsten Punktzahl der Proteine, mit denen das Produkt interagiert. "Die Schnittstelle zwischen Computer- und Funktionsvalidierung wird immer wichtiger, um die produktive Analyse von Krebsgenomprojekten zu ermöglichen", sagte Powers.

Eines der neuen Onkogene ist POFUT1, die in Notch-Signalisierung agiert. Folgeexperimente bestätigten, dass Zellen mit amplifiziertem POFUT1 schien empfindlicher auf die Hemmung der Gamma-Sekretase des Notch-Signalwegs zu sein.

Ein weiteres Onkogen ist FGF19, was eine Überraschung war, da es in einer Region liegt, die ausführlich auf Krebs untersucht wurde. Powers schlug vor, dass die Wirkung übersehen wurde, weil verschiedene Gewebe das Gen stark exprimieren, zum Beispiel "bei Leberkrebs, aber nicht bei Brustkrebs". Powers sagte, dass im Gegensatz zu bekannteren ErbB-Signalen die Erhöhung von FGF19 &beta-Catenin ausschaltet, ohne die MAP-Kinase zu aktivieren. "Bei Leberkrebs können Sie Patienten, die eine Amplifikation dieses Locus haben, vielleicht einfach einen monoklonalen Antikörper gegen FGF19 geben."

In beiden Fällen sind "die interessantesten Daten, die wir erhalten, Tests auf Abhängigkeiten", sagte Powers. "Wir haben nicht so viele neue Targets an sich entdeckt, wie wir neue Biomarker für die Verabreichung von Behandlungen entdeckt haben."

Krebsnetzwerke

Krebsgenome ermöglichen es Forschern auch, über einzelne Gene hinauszugehen, um ihre Interaktionsnetzwerke zu untersuchen. Ein tiefgreifendes Ergebnis für Glioblastoma multiformae, eine der ersten Krebsarten, die im Krebsgenom-Atlas analysiert wurden, war, dass die betroffenen Gene eine „unglaubliche Vielfalt“ aufweisen, sagte Chris Sander. "Obwohl dies alles Glioblastom ist, sind die Unterschiede ziemlich groß."

Die Menge an Daten macht es unpraktisch, genetische Profile der Tumore manuell mit Hintergrundwissen wie biologischen Signalwegen zu vergleichen, stellte Sander fest. "Das muss rechnerisch gemacht werden." Diese Art von Analyse zeigt, dass "kein einzelnes Gen einen Beitrag leistet, der über alle diese Tumoren hinweg konsistent ist, sondern die Module, Sammlungen von Genen, die zusammen auftreten. Diese Module treten im Wesentlichen bei allen diesen Individuen wieder auf, aber" die Umsetzung ist von Person zu Person unterschiedlich."

Um dieser Vielfalt gerecht zu werden, muss die Krebspatientenpopulation zumindest in große Gruppen unterteilt werden, um sicherzustellen, dass die Behandlung auf ihre spezifische genetische Veranlagung ausgerichtet ist, betonte Sander. "Ich bin überzeugt, dass der Ansatz der kombinatorischen Therapie, der auf Module ausgerichtet, aber individuell modifiziert wird, der richtige Weg ist."

Bei anderen Krebsarten unterscheiden sich die Veränderungen der DNA-Kopienzahl auffallend von denen beim Glioblastom, sagte Sander. Prostatatumoren unterscheiden sich signifikant im Ausmaß der Kopienzahländerungen, und metastatische Tumoren weisen viel mehr Veränderungen auf. Noch bevor Metastasen erkennbar sind, sind die Änderungen der Kopienzahl prädiktiv, da Patienten mit niedrigen Kopienzahlen ein besseres Überleben haben. Dieser Test sei "prädiktiver als der Gleason-Grad, den Pathologen berichten würden", sagte Sander. "Die Frage ist, ob sich das in einen klinischen Test übersetzen lässt." Er fügte hinzu, dass "man ein vernünftiges Maß an Vorhersage und Sicherheit haben muss, um tatsächlich dorthin gehen zu können. Psychologisch wollen die Menschen behandelt werden."

Auf der konzeptionellen Seite arbeitet Sander an einem "Geschmack der Systembiologie", den er "Perturbation Cell Biology" nannte. Das Ziel ist es, die Reaktionen von Zelllinien auf systematische Störungen wie Medikamente und Kombinationen von Medikamenten zu modellieren, wie sich in umfangreichen Beobachtungen einschließlich zellulärer Phänotypen und molekularer Messungen widerspiegelt.

Die zugrunde liegende mathematische Beschreibung sind Differentialgleichungen, die Konzentrationen von Molekülen in verschiedenen Phosphorylierungszuständen beschreiben, ähnlich denen, die von diskutiert wurden Peter Sorger. Der traditionelle Ansatz besteht darin, einen lokal optimalen Satz von Modellparametern zu bestimmen und den Vorgang dann mit neuen Startbedingungen viele Male zu wiederholen. "Dann melden Sie die aggregierten statistischen Eigenschaften dieses Lösungssatzes und zeichnen die Karte." Für kleine Systeme, sagte Sander. "Sie finden etwas Biologie aus dem Lehrbuch."

"Die Herausforderung besteht darin, dies auf größere Systeme zu skalieren", betonte Sander, denn "Netzwerk-Inferenzprobleme werden in größeren Systemen tatsächlich ziemlich unüberschaubar." In Zusammenarbeit mit Riccardo Zecchina vom Politecnico di Torino untersucht Sander Ideen der statistischen Physik, die "eine Art von Global-to-Local-Algorithmus" sind. Anstatt Wahrscheinlichkeitsverteilungen durch Mittelung über einzelne Lösungen zu bilden, leiten die Forscher zunächst Verteilungen für jeden der Parameterwerte ab, beispielsweise diejenigen, die die Interaktion zwischen zwei Arten beschreiben. Bei der Erstellung dieses "Faktor-Graphen" treten die anderen Interaktionen gemittelt ein, und das Netzwerk wird unter Verwendung von "Belief-Propagation" abgeleitet. Erst dann erarbeiten die Forscher konkrete Lösungen. "Es ist viel effizienter", sagte Sander. Aber das ist noch in Arbeit.

Lautsprecher:
Steven Altschuler, Southwestern Medical Center der University of Texas
Thomas Ingwer, Cold Spring Harbor Laboratory

Höhepunkte

  • Verschiedene Zellen in einer Population verhalten sich oft unterschiedlich, aber diese Heterogenität wird normalerweise ignoriert, obwohl sich keine der Zellen wie der Durchschnitt verhält.
  • Die enorme epigenetische Vielfalt kultivierter Krebszellen spiegelt unterschiedliche Populationen einiger weniger Typen wider, und die relativen Populationen jedes Typs fallen in Muster, die eine Reaktion auf das Arzneimittel Taxol vorhersagen.
  • In einem einfachen Positiv-Feedback-Modell geht die Heterogenität innerhalb einer Zellpopulation immer mit den Bedingungen einher, die die Entwicklung der Zellpolarität ermöglichen.
  • Verschiedene subzelluläre Kompartimente enthalten RNA-Transkripte, die aus verschiedenen Abschnitten des Genoms stammen.
  • Die Verfolgung von Transkripten nach Kompartiment ermöglicht es Forschern, Transkripte zu identifizieren, die ihnen in der gesamten Zelle möglicherweise fehlen, und zeigt, dass fast die Hälfte des Genoms sowohl transkribiert als auch in reife RNA gespleißt wird.
  • Chimäre Spleiße zwischen Transkripten, die von verschiedenen Chromosomen stammen, sind in einigen Zellkompartimenten in geringen Mengen vorhanden.

Zellheterogenität

Systembiologen konstruieren komplexe Netzwerkmodelle für viele Aspekte der Biologie. Aber „diese Netzwerke werden fast ausschließlich aus bevölkerungsgemittelten Messungen abgeleitet“, warnt Steven Altschuler. "In vielen Fällen können Sie bei gestörten Populationen sehr vorhersagende Reaktionen haben, aber Ihre durchschnittliche Messung entspricht nicht einer einzigen Zelle in Ihrem gesamten Assay."

"Wenn Sie davon ausgehen wollen, dass der Mittelwert eine gute Darstellung Ihrer Zellen ist, müssen Sie das beweisen", sagte Altschuler. Er beschrieb drei Projekte aus dem Labor, das er mit seiner Frau Lani Wu leitet, in denen Heterogenität nicht nur Lärm, sondern biologisch bedeutsam war. "Zellen, die vom Mittelwert abweichen, können sehr wichtig sein."

Das erste Beispiel betraf die Entwicklung von Adipozyten oder Fettzellen. Zu den bekannten molekularen Schaltkreisen, die diesem Prozess zugrunde liegen, gehören der Hauptregulator PPAR&gamma, der das stetige Wachstum von Lipidtröpfchen in den Zellen sowie den Adiponektinspiegel antreibt. Eine natürliche Erwartung wäre, dass einzelne Zellen der gleichen Flugbahn folgen würden, mit korreliertem Wachstum von Tröpfchen und Adiponektinspiegeln.

„Wenn man sich die Zellen anschaut, ist das eher verstörend“, sagt Altschuler, denn die meisten Zellen haben entweder große Lipidtröpfchen oder hohe Adiponektinspiegel, aber nie beides. Die Verfolgung einzelner Zellen zeigt, dass bei „fast allen“ zuerst der Adiponektinspiegel mit kleinen Lipidtröpfchen ansteigt. Später wachsen die Tröpfchen, begleitet von einem Abfall des Adiponektinspiegels, das Gegenteil von dem, was aus den bevölkerungsgemittelten Messungen erwartet wurde.

"Die Korrelation ist eine Illusion", schloss Altschuler, weil eine große Zellpopulation, die noch die frühe Differenzierung durchläuft, den Durchschnitt verzerrt. Darüber hinaus wirken sich hinzugefügte Verbindungen fast immer unterschiedlich auf verschiedene Subpopulationen aus, anstatt sie alle auf die gleiche Weise zu bewegen. Infolgedessen, so Altschuler, „haben wir durch die Untersuchung der Auswirkungen auf Subpopulationen tatsächlich eine Möglichkeit, neue Angriffspunkte von Verbindungen zu identifizieren“.

Im zweiten Teil seines Vortrags wandte sich Altschuler dem Krebs zu. „Heterogenität wird fast immer ignoriert, weil man einfach nicht weiß, was man damit anfangen soll“, sagte er. Sein Team verglich eine Gruppe von 49 Klonen aus einer Lungenkrebszelllinie. "Ich gehe davon aus, dass viele der Unterschiede, die wir sehen, epigenetisch sind", sagte Altschuler.

Wenn man Marker zur Signalisierung verwendet, "sieht man eine große Vielfalt", bemerkte Altschuler. "Sie denken, Krebs muss unendlich kompliziert sein." Aber Merkmalsextraktionsalgorithmen machen die Klassifikation handhabbar, und die Hauptkomponentenanalyse reduzierte 1000 Merkmale auf etwa 20 Eigendimensionen pro Zelle. Darüber hinaus könnten alle Variationen zwischen Zellen mit etwa fünf Subpopulationen erfasst werden, sagte Altschuler. "Das fühlte sich nicht mehr wie ein Problem von unendlicher Komplexität an."

Bei der Analyse der 49 Klone sagte Altschuler: "Das Erstaunlichste ist passiert: Sie gruppieren sich in sechs oder sieben verschiedene Kladen", jede mit einem charakteristischen Anteil der Zellen in den verschiedenen Subpopulationen. Darüber hinaus trennte diese Klassifikation die Klone in Bezug auf ihre Reaktion auf das Arzneimittel Taxol fast perfekt. „Die Ensemble-Subpopulationen ermöglichten es uns, zu unterscheiden, ob sie drogensensibel sind oder nicht“, schloss Altschuler.

Das dritte Thema von Altschuler untersuchte, wie Heterogenität in einem theoretischen Modell der Zellpolarisation entsteht. Das Modell enthält aktive Partikel auf der Zellmembran, die inaktive Partikel aus dem Zytosol rekrutieren und aktiv machen können. "Es ist Ihre klassische positive Feedback-Schleife." sagte Altschuler. Darüber hinaus diffundieren Partikel in der Membran um die Oberfläche der Zelle herum.

Es stellt sich heraus, dass es einen Schlüsselparameter im Modell gibt: die Anzahl der Partikel pro Zelle. Ist diese Zahl groß, diffundieren Teilchen überall hin und es entsteht keine Polarisation. (Dies unterscheidet sich von den klassischen von Turing und anderen untersuchten Fällen, in denen die Musterbildung sowohl positive als auch negative Rückkopplung widerspiegelt.) Wenn die Anzahl der Teilchen klein ist, ist die Rückkopplung zu klein, um eine Polarität zu erzeugen. Nur für mittlere Teilchenzahlen erzeugt dieses Modell Zellpolarität. Aber für die Werte von Parametern, bei denen Polarisation auftritt, tritt sie nur bei etwa der Hälfte der Zellen auf. "Heterogenität ist hier mathematisch unvermeidbar", sagte Altschuler.

Subzelluläre Lokalisation von transkribierter RNA

Auch die heterogene Expression, auch innerhalb einer Zelle, ist für RNA wichtig. Eine Möglichkeit, um zu vermuten, wie viel des Genoms funktionsfähig ist, besteht darin, zu messen, wie viel davon in RNA transkribiert und in nutzbare Formen verarbeitet wird. Das große GENCODE-Team des ENCODE-Projekts überprüft veröffentlichte cDNA-Sequenzen in voller Länge und kuratiert sie von Hand, um "Qualität, Kodierungskapazität, anscheinend Legitimität von Spleißstellen usw Thomas Ingwer. Ungefähr 142.000 Transkripte seien gut annotiert worden, sagte er, von denen die Hälfte nicht proteinkodierend zu sein scheint. "Etwa 70 % der Transkripte sind nicht kommentiert", bemerkte Gingeras, es gibt also viel zu lernen.

Ein wichtiger Aspekt dieses Projekts ist die Verfolgung von Transkripten in 15 Zelllinien, die in verschiedenen subzellulären Kompartimenten, einschließlich Zytoplasma und Nukleus, und für eine Zelllinie im Nukleolus, Nukleoplasma und Chromatin vorkommen. Das Erkennen der heterogenen Zusammensetzung dieser Kompartimente legt die Möglichkeit unterschiedlicher Funktionen für Transkripte nahe.

Der Blick auf verschiedene Fächer unterstreicht auch die Bedeutung seltener Transkripte. "Diese Bereicherung ermöglicht es Ihnen, weniger Dinge zu sehen, die sonst im Ende der Verteilung gestanden hätten", sagte Gingeras. Im Gegensatz dazu: "Wenn Sie die ganze Zelle als einen Beutel voller Moleküle behandeln, sollten Sie sie besser sequenzieren."

Die Forscher erhielten in jedem Kompartiment etwa 400 Millionen Sequenz-Reads. "Das scheint viel zu sein, aber es erlaubt uns nur einen Blick auf die Transkripte mit geringer Kopienzahl zu sehen, die sich in bestimmten Fächern befinden", sagte Gingeras. Er betonte jedoch, dass die meisten Reads eine strenge "irreduzible Discovery Rate" oder IDR bestanden, die Wahrscheinlichkeit, dass eine wiederholte Messung nicht das gleiche Ergebnis liefert. "Diese Daten, die wir verwenden, sind sehr konservativ." Selbst bei einer IDR von 0,1, sagte er, "ist das Genom fast zur Hälfte mit Transkripten bedeckt, die verarbeitet und gespleißt werden."

Von den vielen faszinierenden Klassen von Transkripten "sticht eine Klasse heraus", sagte Gingeras. Die Transkription dieser Stränge scheint in den 3&prime-untranslatierten Regionen (UTRs) am Schwanz anderer Transkripte zu beginnen. Solche Transkripte kommen in 80 % der exprimierten Gene in Fliegen und 62 % der bisher untersuchten exprimierten menschlichen Gene vor. "Es sieht aus wie eine andere Art von regulierter Region für die Expression", sagte Gingeras.

Transkribierte Sequenzen in verschiedenen Kompartimenten stammen aus sehr unterschiedlichen Regionen. Zum Beispiel "im Kern und im Chromatin finden sich verkappte 5&prime-Enden am deutlichsten, die von den intergenischen Regionen ausgehen, nicht von annotierten Transkripten." Ingwer beobachtet. "Die Zelle fügt in diese Kompartimente Transkripte ein, die in verschiedenen Teilen des Genoms initiiert werden."

Die Populationen der transkribierten RNA unterscheiden sich stark, abhängig von dem Zellkompartiment, aus dem sie isoliert werden.

Gingeras beschrieben auch "chimäre" RNAs, die Segmente zusammenführen, die von verschiedenen Chromosomen transkribiert wurden. Diese seltsamen Kombinationen wurden von anderen in der Literatur beschrieben, aber ihre Funktion und sogar ihre Existenz waren umstritten. Nach umfangreichen experimentellen Gegenkontrollen sagte Gingeras: "Diese Moleküle existieren eindeutig in den Zellen, in denen wir sie identifiziert haben, wenn auch in einer viel geringeren Kopienzahl innerhalb dieses Zelltyps als die normal gespleißten Formen."

Die Forscher fanden unter anderem heraus, dass Chimären dazu neigen, eng beieinander liegende Regionen im dreidimensionalen Chromatin zu verbinden. "Sechsundsiebzig Prozent der chimären RNAs, die wir sehen, fallen in die Regionen, in denen die DNA durch Vernetzungsexperimente nahe genug ist, um in einem 5C-Experiment vernetzt zu werden. Es sieht so aus, als würden diese genomischen Regionen für Transkriptionszwecke zusammengeführt. "

"Wir glauben nicht, dass dies zufällige Ereignisse sind, obwohl sie in einer relativ geringen Kopienzahl vorhanden sind", sagte Gingeras. Insgesamt "beinhaltet die Transkriptionslandschaft eine ganze Reihe von Transkripten, deren Funktion noch nicht geklärt ist, deren Eigenschaften uns aber nicht bewusst waren."

Lautsprecher:
Stuart Schreiber, Breites Institut
Marc Vidal, Dana-Farber Cancer Institute und Harvard Medical School

Höhepunkte

  • Die Reaktion auf kleine Moleküle kann als Klassifikator für das Vorliegen oder den Subtyp von Krebs dienen.
  • Forscher katalogisieren systematisch die molekularen Reaktionen von Zellen auf unterschiedliche Konzentrationen hochspezifischer kleiner Moleküle, um Hypothesen für die Biologie und Behandlung von Krankheiten zu entwickeln.
  • Die Untersuchung von Netzwerken, zum Beispiel von Protein- und Protein-Interaktionen, hat wichtige Erkenntnisse zwischen Genotyp und Phänotypen wie Krankheiten geliefert.
  • Ungefähr die Hälfte der Mutationen, die menschliche Krankheiten verursachen, scheinen "edgetic" zu sein: Sie modifizieren die Interaktionen zwischen Proteinen anstatt ihrer Anwesenheit.
  • Das Auffinden von Proteinen, die von Viren und Genen angegriffen werden, die dieselbe Krankheit verursachen, identifiziert neue Kandidaten für eine Intervention.
  • Interaktionsnetzwerke scheinen sich schneller zu entwickeln als proteinkodierende Sequenzen.

Kleinmolekulare Krebssonden

Umfassendes Wissen über die der Krankheit zugrunde liegenden molekularen Netzwerke ist für Patienten ohne Möglichkeiten, diese Netzwerke zu manipulieren, beispielsweise durch niedermolekulare Medikamente, nicht von großem Nutzen. Gleichzeitig kann die Reaktion auf kleine Moleküle, die bestimmte Knoten in einem Netzwerk stören, aussagekräftige biologische Erkenntnisse darüber liefern, wie dieser Knoten mit anderen interagiert. Um sowohl die Therapie als auch das grundlegende Verständnis zu beschleunigen, Stuart Schreiber und seine Kollegen stellen einen umfassenden Katalog der dosisabhängigen Reaktion von Zellkulturen auf eine Bibliothek eng zielgerichteter Verbindungen zusammen. "Wir versuchen, Krebstherapeutika auf integrierte Weise zu betrachten", sagte er und ergänzte frühere Kataloge von Reaktionen mit einer detaillierten genetischen Charakterisierung von Zellen.

Einige kleine Moleküle sind außerordentlich wirksam gegen bestimmte genetische Versionen von Krebsarten. Imatinib, das in den USA als Gleevec vermarktet wird, ist beispielsweise gegen chronische myeloische Leukämie im Wesentlichen zu 100 % wirksam. Aber "weniger als 1% der Krebspatienten profitieren heute von diesem dramatischen klinischen Ergebnis", bemerkte Schreiber, weil kein analoges Medikament für ihre Krebserkrankungen bekannt ist. Sein neues Projekt zielt darauf ab, einen breiteren Nutzen zu erzielen, indem genetisch unterschiedliche Patientenpopulationen mit Zielen für Medikamente oder Kombinationen von Medikamenten verknüpft werden.

Schreibers Team hat kürzlich gezeigt, dass die Reaktion von kultivierten Zellen auf verschiedene kleine Moleküle Patienten mit einer genetischen Form von Diabetes namens MODY1 identifizieren kann. "Sie können kleine Moleküle als Klassifikator verwenden und vorhersagen, ob die Zellen von betroffenen oder nicht betroffenen Personen stammen", sagte er. Diese Arbeit war eine Inspiration für ihr Projekt, das vom Cancer Target Discovery and Development Network (CTD 2 ) des NCI finanziert wurde, um Krebsgenomdaten zu übersetzen (diskutiert von Scott Powers und Chris Sander) in klinische Anwendungen.

„Was wir nicht wissen, ist, ob kleine Moleküle, die nach dem Prinzip der synthetischen Letalität auf nicht-onkogene Co-Abhängigkeiten abzielen, die gleichen klinischen Ergebnisse haben könnten“, warnte Schreiber. Solche Abhängigkeiten sind bei Krebs üblich, da Onkogene, da sie bereits bestehende Signalwege für die Krebsproliferation und das Überleben übernehmen, die Unterstützung anderer Proteine ​​in Anspruch nehmen, um diese Wege zu ermöglichen.

Onkogene sind beispielsweise oft temperaturempfindliche labile Proteine, sodass sie einen Bedarf an Chaperonen entwickeln. Eine frühe Untersuchung der anfallenden Daten zeigte, dass die Wirkung eines Inhibitors eines solchen Chaperons, des Hitzeschockproteins HSP70, in Zellen mit amplifiziertem Myc, die häufig bei Krebserkrankungen vorkommen, zugenommen hat.

Ein anderes kleines Molekül hat eine viel größere Wirkung in Zellen mit aktivierenden Mutationen im &beta-Catenin-Onkogen. Schreiber schlug vor, dass dieser Effekt nicht mit der Rolle von &beta-Catenin bei der Wnt-Signalübertragung zusammenhängt (diskutiert von Randall Moon) sondern auf die Wirkung des kleinen Moleküls bei der Neutralisierung reaktiver Sauerstoffspezies, die mit dem ungewöhnlichen Stoffwechsel von Krebszellen zusammenhängen.

Diese frühen Testfälle und andere unterstützen die Bemühungen von Schreiber und seinem Team, die Dosis-Wirkungs-Beziehung von Zelllinien zu verschiedenen Verbindungen systematisch zu katalogisieren. Diese Verbindungen, aus denen das CTD 2-Sonden-Kit besteht, werden "in erster Linie aufgrund der Tatsache ausgewählt, dass die Verbindung hochselektiv ist", sagte Schreiber. "Wir nennen sie 'narrowly active Compounds'." Mittels weitgehender Automatisierung charakterisieren die Forscher die molekulare und phänotypische Reaktion von 1000 genetisch charakterisierten Zellen auf unterschiedliche Konzentrationen der kleinen Moleküle.Neben Einzelreaktionen, betonte Schreiber, "kann man mit diesen genetisch charakterisierten Zellen auch Kombinationen von Verbindungen untersuchen."

Ein weiteres Projekt, an dem Schreiber und seine Kollegen arbeiten, heißt Cancer Cell Line Encyclopedia Project, eine Kooperation mit dem Novartis Institute for Biomedical Research. Diese Ressource wird in Kürze umfangreiche Charakterisierungsdaten für viele öffentlich verfügbare Zelllinien bereitstellen, einschließlich genomweiter Kopienzahldaten, Genexpression und Mutationen von Ziel-Onkogenen sowie umfangreiche Exom-Sequenzierung. Schreiber hofft, dass diese Ressourcen die traditionelle serielle "Eimer-Brigade" der pharmazeutischen Entwicklung dramatisch verändern können.

Verknüpfung von Genotyp und Phänotyp durch Interaktionsnetzwerke

Genotypdaten für verschiedene gesunde Individuen und für Tumore sind weithin verfügbar. Beziehungen zwischen diesen Genotypen und Phänotypen, wie die Anfälligkeit für Krankheiten, "sind die interessantesten Fragen der Biologie", sagt Marc Vidal. Aber der Zusammenhang ist komplex. Selbst einfache mendelsche Merkmale zeigen unvollständige Penetranz, multiple Effekte von Mutationen und Modifikationen durch andere Gene. Bei komplexen Merkmalen ist die Verbindung noch weniger direkt. "Um Genotyp-Phänotyp-Beziehungen zu verstehen, die alles andere als linear sind, müssen wir Systeme verstehen", sagte Vidal.

Eine der effektivsten Methoden, diese nichtlineare Verbindung zu beschreiben, ist die Sprache von Netzwerken, bei der makromolekulare Spezies als Knoten und ihre Wechselwirkungen als Kanten dargestellt werden. Basierend auf etwa einem Jahrzehnt des Fortschritts sagte Vidal: „Wir können mit Sicherheit sagen, dass es wirklich globale Eigenschaften in zellulären Interaktomnetzwerken gibt UND dass diese Eigenschaften mit der Biologie zusammenhängen.“

Vidal ist ein Pionier in der umfassenden Messung von Protein- und Protein-Interaktionen, insbesondere durch die Hefe-Zwei-Hybrid-Methode. Bisher sind nur etwa 20 % des Hefe-Interaktoms und etwa 5 % des menschlichen Interaktoms bekannt. Vidal glaubt jedoch, dass in weiteren 10 Jahren etwa 70 % und 90 % dieser Netzwerke mit hoher Qualität kartiert werden und weiterhin biologische Erkenntnisse generieren werden.

Im Zusammenhang mit menschlichen Erkrankungen stellte Vidal fest, dass "in vielen Fällen Mutationen in mehreren Genen vorliegen, die eine Störung verursachen können, und umgekehrt, dass unterschiedliche Mutationen in demselben Gen zu unterschiedlichen Störungen führen können." Um diese Beziehungen zu erforschen, haben er und seine Mitarbeiter die Online-Datenbank Mendelian Inheritance in Man (OMIM) durchforstet, um das "Krankheitsom" zu konstruieren. Durch die Verbindung von Krankheiten, die ein Gen teilen, und Gene, die eine Krankheit teilen, haben sie ein zweiteiliges Diagramm erstellt, das hilft, die komplexen Zusammenhänge zwischen Krankheiten zu veranschaulichen.

Ein Blick auf diesen Zusammenhang zwischen Krankheiten führt zu neuen Fragen, sagte Vidal, wie zum Beispiel "Wie erklären wir aus der Netzwerkperspektive, dass unterschiedliche Mutationen im selben Gen zu unterschiedlichen Erkrankungen führen?" Er schlug vor, dass einige Krankheiten nicht entstehen, weil ein bestimmter Knoten, der Makromoleküle darstellt, in der Grafik fehlt. Stattdessen könnte ein Netzwerkrand oder eine Interaktion geändert werden. "Die Störung einer anderen Kante könnte zu einem anderen Phänotyp führen", sagte er.

Ungefähr die Hälfte der Mutationen, die mit menschlichen Krankheiten verbunden sind, scheinen die Interaktionen zwischen Proteinen oder Kanten zu stören, anstatt die Proteine ​​selbst zu deaktivieren.

Vidal und seine Kollegen verwendeten Sequenzdaten aus der Human Gene Mutation Database, um diese Möglichkeit zu testen, und stellten die Hypothese auf, dass Sequenzänderungen wie vorzeitige Stop-Codons wahrscheinlich Knotenstörungen darstellen, während Missense- oder In-Frame-Mutationen wahrscheinlich "edgetic" sind und Proteininteraktionen beeinflussen. Sie fanden heraus, dass etwa die Hälfte der Mutationen, von denen bekannt ist, dass sie mit Krankheiten in Verbindung stehen, kantig aussehen.

In Folgetests sagte Vidal: "Jedes Mal, wenn wir sagten, dass dieses Gen nach diesem einfachen Modell tatsächlich zu kantigen Störungen führen könnte, konnten wir experimentell bestätigen, dass dies tatsächlich der Fall war." Betrachtet man Proteine, die über mehrere Bindungsdomänen verfügen und deren Gene mit mindestens zwei Krankheiten in Verbindung stehen, zeige er, dass die verschiedenen Erkrankungen erwartungsgemäß immer Mutationen in verschiedenen Domänen widerspiegeln.

Die Idee, die Kanten in Netzwerken zu ändern, bietet auch ein neues Fenster zur Evolution, sagte Vidal. Sein Team untersucht, wie sich die Verdrahtung von Netzwerken während der Evolution verändert, und nicht die Sequenz der Gene selbst. Sie nutzen empirische Daten von Pflanzen, die viele paraloge Paare haben, die gleich aussehen und wahrscheinlich aus einer Verdopplung in einem gemeinsamen Vorfahren hervorgegangen sind. Die bisherige Analyse legt nahe, dass die Interaktionsprofile für duplizierte Gene schneller divergieren als die entsprechenden Sequenzen.

In einem weiteren laufenden Projekt untersuchen Vidal und sein Team krankheitserregende Viren und vergleichen sie mit genetischen Mutationen, die dieselbe Krankheit verursachen. Sie haben bestätigt, dass die Protein-Targets von Viren im Interaktionsnetzwerk nahe an den Produkten von Genen liegen, die an derselben Krankheit beteiligt sind. „Die kürzesten Wege helfen uns, Hypothesen für die Ätiologie von Krankheiten aufzustellen“, sagte Vidal.

Lautsprecher:
Charlie Boone, Universität von Toronto
Leonid Kruglyak, Princeton Universität

Höhepunkte

  • Nicht-additive Interaktionen, wie die synthetische Letalität, zwischen Paaren von deletierten Genen sind sehr aufschlussreich über die Beziehungen der Gene und werden in Hefe systematisch katalogisiert.
  • Gene mit ähnlichen Interaktionsmustern mit anderen befinden sich oft auf demselben Weg und implizieren Netzwerke mit erkennbaren biologischen Funktionen.
  • Im Vergleich zu Doppelmutanten ist die vollständige natürliche Variation, die durch Kreuzungen zwischen genetisch unterschiedlichen Stämmen sichtbar wird, viel komplexer.
  • Die Vererbbarkeit menschlicher Krankheiten lässt sich nicht vollständig durch die geringen Auswirkungen einzelner Varianten erklären, die genomweite Studien identifiziert haben.
  • Hefekreuzungen erzeugen Millionen genetisch unterschiedlicher Stämme, die eine quantitative Bewertung der Beiträge verschiedener genetischer Loci zu einem Merkmal ermöglichen.

Vermessung von Hefe-Doppelmutanten

Die systematische Deletion von Genpaaren in Hefe gibt reichhaltige Informationen darüber, wie die Gene miteinander interagieren, sagte Charlie Boone. Netzwerke, die auf diesen genetischen Interaktionen basieren, rekapitulieren bekannte Biologie und zeigen neue Aspekte von Signalwegen und Komplexen. Kreuzungen zwischen Stämmen zeigen jedoch, dass die Wirkung natürlicher Variation nicht einfach in Bezug auf die interagierenden Paare erklärt werden kann.

Von den 6000 Genen in knospender Hefe, sagte Boone, könnten 5000 deletiert werden, ohne die Organismen abzutöten. Für die verbleibenden 1000 „essentiellen“ Gene entwickeln die Forscher temperaturempfindliche (ts) Allele, die sie nach der Entwicklung effektiv löschen. Insgesamt bedeutet dies, dass Forscher etwa 18 Millionen verschiedene Doppel-Deletions-Mutanten herstellen können, die Boone jeweils charakterisieren möchte.

"Genetische Interaktion tritt auf, wenn etwas Seltsames passiert", sagte Boone. Das offensichtlichste Beispiel ist die synthetische Letalität, wenn keines der Gene für sich allein essentiell ist, aber das Löschen beider tödlich ist. Dies kann auftreten, wenn zwei Gene auf redundanten Wegen liegen und die Zelle mindestens einen Weg zum Überleben benötigt. "Viele Pfade sind nicht unbedingt erforderlich, weil es einen Backup-Pfad gibt", sagte Boone. Die gegenteilige Interaktion tritt ein, wenn eines der Gene eine gewisse Verringerung der Fitness verursacht, aber da beide denselben Weg unterbrechen, macht das Löschen beider die Dinge nicht schlimmer.

"Gene mit dem gleichen Muster synthetischer tödlicher Wechselwirkungen befinden sich oft auf demselben Weg", sagte Boone. Durch die Verbindung von Genen mit ähnlichen Interaktionsmustern entstehen genetische Interaktionsnetzwerke analog denen, die auf physikalischen Proteininteraktionen oder Ähnlichkeiten in der Genexpression basieren. "Letztendlich definieren die Position eines Gens im Netzwerk und seine Konnektivität seine Funktion", sagte Boone.

Das Clustern von Genen aufgrund ihrer Ähnlichkeit der Interaktionen führt zu Netzwerken, in denen Gene mit bekannten biologischen Funktionen zusammen mit einigen zuvor nicht annotierten Genen gruppiert sind. "Wenn wir es testen, sind diese Gene unweigerlich neue Komponenten des Signalwegs, mit dem sie verbunden sind."

Boone, Brenda Andrews und ihre Mitarbeiter hoffen, diese Messungen innerhalb weniger Jahre auf alle möglichen Paare auszuweiten. „Eine der größten Herausforderungen bei diesen Projekten besteht darin, sie zum Abschluss zu bringen“, sagte er. Neben der Automatisierung des Setups und der Messung der Koloniegröße als Fitnessindikator bestand eine große Herausforderung darin, ein quantitatives Maß für die Abweichung von Doppelmutanten vom erwarteten Effekt der Kombination einzelner Deletionen zu entwickeln. Diese Abweichungen können entweder "negativ" wie bei Backups oder "positiv" sein, wenn die Gene zusammenarbeiten.

Das allein aus unerwarteten Ergebnissen von Doppelmutationen abgeleitete genetische Interaktionsnetzwerk verbindet oft Gene mit verwandter biologischer Funktion.

Der Vergleich des genetischen Interaktionsnetzwerks mit bekannten Protein- und Protein-Interaktionen führt zu einigen Überraschungen. Zum Beispiel würde man erwarten, dass physikalisch interagierende Proteine ​​innerhalb eines Komplexes positive genetische Wechselwirkungen zeigen, so dass das Paar weniger schädlich ist als ihre erwartete kombinierte Wirkung, da der Komplex bereits deaktiviert ist. Aber obwohl es "positive Wechselwirkungen gibt, die sich mit physikalischen Wechselwirkungen überschneiden, gibt es nur viele negative Wechselwirkungen, die sich mit physikalischen Wechselwirkungen überschneiden", sagte Boone. Darüber hinaus "finden viele der positiven Wechselwirkungen auch zwischen Signalwegen statt".

Letztendlich möchten Forscher verstehen, wie verschiedene Varianten von Genen in ihrer komplexen natürlichen Umgebung interagieren, nicht nur in isolierten Paaren. Um mehr über diese natürliche Variabilität zu erfahren, untersuchten Boone und seine Kollegen Kreuzungen zwischen zwei gut charakterisierten Laborstämmen.

Das Team suchte nach „bedingt essentiellen“ Genen, die in einer Sorte essentiell sind, in der anderen jedoch nicht. Sie führten dann Kreuzungen zwischen einem Stamm durch, bei dem ein Gen essentiell war, aber mit einem anderen, wo es nicht essentiell war, und deletierte. Sie erwarten, dass das Überleben des Hybrids häufig von der Anwesenheit eines Allels eines anderen Gens abhängt, das das deletierte Gen tödlich machte. Mit Blick auf die Statistiken der Kreuze "können wir beurteilen, ob diese bedingten wesentlichen Faktoren auf einen einfachen Fall von synthetischer Letalität zurückzuführen sind oder nicht", sagte Boone. Aber "es war nie ein einfacher Fall, in dem ein einzelner Modifikator zu einer synthetischen tödlichen Interaktion führte", stellte er zu seiner Überraschung fest. "Unsere Schlussfolgerung ist, dass Genotyp zu Phänotyp ein unglaublich komplexes Problem ist."

Quantifizierung genetischer Beiträge zu Merkmalen

Obwohl einige menschliche Eigenschaften und Krankheiten der einfachen Mendelschen Vererbung folgen, sagte Leonid Kruglyak, "die meisten Dinge, die uns wirklich wichtig sind, folgen viel komplizierteren Vererbungsmustern." Obwohl genomweite Assoziationsstudien in den letzten Jahren fast 1000 genetische Regionen im Zusammenhang mit Krankheiten gefunden haben, erklärt die Gesamtwirkung dieser Gene normalerweise nicht die bekannte Vererbbarkeit.

Die menschliche Körpergröße zum Beispiel ist zu 80 % vererbbar, aber die 180 bekannten Loci erklären nur 10 % der Populationsvarianz. Eine mögliche Quelle für die „fehlende Heritabilität“ ist, dass es viele Varianten mit größerer Effektstärke gibt, diese aber in den meisten Studien zu selten sind, um sie überzeugend zu sehen.

"Weil wir es mit kleinen Effekten zu tun haben, brauchen wir sehr große Stichproben", sagte Kruglyak. Obwohl es eine große Herausforderung ist, 100.000 Menschen zu charakterisieren, "ist es kein Problem, große Populationen in Hefe zu züchten". Sein Team wählte eine Reihe von Merkmalen aus, die Empfindlichkeit gegenüber verschiedenen Medikamenten, die in Hefe auf genetisch komplexe Weise kontinuierlich variabel sind. Sie fragten dann, ob sie alle Gene finden könnten, die an der Variation dieser Merkmale beteiligt sind. "Die Frage so zu stellen, sichert uns fast das Scheitern", sagte Kruglyak, "aber wir möchten so weit wie möglich kommen."

Wie in Boones Experimenten führt die Kreuzung zweier verschiedener Stämme zu einer großen Variation, in diesem Fall in der Arzneimittelempfindlichkeit. Anstatt die einzelnen Nachkommen zu phänotypisieren, entschieden sich die Forscher, die große Zahl zu nutzen und die Population zu phänotypisieren, aber nur die Ausreißer. "Die meisten genetischen Informationen sind in den phänotypisch extremen Individuen enthalten", sagte Kruglyak.

Die resultierende Population mit Tausenden oder Zehntausenden genetisch unterschiedlicher Stämme ist jedoch immer noch zu groß, um einzeln genotypisiert zu werden. "Anstatt sie einzeln zu genotypisieren, messen wir einfach die Häufigkeiten der beiden Elternallele im gesamten Genom." Bei Allelen, die das Merkmal in Richtung eines Extremwerts treiben, sollte die erwartete Häufigkeit von dem 50/50-Verhältnis für die gesamte Population abweichen.

"Der Trick besteht darin, dies quantitativ genug zu tun", sagte Kruglyak. Aber mit Vorsicht "können wir Loci erkennen, selbst wenn sie recht kleine phänotypische Effekte haben." Ein wichtiger Trick zur Verbesserung des Signal-Rausch-Verhältnisses besteht darin, benutzerdefinierte Microarrays mit Sonden für das Allel von jedem Stamm zu verwenden, anstatt nur aus dem Vorhandensein oder Fehlen eines Signals auf das Allel zu schließen.

Kruglyak hatte zuvor die Empfindlichkeit gegenüber 4-Nitrochinolin-1-oxid oder 4NQO untersucht und die Empfindlichkeit gegenüber diesem DNA-schädigenden Wirkstoff mit einem bestimmten Gen namens . in Verbindung gebracht RAD5 das bei der Reparatur von DNA-Schäden wirkt. "Es hat einen Teil der Variation erklärt, aber nicht alles", erinnert er sich.

Aus einer Kreuzung wählte sein Team diejenigen Segreganten mit extremer Resistenz gegen 4NQO aus und genotypisierte diese Subpopulation quantitativ. "Zusätzlich zu RAD5, die sich als unsere klarste und stärkste Selektion herausstellte, gibt es etwa ein Dutzend anderer Loci von beiden Elternstämmen", sagte Kruglyak.

Dieser gepoolte Ansatz identifiziert wichtige Loci, ist jedoch nicht sehr genau in Bezug auf die Größe ihrer Wirkung oder ob und wie sie interagieren, sagte Kruglyak. "Sie können darauf zurückkommen, indem Sie Sammlungen einzelner Segreganten erstellen, ihre Phänotypen messen und sie einfach an den Positionen, an denen Sie die Loci gefunden haben, genotypisieren. Sie müssen also weder die experimentellen noch die statistischen Kosten für die Suche im Ganzen bezahlen Genom."

Diese Analyse zeigte, dass die anderen Loci viel geringere Auswirkungen haben als RAD5, die etwa 40% der Varianz erklärt. Die Effekte der anderen Loci liegen alle unter etwa 5%, was bei einem traditionellen genomweiten Kopplungsscan statistisch nicht signifikant gewesen wäre.

Die Forscher testeten dann die Empfindlichkeit gegenüber "etwa 20 anderen chemischen Verbindungen und anderen Wegen, Hefezellen unglücklich zu machen", sagte Kruglyak. "Die genetischen Architekturen können ganz unterschiedlich aussehen." Bei einigen Beleidigungen wird die Sensitivität von einem einzelnen Locus mit einem Mendelschen Vererbungsmuster dominiert. In anderen Fällen gibt es bis zu 20 statistisch signifikante Loci, die zur Variation beitragen.

Die Technik ist nicht auf die Anreicherung der Arzneimittelresistenz beschränkt. Eine leistungsstarke Erweiterung ist die Verwendung von Zellsortierung, um Individuen mit extremen Phänotypen zu isolieren. Diese Technik könnte dann für jede Eigenschaft verwendet werden, für die es einen geeigneten Reporter gibt. Kruglyak illustrierte die Sortierung basierend auf der mitochondrialen Leistung, aber sie könnte auf die Verfolgung der genetischen Loci für viele Arten von phänotypischen Variationen angewendet werden.

Lautsprecher:
Michael Snyder, Universität in Stanford
John Stamatoyannopoulos, Universität von Washington

Höhepunkte

  • Regulatorische Unterschiede aufgrund der variablen Bindung von Transkriptionsfaktoren unterliegen sowohl vielen individuellen Variationen als auch Krankheiten.
  • Spezialisierte Transkriptionsfaktoren, die nur wenige Gene regulieren, können für diese Gene ebenso wichtig sein wie Master-Regulatoren mit weitreichender Wirkung.
  • Die personalisierte Genomsequenzierung erfordert eine höhere Genauigkeit, insbesondere bei der Beurteilung der Anzahl der Genkopien, und ihre Interpretation ist oft unsicher.
  • Die Kartierung der Spaltung durch DNase I gibt direkte, genomweite Hinweise auf Orte, die für DNA-regulatorische Merkmale wie die Bildung von Nukleosomen und die Bindung von Transkriptionsfaktoren zugänglich sind.
  • Die Muster der DNase-I-überempfindlichen Stellen in verschiedenen Zellen spiegeln die Entwicklungsbeziehungen der Zellen wider.
  • Eine tiefe Sequenzierung von Spaltungsstellen zeigt charakteristische Spaltungsmuster bei Einzelnukleotid-Auflösung für verschiedene Transkriptionsfaktoren.

Variationen in der Transkriptionsfaktor-Bindung

Als Experte für genomische Techniken Michael Snyder beschlossen, die immer erschwinglicher werdenden Optionen für die persönliche Genomanalyse zu prüfen. Er verglich die Ergebnisse von Complete Genomics und Illumina, die beide mehr als 3 Millionen Single-Nukleotid-Polymorphismen (SNPs) identifizierten. Jeder hatte mehrere Hunderttausend Anrufe, die nicht im anderen Set enthalten waren, ein Unterschied, den Snyder auf fehlende Daten zurückführte. "Das größte Problem bei der Sequenzierung Ihres Genoms ist, dass sie nicht in allen Regionen tief genug sind."

Sogar SNPs, die von beiden Unternehmen gemeldet wurden, waren in vielen Fällen anderer Meinung als die Zygosität, was "einen großen Unterschied macht. Für 1000 Genome bei geringer Abdeckung ist das keine große Sache", sagte Snyder. Aber "Mir ist der Durchschnitt egal. Ich interessiere mich für mich." Insgesamt sei es noch ein weiter Weg in Bezug auf die Genauigkeit und Interpretation personenbezogener Genomdaten. Die Techniken sind für strukturelle Varianten wie Insertionen, Deletionen und Inversionen noch weniger zuverlässig, sagte Snyder.

In ihrer Primärforschung untersuchen Snyder und sein Team die Variation sowohl zwischen verwandten Arten als auch zwischen Individuen. Insbesondere wollen sie sehen, wie viel Variabilität aus Unterschieden in der Transkriptionsfaktor-Bindung entsteht.

In einer Studie kartierten sie die genomweite Bindung des Transkriptionsfaktors Ste12 in Hefe mithilfe von Chromatin-Immunpräzipitation und -sequenzierung (ChIP-seq). Sie nutzten die natürliche Variation zwischen 45 segreganten Stämmen aus einer Kreuzung zwischen zwei Laborstämmen und verfolgten die Bindung sowie die Genexpression, nachdem die Hefe einem Pheromon ausgesetzt wurde.

Die meisten Stellen (etwa 70%) zeigten eine klassische Mendelsche Segregation, die Ste12 in einem genetischen Hintergrund bindet und in dem anderen nicht. Aber andere Seiten zeigten eine "Überschreitung" dieser Erwartung, zum Beispiel Bindung bei einigen der Segreganten, wenn keiner der Elternteile dies tat.

Snyders Team suchte dann nach quantitativen Trait-Loci (QTLs), die zur Bindung an diesen stark variablen Stellen beitragen. Von 195 Standorten mit einem einzigartigen QTL sind 166 cis (in der Nähe der Bindungsregion), während 35 sind trans (ein paar sind beides). "Die meisten variablen Bindungsstellen sind verknüpft in cis zu den QTLs", sagte Snyder.

Die einfachste Erklärung wäre, dass die Unterschiede in der Bindung Veränderungen in der Sequenz der Bindungsstelle für Ste12 widerspiegeln. „Das ist wahr, aber nur in 36 der 166“ cis-variable Regionen", sagte Snyder. Für den Rest scheint es Variationen in den Sequenzen zu geben, die Cofaktoren codieren, die Ste12 helfen, zu binden. Mit einem Test für das, was sie "Allele Binding Cooperativity" oder ABC nannten, fand das Team sechs neue Bindungsstellen für Faktoren, deren Motiv mit der Ste12-Bindung kovariiert.

"Von keinem dieser Faktoren war zuvor bekannt, dass er mit Ste12 zusammenarbeitet", sagte Snyder, einem Hauptregulator, der etwa 1000 Stellen im gesamten Genom bindet."Diese Jungs operieren nur in einer Teilmenge von Regionen, aber sie haben eine wirklich starke Wirkung" an den Orten, an denen sie binden. "Wir glauben, dass diese Art der kooperativen Bindung im gesamten Genom weit verbreitet ist", sagte Snyder. Da der Effekt jedoch nur an wenigen Stellen auftritt, ist er in einem genomweiten Scan schwer zu erkennen, sagte er. "Das wird es sehr, sehr schwer machen, den Regulierungscode zu entziffern."

In verwandten Arbeiten am Menschen kartierten Snyder und seine Kollegen die Bindung von zwei Faktoren, RNA-Polymerase II (Pol-II) und NF&kappaB. Sie verglichen ChIP-seq-Daten für Zellen von zehn Individuen und fanden Variationen an 7,5% der Stellen für NF&kappaB und 25% für Pol-II. "Es gibt eine Reihe von variablen Bindungsregionen", beobachtete Snyder, und im Durchschnitt korreliert die Bindung mit der Genexpression.

Nur etwa 7% der Variation der Bindung entspricht Abweichungen vom Konsensus-Bindungsmotiv. Es gibt auch einige Stellen, deren Bindung mit Kopienzahlvarianten sowie mit Inversionen korreliert (zusammen etwa 3%). Weitere 31 % der Sites haben einen SNP in der Nähe, aber bei zwei Dritteln der Sites "haben wir keine Ahnung, was los ist", sagte Snyder.

Mit ihrem ABC-Test sagte Snyder: "Wir fanden fünf verschiedene Faktoren, deren Motiv in Übereinstimmung mit ihrer NF&kappaB-Bindung variiert", aber nicht in der NF&kappaB-Bindungsstelle. Die Ergebnisse legen nahe, dass einige Stellen, wie in Hefe, nicht nur von Masterregulatoren, sondern auch von anderen, lokal wirksamen Faktoren kontrolliert werden. "Das ist eine schöne Art zu sehen, welche Faktoren zusammenspielen."

Genomweites Mapping von Proteinen auf DNA

"Das Auffinden von regulatorischen Faktoren im Genom allein zeigt nicht unbedingt an, was sie tun, aber es dient als unglaublich nützlicher generischer Marker für die ganze Bandbreite von Elementklassen", sagte John Stamatoyannopoulos. Er trug dazu bei, die genomweite Kartierung der DNA-Spaltung durch Desoxyribonuklease I oder DNase I in Projekten wie ENCODE und dem Roadmap Epigenomics Mapping Consortium bekannt zu machen. Hypersensitive DNase-I-Stellen oder DHSs sind DNA-Regionen, die einer Spaltung besonders zugänglich sind, was oft das Vorhandensein von regulatorischen Sequenzen wie Promotoren widerspiegelt.

Bisher haben die Projekte ENCODE und Roadmap Epigenomics DHSs mit einer Auflösung von etwa 150 Basenpaaren in über 100 Zelltypen und Geweben und Entwicklungsstadien kartiert, sagte Stamatoyannopoulos. "Sie finden zwischen 100.000 und 275.000 DNase-überempfindliche Stellen pro Zelltyp oder 0,5% &ndash1,5% des Genoms", selbst bei einer strengen Fehlentdeckungsrate von 1%. "Die tatsächlichen Zahlen sind etwas höher", sagte er.

Über alle Zelltypen hinweg „erkennen wir etwa 2,2 Millionen verschiedene Positionen der DNase-I-überempfindlichen Stellen im menschlichen Genom“, sagte Stamatoyannopoulos. Im Vergleich mit der Literatur umfassen diese Stellen etwa 96% aller bekannten nicht-promotorischen regulatorischen Elemente, wie Verstärker, Schalldämpfer und Isolatoren.

Unterschiede zwischen verschiedenen Zellen in der Chromatinstruktur und andere regulatorische Interaktionen können die Bindung an diesen Stellen modifizieren. "Ungefähr 340.000 sind zelltypspezifisch", sagte Stamatoyannopoulos, während "ungefähr 7500 in jedem einzelnen Zelltyp vorhanden sind." Der Rest der Stellen zeigt reiche intermediäre Expressionsmuster. Eine Clusteranalyse dieser Muster enthüllt eine hierarchische Beziehung, die genau die Beziehungen der entsprechenden Zellen widerspiegelt, sagte er. "Wir untersuchen eine Kodierung früher Entwicklungsprozesse und Entwicklungslinien in den Mustern der regulatorischen DNA, die bis ins Erwachsenenalter überdauern."

Ein Mechanismus zur Regulierung der Expression in verschiedenen Geweben ist die groß angelegte Organisation von Chromatin, die Sequenzen zusammenbringen kann, die sich auf sehr entfernten Teilen des DNA-Moleküls befinden. Um diese physikalischen Wechselwirkungen zu erfassen in vivo, verwenden Stamatoyannopoulos und seine Mitarbeiter die Cross-Linking-Technik, die als Chromosomen-Konformations-Erfassungs-Kohlenstoff-Kopie oder 5C bekannt ist. "Wir erhalten sehr, sehr quantitative Informationen über diese Wechselwirkungen", sagte Stamatoyannopoulos mit einer Auflösung von etwa einer Kilobase.

Auf genomweiter Ebene zeigt die DNase-I-Spaltung Bereiche auf, in denen das Enzym und vermutlich Transkriptionsfaktoren freien Zugang zur DNA haben. Aber in einem feineren Maßstab blockiert ein Transkriptionsfaktor-Protein, das sich bindet, den Zugang von Dnase I und "hinterlässt ein negatives Bild des Proteins", sagte Stamatoyannopoulos. "Durch die Tiefensequenzierung der DNase-I-Daten können Sie die Kartierungsdaten effektiv in Footprint-Daten umwandeln, um die Bindung des Transkriptionsfaktors bei Nukleotidauflösung aufzudecken."

Auf der Skala von Dutzenden von Basen "hat jede Art von unterschiedlichen Transkriptionsfaktor-Bindungsstellen ihr eigenes stereotypes DNase-I-Spaltungsmuster, eine Art Fingerabdruck", sagte Stamatoyannopoulos. „Diese Spaltungsmuster stimmen extrem gut mit Strukturmotiven überein, die in der Kristallographie identifiziert werden“, fügte er hinzu und können auch verwendet werden, um bestimmte Faktoren in einem Scan des Genoms zu lokalisieren. Er betonte, dass diese Fingerabdrücke nicht einfach die von . beschriebenen sequenzabhängigen Schnittraten widerspiegeln Harmen Bussemaker.

Die Tiefe der Fußabdrücke in der DNase-I-Aktivität kann verwendet werden, um zu verfolgen, wie häufig ein Transkriptionsfaktor eine Stelle besetzt. Stamatoyannopoulos und seine Kollegen fanden heraus, dass sich diese Besetzung bei Veränderungen der zellulären Bedingungen, beispielsweise während der Differenzierung, genau wie erwartet ändert. „Diese Daten sind sowohl qualitativ als auch quantitativ in Bezug auf die Belegung“, sagte er.

Die Forscher entwickelten auch Techniken, um bestimmte Faktoren an bestimmten Standorten zu erkennen. Sie replizierten zuerst die Sequenz im Footprint und markierten sie, um eine für diese Region spezifische Sonde zu erzeugen. Anschließend verwendeten sie eine von zwei Techniken, um die Bindung eines Transkriptionsfaktors an die Sonde nachzuweisen. Faktoren, für die es entsprechende Antikörper gibt, könnten mit einem Western Blot nachgewiesen werden. Für andere Faktoren verwendeten sie gezielte Massenspektrometrie, um Signaturpeptide zu finden, deren Größe-zu-Ladungs-Verhältnis für bestimmte Proteine ​​spezifisch ist. "Wir brauchen keine Antikörper mehr, solange Sie die Transkriptionsfaktoren klonen können", sagte Stamatoyannopoulos. „Mit diesem Ansatz kann man beweisen, dass ein Protein tatsächlich an einer bestimmten Motivsequenz beteiligt ist, auch in einem kompetitiven Kontext mit anderen Proteinen.“

Lautsprecher:
Eran Segal, Weizmann Institute of Science
Harmen Bussemaker, Universität von Columbia

Höhepunkte

  • Ein auf statistischer Mechanik basierendes Gerüst sagt die Wahrscheinlichkeit jeder Konfiguration von Nukleosomen und Transkriptionsfaktoren auf DNA basierend auf ihren sequenzabhängigen Affinitäten vorher.
  • Ein experimentelles Hefesystem ermöglicht einen Vergleich der Wirkung auf die Expression verschiedener Promotorsequenzen mit einer Genauigkeit von besser als 10 %.
  • Viele, aber nicht alle, der Organisation von Nukleosomen in vivo wird durch ihre DNA-Sequenzpräferenzen bestimmt.
  • Poly-Adenosin-Sequenzen, die zu starr sind, um sich leicht in Nukleosomen zu winden, modifizieren signifikant die Expression, die durch die Bindung von Transkriptionsfaktoren in der Nähe kontrolliert wird, und scheinen für diesen Zweck während der Hefeevolution verwendet worden zu sein.
  • Die allgemeine Beschreibung der Gewichtsmatrix, die die Sequenzabhängigkeit der Bindungsaffinität zwischen einem Protein und DNA beschreibt, ignoriert potenziell wichtige Abhängigkeiten zwischen Basen an verschiedenen Positionen.
  • Die Spaltungsrate durch DNase I variiert um mehrere Größenordnungen mit der lokalen DNA-Sequenz und gibt Aufschluss über die Affinität mit Einzelnukleotidauflösung.
  • Durch die Kombination von Affinitätsmodellen mit genetischen Kreuzungen können Forscher Regionen finden, die die Aktivität von Transkriptionsfaktoren beeinflussen, was stärker ist als die Locus-Identifizierung für andere Merkmale.

Sequenzspezifität der Nukleosomenorganisation

Das Verständnis der Regeln, die bestimmen, wie die Transkription reguliert wird, analog zu unserem Verständnis des genetischen Codes, wäre in der Biologie enorm nützlich, sagt Eran Segal. Aber "trotz langjährigem Studium verstehen wir wirklich viele Grundlagen noch nicht und viele grundlegende Fragen sind noch offen." Einige der komplizierteren Fragen betreffen die Rolle entfernter Elemente wie Enhancer, Chromatinstruktur und die kooperativen Wechselwirkungen mehrerer regulatorischer Ereignisse. Die Klärung dieser komplexen Fragen erfordert ein quantitatives Verständnis davon, wie die Genexpression beeinflusst wird, wenn benachbarte DNA durch Transkriptionsfaktoren gebunden wird oder sich um Histonproteine ​​wickelt, um Nukleosomen zu bilden.

Um diese Fragen zu untersuchen, haben Segal und seine Kollegen einen Modellierungsrahmen zur Vorhersage sequenzabhängiger Bindungen und ein experimentelles System entwickelt, das selbst kleine Transkriptionseffekte von Sequenzänderungen quantitativ unterscheiden kann. Durch Variation der Sequenzen und Vergleich der Ergebnisse mit Modellen enträtseln sie die Regeln der sequenzabhängigen Organisation von Transkriptionsfaktoren und Nukleosomen.

Der Modellierungsrahmen beginnt mit einer "Affinitätslandschaft", die beschreibt, wie die Affinität zwischen einem bestimmten Molekül und der DNA entlang der Sequenz variiert. Bei Transkriptionsfaktoren wird die Affinität durch relativ kurze Sequenzen bestimmt und kann aus Protein-bindenden Microarray-Daten abgeleitet werden. Analoge Experimente zeigen die sequenzsensitive Bindung von DNA in Nukleosomen, die größere Regionen von 147 Basen widerspiegelt.

Die experimentellen Affinitäten werden gemessen in vitro. „Wir würden gerne verstehen, wie man in dieser Affinitätslandschaft in einer dynamischen Situation verschiedene Konfigurationen tatsächlich gebundener Moleküle erhält“, sagte Segal. Mit einem statistisch-mechanischen Modell "können wir unter der Annahme des thermodynamischen Gleichgewichts genau die Wahrscheinlichkeit berechnen, dass das System in einer dieser Konfigurationen vorliegt." Die vorhergesagten Positionen der Nukleosomen stimmen gut mit in vivo Versuche mit Hefe. „Vieles, aber sicherlich nicht alles der Organisation von Nukleosomen in vivo wird von Nukleosomensequenzpräferenzen diktiert", schloss Segal. "Wir verstehen zu einem großen Teil die Regeln, die die Nukleosomensequenzpräferenzen bestimmen."

Eine biologische Konsequenz solcher Bindungspräferenzen ist ihre Wirkung auf die Expression benachbarter Gene. Segal und sein Team haben ein experimentelles System in Hefe entwickelt, das eine quantitative Bewertung von Expressionsänderungen ermöglicht, die aus Sequenzänderungen in Promotorregionen resultieren. Da der genomische Kontext immer derselbe ist, "kontrolliert das System viele verschiedene Dinge", sagte Segal. "Wir können Expressionsunterschiede von nur 5 oder 10 % unterscheiden."

Die Forscher haben dieses experimentelle System verwendet, um zu klären, wie sich Sequenzänderungen auf die Expression auswirken, indem sie sowohl natürliche als auch synthetische Promotoren austauschen und systematische Änderungen an regulatorischen Elementen vornehmen. Segal diskutierte ausführlich die Rolle von Polyadenosin (poly-A oder poly(dA:dT))-Sequenzen, die in eukaryontischen Genomen, insbesondere in Promotorregionen, reichlich vorhanden sind. "Sie stoßen Nukleosomen aufgrund ihrer Starrheit und Unfähigkeit ab, sich an die scharfe Krümmung der DNA anzupassen, die von der Nukleosomenstruktur erforderlich ist", sagte er. Es wurde vor 15 Jahren gezeigt, dass die Deletion solcher Sequenzen in der Nähe einer Bindungsstelle für den Transkriptionsfaktor GCN4 in Hefe die Expression des von ihr regulierten Gens reduziert.

Die Nähe und Position einer nahegelegenen Poly-Adenosin-Sequenz in der DNA hat einen starken Einfluss auf die Bindung eines Transkriptionsfaktors und die resultierende Genexpression.

"Wir wollten diese Fragen systematischer und umfassender untersuchen", sagte Segal. Ohne die GCN4-Bindungsstelle zu ändern, modulierten die Forscher die Expression durch verschiedene Änderungen an den nahegelegenen Poly-A-Sequenzen, was die Wahrscheinlichkeit änderte, dass sich ein Nukleosom in der Nähe bildete und so den Zugang des Transkriptionsfaktors zur Bindungsstelle blockierte. "Indem wir nur Änderungen an Poly-A-Sequenzen vornehmen, können wir dramatische Einflüsse auf das Niveau der Genexpression erzielen", schloss Segal.

Die resultierenden Expressionsänderungen sind so groß wie diejenigen, die aus Sequenzänderungen in der Bindungsstelle resultieren, und können einen Weg zur Feinabstimmung der Expression bieten. Um zu sehen, ob die Evolution diesen Mechanismus ausgenutzt hat, verglich Segals Gruppe Promotoren für verschiedene ribosomale Komponenten, die in ähnlichen Mengen produziert werden müssen. Sie fanden heraus, dass die assoziierten Promotoren bei Genen, die nur eine einzelne Kopie haben, viel wahrscheinlicher naheliegende Poly-A-Sequenzen aufweisen, die sie stark exprimieren, im Vergleich zu Genen, die mehrere Kopien aufweisen. Dies deutet darauf hin, dass die feine transkriptionelle Kontrolle, die durch die Nukleosomenorganisation bereitgestellt wird, während der Evolution wirklich ausgenutzt wurde, um Variationen der Kopienzahl zu kompensieren.

Modellierung von DNA- und Protein-Interaktionen

Harmen Bussemaker und seine Kollegen verwenden eine biophysikalisch motivierte positionsspezifische Affinitätsmatrix, um die Sequenzspezifität zu erfassen. Sie verwenden dann die berechnete Bindungsaffinität von cis-regulatorische Regionen, um die regulatorische Aktivität jedes Transkriptionsfaktors in einem bestimmten Zellzustand abzuschätzen.

Die regulatorische Aktivität von Transkriptionsfaktoren, also "wie viel mehr transkriptionelle Aktivität man erhält, wenn die Promotor-Affinität zunimmt", so Bussemaker, kann als ein Merkmal angesehen werden. Die Forscher kartieren die genetischen Einflüsse auf diese Aktivität auf quantitative Trait Loci oder "aQTLs" von Hefe-Segreganten. "Wir können nicht nur bestimmen, wie die mRNA-Spiegel durch nicht-kodierende Sequenzen bestimmt werden, sondern wir können auch eine Ebene stromaufwärts gehen und verstehen, wie die Aktivitäten der Transkriptionsfaktoren selbst bestimmt werden", sagte Bussemaker.

Durch die Kombination berechneter Promotorbindungsaffinitäten mit Expressionsdaten können Forscher ableiten, welche Loci (aQTLs) die regulatorische Aktivität beeinflussen.

"Dafür gibt es eine ziemlich gute statistische Aussagekraft", sagte Bussemaker. Aktivitätstrends sind weniger verrauscht als die einzelnen Aktivitätsniveaus, die in Expressions-QTLs verwendet werden. Darüber hinaus ist die Anzahl der Tests auf etwa 100 Transkriptionsfaktoren statt auf Tausende von Genexpressionsstufen beschränkt.

Die aQTLs decken typischerweise 10 oder 20 Gene ab, sagte Bussemaker. "Diese genetische Variation beeinflusst die Expression ursächlich durch die Transkriptionsfaktoren, aber im Allgemeinen kennen wir den Mechanismus nicht." Im Gegensatz dazu liefern Protein-Protein-Wechselwirkungen mechanistische molekulare Informationen, sind aber in einem bestimmten Zellzustand möglicherweise nicht relevant. Die Kombination der beiden kann das Feld auf ein bestimmtes Gen eingrenzen.

In einem anderen Projekt arbeitete Bussemaker mit John Stamatoyannopoulos die Sequenzspezifität der Spaltung durch DNase I zu untersuchen. Die Sequenzierung der resultierenden Fragmente zeigt, dass die Schnittrate um zwei oder drei Größenordnungen variiert, "viel mehr, als Sie aufgrund der Literatur erwartet hätten", sagte Bussemaker. Da die Enzymposition bis auf ein einziges Basenpaar bestimmt werden kann, liefert diese Studie einen "idealen Fall für die Modellierung".

Die Forscher ermittelten die Schnittrate für alle möglichen Hexamersequenzen, die den Schnitt überspannen. Ein Positions-Gewicht-Matrix-Modell sagt die Schnittrate viel schlechter voraus als die vollständige Hexamersequenz, "also muss es signifikante Abhängigkeiten zwischen den Nukleotidpositionen geben", schloss Bussemaker. Anhand des vollständigen Datensatzes können die Forscher die Stärke dieser Abhängigkeiten systematisch quantifizieren.

Die Positions-Gewichts-Matrix-Beschreibung der Bindungsaffinität betrachtet jede Base innerhalb eines Motivs unabhängig, aber Bussemaker warnt davor, dass diese Berechnung zu einfach ist. "Es ist wichtig, quantitativ zu sein und über die Unabhängigkeitsannahme dieser Gewichtsmatrizen hinauszugehen, um zwischen diesen Faktoren unterscheiden zu können", sagte er.

Bussemaker und seine Kollegen untersuchten auch die Sequenzspezifität von Hox-Proteinen. Experimental in vitro „Monomerspezifitäten können die Variation der Zielspezifität von Hox-Proteinen nicht wirklich erklären in vivo“, sagte er. Die Columbia-Kollegen Barry Honig und Richard Mann hatten vorgeschlagen, dass die Spezifität in vivo entsteht, wenn die kleine Furche der DNA mit der Kreuzung zwischen dem Hox-Protein und einem Cofaktor namens Extradentikel (Exd).

In Zusammenarbeit mit Manns Gruppe entwickelten die Postdocs Matt Slattery und Todd Riley eine Erweiterung von SELEX (Systematic Evolution of Ligands by Exponential Enrichment), die die Laborselektion der hochaffinen DNA-Bindung nutzt. Durch das Stoppen, bevor die Anreicherung gesättigt ist, und die anschließende Sequenzierung der angereicherten Population, so Bussemaker, erhalten die Forscher "quantitative Informationen über die Geschwindigkeit, mit der verschiedene DNA-Sequenzen ausgewählt werden, und das ist eine gute Quelle für Sequenzspezifitätsmodelle".

Das Team verglich die DNA-Bindung von zwei Hox-Proteinen, Ubx und Scr, beide in Gegenwart von Exd. Die Bindungsstärke wurde durch die beiden zentralen Basen im Bindungsmotiv stark verändert. "Hoffentlich wird es den Leuten letztendlich ermöglichen, zu verstehen in vivo warum diese Hoxes so unterschiedliche Ziele haben können", sagte Bussemaker.

Gesamtkoordinatoren:
Gustavo Stolovitzky, IBM
Robert Prill, IBM
Raquel Norel, IBM

Herausforderungsredner:
Hans-Jürgen Thiesen, Universität Rostock
Rob Patro, University of Maryland
Nicola Barbarini, Universität Pavia
Matt Weirauch, Universität von Toronto
Matti Annala, Technische Universität Tampere
Yaron Orenstein, Universität Tel Aviv
Alberto de la Fuente, CRS4
Matthieu Vignes, INRA-Toulouse
Po-Ru Loh, Massachusetts Institute of Technology
Daniel Marbach, Massachusetts Institute of Technology
Vacircn Anh Huynh-Thu, Universität Liège
Robert Kuumlffner, Ludwig-Maximilians-Universität

Höhepunkte

  • DREAM, der Dialog für Reverse Engineering Assessments and Methods, ermöglicht es Forschern, im Wettbewerb zusammenzuarbeiten, um biologische oder biologisch inspirierte Probleme mit bekannten, aber zurückgehaltenen Antworten zu lösen.
  • Zu den Herausforderungen in diesem Jahr gehörten zwei, die simulierte Daten aus einem bekannten Netzwerk mit gemessenen biologischen Daten kombinieren.
  • Die richtige Kombination von Vorhersagen aller Teams schlägt normalerweise selbst das beste Team, da sich die Stärken und Schwächen verschiedener Techniken ergänzen.

Einführung

Ein kontinuierliches Ziel der Konferenz DREAM (Dialog for Reverse Engineering Assessments and Methods) ist es, möglichst objektiv zu ermitteln, wie gut Forscher die biologische Realität ableiten und vorhersagen können. Die blinden Wettbewerbe, die als DREAM Challenges bekannt sind, sind das Vehikel für diese Bewertung. Lange vor jedem Treffen arbeiteten die Organisatoren Gustavo Stolovitzky, Robert Prill und Julio Saez-Rodriguez mit anderen Forschern zusammen, um vier Sätze unveröffentlichter oder verschleierter Daten zusammenzustellen.

Die Aufgaben ändern sich von Jahr zu Jahr und werden ausgewählt, um wichtige biologische Fragen und herausfordernde, aber hoffentlich lösbare Rechenprobleme zu beleuchten. Ein wiederkehrendes Problem bei der Auswahl von Problemen ist der Konflikt zwischen perfekter mathematischer Spezifikation und biologischer Genauigkeit. Als Teil der kontinuierlichen Bemühungen, die biologische Relevanz der Aufgaben zu testen, verwendeten zwei der diesjährigen Herausforderungen in verschiedenen Teilen der Herausforderung sowohl echte biologische Daten als auch simulierte Daten.

Die Daten wurden zahlreichen Forscherteams zur Verfügung gestellt, die versuchten, die nicht offengelegten Regeln oder Strukturen zu extrahieren, die zu den Daten führen, oder Vorhersagen über zusätzliche zurückgehaltene Daten zu machen. Vorhersagen von 73 Teams, deren Mitgliedschaft nicht veröffentlicht wurde, wurden von Prill, Raquel Norel und Gustavo Stolovitzky zusammengestellt, bewertet und verglichen und auf der DREAM-Projektwebsite mit Unterstützung von Tom Garben und Aris Floratos von der Columbia University organisiert. In den meisten Fällen war die kombinierte Leistung aller Vorhersagen besser als jede einzelne Vorhersage, und Prill, Norel und Daniel Marbach beschrieben Möglichkeiten, wie die Gemeinschaft diese kollektive Weisheit nutzen könnte.

Die leistungsstärksten Einzelteams für jede der vier Herausforderungen wurden eingeladen, auf der Konferenz kurz über ihre Methoden zu sprechen. Die Organisatoren nahmen auch andere Teams zur lobenden Erwähnung zur Kenntnis. Im Folgenden werden die verschiedenen Herausforderungen, die Gesamtergebnisse und die Ansätze der besten Performer zusammengefasst.

DREAM Challenge 1: Erkennung von Epitopen und Antikörpern

In der ersten Challenge sollten die Teilnehmer vorhersagen, ob einzelne Peptide mit einer kommerziell erhältlichen Mischung von Antikörpern stark oder gar nicht reagieren würden. Hans-Jürgen Thiesen und seine Kollegen stellten die experimentellen Daten für die Herausforderung zusammen, Regelsätze für die Erkennung von Epitopen und Antikörpern (EAR) zu beschreiben.

Die vielfältige Antikörpermischung, die als intravenöses Immunglobulin oder IVIG bezeichnet wird, wird klinisch verwendet und wurde von 10.000 bis 100.000 gesunden Menschen erhalten. Die Peptide stimmten größtenteils mit Sequenzen aus dem menschlichen Genom überein, aber einige wurden leicht modifiziert und andere waren zufällig. Diese Peptide wurden synthetisiert und mit hoher Dichte auf Glasobjektträgern zum quantitativen Auslesen angeordnet. Die Teams erhielten eine Liste von mehr als 13.000 Peptidsequenzen, die stark oder gar nicht mit dem IVIG reagiert hatten, und erhielten eine ähnliche Anzahl von Sequenzen zur Klassifizierung. Im Prinzip bestand die Herausforderung darin, gemeinsame Regeln oder Attribute zu finden, die die Interaktion von Antikörpern mit Peptidsequenzen bestimmen, am Beispiel der Interaktion von Antikörpern mit linearen Epitopen. In einer "Bonusrunde"-Unterherausforderung wurden die Teams aufgefordert, Peptidsequenzen vorherzusagen, die sich als stark oder gar nicht an IVIG bindend qualifizieren.

Die beiden besten Performer für Challenge 1 waren bei der Vorhersage deutlich besser als der Rest der Teams. Der beste Darsteller war Team Pythia, gegründet von Rob Patro und Carl Kingsford von der University of Maryland. Sie einigten sich auf eine Support-Vektor-Maschinen-Implementierung und kombinierten eine große Anzahl von Kandidatenmerkmalen für die Klassifizierung. Der beste Klassifikator war die lokale Aminosäurezusammensetzung, sagte Patro, daher sollten "einfache Merkmale nicht außer Acht gelassen werden." Die strukturelle Berechnung der besten Andockgeometrie mit Zdock schnitt als Einzelklassifikator am schlechtesten ab. "Es gibt viel Raum für Verbesserungen", stellte er fest.

Team Pavia, bestehend aus Nicola Barbarini, Alessandra Tiengo und Riccardo Bellazzi von der Universität Pavia, folgten knapp dahinter. Sie bewerteten eine große Anzahl von Sequenzmerkmalen, einschließlich einiger Proxys für strukturelle Merkmale, aber keine umfassende strukturelle Modellierung. Sie verwendeten einen Leave-One-Out-Ansatz, um verschiedene Algorithmen zu trainieren, und stellten fest, dass die beste Leistung mit einem linearen Regressionsmodell erzielt wurde und 28 Attribute genutzt wurden. Keine einzelne Regel dominierte die Klassifizierung.

Peptide, die in der Bonusrunde von beiden leistungsstärksten Gruppen vorhergesagt wurden, werden derzeit von der Gruppe um Hans-Jürgen Thiesen experimentell validiert.

DREAM Challenge 2: Transkriptionsfaktor- und DNA-Motiverkennung

Die zweite Herausforderung betraf die Vorhersage von Transkriptionsfaktor-Bindungsmotiven in DNA-Sequenzen. Matt Weirauch und Tim Hughes von der University of Toronto stellten die Daten von Protein-Binding Microarrays (PBMs) zusammen.

Das aktuelle Paradigma für die Bewertung von Sequenzen, bemerkte Weirauch, ist die Positions-Gewichts-Matrix, die einfach Beiträge des Nukleotids an jeder Position kombiniert. "Es wird immer offensichtlicher, dass es bei diesem Ansatz Probleme gibt", sagte er. Insbesondere kann es nicht mit Lücken variabler Breite zwischen Abschnitten des Motivs, Transkriptionsfaktoren mit mehreren Bindungsmodi und Abhängigkeiten zwischen Resten an verschiedenen Positionen umgehen, wie von Harmen Bussemaker beschrieben.

Die Teilnehmer erhielten Bindungsspezifitätsdaten für 20 verschiedene Transkriptionsfaktoren von zwei PBM-Arrays, die verschiedene Sondensequenzen enthielten. Die Sonden in jedem Array sind so gestaltet, dass alle möglichen 10-Basen-Sequenzen einmal vorhanden sind, so dass alle möglichen 8-mer-Sequenzen 32-mal vorhanden sind. Die Teams sagten dann die Affinität für 66 weitere Faktoren voraus, 33 für jeden Array-Typ. Eine "Bonusrunde"-Subchallenge forderte die Teams auf, die anonymisierten Transkriptionsfaktoren zu benennen.

Der beste Performer sowohl in der Hauptherausforderung als auch in der Bonusrunde war Team csb_tut, bestehend aus Matti Annala von der Tampere University of Technology, Kirsti Laurila, Matti Nykter und Harri Lähdesmäki. Sie verwendeten ein lineares Affinitätsmodell, das Folgendes beinhaltete: k-mers mit einer Länge zwischen 4 und 8, aber Regularisierung der überbeschränkten Daten, indem nur die informativsten beibehalten wurden k-mers. Sie führten mehrere Korrekturen der PBM-Daten hinsichtlich Artefakten und Signalsättigung durch und fanden es wichtig, die zum Aufbau der Arrays verwendeten Linkersequenzen in ihre Analyse einzubeziehen. Um die Namen der Transkriptionsfaktoren zu identifizieren, bewerteten sie die Ähnlichkeit der Sequenzen mit Motiven in den TRANSFAC- und JASPAR-Datenbanken.

Den besten Performer in der Bonusrunde zu teilen war Team ACGT, Yaron Orenstein, Chaim Linhart und Ron Shamir von der Universität Tel Aviv. Sie nutzten ihre Labore Amadeus Motivfinder, der entwickelt wurde, um Sequenzen in Promotorregionen zu finden. Der offensichtlichste Weg, dieses Werkzeug jedoch anzuwenden, indem man ihm einfach die Sonden mit der höchsten Bindung gibt, ist beim Trainingssatz "kläglich gescheitert", sagte Orenstein. Was hat funktioniert, war, alle zu ordnen k-mere basierend auf der Sondenbindung und geben die informativsten an k-mers zu Amadeus. Insbesondere mittelten sie die Bindungsstärken aller Sonden, die jedes 9-mer enthielten, und gaben Amadeus die bestplatzierten 1000 als Eingabesequenzen, um eine Motivpositionsgewichtsmatrix der Breite 8 zu finden.

DREAM Challenge 3: Systemgenetik

Die dritte Herausforderung betraf Daten aus segregierenden Populationen, ein Gebiet, das als Systemgenetik oder genetische Genomik bekannt ist. Die Daten umfassen sowohl simulierte Daten als auch Messdaten von Anlagen und wurden von Alberto de la Fuente und seinen Kollegen zusammengetragen.

Kombinierte genetische und phänotypische Daten von Segreganten, die aus Kreuzungen zwischen Inzuchtstämmen resultieren, wurden in mehreren Keynote-Vorträgen auf dieser Konferenz diskutiert, darunter von Charlie Boone, Leonid Kruglyak, Michael Snyder und Harmen Bussemaker. Wie diese Gespräche veranschaulichen, liefert die natürliche, aber stark eingeschränkte genetische Variation zwischen Segreganten aussagekräftige Informationen über die genetischen Faktoren, die zum Phänotyp beitragen. Die system-genetische DREAM-Herausforderung soll fortlaufende Einblicke in die Auswertung dieser Art von Daten liefern.

Teil A der Herausforderung verwendete simulierte systemgenetische Daten. Die Forscher generierten zunächst 1000-Gen-Netzwerke mit einer modularen skalenfreien Topologie mit SysGenSIM, einem Tool, das von den Labors von de la Fuente und Ina Hoeschele entwickelt wurde. Sie modellierten die Interaktion zwischen Genen mit nichtlinearen Differentialgleichungen. Die Parameter dieses Modells, die die basale Transkriptionsrate (cis) oder ihre Wirkung auf ein Zielgen beschreiben (trans) wurden aus zwei Werten ausgewählt, die die Elternallele repräsentieren, und die Steady-State-Genexpression wurde berechnet.

Den Teilnehmern wurden sowohl die Expressionsniveaus als auch das entsprechende Elternallel für alle 1000 Gene für simulierte Kreuzungen zwischen Eltern gegeben. Die Subherausforderungen A1, A2 und A3 hatten Populationen von 100, 300 und 999 Nachkommen. Die Teams berichteten dann Kanten in einem gerichteten Graphen, in der Reihenfolge des Vertrauens. "Diese Netzwerke sind viel größer als wir es in DREAM bisher hatten", kommentierte Prill, "also haben wir nur nach den ersten 100.000 Kanten gefragt."

Der beste Performer in Teil A war Team SaAB_meta und SaAB Danzig, Matthieu Vignes, J. Vandel, N. Ramadan, D. Allouche, C. Cierco, S. De Givry, Brigitte Mangin und Thomas Schiex von INRA-MIA in Toulouse. Sie haben zuerst einen Regressionstest gemacht, um zu unterscheiden cis- und trans-wirkende Allele. Zur weiteren Analyse ließen sie drei verschiedene Algorithmen laufen: ein Bayes-Netzwerk, Lasso-Regression und den Danzig-Selektor. Anschließend kombinierten sie die drei Techniken zu dem Meta-Algorithmus, der ihre besten Ergebnisse lieferte.

Teil B verwendete Daten von Sojabohnenpflanzen, die am Virginia Bioinformatics Institute produziert wurden, um zu sehen, ob die Teilnehmer zwei Phänotypen vorhersagen konnten, die ihre Anfälligkeit für Schimmel messen. Die Pflanzen stammen aus Kreuzungen zwischen einem gegen den Erreger resistenten und einem empfindlichen Vorfahren. Genotypen für 941 Gene und Prä-Expositions-Genexpression für 28.397 Gene wurden für 200 verschiedene Pflanzen bereitgestellt. Die Teams wurden gebeten, den Phänotyp für 30 weitere Nachkommen vorherzusagen, wobei nur der Genotyp (B1), nur die Genexpression vor der Exposition (B2) oder beides (B3) verwendet wurde.

Insgesamt waren die Ergebnisse "nicht allzu gut", sagte de la Fuente, insbesondere beim Genotyp allein, daher muss die Aufgabe vielleicht einfacher sein. Prill kommentierte, dass insbesondere für Herausforderung B1 "alle Teams miteinander korreliert sind und keines von ihnen mit dem Goldstandard korreliert" (gemessene Daten). Dennoch machten zwei Performer statistisch signifikante Phänotyp-Vorhersagen.

Der beste Performer für Teil B2 war Team Orangenbälle, Po-Ru Loh, George Tucker, Michael Yu und Bonnie Berger vom Massachusetts Institute of Technology. Bei Expressionsdaten für so viele Gene besteht die Herausforderung darin, herauszufinden, "welche dieser 20.000 diejenigen sein werden, die Ihnen tatsächlich etwas über den Phänotyp sagen", sagte Loh. Die Herausforderung wird durch die Möglichkeit von Korrelationen zwischen den Prädiktoren, sowohl Genotypen als auch Phänotypen, verschlimmert. Die Variation wurde von extremen Ausreißern dominiert, die das Team durch eine Rangordnungstransformation reduzierte. Um mögliche nichtlineare Wechselwirkungen zwischen den Prädiktoren zu berücksichtigen, schlossen sie Boolesche Kombinationen von Genotypen ein. Am Ende erzielten eine Handvoll gut gewählter Prädiktoren den größten Teil der Leistung.

Die besten Darsteller in Teil B3, Team RNI_group, bestehend aus Madhuchhanda Bhattacharjee von der University of Pune und Mikko Silanpää von der University of Helsinki, konnten ihre Methoden nicht vorstellen.

Herausforderung 4: Netzwerk-Inferenz

Die vierte Herausforderung bewertete das gemeinsame biologische Ziel, vier transkriptionale regulatorische Netzwerke aus Expressionsdaten nach Störungen abzuleiten. Die Daten wurden von Daniel Marbach, Jim Costello, Diogo Camacho und Jim Collins zusammengetragen.

Diese Herausforderung baut auf Erfahrungen aus den Vorjahren mit "in silico"Netzwerke, bei denen das Netzwerk, das die Daten generiert hat, genau bekannt ist. Für DREAM5, das simulierte Netzwerk, inspiriert von Escherichia coli, lieferte nur einen der vier Datensätze. Der zweite Datensatz basierte auf dem Ausdruck für Staphylococcus aureus, wo es noch kein Referenznetz gibt, das als Goldstandard angesehen werden kann. „Hoffentlich sind die Biologen aufgeregter, wenn wir uns nicht nur auf das Benchmarking, sondern auch auf diese gemeinschaftsbasierte Vorhersage konzentrieren“, sagte Marbach. Der dritte und vierte Datensatz wurden gemessen in E coli und die angehende Hefe Saccharomyces cerevisiae, wo die zugrunde liegenden Netzwerke recht gut etabliert sind.

Die Teilnehmer erhielten eine Liste von Genen und eine große Menge von Mikroarray-Expressionsdaten, die aus den Originaldaten anonymisiert wurden. Sie erhielten auch ergänzende Informationen wie die Bedingungen der Experimente und auch einige mögliche Transkriptionsfaktoren.

Die Vorhersagen wurden nach konsistenten Leistungen in den Netzwerken beurteilt, aber "Ich sehe eine große Vielfalt in den Leistungen der verschiedenen Teams" in den verschiedenen Netzwerken, kommentierte Prill. Insbesondere die Hefevorhersagen waren „schrecklich“. Die S. aureus Netzwerk wurde nicht bewertet, da es keinen Goldstandard gab, sondern wird als Grundlage für eine Community-Vorhersage verwendet. Die beiden besten Gesamt-Performer waren beide Return Leader von DREAM4.

Der beste Performer insgesamt und in silico war Team ulg_biomod, bestehend aus Vân Anh Huynh-Thu, Alexandre Irrthum, Louis Wehenkel und Pierre Geurts von der Universität Lüttich und Yvan Saeys von der Universität Gent. Sie verwendeten ein Entscheidungsbaum-basiertes Modell, das nur auf Ausdrucksdaten basiert. Huynh-Thu stellte fest, dass sich die Vorhersagen dramatisch verbessern, wenn die Transkriptionsfaktoren bekannt sind. Darüber hinaus, obwohl das Team viel besser abgeschnitten hat als andere auf der in silico Daten, ihre Leistung für die in vivo Daten seien "nur wettbewerbsfähig".

Bester Interpret in vivo, und der zweite Platz in der Gesamtwertung, war Team Amalia, darunter Robert Küumlffner, Florian Erhard, Tobias Petri, Lukas Windhager und Ralf Zimmer von der Ludwig-Maximilians-Universität. Um Kandidateninteraktionen zwischen Transkriptionsfaktoren und möglichen Zielgenen einzustufen, verwendete das Team den ANOVA-Test. Dies erfordert weder eine Linearität, wie sie in einem Korrelationskoeffizienten angenommen wird, noch eine Diskretisierung der Daten, die für Bayes-Netzwerke oder gegenseitige Informationstechniken erforderlich ist. Diese Technik hat gut funktioniert für E coli. Aber für das Hefenetzwerk, wo alle Teams schlecht abgeschnitten haben, und die nicht bewerteten S. aureus Netzwerks war die Anzahl der Störungsexperimente im Datensatz zu gering, um zuverlässige Ergebnisse zu erwarten, sagte Küumlffner. Nichtsdestotrotz betrachtete er die Aufnahme von in vivo Daten ein "großer Schritt nach vorne" für DREAM sein.


Schau das Video: TRANSLASI:PADA SINSTESIS PROTEIN (September 2022).