Information

Was wird für eine G-Matrix benötigt?

Was wird für eine G-Matrix benötigt?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe in letzter Zeit viel über quantitative Genetik und die G- (und B-) Matrix gelesen. Ich verstehe jetzt das Prinzip hinter der Durchführung der Analyse, bin mir aber immer noch nicht sicher, wie es geht. Ich würde es gerne mit einigen Dummy / alten Daten in R ausprobieren, um zu sehen, wie es gemacht wird.

Nehmen wir an, ich hätte 5 Merkmale von Drosophila gemessen (Flügellänge, Lebensdauer, Augenpigmentierung, Borstenanzahl und Fitness). Könnte ich aus diesen Daten eine G-Matrix für die Population konstruieren und auch eine B-Matrix erhalten, um die Auswahl an den Merkmalen zu messen?

Ziele des Beitrags:

1) Welche Informationen (Merkmalsmessungen, Fitnesswerte usw.) werden benötigt, um G- und B-Matrizen zu erstellen?

2) Ich möchte Print- oder Online-Material finden, das mich bei der tatsächlichen Umsetzung dieser Methode unterstützt. Es scheint, als ob es eine Menge Papiere gibt, die sagen, dass G-Matrizen großartig sind, aber niemand sagt wirklich, wie man sie im wirklichen Leben macht…


Um die G-Matrix zu konstruieren, benötigen Sie additive genetische Varianzen und Kovarianzen für alle Merkmale, daher benötigen Sie normalerweise Ergebnisse aus Zuchtexperimenten (z. Ich kenne keine guten Online-Quellen, aber siehe Balding et al. 2007 S. 534ff für einige Informationen. Ich habe Methoden gesehen, die behaupten, dass die G-Matrix direkt aus phänotypischen Daten von nicht verwandten Personen (z. B. Zintzaras 2011) oder aus genomischen Informationen z. SNPs (Vattikuti et al. 2013), kennen diese aber nicht und wissen nicht, wie zuverlässig sie sind.

Ein klarer Hintergrund zur Verwendung gemischter Modelle zur Schätzung der G-Matrix, einschließlich Beispielen/Tutorials, findet sich in Wilson et al (2009).

Oder hatten Sie etwas anderes/etwas Konkreteres im Sinn?


KONSTANZ DER G-MATRIX IN ÖKOLOGISCHER ZEIT

Abstrakt Die Konstanz der genetischen Varianz-Kovarianz-Matrix (g Matrix) über Umgebungen und Populationen hinweg wurde im Laufe der Jahre empirisch diskutiert und getestet, aber bisher wurde kein Konsens erreicht. In diesem Beitrag präsentiere ich ein Modell, in dem sich morphologische Merkmale hierarchisch entwickeln und sich Individuen in ihrer Ressourcenallokation und ihrem Erwerbsmuster unterscheiden. Wenn die Varianz in der Ressourcenbeschaffung um ein Vielfaches größer ist als die Varianz in der Ressourcenallokation, werden starke genetische Korrelationen erwartet, und mit fast isometrischen Beziehungen zwischen den Merkmalen. Wenn die Variation der Ressourcenbeschaffung unter einen bestimmten Schwellenwert sinkt, nehmen die Korrelationen insgesamt ab und die Beziehungen zwischen den Merkmalen werden eine Funktion der Allokationsmuster und spiegeln insbesondere die basale Verteilung der Allokation wider. Ein starker Engpass kann ein Muster einer starken genetischen Korrelation durchbrechen, aber dieser Effekt lässt mit zunehmender Engpassgröße schnell nach. Dieses Modell hilft zu verstehen, warum einige Populationen ihre genetischen Korrelationen in unterschiedlichen Umgebungen ändern, während andere dies nicht tun, da der Schlüsselfaktor die Beziehung zwischen den Varianzen bei der Ressourcenbeschaffung und -allokation ist. Führt eine Änderung des Umfelds nicht zu einer Änderung dieser Kennzahl, ist keine Änderung zu erwarten, während bei einer wesentlichen Änderung der Kennzahl mit erheblichen Änderungen zu rechnen ist. Dieses Modell kann auch helfen, die Konstanz morphologischer Muster innerhalb größerer Taxa als Funktion der Konstanz der Ressourcenerwerbsmuster über Zeit und Umgebungen zu verstehen. Wenn dieses Muster bricht, zum Beispiel auf Inseln, sind größere Veränderungen zu erwarten.


Materialen und Methoden

Die Opossum-Kreuzung ATHH × ATHL

Die experimentelle Population des Opossums ergibt sich aus einem F2 Kreuzung zweier teilweise inzuchtierter Stämme, Arteriosklerose hoch (ATHH) und Arteriosklerose niedrig (ATHL) (Chan et al. 2010), produziert am Texas Biomedical Research Institute. ATHH und ATHL wurden auf der Grundlage ihrer lipämischen Reaktionen auf erhöhtes Cholesterin und Fett in ihrer Ernährung (HCHF-Diät) ausgewählt. Tiere des ATHH-Stammes haben eine erhöhte Wahrscheinlichkeit, eine Hypercholesterinämie zu entwickeln, wenn sie mit der HCHF-Diät gefüttert werden, während ATHL-Tiere nicht ansprechen. Diese Stämme wurden teilweise von neun Gründertieren, die in Exu, Brasilien, gesammelt wurden, ingezüchtet (Vandeberg und Williams-Blangero 2010). Die mittleren Inzuchtkoeffizienten betragen 0,75 für ATHH und 0,91 für ATHL, der Verwandtschaftskoeffizient zwischen den beiden Stämmen beträgt 0,24. Trotz der engen Verwandtschaft der beiden Stämme sind die Skelettunterschiede zwischen ihnen groß. Wir haben zuvor gezeigt, dass sie noch größer sind als die Unterschiede, die bei mehreren anderen Beuteltierarten beobachtet wurden et al. 2015). Es sollte beachtet werden, dass diese Skelettunterschiede das Ergebnis einer zufälligen Fixierung verschiedener Allele in verschiedenen Stämmen aufgrund von Inzucht sind, da Skelettmerkmale nicht mit dem Cholesterinspiegel im Blut verbunden sind. Einzelheiten zu den Laborpopulationen und dem Haltungsprotokoll sind in Chan . beschrieben et al. (2010). Wir haben Skelettmerkmale an 576 Tieren aus der ATHH × ATHL-Kreuzung gemessen. Insgesamt 12 P0, 158 F1, und 406 F2 Tiere gehören dazu. Alle Versuchsprotokolle wurden vom Texas Biomedical Research Institute Institutional Animal Care and Use Committee genehmigt.

Genotyp-durch-Sequenzierung

Wir verwendeten Genotype-by-Sequencing (GBS), um Single-Nukleotid-Polymorphismen (SNPs) zu entdecken und die Familienmitglieder für Tausende von Markern zu genotypisieren (Elshire et al. 2011). Kurz gesagt wurde genomische DNA mit Qiagen DNeasy Kits aus Lebergewebe extrahiert und mit einem Restriktionsenzym (PSTI), die Fragmente mit klebrigen Endüberhängen erzeugt. An diese Fragmente wurden mit Barcode versehene Adapter ligiert, um jedes Individuum in einer Population zu identifizieren (Ergänzungsmaterial, Tabelle S1). Nach der Adapterligation wurden die Proben zu gepoolten Bibliotheken (96-plex) kombiniert. Auf sechs Spuren des Illumina HiSeq2000 am Institut für Genomische Diversität (IGD-Cornell University) wurden Bibliotheken sequenziert, was insgesamt 1,167 Milliarden Lesevorgänge ergab. Die eindeutigen Sequenz-Tags, die unter den Sequenzierungs-Reads identifiziert wurden, wurden dann mit den zuletzt veröffentlichten abgeglichen M. Domestica Referenzgenom (MonDom5, 2006) unter Verwendung von BWA 0.7.8-r455 (Li und Durbin 2010). 76,4 % dieser Tags waren an eindeutigen Positionen ausgerichtet, 7,6 % an mehreren Positionen und 16,9 % konnten nicht ausgerichtet werden. Wir verwendeten nur Tags, die an eindeutigen Positionen ausgerichtet waren, und nannten SNPs für Sequenzen, die in den Sequenzierungslesevorgängen unter Verwendung der TASSEL 3.0.166-Pipeline (Bradbury et al. 2007).

Um die Auswirkungen von Sequenzierungsfehlern zu minimieren, wurde eine Reihe von Filtern auf die SNP-Aufrufe mit TASSEL 4.0 (Bradbury .) angewendet et al. 2007). Wir behielten nur biallelische SNPs bei, die zu Standorten mit <20% fehlenden Daten gehörten und die einem der acht Autosomenpaare zugeordnet wurden. Jedes Individuum mit >20% fehlenden Genotypen wurde aus der Analyse ausgeschlossen, wodurch insgesamt vier Individuen entfernt wurden. Standorte mit geringer Allelfrequenz unter 0,05 oder Genotypklassen mit < vier Individuen wurden ebenfalls ausgeschlossen, und wir filterten die resultierenden SNPs auf signifikante Abweichungen vom Hardy-Weinberg-Gleichgewicht (P < 0,001) mit plink v.1.07 (Purcell et al. 2007). Schließlich wurden 531 Personen mit 3696 hochwertigen SNPs für die nachgelagerte Datenanalyse gewonnen. Angesichts der Größe der Opossum-Genkarte (890 cM) (Samollow et al. 2004) schätzen wir den durchschnittlichen Intermarkerabstand in diesem Datensatz auf <0.25 cM, was eine ausreichende Auflösung für die hier durchgeführte genetische Kartierung ist. Wir präsentieren die Liste der Marker und ihrer entsprechenden Positionen in Tabelle S2.

Kraniofaziale Merkmale

Opossum-Karkassen wurden unmittelbar nach der Autopsie eingefroren und dann später enthäutet und getrocknet. Dermestidenkäfer wurden verwendet, um die Kadaver zu entfleischen. Anschließend wurden in jedem Schädel dreidimensionale Koordinaten für 36 Orientierungspunkte mit einem Microscribe-Digitalisierer aufgezeichnet (Abbildung 1). Einzelheiten zu diesem Verfahren zum Vermessen von Proben werden in mehreren Artikeln vorgestellt (Cheverud 1995 Marroig und Cheverud 2001 Porto et al. 2009). Aus den 3D-Koordinaten (Tabelle S3) wurden dann 35 lineare Messungen berechnet, um die Konsistenz mit früheren Studien zu wahren. Dieser Satz von Messungen ist homolog zu denen, die in mehreren anderen Säugetiergruppen gesammelt wurden (z.B., Porto et al. 2009). Vor der Datenanalyse wurden Ausreißer mit SYSTAT 11.0 aus dem kraniometrischen Datensatz entfernt. In ähnlicher Weise wurden die Messwiederholbarkeiten für jedes Merkmal berechnet (Lessels und Boag 1987), und jedes Merkmal mit einer Wiederholbarkeit von weniger als 0,9 wurde aus dem Datensatz entfernt. Die merkmalsspezifische QTL-Kartierung dieser Merkmale erfolgte wie unten beschrieben, basierend auf der kuratierten Datenbank mit Schädelmessungen.

Landmarken (34) und Luftlinien (35) in der ventralen und seitlichen Ansicht von a M. Domestica Schädel. An weit verbreiteten anatomischen Merkmalen und Nahtkreuzungen werden Orientierungspunkte platziert.

QTL-Mapping für kraniofaziale Merkmale

Wir führten ein merkmalsspezifisches QTL-Mapping mit dem MIXED-Verfahren in SAS nach Wolf et al. (2011). Den Markerpositionen wurden additive genotypische Scores -1 (AA), 0 (Aa) und +1 (aa) und genotypische Dominanz-Scores 1 (Aa) und 0 (AA, aa) zugewiesen. Fehlende Genotypen wurden mit TASSEL 4.0 (Bradbury et al. 2007). Das vollständige Modell der genetischen Kartierung hatte Geschlecht, Logarithmus des Alters (Tage), Bevölkerungsstruktur und direkte genetische Effekte (Additiv und Dominanz) als feste Effekte und Verwandtschaft als zufälligen Effekt. Bevölkerungsstruktur und Verwandtschaftsmatrizen (Kang et al. 2008) wurden anhand von Markerdaten mit TASSEL 4.0 (Bradbury et al. 2007). Um einen übermäßigen Verlust an Freiheitsgraden zu vermeiden, haben wir bei der Anpassung des gemischten Modells nur Matrix-Eigenvektoren beibehalten, die mindestens 1% der Gesamtvariation erklären. Das vollständige Modell der genetischen Kartierung wurde dann mit einem Nullmodell ohne direkte genetische Auswirkungen verglichen. Wir haben die Anpassung der beiden Modelle mit einem Likelihood-Ratio-Test verglichen. LOD-Scores wurden als log . berechnet10 des Likelihood-Verhältnisses, wenn das vollständige Modell mit dem Nullmodell verglichen wird. Bonferroni-korrigierte genomweite Signifikanzschwellen wurden dann basierend auf der effektiven Anzahl von Markern berechnet (meff) (Gao et al. 2008). meff wurde als Anzahl der Hauptkomponenten berechnet, die zusammen 99,5 % der gesamten Markervariation erklären (Gao et al. 2008). Die QTL-Positionen wurden durch die Stelle mit der höchsten LOD bestimmt. QTL-Konfidenzintervalle (CI) wurden als die Regionen innerhalb eines LOD-Abfalles vom Hauptpeak definiert, wobei die Möglichkeit einer genetischen Restvariation innerhalb der Peaks aufgrund des teilweisen Inzuchtstatus der beiden Stämme berücksichtigt wurde.

Pleiotropiegrad, N

Trait-spezifische QTL, die sich entlang des Genoms gruppieren, wurden getestet, um zu bestimmen, ob das Nullmodell der Pleiotropie zugunsten separater, unterschiedlicher QTL abgelehnt werden kann. Dieser Test verwendet die von Knott und Haley (2000) vorgeschlagene multivariate Methode und wird ausführlich von Ehrich . beschrieben et al. (2003). Kurz gesagt, die Determinante der Residualsumme der Quadrate und der Kreuzproduktmatrix wird zwischen zwei multivariaten Modellen verglichen, von denen eines angenommen wird, dass alle merkmalsspezifischen QTL an einer gemeinsamen Stelle fallen, und ein anderes, das separate Peaks annimmt. EIN χ 2 Statistik wird dann basierend auf der folgenden Formel berechnet: wobei d.f. ist Freiheitsgrade, |SSCPl| die Determinante der Residualsummen von Quadraten und Kreuzprodukten des Modells unter der Annahme separater Peaks darstellt, und |SSCPP| stellt die Determinante der Residualsummen von Quadraten und Kreuzprodukten des Pleiotropiemodells dar. In beiden Fällen werden SSCP-Matrizen unter Verwendung aller Merkmale berechnet, unabhängig von der statistischen Signifikanz. χ 2 Statistiken übertreffen die kritischen χ 2 Wert (P < 0,05) wurden als Ablehnung der Nullhypothese der Pleiotropie angesehen. Es sollte beachtet werden, dass dieser Pleiotropietest in zweierlei Hinsicht verzerrt ist. Erstens ist die Pleiotropie das Nullmodell, und das Versäumnis, sie abzulehnen, unterscheidet sich deutlich von der Akzeptanz der Pleiotropie. Zweitens führt das Versäumnis, das Einzelpeak-Modell zugunsten separater Peaks zu verwerfen, zu einer kleinen Verzerrung in der Verteilung der Peak-Wahrscheinlichkeitswerte, die in den nachgelagerten Analysen verwendet werden, da die Wahrscheinlichkeiten nicht unbedingt an dem Marker mit der stärksten Beziehung zu a . beobachtet werden besondere Eigenschaft. Diese beiden Verzerrungen treten jedoch auch bei den Maus-QTL-Ergebnissen auf und sollten keinen Vergleich zwischen den beiden Arten beeinträchtigen.

Nachdem die pleiotropen QTL identifiziert waren, wurde es möglich, ihren Pleiotropiegrad abzuschätzen. n. Die meisten QTL-Studien definieren n als Anzahl von Merkmalen, die von einem Locus an der genomweiten Signifikanzschwelle beeinflusst werden (Wagner et al. 2008 Wang et al. 2010). In einem QTL-Scan mit Tausenden von Loci wird diese Messung der Pleiotropie offenkundig konservativ. Ein offenkundig konservativer Ansatz kann nützlich sein, wenn die Falsch-Positiv-Rate um jeden Preis kontrolliert werden muss (z.B., Kandidatengen-Ansätze). Es ist weniger nützlich, wenn es um die genetische Architektur morphologischer Merkmale geht, da es zu einer Unterschätzung der tatsächlichen Anzahl von Merkmalen führt, die von jedem QTL betroffen sind. Unsere Messung von n behandelt die identifizierten QTL-Peaks als geschützte Peaks und berechnet n als die Anzahl der Merkmale, die von einem QTL an der punktweisen 5%-Signifikanzschwelle am Peak-Marker signifikant beeinflusst werden.

Gesamtwirkung TE eines QTL und Zusammenhang mit Pleiotropie

Die Evolutionstheorie sagt voraus, dass die n der G-P-Karte sollte die Verteilung der QTL-Effekte beeinflussen (Wagner et al. 2008). Um zu untersuchen, ob dies bei Opossums der Fall ist, berechneten wir einen standardisierten additiven Effektvektor für jeden QTL, indem wir den additiven genotypischen Wert jedes Merkmals (|a|) durch die phänotypische SD des Merkmals dividierten (Kenney-Hunt et al. 2008). Wir berechneten dann zwei Messungen des Gesamteffekts. Der eingeschränkte Effekt TBETREFFEND eines QTL wurde als die Manhattan-Distanz definiert, die von allen Merkmalen mit signifikanten additiven Effekten am Peak-Marker überspannt wird (Hermisson und McGregor 2008). Der globale Effekt TGE eines QTL wurde als die Manhattan-Distanz definiert, die von allen Merkmalen am Peak-Marker überspannt wird, unabhängig von der Signifikanz (d.h., der gesamte Vektor). In beiden Fällen kann die Schätzung des Gesamteffekts durch die Gleichung beschrieben werden: wobei TE bezieht sich auf die Gesamtwirkung, n bezieht sich auf die Anzahl der Merkmale (eingeschränkt oder global) und EIN ist der standardisierte additive genotypische Wert des Merkmals ich. Die Bevorzugung von Manhattan-Distanzen wird durch die unerwünschten Effekte multipler Mutationen auf euklidische Distanzen gerechtfertigt (Hermisson und McGregor 2008).

Einmalige Schätzungen des Gesamteffekts TE und n berechnet wurden, haben wir mithilfe von nichtlinearen Regressionsmodellen, die in SYSTAT 11.0 implementiert wurden, eine Trennschärfefunktion an unsere Daten angepasst. Unser Modell hatte die Form TE = aN b , wobei ein und B sind zu schätzende Konstanten. CI für die Konstanten wurde mit SYSTAT 11.0 berechnet. Anschließend bewerteten wir die statistische Signifikanz der Beziehung zwischen diesen beiden Variablen durch einen Permutationstest. In diesem Permutationstest beobachtete TE und n Werte wurden 24 hypothetischen Loci (1000-mal) zufällig zugewiesen, und eine Nullverteilung von Potenzfunktionen wurde basierend auf diesen permutierten Datensätzen geschätzt. Diese Null-Potenzfunktionen stellen die pleiotrope Skalierung von Geneffekten dar, die bei fehlender biologischer Beziehung zwischen diesen beiden Variablen basierend auf einer bestimmten Anzahl von QTL zu erwarten wären.

Es ist erwähnenswert, dass das Superpositionsmodell der pleiotropen Effekte eine lineare Regression zwischen diesen beiden Variablen vorhersagt (B = 1) (Wagner et al. 2008). Signifikante Abweichungen von 1 implizieren die Notwendigkeit alternativer Modelle der pleiotropen Skalierung von Geneffekten.

QTL-basierte G-Matrix

Während wir Epistase ignorierten, schätzten wir die QTL-basierte genetische Varianz/Kovarianz-Matrix (G) als: wobei ich bezieht sich auf den genetischen Locus, ist die additive genetische Varianz für Merkmal x, ist die additive genetische Kovarianz zwischen Merkmalen x und Ja, Pich ist die Hauptallelfrequenz von Locus ich, Qich ist die Nebenallelfrequenz von Locus ich, und ist die durchschnittliche Wirkung einer Allelsubstitution für Locus ich (Kelly 2009). Nach der Berechnung verglichen wir G mit zuvor veröffentlichten Schätzungen von G und P (Porto et al. 2015) für Opossums mit zufälligen Spießen (Marroig und Cheverud 2001).

Dieser Vergleich von G mit früheren Schätzungen ist im Zusammenhang mit Stichprobenfehlern wichtig. Da nachgewiesene QTL wahrscheinlich nur einen Bruchteil der genetischen Varianten darstellen, die sich in der Opossum-Population segregieren, enthält unsere Schätzung von G eine relevante Menge an Stichprobenfehlern, die auf einer unvollständigen Identifizierung von echtem QTL basiert. Da der Stichprobenfehler die Gesamtähnlichkeit zwischen Matrizen verringert, die eine Kovarianzstruktur teilen (siehe Abbildung S2 in Porto et al. 2015), weist die Beobachtung einer hohen Ähnlichkeit zwischen Matrizen auf einen hohen Genauigkeitsgrad der G-Schätzung hin.

Um die Dimensionalität des genetischen Signals in unserer G-Schätzung genauer zu charakterisieren, haben wir seine Eigenwerte berechnet und sie mit Stichprobenfehlerverteilungen von Eigenwerten verglichen (siehe Nadakuditi und Edelman 2008 für eine Diskussion über hochdimensionale Signalerkennung). Wir haben den inhärenten Stichprobenfehler in G bei diesem Intercross-Design durch die Verwendung eines zufälligen Permutationsansatzes geschätzt. Insbesondere haben wir die Reihen der phänotypischen Daten zufällig permutiert (1000 Iterationen), um die Beziehung zwischen Phänotyp und Genotyp aufzubrechen. Für jede Iteration haben wir das Rauschen an denselben Markerpositionen wie im ursprünglichen G berechnet. Basierend auf den Rauschschätzungen der von uns berechneten Rausch-G-Matrizen und deren Varianzen entlang jeder Hauptkomponentenrangfolge bestimmt. Diese Stichprobenverteilungen der Rauschvarianzen entlang jedes Hauptkomponentenrangs wurden dann mit den beobachteten Eigenwerten von G verglichen. Immer wenn die Eigenwerte von G größer als 95 % der Rauschvarianzen waren, waren wir der Ansicht, dass die fragliche Hauptkomponente eine signifikante additive genetische Variation aufwies.

Modularität in G

Wir haben Modularitätsmuster in G bewertet, indem wir ihre standardisierte Version (d.h., die genetische Korrelationsmatrix, Gkorr) mit theoretischen Matrizen basierend auf funktionalen/entwicklungsbezogenen Beziehungen zwischen Merkmalen. Einzelheiten zu diesem Verfahren finden sich in Marroig und Cheverud (2001) und Porto et al. (2009). Kurz gesagt wurden neun Modularitätshypothesen auf verschiedenen hierarchischen Ebenen gegen G . getestetkorr, und signifikante Matrixkorrelationen wurden als Beweis für das Vorhandensein von Schädelmodulen angesehen. Die Ergebnisse dieser Modularitätstests wurden dann mit Ergebnissen aus mehreren Studien zur Schädelmodularität bei Säugetieren verglichen (Marroig und Cheverud 2001, Porto et al. 2009, 2013 Shirai und Marroig 2010 Garcia et al. 2014).

Während es den Rahmen dieses Manuskripts sprengt, die derzeit verwendeten Methoden zur Erkennung von modularen Mustern in Korrelationsmatrizen [siehe Melo et al. (2016) für eine Übersicht], ist anzumerken, dass diese Methode zum Nachweis von Modularität im Kern der eines Student T-Test zum Vergleich der Korrelationen innerhalb und zwischen den Modulen. Es verfügt auch über angemessene Fehlerquoten vom Typ I und II angesichts der hier berichteten Stichprobengrößen, wie eine kürzlich durchgeführte Bewertung der Fehlerquoten bei korrelationsbasierten Methoden (Garcia et al. 2015).

Vergleich von N zwischen Opossums und Mäusen

Um die genetische Architektur kraniofazialer Merkmale bei verschiedenen Säugetiermodellen zu vergleichen, haben wir einen unabhängig zusammengestellten Mausdatensatz als Vergleichsquelle verwendet. Der in dieser Studie verwendete Mausdatensatz wird unabhängig von diesem Manuskript eingereicht und resultiert aus der 34. JM Cheverud, K. Weiss, L. Geleski, C. Percival und J. Richtsmeier, unveröffentlichte Daten). Der Grund, warum wir QTL verwendet haben, das in der 34. Generation dieses AIC nachgewiesen wurde, ist zweierlei. Zuerst wurden LG/J und SM/J für große und kleine Körpergrößen im Alter von 60 Tagen ausgewählt (Kenney-Hunt et al. 2008). Die Auswahl des Körpergewichts führt zu indirekten Reaktionen in kraniofazialen Merkmalen, was dazu führt, dass Allele mit ähnlichen Anzeichen in Kopplungsblöcken im F . gruppiert werden2und Beeinflussung der zugrunde liegenden Verteilung der pleiotropen Effekte. Durch die Verwendung der 34. Generation wurden die meisten QTL auf einzelne Varianten reduziert, und wir können simulieren, wie sie sich in einem F . verhalten würden2 Generation, bei der Varianten zufällig in Blöcke gruppiert werden, wie es bei Opossums der Fall ist. Zweitens wurden in dieser Generation Mäuseschädel so vermessen, dass sie basierend auf den Opossum-3D-Landmarken reproduziert werden können. Der Grad der Kollinearität zwischen den ausgewählten kranialen Merkmalen ist für die Schätzung des Pleiotropiegrades relevant, da Merkmale, die kollinear verwandt sind, tendenziell eine höhere durchschnittliche Pleiotropie aufweisen. Durch homologe Messungen sind wir in der Lage, die genetische Architektur der Schädelmerkmale zwischen den beiden Arten direkt zu vergleichen. Details der Maus-Laborpopulation und des Haltungsprotokolls sind in Norgard . beschrieben et al. (2011). Der kraniometrische Datensatz, der zum Nachweis von Maus-QTL verwendet wurde, entspricht 10 Schädelmerkmalen, die bei 1139 Tieren aus der LG/J- und SM/J-Kreuzung gemessen wurden (Tabelle S4). Diese Merkmale wurden in unserer Opossum-Kartierungspopulation repliziert, und die QTL-Kartierung für diesen homologen Opossum-Datensatz folgte den zuvor beschriebenen Methoden. Alle Analysen wurden nach dem in den vorherigen Abschnitten beschriebenen Protokoll durchgeführt.

Eine der Herausforderungen bei der Verwendung der Maus F34 als Vergleichsquelle mit einem Opossum F2 bezieht sich auf die Größe von Linkage-Blöcken und ihre Auswirkung auf Pleiotropie-Schätzungen. Ein AIC in seiner 34. Generation hat Rekombinationsereignisse akkumuliert und hat daher erheblich kleinere Verknüpfungsblöcke als ein F2. Wir erwarten die Verknüpfungsblöcke im F34 (1/17) die Größe ähnlicher Blöcke im F . sein2 bei kurzen Kartierungsentfernungen. Die kleineren Blöcke implizieren, dass in jeder QTL eine geringere Anzahl von Varianten verknüpft ist. Daher wäre es nicht überraschend, Unterschiede in der Pleiotropie zwischen diesen beiden Datensätzen zu finden. Daher für unseren Vergleich von n Um aussagekräftig zu sein, kontrollierten wir die Rekombinationsmenge, die in jeder Kreuzung auftritt, und simulierten n der F34 wenn in einem F2 Zustand (d.h., bei denen weniger Rekombinationsereignisse aufgetreten sind). Um zu simulieren n von Mäusen im Opossum F2 Bedingung erstellten wir einen Pleiotropievektor für jedes F34 QTL, bei der Merkmale, die von der QTL betroffen sind, einen Wert von 1 mit beliebigem Vorzeichen und ansonsten einen Wert von Null erhalten. Jeder dieser QTL wurde dann nach dem Zufallsprinzip in eine hypothetische genetische Karte mit der genauen Größe der Opossumkarte (890 cM) unter Verwendung einer einheitlichen Verteilung platziert. Da Peaks mit einem Abstand von >16 cM typischerweise als getrennt erkannt werden [durchschnittlicher Abstand zwischen den Peaks = 16 cM (Kenney-Hunt et al. 2008)], teilten wir diese hypothetische genetische Karte in 16 cM Kopplungsblöcke auf, und immer wenn QTL-Peaks in denselben Block fielen, wurden ihre Pleiotropievektoren zu einem verbundenen QTL kombiniert, wodurch zwei oder mehr QTL in Kopplung simuliert wurden. Wir haben Pleiotropievektoren innerhalb jedes Blocks durch ihre elementweise Summe kombiniert. Die n für jeden verknüpften QTL wurde dann als die Anzahl von Merkmalen berechnet, die in den verknüpften Pleiotropievektoren von Null verschiedene Werte aufweisen. Wir haben dieses ganze Verfahren 1000 Mal wiederholt und die erwartete Verteilung der pleiotropen Effekte in einem F . berechnet2 Population von Mäusen, die die gleiche Rekombinationsrate aufweisen, wie sie im Opossum F . beobachtet wurde2 Population. Wenn das beobachtete n in Opossums überstieg 95 % dieser simulierten Maus-F2 Werte, wir betrachteten seine n deutlich höher sein. Alle Simulationen wurden im R statistische Programmiersprache (R Development Core Team 2010) unter Verwendung von Programmen, die von den Autoren geschrieben wurden.

Datenverfügbarkeit

Die Autoren geben an, dass alle Daten, die zur Bestätigung der im Artikel präsentierten Schlussfolgerungen erforderlich sind, vollständig im Artikel enthalten sind. Daten für dieses Manuskript wurden bei Figshare hinterlegt: https://figshare.com/articles/Data_-_Genetics_-_Porto_et_al_2016/4055961.


Ergebnisse

Die klonale Interferenz ist selbst bei nur zwei Merkmalen erheblich

Wie in der Einleitung besprochen, verringert das Hinzufügen eines neuen fitnessassoziierten Merkmals die Anpassungsrate in einem fokalen Merkmal von υ (U,n,S) zu Verallgemeinern zu k Eigenschaften, alle gleich U und S, aus Gleichung 1 haben wir (2) Jedes zusätzliche Merkmal erhöht die klonale Interferenz auf dem fokalen Merkmal um einen abnehmenden Betrag, wobei die Krümmung sogar in Bezug auf den Logarithmus der Anzahl der Merkmale sichtbar ist (Abbildung 3). Dies legt nahe, dass selbst aus dem einfachsten Fall einer klonalen Interferenz zwischen nur zwei fitnessassoziierten Merkmalen viel gelernt werden kann.

Die klonale Interferenz ist selbst mit nur einem zweiten adaptiven Merkmal beträchtlich. (A) Die Anpassungsrate eines fokalen Merkmals als Funktion der Gesamtzahl der sich anpassenden Merkmale aus Gleichung 2. Die x-Achse zeigt die Gesamtzahl der Merkmale (einschließlich Merkmal eins) auf einer logarithmischen Skala. Zum k = 1, Merkmal 1 entwickelt sich allein und es gibt keine Reduktion, während für k = 2, Merkmal 1 entwickelt sich mit 62,2 % der Rate, die es würde, wenn es nicht einer klonalen Interferenz mit einem zweiten Merkmal ausgesetzt wäre. Stark abnehmende Effekte werden durch das Hinzufügen weiterer Merkmale beobachtet. Während die Anpassungsrate für hohe schließlich auf null k Beachten Sie in Gleichung 2, dass dieser Ausdruck nur gültig ist, wenn (B) die klonale Interferenz zwischen zwei Merkmalen erheblich ist und wenig von abhängt U und S, außer in der oberen linken Ecke, wo es kaputt gegangen ist. Konturlinien werden als Anpassungsrate in einem fokalen Merkmal relativ zu der Rate bezeichnet, die ohne klonale Interferenz mit einem zweiten Merkmal erreicht würde, das dem zweiten Punkt in (A) entspricht. n = 10 9 durchgehend und die Punkte in (A) verwendet S = 0.02, U = 10 −5 .

Der mittlere Effekt der klonalen Interferenz auf G

Die Reduktion durch klonale Interferenz kann in die Auswirkungen auf die Varianz und auf die Kovarianz unterteilt werden, wobei die klonale Interferenz die beiden Komponenten von beeinflusst g. Wir stellen fest, dass die Verringerung von durch ein hohes Maß an negativer Kovarianz getrieben wird (Abbildung 4, magentafarbene Kreise). Diese negative Kovarianz verlangsamt die Entfernung der additiven Varianz aus der Grundgesamtheit, wodurch die Varianz wesentlich höher ist (Abbildung 4, cyanfarbene Kreise). Negative Kovarianz hebt sowohl den Effekt der erhöhten Varianz auf die Rate der Merkmalsänderung auf und geht darüber hinaus, um die Gesamtreduzierung auf ein Niveau unterhalb zu bewirken. Während Varianzen und Kovarianz von S und U, heben sich die Effekte auf, so dass die Reduzierung auf alle drei Parameter unempfindlich ist.

Varianz eines Fokusmerkmals (blaue simulierte Kreise und Gleichung 3a durchgezogene Linie), die Größe seiner Kovarianz mit dem anderen Merkmal (magenta simulierte Kreise und Gleichung 3b durchgezogene Linie) und der Beitrag des Merkmals zur Anpassung (blaue simulierte Kreise und Gleichung 1 durchgezogene .) Linie), gemäß (A) Selektionskoeffizient, (B) Mutationsrate und (C) Populationsgröße, gemittelt über 1,5 × 10 6 Generationen. Die ja-Achse wird relativ zu der Varianz des fokalen Merkmals normalisiert, wenn das zweite Merkmal nicht vorhanden wäre. Die beobachtete Varianz ist immer größer als diese. Während eine erhöhte Varianz allein die Anpassung beschleunigen würde, gleicht eine negative Kovarianz dies mehr als aus, sodass eine Nettoreduktion der merkmalsspezifischen Anpassungsrate unter den Wert, der ohne klonale Interferenz zu beobachten wäre, erfolgt. Für die Parameterwerte, die auf der nicht variiert werden x-Achse, S = 0.02, U = 10 −5 , und n = 10 9 .

Anhang B verwendet die von Walczak . entwickelte Fitnessklasse-Koaleszenz et al. (2012) zur Ableitung näherungsweise analytischer Ausdrücke für die Erwartungswerte von und σ1,2 (3a) (3b) Gleichung 3 zeigt eine gute Anpassung an die Simulationen in Abbildung 4, A–C.

Wichtig ist, dass klonale Interferenzen in einer sich schnell anpassenden Population die gemeinsame Beobachtung einer hohen genetischen Varianz in zwei fitnessassoziierten Merkmalen in Kombination mit einer starken negativen Kovarianz zwischen ihnen erklären können, selbst wenn pleiotrope Kompromisse durch funktionelle Einschränkungen vollständig fehlen. Dies ist auffällig, da dies im Charnov-Charlesworth-Modell als Beweis für beschränkungsgetriebene Kompromisse interpretiert wird.

Varianzen und Kovarianzen sind instabil

Abbildung 4 zeigt zeitlich gemittelte Varianzen und Kovarianz. Diese Werte sind im Laufe der Zeit sehr instabil (Abbildung 5A). Tatsächlich ist die Instabilität so ausgeprägt, dass Varianzen und Kovarianzen in Abbildung 4 aufgrund der Schwierigkeit, den Mittelwert selbst bei Mittelung über einen langen Zeitraum gut zu schätzen, ein erhebliches Rauschen aufweisen. Dies ist damit vereinbar, dass eine erhebliche Instabilität in g empirisch beobachtet wurde (Pfrender und Lynch 2000 Doroszuk et al. 2008).

Verhalten von G im Zeitverlauf. (A) Varianz von Merkmal eins (gestrichelte Linie), seine Kovarianz mit Merkmal zwei (σ1,2, gestrichelte Linie) und ihr Beitrag zur Anpassung (durchgezogene Linie). Abweichungen von (1,307) und σ1,2 (1.02) sind etwa viermal größer als die Varianz von (0.27) [Einheiten von ]. (B) Die Größe des Winkels zwischen dem zweiten Eigenvektor von G und der Auswahlrichtung [Vektor (1,1)] beträgt im Durchschnitt 7,2° für den gezeigten Zeitraum. Sein großer Mittelwert ist 0 und Abweichungen von dieser Mittelwertorientierung sind normalerweise gering. (C) Normalisierte Eigenwerte von G und Messung der genetischen Variation entlang der Selektionsrichtung bzw. der senkrechten „neutralen Richtung“. Die Normalisierung verschleiert die Tatsache, dass es infolgedessen Schwankungen in Varianzen, Kovarianz und Winkel sind. Schwankungen in haben eine andere Ursache und sind nicht korreliert. Spikes in sind auf die Vergrößerung der High-Fitness-Front zurückzuführen, gefolgt von ihrem Kollaps (farbige Linien markieren Zeitpunkte, an denen die 2D-Verteilung in Abbildung 7 gezeigt wird). Simulationsparameter: s = 0.02, U = 10 −5 , und n = 10 9 .

Tatsächlich sagen unsere Simulationen eine weitaus größere Instabilität voraus als zuvor berichtet. Die Instabilität wurde als Veränderung der Summe der beiden Varianzen quantifiziert. In früheren Simulationen hatte diese Summe über einen Zeitraum von 4000 Generationen eine Spanne von 80 % ihres Mittelwerts (Jones et al. 2012). Die gleiche Menge in unseren Simulationen hatte im gleichen Zeitraum eine Spanne von 192% ihres Mittelwerts. Unsere Simulationen zeigten auch einen viel größeren Bereich für die inverse Exzentrizität von g (wobei die Exzentrizität durch das Verhältnis von gkleinster und größter Eigenwert ), 320% der mittleren inversen Exzentrizität im Gegensatz zu 125% für Jones et al. (2012). Darüber hinaus sind die Simulationen von Jones et al. (2012) wurden mit n = 1024 während unsere mit durchgeführt wurden n = 10 9 und die Art und Weise, wie die genetische Drift in dieses Modell eindringt, bedeutet, dass im Gegensatz zu unserem Modell eine Zunahme n würde die Instabilität erheblich reduzieren.

Varianzen und Kovarianzen werden von der Häufigkeitsverteilung unter den am häufigsten vorkommenden oder „dominanten“ Genotypen dominiert. Wenn wir die zweidimensionale Verteilung in eine eindimensionale Wanderfitnesswelle kollabieren, wie in Abbildung 6A gezeigt, findet sich die Menge der dominanten Genotypen hauptsächlich innerhalb des Peaks, die ihr exponentielles Wachstum ungefähr abgeschlossen haben und im Begriff sind, in der Häufigkeit abzunehmen . Diese einzige eindimensionale „Fitnessklasse“ besteht aus allen Genotypklassen, die entlang einer diagonalen Fitnessisokline liegen. Die Schwankungen der g Matrix kann verstanden werden, indem man sich auf die Häufigkeitsverteilungen innerhalb diagonaler Isoklinen konzentriert.

Die G-Matrix wird von den höchsten Abundanzklassen dominiert, deren Zusammensetzung die bisherige Klassenverteilung entlang der High-Fitness-Front widerspiegelt. (A) Jede Fitnessklasse kombiniert alle Genotypen entlang derselben Fitnessisokline (Diagonale in Abbildung 2). Die zweidimensionale Wanderwelle im zweidimensionalen Merkmalsraum kann somit auf eine eindimensionale Wanderwelle im Fitnessraum projiziert werden. Die Schattierung zeigt die unterschiedlichen Genotypen an, die im zweidimensionalen Merkmalsraum definiert sind. Selection makes the most abundant fitness class exponentially larger than other fitness classes, meaning that the distribution of distinct genotypes within a single fitness class dominates the variances and covariances of the population as a whole. As the peak shifts from one fitness class to the next, variances and covariances may change substantially. (B) The correlation over time between covariance within the high-fitness front and covariance within the peak classes is highest with a time offset equal to the mean sweep time given in Equation 4 (the average time required for the front to become the peak dashed line). This is because the distribution of genotypes within a fitness class was set during the stochastic phase, and simply propagated deterministically until this fitness class became the most abundant. The dynamics of the stochastic front explain 66% of fluctuations in the covariance detected in the bulk after generations.

As discussed in the Einführung, negative covariance in our model arises from the amplification of linkage disequilibrium generated by the beneficial mutations producing the fittest genotypes. Negative covariance thus originates with the stochastic dynamics of the high-fitness front. The relative ratios among high-fitness front classes are approximately “frozen” during the amplification that takes place after establishment, because beneficial mutations that occur after establishment of the high-fitness front (Figure 2, pale blue squares) contribute little to the relative frequencies of classes along a fitness isocline (Desai et al. 2013). As a result, the relative frequencies along a diagonal after establishment (Figure 6A, top green) are later found in the dominant classes (peak in Figure 6A, bottom green) once the traveling wave has moved that far.

The average time required for the high-fitness front to become the dominant group is given by the mean sweep time (Desai and Fisher 2007 Fisher 2013, p. 1178) (4) Figure 6B plots the correlation between covariances in the bulk and covariances in the high-fitness front as a function of the time offset between the two. The correlation peaks with ∼66% of fluctuations in bulk covariance measured explained by the value of covariance at the high-fitness front generations ago, confirming that fluctuations in G are caused primarily by changes in the distribution of relative frequencies of classes within successive high-fitness fronts. These have some short-term stability, because establishment times in the new front depend on the feeding classes that were part of the previous front. We shall see below that the instability of the components of G is driven primarily by fluctuations in the leading eigenvalue.

The orientation of the G matrix is mostly stable, while different forces drive the instability of the two eigenvalues

The eigenvalues and eigenvectors of G have been used to summarize its shape, size, and orientation. Specifically, the orientation of G is specified by its eigenvectors, ranked by their eigenvalues, where each eigenvalue quantifies the genetic variance along its respective eigenvector. Each eigenvector can be specified by m angles relative to the m trait axes. Because the eigenvectors form an orthonormal set, and, thus, each gives information about the others, only angles are needed for the matrix as a whole (Hohenlohe and Arnold 2008). Empirical comparisons of related populations often find that the orientation of G is stable even when its individual elements are not (Arnold et al. 2008).

For a two-dimensional trait space, one can give the orientation of G using a single angle. Prior work on only two traits has used the angle between the first eigenvector and an arbitrary trait axis (Jones et al. 2003, 2004, 2007 Guillaume and Whitlock 2007 Revell 2007), or the angle between where the first eigenvector begins and where it is later (Björklund et al. 2013). We instead measure the orientation of G as the angle between G’s second eigenvector and the direction of selection (1,1). By symmetry, the expectation of this angle is zero, with the expected eigenvectors of G being (1,−1) (first eigenvector) and (1,1) (second eigenvector). The magnitude of the angle’s deviation from zero indicates the degree of instability in orientation, with 45° Corresponding to a random matrix orientation. Since selection is identical on both traits, the vector (1,1) in our two-dimensional trait space represents the direction of selection. To generalize our measure of orientation to more dimensions, we would measure the angle between the vector (1. 1) and whichever eigenvector is most closely aligned with this direction. We expect that this eigenvector will have the smallest eigenvalue since selection removes most genetic variation along in the direction of the vector (1. 1). We find that the angle measuring G’s orientation remains relatively stable. In Figure 5B, the magnitude of this angle averages 7.2°, which means that G remains closely aligned with the perpendicular “neutral” direction. This suggests that any observed stability in the orientation of G could reflect stability in the direction of selection of a traveling wave, rather than stability of functional constraints.

Figure 5C shows the behavior of the two eigenvalues, and The smaller eigenvalue measures genetic variation in the direction of selection, and measures genetic variation perpendicular to it, oriented along isoclines. Stochasticity in the speed at which the high-fitness front advances drives fluctuations in while fluctuations in the width of the high-fitness front drive fluctuations in In simulations, ’s average value over the period of the simulations was five times larger than the average It is the dynamics of that correspond to the fluctuations seen in and σ1,2. In contrast, the dynamics of correspond to the overall adaptation rate and to some extent also alone. This explains why, in our simulations, the variance in the time series of genetic variances and covariance is about four times larger than the variance in the time series data for (Figure 5A).

As a new high-fitness front forms, it tends to be one class longer than the last front (Figure 2, dark blue classes), which will eventually increase When there is little variance in abundance among classes in the old front, beneficial mutations are fed into the new front at approximately the same rate, except for the two edge classes, which are fed at half the rate. Despite this disadvantage, classes at the edges do not, on average, take twice as long to establish, because the classes that feed them are growing exponentially. The probability that both edge classes establish before the next advance is therefore greater than the probability that neither will, creating an intrinsic tendency toward expansion of the high-fitness front [see Pearce and Fisher (2017) for a more detailed analysis of the front dynamics].

Over time, the abundances among classes in the front diverge stochastically. Small variations in abundance caused by stochastic establishment times change the rate at which beneficial mutations are fed into the next front, and thus cause establishment times to vary even more in the next front (Desai and Fisher 2007, Appendix D). Eventually, the differences in establishment times are large enough for the front to become segmented into competing sections that race to advance first. The winning section goes on to form a new and smaller front, as illustrated in Figure 7, D and E.

Expansion and collapse of the high-fitness front depicted with snapshots (A–F) of the two-dimensional distribution, corresponding by color to vertical lines in Figure 5C. Snapshots are approximately apart ( generations), in each case one generation before the first still higher fitness genotype appears by mutation. Squares with blue outlines are in the stochastic growth phase, and are fed mutations from classes along the fitness isocline indicated by the black line. (A) A narrow high-fitness front following a recent minor collapse, concentrated in two adjacent squares without outlines. (B) Even as genetic variation in the bulk declines, it increases within the narrow high-fitness front, breaking apart into two dominant segments. (C) The segments stochastically converge again, allowing for later widening of the front. (D) The width of the high-fitness front reaches a maximum, although maximum covariance will occur only generations later. The lower right portion of the front is moving ahead of the top left section, setting it up for later collapse. (E) is at a local maximum, and the front is collapsing. The portion of the bulk no longer connected to the high-fitness front declines. (F) The high-fitness front collapses further as one segment continues to dominate its advances. Genetic variance in the neutral direction drops and causes negative covariance to decrease. Simulation parameters: S = 0.01, U = 10 −5 , and n = 10 9 .

Following collapse to a new, small front, variation in abundance among front classes is low, allowing for front expansion to resume until variation grows high enough to cause the front to collapse again. The high-fitness front cycles through phases of expansion and collapse (Figure 5C and Figure 7).

A different (and previously described Desai and Fisher 2007) process drives fluctuations in namely instabilities in the rate at which the front advances, rather than instabilities in the width of the front. The value of is closely related to the distance Si,j between the high-fitness front and the mean population fitness. Since the front advances stochastically, it will sometimes advance faster than the population mean fitness, temporarily increasing Si,j This causes the front to accelerate, because fitness classes along the front will have a greater fitness advantage, and, therefore ,produce more mutants with greater chance of establishment. Thus, Si,j is dynamically unstable in the short-term, and so too is Eventually, fluctuations in Si,j that accelerate the front also begin to accelerate the rate of adaptation in the bulk, once classes in the front become the dominant group generations later. Si,j then decreases, causing the front’s rate of advancement to decrease as well this stabilizes Si,j over the longer term.


Breeding and Genetics Symposium: really big data: processing and analysis of very large data sets

Modern animal breeding data sets are large and getting larger, due in part to recent availability of high-density SNP arrays and cheap sequencing technology. High-performance computing methods for efficient data warehousing and analysis are under development. Financial and security considerations are important when using shared clusters. Sound software engineering practices are needed, and it is better to use existing solutions when possible. Storage requirements for genotypes are modest, although full-sequence data will require greater storage capacity. Storage requirements for intermediate and results files for genetic evaluations are much greater, particularly when multiple runs must be stored for research and validation studies. The greatest gains in accuracy from genomic selection have been realized for traits of low heritability, and there is increasing interest in new health and management traits. The collection of sufficient phenotypes to produce accurate evaluations may take many years, and high-reliability proofs for older bulls are needed to estimate marker effects. Data mining algorithms applied to large data sets may help identify unexpected relationships in the data, and improved visualization tools will provide insights. Genomic selection using large data requires a lot of computing power, particularly when large fractions of the population are genotyped. Theoretical improvements have made possible the inversion of large numerator relationship matrices, permitted the solving of large systems of equations, and produced fast algorithms for variance component estimation. Recent work shows that single-step approaches combining BLUP with a genomic relationship (G) matrix have similar computational requirements to traditional BLUP, and the limiting factor is the construction and inversion of G for many genotypes. A naïve algorithm for creating G for 14,000 individuals required almost 24 h to run, but custom libraries and parallel computing reduced that to 15 m. Large data sets also create challenges for the delivery of genetic evaluations that must be overcome in a way that does not disrupt the transition from conventional to genomic evaluations. Processing time is important, especially as real-time systems for on-farm decisions are developed. The ultimate value of these systems is to decrease time-to-results in research, increase accuracy in genomic evaluations, and accelerate rates of genetic improvement.


A Super Brief and Basic Explanation of Epigenetics for Total Beginners

Epigenetics is the study of biological mechanisms that will switch genes on and off, to be put as a simplified definition. What does that mean? Well, if you are new to this whole thing, we first need a quick crash course in biochemistry and genetics before learning exactly what is epigenetics :

  • Cells are fundamental working units of every human being. All the instructions required to direct their activities are contained within the chemical deoxyribonucleic acid, also known as DNA.
  • DNA from humans is made up of approximately 3 billion nucleotide bases. There are four fundamental types of bases that comprise DNA &ndash adenine, cytosine, guanine, and thymine, commonly abbreviated as A, C, G, and T, respectively.
  • Die sequence, or the order, of the bases is what determines our life instructions. Interestingly enough, our DNA sequence is mostly similar to that of a chimpanzee. Only a fraction of distinctively different sequences makes us human.
  • Within the 3 billion bases, there are about 20,000 genes. Genes are specific sequences of bases that provide instructions on how to make important proteins &ndash complex molecules that trigger various biological actions to carry out life functions.

In other words, DNA gives the instructions for various functional proteins to be produced inside the cell &mdash this process is also known as the central dogma of molecular biology. Now that you understand genetics, let&rsquos learn about epigenetics. Epigenetics affects how genes are read by cells, and subsequently whether the cells should produce relevant proteins. For example, the COL1A1 gene in DNA is present in all types of cells but &ldquoexpressed&rdquo in skin cells to produce Type 1 Collagen proteins. Here are a few important points about epigenetics:

  • Epigenetics Controls Genes. This is achieved through (a) nature: epigenetics is what determines a cell&rsquos specialization (e.g., skin cell, blood cell, hair cell, liver cells, etc.) as a fetus develops into a baby through gene expression (active) or silencing (dormant) and (b) nurture: environmental stimuli can also cause genes to be turned off or turned on.
  • Epigenetics Is Everywhere. What you eat, where you live, who you interact with, when you sleep, how you exercise, even aging &ndash all of these can eventually cause chemical modifications around the genes that will turn those genes on or off over time. Additionally, in certain diseases such as cancer or Alzheimer&rsquos, various genes will be switched into the opposite state, away from the normal/healthy state.
  • Epigenetics Makes Us Unique. Even though we are all human, why do some of us have blonde hair or darker skin? Why do some of us hate the taste of mushrooms or eggplants? Why are some of us more sociable than others? The different combinations of genes that are turned on or off is what makes each one of us unique. Furthermore, there have been indications that some epigenetic changes can even be inherited.
  • Epigenetics Is Reversible. With more than 20,000 genes, what will be the result of the different combinations of genes being turned on or off? The possible arrangements are enormous! But if we could map every single cause and effect of the different combinations, and if we could reverse the gene&rsquos state to keep the good while eliminating the bad&hellip then we could hypothetically* cure cancer, slow aging, stop obesity, and so much more.

Here&rsquos an analogy that might further help you to understand what epigenetics is, as presented in Nessa Carey&rsquos Epigenetics Revolution. Think of the human lifespan as a very long movie. The cells would be the actors and actresses, essential units that make up the movie. DNA, in turn, would be the script &mdash instructions for all the participants of the movie to perform their roles. Subsequently, the DNA sequence would be the words on the script, and certain blocks of these words that instruct key actions or events to take place would be the genes. The concept of genetics would be like screenwriting. Follow the analogy so far? Great. The concept of epigenetics, then, would be like directing. The script can be the same, but the director can choose to eliminate or tweak certain scenes or dialogue, altering the movie for better or worse. After all, Steven Spielberg&rsquos finished product would be drastically different than Woody Allen&rsquos for the same movie script, wouldn&rsquot it?

Want to learn what is epigenetics in scientific detail? Read on: Fundamentals of Epigenetics

Next Step&hellip Explore popular categories on What Is Epigenetics:

*Editor&rsquos Note: Be wary of self-help claims that exploit epigenetics and seem too good to be true. We recommend you read about the abuse of epigenetics and pseudoscience.


What is needed for a G-matrix? - Biologie

You have requested a machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Neither BioOne nor the owners and publishers of the content make, and they explicitly disclaim, any express or implied representations or warranties of any kind, including, without limitation, representations and warranties as to the functionality of the translation feature or the accuracy or completeness of the translations.

Translations are not retained in our system. Your use of this feature and the translations is subject to all use restrictions contained in the Terms and Conditions of Use of the BioOne website.

CONSTANCY OF THE G MATRIX IN ECOLOGICAL TIME

1 Department of Animal Ecology, Evolutionary Biology Centre, Uppsala University, Norbyvägen 18 D, SE- 752 36 Uppsala, Sweden Integrative Ecology Unit, Division of Population Biology, P.O. Box 65, FIN-00014, University of Helsinki, Finland mats.bjorklun

Includes PDF & HTML, when available

This article is only available to subscribers.
It is not available for individual sale.

The constancy of the genetic variance-covariance matrix (G matrix) across environments and populations has been discussed and tested empirically over the years but no consensus has so far been reached. In this paper, I present a model in which morphological traits develop hierarchically, and individuals differ in their resource allocation and acquisition patterns. If the variance in resource acquisition is many times larger than the variance in resource allocation then strong genetic correlations are expected, and with almost isometric relations among traits. As the variation in resource acquisition decreases below a certain threshold, the correlations decrease overall and the relations among traits become a function of the allocation patterns, and in particular reflecting the basal division of allocation. A strong bottleneck can break a pattern of strong genetic correlation, but this effect diminishes rapidly with increasing bottleneck size. This model helps to understand why some populations change their genetic correlations in different environments, whereas others do not, since the key factor is the relation between the variances in resource acquisition and allocation. If a change in environment does not lead to a change in this ratio, no change can be expected, whereas if the ratio is changed substantially then major changes can be expected. This model can also help to understand the constancy of morphological patterns within larger taxa as a function of constancy in resource acquisition patterns over time and environments. When this pattern breaks, for example on islands, larger changes can be expected.

Mats Björklund "CONSTANCY OF THE G MATRIX IN ECOLOGICAL TIME," Evolution 58(6), 1157-1164, (1 June 2004). https://doi.org/10.1554/03-410

Received: 10 July 2003 Accepted: 27 January 2004 Published: 1 June 2004

This article is only available to subscribers.
It is not available for individual sale.


What is needed for a G-matrix? - Biologie

You have requested a machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Neither BioOne nor the owners and publishers of the content make, and they explicitly disclaim, any express or implied representations or warranties of any kind, including, without limitation, representations and warranties as to the functionality of the translation feature or the accuracy or completeness of the translations.

Translations are not retained in our system. Your use of this feature and the translations is subject to all use restrictions contained in the Terms and Conditions of Use of the BioOne website.

Empirical Comparison of G Matrix Test Statistics: Finding Biologically Relevant Change

Brittny Calsbeek, 1,2,3 Charles J. Goodnight 1

1 1Department of Biological Sciences, University of Vermont, Burlington, Vermont 05405
2 2E-mail: [email protected]
3 3Station d'Ecologie Expérimentale du CNRS à Moulis, USR 2936, 09200 Saint-Girons, France

Includes PDF & HTML, when available

This article is only available to subscribers.
It is not available for individual sale.

A central assumption of quantitative genetic theory is that the breeder's equation (R = GP -1 S) accurately predicts the evolutionary response to selection. Recent studies highlight the fact that the additive genetic variance-covariance matrix (G) may change over time, rendering the breeder's equation incapable of predicting evolutionary change over more than a few generations. Although some consensus on whether G changes over time has been reached, multiple, often-incompatible methods for comparing G matrices are currently used. A major challenge of G matrix comparison is determining the biological relevance of observed change. Here, we develop a “selection skewers” G matrix comparison statistic that uses the breeder's equation to compare the response to selection given two G matrices while holding selection intensity constant. We present a bootstrap algorithm that determines the significance of G matrix differences using the selection skewers method, random skewers. Mantel's and Bartlett's tests, and eigenanalysis. We then compare these methods by applying the bootstrap to a dataset of laboratory populations of Tribolium castaneum. We find that the results of matrix comparison statistics are inconsistent based on differing a priori goals of each test, and that the selection skewers method is useful for identifying biologically relevant G matrix differences.

© 2009 The Society for the Study of Evolution.

Brittny Calsbeek and Charles J. Goodnight "Empirical Comparison of G Matrix Test Statistics: Finding Biologically Relevant Change," Evolution 63(10), 2627-2635, (1 October 2009). https://doi.org/10.1111/j.1558-5646.2009.00735.x

Received: 16 December 2008 Accepted: 1 May 2009 Published: 1 October 2009


How can we prove that the scrambled G matrix in McEliece cryptosystem preserves the minimum distance properties of G matrix?

In McEliece cryptosystem, G matrix is scrambled using S and P so that scrambled G matrix is G' = SGP. Here G is the generator matrix of a linear code and after scrambling it is converted into another matrix G' of the same size. How can we ensure that G' is another possible G matrix of the code with same distance properties? Is there any proof for that? If G' satisfies all the properties of G, will this hold any linear code other than Goppa code also?

Here mS will give you another k element vector which forms the message for the permuted version of the G matrix, GP. Now my question is whether the permuted G matrix results in another valid G matrix. Are there any properties to be satisfied by P matrix?


proteins(EnsDb.Hsapiens.v86, filter= GenenameFilter("KRAS"))

Also have a look at functions proteinToTranscript proteinToGenome

There are also functions exons, exonsBy, transcriptsBy, cdsBy, fiveUTRsByTranscript and threeUTRsByTranscript. These functions return a GenomicRanges object and inherit all of the methods in that package too.

You can manipulate the sequence selected as an IRanges object

It is worth having a look at these vignettes. Let me know if you've questions or post to the Bioconductor support forum -)