Title: Rekonstruktion eines Genbaums
1Rekonstruktion eines Genbaums über
Gen-/Artenbaum-Reconcilierung
Seminar Aktuelle Themen in der Bioinformatik
- Bayesian gene/species tree reconciliation and
orthology analysis using MCMC (2003) - Gene tree reconstruction and orthology analysis
based on an integrated model for duplications and
sequence evolution (2004)
Bianca Büttner SS 2005
2Übersicht
- Einführung in die Thematik
- Der Algorithmus von Arvestad et al.
- Definitionen und Notationen der Parameter
- Gen-Evolutions- Gen-Sequenz-Evolutions-Modell
- Der MCMC-Algorithmus
- Berechnung der Likelihood einer Reconcilierung
- Zusammenfassung
3Einführung in die Thematik
- Was ist ein Genbaum?
- - Während der Evolution können ganze Genloci
(oder auch nur einzelne Basen) dupliziert werden
oder verloren gehen. - - Duplikationen lassen Rückschlüsse auf
Genfamilien zu. - - 1962 wurden das erste Mal Unterschiede
zwischen
Globinen entdeckt (Zuckerkandl Pauling). - - Für Vergleiche zwischen Mitgliedern dieser
Genfamilie innerhalb einer Spezies wurde ein
Genbaum erstellt.
4Einführung in die Thematik
- Was ist eine Reconcilierung?
- - Zusammen mit einem Genbaum und in Abhängigkeit
eines Artenbaums, erklärt die Reconcilierung die
Evolution einer Genfamilie. - - 1979 suchte Goodman als einer der Ersten nach
einem Algorithmus, der Gen- und Artenbäume in
Übereinstimmung bringen konnte. - - Ziel war es, eine Reconcilierung zu finden, in
der der Genbaum die geringste Anzahl an
Substitutionen, Genduplikationen und Genverluste
aufwies.
5Einführung in die Thematik
- Was ist eine Reconcilierung?
Genduplikation
Genverlust
6Einführung in die Thematik
- Walter Fitchs (Zoologe,1970) original Definition
von paralog und ortholog - - Wenn die Homologie zweier Gene das Resultat
einer Genduplikation ist und sie die
Entwicklung einer Art beschreiben, nennt
man die Gene paralog. - - Ist die Homologie zweier Gene das Resultat
einer Speziation (Artenbildung) und
reflektiert die Entwicklung eines Gens die
Entwicklung mehrerer Arten, nennt man die
Gene ortholog. -
7Einführung in die Thematik
- Oder in kurz
- Zwei Gene sind paralog, wenn sie nach einer
Duplikation divergieren. - Zwei Gene sind ortholog, wenn sie nach einer
Speziation divergieren.
8Einführung in die Thematik
Rattengene 1 2 sind
paralog. Mausgene 1 2 sind paralog. Aber
Rattengen 1 bzw. 2 ist ortholog zu Mausgen 1 2
und umgekehrt.
( ) Speziation X Duplikation
9Der Algorithmus von Arvestad et al.
- Der Algorithmus versucht Fragen zu beantworten
wie z.B. Wie viele Duplikationen und Verlust
geschahen in einer Genfamilie? Oder welche Gene
sind ortholog? - Die Autoren entwickelten als Grundlage für den
Algorithmus ein Gen-Evolutionsmodell, dass im 2.
Paper noch durch ein Gen-Sequenz-Evolutionsmodell
erweitert wurde. - Die Verfahren und Modelle auf denen der
Algorithmus basiert, gehören zu den statistischen
Methoden und sind laut Autor den üblichen
parsimonischen Methoden in Realitätsnähe und
Mächtigkeit weit überlegen.
10Definitionen und Notationen I
- Ein Genbaum G bezeichnet seine Knoten und Blätter
mit Kleinbuchstaben wie u, v und w. - Ein Artenbaum S verwendet meist die
Großbuchstaben X, Y, Z. - Die Blätter eines Genbaums repräsentieren Gene,
die Blätter eines Artenbaums repräsentieren
Arten.
11Definitionen und Notationen II
- Ein Genbaum G besitzt eine Blatt-Benennungs-Funkti
on - s L(G) L(S)
- Das heißt, das Gen l e L(G) gehört zum Genom der
Spezies s(l), da L(G) und L(S) miteinander
assoziiert sind. -
Bsp a1 und a2 sind Gene der Spezies A.
12Definitionen und Notationen III
- Ein Baum T hat folgende Merkmale
- V(T) gt Eine Menge von Knoten von T.
- A(T) gt Eine Menge von Kanten von T.
- L(T) gt Eine Menge von Blättern von T.
- r(T) gt Eine Wurzel von T.
13Definitionen und Notationen V
- Ist binär, d.h. jeder innere Knoten hat zwei
Kinder. - Tu gt Ist ein Teilbaum von T mit Wurzel u.
- c1(u) ist das linke und c2(u) das rechte Kind von
u. - Tu,v gt Ist ein Kanten-Teilbaum von T.
- bedeutet v ist ein Nachkomme von u
in T.
u
v
14Das Gen-Evolutions-Modell I
- In diesem Modell lassen wir den Genbaum innerhalb
eines Artenbaums wachsen, entsprechend eines
sogenannten Birth-Death-Prozesses. - Dieser Standard-Prozess wurde bereits von Kendall
1948 entwickelt und induziert die Reconcilierung - Birth rate l gt Anzahl der Duplikationen
- Death rate m gt Anzahl der Genverluste
- Der Birth-Death-Prozess wird auf die Kanten des
Artenbaums angewendet.
15Das Gen-Evolutions-Modell II
- Wie funktioniert der Birth-Death-Prozess?
- Der Prozess beginnt an der Wurzel und arbeitet
sich abwärts bis zu den Blättern des Artenbaums
vor. - 2. Sobald der Prozess das Ende einer Kante
erreicht, splittet er Knoten x in zwei identische
Kopien. - 3. Der Prozess geht rekursiv links und rechts an
den ausgehenden Kanten von x weiter, bis er in
den Blättern von S stoppt.
16Das Gen-Evolutions-Modell III
- Dann wird der Baum zurechtgestutzt, d.h. Knoten
ohne Blätter (Genverluste) werden gelöscht,
eingehende und ausgehende Kanten von Knoten mit
nur einem Kind zu einer Kante (ohne den Knoten)
zusammengeführt. - 5. Dann werden die Blätter des entstandenen
Genbaums entsprechend der Blätter des Artenbaums
benannt.
Beispiel
17Beispiel Genbaum entwickelt sich innerhalb eines
Artenbaums
Speziation
Artenbaum
Duplikation
Genverlust
18Entwicklung eines Genbaums II
II
I
Genbaum nach dem Zurechtschneiden des
Birth-Death-Prozesses.
Reconcilierung aus dem Birth-Death-Prozess.
19Entwicklung eines Genbaums III
III
IV
Reconcilierung durch parsimonische Methoden. Gen
d wird fälschlicherweise als Speziation
interpretiert.
Eine mögliche Reconcilierung Bei gegebenem Arten-
und Genbaum aus I.
20Das Gen-Sequenz- Evolutions-Modell
- Erweiterung des Gen-Evolutions-Modells.
- Bei jeder Entstehung einer neuen Genlinie
entweder durch Duplikation oder Speziation wird
ein Modell zur Evolution der Sequenz angewendet
(hier Jukes-Cantor und Molecular-Clock-Model für
die Kanten). - Das Modell ist hierarchisch, d.h. es ist egal ob
zuerst der Gen-Baum nach dem Gen-Evolutions-Modell
entwickelt wird und danach das
Sequenz-Evolutions-Modell darauf angewendet wird
oder umgekehrt.
21Definitionen einer Reconcilierung I
Formal Eine Reconcilierung eines Artenbaums S
und eines Genbaums G ist ein Paar
(g,G) wobei g eine Funktion ist
Das bedeutet Jeder Art ist eine Menge von Genen
zugeordnet. Beispiel u e g(x) - also u gehört
zu den Genen von X.
22Definitionen einer Reconcilierung II
Gwird zu G, sobald alle Knoten, mit nur
insgesamt zwei eingehenden und ausgehenden
Kanten, gelöscht wurden.
Beispiel G und G
Eine Reconcilierung g von G S
23Definitionen einer Reconcilierung III
1. Die Wurzel des Artenbaums, ist einem Gen im
Genbaum zugeordnet. 2. Für jedes Blatt im Genbaum
gibt es eine zugehörige Spezies im Artenbaum. 3.
Ein Gen kann nicht zu zwei Arten gleichzeitig
gehören. 4. Kein Gen einer Spezies kann in der
Reconcilierung Vor- oder Nachfahre von einem
anderen Gen der gleichen Spezies sein.
24Definitionen einer Reconcilierung IV
5. Wenn y und z ebensowenig voneinander
abstammen, wie ihre zugehörigen Gene v und w,
dann ist der letzte gemeinsame Vorfahre von y und
z an einer Gabelung und trennt v und w
voneinander. 6. Wenn x,y,z von einander
abstammen, stammen ihre zugehörigen Gene u,v,w in
gleicher Reihenfolge von einander ab.
25Markov-Ketten-Monte-Carlo-Verfahren (MCMC)
- Der hier verwendete Algorithmus basiert auf dem
Metropolis-Hastings-Algorithmus, der zu den
MCMC-Methoden gehört. - In einem Zustandsraum wird durch eine zufällige
Übergangswahrscheinlichkeit (proposal
distribution) eine Markov-Kette aus Zuständen
gebildet. - Eine Akzeptanz-Wahrscheinlichkeit (der
Metropolis-Hastings-Quotient) entscheidet, ob der
Übergang von einem Zustand in den Anderen
akzeptiert wird. -
26Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II
- Dieser Quotient sorgt dafür, dass die
Markov-Kette sich nach einer gewissen Zeit
(Burn-In) gerichtet einer stationären
Zielverteilung nähert. Aus ihr werden später die
Werte gesampelt. - In dieser Zielverteilung sind die Zustände nach
ihrer Wahrscheinlichkeit gewichtet. D.h. die
wahrscheinlicheren Zustände werden öfter besucht,
als die weniger Wahrscheinlichen.
27Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II
Der Metropolis-Hastings-Quotient
vorgeschlagener neuer Zustand
alter Zustand
WS, dass aktueller Zustand X ist.
Übergangs-WS, von Zustand X nach Zustand Y.
gt Quotient gibt WS an, mit der neuer Zustand
akzeptiert wird.
28MCMC-Abschätzung der a posteriori WS-Verteilung
von Genbäumen
- Hier besteht der Zustand einer Markov-Kette aus
einem Tripel - (G, l, m) entsprechend Genbaum, Birth rate,
Death rate. - Die stationäre Ziel-Wahrscheinlichkeitsverteilung
ist eine a posteriori-Verteilung von Genbäumen
(posterior in Bezug auf F). - Bei gegebenem F bekommen wir durch Sampeln aus
dieser Verteilung folgende Wahrscheinlichkeit -
Prinzip der bedingten WS nach dem Satz
von Bayes
- F ist die Menge aller zu betrachtenden
Gensequenzen einer Genfamilie. - gt F q1, ... , qn, wobei n die Anzahl aller
Speziesarten ist.
29MCMC-Abschätzung der a posteriori WS-Verteilung
von Genbäumen
- l und m (Birth-Death-Prozess) werden zur
Berechnung a priori angenommen und später durch
die richtigen Werte aus den gesampelten
Ergebnissen ersetzt. -
- Die Berechnung der Akzeptanz-Wahrscheinlichkeit
des neuen Zustands (G,l,m) durch den
Metropolis-Hastings-Quotienten wurde etwas
abgewandelt
Aktueller Zustand
Neuer Zustand
30Berechnung der Likelihood
- Die Likelihood soll die Wahrscheinlichkeit
abschätzen, dass im Gen-Evolutions-Prozess G der
Genbaum, l die Geburtsrate und m die Todesrate -
bei gegebenen Gensequenzen F - war. - Da es für jeden Genbaum eine entsprechende
Reconcilierung gibt, gilt diese
Likelihood-Berechnung auch gleichzeitig als
Wahrscheinlichkeit für die jeweilige
Reconcilierung.
31Berechnung der Likelihood II
- Nach dem Prinzip der dynamischen Programmierung
wird zur Berechnung der Likelihood einer
Reconcilierung der Genbaum in sogenannte Sliced
Subtrees zerlegt. - Die Größe der Sliced Subtrees wird durch eine
obere und eine untere Schranke begrenzt. Es sind
komplizierte rekursive Gleichungen notwendig, um
einen Genbaum in diese Teilbäume zu zerlegen, die
hier aber nicht gezeigt werden. -
32Definitionen eines Sliced Subtrees
- ist ein Sliced Subtree,
für ltx,ygt e A(S) und u e g(x). - Beispiel
33Definitionen eines Sliced Subtrees II
- ist noch mal ein spezieller
Sliced Subtree, bei dem von vorneherein
festgelegt ist, dass er nur eine Kante ltx,ygt lang
und bei u gewurzelt ist. U ist ein Gen von X. - Es gibt keine Spezies zwischen X und Y.
- Für jeden Sliced Subtree werden nun rekursiv
Likelihood-Berechnungen angestellt. - Die Ergebnisse dieser Rekursionsgleichungen
ergeben zusammengesetzt dann die Likelihood einer
speziellen Reconcilierung.
34Berechnung der Likelihood für eine einzelne
Reconcilierung
- ist definiert, als die
WS, dass Gu und gu sich aus u in Sx entwickelt
haben. D.h. X ist die Startspezies, u die Wurzel
des Subtrees. - ist die WS, dass sich
und von u aus in Sx,y entwickelt haben.
Y ist hier das Ende der Kante (Zielspezies). -
35Berechnung der Likelihood für eine einzelne
Reconcilierung II
- Die Likelihood-Berechnung basiert auf folgenden
rekursiven Gleichungen -
Berechnung beginnt im Blatt der Sliced Subtrees
und steigt rekursiv immer einen Knoten höher.
X hat die Kinder y und z in S.
Berechnet linke und rechte Kante von X.
36Berechnung der Likelihood für eine einzelne
Reconcilierung III
eA betrachtet die Kante von X nach Y und setzt
sich aus mehreren Variablen zusammen, die
wiederum rekursiv berechnet werden müssen.
37Berechnung der Likelihood für eine einzelne
Reconcilierung IV
py(l) gt Wahrscheinlichkeit, dass der
Birth-Death-Prozess auch tatsächlich l Blätter
generiert hat.
38Berechnung der Likelihood für eine einzelne
Reconcilierung V
h(g,y,u) gt Wahrscheinlichkeit der Baumstruktur
(Topologie)
Der Birth-Death-Prozess generiert Labeled Trees
mit l Blättern und gleicher Wahrscheinlichkeit.
Aber nach Entfernen der Labels (Blattnamen) ist
eine Baumstruktur wahrscheinlicher als die
Andere. Während die History (zeitliche Abfolge
der Knoten) ohne Labels überhaupt keine Rolle
mehr spielt.
39Berechnung der Likelihood für eine einzelne
Reconcilierung V
Bsp Wahrscheinlichkeit der Baumstruktur
(Topologie)
12 Permutationen der Labeled Trees gt WS 2/3
6 Permutationen der Labeled Trees gt WS 1/3
40Berechnung der Likelihood für eine einzelne
Reconcilierung VI
Berechnung von h(g,y,u)
Rekursiv für linkes und rechtes Kind von u
Anzahl der Blätter des Sliced Subtrees - 1
- Blätter bekommen den Wert 1 zugewiesen.
- d kann den Wert 0 (bei gleicher Topologie) oder
1 (verschieden) annehmen. - Die rekursiven Teilgleichungen werden
miteinander multipliziert.
41Berechnung der Likelihood für eine einzelne
Reconcilierung VII
Führt Kante zu weiteren Knoten wird ev noch mal
rekursiv gestartet.
- f(g,y,u) gt Anzahl der isomorphen
(äquivalenten) Reconcilierungen - Ähnliches Prinzip wie bei h.
- d bekommt nur den Wert 1 zugewiesen, wenn die
Reconcilierungen am Anfang und Ende
übereinstimmen und sie dürfen nicht genau gleich
sein.
42Zusammenfassung
- Der eben vorgestellte Algorithmus erlaubt bei
gegebener Gensequenz - Eine Orthologische Analyse (Ist ein Genpaar
ortholog?) - Eine Genbaum-Rekonstruierung
- Eine Artenbaum-Rekonstruierung (analog zu
Genbaum) - Bei gegebenen Artenbaum ist es auch möglich die
Wahrscheinlichkeit eines Genbaums zu errechnen.
.