Rekonstruktion eines Genbaums - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Rekonstruktion eines Genbaums

Description:

... (Blattnamen) ist eine Baumstruktur wahrscheinlicher als die Andere. W hrend die History ... Alpha H moglobin bei Maus und Mensch Speziation = Gabelung ... – PowerPoint PPT presentation

Number of Views:120
Avg rating:3.0/5.0
Slides: 43
Provided by: Bia74
Category:

less

Transcript and Presenter's Notes

Title: Rekonstruktion eines Genbaums


1
Rekonstruktion eines Genbaums über
Gen-/Artenbaum-Reconcilierung
Seminar Aktuelle Themen in der Bioinformatik
  • Bayesian gene/species tree reconciliation and
    orthology analysis using MCMC (2003)
  • Gene tree reconstruction and orthology analysis
    based on an integrated model for duplications and
    sequence evolution (2004)

Bianca Büttner SS 2005
2
Übersicht
  1. Einführung in die Thematik
  2. Der Algorithmus von Arvestad et al.
  3. Definitionen und Notationen der Parameter
  4. Gen-Evolutions- Gen-Sequenz-Evolutions-Modell
  5. Der MCMC-Algorithmus
  6. Berechnung der Likelihood einer Reconcilierung
  7. Zusammenfassung

3
Einführung in die Thematik
  • Was ist ein Genbaum?
  • - Während der Evolution können ganze Genloci
    (oder auch nur einzelne Basen) dupliziert werden
    oder verloren gehen.
  • - Duplikationen lassen Rückschlüsse auf
    Genfamilien zu.
  • - 1962 wurden das erste Mal Unterschiede
    zwischen
    Globinen entdeckt (Zuckerkandl Pauling).
  • - Für Vergleiche zwischen Mitgliedern dieser
    Genfamilie innerhalb einer Spezies wurde ein
    Genbaum erstellt.

4
Einführung in die Thematik
  • Was ist eine Reconcilierung?
  • - Zusammen mit einem Genbaum und in Abhängigkeit
    eines Artenbaums, erklärt die Reconcilierung die
    Evolution einer Genfamilie.
  • - 1979 suchte Goodman als einer der Ersten nach
    einem Algorithmus, der Gen- und Artenbäume in
    Übereinstimmung bringen konnte.
  • - Ziel war es, eine Reconcilierung zu finden, in
    der der Genbaum die geringste Anzahl an
    Substitutionen, Genduplikationen und Genverluste
    aufwies.

5
Einführung in die Thematik
  • Was ist eine Reconcilierung?

Genduplikation
Genverlust
6
Einführung in die Thematik
  • Walter Fitchs (Zoologe,1970) original Definition
    von paralog und ortholog
  • - Wenn die Homologie zweier Gene das Resultat
    einer Genduplikation ist und sie die
    Entwicklung einer Art beschreiben, nennt
    man die Gene paralog.
  • - Ist die Homologie zweier Gene das Resultat
    einer Speziation (Artenbildung) und
    reflektiert die Entwicklung eines Gens die
    Entwicklung mehrerer Arten, nennt man die
    Gene ortholog.

7
Einführung in die Thematik
  • Oder in kurz
  • Zwei Gene sind paralog, wenn sie nach einer
    Duplikation divergieren.
  • Zwei Gene sind ortholog, wenn sie nach einer
    Speziation divergieren.

8
Einführung in die Thematik
  • Beispiel

Rattengene 1 2 sind
paralog. Mausgene 1 2 sind paralog. Aber
Rattengen 1 bzw. 2 ist ortholog zu Mausgen 1 2
und umgekehrt.

( ) Speziation X Duplikation
9
Der Algorithmus von Arvestad et al.
  • Der Algorithmus versucht Fragen zu beantworten
    wie z.B. Wie viele Duplikationen und Verlust
    geschahen in einer Genfamilie? Oder welche Gene
    sind ortholog?
  • Die Autoren entwickelten als Grundlage für den
    Algorithmus ein Gen-Evolutionsmodell, dass im 2.
    Paper noch durch ein Gen-Sequenz-Evolutionsmodell
    erweitert wurde.
  • Die Verfahren und Modelle auf denen der
    Algorithmus basiert, gehören zu den statistischen
    Methoden und sind laut Autor den üblichen
    parsimonischen Methoden in Realitätsnähe und
    Mächtigkeit weit überlegen.

10
Definitionen und Notationen I
  • Ein Genbaum G bezeichnet seine Knoten und Blätter
    mit Kleinbuchstaben wie u, v und w.
  • Ein Artenbaum S verwendet meist die
    Großbuchstaben X, Y, Z.
  • Die Blätter eines Genbaums repräsentieren Gene,
    die Blätter eines Artenbaums repräsentieren
    Arten.

11
Definitionen und Notationen II
  • Ein Genbaum G besitzt eine Blatt-Benennungs-Funkti
    on
  • s L(G) L(S)
  • Das heißt, das Gen l e L(G) gehört zum Genom der
    Spezies s(l), da L(G) und L(S) miteinander
    assoziiert sind.

Bsp a1 und a2 sind Gene der Spezies A.
12
Definitionen und Notationen III
  • Ein Baum T hat folgende Merkmale
  • V(T) gt Eine Menge von Knoten von T.
  • A(T) gt Eine Menge von Kanten von T.
  • L(T) gt Eine Menge von Blättern von T.
  • r(T) gt Eine Wurzel von T.

13
Definitionen und Notationen V
  • Ist binär, d.h. jeder innere Knoten hat zwei
    Kinder.
  • Tu gt Ist ein Teilbaum von T mit Wurzel u.
  • c1(u) ist das linke und c2(u) das rechte Kind von
    u.
  • Tu,v gt Ist ein Kanten-Teilbaum von T.
  • bedeutet v ist ein Nachkomme von u
    in T.

u
v
14
Das Gen-Evolutions-Modell I
  • In diesem Modell lassen wir den Genbaum innerhalb
    eines Artenbaums wachsen, entsprechend eines
    sogenannten Birth-Death-Prozesses.
  • Dieser Standard-Prozess wurde bereits von Kendall
    1948 entwickelt und induziert die Reconcilierung
  • Birth rate l gt Anzahl der Duplikationen
  • Death rate m gt Anzahl der Genverluste
  • Der Birth-Death-Prozess wird auf die Kanten des
    Artenbaums angewendet.

15
Das Gen-Evolutions-Modell II
  • Wie funktioniert der Birth-Death-Prozess?
  • Der Prozess beginnt an der Wurzel und arbeitet
    sich abwärts bis zu den Blättern des Artenbaums
    vor.
  • 2. Sobald der Prozess das Ende einer Kante
    erreicht, splittet er Knoten x in zwei identische
    Kopien.
  • 3. Der Prozess geht rekursiv links und rechts an
    den ausgehenden Kanten von x weiter, bis er in
    den Blättern von S stoppt.

16
Das Gen-Evolutions-Modell III
  • Dann wird der Baum zurechtgestutzt, d.h. Knoten
    ohne Blätter (Genverluste) werden gelöscht,
    eingehende und ausgehende Kanten von Knoten mit
    nur einem Kind zu einer Kante (ohne den Knoten)
    zusammengeführt.
  • 5. Dann werden die Blätter des entstandenen
    Genbaums entsprechend der Blätter des Artenbaums
    benannt.

Beispiel
17
Beispiel Genbaum entwickelt sich innerhalb eines
Artenbaums
Speziation
Artenbaum
Duplikation
Genverlust
18
Entwicklung eines Genbaums II
II
I
Genbaum nach dem Zurechtschneiden des
Birth-Death-Prozesses.
Reconcilierung aus dem Birth-Death-Prozess.
19
Entwicklung eines Genbaums III
III
IV
Reconcilierung durch parsimonische Methoden. Gen
d wird fälschlicherweise als Speziation
interpretiert.
Eine mögliche Reconcilierung Bei gegebenem Arten-
und Genbaum aus I.
20
Das Gen-Sequenz- Evolutions-Modell
  • Erweiterung des Gen-Evolutions-Modells.
  • Bei jeder Entstehung einer neuen Genlinie
    entweder durch Duplikation oder Speziation wird
    ein Modell zur Evolution der Sequenz angewendet
    (hier Jukes-Cantor und Molecular-Clock-Model für
    die Kanten).
  • Das Modell ist hierarchisch, d.h. es ist egal ob
    zuerst der Gen-Baum nach dem Gen-Evolutions-Modell
    entwickelt wird und danach das
    Sequenz-Evolutions-Modell darauf angewendet wird
    oder umgekehrt.

21
Definitionen einer Reconcilierung I
Formal Eine Reconcilierung eines Artenbaums S
und eines Genbaums G ist ein Paar
(g,G) wobei g eine Funktion ist
Das bedeutet Jeder Art ist eine Menge von Genen
zugeordnet. Beispiel u e g(x) - also u gehört
zu den Genen von X.
22
Definitionen einer Reconcilierung II
Gwird zu G, sobald alle Knoten, mit nur
insgesamt zwei eingehenden und ausgehenden
Kanten, gelöscht wurden.
Beispiel G und G
Eine Reconcilierung g von G S
23
Definitionen einer Reconcilierung III
1. Die Wurzel des Artenbaums, ist einem Gen im
Genbaum zugeordnet. 2. Für jedes Blatt im Genbaum
gibt es eine zugehörige Spezies im Artenbaum. 3.
Ein Gen kann nicht zu zwei Arten gleichzeitig
gehören. 4. Kein Gen einer Spezies kann in der
Reconcilierung Vor- oder Nachfahre von einem
anderen Gen der gleichen Spezies sein.
24
Definitionen einer Reconcilierung IV
5. Wenn y und z ebensowenig voneinander
abstammen, wie ihre zugehörigen Gene v und w,
dann ist der letzte gemeinsame Vorfahre von y und
z an einer Gabelung und trennt v und w
voneinander. 6. Wenn x,y,z von einander
abstammen, stammen ihre zugehörigen Gene u,v,w in
gleicher Reihenfolge von einander ab.
25
Markov-Ketten-Monte-Carlo-Verfahren (MCMC)
  • Der hier verwendete Algorithmus basiert auf dem
    Metropolis-Hastings-Algorithmus, der zu den
    MCMC-Methoden gehört.
  • In einem Zustandsraum wird durch eine zufällige
    Übergangswahrscheinlichkeit (proposal
    distribution) eine Markov-Kette aus Zuständen
    gebildet.
  • Eine Akzeptanz-Wahrscheinlichkeit (der
    Metropolis-Hastings-Quotient) entscheidet, ob der
    Übergang von einem Zustand in den Anderen
    akzeptiert wird.

26
Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II
  • Dieser Quotient sorgt dafür, dass die
    Markov-Kette sich nach einer gewissen Zeit
    (Burn-In) gerichtet einer stationären
    Zielverteilung nähert. Aus ihr werden später die
    Werte gesampelt.
  • In dieser Zielverteilung sind die Zustände nach
    ihrer Wahrscheinlichkeit gewichtet. D.h. die
    wahrscheinlicheren Zustände werden öfter besucht,
    als die weniger Wahrscheinlichen.

27
Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II

Der Metropolis-Hastings-Quotient
vorgeschlagener neuer Zustand
alter Zustand
WS, dass aktueller Zustand X ist.
Übergangs-WS, von Zustand X nach Zustand Y.
gt Quotient gibt WS an, mit der neuer Zustand
akzeptiert wird.
28
MCMC-Abschätzung der a posteriori WS-Verteilung
von Genbäumen
  • Hier besteht der Zustand einer Markov-Kette aus
    einem Tripel
  • (G, l, m) entsprechend Genbaum, Birth rate,
    Death rate.
  • Die stationäre Ziel-Wahrscheinlichkeitsverteilung
    ist eine a posteriori-Verteilung von Genbäumen
    (posterior in Bezug auf F).
  • Bei gegebenem F bekommen wir durch Sampeln aus
    dieser Verteilung folgende Wahrscheinlichkeit

Prinzip der bedingten WS nach dem Satz
von Bayes
  • F ist die Menge aller zu betrachtenden
    Gensequenzen einer Genfamilie.
  • gt F q1, ... , qn, wobei n die Anzahl aller
    Speziesarten ist.

29
MCMC-Abschätzung der a posteriori WS-Verteilung
von Genbäumen
  • l und m (Birth-Death-Prozess) werden zur
    Berechnung a priori angenommen und später durch
    die richtigen Werte aus den gesampelten
    Ergebnissen ersetzt.
  • Die Berechnung der Akzeptanz-Wahrscheinlichkeit
    des neuen Zustands (G,l,m) durch den
    Metropolis-Hastings-Quotienten wurde etwas
    abgewandelt

Aktueller Zustand
Neuer Zustand
  • ist die
    Likelihood.

30
Berechnung der Likelihood
  • Die Likelihood soll die Wahrscheinlichkeit
    abschätzen, dass im Gen-Evolutions-Prozess G der
    Genbaum, l die Geburtsrate und m die Todesrate -
    bei gegebenen Gensequenzen F - war.
  • Da es für jeden Genbaum eine entsprechende
    Reconcilierung gibt, gilt diese
    Likelihood-Berechnung auch gleichzeitig als
    Wahrscheinlichkeit für die jeweilige
    Reconcilierung.

31
Berechnung der Likelihood II
  • Nach dem Prinzip der dynamischen Programmierung
    wird zur Berechnung der Likelihood einer
    Reconcilierung der Genbaum in sogenannte Sliced
    Subtrees zerlegt.
  • Die Größe der Sliced Subtrees wird durch eine
    obere und eine untere Schranke begrenzt. Es sind
    komplizierte rekursive Gleichungen notwendig, um
    einen Genbaum in diese Teilbäume zu zerlegen, die
    hier aber nicht gezeigt werden.

32
Definitionen eines Sliced Subtrees
  • ist ein Sliced Subtree,
    für ltx,ygt e A(S) und u e g(x).
  • Beispiel

33
Definitionen eines Sliced Subtrees II
  • ist noch mal ein spezieller
    Sliced Subtree, bei dem von vorneherein
    festgelegt ist, dass er nur eine Kante ltx,ygt lang
    und bei u gewurzelt ist. U ist ein Gen von X.
  • Es gibt keine Spezies zwischen X und Y.
  • Für jeden Sliced Subtree werden nun rekursiv
    Likelihood-Berechnungen angestellt.
  • Die Ergebnisse dieser Rekursionsgleichungen
    ergeben zusammengesetzt dann die Likelihood einer
    speziellen Reconcilierung.

34
Berechnung der Likelihood für eine einzelne
Reconcilierung
  • ist definiert, als die
    WS, dass Gu und gu sich aus u in Sx entwickelt
    haben. D.h. X ist die Startspezies, u die Wurzel
    des Subtrees.
  • ist die WS, dass sich
    und von u aus in Sx,y entwickelt haben.
    Y ist hier das Ende der Kante (Zielspezies).

35
Berechnung der Likelihood für eine einzelne
Reconcilierung II
  • Die Likelihood-Berechnung basiert auf folgenden
    rekursiven Gleichungen

Berechnung beginnt im Blatt der Sliced Subtrees
und steigt rekursiv immer einen Knoten höher.
X hat die Kinder y und z in S.
Berechnet linke und rechte Kante von X.
36
Berechnung der Likelihood für eine einzelne
Reconcilierung III
eA betrachtet die Kante von X nach Y und setzt
sich aus mehreren Variablen zusammen, die
wiederum rekursiv berechnet werden müssen.
37
Berechnung der Likelihood für eine einzelne
Reconcilierung IV
py(l) gt Wahrscheinlichkeit, dass der
Birth-Death-Prozess auch tatsächlich l Blätter
generiert hat.
38
Berechnung der Likelihood für eine einzelne
Reconcilierung V
h(g,y,u) gt Wahrscheinlichkeit der Baumstruktur
(Topologie)
Der Birth-Death-Prozess generiert Labeled Trees
mit l Blättern und gleicher Wahrscheinlichkeit.
Aber nach Entfernen der Labels (Blattnamen) ist
eine Baumstruktur wahrscheinlicher als die
Andere. Während die History (zeitliche Abfolge
der Knoten) ohne Labels überhaupt keine Rolle
mehr spielt.
39
Berechnung der Likelihood für eine einzelne
Reconcilierung V
Bsp Wahrscheinlichkeit der Baumstruktur
(Topologie)
12 Permutationen der Labeled Trees gt WS 2/3
6 Permutationen der Labeled Trees gt WS 1/3
40
Berechnung der Likelihood für eine einzelne
Reconcilierung VI
Berechnung von h(g,y,u)
Rekursiv für linkes und rechtes Kind von u
Anzahl der Blätter des Sliced Subtrees - 1
  • Blätter bekommen den Wert 1 zugewiesen.
  • d kann den Wert 0 (bei gleicher Topologie) oder
    1 (verschieden) annehmen.
  • Die rekursiven Teilgleichungen werden
    miteinander multipliziert.

41
Berechnung der Likelihood für eine einzelne
Reconcilierung VII
Führt Kante zu weiteren Knoten wird ev noch mal
rekursiv gestartet.
  • f(g,y,u) gt Anzahl der isomorphen
    (äquivalenten) Reconcilierungen
  • Ähnliches Prinzip wie bei h.
  • d bekommt nur den Wert 1 zugewiesen, wenn die
    Reconcilierungen am Anfang und Ende
    übereinstimmen und sie dürfen nicht genau gleich
    sein.

42
Zusammenfassung
  • Der eben vorgestellte Algorithmus erlaubt bei
    gegebener Gensequenz
  • Eine Orthologische Analyse (Ist ein Genpaar
    ortholog?)
  • Eine Genbaum-Rekonstruierung
  • Eine Artenbaum-Rekonstruierung (analog zu
    Genbaum)
  • Bei gegebenen Artenbaum ist es auch möglich die
    Wahrscheinlichkeit eines Genbaums zu errechnen.

.
Write a Comment
User Comments (0)
About PowerShow.com