Title: Parcimonie
1Parcimonie
- Généralités
- Principe
- Orientation de larbre
- Caractères
- Procédure
- Algorithme exact
- Algorithme branch and bound
- Algorithme heuristique
- Analyse des résultats
- Retour aux caractères
- Arbre consensus
- Saturation robustesse
- Congruence
2Phénétique, évolutionnisme, cladisme
Convergences
Homoplasies
Réversions
Similitudes
Symplésiomorphies
Homologies partagées
Synapomorphies
Phénétique
Évolutionnisme
Cladisme
3Homologie
A B C
u 0 1 0
v 0 0 1
w 1 0 0
x 1 0 0
y 1 1 0
z 1 0 0
Apomorphies partagées
Homologies partagées
1
2
0
3
0
1
Phylogénie cladiste
Phylogénie évolutive
4Parcimonie 1
A B C
X 0 1 1
y 0 0 1
2 pas
3 pas
5Parcimonie 2
A B C D
U 0 0 1 1
V 0 0 1 1
W 0 0 1 1
X 1 1 0 0
Y 1 0 0 1
Z 0 0 1 0
10 pas
7 pas
6Arbre raciné ou non
E
ou
Arbre non raciné
7 arbres racinés
7Raciner un arbre
- Critères ontogéniques problème posé par la
néoténie
- Critères paléontologiques - absence de
certains groupes - la parenté ne doit pas être
trop éloignée
- Critères chorologiques critère secondaire
insuffisant seul
8Extra-groupe 1
X ext-g A B C
P P P P P
Q Q Q Q Q
2 pas il y a ambiguïté
9Extra-groupe 2
X Y A B C
Q Q Q Q Q Q
1 pas
2 pas
10Extra-groupe 3
X Y A B C
R R R R R R
2 pas dans chaque cas, on ne peut trancher
11Extra-groupe 4
X Y Z A B C
R R R R R R R
3 pas
2 pas
12Extra-groupe 5
X Y Z A B C
R R R R R R R
Le choix des groupes externes est un à-priori. Si
lon conteste cette qualité on peut trouver un
arbre plus court
1 pas
1 pas
13Caractère (1)
c t 1 2 3
A 0 1 1
B 0 0 1
C 0 0 0
D 0 0 0
constant
0 pas
0 pas
0 pas
C1
non info
1 pas
1 pas
1 pas
C2
info
2 pas
2 pas
1 pas
C3
14Caractère (2)
À états multiples 0 , 1 , 2 , 3
Binaire 0 , 1
Irréversible 0?1?2?3
Réversible 0?1
Irréversible 0?1
Additifs 0 ?3 coûte 3pas 0?1 coûte 1pas 0?2 coûte
2 pas
Non additifs 0 ?3 coûte 1pas 0?1et 0?2 aussi
15Caractère (3)
vers de A C G T
A 0 5 1 5
C 5 0 5 1
G 1 5 0 5
T 5 1 5 0
Graphe des états dun caractère et matrice
correspondante. Les transversions sont comptées 5
fois plus que les transitions.
16Modèles de Wagner, Camin-Sokal, Dollo
c t 1 2 3 4 5 6 7 8 9
A 0 1 0 0 0 0 0 0 1
B 1 0 1 1 1 0 0 0 0
C 1 0 0 1 1 1 1 1 0
D 1 1 1 1 1 1 1 1 1
E 0 0 0 1 1 1 1 1 1
X 0 0 0 0 0 0 0 0 0
14 pas (Camin-Sokal)
13 pas (Wagner)
15 pas (Dollo)
17Une espèce éteinte le quagga
18Positions informatives
Gène Cytochrome Oxydase Cytochrome Oxydase Cytochrome Oxydase Cytochrome Oxydase NADH Déshydrogénase NADH Déshydrogénase NADH Déshydrogénase
position 4 10 67 103 28 58 71
Quagga A C T T C C T
Z.pl. A C T T C C T
Z.mt. A T C T T C C
Cheval G T C C C T C
Vache G T C C T T A
19Méthode exhaustive (1)
Avec 3 espèces un seul arbre est possible.
Le branchement pour la troisième espèce peut se
faire sur n'importe laquelle des branches 1, 2 ou
3.
6 pas
3 pas
6 pas
C'est l'arbre le plus court. On continue
cependant sur les 3 arbres.
20Méthode exhaustive (2)
14 pas
TCCATTT
TCCATCC
On peut ajouter une nouvelle espèce de 5 façons
différentes.
11 pas
14 pas
CTTATCC
TCCATTC
9 pas
TCCGCTT
TCCATCT
11 pas
TCCATCT
21Méthode exhaustive(3)
Après avoir évalué tous les arbres on choisit le
ou les plus courts
22Branch and Bound
1 Évaluation de la longueur dun arbre au hasard.
2 Lexploration dun chemin sarrête dès que
cette longueur est dépassée
23Nombre dArbres Possibles
24Algorithme de Wagner1
(Farris 1970 methods for computing Wagner
trees.Syst. Zool., 18374-85)
Règle dagglomération les taxons les plus
éloignés sont connectés
C T 1 2 3 4 5
A 1 0 0 0 0
B 0 1 0 1 0
C 0 0 0 1 1
D 0 1 1 0 0
Distances 2 à 2
AB3
BC2
CD4
AC3
BD2
AD3
Y 00000
1 On connecte C et D (distance la pus grande)
2 Puis on ajoute A (ou B) au nœud
Y AY1/2(ACAD-CD)1/2(33-4)1
BY1/2(BCBD-CD)1/2(22-4)0
3 Cest donc A que lon ajoute en premier.
25Algorithme de Wagner2
Il reste à placer B sur un des 3 segments YA, YC
ou YD.
Sil est sur DY YB1/2(BDYB-YD) or
YB1/2(ABCB-AC) et YD1/2(CDAD-AC)
Donc YB1/2(BD1/2(BABC)-1/2(CDAD))
1/2(21/2(32)-1/2(43)0,5
Sil est sur AY YB1/2(BA1/2(BCBD)-1/2(CADA)
)1
Sil est sur CY YB1/2(BC1/2(BABD)-1/2(ACDC
))0,5
Donc B est mis en Y
Y 00000
26Algorithme de Wagner 3
Le résultat donne un des arbres qui nest pas le
plus court parmi les 3 arbres possibles. On peut
à partir de là par branch swapping (ici NNI
suffit) obtenir lun des plus courts.
6 pas
6 pas
7 pas
27Branch swappingréarrangement local(NNI)
Exemple 2
Exemple 1
Nearest-Neighbor Interchange
28Branch swappingréarrangement global(SPR)
d
Subtree Pruning Regrafting
29Branch swappingréarrangement global(TBR)
2 sous arbres à reconnecter de toutes les façons
possibles
Tree Bisection-Reconnection
30Exploration du paysage des arbres avec une
heuristique
31Matrice
C T 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0
B 1 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 0
C 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 1
D 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
E 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0
ancêtre 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Homoplasiques
Informatifs
Non informatifs
32DELayed TRANsformations
14 15 16
14 15 16
14 15 16
14 15 16
Il y a convergence sur les branches de A et C
pour les caractères 14 15 et 16
Dans cet exemple, loption MINF donnerait le
même résultat.
33ACCelerated TRANsformation
14 15 16
réversion
34Exclusion et pondération 1
1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1
2 3 4 A G G C T G C A A T C G T G A G A C T T C C
A T C G T G A C A C T G C C A T C G A C G C
T G C G A T C G T G A C G C T T C G A T C G T
G A G G C T G C A A T C G T G
La pondération différente entre transitions et
transversions entraîne des valeurs différentes
affectées aux différents changements détats du
caractère 8. Il nexiste plus une valeur unique
affectée à ce caractère.
35Exclusion et pondération 2
1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1
2 3 4 A G G C T G C A A G C C A G A G A C T T C C
A G T C T G A C C C T G C C A G G G T G A C G C
T G C G A G C G A G A C T C T T C G A G A G T
G A G A C T G C A A G T C T G
Régions inversées répétées
36Matrice de coût
BEGIN ASSUMPTIONS USERTYPE tv STEPMATRIX4
A C G U A . 1 0 1 C 1 . 1
0 G 0 1 . 1 U 1 0 1 .
37Variabilité des nucléotides en fonction de leur
position dans le codon dans le gène rbcL
position 1 position 2 position 3 toutes les positions
nombre total de sites 416 413 409 1238
sites variables 81 44 347 472
sites informationnels 52 20 293 365
38Saturation principe
16
8
4
28
20
6
32
41
16
42
40
27
39Comparaison de la vitesse dévolution en
transitions et en transversions pour la position
3 des codons du gène rbcL
transitions
transversions
40Comparaison de la vitesse dévolution en
transitions et en transversions pour les
positions 1 et 2 des codons du gène rbcL
transitions
transversions
41Saturation
C?T
G?A
C?G
G?C
A?C
T?G
Pas de saturation le nombre de changements
observés est égal au nombre réel.
Saturation le nombre de changements observés
est inférieur au nombre réel.
42CI, RI et RC
mLg minimum de larbre sLg réelle de
larbre gLg maximum de larbre
43Variation de lindice de consistance en fonction
du nombre de taxa
Formule empirique NT nb de taxa CI
0,90-0,022NT0,000213(NT)2 Sanderson, Donoghue
(1989)Patterns of variation in levels in levels
of homoplasy. Evolution 43 pp1781-95
Nb. Tax. CI
15 0,6179
16 0,6025
17 0,5876
18 0,5730
19 0,5589
20 0,5452
21 0,5319
22 0,5191
23 0,5067
24 0,4947
25 0,4831
26 0,4720
27 0,4613
Nb. Tax. CI
28 0,4510
29 0,4411
30 0,4317
31 0,4227
32 0,4140
33 ,0,4060
34 0,3980
35 0,3910
36 0,3840
37 0,3776
38 0,3716
39 0,3660
40 0,3608
44Consensus strict et semi strict
Arbre 1
Arbre 2
Consensus strict
Consensus semi strict
45Consensus majoritaire
46Consensus dAdams
47Indice de Bremer
D1
48Congruence principe
Le premier jeu de données donne des arbres
parcimonieux de Lgx
Le second jeu de données donne des arbres
parcimonieux de Lgy
La concaténation des 2 jeux de données donne des
arbres parcimonieux de Lgz
Un test statistique permet de dire si la
différence entre xy et z est significative ou non
49Congruence test ILD
D(lgxlgy)-lgz
D est-il significatif?
Jeu 1 gt1 AAAA gt2 AGGA gt3 AGAG gt4 AAGG
Jeu 2 gt1 ggag gt2 agga gt3 gagg gt4 aaaa
Jeux 12 gt1 AAAAggag gt2 AGGAagga gt3 AGAGgagg gt4
AAGGaaaa
100 tirages au hasard
Simulation n gt1 AggAAggg gt2 GagGGaaa gt3
GgaGAggg gt4 AaaAGaaa
100 jeux simulés
Simulation n du jeu 1 gt1 AggA gt2 GagG gt3 GgaG gt4
AaaA
Simulation n du jeu 2 gt1 Aggg gt2 Gaaa gt3 Aggg gt4
Gaaa
Estimations de z
On détermine la distribution des valeurs de D.
si pb Dobs?5 ? Incongruence
Estimations de x
Estimations de y
50Comparaison des deux méthodes de calcul darbre
Examen des caractères les uns après les autres
Calcul dune distance globale
La méthode peut retourner plusieurs arbres
également parcimonieux
Un seul arbre retourné par le programme
Il y a un test de robustesse des noeuds (mesure
de lhomoplasie dans larbre par le calcul du
rapport de la longueur minimale de larbre à sa
longueur réelle.
Pas de test de robustesse de larbre unique
(excepté le bootstrap)
Retour aux caractères pour éventuellement
réévaluer ceux qui donnent des aberrations
Pas de retour aux caractères pour pouvoir les
reconsidérer
Vitesse moyenne. Sur de grosses machines on peut
en plusieurs jours traiter des données jusqu'à
500 taxa
Rapide, même avec un grand nombre de taxa