Title: Alignement multiple de squences
1Alignement multiple de séquences
2Plan de la présentation
- Introduction Définition et signification
biologique - Modèles de comparaisons
- Alignements pour le score sum-of-pairs
- Méthode exacte
- Accélération de la méthode exacte
- Heuristique bornée
- Alignement phylogénétique
- Heuristiques usuelles
- Méthode progressive
- Méthode itérative
- Méthode par points dancrage
3I. Introduction à lalignement multiple
- Généralisation de lalignement de 2 séquences
- Données Un ensemble de séquence homologues
(nucléotides ou AA) S1, S2, , Sk - Alignement multiple Matrice A (aij ), 1ik
1 jl. - aij symboles de lalphabet ou -, tq
contaténation des caractères à la ligne i produit
Si
4(No Transcript)
5But de lalignement multiple
- Trouver des caractéristiques communes à une
famille de protéines - Relier la séquence à la structure et à la
fonction - Caractériser les régions conservées et le régions
variables - Déduire des contraintes de structures pour les
ARN - Différencier entre gènes orthologues et gènes
paralogues - Construire larbre phylogénétique des séquences
homologues considérées
6Différences entre orthologues et paralogues
- Séquences homologues Ont évoluées à partir dun
ancêtre commun - Orthologues Évolution par mutations ponctuelles,
et par spéciation - Paralogues Duplication mutations
- En général les gènes orthologues conservent la
même fonction. Pas le cas des gènes paralogues. - Les gènes orthologues ont des contraintes
évolutives similaires. Pas le cas des gènes
paralogues. Un alignement multiple devrait
pouvoir permettre de distinguer entre orthologues
et paralogues
7Représentations dune famille de séquences
- Séquence consensus
- Y D D G A V - E A L
- Y D G G - - - E A L
- F E G G I L V E A L
- F D - G I L V Q A V
- Y E G G A V V Q A L
- Y D G G A/I V/L V E A L
- Signature ou motif conservé Expression
régulière - G-EDRKHPFYW-x (2)-STAGCN- P
8- Matrice consensus (ou profile) Taux dapparition
de chaque nuc. à chaque colonne de lalignement
multiple
9II. Modèles de comparaison
- Un bon alignement reflète le modèle dévolution
qui a donné lieu aux séquences - Hypothèses
- les séquences à aligner descendent dun ancêtre
commun - Les séquences ont évolué par mutations
ponctuelles
G C G A C G
ACG
A G
GCG ACG
10Pondération dun alignement
- Par rapport à larbre phylogénétique produit.
Garder lalignement qui produit larbre de poids
minimal. Complexité de calcul considérable
A
C
A
C
A
C
C
A
C
C
A
A
C
Score 1
Score2
11Score sum of pairs (SP)
- Généralisation du score utilisé pour lalignement
de deux séquences - Le plus utilisé, bonnes propriétes théoriques et
pratiques - Score SP dun alignement A somme des scores des
alignements induits pour chaque paire de
séquences dans A
Modèle
4
5
C
A
5
C
A
Score SP 14
Score 4
12III- Alignement pour le score SPMéthode exacte
- Trouver un alignement multiple ayant un score SP
minimum - Problème NP-complet
- Généralisation de lalignement de deux séquences
si m séquences de taille n, algorithme en O(nm).
Très inefficace dès que mgt5 et n100
13Solution exacte pour n3
- On considère la distance dédition avec
pondération de lalphabet. - S,T,U trois seq. de tailles n1, n2, n3
- D(i,j,k) Score SP de lal. op. de S1..i,
T1..j, et U1..k - b score dun blanc c(i,j) sore de
lappariement (S i,T j). - Pour chaque case (i,j,k), examiner 7 cases
voisines - d1 D(i-1,j-1,k-1)c(i,j)c(i,k)c(j,k)
- d2 D(i-1,j-1,k)c(i,j)2b d3
D(i-1,j,k-1)c(i,k) 2b - d4 D(i,j-1,k-1)c(j,k)2b
- d5 D(i-1,j,k)2b d6D(i,j-1,k)2b
d7D(i,j,k-1)2b. - D(i,j,k) min(d1,d2,d3,d4,d5,d6,d7)
- DST(i,j) Score de lal. Op. de S1..i et
T1..j - D(i,j,0) DST(i,j) (ij)b D(i,0,k)
DSU(i,k)(ik)b - D(0,j,k) DTU(i,k)(ik)b
14Algorithme MSA (Lipman et al. 1989)
- Calculer les alignements optimaux pour chaque
paire de séquences - Trouver un alignement multiple provisoire par une
heuristique rapide z - Effectuer la programmation dynamique en scrutage
avant dans un espace dalignement restreint
15Programmation dynamique avec scrutage avant
Les flèches vont de (i,j) à (i,j1), (i1,j) et
(i1,j1) p(v,w) Poids de la flèche de v à
w p(w) Valeur provisoire de D(w). Après calcul
de D(v) p(w) min(p(w), D(v)p(v,w)) Valeur de
D(w) valeur de p(w) après considération de tous
les voisins de w
1
2
3
5
4
1
1
1
2
4
5
v
w
16Algorithm
- q(0,0) (liste contenant les cases à considérer)
- Tant que q nest pas vide faire
- v première case de q
- Supprimer v de q D(v)p(v)
- Si w(i,j1) pas dans q, le rajouter a la fin de
q - p(w)min(p(w),D(v)p(v,w))
- Même chose pour w(i1,j) et w(i1,j1)
170
1
2
3
4
5
6
7
1
2
0
1
1
2
2
2
1
2
2
2
3
4
5
6
7
q (0,0)
(0,1) (1,0) (1,1)
(0,2) (1,2)
(2,0) (2,1)
18Accélération de lalignement SP exact
- IDST (i,j) Score de lal. Op. de Si..n et
Tj..n. - Définition similaire pour IDSU (i,k) et
IDTU (j,k). - z score dUN alignement multiple de S, T, U
- Observation
- Score SP pour Si..n, Tj..n, Uk..n supérieur
à IDST(i,j) IDSU(i,k) IDTU(j,k) - Si D(i,j,k) IDST(i,j) IDSU(i,k) IDTU(j,k) gt
z, alors (i,j,k) ne peut pas faire partie dun
chemin optimal - Aucun scrutage avant nest nécessaire pour
(i,j,k). Plus important, certaines cases ne sont
jamais introduites dans la liste q. - Observation ampirique Cette méthode peut aligner
efficacement jusquà 6 séquences de longueur 200.
Efficacité dépend beaucoup de la val. z initiale
19Heuristique bornée pour le score SP
- Heuristique Algorithme qui nest pas garanti
dobtenir la solution optimale. Utilisé pour des
problèmes difficiles (NP-difficile) - Heuristique bornée On sait dans quel intervalle
se situe la solution - Heuristique pour le score SP Algorithme garanti
dobtenir un alignement dont le score est au plus
deux fois plus élevé que le score dun alignement
optimal.
20Alignement consistant avec un arbre
- S Ensemble de séquences
- T Arbre reliant les séq. de S
- A Alignement multiple de S
- A consistant avec S ssi pour tout couple de
séquences Si, Sj reliées par un arc, Si et Sj
sont alignées de façon optimale dans A
AXZ
AXZ
1
2
AXXZ
3
AYZ
4
AYXYZ
5
3 A X X - Z 1 A X - - Z 2 A - X -
Z 4 A Y - - Z 5 A Y X X Z
21Méthode
- Choisir deux séquences qques adjacentes dans
larbre et former un alignement optimal A - Choisir une séquence non encore alignée Si,
adjacente à une séquence alignée Sj - Aligner Si et Sj.
- Incorporer lalignement à A.
- Si un nouvel espace a été rajouté dans Sj ,
rajouter un espace à chaque ligne à la colonne
correspondante dans A - Complexité k séquences de taille n ,
- O(kn2)
22Alignement SP par la méthode de létoile centrale
- S ensemble de séquences
- Séquence centrale Sc Séquence de S tq la somme
des distances à toutes les autres séquences de S
est minimale. - Arbre étoile Tc Arbre en étoile, connectant
toutes les séquences de S, et de racine Sc
S4
S1
SS1,S2,S3,S4,S5,S6
S3
S2
S5
S6
23- k nb de séquences de S
- Complexité
- Trouver la séquence centrale Sc O(k2n2)
- Alignement Ac consistant avec Tc O(kn2)
- Bornes
- d(A) Score SP de lalignement multiple A
- dc(Si,Sj) Score induit par Ac
- D(Si,Sj) Score dun align. optimal de Si et Sj
- A Alignement multiple optimal de S
- d(Si,Sj) Score induit par A
24- Si le score considéré vérifie linégalité
triangulaire - e(x,z) e(x,y)e(y,z)
- alors
- dc(Si,Sj) dc(Si,Sc) dc(Sc,Sj)
D(Si,Sc)D(Sc,Sj) - Et donc
- d(Ac)/d(A) 2(k-1)/k lt 2
25IV. Alignement phylogénétique
- Données Arbre phylogénétique T pour un ensemble
de séquences S - D Distance dédition entre deux séquences
- Alignement phylogénétique étiquettage des nuds
internes de T - Problème Trouver un étiquettage des nuds
internes qui minimise la score de larbre (score
de lalignement phylogénétique) - Alignement résultant Alignement consistant avec
T - Problème de létiquettage NP-complet
- Alignement soulevé Les étiquettes
- Sont des séquences de S
26Alignement soulevé optimal(Wang, Jiang, Lawler
1996)
- T alignement phylogénétique optimal
- On veut construire un alignement soulevé TS à
partir de T - Dans TS , v est étiquetté par la séquence de S la
plus proche de Sv
Score de TS 2 fois score de T
27Alignement soulevé optimal
- Tv sous-arbre de racine v
- d(v,S) Score de lal. phyl. Optimal de Tv
sachant que v étiquetté par S
v
S
v
S
v
S
S2
S1
d(v,S) D(S,S1)D(S,S2)
d(v,S) Sv minS D(S,S) d(v,S)
Valeur de lal. Soulevé op. minimum de d(r,S)
où r racine de larbre Complexité k seq. de
taille n. Au cours dun prétraitement, calculer
tous les D(Si,Sj) O(k2n2) Pour chaque nud v,
calculer chaque d(v,S) en O(k2) O(k2n2k3)
28V. Heuristiques usuellesMéthodes progressives
- Créer un alignement multiple de S en fusionnant
deux alignements de deux sous-ensembles S1 et S2
de S - Méthode générale
- Calculer les alignements deux à deux
- Construire un arbre guide des séquences (UPGMA,
neighbor-joining) - Incorporer les séquences une à une dans
lalignement multiple, en suivant lordre
déterminé par larbre guide
29Exemple dalignement progressif
- Pour commencer, aligner les deux séquences de
distance minimale - À chaque étape, choisir la séquence dont la
distance avec une des séquences déjà alignée est
minimale
30Plusieurs implémentations de la méthode
progressive
- MultAlign, ClustalW, Pileup, T-Coffee
- Diffèrent surtout par la méthode de construction
de larbre guide - Avantages Rapide, simple à programmer, nécessite
peu de mémoire - Inconvénients
- Alignement obtenu très dépendant de larbre
considéré - Lalignement ne peut pas être modifié au cours du
processus - Produit un seul alignement
31ClustalW (Thompson, Higgins, Gibson 1994)
- Algorithme progressif le plus utilisé
- Calculer les scores dalignement de chaque paire
de séquences. - Construire un arbre guide par Neighbour-Joining
- Utiliser cet arbre pour choisir les séquences à
incorporer à lalignement. Choisir les plus
petites distances à chaque fois
D
A
2
4
3
1
2
C
B
Effectue trois sortes dalignements Entre deux
séquences, une séquence et une matrice consensus,
ou deux matrices consensus
32Scores de ClustalW
- Matrice de similarité choisie en fonction de la
similarité des séquences comparées - 80 à 100 identité --gt Blosum80
- 60 à 80 identité --gt Blosum60
- 30 à 60 identité --gt Blosum45
- 0 à 30 identité --gt Blosum30
- Scores des gaps
- -Score dinitialisation dun gap (SIG) score
dextension (SEG) - G T E A K L I V L M A N E
- G A - - - - - - - - - K L -----gt
SIG 8 GEP - - Score des gaps dépendant des positions et des
résidus supprimés (si hydrophiles, SIG plus
faible)
33Alignement dune séquence avec une matrice
consensus
a a c - c g C1
- C2 C3 C4 C5
34Valeur dun tel alignement?
p(a,C1) 2 0.75 1 0.25 1.25
p(a,-) -11 -1 S(c,C2) 20.75
-30.25 0.75 p(-,C3) -1 0.25 -1
0.50 0 0.25 -0.75 gt Score alignement
Si,j p(Cj,ti) 1.25 10.75 -1
- Alignement
- S a a c c g
- C1 - C2 C3 C4 C5
35Calcul dun alignement optimal
- D(i,j) Score alignement optimal entre S1..i
et C1..j - D(i,0) Ski p(tk,-) D(0,j) Skj p(-,Ck)
- D(i,j) max D(i-1,j-1)p(ti,Cj),
D(i-1,j)p(tj,-), - D(i,j-1)p(-,Cj)
- Complexité O(S mn)
- (n nbre de colonnes de C m taille de S)
36Optimisation itérative des méthodes
progressives
- Un problème des méthodes progressives
alignements intermédiaires figés - X GAAGTT
- Y GAC - TT 1er alignement
intermédiaire - Z GAACTG
- W GTACTG Y aurait dû être G -
ACTT
37Méthode itérative
- Obtenir un premier alignement multiple de basse
qualité - Améliorer lalignement par une suite ditérations
bien définies, jusquà ce que lalignement ne
puisse plus être amélioré. - Méthodes déterministes ou stochastiques
(alignement modifié au hasard) - MultAlign, IterAlign, Praline, SAGA, HMMER
38Algorithme de Barton-Stenberg (MultAlign)
- Calculer tous les alignements deux à deux
- Choisir lalignement de score max, une première
matrice consensus - À chaque étape,
- choisir une paire de séquences de score max, tq
exactement une des séquences est dans
lalignement partiel obtenu. - Aligner la nouvelle séquence avec la matrice
consensus courante. - Mettre à jour la matrice consensus
- Recommencer jusquà épuisement des séquences
- Retirer S1 et la réaligner avec la matrice
consensus de lal. Restant (S2. Sn). Recommencer
avec S2,,Sn - Répéter le processus un nbre fixé de fois, ou
jusquà ce que le score de lalignement converge.
39Méthode dalignement par points dancrage
- Basée sur la recherche de motifs (points
dancrage, séquences consensus). - Par exemple, MACAW
- Rechercher un motif suffisamment long commun à
une majorité de séquences - Problème subdivisé en deux partie gauche et
partie droite par rapport au motif - Recommencer récursivement avec chaque partie
- Les séquences ne contenant pas le motif sont
alignées séparément, par score SP. Les deux
sous-alignements sont ensuite fusionnés - Lorsque les sous-séquences ne contiennent plus de
bons motifs, elles sont alignées par score SP