Alignement multiple de squences - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Alignement multiple de squences

Description:

Alignement multiple: Matrice A = (aij ), 1ik; 1 jl. aij symboles de l'alphabet ou -', tq contat nation des caract res la ligne i produit Si ... – PowerPoint PPT presentation

Number of Views:253
Avg rating:3.0/5.0
Slides: 40
Provided by: mab66
Category:

less

Transcript and Presenter's Notes

Title: Alignement multiple de squences


1
Alignement multiple de séquences
2
Plan de la présentation
  • Introduction Définition et signification
    biologique
  • Modèles de comparaisons
  • Alignements pour le score sum-of-pairs
  • Méthode exacte
  • Accélération de la méthode exacte
  • Heuristique bornée
  • Alignement phylogénétique
  • Heuristiques usuelles
  • Méthode progressive
  • Méthode itérative
  • Méthode par points dancrage

3
I. Introduction à lalignement multiple
  • Généralisation de lalignement de 2 séquences
  • Données Un ensemble de séquence homologues
    (nucléotides ou AA) S1, S2, , Sk
  • Alignement multiple Matrice A (aij ), 1ik
    1 jl.
  • aij symboles de lalphabet ou -, tq
    contaténation des caractères à la ligne i produit
    Si

4
(No Transcript)
5
But de lalignement multiple
  • Trouver des caractéristiques communes à une
    famille de protéines
  • Relier la séquence à la structure et à la
    fonction
  • Caractériser les régions conservées et le régions
    variables
  • Déduire des contraintes de structures pour les
    ARN
  • Différencier entre gènes orthologues et gènes
    paralogues
  • Construire larbre phylogénétique des séquences
    homologues considérées

6
Différences entre orthologues et paralogues
  • Séquences homologues Ont évoluées à partir dun
    ancêtre commun
  • Orthologues Évolution par mutations ponctuelles,
    et par spéciation
  • Paralogues Duplication mutations
  • En général les gènes orthologues conservent la
    même fonction. Pas le cas des gènes paralogues.
  • Les gènes orthologues ont des contraintes
    évolutives similaires. Pas le cas des gènes
    paralogues. Un alignement multiple devrait
    pouvoir permettre de distinguer entre orthologues
    et paralogues

7
Représentations dune famille de séquences
  • Séquence consensus
  • Y D D G A V - E A L
  • Y D G G - - - E A L
  • F E G G I L V E A L
  • F D - G I L V Q A V
  • Y E G G A V V Q A L
  • Y D G G A/I V/L V E A L
  • Signature ou motif conservé Expression
    régulière
  • G-EDRKHPFYW-x (2)-STAGCN- P

8
  • Matrice consensus (ou profile) Taux dapparition
    de chaque nuc. à chaque colonne de lalignement
    multiple

9
II. Modèles de comparaison
  • Un bon alignement reflète le modèle dévolution
    qui a donné lieu aux séquences
  • Hypothèses
  • les séquences à aligner descendent dun ancêtre
    commun
  • Les séquences ont évolué par mutations
    ponctuelles

G C G A C G
ACG
A G
GCG ACG
10
Pondération dun alignement
  • Par rapport à larbre phylogénétique produit.
    Garder lalignement qui produit larbre de poids
    minimal. Complexité de calcul considérable

A
C
A
C
A
C
C
A
C
C
A
A
C
Score 1
Score2
11
Score sum of pairs (SP)
  • Généralisation du score utilisé pour lalignement
    de deux séquences
  • Le plus utilisé, bonnes propriétes théoriques et
    pratiques
  • Score SP dun alignement A somme des scores des
    alignements induits pour chaque paire de
    séquences dans A

Modèle
4
5
C
A
5
C
A
Score SP 14
Score 4
12
III- Alignement pour le score SPMéthode exacte
  • Trouver un alignement multiple ayant un score SP
    minimum
  • Problème NP-complet
  • Généralisation de lalignement de deux séquences
    si m séquences de taille n, algorithme en O(nm).
    Très inefficace dès que mgt5 et n100

13
Solution exacte pour n3
  • On considère la distance dédition avec
    pondération de lalphabet.
  • S,T,U trois seq. de tailles n1, n2, n3
  • D(i,j,k) Score SP de lal. op. de S1..i,
    T1..j, et U1..k
  • b score dun blanc c(i,j) sore de
    lappariement (S i,T j).
  • Pour chaque case (i,j,k), examiner 7 cases
    voisines
  • d1 D(i-1,j-1,k-1)c(i,j)c(i,k)c(j,k)
  • d2 D(i-1,j-1,k)c(i,j)2b d3
    D(i-1,j,k-1)c(i,k) 2b
  • d4 D(i,j-1,k-1)c(j,k)2b
  • d5 D(i-1,j,k)2b d6D(i,j-1,k)2b
    d7D(i,j,k-1)2b.
  • D(i,j,k) min(d1,d2,d3,d4,d5,d6,d7)
  • DST(i,j) Score de lal. Op. de S1..i et
    T1..j
  • D(i,j,0) DST(i,j) (ij)b D(i,0,k)
    DSU(i,k)(ik)b
  • D(0,j,k) DTU(i,k)(ik)b

14
Algorithme MSA (Lipman et al. 1989)
  • Calculer les alignements optimaux pour chaque
    paire de séquences
  • Trouver un alignement multiple provisoire par une
    heuristique rapide z
  • Effectuer la programmation dynamique en scrutage
    avant dans un espace dalignement restreint

15
Programmation dynamique avec scrutage avant
Les flèches vont de (i,j) à (i,j1), (i1,j) et
(i1,j1) p(v,w) Poids de la flèche de v à
w p(w) Valeur provisoire de D(w). Après calcul
de D(v) p(w) min(p(w), D(v)p(v,w)) Valeur de
D(w) valeur de p(w) après considération de tous
les voisins de w
1
2
3
5
4
1
1
1
2
4
5
v
w
16
Algorithm
  • q(0,0) (liste contenant les cases à considérer)
  • Tant que q nest pas vide faire
  • v première case de q
  • Supprimer v de q D(v)p(v)
  • Si w(i,j1) pas dans q, le rajouter a la fin de
    q
  • p(w)min(p(w),D(v)p(v,w))
  • Même chose pour w(i1,j) et w(i1,j1)

17
0
1
2
3
4
5
6
7
1
2
0
1
1
2
2
2
1
2
2
2
3
4
5
6
7
q (0,0)
(0,1) (1,0) (1,1)
(0,2) (1,2)
(2,0) (2,1)
18
Accélération de lalignement SP exact
  • IDST (i,j) Score de lal. Op. de Si..n et
    Tj..n.
  • Définition similaire pour IDSU (i,k) et
    IDTU (j,k).
  • z score dUN alignement multiple de S, T, U
  • Observation
  • Score SP pour Si..n, Tj..n, Uk..n supérieur
    à IDST(i,j) IDSU(i,k) IDTU(j,k)
  • Si D(i,j,k) IDST(i,j) IDSU(i,k) IDTU(j,k) gt
    z, alors (i,j,k) ne peut pas faire partie dun
    chemin optimal
  • Aucun scrutage avant nest nécessaire pour
    (i,j,k). Plus important, certaines cases ne sont
    jamais introduites dans la liste q.
  • Observation ampirique Cette méthode peut aligner
    efficacement jusquà 6 séquences de longueur 200.
    Efficacité dépend beaucoup de la val. z initiale

19
Heuristique bornée pour le score SP
  • Heuristique Algorithme qui nest pas garanti
    dobtenir la solution optimale. Utilisé pour des
    problèmes difficiles (NP-difficile)
  • Heuristique bornée On sait dans quel intervalle
    se situe la solution
  • Heuristique pour le score SP Algorithme garanti
    dobtenir un alignement dont le score est au plus
    deux fois plus élevé que le score dun alignement
    optimal.

20
Alignement consistant avec un arbre
  • S Ensemble de séquences
  • T Arbre reliant les séq. de S
  • A Alignement multiple de S
  • A consistant avec S ssi pour tout couple de
    séquences Si, Sj reliées par un arc, Si et Sj
    sont alignées de façon optimale dans A

AXZ
AXZ
1
2
AXXZ
3
AYZ
4
AYXYZ
5
3 A X X - Z 1 A X - - Z 2 A - X -
Z 4 A Y - - Z 5 A Y X X Z
21
Méthode
  • Choisir deux séquences qques adjacentes dans
    larbre et former un alignement optimal A
  • Choisir une séquence non encore alignée Si,
    adjacente à une séquence alignée Sj
  • Aligner Si et Sj.
  • Incorporer lalignement à A.
  • Si un nouvel espace a été rajouté dans Sj ,
    rajouter un espace à chaque ligne à la colonne
    correspondante dans A
  • Complexité k séquences de taille n ,
  • O(kn2)

22
Alignement SP par la méthode de létoile centrale
  • S ensemble de séquences
  • Séquence centrale Sc Séquence de S tq la somme
    des distances à toutes les autres séquences de S
    est minimale.
  • Arbre étoile Tc Arbre en étoile, connectant
    toutes les séquences de S, et de racine Sc

S4
S1
SS1,S2,S3,S4,S5,S6
S3
S2
S5
S6
23
  • k nb de séquences de S
  • Complexité
  • Trouver la séquence centrale Sc O(k2n2)
  • Alignement Ac consistant avec Tc O(kn2)
  • Bornes
  • d(A) Score SP de lalignement multiple A
  • dc(Si,Sj) Score induit par Ac
  • D(Si,Sj) Score dun align. optimal de Si et Sj
  • A Alignement multiple optimal de S
  • d(Si,Sj) Score induit par A

24
  • Si le score considéré vérifie linégalité
    triangulaire
  • e(x,z) e(x,y)e(y,z)
  • alors
  • dc(Si,Sj) dc(Si,Sc) dc(Sc,Sj)
    D(Si,Sc)D(Sc,Sj)
  • Et donc
  • d(Ac)/d(A) 2(k-1)/k lt 2

25
IV. Alignement phylogénétique
  • Données Arbre phylogénétique T pour un ensemble
    de séquences S
  • D Distance dédition entre deux séquences
  • Alignement phylogénétique étiquettage des nuds
    internes de T
  • Problème Trouver un étiquettage des nuds
    internes qui minimise la score de larbre (score
    de lalignement phylogénétique)
  • Alignement résultant Alignement consistant avec
    T
  • Problème de létiquettage NP-complet
  • Alignement soulevé Les étiquettes
  • Sont des séquences de S

26
Alignement soulevé optimal(Wang, Jiang, Lawler
1996)
  • T alignement phylogénétique optimal
  • On veut construire un alignement soulevé TS à
    partir de T
  • Dans TS , v est étiquetté par la séquence de S la
    plus proche de Sv

Score de TS 2 fois score de T
27
Alignement soulevé optimal
  • Tv sous-arbre de racine v
  • d(v,S) Score de lal. phyl. Optimal de Tv
    sachant que v étiquetté par S

v
S
v
S
v
S
S2
S1
d(v,S) D(S,S1)D(S,S2)
d(v,S) Sv minS D(S,S) d(v,S)
Valeur de lal. Soulevé op. minimum de d(r,S)
où r racine de larbre Complexité k seq. de
taille n. Au cours dun prétraitement, calculer
tous les D(Si,Sj) O(k2n2) Pour chaque nud v,
calculer chaque d(v,S) en O(k2) O(k2n2k3)
28
V. Heuristiques usuellesMéthodes progressives
  • Créer un alignement multiple de S en fusionnant
    deux alignements de deux sous-ensembles S1 et S2
    de S
  • Méthode générale
  • Calculer les alignements deux à deux
  • Construire un arbre guide des séquences (UPGMA,
    neighbor-joining)
  • Incorporer les séquences une à une dans
    lalignement multiple, en suivant lordre
    déterminé par larbre guide

29
Exemple dalignement progressif
  • Pour commencer, aligner les deux séquences de
    distance minimale
  • À chaque étape, choisir la séquence dont la
    distance avec une des séquences déjà alignée est
    minimale

30
Plusieurs implémentations de la méthode
progressive
  • MultAlign, ClustalW, Pileup, T-Coffee
  • Diffèrent surtout par la méthode de construction
    de larbre guide
  • Avantages Rapide, simple à programmer, nécessite
    peu de mémoire
  • Inconvénients
  • Alignement obtenu très dépendant de larbre
    considéré
  • Lalignement ne peut pas être modifié au cours du
    processus
  • Produit un seul alignement

31
ClustalW (Thompson, Higgins, Gibson 1994)
  • Algorithme progressif le plus utilisé
  • Calculer les scores dalignement de chaque paire
    de séquences.
  • Construire un arbre guide par Neighbour-Joining
  • Utiliser cet arbre pour choisir les séquences à
    incorporer à lalignement. Choisir les plus
    petites distances à chaque fois

D
A
2
4
3
1
2
C
B
Effectue trois sortes dalignements Entre deux
séquences, une séquence et une matrice consensus,
ou deux matrices consensus
32
Scores de ClustalW
  • Matrice de similarité choisie en fonction de la
    similarité des séquences comparées
  • 80 à 100 identité --gt Blosum80
  • 60 à 80 identité --gt Blosum60
  • 30 à 60 identité --gt Blosum45
  • 0 à 30 identité --gt Blosum30
  • Scores des gaps
  • -Score dinitialisation dun gap (SIG) score
    dextension (SEG)
  • G T E A K L I V L M A N E
  • G A - - - - - - - - - K L -----gt
    SIG 8 GEP
  • - Score des gaps dépendant des positions et des
    résidus supprimés (si hydrophiles, SIG plus
    faible)

33
Alignement dune séquence avec une matrice
consensus
a a c - c g C1
- C2 C3 C4 C5
34
Valeur dun tel alignement?
  • Matrice de pondération
  • Matrice consensus

p(a,C1) 2 0.75 1 0.25 1.25
p(a,-) -11 -1 S(c,C2) 20.75
-30.25 0.75 p(-,C3) -1 0.25 -1
0.50 0 0.25 -0.75 gt Score alignement
Si,j p(Cj,ti) 1.25 10.75 -1
  • Alignement
  • S a a c c g
  • C1 - C2 C3 C4 C5

35
Calcul dun alignement optimal
  • D(i,j) Score alignement optimal entre S1..i
    et C1..j
  • D(i,0) Ski p(tk,-) D(0,j) Skj p(-,Ck)
  • D(i,j) max D(i-1,j-1)p(ti,Cj),
    D(i-1,j)p(tj,-),
  • D(i,j-1)p(-,Cj)
  • Complexité O(S mn)
  • (n nbre de colonnes de C m taille de S)

36
Optimisation itérative des méthodes
progressives
  • Un problème des méthodes progressives
    alignements intermédiaires figés
  • X GAAGTT
  • Y GAC - TT 1er alignement
    intermédiaire
  • Z GAACTG
  • W GTACTG Y aurait dû être G -
    ACTT

37
Méthode itérative
  • Obtenir un premier alignement multiple de basse
    qualité
  • Améliorer lalignement par une suite ditérations
    bien définies, jusquà ce que lalignement ne
    puisse plus être amélioré.
  • Méthodes déterministes ou stochastiques
    (alignement modifié au hasard)
  • MultAlign, IterAlign, Praline, SAGA, HMMER

38
Algorithme de Barton-Stenberg (MultAlign)
  • Calculer tous les alignements deux à deux
  • Choisir lalignement de score max, une première
    matrice consensus
  • À chaque étape,
  • choisir une paire de séquences de score max, tq
    exactement une des séquences est dans
    lalignement partiel obtenu.
  • Aligner la nouvelle séquence avec la matrice
    consensus courante.
  • Mettre à jour la matrice consensus
  • Recommencer jusquà épuisement des séquences
  • Retirer S1 et la réaligner avec la matrice
    consensus de lal. Restant (S2. Sn). Recommencer
    avec S2,,Sn
  • Répéter le processus un nbre fixé de fois, ou
    jusquà ce que le score de lalignement converge.

39
Méthode dalignement par points dancrage
  • Basée sur la recherche de motifs (points
    dancrage, séquences consensus).
  • Par exemple, MACAW
  • Rechercher un motif suffisamment long commun à
    une majorité de séquences
  • Problème subdivisé en deux partie gauche et
    partie droite par rapport au motif
  • Recommencer récursivement avec chaque partie
  • Les séquences ne contenant pas le motif sont
    alignées séparément, par score SP. Les deux
    sous-alignements sont ensuite fusionnés
  • Lorsque les sous-séquences ne contiennent plus de
    bons motifs, elles sont alignées par score SP
Write a Comment
User Comments (0)
About PowerShow.com