Title: Alignement de s
1Alignement de séquences biologiquesLaurent
DuretPôle Bioinformatique Lyonnaishtt//pbil.
univ-lyon1.fr/alignment.html
2Objectifs poursuivis
- Les alignements permettent de comparer des
séquences biologiques. Cette comparaison est
nécessaire dans différents types détudes - Identification de gènes homologues
- Recherche de contraintes fonctionnelles communes
à un ensemble de gènes ou de protéines. - Prédiction de fonction
- Prédiction de structure (ARN, protéine) (Cf
Deléage, Gaspin) - Reconstitution des relations évolutives entre
séquences (phylogénie) (Cf Gouy). - Choix d'amorces PCR
- ...
3Alignement représentation
- Les résidus (nucléotides, acides-aminés) sont
superposés de façon à maximiser la similarité
entre les séquences. - G T T A A G G C G G G A A A
- G T T G C G A G G A C A
-
- Mutations
- Substitution (mismatch)
- Insertion
- Délétion
- Insertions ou délétions indels (gap).
4Quel est le bon alignement ?
- G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
-
- OU
- G T T A C - G A
- G T T - - G G A
-
- Pour le biologiste, généralement, le bon
alignement est celui qui représente le scénario
évolutif le plus probable
5Fonction de score de similarité
- G T T A A G G C G G G A A A
- G T T G C G A G G A C A
-
- Score
- Exemple
- identité 1
- mismatch 0
- gap -1
- Score 10 - 4 6
6Modèle d'évolution (ADN)
- Transition A lt-gt G T lt-gt C
- Transversions autres substitutions
- p(transition) gt p(transversion)
- G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
- .
7Modèle d'évolution (protéines)
- Code génétique
- Asp (GAC, GAU) ? Tyr (UAC, UAU) 1 mutation
- Asp (GAC, GAU) ? Cys (UGC, UGU) 2 mutations
- Asp (GAC, GAU) ? Trp (UGG) 3 mutations
- Propriétés physico-chimiques des acides-aminés
(acidité, hydrophobicité, encombrement stérique,
etc.) - Matrices de Dayhoff (PAM), BLOSUM mesures des
fréquences de substitutions dans des alignements
de protéines homologues - PAM 60, PAM 120, PAM 250 (extrapolations à partir
de PAM 15) - BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des
alignements de blocs)
Substitutions conservatrices
8Pondération des gaps
- TGATATCGCCA TGATATCGCCA
- TGAT---TCCA TGAT-T--CCA
-
- Gap de longueur k Pénalités linéaires w do
de k - do pénalité pour l'ouverture d'un gap
- de pénalité pour l'extension d'un gap
9Pondération des gaps (plus réaliste)
- Estimation des paramètres sur des alignements
"vrais" (par exemple basés sur l'alignement de
structures connues) - Gap de longueur k
- Pénalités logarithmiques w do de log(k)
- w f(log(k), log(PAM), résidus, structure)
- PAM la probabilité d'un gap augmente avec la
distance évolutive - Résidus, structure la probabilité d'un gap est
plus forte dans une boucle (hydrophile) que dans
le cœur hydrophobe des protéines
10Similarité globale, locale
11Similarité, homologie
- Deux séquences sont homologues ssi elles dérivent
d'un ancêtre commun - 30 d'identité entre deux protéines gt homologie,
sauf si - Fragment similaire court (lt 100 aa)
- Biais compositionnel (régions de faible
complexité, par exemple riche en Pro, Ala)
12Algorithmes d'alignement de deux séquences
- Algorithme de programmation dynamique
- Alignement global Needleman Wunsh
- Alignement local Smith Waterman
- Heuristiques
- FASTA
- BLAST
13Alignement multiple programmation dynamique
- La généralisation de lalgorithme NW au
traitement simultané de plus de deux séquences
est théoriquement possible mais inexploitable en
pratique. - Pour un alignement de n séquences le nombre de
chemins possibles pour chaque case est de 2n 1. - On a une croissance exponentielle du temps de
calcul et de l'espace mémoire requis en fonction
du nombre de séquences. - Utilisation de méthodes heuristiques.
14Alignement progressif
- Approche consistant à construire itérativement
lalignement multiple en groupant des alignements
de paires de séquences. - Ce genre de méthodes comporte trois étapes
- Lalignement des paires de séquences.
- Le groupement des séquences.
- Le groupement des alignements (alignement
progressif). - CLUSTAL (Higgins, Sharp 1988, Thompson et al.,
1994), le programme dalignements multiples le
plus utilisé à lheure actuelle utilise cette
approche. - MULTALIN, PILEUP, T-Coffee
15(No Transcript)
16Pénalités en fonction de la position
- CLUSTAL introduit des pondérations qui sont
dépendantes de la position des gaps. - Diminution de la pénalité à lemplacement de gaps
préexistants. - Augmentation de la pénalité au voisinage (8
résidus) de gaps préexistants. - Réduction de la pénalité au niveau de régions
contenant des suites dacides aminés hydrophiles
( 5 résidus). - Modification spécifiques en fonction des acides
aminés présents (e.g., la pénalité est plus
faible avec Gly, Asn, Pro). - Ces pondérations sont prises en compte au moment
du groupement des alignements.
17Alignement progressif pas toujours optimal
- Un seul des ces trois alignements est optimal
18T-CoffeeNotredame, Higgins, Heringa (2000) JMB
302205
19T-CoffeeNotredame, Higgins, Heringa (2000) JMB
302205 http//igs-server.cnrs-mrs.fr/cnotred/
- Alignement progressif
- Lors des alignements intermédiaire, prise en
compte de tous les alignements deux à deux
(globaux et locaux) - Possibilité d'incorporer d'autres informations
(structure, etc.)
20Alignements globaux, alignements par bloc
21DialignMorgenstern et al. 1996 PNAS 9312098
- Recherche de blocs similaires (? exact) sans gap
entre les séquences - Sélection de la meilleure combinaison possible de
blocs similaires (uniformes ou non) consistents
heuristique (Abdeddaim 1997) - Alignement ancré sur les blocs
- Plus lent que alignement progressif, mais
meilleur alignement quand les séquences
contiennent de grands indels ne cherche pas à
aligner des régions non-alignables
22Alignements locaux
23Bilan
- ClustalW
- Dialign
- T-coffee
- MEME
24Éditeur d alignement multiple
25Cas particuliers
- Alignement de séquences ADN codantes
- L F L F
- CTT TTC CTT TTC
- CTC --- --- CTC
- L - - L
- alignement des séquences protéiques
- traduction-inverse de l'alignement protéique en
alignement nucléique - Alignement cDNA / génomique SIM4
- Alignement protéine / génomique WISE2
26Limitation des comparaisons deux à deux (BLAST,
FASTA, ...)
- Seq A CGRRLILFMLATCGECDTDSSE
HICCIKQCDVQDIIRVCC -
- Insuline CGSHLVEALYLVCGERGFFYTP
EQCCTSICSLYQLENYCN -
- Seq B YQSHLLIVLLAITLECFFSDRK
KRQWISIFDLQTLRPMTA - Comparaisons 2 à 2
- Insuline / Seq A 25 d'identité
- Insuline / Seq B 25 d'identité
27Alignement de séquences de la famille des
insulines
-
B-chain
A-chain
- INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...
x58 ....SGRHRFDPFCCEVICDDGTSVKLCT - INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......
x51 ....AAATNPARYCCLSGCTQQDLLTLCPY - RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........x
109 ....PYVALFEKCCLIGCTKRSLAKYC - BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........x
25 ........GIVDECCLRPCSVDVLLSYC - BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........
x23 ........GVVDECCFRPCTLDVLLSYCG - BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........x
25 ........GIVDECCYRPCTTDVLKLYCDKQI - BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........x
25 ........GIADECCLQPCTNDVLLSYC - LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........
x58 ........GVFDECCRKSCSISELQTYCGRR - MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV......
.x29 ....QGTTNIVCECCMKPCTLSELRQYCP - MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV......
.x44 ....QRTTNLVCECCFNYCTPDVVRKYCY - MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......
x30 ....ESRPSIVCECCFNQCTVQELLAYC - MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......x
44 ....QRTTNLVCECCYNVCTVDVFYEYCY - MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...
x86 ..EVMAEPSLVCDCCYNECSVRKLATYC - ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......
x31 ........GLVEECCYNVCDYSQLESYCNPYS - INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....
x35 ........GIVEQCCTSICSLYQLENYCN - IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........
x12 ........GIVDECCFRSCDLRRLEMYCAPLK - IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........
x12 ........GIVEECCFRSCDLALLETYCATPA
28Représentation d un motif par une matrice de
fréquences (exemple)
- Site donneur d épissage (vertébrés)
- Matrice de fréquence (pourcentage)
- Base Position
- -3 -2 -1 1 2 3 4 5 6
- A 33 60 8 0 0 49 71 6 15
- C 37 13 4 0 0 3 7 5 19
- G 18 14 81 100 0 45 12 84 20
- T 12 13 7 0 100 3 9 5 46
- Cons. M A G G T R A G T
-
29PSI-BLAST
- Position-Specific Iterated BLAST
- 1-recherche BLAST classique
- 2-construction d'une matrice de pondération
(profil) avec les séquences similaires détectées - 3-recherche BLAST à partir de ce nouveau profil
- 4-itération des étapes 2-3 jusqu'à convergence
- plus sensible que Smith-Waterman
- 40 fois plus rapide