Title: Changement de repr
1Changement de représentation et alignement de
séquences.
Encadrement E. Mephu Nguifo
2Plan
- Présentation
- Etude comparative des codages des acides aminés
- Alignement de séquences
3Présentation
- CRIL Apprentissage symbolique
- Bioinformatique
- E. MEPHU NGUIFO
- H. FU
- H. DELALIN
- Projets Génopole Lille
4Etude comparative des codages des acides aminés
- Huaiguo FUEncadrement E. MEPHU NGUIFO
5Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
- Idée Stocker des informations en plus du
caractère.Ex Alanine A 65 (ASCII)
01000001 - But Comparer 4 méthodes de représentation
binaire des acides aminés afin de trouver la
meilleure représentation possible.
Hyd Cha Pol Sma Ali Aro
Ala 1 0 0 1 0 0
6Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
- 2 codages basés sur les propriétés
physico-chimiques des AAs- Dickerson Geis
(1969)- Sallantin, Marlière Saurin (1984) - 2 codages obtenus par des méthodes dintelligence
artificielle (IA)- Gracy Mephu- De la Maza
(1994)
7Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
- Méthode de comparaison
- Clusterisation de chaque représentation
(algorithme Ward ) - Analyse manuelle de chaque cluster.
- Validation grâce à lalgorithme C4.5
8Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
- Résultats
- Les codages obtenus par apprentissage
automatique peuvent refléter une certaine réalité
biologique. - Ce nest pas forcément les codages basés sur les
propriétés des AA qui les représentent le mieux. - Utilisation possible dans différentes applications
9Alignement de séquences
- Hugues DELALIN
- Encadrement E. MEPHU NGUIFO
10Alignement de séquences.
- Lobjectif de tels algorithmes est de révéler des
régions proches. - Nécessité de mettre en œuvre des procédures de
calcul et des modèles biologiques afin de
quantifier la notion de ressemblance entre
séquences. - On se base sur le principe de parcimonie.
11Calcul dun score.
- Score peut mesurer rapprochement ou éloignement.
- Attribution dun score élémentaire pour chaque
position.
A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1
Exemple A T T G C C Score
3 T T G C C C A T T G C C
Score 1 T T G C C C A T T G C C
Score 5 T T G C C C
12Gestion des gaps.
- Fixe chaque insertion dune base a le même
coût. - Affine définition dun coût de création de gap
et dun coût dextension. - Variable en fonction de lendroit où on se trouve
dans la séquence. (Argos et Vingron, 1990)
13Remarques
- Le score dun alignement dépend de la longueur de
la zone de similitude que lon considère. - On peut nuancer le calcul du score en donnant
plus ou moins dimportance aux pénalités et aux
associations possibles entre résidus.
14Matrices de substitution.
- Séquences dADN- coût dun match gt 0.-
coût dun mismatch lt 0. - Séquences protéiques- matrices liées à
lévolution. (Dayhoff et al., 1978) (PAM) - (Jones et al., 1992)- matrices liées aux
caractéristiques physico-chimiques. (Henikoff
et Henikoff, 1992) (BLOSUM)
15Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 0 0 1 -3
H -2 -1 1 1 2 1 -1 -2
E -2 0 4 4 -1 3 0 -5
A 0 1 0 0 -2 0 2 -4
L 2 -2 -3 -3 -3 -4 -2 2
16Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 0 0 1 -3
H -2 -1 1 1 2 5 1 -2
E -2 0 4 4 -1 7 2 -5
A 0 1 0 0 -2 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
17Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 7 0 1 -3
H -2 -1 1 1 2 5 1 -2
E -2 0 4 4 -1 7 2 -5
A 0 1 0 0 -2 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
18Needleman Wunsh (1970).
V T E E R D A F
L 14 7 6 6 4 4 0 2
T 10 12 9 9 6 4 3 -3
S 8 10 9 9 7 4 3 -3
H 6 7 9 8 9 5 1 -2
E 2 4 8 8 3 7 2 -5
A 2 3 2 2 0 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
19Needleman Wunsh (1970).
Résultat VT-EERDAF LTSHE--AL
V T E E R D A F
L 14 7 6 6 4 4 0 2
T 10 12 9 9 6 4 3 -3
S 8 10 9 9 7 4 3 -3
H 6 7 9 8 9 5 1 -2
E 2 4 8 8 3 7 2 -5
A 2 3 2 2 0 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
20Utilisation des représentations binaires.
- On utilise les algorithmes classiques.
- Les scores élémentaires ne sont plus obtenus
grâce à une matrice de substitution. - Une opération booléenne entre les représentations
des 2 acides aminés que lon compare sert de base
au calcul des scores élémentaires.
21Choix de lopérateur booléen.
- ET logique si on ne sintéresse quà la présence
des attributs. - XOR le OU exclusif si on sintéresse autant à
labsence quà la présence des attributs.
Exemple A ? 0001 L ? 0011 A ET L? 0001 A XOR
L ? 1101
22Exemple de résultat
- Algorithme de Smith et Waterman (1981)
- EMBOSS (BLOSUM62)
- Identité 34/173 (19.7)
- Gaps 55/173 (31,8)
- d1qqp1_ 1 TTSAGESADPVT---TTVENY-------GGETQIQRR
QHTDVSFIMDRFV 40 - .... .. ..
.. - d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ-
--------AERFF 62
- BINALIGN (Gracy Mephu, 12 attributs)
- Identité 54/221 (24.4)
- Gaps 42/221 (19.0)
- d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTD
VSFIM_DRFVKVT 43 - ...... . ... ...
........... .... - d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQA
ERFFKTHLFDWVT 71
23Perspectives
- Coût en temps dexécution et espace mémoire.
- Mesure de la qualité des alignements obtenus à
partir de - bases connues (CASA, SCOP)-
alignements corrigés manuellement. - Alignement de structures (DSSP).
24Références
- Hubbard TJ, Ailey B, Brenner SE, Murzin AG,
Chothia C. SCOP a structural classification of
proteins database. Nucleic Acids Res. 1999
27254-256.http//scop.mrc-lmb.cam.ac.uk/scop/ - Kabsch W. Sander C. Dictionary of protein
secondary structure Pattern recognition of
hydrogen-bonded and geometrical features,
Biopolymers. 1983 222577-2637.http//www.sander.
ebi.ac.uk/dssp/ - Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL
Jr. CASA A Server for The Critical Assessment of
Sequence Alignment Accuracy, Bioinformatics.
Submitted.http//capb.dbi.udel.edu/casa/