Alignement de s - PowerPoint PPT Presentation

About This Presentation
Title:

Alignement de s

Description:

Pour le biologiste, g n ralement, le bon alignement est celui qui repr sente le sc nario volutif le plus probable. Fonction de score de similarit ... – PowerPoint PPT presentation

Number of Views:106
Avg rating:3.0/5.0
Slides: 30
Provided by: GuyPe9
Category:
Tags: alignement

less

Transcript and Presenter's Notes

Title: Alignement de s


1
Alignement de séquences biologiquesLaurent
DuretPôle Bioinformatique Lyonnaishtt//pbil.
univ-lyon1.fr/alignment.html
2
Objectifs poursuivis
  • Les alignements permettent de comparer des
    séquences biologiques. Cette comparaison est
    nécessaire dans différents types détudes 
  • Identification de gènes homologues
  • Recherche de contraintes fonctionnelles communes
    à un ensemble de gènes ou de protéines.
  • Prédiction de fonction
  • Prédiction de structure (ARN, protéine) (Cf
    Deléage, Gaspin)
  • Reconstitution des relations évolutives entre
    séquences (phylogénie) (Cf Gouy).
  • Choix d'amorces PCR
  • ...

3
Alignement représentation
  • Les résidus (nucléotides, acides-aminés) sont
    superposés de façon à maximiser la similarité
    entre les séquences.
  • G T T A A G G C G G G A A A
  • G T T G C G A G G A C A
  • Mutations
  • Substitution (mismatch)
  • Insertion
  • Délétion
  • Insertions ou délétions indels (gap).

4
Quel est le bon alignement ?
  • G T T A C G A G T T A C G A
  • G T T - G G A G T T G - G A
  • OU
  • G T T A C - G A
  • G T T - - G G A
  • Pour le biologiste, généralement, le bon
    alignement est celui qui représente le scénario
    évolutif le plus probable

5
Fonction de score de similarité
  • G T T A A G G C G G G A A A
  • G T T G C G A G G A C A
  • Score
  • Exemple
  • identité 1
  • mismatch 0
  • gap -1
  • Score 10 - 4 6

6
Modèle d'évolution (ADN)
  • Transition A lt-gt G T lt-gt C
  • Transversions autres substitutions
  • p(transition) gt p(transversion)
  • G T T A C G A G T T A C G A
  • G T T - G G A G T T G - G A
  • .

7
Modèle d'évolution (protéines)
  • Code génétique
  • Asp (GAC, GAU) ? Tyr (UAC, UAU) 1 mutation
  • Asp (GAC, GAU) ? Cys (UGC, UGU) 2 mutations
  • Asp (GAC, GAU) ? Trp (UGG) 3 mutations
  • Propriétés physico-chimiques des acides-aminés
    (acidité, hydrophobicité, encombrement stérique,
    etc.)
  • Matrices de Dayhoff (PAM), BLOSUM mesures des
    fréquences de substitutions dans des alignements
    de protéines homologues
  • PAM 60, PAM 120, PAM 250 (extrapolations à partir
    de PAM 15)
  • BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des
    alignements de blocs)

Substitutions conservatrices
8
Pondération des gaps
  • TGATATCGCCA TGATATCGCCA
  • TGAT---TCCA TGAT-T--CCA
  • Gap de longueur k Pénalités linéaires w do
    de k
  • do pénalité pour l'ouverture d'un gap
  • de pénalité pour l'extension d'un gap

9
Pondération des gaps (plus réaliste)
  • Estimation des paramètres sur des alignements
    "vrais" (par exemple basés sur l'alignement de
    structures connues)
  • Gap de longueur k
  • Pénalités logarithmiques w do de log(k)
  • w f(log(k), log(PAM), résidus, structure)
  • PAM la probabilité d'un gap augmente avec la
    distance évolutive
  • Résidus, structure la probabilité d'un gap est
    plus forte dans une boucle (hydrophile) que dans
    le cœur hydrophobe des protéines

10
Similarité globale, locale
11
Similarité, homologie
  • Deux séquences sont homologues ssi elles dérivent
    d'un ancêtre commun
  • 30 d'identité entre deux protéines gt homologie,
    sauf si
  • Fragment similaire court (lt 100 aa)
  • Biais compositionnel (régions de faible
    complexité, par exemple riche en Pro, Ala)

12
Algorithmes d'alignement de deux séquences
  • Algorithme de programmation dynamique
  • Alignement global Needleman Wunsh
  • Alignement local Smith Waterman
  • Heuristiques
  • FASTA
  • BLAST

13
Alignement multiple programmation dynamique
  • La généralisation de lalgorithme NW au
    traitement simultané de plus de deux séquences
    est théoriquement possible mais inexploitable en
    pratique.
  • Pour un alignement de n séquences le nombre de
    chemins possibles pour chaque case est de 2n 1.
  • On a une croissance exponentielle du temps de
    calcul et de l'espace mémoire requis en fonction
    du nombre de séquences.
  • Utilisation de méthodes heuristiques.

14
Alignement progressif
  • Approche consistant à construire itérativement
    lalignement multiple en groupant des alignements
    de paires de séquences.
  • Ce genre de méthodes comporte trois étapes 
  • Lalignement des paires de séquences.
  • Le groupement des séquences.
  • Le groupement des alignements (alignement
    progressif).
  • CLUSTAL (Higgins, Sharp 1988, Thompson et al.,
    1994), le programme dalignements multiples le
    plus utilisé à lheure actuelle utilise cette
    approche.
  • MULTALIN, PILEUP, T-Coffee

15
(No Transcript)
16
Pénalités en fonction de la position
  • CLUSTAL introduit des pondérations qui sont
    dépendantes de la position des gaps.
  • Diminution de la pénalité à lemplacement de gaps
    préexistants.
  • Augmentation de la pénalité au voisinage (8
    résidus) de gaps préexistants.
  • Réduction de la pénalité au niveau de régions
    contenant des suites dacides aminés hydrophiles
    ( 5 résidus).
  • Modification spécifiques en fonction des acides
    aminés présents (e.g., la pénalité est plus
    faible avec Gly, Asn, Pro).
  • Ces pondérations sont prises en compte au moment
    du groupement des alignements.

17
Alignement progressif pas toujours optimal
  • Un seul des ces trois alignements est optimal

18
T-CoffeeNotredame, Higgins, Heringa (2000) JMB
302205
19
T-CoffeeNotredame, Higgins, Heringa (2000) JMB
302205 http//igs-server.cnrs-mrs.fr/cnotred/
  • Alignement progressif
  • Lors des alignements intermédiaire, prise en
    compte de tous les alignements deux à deux
    (globaux et locaux)
  • Possibilité d'incorporer d'autres informations
    (structure, etc.)

20
Alignements globaux, alignements par bloc
21
DialignMorgenstern et al. 1996 PNAS 9312098
  • Recherche de blocs similaires (? exact) sans gap
    entre les séquences
  • Sélection de la meilleure combinaison possible de
    blocs similaires (uniformes ou non) consistents
    heuristique (Abdeddaim 1997)
  • Alignement ancré sur les blocs
  • Plus lent que alignement progressif, mais
    meilleur alignement quand les séquences
    contiennent de grands indels ne cherche pas à
    aligner des régions non-alignables

22
Alignements locaux
  • MEME
  • MATCH-BOX
  • PIMA

23
Bilan
  • ClustalW
  • Dialign
  • T-coffee
  • MEME

24
Éditeur d alignement multiple
25
Cas particuliers
  • Alignement de séquences ADN codantes
  • L F L F
  • CTT TTC CTT TTC
  • CTC --- --- CTC
  • L - - L
  • alignement des séquences protéiques
  • traduction-inverse de l'alignement protéique en
    alignement nucléique
  • Alignement cDNA / génomique SIM4
  • Alignement protéine / génomique WISE2

26
Limitation des comparaisons deux à deux (BLAST,
FASTA, ...)
  • Seq A CGRRLILFMLATCGECDTDSSE
    HICCIKQCDVQDIIRVCC

  • Insuline CGSHLVEALYLVCGERGFFYTP
    EQCCTSICSLYQLENYCN

  • Seq B YQSHLLIVLLAITLECFFSDRK
    KRQWISIFDLQTLRPMTA
  • Comparaisons 2 à 2
  • Insuline / Seq A 25 d'identité
  • Insuline / Seq B 25 d'identité

27
Alignement de séquences de la famille des
insulines

  • B-chain
    A-chain
  • INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...
    x58 ....SGRHRFDPFCCEVICDDGTSVKLCT
  • INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......
    x51 ....AAATNPARYCCLSGCTQQDLLTLCPY
  • RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........x
    109 ....PYVALFEKCCLIGCTKRSLAKYC
  • BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........x
    25 ........GIVDECCLRPCSVDVLLSYC
  • BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........
    x23 ........GVVDECCFRPCTLDVLLSYCG
  • BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........x
    25 ........GIVDECCYRPCTTDVLKLYCDKQI
  • BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........x
    25 ........GIADECCLQPCTNDVLLSYC
  • LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........
    x58 ........GVFDECCRKSCSISELQTYCGRR
  • MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV......
    .x29 ....QGTTNIVCECCMKPCTLSELRQYCP
  • MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV......
    .x44 ....QRTTNLVCECCFNYCTPDVVRKYCY
  • MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......
    x30 ....ESRPSIVCECCFNQCTVQELLAYC
  • MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......x
    44 ....QRTTNLVCECCYNVCTVDVFYEYCY
  • MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...
    x86 ..EVMAEPSLVCDCCYNECSVRKLATYC
  • ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......
    x31 ........GLVEECCYNVCDYSQLESYCNPYS
  • INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....
    x35 ........GIVEQCCTSICSLYQLENYCN
  • IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........
    x12 ........GIVDECCFRSCDLRRLEMYCAPLK
  • IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........
    x12 ........GIVEECCFRSCDLALLETYCATPA

28
Représentation d un motif par une matrice de
fréquences (exemple)
  • Site donneur d épissage (vertébrés)
  • Matrice de fréquence (pourcentage)
  • Base Position
  • -3 -2 -1 1 2 3 4 5 6
  • A 33 60 8 0 0 49 71 6 15
  • C 37 13 4 0 0 3 7 5 19
  • G 18 14 81 100 0 45 12 84 20
  • T 12 13 7 0 100 3 9 5 46
  • Cons. M A G G T R A G T

29
PSI-BLAST
  • Position-Specific Iterated BLAST
  • 1-recherche BLAST classique
  • 2-construction d'une matrice de pondération
    (profil) avec les séquences similaires détectées
  • 3-recherche BLAST à partir de ce nouveau profil
  • 4-itération des étapes 2-3 jusqu'à convergence
  • plus sensible que Smith-Waterman
  • 40 fois plus rapide
Write a Comment
User Comments (0)
About PowerShow.com