Introduction la Bioinformatique - PowerPoint PPT Presentation

1 / 57
About This Presentation
Title:

Introduction la Bioinformatique

Description:

portions d 'ADN codant des ARN non traduits. El ments r gulateurs : promoteurs, enhancers, ... AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, ... – PowerPoint PPT presentation

Number of Views:1541
Avg rating:3.0/5.0
Slides: 58
Provided by: davidpe152
Category:

less

Transcript and Presenter's Notes

Title: Introduction la Bioinformatique


1
Introduction à la Bioinformatique
David Perret INSERM U564 4, rue Larrey 49033
Angers Cedex 01 02.41.35.47.32 david.perret_at_etud.u
niv-angers.fr
Université dAngers - Maîtrise de Biologie
Cellulaire
1
2
Quest-ce quun génôme ?
Des gènes portions dADN codant des
protéines portions d ADN codant des ARN ARNr,
ARNt, ARNsn, portions d ADN codant des ARN non
traduits Eléments régulateurs promoteurs,
enhancers, Eléments requis pour la réplication
des chromosomes origines de réplication,
télomères, centromères, Séquences non
fonctionnelles séquences non codantes séquences
répétées pseudogènes
2
Université dAngers - Maîtrise de Biologie
Cellulaire
3
Taille des génômes ?
Mycoplasma genitalium 0,6 Mb
Prokaryotes
Escherichia coli 4,7 Mb
Eukaryotes
Saccharomyces. cerevisiae 13,5 Mb
C. elegans 100 Mb
Fugu rubripes 400 Mb
Homo sapiens 3400 Mb
Amphibiens 100 000 Mb
Amoeba dubia 700 000 Mb
3
Université dAngers - Maîtrise de Biologie
Cellulaire
4
Gènes et éléments fonctionnels dans les génomes
E. coli
?
H. sapiens
Taille du génôme x1000 Nombre de gènes x10
4
Université dAngers - Maîtrise de Biologie
Cellulaire
5
Proportion déléments  fonctionnels  dans le
génôme humain
85 dADN sans fonctions connues
5
Université dAngers - Maîtrise de Biologie
Cellulaire
6
Gène protéique eucaryote type
promoteur
exons
introns
site de polyadénylation
ADN
TRANSCRIPTION
préARNm
signaux dépissage
ARNm
donneur
accepteur
ATG
STOP
AG
GT
AG
GT
point de branchement
Protéine
6
Université dAngers - Maîtrise de Biologie
Cellulaire
7
Structure dun gène protéique humain
7
Université dAngers - Maîtrise de Biologie
Cellulaire
8
Doù provient la complexité du génôme humain ?
  • Rétroéléments
  • Pseudogènes après la duplication dun gène
  • Evolution vers une nouvelle fonction
  • Inactivation dun gène

8
Université dAngers - Maîtrise de Biologie
Cellulaire
9
Doù provient la complexité du génome humain ?
  • Rétropseudogènes
  • 23000 à 33000 dans le génome humain
  • dérivé de gènes ubiquitaires

9
Université dAngers - Maîtrise de Biologie
Cellulaire
10
Lalignement des séquences biologiques pourquoi
?
  • Identification de gènes homologues
  • Recherches de contraintes fonctionnelles
    communes à un ensemble de gènes ou de protéines
  • Prédictions de fonctions
  • Prédictions de structures dARN et de protéines
  • Reconstitution des relations évolutives entre
    séquences (phylogénie)
  • Choix damorces pour la PCR

10
Université dAngers - Maîtrise de Biologie
Cellulaire
11
Prédiction de fonction par homologie ?
  • Mais
  • Le concept de fonction est flou
  • Activité biochimique identique ?
  • Distribution tissulaire identique ?
  • Compartimentation identique ?
  • Protéines homologues de fonctions différentes ?
  • Homologues ligands dun même récepteur
  • Homologues recrutées pour des fonctions
  • très différentes

Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD
SIMILARITE
HOMOLOGIE
CONSERVATION STRUCTURALE
FONCTION CONSERVEE
11
Université dAngers - Maîtrise de Biologie
Cellulaire
12
Histoire
1865 (Mendel) Théorie de lhérédité
1944 (Avery) ADN, support de linformation
génétique
1951 (Watson Crick) L ADN est une double
hélice
1951 (Sanger) Séquençage de linsuline
1970 Needleman Wunsch
1978(Dayhoff) Matrices PAM
1970 Needleman Wunsch
2000/2001 1ier brouillon du génome humain
1980/1986 Création de lEMBL (1980) ,de GenBank
(1982) et de la DDBJ (1986).Création de SwissProt
(1986)
1990 (Altschul) BLAST
1981 (Smith Waterman) Smith Waterman
1990 (Henikoff) Matrices BLOSUM
12
Université dAngers - Maîtrise de Biologie
Cellulaire
13
Les banques de données de séquences biologiques
accessibilité sur Internet
Articles et livres 1968 -gt 1985 Cassettes
informatiques 1982 -gt1992 Disquettes 1984 -gt
1990 CD-ROM 1989 -gt ? Serveur FTP 1989 -gt
? WWW 1993 -gt ? DVD 2001 -gt ?
13
Université dAngers - Maîtrise de Biologie
Cellulaire
14
Les étapes du séquençage dun génome
Séquence non-terminée contigs non-orientés et
non-ordonnés, gaps
HTG
2
Séquence non-terminée contigs orientés et
ordonnés, gaps
3
HUM
Séquence terminée
14
Université dAngers - Maîtrise de Biologie
Cellulaire
15
Les banques de données de séquences biologiques
définition
Une collection de données structurées
indexées (table des matières) périodiquement
mise à jour contenant des références croisées
avec dautres banques. Elles comportent
souvent des outils associés (logiciels)
nécessaires pour laccession à la banque la
mise à jour de la banque Il existe
essentiellement deux catégories de banques de
données généralistes GenBank, EMBL, DDBJ,
SwissProt, PIR, spéciaisées PDB, ProSite,
BLOCKS, Pfam, Swiss-3Dimage, ...
15
Université dAngers - Maîtrise de Biologie
Cellulaire
16
Les banques de données de séquences biologiques
structure dune entrée de la banque
Identification de la séquence
ID IL6_HUMAN STANDARD PRT 212
AA. AC P05231 DT 13-AUG-1987 (Rel. 05,
Created) DT 13-AUG-1987 (Rel. 05, Last sequence
update) DT 01-MAR-2002 (Rel. 41, Last
annotation update) DE Interleukin-6 precursor
(IL-6) (B-cell stimulatory factor 2) (BSF-2) DE
(Interferon beta-2) (Hybridoma growth factor). GN
IL6 OR IFNB2. OS Homo sapiens (Human). OC
Eukaryota Metazoa Chordata Craniata
Vertebrata Euteleostomi OC Mammalia
Eutheria Primates Catarrhini Hominidae Homo.
OX NCBI_TaxID9606 RN 1 RP SEQUENCE
FROM N.A., AND PARTIAL SEQUENCE. RX
MEDLINE87065033 PubMed3491322 NCBI, ExPASy,
EBI, Israel, Japan RA Hirano T., Yasukawa K.,
Harada H., Taga T., Watanabe Y., Matsuda T., RA
Kashiwamura S.-I., Nakajima K., Koyama K.,
Iwamatsu A., Tsunasawa S., RA Sakiyama F.,
Matsui H., Takahara Y., Taniguchi T., Kishimoto
T. RT "Complementary DNA for a novel human
interleukin (BSF-2) that induces RT B
lymphocytes to produce immunoglobulin." RL
Nature 32473-76(1986). CC -!- FUNCTION IL6 IS
A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC
FUNCTIONS IT PLAYS AN ESSENTIAL ROLE IN THE
FINAL DIFFERENTIATION CC OF B-CELLS INTO
IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC
PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS
DIFFERENTIATION, IN CC HEPATOCYTES IT
INDUCES ACUTE PHASE REACTANTS. CC -!-
SUBCELLULAR LOCATION Secreted. CC -!-
SIMILARITY BELONGS TO THE IL-6 SUPERFAMILY. DR
EMBL X04430 CAA28026.1 -. EMBL / GenBank /
DDBJ CoDingSequence DR EMBL M14584
AAA52728.1 -. EMBL / GenBank / DDBJ
CoDingSequence .. DR PDB 1IL6 04-FEB-98.
ExPASy / RCSB DR PDB 2IL6 04-FEB-98.
ExPASy / RCSB ... DR Pfam PF00489 IL6
1. KW Cytokine Glycoprotein Growth factor
Signal Polymorphism KW 3D-structure.
Numéro unique daccession (Accession Number - AC)
Données taxinomiques
Références bibliographiques
Annotations
Références croisées avec dautres banques de
données
Mots-clefs
16
Université dAngers - Maîtrise de Biologie
Cellulaire
17
Les banques de données de séquences biologiques
structure dune entrée de la banque
FT SIGNAL 1 29 FT CHAIN
30 212 INTERLEUKIN-6. FT DISULFID
72 78 FT DISULFID 101 111
FT CARBOHYD 73 73 N-LINKED
(GLCNAC...). FT VARIANT 32 32 P
-gt S. FT
/FTIdVAR_013075. FT VARIANT 162 162
D -gt V. FT
/FTIdVAR_013076. FT MUTAGEN 173 173
A-gtV ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN
185 185 W-gtR NO LOSS OF ACTIVITY. FT
MUTAGEN 204 204 S-gtP 13
ACTIVITY. FT MUTAGEN 210 210
R-gtK,E,Q,T,A,P LOSS OF ACTIVITY. FT MUTAGEN
212 212 M-gtT,N,S,R LOSS OF
ACTIVITY. SQ SEQUENCE 212 AA 23718 MW
1F1ED1FE1B734079 CRC64 MNSFSTSAFG
PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS
ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL
NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ
NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT
TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR
QM //
Annotation de la séquence
Séquence
Fin de lentrée
  • La séquence peut être formatée le format FASTA

Entrée de SwissProt
Numéro unique daccession
Informations diverses (nom, espèce, )
gtspP05231IL6_HUMAN Interleukin-6 precursor
(IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLL
LVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALR
KETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITG
LL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTP
DPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM
17
Université dAngers - Maîtrise de Biologie
Cellulaire
18
Les banques de données de séquences biologiques
laquelle choisir ?
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR,
AsDb, BBDB, BCGD, Beanref, Biolmage,
BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP,
BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH,
CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri,
COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC,
dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP,
DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC,
EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME,
EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB,
GENATLAS, Genbank, GeneCards, Genline, GenLink,
GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase,
gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS,
HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb,
HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN,
ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG,
Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel,
MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat,
MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR,
MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA,
OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD,
Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB,
PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,
PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP,
SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD,
SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList,
SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL
Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS,
TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR,
VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc
...
18
Université dAngers - Maîtrise de Biologie
Cellulaire
19
Les banques de données de séquences biologiques
accessibilité sur Internet
  • Banques généralistes
  • GenBank (Etats-Unis - 1982) http//www.ncbi.nlm
    .nih.gov/GenBank/
  • DNA DataBank of Japan (Japon - 1986)
    http//www.ddbj.nig.ac.jp
  • EMBL (Europe - 1980) http//www.ebi.ac.uk/embl/
  • Banques spécialisées
  • ProSite http//www.expasy.ch/prosite/
  • Pfam http//www.sanger.ac.uk/Software/Pfam/inde
    x.shtml
  • BrookHaven Protein DataBank (PDB)
    http//www.rcsb.org/pdb/
  • FlyBase http//flybase.harvard.edu7081/

19
Université dAngers - Maîtrise de Biologie
Cellulaire
20
Une séquence symboles, structure et fonction
  • Alphabet de symboles (acides aminés)
  • chaque symbole a une signification propre
  • chaque symbole a une certaine propension à être
    placé à côté de tel ou tel voisin
  • chaque symbole peut être décrit par un
    descripteur binaire (1 ou 0)

AA1
AA2
di1 lacide aminé i est gros di2 lacide
aminé i est chargé positivement di3 lacide
aminé i est aromatique di4 lacide aminé i est
soufré
d11 d12 d13 d14
d21 d22 d23 d24
descripteur binaire de lacide aminé 1
descripteur binaire de lacide aminé 2
Exemple descripteur binaire de la séquence GCW
Lensemble des descripteurs binaires dune
séquence contient toute linformation nécessaire
à la protéine pour adopter sa structure et donc
sa fonction.
G 0000
C 0001
W 1010
20
Université dAngers - Maîtrise de Biologie
Cellulaire
21
Alignement global et alignement local
  • Alignement global (Needlman Wunsch, 1970)

Protéine A
Protéine B
  • Alignement local (Smith Waterman, 1981
    FASTA, 1988 BLAST, 1990)

ARNm
gène
21
Université dAngers - Maîtrise de Biologie
Cellulaire
22
Alignement représentation
  • Opérations élémentaires dédition opérations
    permettant de  passer  dune séquence à une
    autre
  • insertions (i)
  • délétions (d)
  • substitutions (s)

A A - B C A A A A C B C A A
INsertion / DELétion INDEL
A A B C A A A A - C A A
A A B C A A A A C C A A
22
Université dAngers - Maîtrise de Biologie
Cellulaire
23
Quel est le meilleur alignement ?
GTTACGA GTT-GGA
GTTAC-GA GTT--GGA
GTTACGA GTTG-GA
5 matches 1 délétion 1 substitution (CgtG)
5 matches 1 délétion 1 substitution (AgtG)
5 matches 2 délétions 1 insertion
Système de score
se score élémentaire sp pénalité dindel
23
Université dAngers - Maîtrise de Biologie
Cellulaire
24
Les matrices nucléiques de substitution
  • Unitaire et unitaire inverse
  • Matrices évolutives

Matches 3
Transitions 1
Transversions 0
24
Université dAngers - Maîtrise de Biologie
Cellulaire
25
Les matrices protéiques de substitution
  • Matrice de substitution protéique liée au code
    génétique
  • Nombre de mutations nécessaires pour passer du
    codon d'un acide aminé au codon d'un autre acide
    aminé

1 mutation sur la première base du codon
25
Université dAngers - Maîtrise de Biologie
Cellulaire
26
Les matrices protéiques de substitution
  • Les matrices liées aux propriétés
    physico-chimiques
  • hydrophobie / hydrophilie (Levitt, 1976)
  • propension dun acide aminé à intégrer une
    structure secondaire précise (Levin, 1986).

26
Université dAngers - Maîtrise de Biologie
Cellulaire
27
Les matrices protéiques de substitution
  • Les matrices liées à lévolution matrices PAM
  • représentent les échanges possibles et
    acceptables dun acide aminé par un autre lors de
  • lévolution des protéines (Dayhoff,
    1978).
  • Principe de base si deux séquences
    appartiennent au même processus évolutif, et
    quun acide aminé de lune a été muté pour donner
    lautre, alors on peut supposer que les deux
    acides aminés sont similaires
  • les mutations sont dites acceptées (Point
    Accepted Mutation)
  • elles ont été conservées au cours de lévolution
    de part leur caractère à ne pas altérer la
    fonction de la protéine.
  • Les protéines évoluent via des successions de
    mutations ponctuelles indépendantes les unes des
    autres et acceptées dans la population.

27
Université dAngers - Maîtrise de Biologie
Cellulaire
28
La matrice de substitution PAM250 (Dayhoff, 1978)
?
?
28
Université dAngers - Maîtrise de Biologie
Cellulaire
29
Les matrices de substitution PAM (Dayhoff, 1978)
construction (1/4)
?
Fréquences déchanges de paires dacides aminés
Mutation fixée durablement au cours de lévolution
unité de distance évolutive 1 unité PAM une
mutation ponctuelle acceptée entre deux séquences
pour 100 résidus
Utilisation de 71 familles (1300 protéines) de
protéines à 85 identiques
Construction darbres phylogénétiques
Construction des matrices pour chaques
couples dacides aminés échangés
29
Université dAngers - Maîtrise de Biologie
Cellulaire
30
Les matrices de substitution PAM (Dayhoff, 1978)
construction (2/4)
?
Mutabilité des acides aminés (mj)
  • Propension dun acide aminé a être remplacé par
    un autre acide
  • aminé
  • Soit lalignement suivant
  • Les acides aminés en jeu sont les suivants A,
    D, E, F, W et R.

A D E F R E A D D W R E
30
Université dAngers - ISSBA - Option
Biotechnologie
31
Les matrices de substitution PAM (Dayhoff, 1978)
construction (3/4)
  • Calcul de la probabilité quun acide aminé i de
    la matrice remplace un acide aminé j
  • La matrice ainsi construite est appelée 1-PAM
    elle définit lunité de changement évolutif,
    lunité PAM. Deux séquences sont séparées par une
    distance évolutive de 1 PAM si il y a eu 1
    changement observé et accepté au cours de
    l'évolution pour 100 acides aminés.
  • Chaque élément de la matrice est divisé par la
    fréquence doccurrence de chaque acide aminé

Université dAngers - Maîtrise de Biologie
Cellulaire
31
32
Les matrices de substitution PAM (Dayhoff, 1978)
construction (4/4)
  • Elle est calculée en prenant le logarithme de la
    matrice précedente
  • Cette matrice peut être utilisée pour simuler
    l'évolution en utilisant un générateur de nombres
    aléatoires afin de prédire le devenir de chaque
    résidu et ceci en accord avec les probabilités
    données dans la table. Les opérations suivantes
    sont équivalentes
  • - applications successives de 1-PAM sur une
    séquence
  • - multiplication de la matrice 1-PAM par
    elle-même puis application à une séquence
  • - rééchelonnage des éléments de 1-PAM par une
    constante de proportionnalité suivi de
    l'application à une séquence

32
Université dAngers - Maîtrise de Biologie
Cellulaire
33
Les matrices de substitution PAM (Dayhoff, 1978)
construction (4/4)
  • Utilisation de la matrice PAM

Twilight Zone
Distances (en de différences)
PAM
33
Université dAngers - Maîtrise de Biologie
Cellulaire
34
La matrice de substitution PAM250 (Dayhoff, 1978)
Lasparagine et lalanine sont plus mutables
que les acides aminés aromatiques
Les aromatiques sont peu mutables
34
Université dAngers - Maîtrise de Biologie
Cellulaire
35
Les matrices protéiques de substitution
  • Les matrices de type BLOSUM (BLOcks Substitution
    Matrix)
  • observation de blocs dacides aminés issus de
    protéines relativement éloignées
  • chaque bloc provient dalignements multiples
    sans insertions / délétions de courtes régions
    conservées
  • les blocs sont utilisés pour regrouper tous les
    segments de séquences ayant un pourcentage
    didentité minimum au sein de leur bloc
  • on en déduit des fréquences de substitution pour
    chaque paire dacides aminés
  • on calcule une matrice logarithmique de
    probabilité
  • à chaque pourcentage didentité correspond une
    matrice
  • BLOSUM50 avec un seuil didentité de 50
  • BLOSUM62 avec un seuil didentité de 62 .

35
Université dAngers - Maîtrise de Biologie
Cellulaire
36
Quelle matrice de substitution choisir ?
Identité
PAM
BLOSUM
  • Pas de matrice idéale
  • Les matrices dérivées des mutations observées
    donnent,
  • pour les protéines, de meilleurs résultats que
    les matrices
  • basées sur lidentité, le code génétique ou les
    propriétés
  • physico-chimiques.
  • Matrices PAM établies par M. Dayhoff (1978)
  • donnent un trop grand poids aux identités
  • négligent trop les ressemblances structurales
  • PAM250 séquences éloignées, faible identité
  • PAM125 séquences proches, identité élevée.
  • Matrices BLOSUM (1992)
  • construites à partir de plus de données
  • BLOSUM62 séquences proches, identité élevée
  • BLOSUM30 séquences éloignées, identité faible.
  • Barton, G.J. (1996),  Protein Sequence Alignment
    and Database Scanning , In Protein Structure
    Prediction A Practical Approach (Ed. M.J.E.
    Sternberg), IRL Press at Oxford University Press.
  • http//barton.ebi.ac.uk/papers/rev93_1/rev93_1.htm
    l

100
90
90
80
50
70
62
60
50
50
100
40
120
30
30
20
250
10
0
36
Université dAngers - Maîtrise de Biologie
Cellulaire
37
Alignement global et programmation dynamique
Needlemann Wunsch (1970)
  • Soient 2 séquences A et B de longueur respective
    m et n
  • Soient i et j 2 acides aminés quelconques de A
    et B.

Construction dune matrice de comparaison (m,n)
Matrice transformée par laddition de scores
Chemin des scores maxima
37
Université dAngers - Maîtrise de Biologie
Cellulaire
38
Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement global des séquences
VTEERDAF et LTSHEAL avec la matrice PAM250
i
iltx?m y j1
j
x i1 jlty?n
Matrice initiale
Transformation de la matrice initiale
38
Université dAngers - Maîtrise de Biologie
Cellulaire
39
Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement des séquences VTEERDAF et
LTSHEAL avec la matrice PAM250
S(R,H) se(R,H) max S(x,y) se(R,H)
2 S(x,y) ? S(D,E) 7 ? S(A,E) 2 ? S(F,E)
-5 ? S(D,A) 2 ? S(D,L) -4
Matrice initiale
Matrice en cours de transformation
39
Université dAngers - Maîtrise de Biologie
Cellulaire
40
Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement des séquences VTEERDAF et
LTSHEAL avec la matrice PAM250
substitution
insertion dans i délétion dans j
insertion dans j délétion dans i
V T - E E R D A F L T S H E - - A L
Matrice transformée et chemin des scores maxima
Listing dédition
40
Université dAngers - Maîtrise de Biologie
Cellulaire
41
Alignement global limites
  • Les deux séquences présentent une similarité que
    lalignement global ne révèle pas

G G C T G A C C A C C - T T
G A - T C A C T T C C A T G
  • Un alignement local aurait donné le résultat
    suivant

G G C T G A C C A C C T T
G A T C A C - T T C C A T G
41
Université dAngers - Maîtrise de Biologie
Cellulaire
42
Alignement local Smith Waterman (1981)
  • Nimporte quelle cellule de la matrice de
    comparaison peut être prise comme point de départ
    pour le calcul des scores sommes
  • Tout score somme qui devient négatif stoppe la
    progression du calcul. Cette nouvelle case peut
    être initialisée à 0 et constituer un nouveau
    point de départ.

Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
Matrice initiale
Matrice dont les scores négatifs ont été supprimés
42
Université dAngers - Maîtrise de Biologie
Cellulaire
43
Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
i
i2ltx?m y j1
j
x i1 j2lty?n
Matrice initiale
Transformation de la matrice initiale
43
Université dAngers - Maîtrise de Biologie
Cellulaire
44
Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
S(R,H) se(R,H) max S(x,y) se(R,H) 2 P
6 S(x,y) ? S(D,E) 7 ? S(F,E) -6 ? S(D,L)
-6
Matrice initiale
Matrice en cours de transformation
44
Université dAngers - Maîtrise de Biologie
Cellulaire
45
Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
substitution
insertion dans i délétion dans j
insertion dans j délétion dans i
3 E E R D A F 8 2 T S H E A L 7
Matrice transformée et chemin des scores maxima
Listing dédition
45
Université dAngers - Maîtrise de Biologie
Cellulaire
46
Alignement local recherches de similitudes dans
les banques de séquences
  • Pourquoi ?
  • Savoir si ma séquence ressemble à d'autres déjà
    connues
  • Trouver toutes les séquences d'une même famille
  • Rechercher toutes les séquences qui contiennent
    un motif donné
  • Outils
  • grand volume de texte à traîter
  • programmes classiques dalignement inutilisables
  • utilisation dheuristiques
  • programmes BLAST et FASTA
  • le résultat n est pas garanti comme étant le
    meilleur

46
Université dAngers - Maîtrise de Biologie
Cellulaire
47
BLAST Basic Local Alignment Search Tool
(Altschul et al, 1990)
  • Recherche de régions sans insertions / délétions
    riches en similarité
  • Détermination dune longueur de mot w 2 ou 3
    acides aminés pour les protéines
  • Hachage de la séquence  requête  en mot de
    taille w

Séquence requête
m
Liste de mots voisins de longueur w ayant un
score supérieur à un seuil T fixé par rapport au
mot m.

Chaque mot similaire au mot m est comparé
à chaque mot de taille w pris dans chaque
séquence Bi de la banque. Lorsquun mot dune
séquence Bi est identique à un mot de la liste de
mots voisins, un hit est enregistré.
Pour chaque hit, le programme effectue une
extension sans gap de lalignement dans les deux
sens. Lextension sarrête quand le score du mot
étendu diminue de plus quun seuil X fixé. Les
segments ayant un score de similarité supérieur à
un score S seuil fixé sont retenus (High Scoring
Pairs HSP).
47
Université dAngers - Maîtrise de Biologie
Cellulaire
48
BLAST exemple
m(w3)
S L A A L L N K C K T P Q G Q R L V N Q W
P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D
G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N
12 ...
S(P,P) 7 S(Q,R) 1 S(G,G) 6
Liste de mots voisins
Score seuil T 13
Query 325 S L A A L L N K C K T P Q G Q R L V
N Q W 345 L A L T P
G R W Sbjct 290 T L A S V L D C T V
T P M G S R M L K R W 310
High Scoring Pairs (HSP)
48
Université dAngers - Maîtrise de Biologie
Cellulaire
49
BLAST Approche à adopter
  • Choix de lalgorithme
  • Matrice de substitution
  • Stratégie de recherche nucléique ou protéique
  • Traitement du bruit de fond.

BLAST Paramètres par défaut
FASTA Paramètres par défaut
Filtrage
BLAST Adaptation des paramètres
FASTA Adaptation des paramètres
49
Université dAngers - Maîtrise de Biologie
Cellulaire
50
BLAST Choix du programme
SEQUENCE
BANQUE
BLASTP
Protéique
Protéique
BLASTX
TBLASTN
T
T
BLASTN
Nucléique
Nucléique
TBLASTX
T
T
50
Université dAngers - Maîtrise de Biologie
Cellulaire
51
BLAST sur Internet Requête(1/8)
http//www.ncbi.nlm.nih.gov/blast/
séquence requête
choix de la base de données
51
Université dAngers - Maîtrise de Biologie
Cellulaire
52
BLAST sur Internet Paramètres (2/8)
http//www.ncbi.nlm.nih.gov/blast/
Limiter la recherche à une espèce
Filtre pour les séquences de faible complexité
E-value limite
Taille w du mot m
Choix de la matrice et gestion des indels
Position Specific Score Matrix
PSI - BLAST
Options supplémentaires
Motif PHI - BLAST
52
Université dAngers - Maîtrise de Biologie
Cellulaire
53
BLAST sur Internet Format de la sortie (3/8)
http//www.ncbi.nlm.nih.gov/blast/
Limiter l affichage des résultats à une espèce
Limiter laffichage des résultats à une plage de
valeur dE-value
Pour recevoir les résultats par e-mail
53
Université dAngers - Maîtrise de Biologie
Cellulaire
54
BLAST sur Internet Fichier de sortie (5/8)
http//www.ncbi.nlm.nih.gov/blast/
Séquence requête
Banques de données choisies
54
Université dAngers - Maîtrise de Biologie
Cellulaire
55
BLAST sur Internet Fichier de sortie (6/8)
http//www.ncbi.nlm.nih.gov/blast/
Nombres de hits
Répartition des hits en fonction du score
55
Université dAngers - Maîtrise de Biologie
Cellulaire
56
BLAST sur Internet Fichier de sortie (7/8)
http//www.ncbi.nlm.nih.gov/blast/
56
Université dAngers - Maîtrise de Biologie
Cellulaire
57
BLAST sur Internet Fichier de sortie (8/8)
http//www.ncbi.nlm.nih.gov/blast/
57
Université dAngers - Maîtrise de Biologie
Cellulaire
Write a Comment
User Comments (0)
About PowerShow.com