Title: Dveloppement et adaptation des plantes
1Développement et adaptation des plantes Biologie
moleculaire et intégrative Université
Montpellier II AGRO-M Université de
Perpignan Analyse informatique des séquences
2Les étapes du séquençage
- 1955 insuline 51aa
- 1965 ARNt 75nt
- 1968 enzymes de restriction
- 1972 clonage dans des plasmides
- 1978 séquençage rapide
- 1990 automatisation
- 2003 gt 500000 séquences/semaine
3Les banques de séquences(évolution)
4Les banques de séquences (répartition)
5Pourquoi créer des banques de séquences ?
- une augmentation spectaculaire de la masse de
données - des séquençages anonymes
- criblage différentiel
- séquençage au hasard (EST etc)
- séquences génomiques
- structuration de l'information
- présentation standardisée
- interrogation efficace
6Les types de banques de séquences
- les banques "automatiques" (ex EMBL, GenBank)
- soumission directe, obligatoire
- contrôle de qualité (très) sommaire
- confiance aux auteurs
- les banques expertisées (ex SwissProt)
- contenu contrôlé
- utilisation d'experts
- les banques mixtes (ex PIR)
- les banques à thèmes (ex IMGT)
- par organisme, famille de protéines
- qualité en fonction des auteurs
7Une fiche de GenBank
LOCUS ATDAD1 570 bp mRNA
PLN 04-SEP-1997 DEFINITION A.thaliana
mRNA for DAD-1-like protein. ACCESSION
X95585 VERSION X95585.1 GI1184192 KEYWORDS
DAD-1. SOURCE thale cress. ORGANISM
Arabidopsis thaliana, Eukaryota Viridiplantae
... Arabidopsis. REFERENCE 1 (bases 1 to
570) AUTHORS Gallois,P., Makishima,T.,
Hecht,V., Despres,B., Laudie,M.,etc TITLE
An Arabidopsis thaliana cDNA complementing a
hamster mutant JOURNAL Plant J. 11 (6),
1325-1331 (1997) MEDLINE 97368857 REFERENCE
2 (bases 1 to 570) AUTHORS Cooke,R.M.
TITLE Direct Submission JOURNAL Submitted
(07-FEB-1996) R.M. Cooke, Universite de
Perpignan, LPBMP, UA565 CNRS, 52
Avenue de Villeneuve, 66860 Perpignan-CEDEX,
FRANCE FEATURES Location/Qualifiers
source 1..570
/organism"Arabidopsis thaliana"
/clone_lib"TAP0055" CDS 26..373
/codon_start1
/db_xref "SWISS-PROTQ39080 "
/product"DAD-1 homologue"
/translation"MVKSTSKDAQDLFRSLRSAYSATPTNLKIIDLYVVF
AVFTALIQ .." BASE COUNT
132 a 113 c 115 g 210 t ORIGIN
1 tttgtttgtt gttcttcgat tgaaaatggt
gaaatcgacg agtaaggatg ctcagga...
8Les banques de séquences et autres banques
9L'analyse d'une séquence anonyme
- y a-t-il déjà des séquences nucléotidiques
identiques ou similaires? - quelle protéine est codée par la séquence?
- que sait-on déjà sur les séquences similaires et
dans quel(s) organisme(s)? - où se trouve le gène sur le génome?
- la protéine comporte-t-elle des motifs qui
donnent une idée de sa fonction et localisation? - quelles informations peut-on obtenir de la
comparaison avec les protéines similaires dans
différents organismes (phylogénie)? - y a-t-il des études fonctionnelles sur le gène?
10A chaque question un/plusieurs logiciel(s)pour
obtenir une/plusieurs réponse(s)
Comparaison de séquences nt vs nt nt vs
aa motifs alignement multiple localisation ba
ses de données biblio
BLASTN BLASTX Prosite, Blocks, ... Clustal,
Multalin, ... Psort, Predotar, ... TAIR,
Maizedb, ... résultats BLAST, Entrez, Inist,
...
ARNm, gène protéine motifs fonctionnels conser
vation de séquences intra/extracellulaire (cp,
mit, membrane, ...) séquençage, carto, lignées,
... séquence, expression, biochimie,
physiologie, ...
11L'informatique a des limites
- Les résultats des bioanalyses ne sont pas
forcément des vérités biologiques - Les analyses sont basées sur des modèles
mathématiques et empruntent parfois des
raccourcis - Donc, les résultats sont (souvent) présentés sous
forme d'une probabilité - Il vous incombe, sur la base des résultats que
vous obtenez, de vos connaissances et (souvent)
de votre bon sens d'interpréter ces résultats - Toute conclusion basée sur la bioanalyse doit
être confirmée par d'autres expériences
12(No Transcript)
13Faire plus vite BLAST(Basic Local Alignment
Search Tool)
14Comment mesurer la similitude?
- Nucléotides
- 4 bases possibles, une matrice simple
- G A T C
- G 1 -3 -3 -3
- A -3 1 -3 -3
- T -3 -3 1 -3
- C -3 -3 -3 1
- Protéines
- 20 acides aminés possibles
- certains peuvent en remplacer d'autres
- lesquels remplacent lesquels et avec quelle
fréquence? - création d'une matrice de substitution
- PAM (percent accepted mutation)
15Les équivalences des acides aminés
16La matrice PAM250
17Qu'est-ce qui est significatif ?
- il est rare qu'une analyse en bioinformatique ne
donne aucune réponse - l'interprétation de certains résultats est
évident - d'autres sont plus mitigés
- chercher la confirmation
- un exemple un alignement de nucléotides .....
18 19(No Transcript)
20- comparer avec d'autres protéines
21Obtenir d'autres informations
- la biblio
- les motifs fonctionnels
- les prédictions de ciblage intra(extra)cellulaire
- les manips ...
22http//gala.univ-perp.fr/cooke/newdea/