Title: Manipulation et traitement de donn
1Manipulation et traitement de données massives
- Scripts et
- Pertinence des données
Raymond Ripp
2Traiter beaucoup de données
- 30000 protéines pour Homo sapiens
- Ce nest pas faisable manuellement
- trop long, trop compliqué
- risque derreurs (par ex. coupé-collé)
- Automatiser
- Trouver loutil idéal
- Utiliser les outils existants
- Tout faire soi-même
3Loutil interactif
- Malheureusement beaucoup doutils ne sont
utilisables quà travers une interface graphique - par ex. Seqlab de GCG
- sites web
- Pourquoi ?
- convivial
- actions prédéfinies
- interrogation
- évite la fuite des données des sites web
4Gérer soi-même les données
- Les trouver
- Les rapatrier
- en bloc
- à la volée
- Les traiter
- Les stocker
- Les rendre disponibles
- faire un site web.
51/ Accéder aux données
6Accéder aux données Bases de données vs Données
à plat
- Une base de données bien faite permet un
accès direct aux données - niveau de précision (par ex pour une protéine)
- Texte en vrac de la séquence et des infos
concernant fonction, organisme, biblio, etc. - SequenceAA , TaxId, InterPro
- Relations avec dautres information
- Localisation génomique, expression
- Facilité daccès
- Interactif, requête SQL
7Les formats des données à plat (hors base
de données )
- Les données sont dans des fichiers rangés dans
une arborescence - Généralement un format de fichier binaire est
associé à une application - Word .doc, Excell .xls, etc.
- Images .jpg, .tif, Sons .mp3, Vidéos
- Sinon cest du Texte (Ascii)
- lisible par lhumain et la machine
- simple mais
- pas agréable pour loeil
- pas rapide ni précis
- Web .html, .xml
- Xml fédère tout le monde
8Comment lire un fichier Excell
9Universel ?
- Peu de programme donne ainsi un moyen daccès
simple aux données quils produisent - Le programme est obligatoire
- Pourquoi ne pas lire le binaire ?
- Très difficile quand on ne sait pas comment il
est organisé - Essai erreur
- Ouvert Open
- Si les spécifications existent le binaire est
aussi lisible
10Les formats standard en bioinfo
- Public
- Universitaire
- Mondial
- Historique
- Compatible
- Evolution
- Avenir
11Format Fasta dune séquence
- gtPGS110 AaEcR-A Aedes aegypti Ecdysone receptor
isoforme-A - MYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGS
- GGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPST
- ATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIP
- SSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNE
- EWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYS
- PNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESG
- YHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKK
- CLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEI
- LPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQD
- GYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGL
- PAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDS
- YRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAEL
- VEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEM
- CFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSS
- SNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANG
- SGSGGGSNNNSSSGGVVPGLGMLDQVLV
12Format Embl dune séquence
- ID Q7UB09 PRELIMINARY PRT 391 AA.
- AC Q7UB09
- DT 01-OCT-2003 (TrEMBLrel. 25, Created)
- DT DT 01-MAR-2004 (TrEMBLrel. 26, Last
annotation update) - DE Putative xylanase.
- GN YIEL OR S4034.
- OS Shigella flexneri.
- OC Bacteria Proteobacteria Gammaproteobacteria
Enterobacteriales - OC Enterobacteriaceae Shigella.
- OX NCBI_TaxID623
- DR EMBL AE016991 AAP19014.1 -.
- DR GO GO0005975 Pcarbohydrate metabolism
IEA. - DR InterPro IPR000379 Ser_estrs.
- DR Pfam PF02922 Isoamylase_N 1.
- KW Glycosidase Hydrolase Xylan degradation.
- SQ SEQUENCE 391 AA 43049 MW
0C6006A9977CFBC0 CRC64 - MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV
TQVNADNSVT FRYFAPGAKN - VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF
NVDGVRSIDT GTAMTKPQRQ - TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD
VVTGKDIAGL KTELEQKKIK
13Format Genbank 1/2
- LOCUS NC_003071 19643621 bp DNA
PLN 13-AUG-2001 - DEFINITION Arabidopsis thaliana chromosome 2,
complete sequence. - ACCESSION NC_003071
- SOURCE thale cress.
- ORGANISM Arabidopsis thaliana
- Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta - FEATURES Location/Qualifiers
- source 1..19643621
- /organism"Arabidopsis
thaliana" - /cultivar"Columbia"
- /db_xref"taxon3702"
- /chromosome"2"
- gene complement(64436..66139)
- /gene"At2g01040"
- /note"F23H14.1 pseudogene,
disease resistance protein" - /pseudo
- mRNA complement(lt67337..gt68884)
- gene complement(67337..68884)
- /gene"At2g01050"
14Format Genbank 2/2
- mRNA complement(join(lt72279..72950,73
073..73142,73240..73297, - 73383..73425,73509..73585,737
85..73907,74190..74340)) - /gene"At2g01060"
- gene complement(67337..68884)
- /gene"At2g01050"
- /note"F23H14.2 predicted
by genscan" - CDS complement(67337..68884)
- /gene"At2g01050"
- /codon_start1
- /product"hypothetical
protein" - /db_xref"GeneIDAt2g01050"
- /protein_id"NP_178215.1"
- /db_xref"GI15226168"
- /translation"MLDVGEKGRPPGDPP
DKLESWATKVKGSAGGGILKPEDVIDDEF - VRERVGLEFPDGEDEEPVITIGEEVLEAM
NGLWKKCMIVKVLGSQIPISVLNRKLREL - WKPSGVMTVMDLPRQFFMIRFELEEEYMA
ALTGGPWRVLGNYLLVQDWSSRFDPLRDD - IVTTPVWVRLSNIPYNYYHRCLLMEIARG
LGRPLKVDMNTINFDKGRFARVCIEVNLA - KPLKGTVLINGDRYFVAYEGLSKICSSCG
IYGHLVHSCPRNVVVKVSAGAETVTDRAV - VPVGMEGDDGFTVVQRTARRPAAPVQKMV
FAVGASGGRSKQRLRELPKNQGVDLANRF
15 il ny a pas que des séquences
- Blast
- Alignements
- GO
- Références bibliographiques
- Data mining
-
-
16Où trouver les données ?
- Dans les banques de données
- Ramener la banque en entier
- Traiter les fichiers ainsi stockés sur le disque
- Chercher linfo pertinente à la volée
- Faire une requête ciblée dans une banque de
données - SRS le permet
17(No Transcript)
18(No Transcript)
19(No Transcript)
20(No Transcript)
212/ Traiter ces données
22Quest quun script ?
- Cest un programme.
- Qui enchaîne une suite de programmes
- (pris dans un boîte à outils)
- Écrit dans un langage
- sh, csh, tcsh, bash
- Perl, Tcl, Python,
- C, C, VisualBasic, Fortran, Java
- Mon langage est le meilleur !
23Un script de metteur en scène
- Qui utilise des outils
- qui préexistent
- qui doivent être écrits
- Ce script sera lui aussi un outil
24Boîte à outils
NCBI-toolbox
Gcg
Gscope
Emboss
25Un exemple de traitement en local
26sinon
27Traitement à distance sur un site web
- On simule par programme les actions répétitives
de lutilisateur - Ce nest pas toujours possible
- ce nest pas fait pour ça
- il faut connaître lorganisation des données
- Le format des données est souvent difficile à
exploiter - Html, Xml, images
- Problèmes de connexion et de gestion des
décrochages - Attention aux mises à jour des sites
28Les problèmes liés au massif
- Long en temps
- Plusieurs jours ou semaines
- Lintervention humaine est souvent impossible
- Puissance de calcul et de stockage
- Erreurs ou incohérences
- Plus de traitement plus derreurs
- Causes externes
- Coupures de courant, disques pleins
- Les banques changent
- Les programmes changent
- Les questions changent
293/ Publier la valeur ajoutée
- Rendre vos résultat accessibles aux autres
30Comment ?
- En interne, en externe
- En vrac, en finesse
- Par une base de données utilisable
- Créer un site
- rien que pour les yeux
-
31Gscope
- Collecte les données
- Crée une base de données
- Les visualise
- Les rend accessibles
- à tous les niveaux
- en bloc
- au détail
- 150 000 lignes de programme Tcl/Tk
324/ À vos claviers !