Manipulation et traitement de donn - PowerPoint PPT Presentation

About This Presentation
Title:

Manipulation et traitement de donn

Description:

Manipulation et traitement de donn es massives Scripts et Pertinence des donn es Raymond Ripp – PowerPoint PPT presentation

Number of Views:144
Avg rating:3.0/5.0
Slides: 33
Provided by: Raymo86
Category:

less

Transcript and Presenter's Notes

Title: Manipulation et traitement de donn


1
Manipulation et traitement de données massives
  • Scripts et
  • Pertinence des données

Raymond Ripp
2
Traiter beaucoup de données
  • 30000 protéines pour Homo sapiens
  • Ce nest pas faisable manuellement
  • trop long, trop compliqué
  • risque derreurs (par ex. coupé-collé)
  • Automatiser
  • Trouver loutil idéal
  • Utiliser les outils existants
  • Tout faire soi-même

3
Loutil interactif
  • Malheureusement beaucoup doutils ne sont
    utilisables quà travers une interface graphique
  • par ex. Seqlab de GCG
  • sites web
  • Pourquoi ?
  • convivial
  • actions prédéfinies
  • interrogation
  • évite la fuite des données des sites web

4
Gérer soi-même les données
  • Les trouver
  • Les rapatrier
  • en bloc
  • à la volée
  • Les traiter
  • Les stocker
  • Les rendre disponibles
  • faire un site web.

5
1/ Accéder aux données
6
Accéder aux données Bases de données vs Données
à plat
  • Une base de données bien faite permet un
    accès direct aux données
  • niveau de précision (par ex pour une protéine)
  • Texte en vrac de la séquence et des infos
    concernant fonction, organisme, biblio, etc.
  • SequenceAA , TaxId, InterPro
  • Relations avec dautres information
  • Localisation génomique, expression
  • Facilité daccès
  • Interactif, requête SQL

7
Les formats des données à plat (hors base
de données )
  • Les données sont dans des fichiers rangés dans
    une arborescence
  • Généralement un format de fichier  binaire  est
    associé à une application
  • Word .doc, Excell .xls, etc.
  • Images .jpg, .tif, Sons .mp3, Vidéos
  • Sinon cest du Texte (Ascii)
  • lisible par lhumain et la machine
  • simple mais
  • pas agréable pour loeil
  • pas rapide ni précis
  • Web .html, .xml
  • Xml fédère tout le monde

8
Comment lire un fichier Excell
9
Universel ?
  • Peu de programme donne ainsi un moyen daccès
     simple  aux données quils produisent
  • Le programme est obligatoire
  • Pourquoi ne pas lire le binaire ?
  • Très difficile quand on ne sait pas comment il
    est organisé
  • Essai erreur
  • Ouvert Open
  • Si les spécifications existent le binaire est
    aussi lisible

10
Les formats standard en bioinfo
  • Public
  • Universitaire
  • Mondial
  • Historique
  • Compatible
  • Evolution
  • Avenir

11
Format Fasta dune séquence
  • gtPGS110 AaEcR-A Aedes aegypti Ecdysone receptor
    isoforme-A
  • MYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGS
  • GGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPST
  • ATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIP
  • SSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNE
  • EWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYS
  • PNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESG
  • YHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKK
  • CLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEI
  • LPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQD
  • GYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGL
  • PAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDS
  • YRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAEL
  • VEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEM
  • CFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSS
  • SNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANG
  • SGSGGGSNNNSSSGGVVPGLGMLDQVLV

12
Format Embl dune séquence
  • ID Q7UB09 PRELIMINARY PRT 391 AA.
  • AC Q7UB09
  • DT 01-OCT-2003 (TrEMBLrel. 25, Created)
  • DT DT 01-MAR-2004 (TrEMBLrel. 26, Last
    annotation update)
  • DE Putative xylanase.
  • GN YIEL OR S4034.
  • OS Shigella flexneri.
  • OC Bacteria Proteobacteria Gammaproteobacteria
    Enterobacteriales
  • OC Enterobacteriaceae Shigella.
  • OX NCBI_TaxID623
  • DR EMBL AE016991 AAP19014.1 -.
  • DR GO GO0005975 Pcarbohydrate metabolism
    IEA.
  • DR InterPro IPR000379 Ser_estrs.
  • DR Pfam PF02922 Isoamylase_N 1.
  • KW Glycosidase Hydrolase Xylan degradation.
  • SQ SEQUENCE 391 AA 43049 MW
    0C6006A9977CFBC0 CRC64
  • MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV
    TQVNADNSVT FRYFAPGAKN
  • VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF
    NVDGVRSIDT GTAMTKPQRQ
  • TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD
    VVTGKDIAGL KTELEQKKIK

13
Format Genbank 1/2
  • LOCUS NC_003071 19643621 bp DNA
    PLN 13-AUG-2001
  • DEFINITION Arabidopsis thaliana chromosome 2,
    complete sequence.
  • ACCESSION NC_003071
  • SOURCE thale cress.
  • ORGANISM Arabidopsis thaliana
  • Eukaryota Viridiplantae
    Streptophyta Embryophyta Tracheophyta
  • FEATURES Location/Qualifiers
  • source 1..19643621
  • /organism"Arabidopsis
    thaliana"
  • /cultivar"Columbia"
  • /db_xref"taxon3702"
  • /chromosome"2"
  • gene complement(64436..66139)
  • /gene"At2g01040"
  • /note"F23H14.1 pseudogene,
    disease resistance protein"
  • /pseudo
  • mRNA complement(lt67337..gt68884)
  • gene complement(67337..68884)
  • /gene"At2g01050"

14
Format Genbank 2/2
  • mRNA complement(join(lt72279..72950,73
    073..73142,73240..73297,
  • 73383..73425,73509..73585,737
    85..73907,74190..74340))
  • /gene"At2g01060"
  • gene complement(67337..68884)
  • /gene"At2g01050"
  • /note"F23H14.2 predicted
    by genscan"
  • CDS complement(67337..68884)
  • /gene"At2g01050"
  • /codon_start1
  • /product"hypothetical
    protein"
  • /db_xref"GeneIDAt2g01050"
  • /protein_id"NP_178215.1"
  • /db_xref"GI15226168"
  • /translation"MLDVGEKGRPPGDPP
    DKLESWATKVKGSAGGGILKPEDVIDDEF
  • VRERVGLEFPDGEDEEPVITIGEEVLEAM
    NGLWKKCMIVKVLGSQIPISVLNRKLREL
  • WKPSGVMTVMDLPRQFFMIRFELEEEYMA
    ALTGGPWRVLGNYLLVQDWSSRFDPLRDD
  • IVTTPVWVRLSNIPYNYYHRCLLMEIARG
    LGRPLKVDMNTINFDKGRFARVCIEVNLA
  • KPLKGTVLINGDRYFVAYEGLSKICSSCG
    IYGHLVHSCPRNVVVKVSAGAETVTDRAV
  • VPVGMEGDDGFTVVQRTARRPAAPVQKMV
    FAVGASGGRSKQRLRELPKNQGVDLANRF

15
il ny a pas que des séquences
  • Blast
  • Alignements
  • GO
  • Références bibliographiques
  • Data mining

16
Où trouver les données ?
  • Dans les banques de données
  • Ramener la banque en entier
  • Traiter les fichiers ainsi stockés sur le disque
  • Chercher linfo pertinente à la volée
  • Faire une requête ciblée dans une banque de
    données
  • SRS le permet

17
(No Transcript)
18
(No Transcript)
19
(No Transcript)
20
(No Transcript)
21
2/ Traiter ces données
22
Quest quun script ?
  • Cest un programme.
  • Qui enchaîne une suite de programmes
  • (pris dans un boîte à outils)
  • Écrit dans un langage
  • sh, csh, tcsh, bash
  • Perl, Tcl, Python,
  • C, C, VisualBasic, Fortran, Java
  •  Mon langage est le meilleur ! 

23
Un script de metteur en scène
  • Qui utilise des outils
  • qui préexistent
  • qui doivent être écrits
  • Ce script sera lui aussi un outil

24
Boîte à outils
NCBI-toolbox
Gcg
Gscope
Emboss
25
Un exemple de traitement en local
26
sinon
27
Traitement à distance sur un site web
  • On simule par programme les actions répétitives
    de lutilisateur
  • Ce nest pas toujours possible
  • ce nest pas fait pour ça
  • il faut connaître lorganisation des données
  • Le format des données est souvent difficile à
    exploiter
  • Html, Xml, images
  • Problèmes de connexion et de gestion des
    décrochages
  • Attention aux mises à jour des sites

28
Les problèmes liés au massif
  • Long en temps
  • Plusieurs jours ou semaines
  • Lintervention humaine est souvent impossible
  • Puissance de calcul et de stockage
  • Erreurs ou incohérences
  • Plus de traitement plus derreurs
  • Causes externes
  • Coupures de courant, disques pleins
  • Les banques changent
  • Les programmes changent
  • Les questions changent

29
3/  Publier  la valeur ajoutée
  • Rendre vos résultat accessibles aux autres

30
Comment ?
  • En interne, en externe
  • En vrac, en finesse
  • Par une base de données utilisable 
  • Créer un site
  • rien que pour les yeux
  •  

31
Gscope
  • Collecte les données
  • Crée une base de données
  • Les visualise
  • Les rend accessibles
  • à tous les niveaux
  • en bloc
  • au détail
  • 150 000 lignes de programme Tcl/Tk

32
4/ À vos claviers !
  • Merci
Write a Comment
User Comments (0)
About PowerShow.com