Title: Rendre les standards de description de biopuces accessibles:
1Rendre les standards de description de biopuces
accessibles
- réalisation d'un module de conversion
inter-standard
Pierre Marguerite DESS Bioinformatique Lille
4 mai 31 octobre 2004
EBI Microarray Informatics Team
2Sommaire
- LInstitut Européen de Bioinformatique
- léquipe informatique Microarray
- La standardisation des données de biopuces?
- Le projet
- Les standards de description dagencement
- Contribution
- Bilan
3Services Banques de données Recherche en
bioinformatique et en biologie moleculaire Indust
rie Promouvoir des standards Formation
4(No Transcript)
5Services Banques de données Recherche en
bioinformatique et en biologie moleculaire Indust
rie Promouvoir des standards Formation
6léquipe Microarray MicroArray Informatics Team
- les résultats dexpériences de biopuces
- Une petite équipe 26 développeurs, annotateurs,
doctorants - Un projet ArrayExpress
- Banque de données publique de données de biopuces
- Déclinaison en toxicogénomique et nutrigénomique
- MGED
- Standardisation des données de biopuces
7ArrayExpress
8léquipe Microarray MicroArray Informatics Team
- les expériences de biopuces
- -gt petite équipe 26 développeurs, annotateurs
- Un projet ArrayExpress
- Banque de données publique de données de biopuces
- Déclinaison en toxicogénomique et nutrigénomique
- Le consortium MGED
- Standardisation des données de biopuces
9la standardisation ?
- Hétérogénéité des applications et des techniques
- Des éléments non pris en compte
- gt expériences non comparables
- Nombreux formats de données
- Même données -gt beaucoup de manipulation
- Différents termes -gt pour la même signification
- Le même terme -gt des concepts différents
Recommandations MIAME
MAGE
Ontologie MGED
10Le projet
- Un constat de plus en plus de données à traiter
et un manque doutils - Outil de conversion des fichiers de description
dagencement
11Outil de conversion
12Les descriptions dagencement
- Informations initiales avant une expérience
- méta données (contacts, un numéro de version, )
- Feature position sur une lame de biopuces,
définie par ses coordonnées - Reporter élément déposé sur une feature, qui a
certaines caractéristiques, - Composites séquences composites entre les
reporter vers une entité biologique. - 2 formats
- MAGE-ML XML
- ADF (Array Design File) fichiers tabulaires
13MAGE-ML (MAGE-OM)
14MAGE-ML (suite)
15Array Design File
adc
adr
adh
contacts
Header
Informations techniques
16Array Design File
Reporters
adc
Features
adr
Feature /Reporter
17Array Design File
Liens avec les reporters
Caractéristiques
Composite
18Contribution
- Application
- indépendante (pas de DB)
- Multi plateforme
- En 2 étapes
- Validation
- conversion
19Validation (une étape obligatoire)
- Analyse syntaxique et lexicale des données
- Définition de règles de validation
- Utilisation de fichiers XML pour décrire les
structures des fichiers de données (ADF) - Vérification des termes de la ontologie MGED
- Vérification des banques de données approuvées
- Rapport derreurs pour correction
(standardisation des données)
20Implémentation - choix techniques
- Utilisation de MAGE-stk (perl ou Java)
- Simplicité dinstallation
- Multi plateforme
- Multiples formats de sortie
21Problèmes rencontrés
- Mémoire
- Beaucoup de données
- Et leur redondance
- Flexibilité
- Acceptation et correction déléments incorrects
- Nouvelles versions des formats de descriptions
- Support minimum pour futurs applications des
biopuces
22Une adresse http//www.ebi.ac.uk/adf
http//www.ebi.ac.uk/adf/
23Bilan
- Bilan pour léquipe
- Premier outil de vérification complète des
données de description - Soulager le travail des annotateurs en déplaçant
la validation des données de description à la
source (biologistes ou fabricants) - Un bilan personnel positif, mais douloureux
- 6 mois en Angleterre
- Gestion de projet
- Nombreux contacts
24(No Transcript)