Title: Application de m
1Application de méthodes de fouille de textes pour
lannotation fonctionnelles de gènes
- 22 mai 2006
- UMR_S 729
- Ingénierie des connaissances en santé
- Natalia Grabar
- Inès Jilani
- Marie-Christine Jaulent
2Sommaire
- Contexte
- Confronter les résultats expérimentaux en
biologie à ceux déjà publiés dans la littérature - Thématiques de recherche associées
- Apport de lingénierie des connaissances et du
traitement automatique des langues (TAL) - Travaux de recherche
- Consortium au sein de la Plateforme biologie
des systèmes de Paris 5 (C. Néri) - En pratique
- Premiers résultats
- Perspectives
3Introduction
Daprès Stéphane LE CROM (séminaire biopuces,
février 2006) Méthodes bioinformatique d'analyse
des puces à ADN analyse de l'image,
normalisation et stockage des données
4Contexte
- Validation et interprétation des résultats
expérimentaux - Confrontation avec des connaissances antérieures
- Ressources
- La littérature ? travail manuel fastidieux
- Gene Ontology (GO) ? une ressource terminologique
- Les bases de données ? nombreuses mais
incomplètes - Mises à jour manuellement à partir de la
littérature en utilisant les termes de GO - Recherche active (Gene Ontology Annotation
consortium)
5Contexte
- Validation et interprétation des résultats
expérimentaux - Confrontation avec des connaissances antérieures
- Ressources
- La littérature ? travail manuel fastidieux
- Gene Ontology (GO) ? une ressource terminologique
- Les bases de données ? nombreuses mais
incomplètes - Mises à jour manuellement à partir de la
littérature en utilisant les termes de GO - Recherche active (Gene Ontology Annotation
consortium) - Objectifs
- Développer des outils informatiques pour extraire
des connaissances de sources textuelles en
biologie - Accélérer le processus de validation
6Enjeux
- Recherche dinformation sur Internet très
coûteuse en temps (analyse de grands volumes de
données) - Analyse des articles pour extraire la
connaissance - Plusieurs approches mises en concurrence lors de
compétitions internationales
7U729 Ingénierie des connaissances en santé
- Acquérir, modéliser et représenter les
connaissances médicales - Connaissance implicite et explicite
- Extraction de connaissances par des méthodes de
fouille de textes - Construire des systèmes à base de connaissances
(SBC) qui sintègrent dans la pratique médicale
(serveurs dexpertise) - Codage et partage du dossier médical, détection
de signal en pharmacovigilance, systèmes
dassistance à la décision (alertes),
prescription automatique, estimation
personnalisée des risques, diffusion des guides
de bonnes pratiques, - Service web Annotation fonctionnelle de gènes
- Evaluation
- Qualité, acceptabilité, impact
- Comparer les connaissances extraites des textes
avec celles qui se trouvent déjà dans les bases
(précision et rappel)
8Travaux de recherche dans le cadre de la
plateforme biologie des systèmes de
luniversité Paris 5
9Consortium
- INSERM AVENIR IFR77 Laboratoire de biologie
génomique - Christian Néri, Céline Lefebvre, Edouard Hérion
- CNRS UMR 8145 MAP5
- Antoine Chambaz,
- CRIP5 Centre de recherche en Informatique de
Paris 5 équipe IAD - Sylvie Després, Valentina Ceausu
- INSERM UMR_S 729 IFR 58 SPIM
- Natalia Grabar, Inès Jilani, Marie-Christine
Jaulent
10Le contexte biologique du projet
- Clusters obtenus par la méthode Best-Balanced
Constraint Procedure
Lefebvre C, Aude JC, Clément E, and Néri C.
Balancing protein similarity and gene
co-expression reveals new links between genetic
conservation and developmental diversity in
invertebrates. Bioinformatics 200521(8)1550--8.
11Le contexte biologique du projet
- Clusters obtenus par la méthode Best-Balanced
Constraint Procedure
Lefebvre C, Aude JC, Clément E, and Néri C.
Balancing protein similarity and gene
co-expression reveals new links between genetic
conservation and developmental diversity in
invertebrates. Bioinformatics 200521(8)1550--8.
12Le système envisagé
13Les objectifs spécifiques
- Retrouver automatiquement les documents
pertinents depuis Medline - Filtrage automatique à partir des noms des gènes
- Score de pertinence pour les documents
- Créer les ressources lexicales nécessaires
- Normalisation des termes GO
- Désambiguïsation des noms de gènes
- Implémenter des méthodes dextraction de
connaissances - Couples (gène, fonction) ? annotation
fonctionnelle de gènes - Développer des services pour les biologistes
14Les objectifs spécifiques
- Retrouver automatiquement les documents
pertinents depuis Medline - Filtrage automatique à partir des noms des gènes
- Score de pertinence pour les documents
- Créer les ressources lexicales nécessaires
- Normalisation des termes GO
- Désambiguïsation des noms de gènes
- Implémenter des méthodes dextraction de
connaissances - Couples (gène, fonction) ? annotation
fonctionnelle de gènes - Développer des services pour les biologistes
- Mais aussi
- Contribuer à la mise à jour les bases de données
- Identifier de nouvelles connaissances
15Les objectifs spécifiques
- Retrouver automatiquement les documents
pertinents depuis Medline - Filtrage automatique à partir des noms des gènes
- Score de pertinence pour les documents
- Créer les ressources lexicales nécessaires
- Normalisation des termes GO
- Désambiguïsation des noms de gènes
- Implémenter des méthodes dextraction de
connaissances - Couples (gène, fonction) ? annotation
fonctionnelle de gènes - Développer des services pour les biologistes
- Mais aussi
- Contribuer à la mise à jour les bases de données
- Identifier de nouvelles connaissances
16Les méthodes dextraction de connaissances
- Patrons lexico-syntaxiques (Jilani et al., 2006)
- repérage par rapport aux schémas réccurrents dans
la langue - Log-Facteur de vraisemblance (Grabar et al.,
2005) - cooccurrences stables gt relations sémantiques
- Règles dassociation (Ceausu et al., 2006)
- attraction de mots et de termes
- Approche interne (en cours)
- déchiffrage de fonctions encodées dans les noms
de gènes
17Les méthodes dextraction de connaissances
- Patrons lexico-syntaxiques (Jilani et al., 2006)
- repérage par rapport aux schémas réccurrents dans
la langue - Log-Facteur de vraisemblance (Grabar et al.,
2005) - cooccurrences stables gt relations sémantiques
- Règles dassociation (Ceausu et al., 2006)
- attraction de mots et de termes
- Approche interne (en cours)
- déchiffrage de fonctions encodées dans les noms
de gènes
18Un exemple de PLS
- ltNomgtltVerbegtby theltNomgt
19Les PLS pour lannotation fonctionnelle de gènes
20Interface de validation
21Qualifier les résultats obtenus avec des scores
de confiance
22Les expérimentations réalisées
- 1) Deux espèces D melanogaster C elegans
- 719 clusters (3851 gènes)
- 1040 gènes annotés avec llr
- 2) Deux espèces H sapiens C elegans
- 69 clusters (416 gènes)
- 158 gènes annotés avec llr PLS
- La validation est en cours
23Comparer les méthodes par exemple pour le FCM 197
Termes GO t Cyk-1 (cael) Ima-2 (cael) Kpna-2 (hosa) Man1a1 (hosa) Snrpn (hosa) Zc410.3 (cael)
nuclear chromosome cc llr llr llr
M phase bp pls pls
cytokinesis bp llr, man, pls
larval development bp man man
binding mf man
calcium ion binding mf man
DNA methylation bp llr, pls
cell cycle bp llr pls
embryonic cleavage bp
cell wall biosynthesis bp llr
man (annotation manuelle) pls (patrons
lexico-syntaxiques) llr (log-facteur de
vraissemblance)
24Perspectives
- Sélection des articles pertinents
- Prendre en compte lambiguïté et la synonymie des
noms de gènes et des termes - it, and, wee, ct
- Combiner les différentes méthodes dextraction de
connaissance afin quelles contribuent à
améliorer les résultats - Prendre en compte les scores de confiance dans la
procédure de validation des couples - Rendre le sytème le plus générique possible
- application à dautres espèces
25La méthodologie de validation des couples (gènes
fonctions) obtenus
- Comparer avec les informations contenues dans des
bases de données existantes - Lutilisation des termes Gene Ontology (Gene
Ontology Consortium, 2000) facilite cette
évaluation puisquils sont utilisés dans ces
mêmes bases et par notre méthode. - Compétitions organisées pour lévaluation
doutils automatiques - Est-ce que la méthode adoptée arrive à extraire
les informations recherchées ? - Validation par les biologistes
- Comparaison avec les clusters obtenus par la
méthode BBCP