Application de m - PowerPoint PPT Presentation

1 / 25
About This Presentation
Title:

Application de m

Description:

Consortium au sein de la Plateforme ' biologie des syst mes ' de ... (alertes), prescription automatique, estimation personnalis e des risques, diffusion des ... – PowerPoint PPT presentation

Number of Views:29
Avg rating:3.0/5.0
Slides: 26
Provided by: jaul2
Category:

less

Transcript and Presenter's Notes

Title: Application de m


1
Application de méthodes de fouille de textes pour
lannotation fonctionnelles de gènes
  • 22 mai 2006
  • UMR_S 729
  • Ingénierie des connaissances en santé
  • Natalia Grabar
  • Inès Jilani
  • Marie-Christine Jaulent

2
Sommaire
  • Contexte
  • Confronter les résultats expérimentaux en
    biologie à ceux déjà publiés dans la littérature
  • Thématiques de recherche associées
  • Apport de lingénierie des connaissances et du
    traitement automatique des langues (TAL)
  • Travaux de recherche
  • Consortium au sein de la Plateforme  biologie
    des systèmes  de Paris 5 (C. Néri)
  • En pratique
  • Premiers résultats
  • Perspectives

3
Introduction
Daprès Stéphane LE CROM (séminaire biopuces,
février 2006) Méthodes bioinformatique d'analyse
des puces à ADN analyse de l'image,
normalisation et stockage des données
4
Contexte
  • Validation et interprétation des résultats
    expérimentaux
  • Confrontation avec des connaissances antérieures
  • Ressources
  • La littérature ? travail manuel fastidieux
  • Gene Ontology (GO) ? une ressource terminologique
  • Les bases de données ? nombreuses mais
    incomplètes
  • Mises à jour manuellement à partir de la
    littérature en utilisant les termes de GO
  • Recherche active (Gene Ontology Annotation
    consortium)

5
Contexte
  • Validation et interprétation des résultats
    expérimentaux
  • Confrontation avec des connaissances antérieures
  • Ressources
  • La littérature ? travail manuel fastidieux
  • Gene Ontology (GO) ? une ressource terminologique
  • Les bases de données ? nombreuses mais
    incomplètes
  • Mises à jour manuellement à partir de la
    littérature en utilisant les termes de GO
  • Recherche active (Gene Ontology Annotation
    consortium)
  • Objectifs
  • Développer des outils informatiques pour extraire
    des connaissances de sources textuelles en
    biologie
  • Accélérer le processus de validation

6
Enjeux
  • Recherche dinformation sur Internet très
    coûteuse en temps (analyse de grands volumes de
    données)
  • Analyse des articles pour extraire la
    connaissance
  • Plusieurs approches mises en concurrence lors de
    compétitions internationales

7
U729 Ingénierie des connaissances en santé
  • Acquérir, modéliser et représenter les
    connaissances médicales
  • Connaissance implicite et explicite
  • Extraction de connaissances par des méthodes de
    fouille de textes
  • Construire des systèmes à base de connaissances
    (SBC) qui sintègrent dans la pratique médicale
    (serveurs dexpertise)
  • Codage et partage du dossier médical, détection
    de signal en pharmacovigilance, systèmes
    dassistance à la décision (alertes),
    prescription automatique, estimation
    personnalisée des risques, diffusion des guides
    de bonnes pratiques,
  • Service web Annotation fonctionnelle de gènes
  • Evaluation
  • Qualité, acceptabilité, impact
  • Comparer les connaissances extraites des textes
    avec celles qui se trouvent déjà dans les bases
    (précision et rappel)

8
Travaux de recherche dans le cadre de la
plateforme  biologie des systèmes  de
luniversité Paris 5
9
Consortium
  • INSERM AVENIR IFR77 Laboratoire de biologie
    génomique
  • Christian Néri, Céline Lefebvre, Edouard Hérion
  • CNRS UMR 8145 MAP5
  • Antoine Chambaz,
  • CRIP5 Centre de recherche en Informatique de
    Paris 5 équipe IAD
  • Sylvie Després, Valentina Ceausu
  • INSERM UMR_S 729 IFR 58 SPIM
  • Natalia Grabar, Inès Jilani, Marie-Christine
    Jaulent

10
Le contexte biologique du projet
  • Clusters obtenus par la méthode Best-Balanced
    Constraint Procedure

Lefebvre C, Aude JC, Clément E, and Néri C.
Balancing protein similarity and gene
co-expression reveals new links between genetic
conservation and developmental diversity in
invertebrates. Bioinformatics 200521(8)1550--8.
11
Le contexte biologique du projet
  • Clusters obtenus par la méthode Best-Balanced
    Constraint Procedure

Lefebvre C, Aude JC, Clément E, and Néri C.
Balancing protein similarity and gene
co-expression reveals new links between genetic
conservation and developmental diversity in
invertebrates. Bioinformatics 200521(8)1550--8.
12
Le système envisagé
13
Les objectifs spécifiques
  • Retrouver automatiquement les documents
    pertinents depuis Medline
  • Filtrage automatique à partir des noms des gènes
  • Score de pertinence pour les documents
  • Créer les ressources lexicales nécessaires
  • Normalisation des termes GO
  • Désambiguïsation des noms de gènes
  • Implémenter des méthodes dextraction de
    connaissances
  • Couples (gène, fonction) ? annotation
    fonctionnelle de gènes
  • Développer des services pour les biologistes

14
Les objectifs spécifiques
  • Retrouver automatiquement les documents
    pertinents depuis Medline
  • Filtrage automatique à partir des noms des gènes
  • Score de pertinence pour les documents
  • Créer les ressources lexicales nécessaires
  • Normalisation des termes GO
  • Désambiguïsation des noms de gènes
  • Implémenter des méthodes dextraction de
    connaissances
  • Couples (gène, fonction) ? annotation
    fonctionnelle de gènes
  • Développer des services pour les biologistes
  • Mais aussi
  • Contribuer à la mise à jour les bases de données
  • Identifier de nouvelles connaissances

15
Les objectifs spécifiques
  • Retrouver automatiquement les documents
    pertinents depuis Medline
  • Filtrage automatique à partir des noms des gènes
  • Score de pertinence pour les documents
  • Créer les ressources lexicales nécessaires
  • Normalisation des termes GO
  • Désambiguïsation des noms de gènes
  • Implémenter des méthodes dextraction de
    connaissances
  • Couples (gène, fonction) ? annotation
    fonctionnelle de gènes
  • Développer des services pour les biologistes
  • Mais aussi
  • Contribuer à la mise à jour les bases de données
  • Identifier de nouvelles connaissances

16
Les méthodes dextraction de connaissances
  • Patrons lexico-syntaxiques (Jilani et al., 2006)
  • repérage par rapport aux schémas réccurrents dans
    la langue
  • Log-Facteur de vraisemblance (Grabar et al.,
    2005)
  • cooccurrences stables gt relations sémantiques
  • Règles dassociation (Ceausu et al., 2006)
  • attraction de mots et de termes
  • Approche interne (en cours)
  • déchiffrage de fonctions encodées dans les noms
    de gènes

17
Les méthodes dextraction de connaissances
  • Patrons lexico-syntaxiques (Jilani et al., 2006)
  • repérage par rapport aux schémas réccurrents dans
    la langue
  • Log-Facteur de vraisemblance (Grabar et al.,
    2005)
  • cooccurrences stables gt relations sémantiques
  • Règles dassociation (Ceausu et al., 2006)
  • attraction de mots et de termes
  • Approche interne (en cours)
  • déchiffrage de fonctions encodées dans les noms
    de gènes

18
Un exemple de PLS
  • ltNomgtltVerbegtby theltNomgt

19
Les PLS pour lannotation fonctionnelle de gènes
20
Interface de validation
21
Qualifier les résultats obtenus avec des scores
de confiance
22
Les expérimentations réalisées
  • 1) Deux espèces D melanogaster C elegans
  • 719 clusters (3851 gènes)
  • 1040 gènes annotés avec llr
  • 2) Deux espèces H sapiens C elegans
  • 69 clusters (416 gènes)
  • 158 gènes annotés avec llr PLS
  • La validation est en cours

23
Comparer les méthodes par exemple pour le FCM 197
Termes GO t Cyk-1 (cael) Ima-2 (cael) Kpna-2 (hosa) Man1a1 (hosa) Snrpn (hosa) Zc410.3 (cael)
nuclear chromosome cc llr llr llr
M phase bp pls pls
cytokinesis bp llr, man, pls
larval development bp man man
binding mf man
calcium ion binding mf man
DNA methylation bp llr, pls
cell cycle bp llr pls
embryonic cleavage bp
cell wall biosynthesis bp llr
man (annotation manuelle) pls (patrons
lexico-syntaxiques) llr (log-facteur de
vraissemblance)
24
Perspectives
  • Sélection des articles pertinents
  • Prendre en compte lambiguïté et la synonymie des
    noms de gènes et des termes
  • it, and, wee, ct
  • Combiner les différentes méthodes dextraction de
    connaissance afin quelles contribuent à
    améliorer les résultats
  • Prendre en compte les scores de confiance dans la
    procédure de validation des couples
  • Rendre le sytème le plus générique possible
  • application à dautres espèces

25
La méthodologie de validation des couples (gènes
fonctions) obtenus
  • Comparer avec les informations contenues dans des
    bases de données existantes
  • Lutilisation des termes Gene Ontology (Gene
    Ontology Consortium, 2000) facilite cette
    évaluation puisquils sont utilisés dans ces
    mêmes bases et par notre méthode.
  • Compétitions organisées pour lévaluation
    doutils automatiques
  • Est-ce que la méthode adoptée arrive à extraire
    les informations recherchées ?
  • Validation par les biologistes
  • Comparaison avec les clusters obtenus par la
    méthode BBCP
Write a Comment
User Comments (0)
About PowerShow.com