La recherche d - PowerPoint PPT Presentation

About This Presentation
Title:

La recherche d

Description:

Solution : Parcourir les banques d'articles pour extraire l'information jug e ... Pour chaque feuilles de l'arbre A on assigne un poids de 1 et 0 sinon. ... – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 24
Provided by: ricpa
Category:

less

Transcript and Presenter's Notes

Title: La recherche d


1
La recherche dinformation en bioinformatique
  • Par Marc Hallé et Éric Paquet
  • Dans le cadre du cours IFT6255
  • Mercredi 9 avril 2003

2
Introduction aux problématiques
  • Problème 1 Linformation contenue dans les
    articles de biologie nest pas stockée sous un
    format pratique à la recherche et à
    lexploitation.
  • Solution Parcourir les banques darticles pour
    extraire linformation jugée pertinente tel les
    réactions entre les molécules et les informations
    particulières comme la localisation, les
    synonymes, la grosseur et la séquence de
    certaines molécules spécifiques.

3
suite des problématiques
  • Problème 2 vu le grand nombre de protéines il
    serait intéressant de trouver un moyen de les
    regrouper selon certains critères pouvant nous
    aider à déterminer leurs fonctions.
  • Solution Nous pouvons utiliser la structure
    secondaire des protéines comme un mot en
    recherche dinformation et utiliser un algorithme
    de clustering .

4
suite des problématiques
  • Problème 3 Il y a beaucoup de nouvelles
    méthodes dans le domaine, mais il nexiste aucun
    test pour les comparer.
  • Solution Créer des concours (challenge) pour
    stimuler lamélioration des techniques et donner
    une idée de létat de lart.

5
Introduction à lextraction dinformation
  • Reconnaître le nom des molécules dans le texte (2
    approches)
  • Fukuda et al. (1998), extraire des noms de
    protéines et de gènes en se basant sur des
    critères comme les lettres majuscules, les
    terminaisons spéciales et les caractères
    numériques
  • La création dun corpus spécifique à la biologie
    Ohta et al. (2000), lutilisation des Hidden
    Markov Models Collier et al. (2000) ou des
    classificateurs Bayesian Wilbur et al. (1999)
    améliorent les résultats de recherche.

Référence 1
6
suite introduction à lextraction dinformation
  • Reconnaître les interactions entre les molécules
  • 2 méthodes principales
  • Utiliser la co-occurrences des molécules
  • Benoit (2000) co-occurrence des noms de gènes
  • Ding et al. (2002) analyse par rapport au résumé,
    à un paragraphe ou à une phrase(approche par
    section).
  • Utiliser des modèles représentant des structures
    linguistiques spéciales décrivant les
    interactions entre les molécules
  • Ng et Wong (1999) modèles, résumés
  • Wong (2001) augmentation du nombre de modèles,
    résumés
  • Yakushiji et al. (2001) analyse complète à laide
    dune grammaire générale, résumés
  • Friedman et al. (2001) GENIES, article complet
  • Putejovsky et Castano (2002) mot inhibit
  • Leroy et Chen (2002) GeneScene prépositions au
    lieu des verbes. Supposé être performant.

Référence 1
7
Description dune méthode dextraction
dinformation
  • GENIES
  • But découverte de pathways
  • Partie de phrase à analyser   Raf-1 active
    Mek-1 
  • Résultat de la partie  Tagger  
  • ltprotéinegtRaf-1lt/protéinegt active
    ltprotéinegtMek-1lt/protéinegt
  • Résultat de la partie  Pre-Processor  
  • ltprotéinegtRaf-1lt/protéinegt, active,
    ltprotéinegtMek-1lt/protéinegt liste dindexes
  • Résultat des partie  Parser  et  error
    recovery  
  • action, active, protéine, Raf-1, protéine,
    Mek-1

Référence 3
8
Introduction au clustering et à la taxonomie
en bioinformatique
  • Le but est de trouver une façon de regrouper les
    protéines à laide de certains critères pour
    arriver à un classement où chacune des catégories
    représenteraient une famille de protéine.
  • SCOP est un système expert utilisé comme outil
    de référence dans le cadre de cette étude.

9
Petite base de biologie
  • Structure primaire  Séquence de lettres
    représentant des acide aminés.
  • Structure secondaire  regroupement de séquence
    dacides aminés (lettres) formant des groupes
    spécifique appelés hélice alpha, brin bêta et
    boucle oméga qui sont notés a , b , W
    respectivement.
  • Structure tertiaire et quaternaire  Repliement
    et organisation en structure tridimensionnelle,
    forme finale de la protéine (pour les fins du
    présent rapport).
  • Analogie avec la recherche dinformation

Recherche information Structure des protéines
Lettre Éléments structure primaire (acides aminés)
Mot / Terme Éléments structure secondaire (a, b, W )
Section / Document Structure tertiaire / protéine
10
Éléments de structures
Référence 4
11
Description des méthodes utilisées
  • Même que celles de la recherche dinformation
  • Définition dun ensemble délément à traiter
    protéines provenant de la PDB-Select assurant une
    bonne couverture
  • Calcul de similarité pattern matching avec wild
    card
  • Clustering en fonction des similarités calculées
    méthode itérative avec matrice de similarité
  • Utilisation dune métrique pour calculer la
    performance du système comparaison avec des
    systèmes comme VAST et SCOP

12
Calcul de similarité entre chaque protéine
  • La similarité Î 0,1 est calculée entre chacune
     ss-string  des protéines de l échantillon de
    la façon suivante
  • Soit deux éléments de structure secondaire a,b
    et L(a), L(b) leurs longueurs respectives.
  • Similarité entre Valeur
  • a,b type identique min(L(a), L(b))
  • a,b tel que a ou b est une loop 0.5 min(L(a),
    L(b))
  • a,b type différent (hélice, strand) 0
  • La valeur est ensuite normalisée en fonction de
    la longueur moyennes des ss-string.

13
Clustering
  • Afin de faire un regroupement (clustering) des
    protéines , lon utilise une matrice de
    similarité contenant la distance entres chaque
    paire de protéine.
  • - La distance d 1- valeur d'alignement
  • - Larbre est ensuite construit suivant un
    Algorithme de type WPG (weighted pair group).

14
Exemple de résultats
Référence 2
15
SCOP comme outils de référence
  • Une des principales conclusions de la comparaison
    avec SCOP est la similitude de Clustering 
    entre notre arbre et le regroupement en famille
    par SCOP
  • Évaluation de performance  Clustering score
    function 

16
Clustering-score function (métrique pour
calculer la performance du système)
  • td(a,b) distance topologique entre a et b
  • Clustering-score A ( 2 å td(a, b) ) /
    (n(n-1) )
  • a,b Î A

17
Cluster-scoring function exemple
  • Pour une famille SCOP A 11,12,13,14
  • -Pour chaque feuilles de larbre Î A on assigne
    un poids de 1 et 0 sinon.
  • -Ensuite on calcul de façon récursive td(a,b)
    (Pa Pb )/ 2
  • Exemple 
  • Score11,12,13,14 ((3 0) ( 3 1)) / 6
    0.5

18
Investigation possible
  • Actuellement les caractéristiques de comparaison
    sont prédéfinies. Il serait intéressant de
    vérifier sil est possible dextraire des
    caractéristiques de façon automatique (extraction
    de feature).

19
Besoin de challenge pour évaluer les méthodes
  • Nécessite des données pour lentraînement
    (données réponses)
  • Nécessite des données secrètes pour le test
    (données réponses)
  • Nécessite un mode dévaluation des méthodes

20
Exemple de challenge dans le domaine de
lextraction dinformation
  • 2 niveaux dévaluation
  • Niveau du texte lui-même
  • Niveau de la banque de textes
  • Texte liste de faits devant être extraits
  • Recall(E) TP(E)/TP(E) FN(E)
  • Precision(E) TP(E)/TP(E) FP(E)
  • Façon différente de calculer les TP, FN et FP
    selon le niveau de lévaluation
  • Classification selon une variation de SMC (simple
    matching coefficient) nutilisant pas les TN
    SMC(E) TP(E)/TP(E) FN(E) FP(E)
  • Définition dune grammaire de définition des
    structures à évaluer

21
Exemple de grammaire
22
Fin
  • Questions?

23
Références
  1. Lynette Hirschman, Jong C. Park, Junichi Tsujii,
    Limsoon Wong and Cathy H. Wu. Accomplishments
    and challenges in literature data mining for
    biology. BIOINFORMATICS REVIEW Vol. 18 no. 12
    2002 Pages 1553-1561.
  2. Teresa Przytycka, Rajeev Arora and George D.Rose
    , A protein taxonomy based on secondary
    structure, NATURE STRUCTURAL BIOLOGY - volume 6
    number 7 july 1999 , Pages 672-682
  3. Carol Friedman, Pauline Kra, Hong Yu, Michael
    Krauthammer and Andrey Rzhetsky. GENIES  a
    natural language processing system for the
    extraction of molecular pathways from journal
    articles. BIOINFORMATICS Vol. 17 Suppl. 1 2002
    Pages S74-S82.
  4. Donald Voet Judith G.Voet, Biochimie,
    BeBoeck-Université page 106.
Write a Comment
User Comments (0)
About PowerShow.com