Title: La recherche d
1La recherche dinformation en bioinformatique
- Par Marc Hallé et Éric Paquet
- Dans le cadre du cours IFT6255
- Mercredi 9 avril 2003
2Introduction aux problématiques
- Problème 1 Linformation contenue dans les
articles de biologie nest pas stockée sous un
format pratique à la recherche et à
lexploitation. - Solution Parcourir les banques darticles pour
extraire linformation jugée pertinente tel les
réactions entre les molécules et les informations
particulières comme la localisation, les
synonymes, la grosseur et la séquence de
certaines molécules spécifiques.
3suite des problématiques
- Problème 2 vu le grand nombre de protéines il
serait intéressant de trouver un moyen de les
regrouper selon certains critères pouvant nous
aider à déterminer leurs fonctions. - Solution Nous pouvons utiliser la structure
secondaire des protéines comme un mot en
recherche dinformation et utiliser un algorithme
de clustering .
4suite des problématiques
- Problème 3 Il y a beaucoup de nouvelles
méthodes dans le domaine, mais il nexiste aucun
test pour les comparer. - Solution Créer des concours (challenge) pour
stimuler lamélioration des techniques et donner
une idée de létat de lart.
5Introduction à lextraction dinformation
- Reconnaître le nom des molécules dans le texte (2
approches) - Fukuda et al. (1998), extraire des noms de
protéines et de gènes en se basant sur des
critères comme les lettres majuscules, les
terminaisons spéciales et les caractères
numériques - La création dun corpus spécifique à la biologie
Ohta et al. (2000), lutilisation des Hidden
Markov Models Collier et al. (2000) ou des
classificateurs Bayesian Wilbur et al. (1999)
améliorent les résultats de recherche.
Référence 1
6suite introduction à lextraction dinformation
- Reconnaître les interactions entre les molécules
- 2 méthodes principales
- Utiliser la co-occurrences des molécules
- Benoit (2000) co-occurrence des noms de gènes
- Ding et al. (2002) analyse par rapport au résumé,
à un paragraphe ou à une phrase(approche par
section). - Utiliser des modèles représentant des structures
linguistiques spéciales décrivant les
interactions entre les molécules - Ng et Wong (1999) modèles, résumés
- Wong (2001) augmentation du nombre de modèles,
résumés - Yakushiji et al. (2001) analyse complète à laide
dune grammaire générale, résumés - Friedman et al. (2001) GENIES, article complet
- Putejovsky et Castano (2002) mot inhibit
- Leroy et Chen (2002) GeneScene prépositions au
lieu des verbes. Supposé être performant.
Référence 1
7Description dune méthode dextraction
dinformation
- GENIES
- But découverte de pathways
- Partie de phrase à analyser Raf-1 active
Mek-1 - Résultat de la partie Tagger
- ltprotéinegtRaf-1lt/protéinegt active
ltprotéinegtMek-1lt/protéinegt - Résultat de la partie Pre-Processor
- ltprotéinegtRaf-1lt/protéinegt, active,
ltprotéinegtMek-1lt/protéinegt liste dindexes - Résultat des partie Parser et error
recovery - action, active, protéine, Raf-1, protéine,
Mek-1
Référence 3
8Introduction au clustering et à la taxonomie
en bioinformatique
- Le but est de trouver une façon de regrouper les
protéines à laide de certains critères pour
arriver à un classement où chacune des catégories
représenteraient une famille de protéine. - SCOP est un système expert utilisé comme outil
de référence dans le cadre de cette étude.
9Petite base de biologie
- Structure primaire Séquence de lettres
représentant des acide aminés. - Structure secondaire regroupement de séquence
dacides aminés (lettres) formant des groupes
spécifique appelés hélice alpha, brin bêta et
boucle oméga qui sont notés a , b , W
respectivement. - Structure tertiaire et quaternaire Repliement
et organisation en structure tridimensionnelle,
forme finale de la protéine (pour les fins du
présent rapport). - Analogie avec la recherche dinformation
Recherche information Structure des protéines
Lettre Éléments structure primaire (acides aminés)
Mot / Terme Éléments structure secondaire (a, b, W )
Section / Document Structure tertiaire / protéine
10Éléments de structures
Référence 4
11Description des méthodes utilisées
- Même que celles de la recherche dinformation
- Définition dun ensemble délément à traiter
protéines provenant de la PDB-Select assurant une
bonne couverture - Calcul de similarité pattern matching avec wild
card - Clustering en fonction des similarités calculées
méthode itérative avec matrice de similarité - Utilisation dune métrique pour calculer la
performance du système comparaison avec des
systèmes comme VAST et SCOP
12Calcul de similarité entre chaque protéine
- La similarité Î 0,1 est calculée entre chacune
ss-string des protéines de l échantillon de
la façon suivante - Soit deux éléments de structure secondaire a,b
et L(a), L(b) leurs longueurs respectives. -
- Similarité entre Valeur
- a,b type identique min(L(a), L(b))
- a,b tel que a ou b est une loop 0.5 min(L(a),
L(b)) - a,b type différent (hélice, strand) 0
- La valeur est ensuite normalisée en fonction de
la longueur moyennes des ss-string.
13Clustering
- Afin de faire un regroupement (clustering) des
protéines , lon utilise une matrice de
similarité contenant la distance entres chaque
paire de protéine. - - La distance d 1- valeur d'alignement
- - Larbre est ensuite construit suivant un
Algorithme de type WPG (weighted pair group).
14Exemple de résultats
Référence 2
15SCOP comme outils de référence
- Une des principales conclusions de la comparaison
avec SCOP est la similitude de Clustering
entre notre arbre et le regroupement en famille
par SCOP - Évaluation de performance Clustering score
function
16Clustering-score function (métrique pour
calculer la performance du système)
- td(a,b) distance topologique entre a et b
- Clustering-score A ( 2 å td(a, b) ) /
(n(n-1) ) - a,b Î A
17Cluster-scoring function exemple
- Pour une famille SCOP A 11,12,13,14
- -Pour chaque feuilles de larbre Î A on assigne
un poids de 1 et 0 sinon. - -Ensuite on calcul de façon récursive td(a,b)
(Pa Pb )/ 2 - Exemple
- Score11,12,13,14 ((3 0) ( 3 1)) / 6
0.5
18Investigation possible
- Actuellement les caractéristiques de comparaison
sont prédéfinies. Il serait intéressant de
vérifier sil est possible dextraire des
caractéristiques de façon automatique (extraction
de feature).
19Besoin de challenge pour évaluer les méthodes
- Nécessite des données pour lentraînement
(données réponses) - Nécessite des données secrètes pour le test
(données réponses) - Nécessite un mode dévaluation des méthodes
20Exemple de challenge dans le domaine de
lextraction dinformation
- 2 niveaux dévaluation
- Niveau du texte lui-même
- Niveau de la banque de textes
- Texte liste de faits devant être extraits
- Recall(E) TP(E)/TP(E) FN(E)
- Precision(E) TP(E)/TP(E) FP(E)
- Façon différente de calculer les TP, FN et FP
selon le niveau de lévaluation - Classification selon une variation de SMC (simple
matching coefficient) nutilisant pas les TN
SMC(E) TP(E)/TP(E) FN(E) FP(E) - Définition dune grammaire de définition des
structures à évaluer
21Exemple de grammaire
22Fin
23Références
- Lynette Hirschman, Jong C. Park, Junichi Tsujii,
Limsoon Wong and Cathy H. Wu. Accomplishments
and challenges in literature data mining for
biology. BIOINFORMATICS REVIEW Vol. 18 no. 12
2002 Pages 1553-1561. - Teresa Przytycka, Rajeev Arora and George D.Rose
, A protein taxonomy based on secondary
structure, NATURE STRUCTURAL BIOLOGY - volume 6
number 7 july 1999 , Pages 672-682 - Carol Friedman, Pauline Kra, Hong Yu, Michael
Krauthammer and Andrey Rzhetsky. GENIES a
natural language processing system for the
extraction of molecular pathways from journal
articles. BIOINFORMATICS Vol. 17 Suppl. 1 2002
Pages S74-S82. - Donald Voet Judith G.Voet, Biochimie,
BeBoeck-Université page 106.