Title: Int
1Intégration texte-représentation formelle dans la
gestion de documents XML
2Problématique (1/2)
- Web espace dinformation
- Problème difficulté à trouver et à utiliser
linformation disponible - Exemple on cherche la page personnelle dun
chercheur nommé Smith - résultats à propos de forgeron (problème de
précision) - on souhaite aussi connaître son prénom (problème
dutilisation)
3Problématique (2/2)
- Principe représenter la connaissance contenue
dans les documents de façon à ce que celle-ci
soit exploitable par des machines - Quels moyens faut-il mettre en œuvre pour
représenter la connaissance contenue dans des
documents et produire le système qui va en tirer
parti ?
4Action de recherche ESCRIRE
- But comparaison de trois classes de formalisme
de représentation de connaissance - Méthodologie
5Présentation du corpus de travail
- Résumés darticles scientifiques traitant
dinteraction géniques chez la drosophile pendant
son processus de segmentation - Drosophile petite mouche utilisée pour la
recherche en biologie dans le domaine de la
génétique
6Plan de la présentation
- I) Les solutions existantes
- II) Des éléments de réponse
- III) Proposition dimplémentation
7Le langage SHOE (1/2)
- Maryland, 1996 Heflin, Spector, Hendler, Luke
et Roger - Langage permettant de définir des ontologies
- définition de classe ltDEF-CATEGORY
NAME"gap" ISA"gene-class" /gt - définition de relation ltDEF-RELATION
NAME"interaction"gt ltDEF-ARG POS"1"
TYPE"gene" /gt ltDEF-ARG POS"2" TYPE"gene"
/gt lt/DEF-RELATIONgt - règles dinférence
8Le langage SHOE (2/2)
- Langage permettant de définir des instances
ltCATEGORY NAME"gap"/gt ltRELATION
NAME"interaction"gt ltARG POS"1" VALUEme /gt
ltARG POS"2" VALUE"hb" /gt lt/RELATIONgt - Outils associés à SHOE
- agent EXPOSE
- outil permettant dannoter graphiquement les
pages Web - interface graphique pour composer des requêtes
9Le système ONTOBROKER (1/2)
- Karlsruhe, 1997 Studer, Decker, Erdmann et
Fensel - Architecture générale
10Le système ONTOBROKER (2/2)
- Langage de représentation
- Classes Object. GeneObject.
InteractionObject. - Attributs Interactionpromoter gtgt Gene
target gtgt Gene. - Langage dannotation
- lta onto"pageInteractionpromoter tll,
target hb"gtlt/agt - Langage de requête
- FORALL O ? O CA ?gtgtV
- Outils associés à ONTOBROKER
- interface de requête, moteur dinférence,
webcrawler
11Bilan (1/2)
- Multitude de systèmes (OIL, XOL, OML ...)
- Points communs
- définition dune ontologie, description de faits,
possibilité de formuler des requêtes - interface XML
- Inconvénients
- systèmes performants pour des applications
précises
12Bilan (2/2)
- Comment représenter la connaissance contenue dans
un document ? - Quels éléments du document va-t-on décrire ?
- A quel type de requête désire-t-on répondre ?
- Comment intégrer cette formalisation de la
connaissance au sein du document ?
13II) Des éléments de réponse (1/5)
- Comment représenter la connaissance contenue dans
un document ? - Nature des documents
- fiction vs non-fiction
- Constructeurs de représentation de connaissance
utiles - classes, objets, relations, règles dinférence
14II) Des éléments de réponse (2/5)
Quelle description du document va-t-on donner ?
- Image en couleur
- Il y a 2 hommes
- Il y a 2 présidents
- Il y a Jacques Chirac et Boris Yeltsin
- Jacques Chirac et Boris Yeltsin se serrent la
main - Jacques Chirac et Boris Yeltsin se serrent la
main le 30 mai 1997 devant lElysée
15II) Des éléments de réponse (3/5)
- Quels éléments du document va-t-on décrire ?
- le document fait allusion à 2 gènes
- ces gènes appartiennent aux classes gap et
pair-rule - ces gènes sont tailless (tll) et fushi-tarazu
(ftz) - ces 2 gènes ont une influence
- tll inhibe ftz dans la partie antérieure de la
mouche
16II) Des éléments de réponse (4/5)
- A quel type de requête désire-t-on répondre
? Quels sont les documents qui traitent
dinteractions entre les classes gap et pair-rule
? - Langage de requête (OQL, XML-QL) SELECT
FROM interactionI WHERE I.promoter-class
"gap" AND I.target-class "pair-rule" - Interprétation inférences locales vs inférences
globales
17II) Des éléments de réponse (5/5)
- Comment intégrer cette formalisation de la
connaissance au sein du document ? - à lintérieur des documents
- dans len-tête dune page HTML, encapsulée dans
des balises RDF - à lextérieur des documents
- dans des fichiers séparés reliés au document via
un serveur dannotation
18III) Proposition dimplémentation (1/5)
19III) Proposition dimplémentation (2/5)
- Exemple dannotation ltescobjref
id"gap" /gt ltescobjref id"pair-rule"
/gt ltescrelation type"interaction"gt
ltescrole name"promoter-class"gt ltescobjref
id"gap" /gt lt/escrolegt ltescrole
name"target-class"gt ltescobjref
id"pair-rule" /gt lt/escrolegt
lt/escrelationgt
20III) Proposition dimplémentation (3/5)
- Interrogation des documents
21III) Proposition dimplémentation (4/5)
- Exemple de requête ltescselect
/gt ltescfromgt ltescrelvar
type"interaction" id"I" /gt lt/escfromgt ltesc
wheregt ltescandgt ltesceqgt ltescpathgt
ltescrelvarref type"interaction" id"I" /gt
ltescattribute name"promoter" /gt lt/escpathgt
ltescobjref id"gt" /gt lt/esceqgt ltesceqgt
ltescpathgt ltescrelvarref
type"interaction" id"I" /gt ltescattribute
name"target" /gt lt/escpathgt ltescobjref
id"Hb" /gt lt/esceqgt lt/escandgt lt/escwheregt
22III) Proposition dimplémentation (5/5)
- Annotation des documents
- Applet de composition dune requête
- Analyseur de requêtes (Expat)
- Évaluateur de requêtes (optimisation)
- Intégration dans TROEPS
- Affichage des réponses
23Conclusion
- Plusieurs granularités de description possible
(le choix des éléments à annoter dépend de
lapplication résultante) - Structures générales classes, objets, relations
- Mise en œuvre dans TROEPS, un langage de RCO et
proposition dun processus permettant
dinterroger les documents - Proposition dun langage de requête
24Perspectives
- Application à tout le corpus sur la drosophile
- Comparaison des performances du SRCO avec les
autres formalismes de représentation de
connaissance - Remise en question de certains choix
- Utilisation dautres corpus de documents pour
dégager des grandes classes dapplication