Title: Utilisation et utilit
1Utilisation et utilité dun extracteur de
dépendances
Claude Roux
2Analyse Syntaxique
- Lanalyse syntaxique représente
traditionnellement linformation sous la forme
dun arbre.
- La configuration de larbre est aussi une
interprétation sémantique. - Difficulté de représenter une information
dispersée (Latin) - Pulchram domina rosam amat
3Représentation sous la forme dun graphe de
dépendance
- Quest quune dépendance ?
- Cest une relation entre les mots dune phrase,
indépendemment de la position de ces mots. - La maîtresse aime la belle rose
- Pulchram domina rosam amat
- Épithète(rose,belle)
- Épithète(rosam,pulchram)
- Sujet(aime,maîtresse)
- Sujet(amat, domina)
4Extraction de dépendances
- Première phase le groupage
-
- La dame aime la belle rose
Pulchram domina rosam amat
5Extraction de dépendances
- Deuxième phase lextraction
-
- Par configuration de noeuds
- épithète(rose,belle)
-
- Sur la base de traits semblables
- épithète(rosam,pulcram)
-
6Différentes générations doutils
- IFSP (Incremental Finite-State Parser)
- Salah Ait-Mokhtar Jean-Pierre Chanod (1998)
- Anglais
- Français
- Espagnol
-
- XIP (Xerox Incremental Parser)
- Salah Ait-Mokhtar, Jean-Pierre Chanod, Claude
ROUX (2001) - Anglais
- Français
7Désambiguïsation sémantique Frédérique Segond,
Caroline Brun XRCE Grenoble
- Définition (cf. (IdeVéronis98))
- Associer à un mot dans un texte une définition ou
un sens qui se distingue des autres sens
potentiellement associables à ce mot. - 2 étapes sont nécessaires
- déterminer tous les sens dun mot
- assigner le sens approprié à ce mot dans le
contexte du discours
8Désambiguïsation sémantique
United State federal agents seized a
surface-to-air rocket launcher, a rocket motor,
rangefinders and a variety of military manuals.
Analyse syntaxique donne SUJET(seize,agent)
COD(seize,launcher) Règle (construite grâce au
dictionnaire) Si Sujet(seize,humain) et
COD(seize,arme) Alors SENS(I.4)saisir
seize Sens I Verb. Trans. 4. Jur
saisir arm,drugs
9Extraction dinformationCampagne Amaryllis
(2000)David Hull, Eric Gaussier, Gregory
Greffenstette, Claude RouxRecherche
dinformation en français et traitement
automatique des langues (TAL 2000)
- Utilisation dinformation syntaxique dans la
recherche dinformation - Les documents sont indexés sur la base des mots
quils contiennent plus les dépendances qui lient
ces mots entre eux. - Exemple
- Les joueurs convient les membres de leur équipe.
- Indexation sur les chaînes suivantes
- joueur, convier, membres, équipe,
SUJET(convier,joueur), COD(convier,membre),
COMPNOM(membre,équipe)
10Extraction dinformationCampagne Amaryllis
(2000)David Hull, Eric Gaussier, Gregory
Greffenstette, Claude RouxRecherche
dinformation en français et traitement
automatique des langues (TAL)
- Mesure de rappel et de précision nest pas
vraiment améliorée. - En revanche, un résultat important Lexamen des
dix premiers documents montre que lutilisation
de cette méthode dindexation augmente la
pertinence de ceux-ci. - Autrement dit, dans le cadre dune recherche
dinformation, on améliore la présentation des
documents, en propulsant en tête, les documents
les plus pertinents. - Cela correspond aux habitudes des utilisateurs
des moteurs de recherche qui examinent rarement
les pages situées au-delà du premier écran de
réponse.
11MunninDenys Proux (Thèse de doctorat 2000)
- Extraction de faits sur la génétique à partir
darticles sicentifiques dans le domaine (en
anglais) - Les gènes et les protéines peuvent être
identifiées en fonction de leur contexte
syntaxique - Utilisation de patrons syntaxiques
12Munnin Denys Proux
- Pka-C1 is a component of the signalling pathway
that represses dpp expression in the anterior
compartment in appendage imaginal discs and
anterior to the morphogenetic furrow in eye
discs. - Extraction dinformation
Sélection dun extrait dun article scientifique
Synthesis Action repress Acteur Pka-C1 Cible
dpp Lieu imaginal disc Lieu eye disc
13Conclusion
- Lanalyse syntaxique permet daffiner la
recherche dinformation - Elle offre aussi un concours précieux dans le
cadre de lextraction dinformation en offrant
des patrons plus raffinés que le simple pattern
matching - Démonstration de Xerox Incremental Parser