Title: Le traitement automatique des langues pour laccs linformation
1Le traitement automatique des langues pour
laccès à linformation
- Éric Gaussier
- Eric.Gaussier_at_xrce.xerox.com
- David Hull, Denys Proux, Claude Roux
2Plan général
- De la recherche dinformation à la fouille de
textes - TAL et RI résultats expérimentaux
- Extraction dinformation et recherche
dinformation - graphes conceptuels
3Recherche dinformation (1)
4Recherche dinformation (2)
- Modèle vectoriel
- Termes constituent lensemble des dimensions
- Collection est représentée par une matrice
documents-termes - Similarité définie à partir de cette matrice
(cosinus) - Problèmes liés au modèle
- Hypothèse dindépendance entre termes
- Matrices creuses de grande dimension
t1
t2
tn
0
1
0
d1
?
d2
1
0
1
dp
1
1
1
5Recherche dinformation (3)
- Problèmes généraux
- Inadéquation entre sujet de recherche et
collection - agriculture écologique vs. agriculture biologique
- élection présidentielle vs. élire un président
- Synonymie, polysémie
- puce
- Relations entre termes
- agriculture biologique
- élire un président
6Extraction dinformation (1)
Protéine - type Interaction -
inhibition -activation Gène - type
collection
protéines
gènes
instanciation particulière
interaction
7Extraction dinformation (2)
- Approche dominante
- Extraction/typage des entités
- Patron morpho-syntaxique pour extraire les
relations entre entités - Problèmes généraux
- Délimitation des entités à mots multiples
- Ensemble/hiérarchie de types
- Synonymie, polysémie, relations entre termes
- Désambiguïsation nécessaire
- Compromis rappel/précision pour les relations
- Gestion de la coréférence
- Remarques
- Statut ontologique de certains faits
- Connaissances a priori (ontologies spécialisées)
8Questions Réponses
- Problématique proche de celle de lextraction
dinformation - Schéma inféré à partir de la question
- Domaines plus larges
- Who won the World Cup in 1998?
- What is the main commodity exported by Grenada?
- Formulation dune réponse en langue naturelle
- Couplage avec des modules de déduction
- Is Chicago bigger than New York?
- Problèmes particuliers
- Génération
- Intégration de ressources de source et de
couverture différentes - Raisonnement
9Fouille de textes
- Problématique proche des précédentes
- Pas de schémas, mais éventuellement une requête
- Découverte de faits
- 80 des magasins de fleurs de Grenoble vendent
des roses et des lilas - Problèmes particuliers
- Génération
- Intégration de ressources de source et de
couverture différentes - Inférence
10Résumé
- Reconnaissance de variantes morpho-syntaxiques et
sémantiques - Extraction et typage dentités
- Extraction de relations entre entités
- Désambiguïsation sémantique
- Gestion de la coréférence
- ? Compréhension/représentation plus complète des
documents
11TAL et recherche dinformations (1)
- Amaryllis (français)
- Recherche dinformation traditionnelle
- Recherche dinformation multilingue
- Traduction des requêtes (dicitonnaires existants
ou appris) - Traduction des documents (traduction automatique)
- Modèle vectoriel généralisé, décomposition en
valeurs propres (LSI)
12TAL et recherche dinformations (2)
- Indexations réalisées
- Mots vides, mots pleins
- Lemmatisation (étiquetage syntaxique)
- Regroupement par morphologie relationnelle
- Extraction de termes
- Analyse de surface (grammaire de dépendance)
- Extraction de lexiques bilingues de termes
13TAL et recherche dinformations (3)
- Indexations réalisées - exemple
- Le patronat allemand redoute une forte
augmentation du chômage - Le/le_det patronat/patronat_nom
allemand/allemand_adj redoute/redouter_verb - patronat/patron, , augmentation/augmenter
- patron_allemand, augmenter_chômage
- SUBJ(patronat,redouter), OBJ(redouter,augmentation
), NADJ(patronat,allemand), NADJ(fort,augmentation
) -
14TAL et recherche dinformations (4)
- Évaluation des systèmes de RI
- Précision à différents niveaux de rappel
- Précision moyenne
- Précision sur les 5/10 premiers documents fournis
par les systèmes - Méthode de pooling pour constituer lensemble de
référence
15TAL et recherche dinformations (5)
- Expériences réalisées
- Différents modèles de recherche vectoriel,
booléen pondéré - avec les différents modules présentés
- Comparaison avec des approches plus grossières
- paires adjacentes
- fenêtre de mots
16TAL et recherche dinformations (6)
- Résultats, tests monolignues
- Ref. Lem. Rac. Padj. Term. Synt.
- Pm 0.20 0.23 0.24 0.247 0.25 0.242
- - 16.5 18 21.3 22 20
17TAL et recherche dinformations (7)
- Évaluation précision sur les 5 premiers
documents - Corpus INIST OFIL LRSA
- Préc. 0.6 0.7 0.7
18TAL et recherche dinformations (8)
- Recherche multilingue
- alignement de phrases
- alignment de termes
- enrichissement morphologique
- même corpus pour dictionnaire et RI
cease arrêter 0.083 cesser 0.667
cesser - cesse, cessant, cessation
19TAL et recherche dinformations (9)
- Résultats multilingues
- Exp. type A type B type C
- A2A 0.490 0.490 0.497
- F2A 0.406 0.496 0.498
- F2F 0.541 0.547 0.530
- A2F 0.527 0.527 0.535
20Conclusion indexation linguistique
- Recherche dinformation traditionnelle
- Amaryllis-1/2, TREC-5/6 (monolingue et
multilingue) - Analyse morphologique
- oui (précision moyenne)
- oui (5-10 documents)
- Analyse syntaxique
- non (précision moyenne)
- oui (5-10 documents)
21Vers une représentation plus fine de linformation
- Extraction de relations Acteur / Cible
- Extraction du type dAction
- Extraction de Conditions
- Extraction de Modifieurs
- Example
regulate
(actor)
(target)
(modifier)
gt protein directly regulates eve
stripe. SUBJECT ( protein, regulate )
DIRECT-OBJECT ( regulate, stripe ) ADVERB (
directly, regulate ) GROUP gt protein
GROUP eve stripe
protein
stripe
directly
(related-to)
(related-to)
gt
eve
22Graphes conceptuels (1)
- Ontologie un réseau hiérarchique de concepts
organisés suivant certaines -
- Exemple
Universal
is_a
is_a
gene
protein
is_a
is_a
is_a
hemoglobin
egl
bicD
23Graphes conceptuels (2)
- Exemple This protein activates bicD
- Structure du graphe
activate
Actor
Target
protein
bicD
24Graphes conceptuels (3)
Graphe de la phrase
Requête
Graphe résultat
activate
act
Destroy
activate
Projection
Actor
Target
Relation
Target
Target
protein
bicD
gene
protein
bicD
Ontologie
Appariement de graphes
25Conclusion
- Un certain continuum existe entre les paradigmes
- Extraction de connaissances joue une place
primordiale - Représentation des connaissances amenée à jouer
un rôle majeur - Le TAL occupe une place de choix
- Haute précision pour la RI
- Indispensable pour lextraction dinformation
26 General Scheme
COLLECT spider
presentation summarization visualization browsing
DATA DOCUMENTS, USERS, COMMUNITIES
RESOURCES ontologies
Extraction Indexation Clust./categ. Hyper-linking
search/filter
INFORMATION PROFILES, RESOURCES