Le traitement automatique des langues pour laccs linformation - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

Le traitement automatique des langues pour laccs linformation

Description:

Le traitement automatique des langues pour l'acc s l'information ... alignement de phrases. alignment de termes. enrichissement morphologique. m me corpus pour ... – PowerPoint PPT presentation

Number of Views:89
Avg rating:3.0/5.0
Slides: 27
Provided by: gaus7
Category:

less

Transcript and Presenter's Notes

Title: Le traitement automatique des langues pour laccs linformation


1
Le traitement automatique des langues pour
laccès à linformation
  • Éric Gaussier
  • Eric.Gaussier_at_xrce.xerox.com
  • David Hull, Denys Proux, Claude Roux

2
Plan général
  • De la recherche dinformation à la fouille de
    textes
  • TAL et RI résultats expérimentaux
  • Extraction dinformation et recherche
    dinformation
  • graphes conceptuels

3
Recherche dinformation (1)
4
Recherche dinformation (2)
  • Modèle vectoriel
  • Termes constituent lensemble des dimensions
  • Collection est représentée par une matrice
    documents-termes
  • Similarité définie à partir de cette matrice
    (cosinus)
  • Problèmes liés au modèle
  • Hypothèse dindépendance entre termes
  • Matrices creuses de grande dimension

t1
t2
tn

0
1

0
d1
?
d2
1
0

1


dp
1
1

1
5
Recherche dinformation (3)
  • Problèmes généraux
  • Inadéquation entre sujet de recherche et
    collection
  • agriculture écologique vs. agriculture biologique
  • élection présidentielle vs. élire un président
  • Synonymie, polysémie
  • puce
  • Relations entre termes
  • agriculture biologique
  • élire un président

6
Extraction dinformation (1)
Protéine - type Interaction -
inhibition -activation Gène - type
collection
protéines
gènes
instanciation particulière
interaction
7
Extraction dinformation (2)
  • Approche dominante
  • Extraction/typage des entités
  • Patron morpho-syntaxique pour extraire les
    relations entre entités
  • Problèmes généraux
  • Délimitation des entités à mots multiples
  • Ensemble/hiérarchie de types
  • Synonymie, polysémie, relations entre termes
  • Désambiguïsation nécessaire
  • Compromis rappel/précision pour les relations
  • Gestion de la coréférence
  • Remarques
  • Statut ontologique de certains faits
  • Connaissances a priori (ontologies spécialisées)

8
Questions Réponses
  • Problématique proche de celle de lextraction
    dinformation
  • Schéma inféré à partir de la question
  • Domaines plus larges
  • Who won the World Cup in 1998?
  • What is the main commodity exported by Grenada?
  • Formulation dune réponse en langue naturelle
  • Couplage avec des modules de déduction
  • Is Chicago bigger than New York?
  • Problèmes particuliers
  • Génération
  • Intégration de ressources de source et de
    couverture différentes
  • Raisonnement

9
Fouille de textes
  • Problématique proche des précédentes
  • Pas de schémas, mais éventuellement une requête
  • Découverte de faits
  • 80 des magasins de fleurs de Grenoble vendent
    des roses et des lilas
  • Problèmes particuliers
  • Génération
  • Intégration de ressources de source et de
    couverture différentes
  • Inférence

10
Résumé
  • Reconnaissance de variantes morpho-syntaxiques et
    sémantiques
  • Extraction et typage dentités
  • Extraction de relations entre entités
  • Désambiguïsation sémantique
  • Gestion de la coréférence
  • ? Compréhension/représentation plus complète des
    documents

11
TAL et recherche dinformations (1)
  • Amaryllis (français)
  • Recherche dinformation traditionnelle
  • Recherche dinformation multilingue
  • Traduction des requêtes (dicitonnaires existants
    ou appris)
  • Traduction des documents (traduction automatique)
  • Modèle vectoriel généralisé, décomposition en
    valeurs propres (LSI)

12
TAL et recherche dinformations (2)
  • Indexations réalisées
  • Mots vides, mots pleins
  • Lemmatisation (étiquetage syntaxique)
  • Regroupement par morphologie relationnelle
  • Extraction de termes
  • Analyse de surface (grammaire de dépendance)
  • Extraction de lexiques bilingues de termes

13
TAL et recherche dinformations (3)
  • Indexations réalisées - exemple
  • Le patronat allemand redoute une forte
    augmentation du chômage
  • Le/le_det patronat/patronat_nom
    allemand/allemand_adj redoute/redouter_verb
  • patronat/patron, , augmentation/augmenter
  • patron_allemand, augmenter_chômage
  • SUBJ(patronat,redouter), OBJ(redouter,augmentation
    ), NADJ(patronat,allemand), NADJ(fort,augmentation
    )

14
TAL et recherche dinformations (4)
  • Évaluation des systèmes de RI
  • Précision à différents niveaux de rappel
  • Précision moyenne
  • Précision sur les 5/10 premiers documents fournis
    par les systèmes
  • Méthode de pooling pour constituer lensemble de
    référence

15
TAL et recherche dinformations (5)
  • Expériences réalisées
  • Différents modèles de recherche vectoriel,
    booléen pondéré
  • avec les différents modules présentés
  • Comparaison avec des approches plus grossières
  • paires adjacentes
  • fenêtre de mots

16
TAL et recherche dinformations (6)
  • Résultats, tests monolignues
  • Ref. Lem. Rac. Padj. Term. Synt.
  • Pm 0.20 0.23 0.24 0.247 0.25 0.242
  • - 16.5 18 21.3 22 20

17
TAL et recherche dinformations (7)
  • Évaluation précision sur les 5 premiers
    documents
  • Corpus INIST OFIL LRSA
  • Préc. 0.6 0.7 0.7

18
TAL et recherche dinformations (8)
  • Recherche multilingue
  • alignement de phrases
  • alignment de termes
  • enrichissement morphologique
  • même corpus pour dictionnaire et RI

cease arrêter 0.083 cesser 0.667
cesser - cesse, cessant, cessation
19
TAL et recherche dinformations (9)
  • Résultats multilingues
  • Exp. type A type B type C
  • A2A 0.490 0.490 0.497
  • F2A 0.406 0.496 0.498
  • F2F 0.541 0.547 0.530
  • A2F 0.527 0.527 0.535

20
Conclusion indexation linguistique
  • Recherche dinformation traditionnelle
  • Amaryllis-1/2, TREC-5/6 (monolingue et
    multilingue)
  • Analyse morphologique
  • oui (précision moyenne)
  • oui (5-10 documents)
  • Analyse syntaxique
  • non (précision moyenne)
  • oui (5-10 documents)

21
Vers une représentation plus fine de linformation
  • Extraction de relations Acteur / Cible
  • Extraction du type dAction
  • Extraction de Conditions
  • Extraction de Modifieurs
  • Example

regulate
(actor)
(target)
(modifier)
gt protein directly regulates eve
stripe. SUBJECT ( protein, regulate )
DIRECT-OBJECT ( regulate, stripe ) ADVERB (
directly, regulate ) GROUP gt protein
GROUP eve stripe
protein
stripe
directly
(related-to)
(related-to)
gt
eve
22
Graphes conceptuels (1)
  • Ontologie un réseau hiérarchique de concepts
    organisés suivant certaines
  • Exemple

Universal
is_a
is_a
gene
protein
is_a
is_a
is_a
hemoglobin
egl
bicD
23
Graphes conceptuels (2)
  • Exemple This protein activates bicD
  • Structure du graphe

activate
Actor
Target
protein
bicD
24
Graphes conceptuels (3)
Graphe de la phrase
Requête
Graphe résultat

activate
act
Destroy
activate
Projection
Actor
Target
Relation
Target
Target
protein
bicD
gene
protein
bicD
Ontologie
Appariement de graphes
25
Conclusion
  • Un certain continuum existe entre les paradigmes
  • Extraction de connaissances joue une place
    primordiale
  • Représentation des connaissances amenée à jouer
    un rôle majeur
  • Le TAL occupe une place de choix
  • Haute précision pour la RI
  • Indispensable pour lextraction dinformation

26
General Scheme
COLLECT spider
presentation summarization visualization browsing
DATA DOCUMENTS, USERS, COMMUNITIES
RESOURCES ontologies
Extraction Indexation Clust./categ. Hyper-linking
search/filter
INFORMATION PROFILES, RESOURCES
Write a Comment
User Comments (0)
About PowerShow.com