Mthodes de dsambiguisation smantique

About This Presentation

Title:

Mthodes de dsambiguisation smantique

Description:

'Representation de l'information de telle sorte qu'elle soit accessible partout, tout le ... Affectation. d' tiquettes s mantiques (WordNet) Apprentissage. sur les bigrams (Brill) ... – PowerPoint PPT presentation

Number of Views:34

Avg rating:3.0/5.0

Slides: 63

Provided by: Nik358

Category:

more less

Transcript and Presenter's Notes

Title: Mthodes de dsambiguisation smantique

1
Méthodes de désambiguisation sémantique
Frédérique Segond
2
Quest-ce quun document?
Video
Images
Papier
Voix
CD ROM
Multimedia
Texte
Donnees
Graphique
Numerisation
Representation de linformation de telle sorte
quelle soit accessible partout, tout le temps et
dans nimporte quel format
3
Cycle de vie dun document
Create
Scan
Recognize
Capture
Acquisition
Use
Construct
Store
View
Restitution
Gestion
Access
Publish
Account
Summarize
Copy
Route
Print
Fax
Distribute
4
Xerox Research Centre Europe
Xerox Research Centre Europe
Laboratoire de Cambridge
Laboratoire de Grenoble Advanced Technology
Systems Headquarters
120 personnes 13 nationalités
5
Aires de recherche au laboratoire de Grenoble
Coordination Technologies
Multilingual TheoryTechn
Accéder, traiter les documents dans un
environment multilingue
Coordination des applications distribuées sur
Internet/Intranet
Doc Views Transformations
Knowledge Management
6
Langage Naturel à XRCE
Language Resources Group
1998
1997/8
1995

Inxight
MKMS
Clients externes

1993

Advanced Technology Systems
XeLDA architecture
Xerox Applications

MLTT
Technologies des états finis
Ressources lexicales
Recherche de base

7
MLTThttp//www.xrce.xerox.com/mltt

MLTT
Les matériaux automates à états finis
Les briques de base Segmenteur, normaliseur,
analyseur morphologiques, étiqueteur syntaxique,
extracteur de GN,
Les murs analyseur syntaxique robuste,
désambiguïsation sémantique
Les applications outils daide à la
compréhension, Recherche d Information, résumé
automatique, mémoire de traduction
Les formalismes PARGRAM(LFG), MDA
Ressources Lexicales

2
8
Langues
Anglais
Francais
Allemand
Italien
Néerlandais
Espagnol
Portuguais
9
GroupeLexical Semantic Disambiguation le
bon sens près de chez vous
10
Quel est le problème?
Le projet LSD sattaque à
lempire des sens
The empire of meanings the realm of the
senses ...
11
Quel est le problème?
Le projet LSD sattaque à lempire des sens
Nous travaillons sur des méthodes qui permettent
de réordonner les différents sens dun mot, ceci
en utilisant son contexte dapparition
Différentes Méthodes linguistiques, statistiques
12
Hypothèses

Faire de la désambiguisation sémantique en
utilisant les méthodes de désambiguisation
syntaxique (PDD)
Utiliser des relations fonctionnelles,
Apprendre des règles de désambiguisation
sémantique à partir de corpus.

13
Désambiguisation/étiquetage sémantique

Etiqueter un texte avec les étiquettes de WordNet

A rich S00 man S18 bought S40 the
houses S14 on the hill S17 . SENT
a rich man bought the houses on the hill .
S00 S18, S06, S41, S33 S42, S40 S14, S06, S04,
S41, S42 S17, S36 SENT
14
Etiquettes sémantiques de WordNet
22 noun.process nouns denoting natural processes
23 noun.quantity nouns denoting quantities and
units of measure 24 noun.relation nouns
denoting relations between people or things or
ideas 25 noun.shape nouns denoting two and
three dimensional shapes 26 noun.state nouns
denoting stable states of affairs 27
noun.substance nouns denoting substances 28
noun.time nouns denoting time and temporal
relations 29 verb.body verbs of grooming,
dressing and bodily care 30 verb.change verbs
of size, temperature change, intensifying, etc.
31 verb.cognition verbs of thinking, judging,
analyzing, doubting 32 verb.communication verbs
of telling, asking, ordering, singing 33
verb.competition verbs of fighting, athletic
activities 34 verb.consumption verbs of eating
and drinking 35 verb.contactverbs of touching,
hitting, tying, digging 36 verb.creation verbs
of sewing, baking, painting, performing 37
verb.emotion verbs of feeling 38 verb.motion
verbs of walking, flying, swimming 39
verb.perception verbs of seeing, hearing, feeling
40 verb.possession verbs of buying, selling,
owning 41 verb.social verbs of political and
social activities and events 42 verb.stative
verbs of being, having, spatial relations 43
verb.weather verbs of raining, snowing, thawing,
thundering 44 adj.ppl participial adjectives

00 adj.all all adjective clusters
01 adj.pert relational adjectives (pertainyms)
02 adv.all all adverbs
03 noun.Tops unique beginners for nouns
04 noun.act nouns denoting acts or actions
05 noun.animal nouns denoting animals
06 noun.artifact nouns denoting man-made objects
07 noun.attribute nouns denoting attributes of
people and objects
08 noun.body nouns denoting body parts
09 noun.cognition nouns denoting cognitive
processes and contents
10 noun.communication nouns denoting
communicative processes
and contents
11 noun.event nouns denoting natural events
12 noun.feeling nouns denoting feelings and
emotions
13 noun.food nouns denoting foods and drinks
14 noun.group nouns denoting groupings of people
or objects
15 noun.location nouns denoting spatial position
16 noun.motive nouns denoting goals
17 noun.object nouns denoting natural objects
(not man-made)

15
Létiqueteur de partie du discours de Xerox

méthode statistique (HMM)
application à différentes langues
français, anglais, allemand, italien, espagnol,
portugais, néerlandais
en préparation danois, finnois, norvégien,
suédois, tchèque, hongrois, ...
taux derreurs 2 - 4

16
Méthodes statistiques

Calcul des probabilités à partir dun corpus
dapprentissage
probabilités lexicales
prob ( étiquette mot ) freq ( mot, étiquette
) / freq ( mot )
probabilités contextuelles
bigrammes
prob ( etiquette2 etiquette1 ) freq (
etiquette1 etiquette2 ) / freq ( etiquette1 )
trigrammes
prob ( etiquette3 etiquette1 etiquette2 )
freq ( etiquette1 etiquette2 etiquette3 ) / freq
( etiquette1 etiquette2 )

17
Probabilités lexicales et contextuelles
1.00
0.28
0.00
fait/NOUN_SG
0.04
le/PC
0.21
0.00
0.12
0.36
1.00
fait/VERB_P3SG
elle/PRON
0.77
0.96
0.003
0.00
le/DET_SG
0.36
0.00
fait/PAP_SG
prob ( elle/PRON le/PC fait/VERB_P3SG ) 1.00
0.12 0.04 0.54 0.36 0.00093 prob (
elle/PRON le/DET_SG fait/NOUN_SG ) 1.00 0.003
0.96 0.77 0.28 0.00058 prob ( elle/PRON
le/DET_SG fait/VERB_P3SG ) 1.00 0.003 0.96
0.00 0.36 0
18
Architecture de l'étiqueteur de Xerox
étiqueteur de parties du discours
Lexicon Lookup
19
Corpus dapprentissage Brown Corpus

Un cinquième du Brown corpus a été étiqueté
sémantiquement par léquipe de WordNet (11, 182
phrases).

He/DT told/32 the/DT committee/14 the/DT
measure/10 would/MD merely/02 provide/40 means/04
of/IN enforcing/41 the/DT escheat/21 law/10...
20
Les différentes étapes de la construction de
létiqueteur sémantique

définir un ensemble détiquettes
construire le lexique associé
préparer les corpus dapprentissage et de test
calculer le modèle HMM

21
Construction des données

Le lexique est construit à partir des données de
WordNet

the DT can MD for IN ...
house S14,S06,S04,S41,S42 rich S00 man
S18,S06,S41,S33 ...
52 étiquettes sémantiques, 3282 classes
d'ambiguïté
22
Corpus de test et dapprentissage
11182 phrases du Brown corpus étiqueté par
léquipe de WordNet.
Corpus dapprentissage et de test de même
taille - phrases paires (apprentissage) -
phrases impaires (test)
23
Expériences

Trois tests
étiquettes WordNet seules
parties du discours et étiquettes WordNet
base line

24
Corpus dapprentissage - étiquettes WordNet
seules
Préparation du corpus
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
Fulton_Country_Grand_Jury/03 said/32 Friday/28
investigation/09 of/IN Atlanta/15
recent/00 primary_election/04 produced/39
evidence/09 that/IN irregularities/04
took_place/30./.

Corpus dapprentissage
75000 segments
72 classes d'ambiguïté

25
Corpus de test- étiquettes WordNet seules

Corpus de test
90,000 segments.
46 segments ambigus (deux étiquettes sémantiques
ou plus).

told committee measure merely provide means of
enforcing escheat law...
26
Corpus dapprentissage-Test 2
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
bark 06,11,20,30,32, 35
barkVERB 30,32,35 barkNOUN 06,11,20
Fulton_Country_Grand_JuryNOUN/03 saidVERB/32
FridayNOUN/28 investigationNOUN/09 of/IN
AtlantaNOUN/15 recentADJ/00 primary_electionN
OUN/04 producedVERB/39 evidenceNOUN/09
that/IN irregularitiesNOUN/04
took_placeVERB/30 ./.

1685 classes d'ambiguïté

27
Corpus de test- Test 2

27 de mots ambigus

toldVERB committeeNOUN measureNOUN
merelyADV provideVERB meansNOUN of
enforcingVERB escheatNOUN lawNOUN...
28
Base line

Les étiquettes sémantiques les plus fréquentes
pour chaque lemme étiqueté syntaxiquement
Pour les mots inconnus létiquette sémantique
la plus fréquente par partie du discours

29
Résultats
30
Résultats

Base line 81
Sémantique seule - Sémantique PDD
amélioration due au fait que le taux d'ambiguïté
est plus bas
le pré-étiquetage syntaxique a permis de
résoudre l'ambiguïté sémantique pour 40 des
mots ambigus (test 1)

31
Approche fonctionnelle vs. approche adjacente
Fonctionnelle
dénicher ainsi quelques missions lucratives ...
Adjacente
32
HMM vs. approche non supervisée
33
Ingrédients
Type de composant
Nom du composant
Fonction
34
U-Penn Tree Bank - ensemble de phrases
étiquetées/parenthésées syntaxiquement
You do something to the economy
(S (NP you) (VP do (NP something) (PP
to (NP The economy)))
Zebu-LARLR analyseur pour extraire les relations
syntaxiques SUBJ-VERB VERB-OBJ VERB-PREP/OBJ
NOUN-PREP-PREP/OBJ
35
Algorithme de Brill

Composants de lalgorithme
annotateur détat initial (via WordNet)
espace de transformations
fonction de scoring
Apprentissage itératif de règles de
transformations via un algorithme de recherche
Sélectionner la transformation avec le meilleur
score
lajouter à la liste ordonnée des transformations
lappliquer au corpus

36
Algorithme de Brill shémas de Transformations
possibles

Une transformation est une règle de réécriture
ayant des contraintes contextuelles
Change l étiquette a en Y (Y ? a) si
(1) le mot précédent a l étiquette z
(2) le mot suivant a l étiquette z
(3) le mot précédent est w
(4) le mot suivant est w

Le nombre des étiquettes non ambigües augmente
lors des
itérations successives de lalgorithme

37
Algorithme de Brill fonctions de scoring

(v1) discriminer entre deux meilleures
étiquettes étant donné le contexte
object, possession, act, artifact, group
(C, object) (C, artifact)
(v2) discriminer entre une étiquette lensemble
de celles qui restent
(C, object) (C, possession, act,
artifact, group)
(v3) favoriser les mots rares
les mots les plus courants ont tendance à être
plus ambigus et donc plus difficiles à
désambiguïser

38
Expérience GINGER I
Extraction de relations fonctionnelles (Zebu-LarLr
)
Brown étiqueté syntaxiquement (U-Penn)
Affectation détiquettes sémantiques (WordNet)
Etapes de construction du système
Règles de désambiguisation sémantiques
Apprentissage sur les bigrams (Brill)
Brown Corpus
Application des règles
Brown étiqueté sémantiquement (WordNet)
Evaluation
Corpus annoté
39
Préparation des données extraction des relations
fonctionnelles
40
Préparation des données Remplacer les indices et
affecter des étiquettes sémantiques
41
Préparation des données Regrouper les
étiquettes
42
Apprentissage

6 Mg de corpus étiqueté (syntaxe) transformé en
règles du type suivant
bi18_bi14 bi18 LEFT b42_b43
Si un nom est ambigu entre person et act et quil
apparaît comme sujet dun verbe qui est ambigü
entre stative et communication, alors le
désambiguïser en tant que person.

43
Précision et Rappel(environ 500 règles)
44
Améliorations possibles

regrouper les étiquettes en classes ,
meilleure sémantique pour les adjectifs,
règles n-aires plutôt que bigrams (SUBJ-VERB-OBJ,
...).

45
Bons résultats, bons à quoi?

Un désambiguïsateur sémantique attaché à une
ressource lexicale donnée construite pour
application donnée

46
La famille des systèmes Ginger

Sur tous les mots, non-supervisé, a base de
règles
Utiliser les dictionnaires comme des corpus
étiquetés a partir des quels on extrait
automatiquement des règles de désambiguisation
Les règles de désambiguisation utilisent
linformation sémantique provenant du
dictionnaire et les relations de dépendances
fonctionnelles provenant de l analyseur robuste
Le module dapplication des règles sappuie sur
une stratégie linguistique guidée par la
sémantique des étiquettes SGML.

47
Exemple dextraction de règles a partir dune
entrée de dictionnaire

ltsegtlthwgtseizelt/hwgt ltprgtltphgtsizlt/phgtlt/prgt
lts1 numI nlngtltpsgtvtrlt/psgt
lts2 num1gtltlagtlitlt/lagt (lticgttake hold oflt/icgt)
saisir ltcogtperson, objectlt/cogt
ltlegtto seize around the
waistlt/legt saisir qn par la taille
ltlegtto seize hold oflt/legt se saisir de
ltcogtpersonlt/cogt
s'emparer de ltcogtobjectlt/cogt sauter sur
ltcogtidealt/cogtlt/s2gt
lts2 num2gtltlagtfiglt/lagt (lticgtgrasplt/icgt) saisir
ltcogtopportunity, momentlt/cogt
prendre ltcogtinitiativelt/cogt
lts2 num3gtltlagtMillt/lagt, ltlagtPollt/lagt(lticgtcapture
lt/icgt)
s'emparer de ltcogtterritory, hosetiquettee,
prisoner, installation, powerlt/cogt
ltlsgtto be seized bylt/lsgt etre pris de
ltcogtemotion, pain, fitlt/cogtlt/s2gt
prendre ltcogtcontrollt/cogtlt/s2gt
lts2 num4gtltlagtJurlt/lagt saisir ltcogtarms, drugs,
propertylt/cogt
appréhender ltcogtpersonlt/cogtlt/s2gtlt/s1gt.
lts1 numIIgtltpsgtvilt/psgt ltcogtengine,
mechanismlt/cogt se gripperlt/s1gt.lt/segt

48
WordNet 1.5 et le Roget Thesaurus des réseaux
sémantiques

45 WordNet étiquettes sémantiques Top level
En revanche très peu de catégories sémantiques
sont attachées aux adjectifs et aux adverbes,
elles sont dautre part, purement syntaxiques
Enrichissement avec les catégories du Roget (6
catégories pour les adverbes, 7 pour les
adjectifs)

49
Analyse Syntaxique Robuste

Propriétés
Analyses partielles
Structures syntaxiques minimales
Pas de représentation explicite des ambiguités
Plusieurs étapes
Analyse déterministe
Analyse robuste

50
Extraction des règles l analyseur synatxique
robuste

They seized somebody around the waist
SC NP _they NP/SUBJ v seized SC NP
somebody NP/OBJ PP around the waist PP
SUBJ(they,seize)
DOBJ(seize,somebody)
VMODOBJ(seize,around,waist)

51
Les règles de désambiguisation sémantique

seize 0.1.1 WOBJ somebody
0.1.2
0.1.3
seize 0.1.1 OBJ X noun.person
0.1.2
0.1.3

Seize 0.1.2
Seize 0.1.2
52
ARCHITECTURE GENERALE
Dictionary
INPUT TEXT
Functional Dependency Extraction
Functional Dependency Extraction
Shallow Parser
WordNet Transducers

Semantic etiquettes Assignment
Linguistic Strategy
XELDA Semantic dictionary lookup
Semantic Disambiguation Rule Database
Reordered Entry
53
Stratégie de sélection des règles de
désambiguisation

Programme dapplication des règles
Sélection de la règle la plus appropriée
Proposer la partie de lentrée du dictionnaire
correspondant a la règle en question
Processus du programme dapplication des règles
Analyse syntaxique du texte en entrée (analyseur
robuste) extraction des dépendences
fonctionnelles
Extraction de la liste des règles candidates

54
Stratégie pour la sélection des règles

Lorsquil y a compétition entre plusieurs règles
Les règles au niveau du mot ont priorité Si
compétition
Sélection de la règle en fonction du étiquette
sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt
Sélection des règles au niveau des classes
d'ambiguïté Si compétition
Calcul de la distance D entre les règles et le
contexte
D(Card(U(L1,L2))-Card(I(L1,L2)))/Card(U)
Sélection de la règle avec la distance la plus
petite Si compétition
Sélection de la règle en fonction de l étiquette
sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt

55
EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Dépendances
fonctionnelles SUBJ(police,seize) DOBJ(seize,man)
VMODOBJ(seize,around,May 1985) VMODOBJ(seize,
of, society) Dans ce cas, pas de correspondance
directe au niveau lexical ? correspondance au
niveau des classes calcul de la distance
56
EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Plusieurs
possibilités correspondent à DOBJ(seize,
ListClass(man)) Après élimination des règles
avec une distance élevée, compétition entre R1
DOBJ(seize,ListClass(prisoner)) ? 0.I.3 ltCOgt
R2 DOBJ(seize, ListClass(somebody)) ? 0.I.1
ltLEgt NUMERO DE SENS RETENU 0.I.3 (Collocate)
Sens général capture et traduction française
semparer de
57
(No Transcript)
58
EVALUATION

Système évalué in vitro sur les 34 mots (8500
phrases) de SENSEVAL (comparaison avec Dini et
Al99
Résultats (polysémie réelle et seulement lorsque
une information contenue dans le dictionnaire a
permis de faire un choix)

PDD Précision Rappel Polysémie moyenne N 83.7
27.4 5.4 A 81.3 55.8 5.7 V 75 37.6 6.2
All 79.5 37.4 5.8
59
EVALUATION

Précision élevée (85) mais rappel bas (11 )
pour les règles lexicales
Pour les règles au niveau des classes les
résultats varient en fonction des parties du
discours
Noms les règles provenant des exemples sont les
plus efficaces (rappel bas pour les collocations)
Adjectifs rappel particulièrement élevé
(information dictionnairique particulièrement
riche au niveau des collocations)
Verbes meilleur rappel que pour les noms car
l information fournie par le dictionnaire est
plus riche.

60
Améliorations possibles

Utiliser des classes sémantiques plus fines pour
les adverbes et les adjectifs
Prendre en compte la précision de l analyseur
syntaxique robuste dans la stratégie
Utiliser une ontologie directement extraite du
dictionnaire

61
XELDA

Services
Applications
Composants
Technologies des états finis
62
XeLDA (Xerox Linguistic Development Architecture)

Composants du langage naturel

segmentation
Analyse morphologique
HMM désambiguïsation syntaxique
Extraction de groupes nominaux
Analyseur syntaxique robuste
Lookup (dictionnaire)
module de désambiguisation sémantique
Identifieur de langues

63
A quoi sert la désambiguisation sémantique chez
Xerox?

Améliorer les performances du multi-lingual
assistant
Extraction intelligente d information (en
particulier dans le domaine de l édition plus
on pré-encode, plus on facilite l extraction)
Classification de Documents (sur le web)
Créer des hyperliens (textes, images, speech,
sons, vidéos)

64
Senseval et Romanseval évaluation des systèmes
de désambiguisation sémantique