Title: Mthodes de dsambiguisation smantique
1Méthodes de désambiguisation sémantique
Frédérique Segond
2Quest-ce quun document?
Video
Images
Papier
Voix
CD ROM
Multimedia
Texte
Donnees
Graphique
Numerisation
Representation de linformation de telle sorte
quelle soit accessible partout, tout le temps et
dans nimporte quel format
3Cycle de vie dun document
Create
Scan
Recognize
Capture
Acquisition
Use
Construct
Store
View
Restitution
Gestion
Access
Publish
Account
Summarize
Copy
Route
Print
Fax
Distribute
4Xerox Research Centre Europe
Xerox Research Centre Europe
Laboratoire de Cambridge
Laboratoire de Grenoble Advanced Technology
Systems Headquarters
120 personnes 13 nationalités
5Aires de recherche au laboratoire de Grenoble
Coordination Technologies
Multilingual TheoryTechn
Accéder, traiter les documents dans un
environment multilingue
Coordination des applications distribuées sur
Internet/Intranet
Doc Views Transformations
Knowledge Management
6Langage Naturel à XRCE
Language Resources Group
1998
1997/8
1995
- Inxight
- MKMS
- Clients externes
1993
- Advanced Technology Systems
- XeLDA architecture
- Xerox Applications
- MLTT
- Technologies des états finis
- Ressources lexicales
- Recherche de base
7MLTThttp//www.xrce.xerox.com/mltt
- MLTT
- Les matériaux automates à états finis
- Les briques de base Segmenteur, normaliseur,
analyseur morphologiques, étiqueteur syntaxique,
extracteur de GN, - Les murs analyseur syntaxique robuste,
désambiguïsation sémantique - Les applications outils daide à la
compréhension, Recherche d Information, résumé
automatique, mémoire de traduction - Les formalismes PARGRAM(LFG), MDA
- Ressources Lexicales
2
8Langues
Anglais
Francais
Allemand
Italien
Néerlandais
Espagnol
Portuguais
9GroupeLexical Semantic Disambiguation le
bon sens près de chez vous
10Quel est le problème?
Le projet LSD sattaque à
lempire des sens
The empire of meanings the realm of the
senses ...
11Quel est le problème?
Le projet LSD sattaque à lempire des sens
Nous travaillons sur des méthodes qui permettent
de réordonner les différents sens dun mot, ceci
en utilisant son contexte dapparition
Différentes Méthodes linguistiques, statistiques
12Hypothèses
- Faire de la désambiguisation sémantique en
utilisant les méthodes de désambiguisation
syntaxique (PDD) - Utiliser des relations fonctionnelles,
- Apprendre des règles de désambiguisation
sémantique à partir de corpus.
13Désambiguisation/étiquetage sémantique
- Etiqueter un texte avec les étiquettes de WordNet
A rich S00 man S18 bought S40 the
houses S14 on the hill S17 . SENT
a rich man bought the houses on the hill .
S00 S18, S06, S41, S33 S42, S40 S14, S06, S04,
S41, S42 S17, S36 SENT
14Etiquettes sémantiques de WordNet
22 noun.process nouns denoting natural processes
23 noun.quantity nouns denoting quantities and
units of measure 24 noun.relation nouns
denoting relations between people or things or
ideas 25 noun.shape nouns denoting two and
three dimensional shapes 26 noun.state nouns
denoting stable states of affairs 27
noun.substance nouns denoting substances 28
noun.time nouns denoting time and temporal
relations 29 verb.body verbs of grooming,
dressing and bodily care 30 verb.change verbs
of size, temperature change, intensifying, etc.
31 verb.cognition verbs of thinking, judging,
analyzing, doubting 32 verb.communication verbs
of telling, asking, ordering, singing 33
verb.competition verbs of fighting, athletic
activities 34 verb.consumption verbs of eating
and drinking 35 verb.contactverbs of touching,
hitting, tying, digging 36 verb.creation verbs
of sewing, baking, painting, performing 37
verb.emotion verbs of feeling 38 verb.motion
verbs of walking, flying, swimming 39
verb.perception verbs of seeing, hearing, feeling
40 verb.possession verbs of buying, selling,
owning 41 verb.social verbs of political and
social activities and events 42 verb.stative
verbs of being, having, spatial relations 43
verb.weather verbs of raining, snowing, thawing,
thundering 44 adj.ppl participial adjectives
- 00 adj.all all adjective clusters
- 01 adj.pert relational adjectives (pertainyms)
- 02 adv.all all adverbs
- 03 noun.Tops unique beginners for nouns
- 04 noun.act nouns denoting acts or actions
- 05 noun.animal nouns denoting animals
- 06 noun.artifact nouns denoting man-made objects
- 07 noun.attribute nouns denoting attributes of
people and objects - 08 noun.body nouns denoting body parts
- 09 noun.cognition nouns denoting cognitive
processes and contents - 10 noun.communication nouns denoting
communicative processes - and contents
- 11 noun.event nouns denoting natural events
- 12 noun.feeling nouns denoting feelings and
emotions - 13 noun.food nouns denoting foods and drinks
- 14 noun.group nouns denoting groupings of people
or objects - 15 noun.location nouns denoting spatial position
- 16 noun.motive nouns denoting goals
- 17 noun.object nouns denoting natural objects
(not man-made)
15Létiqueteur de partie du discours de Xerox
- méthode statistique (HMM)
- application à différentes langues
- français, anglais, allemand, italien, espagnol,
portugais, néerlandais - en préparation danois, finnois, norvégien,
suédois, tchèque, hongrois, ... - taux derreurs 2 - 4
16Méthodes statistiques
- Calcul des probabilités à partir dun corpus
dapprentissage - probabilités lexicales
- prob ( étiquette mot ) freq ( mot, étiquette
) / freq ( mot ) - probabilités contextuelles
- bigrammes
- prob ( etiquette2 etiquette1 ) freq (
etiquette1 etiquette2 ) / freq ( etiquette1 ) - trigrammes
- prob ( etiquette3 etiquette1 etiquette2 )
freq ( etiquette1 etiquette2 etiquette3 ) / freq
( etiquette1 etiquette2 )
17Probabilités lexicales et contextuelles
1.00
0.28
0.00
fait/NOUN_SG
0.04
le/PC
0.21
0.00
0.12
0.36
1.00
fait/VERB_P3SG
elle/PRON
0.77
0.96
0.003
0.00
le/DET_SG
0.36
0.00
fait/PAP_SG
prob ( elle/PRON le/PC fait/VERB_P3SG ) 1.00
0.12 0.04 0.54 0.36 0.00093 prob (
elle/PRON le/DET_SG fait/NOUN_SG ) 1.00 0.003
0.96 0.77 0.28 0.00058 prob ( elle/PRON
le/DET_SG fait/VERB_P3SG ) 1.00 0.003 0.96
0.00 0.36 0
18Architecture de l'étiqueteur de Xerox
étiqueteur de parties du discours
Lexicon Lookup
19Corpus dapprentissage Brown Corpus
- Un cinquième du Brown corpus a été étiqueté
sémantiquement par léquipe de WordNet (11, 182
phrases).
He/DT told/32 the/DT committee/14 the/DT
measure/10 would/MD merely/02 provide/40 means/04
of/IN enforcing/41 the/DT escheat/21 law/10...
20Les différentes étapes de la construction de
létiqueteur sémantique
- définir un ensemble détiquettes
- construire le lexique associé
- préparer les corpus dapprentissage et de test
- calculer le modèle HMM
21Construction des données
- Le lexique est construit à partir des données de
WordNet
the DT can MD for IN ...
house S14,S06,S04,S41,S42 rich S00 man
S18,S06,S41,S33 ...
52 étiquettes sémantiques, 3282 classes
d'ambiguïté
22Corpus de test et dapprentissage
11182 phrases du Brown corpus étiqueté par
léquipe de WordNet.
Corpus dapprentissage et de test de même
taille - phrases paires (apprentissage) -
phrases impaires (test)
23Expériences
- Trois tests
- étiquettes WordNet seules
- parties du discours et étiquettes WordNet
- base line
24Corpus dapprentissage - étiquettes WordNet
seules
Préparation du corpus
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
Fulton_Country_Grand_Jury/03 said/32 Friday/28
investigation/09 of/IN Atlanta/15
recent/00 primary_election/04 produced/39
evidence/09 that/IN irregularities/04
took_place/30./.
- Corpus dapprentissage
- 75000 segments
- 72 classes d'ambiguïté
25Corpus de test- étiquettes WordNet seules
- Corpus de test
- 90,000 segments.
- 46 segments ambigus (deux étiquettes sémantiques
ou plus).
told committee measure merely provide means of
enforcing escheat law...
26Corpus dapprentissage-Test 2
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
bark 06,11,20,30,32, 35
barkVERB 30,32,35 barkNOUN 06,11,20
Fulton_Country_Grand_JuryNOUN/03 saidVERB/32
FridayNOUN/28 investigationNOUN/09 of/IN
AtlantaNOUN/15 recentADJ/00 primary_electionN
OUN/04 producedVERB/39 evidenceNOUN/09
that/IN irregularitiesNOUN/04
took_placeVERB/30 ./.
27Corpus de test- Test 2
toldVERB committeeNOUN measureNOUN
merelyADV provideVERB meansNOUN of
enforcingVERB escheatNOUN lawNOUN...
28Base line
- Les étiquettes sémantiques les plus fréquentes
pour chaque lemme étiqueté syntaxiquement - Pour les mots inconnus létiquette sémantique
la plus fréquente par partie du discours -
29Résultats
30Résultats
- Base line 81
-
- Sémantique seule - Sémantique PDD
- amélioration due au fait que le taux d'ambiguïté
est plus bas - le pré-étiquetage syntaxique a permis de
résoudre l'ambiguïté sémantique pour 40 des
mots ambigus (test 1)
31Approche fonctionnelle vs. approche adjacente
Fonctionnelle
dénicher ainsi quelques missions lucratives ...
Adjacente
32HMM vs. approche non supervisée
33Ingrédients
Type de composant
Nom du composant
Fonction
34U-Penn Tree Bank - ensemble de phrases
étiquetées/parenthésées syntaxiquement
You do something to the economy
(S (NP you) (VP do (NP something) (PP
to (NP The economy)))
Zebu-LARLR analyseur pour extraire les relations
syntaxiques SUBJ-VERB VERB-OBJ VERB-PREP/OBJ
NOUN-PREP-PREP/OBJ
35Algorithme de Brill
- Composants de lalgorithme
- annotateur détat initial (via WordNet)
- espace de transformations
- fonction de scoring
- Apprentissage itératif de règles de
transformations via un algorithme de recherche - Sélectionner la transformation avec le meilleur
score - lajouter à la liste ordonnée des transformations
- lappliquer au corpus
36Algorithme de Brill shémas de Transformations
possibles
- Une transformation est une règle de réécriture
ayant des contraintes contextuelles - Change l étiquette a en Y (Y ? a) si
- (1) le mot précédent a l étiquette z
- (2) le mot suivant a l étiquette z
- (3) le mot précédent est w
- (4) le mot suivant est w
- Le nombre des étiquettes non ambigües augmente
lors des - itérations successives de lalgorithme
37Algorithme de Brill fonctions de scoring
- (v1) discriminer entre deux meilleures
étiquettes étant donné le contexte - object, possession, act, artifact, group
- (C, object) (C, artifact)
- (v2) discriminer entre une étiquette lensemble
de celles qui restent - (C, object) (C, possession, act,
artifact, group) - (v3) favoriser les mots rares
- les mots les plus courants ont tendance à être
plus ambigus et donc plus difficiles à
désambiguïser
38Expérience GINGER I
Extraction de relations fonctionnelles (Zebu-LarLr
)
Brown étiqueté syntaxiquement (U-Penn)
Affectation détiquettes sémantiques (WordNet)
Etapes de construction du système
Règles de désambiguisation sémantiques
Apprentissage sur les bigrams (Brill)
Brown Corpus
Application des règles
Brown étiqueté sémantiquement (WordNet)
Evaluation
Corpus annoté
39Préparation des données extraction des relations
fonctionnelles
40Préparation des données Remplacer les indices et
affecter des étiquettes sémantiques
41Préparation des données Regrouper les
étiquettes
42Apprentissage
- 6 Mg de corpus étiqueté (syntaxe) transformé en
règles du type suivant - bi18_bi14 bi18 LEFT b42_b43
- Si un nom est ambigu entre person et act et quil
apparaît comme sujet dun verbe qui est ambigü
entre stative et communication, alors le
désambiguïser en tant que person.
43Précision et Rappel(environ 500 règles)
44Améliorations possibles
- regrouper les étiquettes en classes ,
- meilleure sémantique pour les adjectifs,
- règles n-aires plutôt que bigrams (SUBJ-VERB-OBJ,
...).
45Bons résultats, bons à quoi?
- Un désambiguïsateur sémantique attaché à une
ressource lexicale donnée construite pour
application donnée
46La famille des systèmes Ginger
- Sur tous les mots, non-supervisé, a base de
règles - Utiliser les dictionnaires comme des corpus
étiquetés a partir des quels on extrait
automatiquement des règles de désambiguisation - Les règles de désambiguisation utilisent
linformation sémantique provenant du
dictionnaire et les relations de dépendances
fonctionnelles provenant de l analyseur robuste - Le module dapplication des règles sappuie sur
une stratégie linguistique guidée par la
sémantique des étiquettes SGML.
47Exemple dextraction de règles a partir dune
entrée de dictionnaire
- ltsegtlthwgtseizelt/hwgt ltprgtltphgtsizlt/phgtlt/prgt
- lts1 numI nlngtltpsgtvtrlt/psgt
- lts2 num1gtltlagtlitlt/lagt (lticgttake hold oflt/icgt)
saisir ltcogtperson, objectlt/cogt - ltlegtto seize around the
waistlt/legt saisir qn par la taille - ltlegtto seize hold oflt/legt se saisir de
ltcogtpersonlt/cogt - s'emparer de ltcogtobjectlt/cogt sauter sur
ltcogtidealt/cogtlt/s2gt - lts2 num2gtltlagtfiglt/lagt (lticgtgrasplt/icgt) saisir
ltcogtopportunity, momentlt/cogt - prendre ltcogtinitiativelt/cogt
- lts2 num3gtltlagtMillt/lagt, ltlagtPollt/lagt(lticgtcapture
lt/icgt) - s'emparer de ltcogtterritory, hosetiquettee,
prisoner, installation, powerlt/cogt - ltlsgtto be seized bylt/lsgt etre pris de
ltcogtemotion, pain, fitlt/cogtlt/s2gt - prendre ltcogtcontrollt/cogtlt/s2gt
- lts2 num4gtltlagtJurlt/lagt saisir ltcogtarms, drugs,
propertylt/cogt - appréhender ltcogtpersonlt/cogtlt/s2gtlt/s1gt.
- lts1 numIIgtltpsgtvilt/psgt ltcogtengine,
mechanismlt/cogt se gripperlt/s1gt.lt/segt
48WordNet 1.5 et le Roget Thesaurus des réseaux
sémantiques
- 45 WordNet étiquettes sémantiques Top level
- En revanche très peu de catégories sémantiques
sont attachées aux adjectifs et aux adverbes,
elles sont dautre part, purement syntaxiques - Enrichissement avec les catégories du Roget (6
catégories pour les adverbes, 7 pour les
adjectifs)
49Analyse Syntaxique Robuste
- Propriétés
- Analyses partielles
- Structures syntaxiques minimales
- Pas de représentation explicite des ambiguités
- Plusieurs étapes
- Analyse déterministe
- Analyse robuste
50Extraction des règles l analyseur synatxique
robuste
- They seized somebody around the waist
- SC NP _they NP/SUBJ v seized SC NP
somebody NP/OBJ PP around the waist PP - SUBJ(they,seize)
- DOBJ(seize,somebody)
- VMODOBJ(seize,around,waist)
-
51Les règles de désambiguisation sémantique
- seize 0.1.1 WOBJ somebody
- 0.1.2
- 0.1.3
- seize 0.1.1 OBJ X noun.person
- 0.1.2
- 0.1.3
Seize 0.1.2
Seize 0.1.2
52ARCHITECTURE GENERALE
Dictionary
INPUT TEXT
Functional Dependency Extraction
Functional Dependency Extraction
Shallow Parser
WordNet Transducers
Semantic etiquettes Assignment
Linguistic Strategy
XELDA Semantic dictionary lookup
Semantic Disambiguation Rule Database
Reordered Entry
53Stratégie de sélection des règles de
désambiguisation
- Programme dapplication des règles
- Sélection de la règle la plus appropriée
- Proposer la partie de lentrée du dictionnaire
correspondant a la règle en question - Processus du programme dapplication des règles
- Analyse syntaxique du texte en entrée (analyseur
robuste) extraction des dépendences
fonctionnelles - Extraction de la liste des règles candidates
54Stratégie pour la sélection des règles
- Lorsquil y a compétition entre plusieurs règles
- Les règles au niveau du mot ont priorité Si
compétition - Sélection de la règle en fonction du étiquette
sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt - Sélection des règles au niveau des classes
d'ambiguïté Si compétition - Calcul de la distance D entre les règles et le
contexte - D(Card(U(L1,L2))-Card(I(L1,L2)))/Card(U)
- Sélection de la règle avec la distance la plus
petite Si compétition - Sélection de la règle en fonction de l étiquette
sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt
55EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Dépendances
fonctionnelles SUBJ(police,seize) DOBJ(seize,man)
VMODOBJ(seize,around,May 1985) VMODOBJ(seize,
of, society) Dans ce cas, pas de correspondance
directe au niveau lexical ? correspondance au
niveau des classes calcul de la distance
56EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Plusieurs
possibilités correspondent à DOBJ(seize,
ListClass(man)) Après élimination des règles
avec une distance élevée, compétition entre R1
DOBJ(seize,ListClass(prisoner)) ? 0.I.3 ltCOgt
R2 DOBJ(seize, ListClass(somebody)) ? 0.I.1
ltLEgt NUMERO DE SENS RETENU 0.I.3 (Collocate)
Sens général capture et traduction française
semparer de
57(No Transcript)
58EVALUATION
- Système évalué in vitro sur les 34 mots (8500
phrases) de SENSEVAL (comparaison avec Dini et
Al99 - Résultats (polysémie réelle et seulement lorsque
une information contenue dans le dictionnaire a
permis de faire un choix)
PDD Précision Rappel Polysémie moyenne N 83.7
27.4 5.4 A 81.3 55.8 5.7 V 75 37.6 6.2
All 79.5 37.4 5.8
59 EVALUATION
- Précision élevée (85) mais rappel bas (11 )
pour les règles lexicales - Pour les règles au niveau des classes les
résultats varient en fonction des parties du
discours - Noms les règles provenant des exemples sont les
plus efficaces (rappel bas pour les collocations)
- Adjectifs rappel particulièrement élevé
(information dictionnairique particulièrement
riche au niveau des collocations) - Verbes meilleur rappel que pour les noms car
l information fournie par le dictionnaire est
plus riche.
60Améliorations possibles
- Utiliser des classes sémantiques plus fines pour
les adverbes et les adjectifs - Prendre en compte la précision de l analyseur
syntaxique robuste dans la stratégie - Utiliser une ontologie directement extraite du
dictionnaire
61XELDA
Services
Applications
Composants
Technologies des états finis
62XeLDA (Xerox Linguistic Development Architecture)
- Composants du langage naturel
- segmentation
- Analyse morphologique
- HMM désambiguïsation syntaxique
- Extraction de groupes nominaux
- Analyseur syntaxique robuste
- Lookup (dictionnaire)
- module de désambiguisation sémantique
- Identifieur de langues
63A quoi sert la désambiguisation sémantique chez
Xerox?
- Améliorer les performances du multi-lingual
assistant - Extraction intelligente d information (en
particulier dans le domaine de l édition plus
on pré-encode, plus on facilite l extraction) - Classification de Documents (sur le web)
- Créer des hyperliens (textes, images, speech,
sons, vidéos)
64Senseval et Romanseval évaluation des systèmes
de désambiguisation sémantique
- Senseval sur langlais
- Dictionnaire Oxford, Corpus Hector, 34 mots
- Web-site http//www.itri.bton.ac.uk/events/sense
val/ - Romanseval sur le français et litalien
- Dictionnaire Larousse/Garzanti, Corpus JOC, 60
mots - Web-site http//www.lpl.univ-aix.fr/projects/roma
nseval