Mthodes de dsambiguisation smantique - PowerPoint PPT Presentation

1 / 62
About This Presentation
Title:

Mthodes de dsambiguisation smantique

Description:

'Representation de l'information de telle sorte qu'elle soit accessible partout, tout le ... Affectation. d' tiquettes s mantiques (WordNet) Apprentissage. sur les bigrams (Brill) ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 63
Provided by: Nik358
Category:

less

Transcript and Presenter's Notes

Title: Mthodes de dsambiguisation smantique


1
Méthodes de désambiguisation sémantique
Frédérique Segond
2
Quest-ce quun document?
Video
Images
Papier
Voix
CD ROM
Multimedia
Texte
Donnees
Graphique
Numerisation
Representation de linformation de telle sorte
quelle soit accessible partout, tout le temps et
dans nimporte quel format
3
Cycle de vie dun document
Create
Scan
Recognize
Capture
Acquisition
Use
Construct
Store
View
Restitution
Gestion
Access
Publish
Account
Summarize
Copy
Route
Print
Fax
Distribute
4
Xerox Research Centre Europe
Xerox Research Centre Europe
Laboratoire de Cambridge
Laboratoire de Grenoble Advanced Technology
Systems Headquarters
120 personnes 13 nationalités
5
Aires de recherche au laboratoire de Grenoble
Coordination Technologies
Multilingual TheoryTechn
Accéder, traiter les documents dans un
environment multilingue
Coordination des applications distribuées sur
Internet/Intranet
Doc Views Transformations
Knowledge Management
6
Langage Naturel à XRCE
Language Resources Group
1998
1997/8
1995
  • Inxight
  • MKMS
  • Clients externes

1993
  • Advanced Technology Systems
  • XeLDA architecture
  • Xerox Applications
  • MLTT
  • Technologies des états finis
  • Ressources lexicales
  • Recherche de base

7
MLTThttp//www.xrce.xerox.com/mltt
  • MLTT
  • Les matériaux automates à états finis
  • Les briques de base Segmenteur, normaliseur,
    analyseur morphologiques, étiqueteur syntaxique,
    extracteur de GN,
  • Les murs analyseur syntaxique robuste,
    désambiguïsation sémantique
  • Les applications outils daide à la
    compréhension, Recherche d Information, résumé
    automatique, mémoire de traduction
  • Les formalismes PARGRAM(LFG), MDA
  • Ressources Lexicales

2
8
Langues
Anglais
Francais
Allemand
Italien
Néerlandais
Espagnol
Portuguais
9
GroupeLexical Semantic Disambiguation le
bon sens près de chez vous
10
Quel est le problème?
Le projet LSD sattaque à
lempire des sens
The empire of meanings the realm of the
senses ...
11
Quel est le problème?
Le projet LSD sattaque à lempire des sens
Nous travaillons sur des méthodes qui permettent
de réordonner les différents sens dun mot, ceci
en utilisant son contexte dapparition
Différentes Méthodes linguistiques, statistiques
12
Hypothèses
  • Faire de la désambiguisation sémantique en
    utilisant les méthodes de désambiguisation
    syntaxique (PDD)
  • Utiliser des relations fonctionnelles,
  • Apprendre des règles de désambiguisation
    sémantique à partir de corpus.

13
Désambiguisation/étiquetage sémantique
  • Etiqueter un texte avec les étiquettes de WordNet

A rich S00 man S18 bought S40 the
houses S14 on the hill S17 . SENT
a rich man bought the houses on the hill .
S00 S18, S06, S41, S33 S42, S40 S14, S06, S04,
S41, S42 S17, S36 SENT
14
Etiquettes sémantiques de WordNet
22 noun.process nouns denoting natural processes
23 noun.quantity nouns denoting quantities and
units of measure 24 noun.relation nouns
denoting relations between people or things or
ideas 25 noun.shape nouns denoting two and
three dimensional shapes 26 noun.state nouns
denoting stable states of affairs 27
noun.substance nouns denoting substances 28
noun.time nouns denoting time and temporal
relations 29 verb.body verbs of grooming,
dressing and bodily care 30 verb.change verbs
of size, temperature change, intensifying, etc.
31 verb.cognition verbs of thinking, judging,
analyzing, doubting 32 verb.communication verbs
of telling, asking, ordering, singing 33
verb.competition verbs of fighting, athletic
activities 34 verb.consumption verbs of eating
and drinking 35 verb.contactverbs of touching,
hitting, tying, digging 36 verb.creation verbs
of sewing, baking, painting, performing 37
verb.emotion verbs of feeling 38 verb.motion
verbs of walking, flying, swimming 39
verb.perception verbs of seeing, hearing, feeling
40 verb.possession verbs of buying, selling,
owning 41 verb.social verbs of political and
social activities and events 42 verb.stative
verbs of being, having, spatial relations 43
verb.weather verbs of raining, snowing, thawing,
thundering 44 adj.ppl participial adjectives
  • 00 adj.all all adjective clusters
  • 01 adj.pert relational adjectives (pertainyms)
  • 02 adv.all all adverbs
  • 03 noun.Tops unique beginners for nouns
  • 04 noun.act nouns denoting acts or actions
  • 05 noun.animal nouns denoting animals
  • 06 noun.artifact nouns denoting man-made objects
  • 07 noun.attribute nouns denoting attributes of
    people and objects
  • 08 noun.body nouns denoting body parts
  • 09 noun.cognition nouns denoting cognitive
    processes and contents
  • 10 noun.communication nouns denoting
    communicative processes
  • and contents
  • 11 noun.event nouns denoting natural events
  • 12 noun.feeling nouns denoting feelings and
    emotions
  • 13 noun.food nouns denoting foods and drinks
  • 14 noun.group nouns denoting groupings of people
    or objects
  • 15 noun.location nouns denoting spatial position
  • 16 noun.motive nouns denoting goals
  • 17 noun.object nouns denoting natural objects
    (not man-made)

15
Létiqueteur de partie du discours de Xerox
  • méthode statistique (HMM)
  • application à différentes langues
  • français, anglais, allemand, italien, espagnol,
    portugais, néerlandais
  • en préparation danois, finnois, norvégien,
    suédois, tchèque, hongrois, ...
  • taux derreurs 2 - 4

16
Méthodes statistiques
  • Calcul des probabilités à partir dun corpus
    dapprentissage
  • probabilités lexicales
  • prob ( étiquette mot ) freq ( mot, étiquette
    ) / freq ( mot )
  • probabilités contextuelles
  • bigrammes
  • prob ( etiquette2 etiquette1 ) freq (
    etiquette1 etiquette2 ) / freq ( etiquette1 )
  • trigrammes
  • prob ( etiquette3 etiquette1 etiquette2 )
    freq ( etiquette1 etiquette2 etiquette3 ) / freq
    ( etiquette1 etiquette2 )

17
Probabilités lexicales et contextuelles
1.00
0.28
0.00
fait/NOUN_SG
0.04
le/PC
0.21
0.00
0.12
0.36
1.00
fait/VERB_P3SG
elle/PRON
0.77
0.96
0.003
0.00
le/DET_SG
0.36
0.00
fait/PAP_SG
prob ( elle/PRON le/PC fait/VERB_P3SG ) 1.00
0.12 0.04 0.54 0.36 0.00093 prob (
elle/PRON le/DET_SG fait/NOUN_SG ) 1.00 0.003
0.96 0.77 0.28 0.00058 prob ( elle/PRON
le/DET_SG fait/VERB_P3SG ) 1.00 0.003 0.96
0.00 0.36 0
18
Architecture de l'étiqueteur de Xerox
étiqueteur de parties du discours
Lexicon Lookup
19
Corpus dapprentissage Brown Corpus
  • Un cinquième du Brown corpus a été étiqueté
    sémantiquement par léquipe de WordNet (11, 182
    phrases).

He/DT told/32 the/DT committee/14 the/DT
measure/10 would/MD merely/02 provide/40 means/04
of/IN enforcing/41 the/DT escheat/21 law/10...
20
Les différentes étapes de la construction de
létiqueteur sémantique
  • définir un ensemble détiquettes
  • construire le lexique associé
  • préparer les corpus dapprentissage et de test
  • calculer le modèle HMM

21
Construction des données
  • Le lexique est construit à partir des données de
    WordNet

the DT can MD for IN ...
house S14,S06,S04,S41,S42 rich S00 man
S18,S06,S41,S33 ...
52 étiquettes sémantiques, 3282 classes
d'ambiguïté
22
Corpus de test et dapprentissage
11182 phrases du Brown corpus étiqueté par
léquipe de WordNet.
Corpus dapprentissage et de test de même
taille - phrases paires (apprentissage) -
phrases impaires (test)
23
Expériences
  • Trois tests
  • étiquettes WordNet seules
  • parties du discours et étiquettes WordNet
  • base line

24
Corpus dapprentissage - étiquettes WordNet
seules
Préparation du corpus
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
Fulton_Country_Grand_Jury/03 said/32 Friday/28
investigation/09 of/IN Atlanta/15
recent/00 primary_election/04 produced/39
evidence/09 that/IN irregularities/04
took_place/30./.
  • Corpus dapprentissage
  • 75000 segments
  • 72 classes d'ambiguïté

25
Corpus de test- étiquettes WordNet seules
  • Corpus de test
  • 90,000 segments.
  • 46 segments ambigus (deux étiquettes sémantiques
    ou plus).

told committee measure merely provide means of
enforcing escheat law...
26
Corpus dapprentissage-Test 2
The/DT Fulton_Country_Grand_Jury/03 said/32
Friday/28 an/DT investigation/09 of/IN Atlanta/15
s/POS recent/00 primary_election/04 produced/39
/ no/DT evidence/09 / that/IN
any/DT irregularities/04 took_place/30./.
bark 06,11,20,30,32, 35
barkVERB 30,32,35 barkNOUN 06,11,20
Fulton_Country_Grand_JuryNOUN/03 saidVERB/32
FridayNOUN/28 investigationNOUN/09 of/IN
AtlantaNOUN/15 recentADJ/00 primary_electionN
OUN/04 producedVERB/39 evidenceNOUN/09
that/IN irregularitiesNOUN/04
took_placeVERB/30 ./.
  • 1685 classes d'ambiguïté

27
Corpus de test- Test 2
  • 27 de mots ambigus

toldVERB committeeNOUN measureNOUN
merelyADV provideVERB meansNOUN of
enforcingVERB escheatNOUN lawNOUN...
28
Base line
  • Les étiquettes sémantiques les plus fréquentes
    pour chaque lemme étiqueté syntaxiquement
  • Pour les mots inconnus létiquette sémantique
    la plus fréquente par partie du discours

29
Résultats
30
Résultats
  • Base line 81
  • Sémantique seule - Sémantique PDD
  • amélioration due au fait que le taux d'ambiguïté
    est plus bas
  • le pré-étiquetage syntaxique a permis de
    résoudre l'ambiguïté sémantique pour 40 des
    mots ambigus (test 1)

31
Approche fonctionnelle vs. approche adjacente
Fonctionnelle
dénicher ainsi quelques missions lucratives ...
Adjacente
32
HMM vs. approche non supervisée
33
Ingrédients
Type de composant
Nom du composant
Fonction
34
U-Penn Tree Bank - ensemble de phrases
étiquetées/parenthésées syntaxiquement
You do something to the economy
(S (NP you) (VP do (NP something) (PP
to (NP The economy)))
Zebu-LARLR analyseur pour extraire les relations
syntaxiques SUBJ-VERB VERB-OBJ VERB-PREP/OBJ
NOUN-PREP-PREP/OBJ
35
Algorithme de Brill
  • Composants de lalgorithme
  • annotateur détat initial (via WordNet)
  • espace de transformations
  • fonction de scoring
  • Apprentissage itératif de règles de
    transformations via un algorithme de recherche
  • Sélectionner la transformation avec le meilleur
    score
  • lajouter à la liste ordonnée des transformations
  • lappliquer au corpus

36
Algorithme de Brill shémas de Transformations
possibles
  • Une transformation est une règle de réécriture
    ayant des contraintes contextuelles
  • Change l  étiquette a en Y (Y ? a) si
  • (1) le mot précédent a l étiquette z
  • (2) le mot suivant a l étiquette z
  • (3) le mot précédent est w
  • (4) le mot suivant est w
  • Le nombre des étiquettes non ambigües augmente
    lors des
  • itérations successives de lalgorithme

37
Algorithme de Brill fonctions de scoring
  • (v1) discriminer entre deux meilleures
    étiquettes étant donné le contexte
  • object, possession, act, artifact, group
  • (C, object) (C, artifact)
  • (v2) discriminer entre une étiquette lensemble
    de celles qui restent
  • (C, object) (C, possession, act,
    artifact, group)
  • (v3) favoriser les mots rares
  • les mots les plus courants ont tendance à être
    plus ambigus et donc plus difficiles à
    désambiguïser

38
Expérience GINGER I
Extraction de relations fonctionnelles (Zebu-LarLr
)
Brown étiqueté syntaxiquement (U-Penn)
Affectation détiquettes sémantiques (WordNet)
Etapes de construction du système
Règles de désambiguisation sémantiques
Apprentissage sur les bigrams (Brill)
Brown Corpus
Application des règles
Brown étiqueté sémantiquement (WordNet)
Evaluation
Corpus annoté
39
Préparation des données extraction des relations
fonctionnelles
40
Préparation des données Remplacer les indices et
affecter des étiquettes sémantiques
41
Préparation des données Regrouper les
étiquettes
42
Apprentissage
  • 6 Mg de corpus étiqueté (syntaxe) transformé en
    règles du type suivant
  • bi18_bi14 bi18 LEFT b42_b43
  • Si un nom est ambigu entre person et act et quil
    apparaît comme sujet dun verbe qui est ambigü
    entre stative et communication, alors le
    désambiguïser en tant que person.

43
Précision et Rappel(environ 500 règles)
44
Améliorations possibles
  • regrouper les étiquettes en classes ,
  • meilleure sémantique pour les adjectifs,
  • règles n-aires plutôt que bigrams (SUBJ-VERB-OBJ,
    ...).

45
Bons résultats, bons à quoi?
  • Un désambiguïsateur sémantique attaché à une
    ressource lexicale donnée construite pour
    application donnée

46
La famille des systèmes Ginger
  • Sur tous les mots, non-supervisé, a base de
    règles
  • Utiliser les dictionnaires comme des corpus
    étiquetés a partir des quels on extrait
    automatiquement des règles de désambiguisation
  • Les règles de désambiguisation utilisent
    linformation sémantique provenant du
    dictionnaire et les relations de dépendances
    fonctionnelles provenant de l analyseur robuste
  • Le module dapplication des règles sappuie sur
    une stratégie linguistique guidée par la
    sémantique des étiquettes SGML.

47
Exemple dextraction de règles a partir dune
entrée de dictionnaire
  • ltsegtlthwgtseizelt/hwgt ltprgtltphgtsizlt/phgtlt/prgt
  • lts1 numI nlngtltpsgtvtrlt/psgt
  • lts2 num1gtltlagtlitlt/lagt (lticgttake hold oflt/icgt)
    saisir ltcogtperson, objectlt/cogt
  • ltlegtto seize around the
    waistlt/legt saisir qn par la taille
  • ltlegtto seize hold oflt/legt se saisir de
    ltcogtpersonlt/cogt
  • s'emparer de ltcogtobjectlt/cogt sauter sur
    ltcogtidealt/cogtlt/s2gt
  • lts2 num2gtltlagtfiglt/lagt (lticgtgrasplt/icgt) saisir
    ltcogtopportunity, momentlt/cogt
  • prendre ltcogtinitiativelt/cogt
  • lts2 num3gtltlagtMillt/lagt, ltlagtPollt/lagt(lticgtcapture
    lt/icgt)
  • s'emparer de ltcogtterritory, hosetiquettee,
    prisoner, installation, powerlt/cogt
  • ltlsgtto be seized bylt/lsgt etre pris de
    ltcogtemotion, pain, fitlt/cogtlt/s2gt
  • prendre ltcogtcontrollt/cogtlt/s2gt
  • lts2 num4gtltlagtJurlt/lagt saisir ltcogtarms, drugs,
    propertylt/cogt
  • appréhender ltcogtpersonlt/cogtlt/s2gtlt/s1gt.
  • lts1 numIIgtltpsgtvilt/psgt ltcogtengine,
    mechanismlt/cogt se gripperlt/s1gt.lt/segt

48
WordNet 1.5 et le Roget Thesaurus des réseaux
sémantiques
  • 45 WordNet étiquettes sémantiques Top level
  • En revanche très peu de catégories sémantiques
    sont attachées aux adjectifs et aux adverbes,
    elles sont dautre part, purement syntaxiques
  • Enrichissement avec les catégories du Roget (6
    catégories pour les adverbes, 7 pour les
    adjectifs)

49
Analyse Syntaxique Robuste
  • Propriétés
  • Analyses partielles
  • Structures syntaxiques minimales
  • Pas de représentation explicite des ambiguités
  • Plusieurs étapes
  • Analyse déterministe
  • Analyse robuste

50
Extraction des règles l analyseur synatxique
robuste
  • They seized somebody around the waist
  • SC NP _they NP/SUBJ v seized SC NP
    somebody NP/OBJ PP around the waist PP
  • SUBJ(they,seize)
  • DOBJ(seize,somebody)
  • VMODOBJ(seize,around,waist)

51
Les règles de désambiguisation sémantique
  • seize 0.1.1 WOBJ somebody
  • 0.1.2
  • 0.1.3
  • seize 0.1.1 OBJ X noun.person
  • 0.1.2
  • 0.1.3

Seize 0.1.2
Seize 0.1.2
52
ARCHITECTURE GENERALE
Dictionary
INPUT TEXT
Functional Dependency Extraction
Functional Dependency Extraction
Shallow Parser
WordNet Transducers

Semantic etiquettes Assignment
Linguistic Strategy
XELDA Semantic dictionary lookup
Semantic Disambiguation Rule Database
Reordered Entry
53
Stratégie de sélection des règles de
désambiguisation
  • Programme dapplication des règles
  • Sélection de la règle la plus appropriée
  • Proposer la partie de lentrée du dictionnaire
    correspondant a la règle en question
  • Processus du programme dapplication des règles
  • Analyse syntaxique du texte en entrée (analyseur
    robuste) extraction des dépendences
    fonctionnelles
  • Extraction de la liste des règles candidates

54
Stratégie pour la sélection des règles
  • Lorsquil y a compétition entre plusieurs règles
  • Les règles au niveau du mot ont priorité Si
    compétition
  • Sélection de la règle en fonction du étiquette
    sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt
  • Sélection des règles au niveau des classes
    d'ambiguïté Si compétition
  • Calcul de la distance D entre les règles et le
    contexte
  • D(Card(U(L1,L2))-Card(I(L1,L2)))/Card(U)
  • Sélection de la règle avec la distance la plus
    petite Si compétition
  • Sélection de la règle en fonction de l étiquette
    sgml ltCOgt, ltLCgt, ltLIgt, ltLOgt, ltLVgt, ltLUgt, ltLEgt

55
EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Dépendances
fonctionnelles SUBJ(police,seize) DOBJ(seize,man)
VMODOBJ(seize,around,May 1985) VMODOBJ(seize,
of, society) Dans ce cas, pas de correspondance
directe au niveau lexical ? correspondance au
niveau des classes calcul de la distance
56
EXEMPLE DE DISAMBIGUISATION
Members of the police had seized a man employed
by the Krugersdrop branch of the United Building
Society around 18 May 1985. Plusieurs
possibilités correspondent à DOBJ(seize,
ListClass(man)) Après élimination des règles
avec une distance élevée, compétition entre R1
DOBJ(seize,ListClass(prisoner)) ? 0.I.3 ltCOgt
R2 DOBJ(seize, ListClass(somebody)) ? 0.I.1
ltLEgt NUMERO DE SENS RETENU 0.I.3 (Collocate)
Sens général capture et traduction française
semparer de
57
(No Transcript)
58
EVALUATION
  • Système évalué in vitro sur les 34 mots (8500
    phrases) de SENSEVAL (comparaison avec Dini et
    Al99
  • Résultats (polysémie réelle et seulement lorsque
    une information contenue dans le dictionnaire a
    permis de faire un choix)

PDD Précision Rappel Polysémie moyenne N 83.7
27.4 5.4 A 81.3 55.8 5.7 V 75 37.6 6.2
All 79.5 37.4 5.8
59
EVALUATION
  • Précision élevée (85) mais rappel bas (11 )
    pour les règles lexicales
  • Pour les règles au niveau des classes les
    résultats varient en fonction des parties du
    discours
  • Noms les règles provenant des exemples sont les
    plus efficaces (rappel bas pour les collocations)
  • Adjectifs rappel particulièrement élevé
    (information dictionnairique particulièrement
    riche au niveau des collocations)
  • Verbes meilleur rappel que pour les noms car
    l information fournie par le dictionnaire est
    plus riche.

60
Améliorations possibles
  • Utiliser des classes sémantiques plus fines pour
    les adverbes et les adjectifs
  • Prendre en compte la précision de l analyseur
    syntaxique robuste dans la stratégie
  • Utiliser une ontologie directement extraite du
    dictionnaire

61
XELDA

Services
Applications
Composants
Technologies des états finis
62
XeLDA (Xerox Linguistic Development Architecture)
  • Composants du langage naturel
  • segmentation
  • Analyse morphologique
  • HMM désambiguïsation syntaxique
  • Extraction de groupes nominaux
  • Analyseur syntaxique robuste
  • Lookup (dictionnaire)
  • module de désambiguisation sémantique
  • Identifieur de langues

63
A quoi sert la désambiguisation sémantique chez
Xerox?
  • Améliorer les performances du multi-lingual
    assistant
  • Extraction intelligente d information (en
    particulier dans le domaine de l édition plus
    on pré-encode, plus on facilite l extraction)
  • Classification de Documents (sur le web)
  • Créer des hyperliens (textes, images, speech,
    sons, vidéos)

64
Senseval et Romanseval évaluation des systèmes
de désambiguisation sémantique
  • Senseval sur langlais
  • Dictionnaire Oxford, Corpus Hector, 34 mots
  • Web-site http//www.itri.bton.ac.uk/events/sense
    val/
  • Romanseval sur le français et litalien
  • Dictionnaire Larousse/Garzanti, Corpus JOC, 60
    mots
  • Web-site http//www.lpl.univ-aix.fr/projects/roma
    nseval
Write a Comment
User Comments (0)
About PowerShow.com