Title: Semantica lessicale
1Semantica lessicale
- Maria Teresa PAZIENZA
- a.a. 2007-08
2 Programma
- Breve introduzione allNLP
- Linguaggi Naturali e Linguaggi Formali
- Complessità
- Morfologia
- Teoria Morfologia del Linguaggio Naturale
- Strumenti Automi e Trasduttori
- Analisi Morfologica con automi e trasduttori
- Part of Speech Tagging
- Teoria Le classi morfologiche
- Strumenti a Analisi modelli a regole e
statistici - Sintassi
- Teoria Sintassi del Linguaggio Naturale
- Strumenti CFG
- Analisi Sintattica parsing top-down, bottom-up,
Early - Semantica
- Introduzione
- Distributional Lexical Semantics
- Sentence Semantics
Info
3 Analisi semantica
- FONETICA studio dei suoni linguistici
- MORFOLOGIA studio delle componenti
significative di una parola - SINTASSI studio delle strutture relazionali
tra le parole - SEMANTICA studio del significato delle parole
e di come esse si combinano per formare il
significato delle frasi - PRAGMATICA studio di come il linguaggio è
usato per raggiungere obiettivi - ANALISI DEL DISCORSO studio di unità
linguistiche complesse
4 Lexical Semantics e applicazioni
LEXICAL SEMANTICS E APPLICAZIONI Come può la
semantica lessicale aiutare nelle applicazioni di
NLP ?
- relazioni tra parole o termini
- relazioni generiche similarità / correlazione
- relazioni specifiche iperonimia, meronimia,
etc. - Applicazioni tipiche
- Costruzione di Thesausus
- Question Answering, Information Extraction
- relazioni tra espressioni linguistiche complesse
- paraphrasing (X wrote Y ? X is the author
of Y) - textual entailment (X kill Y ? Y die)
- Applicazioni tipiche
- Question Answering
- Text Summarization
- Information Extraction
5 Lexical Semantics e applicazioni
- Che metodologie utilizzare ?
- metodologie distribuzionali (basate unicamente
su corpora) - approcci statistici non supervisionati
(knowledge harvesting) - fortemente basate su studi statistico-distribuzio
nali delle parole - uso di nessun o semplici strumenti di NLP (es,
shallow parsing) - adattabili no-cost a differenti lingue
- non garantiscono una analisi semantica
approfondita (relazioni semplici) - metodologie basate su conoscenza
- approcci con analisi di strutture ontologiche o
reti semantiche (es,WordNet) - uso di misure di distanza allinterno della rete
- non portabili a differenti lingue se non esiste
una rete per essa - garantiscono unanalisi semantica approfondita
e precisa tanto quanto la rete è semanticamente
espressiva (relazioni complesse)
6La Repubblica, 29 giugno 2007
- Il discorso di Veltroni confrontato da un esperto
con quelli "omologhi" di Berlusconi e Prodi - La lunghezza del testo alleggerita da citazioni.
Due soli "peccati" flat tax e housing sociale - La media di parole per periodo è stata di 21,
ancora meno delle 28 del leader forzista - Frasi brevi e pochi "io" ecco i jolly del
Lingotto - di TULLIO DE MAURO (la Repubblica, 29 GIUGNO 2007)
7La Repubblica, 29 giugno 2007
- S. Berlusconi
- Famiglia, libertà, ragionevole, comunismo.
- R. Prodi
- Nomi Propri, la politica è scelta, lo possiamo
fare, bisogna voltare pagina. - W. Veltroni
- Pari opportunità, equità, eguaglianza, sobrio,
ascolto, scelta, decisione.
8Analisi semantica
- Il significato delle frasi viene ricavato a
partire da - i significati delle parole
- i significati associati alle strutture
sintattiche - la conoscenza della struttura del discorso
- conoscenza del contesto
- conoscenza (almeno) di base del dominio
9Significato delle parole
- Per lanalisi semantica delle frasi non abbiamo
finora considerato il ruolo delle parole di per
sè. - Abbiamo considerato i verbi per quanto concerne
lorganizzazione a template della loro struttura
predicati/argomenti. - Numero di argomenti
- Posizione e tipo sintattico
- Nome degli argomenti
- In tale approccio i nomi sono stati considerati
praticamente come costanti-senza-significato ,
mentre cè molto da capire grazie a loro
10Semantica lessicale
- Per semantica lessicale facciamo riferimento ad
un insieme praticamente infinito di fatti casuali
relativi alle parole - In un approccio formale possiamo considerare
- la struttura relazionale esterna tra più parole
(paradigmatica) - la struttura interna delle parole che determina
dove esse possono posizionarsi e che cosa possono
fare (syntagmatica)
11Applicazioni
- Ci occuperemo di
- Alcune risorse
- WordNet
- Tecnologie di supporto
- Word sense disambiguation
- Applicazioni basate sul significato delle parole
- Search engines
12Lessico
- Il lessico è una struttura linguistica che
identifica ciò che le parole possono significare
e come possono essere usate la struttura
consiste sia di relazioni tra parole e del loro
significato, che della struttura interna di ogni
parola. - Lexeme/Lessema una qualunque entry di un lessico
consiste di una coppia (una forma linguistica
superficiale parola- associata ad un ben
determinato significato ) - Lexicon/Lessico una collezione di lessemi
13Relazioni tra lessemi
- Consideriamo le relazioni tra lessemi e tra loro
sensi ed in particolare quelle che assumono un
ruolo importante in ambito computazionale. - Unattività molto importante riguarda la
possibilità di sostituire sistematicamente un
lessema con un altro in un qualche contesto
lanalisi di tale sostituzione permette di
verificare lesistenza di una relazione specifica
tra tali lessemi
14Relazioni tra lessemi
- Homonymy/omonimia
- Lessemi diversi che assumono significati
totalmente diversi ma condividono una stessa
forma - Fonologica, ortografica o entrambe
- Esempio
- piano (progetto) vs
- piano (piano di un edificio) vs
- piano (pianoforte)
- Non è esempio di omonimia (bensì di omografia)
- pesca (frutto)
- pesca (di pesci)
15Omonimia
- La parte problematica dellomonimia non è tanto
nella identificazione di una forma di tal tipo,
quanto nella identificazione del suo significato. - Influenza applicazioni di information retrieval.
16Polisemia
- Polysemy/polisemia
- Lo stesso lessema che assume più significati
tra-loro-collegati - Moltissime parole, anche di uso comune, hanno più
significati (es. banca istituto bancario, banca
dati, banca del sangue, banca del tempo) - Lexeme/Lessema una qualunque entry di un lessico
consiste di una forma linguistica superficiale
associata ad un insieme di significati tra loro
collegati - - Il numero di significati di una parola dipende
dal dominio di analisi - I verbi tendono alla polisemia
17Espressioni polisemiche con verbi
- Which flights serve breakfast?
- Does America West serve Philadelphia?
- Does United serve breakfast and San Jose?
18Sinonimia
- Synonymy/sinonimia
- Lessemi diversi che assumono lo stesso
significato - Due lessemi sono considerati sinonimi se possono
essere sostituiti allinterno di una frase senza
alterarne il significato o il suo valore (es.
grande, grosso) (principio di sostituibilità) -
anche se non vale in tutti i casi -
19Iponimia
- Una relazione di iponimia ha luogo tra due
lessemi laddove il significato dei due sottiene
una relazione di inclusione (is-a, isa, IS-A,
ISA,..) - iponimia/iperonimia si applica tra nomi di
entità - Poichè i cani sono dei canidi , si può dire che
- Cane è un iponimo di canide
- Canide è un iperonimo di cane
- Poichè i cani sono dei mammiferi , si può dire
che - cane è un iponimo di mammifero
- mammifero è un iperonimo di cane
20Meronimia
- La relazione di meronimia part-of è transitiva e
riflessiva - part-of(Bucarest, Romania)
- part-of(Romania, EuropaOrientale)
- part-of(EuropaOrientale, Europa)
- part-of(Europa, Terra)
- part-of(x,x)
21Meronimia
- Le due relazioni di tassonomia (is-a-kind-of) e
meronimia (part-of) hanno punti di similarità. - Le differenze tra di loro hanno importanti
riflessi nella organizzazione e rappresentazione
della conoscenza
22Relazioni
- Relazioni paradigmatiche principali (ontologiche)
- Sinonimia
- Antonimia
- Iponimia
- Meronimia
23Risorse lessicali
- Terminologie
- Dizionari on-line
- Corpora
-
- WordNet, database lessicale per la lingua inglese
(esistono anche versioni per altre lingue
Italwordnet, Balkanet, Eurowordnet, )
24WordNet
- WordNet consiste di tre distinti database
rispettivamente per - nomi
- verbi
- aggettivi ed avverbi
- ciascuno dei quali consiste di un insieme di
entries lessicali corrispondenti ad una unica
forma ortografica a ciascuna forma sono
associati insiemi di sensi
25WordNet
- Laspetto più importante di Wordnet è la nozione
di synset attraverso il synset si definisce un
senso (così come un concetto ) - esempio table usato come verbo per indicare
defer - gt postpone, hold over, table, shelve, set back,
defer, remit, put off - Per WordNet, il significato di questo senso di
table è esattamente questa lista.
26WordNet
27WordNet
- La parola bass'' ha 8 sensi in WordNet
- bass - (the lowest part of the musical range)
- bass, bass part - (the lowest part in polyphonic
music) - bass, basso - (an adult male singer with the
lowest voice) - sea bass, bass - (flesh of lean-fleshed saltwater
fish of the family Serranidae) - freshwater bass, bass - (any of various North
American lean-fleshed freshwater fishes
especially of the genus Micropterus) - bass, bass voice, basso - (the lowest adult male
singing voice) - bass - (the member with the lowest range of a
family of musical instruments) - bass -(nontechnical name for any of numerous
edible marine and - freshwater spiny-finned fishes)
28Gerarchie in WordNet
29WordNetRelazioni lessicali (tra entries, sensi,
set di sinonimi) indipendenti dal dominio
30Struttura relazionale esterna delle parole
- Le relazioni paradigmatiche permettono di
collegare tra loro dei lessemi in una qualche
maniera, ma non ci dicono nulla relativamente a
cosa consiste la rappresentazione del significato
di un lessema
31Struttura interna delle parole syntagmatica-
- Verifichiamo se le rappresentazioni del
significato associate ai lessemi abbiano
strutture interne analizzabili, ovvero se queste
strutture, combinate grazie ad una grammatica,
determinano le relazioni tra lessemi in una frase
ben formata (relazioni syntagmatiche). - Ruoli tematici suggeriscono similitudini
allinterno del comportamento dei verbi - Qualia theory cosa si può capire nei nomi (che
non sono solo delle costanti)
32Comportamento dei Verbi
- Generalizzazione a livello semantico sui ruoli
che occorrono insieme a verbi specifici - Es. Takers, givers, eaters, makers, doers,
killers, - hanno tutti qualcosa in comune
- -er
- sono tutti gli agenti delle azioni che
rappresentano - Alla stessa maniera è possibile generalizzare
altri ruoli - Es. occupazione, amministrazione, composizione,
- hanno tutti qualcosa in comune
- -zione
- sono tutti il risultato delle azioni che
rappresentano
33Ruoli tematici Insieme di categorie che
forniscono un linguaggio semantico superficiale
per caratterizzare alcuni argomenti verbali
34Esempi di ruoli tematici
35Ruoli tematici
- I verbi non sono tutti totalmente distinti
(ciascun verbo non è unico nel suo significato)
per cui possiamo considerare dei nomi unici per
ciascun ruolo condivisibile da più di un verbo. - I ruoli tematici indicano e specificano un
insieme finito di ruoli. - In tal modo è possibile distinguere tra semantica
superficiale e semantica profonda.
36Interrelazioni
- Ruoli semantici, categorie sintattiche e la
posizione che esse assumono allinterno di
strutture sintattiche più ampie sono
assolutamente intercorrelate in modi a volte
complessi. - Es.
- AGENTS sono spesso i soggetti
- In una regola del tipo
- VP-gtV NP NP
- la prima NP può essere spesso un GOAL mentre la
seconda è un THEME
37Esempio
- Sally gave Harry a book.
- Giver(Sally)Givee(Harry)Given(book)
- Agent(Sally)Goal(Harry)Theme(book)
- Sally diede un libro ad Harry
- (ruoli tematici a supporto anche della traduzione
automatica)
38Problemi aperti
- Che cosè esattamente un ruolo tematico?
- Qual è linsieme completo di ruoli?
- I ruoli sono degli universali indipendenti da
lingua e cultura? - Esistono dei ruoli atomici?
- Es. Agente
- Animate, Volitional, Direct causers, etc
- E possibile etichettare automaticamente
costituenti sintattici con ruoli tematici?
39Shallow semantic analysis
- Si definisce shallow semantic analysis
- lassegnazione di nomi opportuni agli argomenti
di un verbo allinterno di una frase (esempio
duso di ruoli tematici) - Case role assignment
- Thematic role assignment
40Rappresentazioni di relazioni
- ipotesi 1
- Le relazioni possono essere rappresentate come
una case grammar (Charles Fillmore) ed offrono
una prospettiva particolare dellevento descritto - Es.
- colpire (agent, recipient, instrument)
- collidere (object1, object2)
- predicati argomenti
- E necessario definire quali oggetti possano
corrispondere a ciascun argomento, ovvero
assumere il caso specifico in una situazione
specifica
41Rappresentazioni di relazioni
- ipotesi 1
- case grammar (Charles Fillmore)
- Molte reti semantiche si rifanno alla
rappresentazione della grammatica dei casi. - Le relazioni sono rappresentate da archi
orientati (ed etichettati) tra i nodi concetto
della rete (grafo).
42Rappresentazioni di relazioni
- ipotesi 2
- Teoria delle dipendenze concettuali (Roger
Schank) act - Necessità di specificare le primitive semantiche
sottostanti una particolare relazione. - Il significato fondamentale di un set di verbi di
azione è catturato da 12-15 primitive usate con
un approccio case-frame
43Rappresentazioni di relazioni
- Es. ATRANS descrive un qualunque verbo che
richiede un trasferimento di proprietà - ATRANS
- Actor person (Mario)
- Act ATRANS
- Object physical object (anello)
- direction-TO person-1 (Maria)
- FROM person-2 (Mario)
- Actor, Act,.. sono le variabili di questo schema
e possono assumere certi valori - ES. Mario diede/regalò/vendette un anello a Maria
44Rappresentazioni di relazioni
- Teoria delle dipendenze concettuali di Schank
- Primitive Significato Istanze
- ATRANS trasf. di proprietà dare, prendere
- PTRANS trasf. fisico da a muoversi, camminare
- MTRANS trasf. di informaz. mentali ordinare,
suggerire - ATTEND ricevere impulsi sensoriali vedere,
sentire - PROPEL applic. forza a ogg. fisici spingere,
colpire - INGEST assunzione di cibo o aria respirare,
mangiare - EXPEL inverso di ingest vomitare
45Esempio semantica profonda
- Dal WSJ
- He melted her reserve with a husky-voiced paean
to her eyes. (sciolse la riservatezza di lei con
un componimento poetico dedicato ai suoi occhi
cantato con voce rauca) - Se etichettiamo i costituenti He e reserve come
il Melter e il Melted, allora quelle etichette
perdono ogni significato che avrebbero potuto
avere letteralmente. - Se li chiamiamo Agent e Theme allora non si hanno
problemi di disallineamento semantico
46Selectional restrictions
- Le selectional restrictions possono essere usate
per aumentare i ruoli tematici permettendo ai
lessemi di porre alcune restrizioni semantiche su
ulteriori lessemi e frasi che possono
accompagnarli allinterno di un periodo. - Le selectional restrictions costituiscono un
vincolo semantico imposto da un lessema
relativamente al concetto che può corrispondere
ai diversi ruoli argomentali a lui associati. - Le selectional restrictions possono essere
associate a qualche senso di un lessema e non al
lessema in toto.
47Selection restrictions
- Consideriamo la frase
- I want to eat someplace near campus
- Usando i ruoli tematici possiamo dire che eat è
un predicato che ha un AGENT e un THEME - Qualcosaltro?
- specifichiamo che l AGENT deve essere capace di
mangiare e il THEME deve essere qualcosa che può
essere mangiato
48dalla logica
- per eat abbiamo che
- Eating(e) Agent(e,x) Theme(e,y)Isa(y,
Food) - (con gli opportuni quantificatori e i lambda)
49da WordNet
- Uso degli iponimi WordNet (tipi) per codificare
le selection restrictions
50Specificità delle restrizioni
- Consideriamo i verbi to imagine, to lift e to
diagonalize così come appaiono in questi esempi - To diagonalize a matrix is to find its
eigenvalues - Atlantis lifted Galileo from the pad
- Imagine a tennis game
- Cosa possiamo dire a proposito del THEME del
verbo in ciascuna frase? - In alcuni casi possiamo utilizzare la gerarchia
WordNet salendo (generalizzando) di qualche
livello, in altri non tanto
51Selection restrictions
- Concetti, categorie e feature
- che sono utilizate come selectional restrictions
- non costituiscono una parte specifica e finita di
un linguaggio, - bensì costituiscono un insieme non finito come lo
stesso lessico
52Alcuni problemi
- Sappiamo che da un lato i verbi sono polisemici,
dallaltro il linguaggio naturale è creativo - Si considerino i seguenti esempi presi dal WSJ
- ate glass on an empty stomach accompanied only
by water and tea - you cant eat gold for lunch if youre hungry
- get it to try to eat Afghanistan
53Soluzioni
- Eat glass
- Si tratta in ogni caso di un evento del tipo eat
- Eat gold
- Ancora un esempio di eat, anche se il cant crea
uno scopo che permette che il THEME del verbo sia
anche non mangiabile (contrariamente alle
aspettative) - Eat Afghanistan
- Si tratta di un caso sicuramente complesso, non
ci si riferisce per nulla al mangiare
54Identificazione delle restrictions
- Se si dispone di un corpus opportunamente grande
e si può accedere a WordNet è possibile
identificare automaticamente le restrizioni di un
verbo? - Analizzare sintatticamente le frasi e trovare le
heads - Etichettare i ruoli tematici
- Collezionare le statistiche sulle co-occorrenze
di particolari headwords con specifici ruoli
tematici - Usare la struttura degli iperonimi di WordNet
per trovare il livello più significativo da usare
come restrizione
55Motivazione
- Trovare lantenato comune più basso (più
specifico) che copra un numero significativo di
esempi
56WSD e Selection Restrictions
- Word sense disambiguation si riferisce al
processo di selezione del senso corretto per una
parola allinterno dei sensi che si conosce
essere associati alla parola stessa - Selection restrictions semantiche possono essere
usate per disambiguare - Argomenti ambigui di predicati non ambigui
- Predicati ambigui con argomenti non ambigui
- Ambiguità a tutto campo
57WSD e Selection Restrictions
- Argomenti ambigui
- Prepare a dish
- Wash a dish
- Predicati ambigui
- Serve Denver
- Serve breakfast
- Entrambi
- Serves vegetarian dishes
58WSD e Selection Restrictions
- Approccio complementare allapproccio
dellanalisi composizionale - Si parte da un parse tree e da una analisi di
predicate-argument derivata da - lalbero sintattico ed i suoi attachment
- tutti i sensi delle parole corrispondenti ai
lessemi delle foglie dellalbero - analisi errate vengono eliminate notando le
violazioni alle selection restriction
59Problemi
- In genere, le selection restrictions sono
costantemente violate (vedasi esempi precedenti),
anche se ciò non implica che le frasi siano, mal
formate o meno, usate in tali casi - Si possono usare i corpora per fare analisi ad
ampio spettro (qualche forma di categorizzazione)
ed analizzare nello specifico i casi di
violazione delle selection restrictions -
60Supervised ML
- Negli approcci di supervised machine learning,
- si può usare un training corpus di parole taggate
allinterno di un contesto con i loro sensi
specifici, -
- allo scopo di addestrare un classificatore che
possa, quindi, - taggare nuove parole in un nuovo contesto (che
rispecchi ovviamente le caratteristiche del
corpus di addestramento training)
61WSD Tag
- Che cosè il wsd tag per una parola?
- Il senso di un dizionario?
- per esempio, in WordNet la voce bass ha 8
possibili tag (o labels).
62WordNet Bass
- La parola bass'' ha 8 sensi in WordNet
- bass - (the lowest part of the musical range)
- bass, bass part - (the lowest part in polyphonic
music) - bass, basso - (an adult male singer with the
lowest voice) - sea bass, bass - (flesh of lean-fleshed saltwater
fish of the family Serranidae) - freshwater bass, bass - (any of various North
American lean-fleshed freshwater fishes
especially of the genus Micropterus) - bass, bass voice, basso - (the lowest adult male
singing voice) - bass - (the member with the lowest range of a
family of musical instruments) - bass -(nontechnical name for any of numerous
edible marine and - freshwater spiny-finned fishes)
63 Similarità VS Correlazione
- Che tipo di relazioni possono esistere tra due
parole ? - Semplici correlazione, similarità
- Complesse is-a, part-of, causa,
- RELAZIONI SEMPLICI
Correlazione (C) Due parole w1 e w2 si dicono
semanticamente correlate se sono legate da una
qualsiasi relazione semantica
- Esempio
- delfino-mare vive_in(delfino,mare)
- uomo-testa part_of(testa,uomo)
Similarità (S) Due parole si dicono
semanticamente simili se sono vicine in una
gerarchia IS-A
- Esempio
- gatto-cane is_a(cane,anim_dom) ,
is_a(gatto,anim_dom) - gatto-mammifero is_a(gatto,mammifero)
64Co-occorrenza
CO-OCCORRENZA
- Le parole che si trovano in una certa finestra
di una target word t sono dette co-occorrenze - la finestra può comprendere un dato numero di
parole vicine, una frase, un paragrafo, un
documento - Linsieme delle co-occorrenze di t è detto
contesto C(t) - nozioni più complesse di contesto possono
comprendere co-occorrenze che sono in una certa
relazione sintattica con la target word (es.
verbo della target word, ecc) oppure solo parole
appartenti ad un certa Part of Speach (es. Nome,
verbo) - ESEMPIO
Finestra di 4 parole ? C(dugongo) ?fortunati,
vedrete, anche, il, vero, tormentone, della,
nostra? Relazione V-ogg ? C(dugongo)
?vedrete?
se sarete fortunati vedrete anche il Dugongo,
vero tormentone della nostra compagnia.
t
W-4 W-3 W-2 W-1
W1 W2 W3 W4
65 Pointwise Mutual Information
MISURE DI ASSOCIAZIONE TRA PAROLE
- Pointwise Mutual Information (I) (PMI)
- Due parole x e y che co-occorrono spesso
rispetto alle loro occorrenze in un corpus D,
hanno un alto grado di associazione - Vantaggio rispetto a F Due parole che
co-occorrono spesso ma che sono molto frequenti
hanno associazione minore rispetto a parole che
co-occorrono lo stesso numero di volte ma che
sono meno frequenti - Definita originariamente in Information Theory
Fano,1961 come verifica della null hypothesis
of independence
P(x) probabilità dellevento x P(y) probabilità
dellevento y P(x,y) probabilità congiunta
degli eventi x e y
66 Pointwise Mutual Information
MISURE DI ASSOCIAZIONE TRA PAROLE
- Pointwise Mutual Information (I) (PMI)
- La definizione di I viene adattata allNLP da
Church and Hanks, 1989, considerando - P(x) probabilità della parola x nel
linguaggio - P(y) probabilità della parola y nel
linguaggio - P(x,y) probabilità che x co-occorra con y
- e stimando le probabilità utilizzando MLE
(Maximum Likelihood Estimation)
ci numero di occorrenze di i in un corpus
D cij numero di occorrenze della co-occorrenza
ij in un corpus D N numero di occorrenze
totale di tutte le parole di un corpus D
67 Distributional Hypothesis
DOMANDA Il significato di una parola è contenuto
nella parola stessa, oppure nelle parole con cui
occorre ?
Differenti filosofi, semiotici e linguistici
darebbero ognuno una risposta opposta allaltro
ma per noi ingegneri ?
ESEMPIO
DUGONGO
- soluzione 1 guardo in un dizionario!
ma se il dizionario non cè, o non
contiene la parola? -
- soluzione 2 proviamo qualche acrobazia
morfologica - du gongo una band formata da due
gonghisti? poco probabile
68 Distributional Hypothesis
DUGONGO
- soluzione 3 vado su Internet e guardo il
contesto in cui si trova la parola - Le informazioni raccolte in queste pagine
derivano dall'osservazione diretta di due
esemplari di Dugongo che ho avuto la fortuna di
incontrare in Mar Rosso - Bella la spiaggetta con il dugongo e bella
l'escursione con i delfini. - se sarete fortunati vedrete anche il
Dugongo,vero tormentone della nostra compagnia,
che si può osservare in una escursione che costa
circa 15 euro - il dugongo vive quasi esclusivamente in mare.
- Quali altre parole occorrono con mare,
escursione, esemplare, spiaggia? - Foca
- Traghetto
- Leone marino
- Focena
- Quindi forse il dugongo è una sorta di mammifero
marino
69 Distributional Hypothesis
DUGONGO
- Mammifero marino erbivoro dei Sireni, con largo
muso a setole intorno alla bocca (Dugong dugong)
70 Distributional Hypothesis
DISTRIBUTIONAL HYPOTHESIS Parole che occorrono
nello stesso contesto tendono ad avere un
significato simile (Harris,1968)
- La definizione è molto potente, ma per questo
anche molto generica - Cosa si intende per significato simile ?
- parole che hanno qualche relazione tra loro?
(correlazione) - parole sinonimi o quasi-sinonimi? (similarità)
- Cosa si intende per contesto ?
- un documento? Un paragrafo? Una frase?
- una particolare struttura sintattica ?
- Perché limitarsi a parole, invece di
espressioni linguistiche più complesse?
71 Distributional Hypothesis
CORRELAZIONE DISTRIBUZIONALE Due parole w1 e w2
si dicono distribuzionalmente correlate se hanno
molte co-occorrenze comuni, e queste
co-occorrenze non hanno nessuna restrizione
sintattica sulla loro relazione con w1 e w2
. Due parole w1 e w2 distribuzionalmente
correlate sono semanticamente correlate.
- Parole dello stesso dominio sono
distribuzionalmente correlate, in quanto
occorrono negli stessi contesti (stessi
documenti, pagine web, ecc.) - Parole relazionate che non fanno parte dello
stesso dominio non sono distribuzionalmente
correlate
Distrib. Hyp.
72 Distributional Hypothesis
SIMILARITA DISTRIBUZIONALE Due parole w1 e w2 si
dicono distribuzionalmente simili se hanno molte
co-occorrenze comuni, e queste co-occorrenze sono
relazionate a w1 e w2 dalla stessa relazione
sintattica. Due parole w1 e w2
distribuzionalmente simili sono semanticamente
simili.
- Parole dello stesso dominio e con le stesse
proprietà sintattiche, sono distribuzionalmente
simili - generalmente stessa Part Of Speech
- stesse relazioni sintattiche
- ESEMPIO
- simili dottore, infermiere correlate
e non-simili dottore, guarire - co-occorrenze comuni
co-occorrenze comuni (paziente,ospedale) - X lavora in ospedale (lavora , V-Sog, X)
il paziente guarisce in ospedale - X cura paziente (cura, V-Sog, X) il
paziente del dottore è nellospedale - la prognosi di X (prognosi, NP-PP, X)
73Rappresentazioni
- La maggior parte degli approcci supervisionati di
ML richiede una rappresentazione molto semplice
relativamente ai dati di addestramento (input
training data). - Vettori di insiemi di coppie feature/value
- ovvero files di valori separati da virgole
- Compito primario è quello di estrarre dei dati di
addestramento da un corpus rispetto ad una
particolare istanza di parola taggata - Ovvero bisogna appropriatamente definire una
finestra di testo attorno allobiettivo (parola
da taggare)
74Rappresentazioni superficiali
- Informazioni sulle collocation e sulle
co-occurrence - Collocational
- Codifica le features delle parole che appaiono in
posizioni specifiche a destra ed a sinistra della
parola da taggare - Spesso limitate alle parole stesse come part of
speech - Co-occurrence
- Features che caratterizzano le parole che
occorrono in una posizione qualunque nella
finestra senza tener conto della posizione - Tipicamente relative a conteggi di frequenza
75Esempi
- Esempio testo dal WSJ
- An electric guitar and bass player stand off to
one side not really part of the scene, just as a
sort of nod to gringo expectations perhaps - Si consideri una finestra di /- 2
dallobiettivo
76Esempi
- Esempio testo dal WSJ
- An electric guitar and bass player stand off to
one side not really part of the scene, just as a
sort of nod to gringo expectations perhaps - Si consideri una finestra di /- 2
dallobiettivo
77Collocational
- Informazioni specifiche sulle parole allinterno
della finestra - guitar and bass player stand
- guitar, NN, and, CJC, player, NN, stand, VVB
- ovvero un vettore consistente in
- position n word, position n part-of-speech
78Co-occurrence
- Informazioni sulle parole che co-occorrono alla
parola, allinterno della finestra. - dapprima si identifica un insieme di termini da
porre nel vettore. - quindi si calcola quante volte ciascuno di
questi termini occorre in una data finestra
79Esempio di co-occorrenza
- Assumiamo di disporre di un vocabolario di 12
parole che comprenda guitar e player ma non and
e stand si avrà, ad esempio, - guitar and bass player stand
- 0,0,0,1,0,0,0,0,0,1,0,0
80Classificatori
- Una volta definito il problema di WSD come un
problema di classificazione, allora si può usare
un qualunque approccio possibile -
- Naïve Bayes (da cui è sempre bene cominciare)
- Decision lists
- Decision trees
- Neural nets
- Support vector machines
- Nearest neighbor methods
81Argomenti trattati in questa lezione
- Semantica lessicale
- Paradigmatica / syntagmatica
- Relazioni paradigmatiche (ontologiche)
- Ruoli tematici
- Shallow semantic analysis
- Case grammar
- Teoria delle dipendenze concettuali
- Selectional restrictions
- Word sense disambiguation (wsd)
- Similarità, correlazione, co-occorrenza, mutual
information, distributional hpothesis, collocation
82Elaborazione del linguaggio naturale
- Le presentazioni sugli argomenti di elaborazione
del linguaggio naturale fanno in alcuni passi
riferimento ad alcune presentazioni dei colleghi
prof. Fabio Massimo Zanzotto e dottor Marco
Pennacchiotti, del dottor Patrick Pantel
(ISI-USC), oltre che ad alcune parti del libro
Speech and Language Processing, Prentice Hall,
2000, autori D.Jurafsky, J. H. Martin.