Title: Classificazione automatica dei
1- Classificazione automatica dei
- nomi di evento in italiano
- Metodi di apprendimento e selezione di features
- Lucia Passaro e Morena Venturini
2Il progetto
- Il problema Classificazione automatica dei nomi
di evento in italiano. - Gli obiettivi a) individuazione dellalgoritmo
di classificazione più efficiente - b) individuazione dei tratti contestuali più
utili al suo addestramento. - Lo strumento Weka.
- Il corpus Raccolta di articoli di quotidiani in
italiano.
3Classificazione automatica dei nomi di evento
Il progetto nasce in seguito alla collaborazione
(tirocinio) con lIstituto di Linguistica
Computazionale A. Zampolli del CNR di Pisa,
nellambito dello studio della semantica del
testo.
La collaborazione è nata per validare lo schema
di annotazione ISO-TimeML per litaliano.
4Riconoscimento degli eventi
Un evento è qualcosa che accade in un certo
istante temporale, un fatto, un avvenimento di
interesse.
Sono eventi tutti i verbi, pochi aggettivi,
numeri e preposizioni, e parte dei nomi. Questi
sono i più importanti e difficili da riconoscere,
perché la loro eventività è stabilita dal
contesto nel quale ricorrono.
5Riconoscimento degli eventi
I nomi sono considerati eventi in 4 casi
particolari
- Nomi deverbali arrivo, corsa, camminata
- Nomi con lettura eventiva nelle proprietà
lessicali guerra, uragano - c) Nomi di oggetto che sottintendono eventi in
particolari frasi - Ho interrotto la lettura de il libro
- d) Nomi che indicano stati temporanei
- lex amministratore, il nuovo creditore.
6Limportanza del contesto
Un piccolo sottogruppo dei nomi ha nelle proprie
caratteristiche lessicali una connotazione
eventiva. guerra, riunione, concerto, alluvione
La maggioranza dei nomi, invece, è eventiva in
base al contesto in cui ricorre. Questi nomi,
causano disaccordo nellannotazione, che essa sia
manuale o automatica.
7Limportanza del contesto
Il caso di assemblea Lassemblea è prevista
per le 2000 a vs Lassemblea ha deciso che
la società verrà quotata in borsa. b
a Con assemblea si intende la riunione di un
certo gruppo di persone b Con assemblea
indicano le persone stesse.
8Apprendimento automatico
- Si occupa della realizzazione di sistemi che, a
partire da un dataset, imparano le regole che
lo hanno generato. - Gli algoritmi di machine learning più usati
appartengono a tre principali categorie - Supervised learning
- Unsupervised learning
- Reinforcement learning.
9Supervised Learning
Lapprendimento automatico supervisionato
presuppone una preventiva annotazione dei dati.
A partire da un corpus annotato, gli algoritmi
troveranno un modello in grado di approssimare la
distribuzione reale dei dati, che servirà per
predire statisticamente la classificazione di
nuovi dati.
10Descrizione del progetto
11fase 1 acquisizione dei dati fase 2
preparazione dei dati fase 3 scelta delle
features fase 4 preparazione della
matrice fase 5 esperimenti con Weka
12Il corpus di riferimento
Il corpus annotato manualmente presso lILC
(concesso alla fine del tirocinio) è stato il
punto di riferimento per lutilizzo di tecniche
di apprendimento automatico supervisionato.
Esso è formato da 149 articoli di quotidiani
estratti dai corpora Tressi e PAROLE. Il corpus
Tressi, specialistico, contiene articoli di
carattere economico finanziario.
13fase 1 acquisizione dei dati fase 2
preparazione dei dati fase 3 scelta delle
features fase 4 preparazione della
matrice fase 5 esperimenti con Weka
14Preparazione del training set
Il corpus è stato ricevuto in formato testo
delimitato da tabulazione. Sono stati
selezionati i campi utili ai fini della
classificazione automatica e modificati i tipi
degli attributi sconvenienti per tale fine.
15Preparazione del training set
Rappresentazione di una tabella del database
dalla stessa sono stati selezionati i campi
articolo, id, PoS, forma, lemma,
classe (evento).
Rappresentazione di una tabella del database
dalla stessa è stato selezionato il campo numero
frase.
16Preparazione del training set
- Selezione dei campi
- identificatore articolo
- identificatore univoco token
- part of speech
- forma
- lemma
- evento
- numero di frase.
17Preparazione del training set
18fase 1 acquisizione dei dati fase 2
preparazione dei dati fase 3 scelta delle
features fase 4 preparazione della
matrice fase 5 esperimenti con Weka
19Scelta delle features
Per feature si intende un determinato contesto
(morfologico, sintattico, semantico, ecc.) in cui
ricorre, o potrebbe ricorrere, un nome di evento.
I tratti contestuali servono per addestrare un
algoritmo di apprendimento automatico a
classificare un nome come eventivo oppure no.
20Scelta delle features
feature 1 il nome termina in zione feature
2 il nome termina in mento feature 3 il
nome termina in ata feature 4 il nome
termina in nza feature 5 il nome è argomento
di determinati verbi feature 6 il nome è
argomento di un verbo aspettuale feature 7
il nome è preceduto da attuale, vecchio, ex,
nuovo
21Scelta delle features
feature 8 il nome è argomento di un verbo di
reporting feature 9 il nome è preceduto da
una preposizione feature 10 il nome è
preceduto da a/per causa di, per effetto di,
per/in via di feature 11 il nome è seguito da
un evento feature 12 nella stessa frase è
presente unespressione di tempo.
22Scelta delle features
Criteri adottati nella selezione feat. 1-4 i
suffissi deverbali -zione, -mento, -ata, -nza
indicano tipicamente un nome eventivo manifestazi
one, licenziamento, scalata, insistenza feat.
5 sono stati individuati dei verbi che, come
loro argomento, presuppongono un evento Ha
preso parte ai massacri commessi. Ciò non
impedirà labbassamento dei tassi di mercato.
23Scelta delle features
feat. 6 i verbi aspettuali sono quasi sempre
seguiti da un evento LItalia ha concluso un
accordo con gli U.S.A. feat. 7 gli
aggettivi attuale, vecchio, ex, nuovo indicano un
cambiamento di stato Lattuale presidente
assumerà la carica di executive vice
president. feat. 8 i nomi incrementativi o
decrementativi sono stati annotati se argomento
di un verbo di reporting Ha registrato un
aumento delle vendite.
24Scelta delle features
feat. 9 alcuni nomi assumono o perdono lettura
eventiva se preceduti da una preposizione Per
via dellassenza del sindaco In assenza del
sindaco feat. 10 alcune costruzioni
introducono sempre un evento In via di
ampliamento è la presenza di Rupert nel
settore. Si è passati da 2 a 5 mld per effetto
di un boom delle vendite.
25Scelta delle features
- feat. 11 relativamente ai nomi seguiti da
evento (con costruzione nome prep nome), sono
applicate precise linee-guida di annotazione - ev prep ev annotati entrambi i nomi
- Il segnale di disgelo proveniente da Parigi va
sostenuto. - b) ev prep non-ev annotato solo il primo
nome - Non resta che attendere la risposta del
mercato. - c) non-ev prep ev nessun nome annotato
- Il discorso è stato rimandato ad un secondo
ciclo di colloqui.
26Scelta delle features
feat. 12 nella maggior parte dei casi un evento
è segnalato dalla presenza di unespressione
temporale Lesplosione è avvenuta a mezzanotte
di lunedì.
Questi tratti contestuali, se considerati
singolarmente, sono poco pregnanti è la loro
combinazione che fornisce indicazioni affidabili
sulla reale presenza di un nome eventivo.
27fase 1 acquisizione dei dati fase 2
preparazione dei dati fase 3 scelta delle
features fase 4 preparazione della
matrice fase 5 esperimenti con Weka
28Preparazione della matrice
Per matrice di features si intende un file di
testo delimitato da tabulazione che possieda i
seguenti attributi per ogni nome appartenente al
corpus
- identificatore univoco token attributo numerico
incrementale - lemma attributo di tipo string
- evento classe del nome - binario
- insieme di features (f1, f2, f3, f4, f5, f6, f7,
f8, f9, f10, f11, f12) binari.
29Preparazione della matrice
La matrice è stata realizzata usando Perl come
linguaggio di programmazione.
Per ogni token del corpus è stato creato un array
contenente i campi ID e LEMMA in cui le
features hanno assunto valori binari (0/1). Per
procedere nellanalisi dei dati, la matrice è
stata trasformata in uno dei formati compatibili
con Weka (ARFF).
30Preparazione della matrice
Estratto della matrice di features in formato
testo delimitato da tabulazione.
31fase 1 acquisizione dei dati fase 2
preparazione dei dati fase 3 scelta delle
features fase 4 preparazione della
matrice fase 5 esperimenti con Weka
32Weka
Weka (Waikato Environment for Knowledge Analysis)
è un software di data mining scritto in Java.
Possiede un insieme completo di strumenti di pre
processing, algoritmi di apprendimento e metodi
di valutazione. Per i dati in ingresso utilizza
il formato ARFF (Attribute Relation File Format).
33- Esperimento 1
- Scelta del classificatore
- più efficiente
34Classificatori a confronto
Dopo aver preso in input il file ARFF con Weka
sono stati selezionati sei diversi algoritmi di
machine learning per la classificazione.
Tutti gli algoritmi sono testati sui dati con il
metodo della cross validation il corpus viene
diviso in 10 parti di cui 9 vengono usate come
training per la costruzione del modello, e 1 come
test per la verifica. Lesperimento viene
eseguito 10 volte e il risultato della
classificazione scaturisce dalla media degli
esperimenti.
35Classificatori a confronto
Esistono diverse tipologie di algoritmi di
apprendimento automatico supervisionato. Per ogni
tipologia sono stati selezionati uno o due
algoritmi particolari per la classificazione.
36Classificatori a confronto
Classificatori a regole rules.ZeroR Classifica
tori bayesiani bayes.BayesNet bayes.NaiveBay
es Classificatori Support Vector
Machine functions.SMO Classificatori ad
alberi decisionali trees.Id3 trees.J48.
37Principali misure di valutazione
- Precision percentuale di predizioni positive
corrette - P TP/(TPFP)
- b) Recall percentuale di istanze realmente
positive classificate come positive R
TP/(TPFN) - c) TP rate percentuale di istanze realmente
positive classificate come positive TP/(TPFN) - d) FP rate percentuale di istanze realmente
negative classificate erroneamente come positive
FP/(FPTN) - Accuracy percentuale di istanze sia positive sia
negative classificate correttamente
(TPTN)/(TPTNFPFN) - F1 measure media armonica tra Precision e Recall
- 2PR / (PR).
38Misure di valutazione rilevanti
Poiché lobiettivo è quello di studiare le
prestazioni di un classificatore su una classe
particolare, sono state prese in considerazione
le misure di a) Percentuale di
classificazione b) Precision c) Recall d)
F1-Measure.
39Confronto sui risultati ottenuti
Il classificatore più adatto ai dati linguistici
risulta essere quello di Support Vector Machine
poiché ha ottenuto il valore più alto di
F1-Measure a parità di istanze classificate.
F1-Measure
Recall
Precision
Percent unclassified
Percent incorrect
Percent correct
0,869
1
0,77
0
24,558
76,904
rules.ZeroR
0,913
0,941
0,888
0
14,627
86,257
bayes.BayesNet
0,904
0,95
0,865
0
16,179
84,853
bayes.NaiveBayes
0,916
0,945
0,89
0
14,256
86,61
functions.SMO
0,932
0,942
0,927
47,286
6,143
49,842
trees.Id3
0,889
0,951
0,835
0
19,504
81,723
trees.J48
40Classificazione binaria
La classificazione binaria può essere considerata
come una separazione di classi nello spazio delle
features la superficie di decisione è formata da
una zona di classificazione positiva, una di
classificazione negativa, e al centro una zona di
incertezza.
Gli algoritmi SVM trovano il miglior separatore
lineare, ossia quello in cui il margine è massimo.
41I pregi di SVM
Gli algoritmi SVM sono i più adatti a dati
linguistici perché quando non è sufficiente
classificare i dati servendosi di una superficie
di decisione bidimen-sionale, questi vengono
proiettati in uno spazio dimensionale più ampio.
I dati linguistici, per la complessità sintattico
semantica che possiedono difficilmente trovano
una rappresentazione lineare soddisfacente.
42Analisi degli errori
Gli errori ricorrenti sono dovuti a
- False positives in presenza delle features
morfologiche - b) Scarsa selettività della feature indicante la
presenza di preposizioni - c) Eccessiva generalizzazione nellestrazione
delle features Esse sono state selezionate
sulla base delle euristiche generaliste
ISO-TimeML. Il corpus sul quale sono state
testate è invece specialistico - d) Sparsità dei dati linguistici La rarità delle
osservazioni rende difficile laddestramento
statistico.
43Sparsità dei dati
Sarebbe possibile ridurre i problemi legati alla
sparsità dei dati linguistici proprio attraverso
unannotazione semiautomatica incrementale dei
testi. Una volta sviluppato il classificatore
automatico, questo può essere usato per
lannotazione di nuovi testi. Dopo essere stati
corretti manualmente, tali testi possono essere
inseriti nel training corpus per un nuovo
addestramento.
Un numero maggiore di esempi migliora
laddestramento statistico, e di conseguenza
lefficienza dei classificatori.
44- Esperimento 2
- Individuazione dei tratti contestuali più utili
alladdestramento
45Miglioramento delle prestazioni
Le prestazioni del classificatore SMO possono
essere migliorate individuando, fra quelli
selezionati, i tratti contestuali che risultano
effettivamente utili al suo addestramento e
tralasciando quelli poco significativi. Focalizz
are lattenzione solo sugli attributi rilevanti
serve a ridurre la mole di lavoro dellalgoritmo
e a velocizzare la classificazione stessa.
46Sottoinsiemi di features
fase 1 le features individuate sono state divise
in tre sotto-gruppi in base alle loro
caratteristiche gruppo 1 attributi
morfologici (features 1-4) gruppo 2 attributi
semantici (features 5-8) gruppo 3 attributi
sintattici (features 9-10). Sono state escluse
le features speciali 11 e 12.
47Prove di classificazione
fase 2 il corpus è stato classificato cambiando
di volta in volta le features considerate
nelladdestramento prova 1 lalgoritmo è
stato addestrato solo sui sottoinsiemi di
features individuati in precedenza prova 2
sono state aggiunte (ad ogni gruppo) le
features speciali.
48Classificazione prova 1
Risultati
F1-Measure
Recall
Precision
Incorrectly Classified Instances
Correctly Classified Instances
0,8441
0,8533
0,8457
14,66
85,34
gruppo 1
0,8214
0,8415
0,8356
15,9
84,1
gruppo 2
0,8217
0,8418
0,837
15,8
84,2
gruppo 3
49Classificazione prova 1
- Il gruppo di features più predittivo è quello
morfologico. - Le features del gruppo semantico sono quelle con
meno potere discriminativo e provocano
loverfitting dellalgoritmo.
50Classificazione prova 2
Risultati
F1-Measure
Recall
Precision
Incorrectly Classified Instances
Correctly Classified Instances
13,4
86,6
gruppo 1 f.11-12
0,8603
0,86
0,8659
0,8482
0,8596
0,8544
14
86
gruppo 2 f.11-12
0,8485
0,8602
0,8551
14
86
gruppo 3 f.11-12
51Classificazione prova 2
- Laggiunta delle due features speciali fa
aumentare la capacità predittiva di tutti i
gruppi. - Si confermano i risultati ottenuti dopo il primo
test.
52Prova conclusiva
Ipotesi addestrare lalgoritmo tralasciando le
features semantiche non compromette lesito della
classificazione. Risultati
53Prova conclusiva
I risultati non si sono abbassati di molto la
F1-Measure è passata da 0,916 a 0,8605. Ciò
significa che le features 5-8 possono essere
tralasciate senza compromettere laccuratezza e
la correttezza della classificazione.
54Features più informative
I tratti più utili per addestrare un algoritmo di
machine learning per lannotazione dei nomi di
evento sono il nome termina in zione
il nome termina in mento il nome termina
in ata il nome termina in nza il nome è
preceduto da una preposizione il nome è
preceduto da a/per causa di, per effetto di,
per/in via di il nome è seguito da un
evento nella stessa frase è presente
unespressione di tempo.
55 56Prospettive
- Il sistema creato può essere ampliato per
- Il riconoscimento di eventi esplicitati
attraverso verbi, aggettivi, numeri, e
preposizioni - Adattare la selezione delle features ai corpora
da annotare - Rendere le features più o meno selettive a
seconda del task.
57In conclusione
È lecito pensare che lampliamento del modello
possa condurre a una classificazione automatica
in grado di superare in efficienza quella manuale
realizzata da parlanti medi.
58Si ringraziano per il progetto
Alessandro Lenci, Tommaso Caselli, Irina Prodanof.
59Bibliografia essenziale
Bouckaert Remco R., et al. 2008, Weka Manual
for version 3-6-0 Caselli Tommaso 2008,
TimeML Annotation Guidelines for Italian Version
1.0. (Technical Report) Gaeta Livio 2002,
Quando i verbi compaiono come nomi. Un saggio di
Morfologia Naturale. Franco Angeli Edizioni
Lanzi Pier Luca 2009, Corso di Metodologie
per Sistemi Intelligenti. Politecnico di
Milano Navigli Roberto 2009, Corso di
Apprendimento Automatico. Università di Roma,
La Sapienza Navigli Roberto 2009, Word Sense
Disambiguation A Survey. In ACM Computing
Surveys, Vol. 41, No. 2, Article 10