Title: Estrazione di informazioni da testo
1Estrazione di informazioni da testo
2Perchè occuparsene?
- E unapplicazione particolarmente complessa.
- Sfrutta la maggior parte delle risorse utilizzate
in compiti di analisi. - Il suo studio permette quindi di avere una buona
panoramica delle problematiche e delle tecnologie
utilizzate nellanalisi del linguaggio naturale.
3Cosa è lEstrazione di Informazioni da Testo?
- Information retrieval (IR) cercare e
informazioni in testi a fronte di richieste
specifiche. - Recupero di passaggi cercare e trovare passaggi
(paragrafi, frasi) allinterno di un testo che
possano fornire risposte a determinati quesiti. - Estrazione di informazioni (IE) trovare
informazioni che possano riempire schemi
(templates) predefiniti. - Domanda-risposta (Question-answering) dare
risposte a domande di tipo generale formulate da
un utente IEIR - Comprensione di testi modellare la comprensione
dei testi da parte di umani.
4Tipo di domande
- IR
- Recupero di passaggi
- IE
- Domanda/risposta
- Comprensione dei testi
Pre-definite. Aspetti fissi della informazione
testuale
5Un esempio FASTUS (1993)
- Bridgestone Sports Co. said Friday it had set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be supplied to Japan. - The joint venture, Bridgestone Sports Taiwan Co.,
capitalized at 20 million new Taiwan dollars,
will start production in January 1990 with
production of 20,000 iron and metal wood clubs
a month.
6Un esempio FASTUS (1993)
- Bridgestone Sports Co. said Friday it had set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be supplied to Japan. - The joint venture, Bridgestone Sports Taiwan Co.,
capitalized at 20 million new Taiwan dollars,
will start production in January 1990 with
production of 20,000 iron and metal wood clubs
a month
7- Bridgestone Sports Co. said Friday it had set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be supplied to Japan. - The joint venture, Bridgestone Sports Taiwan Co.,
capitalized at 20 - million new Taiwan dollars, will start production
in January 1990 - with production of 20,000 iron and metal wood
clubs a month
8- Bridgestone Sports Co. said Friday it had set up
a joint venture - in Taiwan with a local concern and a Japanese
trading house to - produce golf clubs to be supplied to Japan.
- The joint venture, Bridgestone Sports Taiwan Co.,
capitalized at 20 - million new Taiwan dollars, will start production
in January 1990 - with production of 20,000 iron and metal wood
clubs a month.
9Come funziona FASTUS
1.Parole complesse e nomi propri
set up new Twaiwan dollars
2.Sintagmi semplici nominali, verbali,
particelle
a Japanese trading house had set up
3.Sintagmi complessi
4.Eventi rilevanti Costruzione di semplici
templates
5. Fusione di templates, nel caso Presentino
informazioni sullo stesso evento
10(No Transcript)
11Altro esempio un template sbagliato
. Jurgen Pfrang, 51, reportedly stumbled upon
the robbers on the second floor of his Nanjing
home early on Sunday. The deputy general manager
of Yaxing Benz, a Sino-German joint venture that
makes buses and bus chassis in nearby
Yangzhou, was hacked to death with 45 cm
watermelon knives. .
Name of the Venture Yaxing Benz Products
buses and bus chassis Location
Yangzhou,China Companies involved
(1)Name X?
Country German
(2)Name Y?
Country China
Template sbagliato
12Template giusto
A German vehicle-firm executive was stabbed to
death . . Jurgen Pfrang, 51, reportedly
stumbled upon the robbers on the second floor of
his Nanjing home early on Sunday. The deputy
general manager of Yaxing Benz, a Sino-German
joint venture that makes buses and bus chassis
in nearby Yangzhou, was hacked to death with 45
cm watermelon knives. .
Crime-Type Murder Type
Stabbing The killed Name Jurgen Pfrang
Age 51
Profession Deputy general
manager Location Nanjing, China
13Chi esegue linterpretazione?
(1) IR
(2) Recupero passaggi
(3) IE
(4) Domanda/risposta
(5) Comprensione testi
14Sistema di IR
Insieme di testi
15Sistema di IR
Insieme di testi
16Recupero passaggi IR
Insieme di testi
17Recupero passaggi IR
Sistema di IE
Insieme di testi
testi
18Sistema di IE
Templates
testi
19IE un approccio Pragmatico al NLP
Interpretazaione
IE
Templates
Testi
Predefinito
20Valutazione delle prestazioni
(1)IR,
(2) recupero passaggi
(3) ie
(4) Domanda/Risposa
(5) Comprensione di testi
21Insieme dei documenti
22Insieme dei documenti
Il tutto è più complicato per la Possibilità di
template parzialmente riempiti
23Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
24Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
Analisi sintattica
Analisi semantica
Contesto interpretazione
25Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
26Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
27Architettura generica per NLP
Mario corre.
Analisi lessicale e morfologica
Prop-N V-3sing-pres
S
Analisi sintattica
SN
SV
P-N
V
Analisi semantica
Mario
corre
Contesto interpretazione
Mario è uno studente. Lui corre.
28Architettura generica per NLP
Tokenizzazione Marcatura a parti del
discorso Morfologia flessionale
e derivazionale Nomi composti Riconoscimento
di terminologia
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
29Tokenizzazione
- Luomo savvicinò alla ragazza domandandole che
ore erano. - l
- uomo
- si
- avvicinomarca per accento
- a
- la
- ragazza
- domandando
- le
- che
- ore
- erano
- .
30Tokenizzazione
- I testi, così come si prentano, obbediscono a
convenzioni tipografiche ed ortografiche. - Per poter procedere alle fasi successive di
analisi occorre poter individuare gli elementi
(token) ai quali esse si applicheranno. - alle a le.
- Inoltre, occorre normalizzare ogni token rispetto
alle convenzioni tipografiche. - luomo l uomo
- avvicinò avvicinomarca per accento
- erano. erano .
31Analizzatore morfologico
- Modulo che, data una parola, restituisce tutti i
lemmi a cui può essere ricondotta, insieme ai
tratti flessionali rilevanti - Porta (portare, V, 3sing, pres, ind)
- (portare, V, 2sing, pres, imp)
- (porta, N, fem, sing)
32- l (lo, Art, mas, sing), (lo, Art, fem, sing),
(lo, pron, 3, mas, sing, acc), (lo, pron, 3,
fem, sing, acc) - uomo (uomo, N, mas, sing)
- si (si, pron-rifl, 3, sing), (si, pron-rifl, 3,
plu) - avvicinomarca per accento (avvicinare, V, 3,
sing, pass-rem, ind.) - a (a, prep)
- la (lo, Art, fem, sing) (lo, pron, 3, fem,
sing, acc) - ragazza (ragazza, N, fem, sing)
- domandando (domandare, V, pres, ger.)
- le (lo, Art, fem, plu) (lo, pron, fem, plu, acc)
(lo, pron, fem, sing, dat) - che (che, comp)
- ore (ora, N, fem, plu)
- erano (essere, V, 3, plu, impf, ind.)
33Marcatore di parti del discorso (POS)
- Modulo che permette di assegnare, in maniera
univoca, la corretta categoria grammaticale (ed i
tratti relativi) ad una data parola. - Di solito, un POS-tagger si basa su informazioni
di tipo statistico. - Tali informazioni sono desunte automaticamente a
partire da un corpus etichettato
34- l (lo, Art, mas, sing)
- uomo (uomo, N, mas, sing)
- si (si, pron-rifl, 3, sing),
- avvicinomarca per accento (avvicinare, V, 3,
sing, pass-rem, ind.) - a (a, prep)
- la (lo, Art, fem, sing)
- ragazza (ragazza, N, fem, sing)
- domandando (domandare, V, pres, ger.)
- le (lo, pron, fem, sing, dat)
- che (che, comp)
- ore (ora, N, fem, plu)
- erano (essere, V, 3, plu, impf, ind.)
35Riconoscimento di terminologia
- In molti casi, un lessico generico non è in grado
di fornire linformazione adeguata. - Ciò avviene soprattutto se si lavora su domini
specialistici. - Compilatore modulo software che traduce un
programma in un linguaggio di alto livello (C,
C, Basic, Fortran, ecc.) in istruzioni del
linguaggio macchina. - Compilatorecolui che compila qualcosa.
36- Tasso dinteresse
- Tasso di sconto
- Indice MIBTEL
- Benzodiazepina
- Laparatomia
37Problemi per lelaborazione del linguaggio
naturale
- Robustezza come tutti i sistemi software, anche
un sistema di NLP non deve mai fermarsi,
piantarsi senza essere in grado di dare una
qualche risposta. - Robustezza un sistema di NLP non deve mai dire
mi dispiace.
38Architettura generica per NLP
Lessico incompleto Parole di classi
aperte Terminologia Riconoscimento termini Nomi
propri (named entities) Persone Società Luoghi .
1) Robustezza Conoscenza incompleta
Analisi lessicale e morfologica
Analisi sintattica
Analisi semantica
Contesto interpretazione
39Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
1) Robustezza Conoscenza incompleta
Grammatiche incomplete copertura sintattica
costruzioni particolari del dominio
costruzioni non grammaticali
Analisi sintattica
Analisi semantica
Contesto interpretazione
40Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
1) Robustezza Conoscenza incompleta
Analisi sintattica
Analisi semantica
Conoscenza sul dominio e regole
dinterpretazione Incomplete
Contesto interpretazione
41Difficoltà per lelaborazione del linguaggio
naturale
Architettura generica per NLP
Analisi lessicale e morfologica
- Robustezza Conoscenza incompleta
- Ambiguità , esplosione combinatoria
Analisi sintattica
Ambiguità strutturali
Analisi semantica
Contesto interpretazione
42Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
- Robustezza Conoscenza incompleta
- Ambiguità , esplosione combinatoria
Analisi sintattica
Ambiguità strutturali
Analisi semantica
Ambiguità sulla struttura pred-arg.
Contesto interpretazione
43Ambiguità attaccamento di sintagmi preposizionali
SV V SN SV V SN SP SN Art N SN Art N SP
Loro guardano luomo con il canocchiale
S
S
SN
SV
SN
SV
V
SN
Pron
V
SP
SN
Pron
SP
guardano
Art
N
loro
SN
guardano
P
Art
N
SN
loro
P
uomo
lo
Art
N
con
uomo
lo
Art
N
con
canocchiale
il
canocchiale
il
44Ambiguità attaccamento di sintagmi preposizionali
X
Z
Y
W
J
K
Y
SP
B
A
45Ambiguità attaccamento di sintagmi preposizionali
X
W K X
Z
Y
W
X
K
Z
Y
SP
W
J
K
Y
B
A
46Ambiguità coordinazione
- Mario e Carlo o Giusi
- (Mario e Carlo) o Giusi
- (Mario e (Carlo o Giusi))
47Ambiguità coordinazione attaccamento di SP
- Ho visto Mario e Carlo o Giusi con il binocolo
- Ho visto
- ((Mario e Carlo) o Giusi) con il binocolo
- (Mario e Carlo) o (Giusi con il binocolo)
- (Mario e (Carlo o Giusi)) con il binocolo
- (Mario e ((Carlo o Giusi) con il binocolo))
- (Mario e (Carlo o (Giusi con il binocolo))
- Ho visto con il binocolo
- ((Mario e Carlo) o Giusi)
- (Mario e (Carlo o Giusi)
48Altre ambiguità strutturali
- Il manager della Cucirini Cantoni, Andrea Rossi.
- Il manager della Cucirini Cantoni, società del
ramo Vita.
49Ambiguità semantiche
- John bought a car with Mary.
- 3000 can buy a nice car.
- Ogni compagnia ha incontrato un rappresentante
del ministero. - Maria disse a sua madre che nessuno le aveva
detto la verità perché ..
50Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
- Robustezza Conoscenza incompleta
- Ambiguità , esplosione combinatoria
Analisi sintattica
Ambiguità strutturali
Analisi semantica
Ambiguità sulla struttura pred-arg.
Contesto interpretazione
51Ambiguità verso robustezza
- Robustezza occorrono lessici più grandi e
robusti grammatiche migliori e con aumentata
copertura. - Ambiguità lessici più grandi e robusti producono
maggiori ambiguità . - Grammatiche con più ampia copertura, aumentano le
ambiguità strutturali - Robustezza più conoscenza
- Più conoscenza più ambiguitÃ
52Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
- Robustezza Conoscenza incompleta
Analisi sintattica
Analisi semantica
Conoscenza limitata ed incompleta del dominio
Contesto interpretazione
53Difficoltà per lelaborazione del linguaggio
naturale
Analisi lessicale e morfologica
- Robustezza Conoscenza incompleta
Analisi sintattica
Analisi semantica
Conoscenza limitata ed incompleta del dominio
Contesto interpretazione
54Tecnologie utilizzate in IE
- Uso di conoscenza parziale e specifica ad un
dominio. Conoscenza importante per le
informazioni da estrarre. - Ambiguità . Ignorarle il più possibile. Ricorrere
a metodologie di analisi più semplici. - Robustezza. Adeguarsi al fatto che i lessici
utilizzati sono incompleti. Focalizzare
lattenzione sulle parti importanti di una frase
e tralasciare il resto. - Tecniche adattive Machine learning, sistemi ad
apprendimento.
55Architettura generale di NLP
Analisi lessicale e morfologica
Dipendente dal dominio
Analisi sintattica
Analisi semantica
Contesto interpretazione
56- Uso di POS.
- Precision e recall 95
- Basati su automi a stati finiti (grammatiche
regolari). Etichettatori statistici. - Regole di dominio
- ltWordgtltWordgt, Inc.
- Mr. ltCpt-Lgt. ltWordgt
- Machine Learning
- HMM, Decision Trees
- Rules Machine Learning
57Riconoscimento di nomi propri
- Il 5 Aprile 2001, lamministratore delegato della
Merril Lynch, George Green, ha dichiarato che
entro lanno prossimo la sua società verrÃ
quotata nella borsa della Groenlandia, vista come
testa di ponte per un ingresso in forza in
Europa. Partner strategico sarà la Pinguini
Riuniti, società offshore con sede nelle Isole
Cayman. La nuova joint-venture intende iniziare
con una capitale di 50.000.000, per raddoppiare
entro il 2003.
58Riconoscimento di nomi propri
- Esistono sistemi commerciali.
- Molti sono facilmente adattibili a vari domini.
- Basati su regole (per lo più). Spesso abbisognano
di liste di nomi di vario tipo (gazetteres). - Ottimi risultati F intorno al 95.
59FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entitÃ
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità /evento.
60FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entitÃ
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità /evento.
61FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entitÃ
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità /evento.
62Gerarchia di Chomsky Gerarchia
delle grammatiche degli automi F
-gt w A Grammatiche regolari
Automi a stati finiti Complessità proporzionale
alla stringa F -gt AB Grammatiche libere dal
contesto Automi a pila ComplessitÃ
proporzionale al cubo della stringa Grammatiche
contestuali Automi linearmente
limitati Grammatiche di tipo 0 Macchine di
Touring
63Gerarchia di Chomsky Gerarchia
delle grammatiche degli
automi Grammatiche regolari
Automi a stati finiti Grammatiche libere dal
contesto Automi a pila Grammatiche
contestuali Automi linearmente
limitati Grammatiche di tipo 0 Macchine di
Touring
641
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
651
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
661
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
671
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
681
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
691
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
701
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
711
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
721
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
731
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
74Pattern-maching PN s (ADJ) N P Art (ADJ) N
PN s/ Art(ADJ) N(P Art (ADJ) N)
1
s
PN
Art
2
0
ADJ
N
Art
s
3
Johns interesting book with a nice cover
P
4
PN
75FASTUS
Architettura generale di NLP
Based on finite states automata (FSA)
1.Parole complesse Riconoscimento di parole
complesse e nomi di entitÃ
Analisi lessicale e morfologica
2.Costituenti di base Semplici sintagmi
nominali, verbali, particelle..
Analisi sintattica
3.Costituenti complessi
4.Eventi rilevanti nel dominio Eventi
rilevanti Costruzione dei templates di base.
Analisi semantica
Contesto interpretazione
5. Fusione di strutture Templates che provengono
da parti differenti del testo possono venire
fusi, nel caso forniscano informazioni rilevanti
sulla stessa entità /evento.
76Esempio di IE FASTUS(1993)
1.Parole complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
77Esempio di IE FASTUS(1993)
1.Parole complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
a Japanese tea house a Japanese tea house a
Japanese tea house
78Esempio di IE FASTUS(1993)
1.Parole Complesse
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
79Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports Co.
Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
80Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
Un pò di struttura sintattica Per esempio
81Esempio di IE FASTUS(1993)
3.Costituenti complessi
2.Costituenti di base Bridgestone Sports
Co. Company name said
Verb Group Friday
Noun Group it
Noun Group had set up
Verb Group a joint venture
Noun Group in
Preposition Taiwan
Location
Informazione sintattica rilevante per le
informazioni da estrarre.
82Variazione sintattica
GM set up a joint venture with Toyota. GM
announced it was setting up a joint venture with
Toyota. GM signed an agreement setting up a joint
venture with Toyota. GM announced it was signing
an agreement to set up a joint venture with
Toyota.
GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di stare mettendo in
piedi una joint venture con Toyota. GM ha
firmato un accordo per mettere. in piedi una
joint venture con Toyota. .
83GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di aver messo in piedi
una joint venture con Toyota. GM ha firmato un
accordo per mettere in piedi una joint venture
con Toyota. GM ha annunciato di stare per
firmare un accordo per mettere in piedi una
joint venture con Toyota.
GM pianifica di mettere in piedi una joint
venture con Toyota. GM si aspetta di mettere in
piedi una joint venture con Toyota.
84GM ha messo in piedi una joint venture con
Toyota. GM ha annunciato di aver messo in piedi
una joint venture con Toyota. GM ha firmato un
accordo per mettere in piedi una joint venture
con Toyota. GM ha annunciato di stare per
firmare un accordo per mettere in piedi una
joint venture con Toyota.
S
NP
VP
GM
V
mettere in piedi
GM pianifica di mettere in piedi una joint
venture con Toyota. GM si aspetta di mettere in
piedi una joint venture con Toyota.
85Esempio di IE FASTUS(1993)
3.Sintagmi complessi 4. Eventi del
dominio COMPANYSET-UPJOINT-VENTURE with
COMPANY COMPANYSET-UPJOINT-VENTURE
(others) withCOMPANY
86Complicazioni dovute alla variazione sintattica
Frasi relative The mayor, who was kidnapped
yesterday, was found dead today.
SN Relpro SN/altro SV SN/altroSV SN
Relpro SN/altro SV
87Complicazioni dovute alla variazione sintattica
Frasi relative The mayor, who was kidnapped
yesterday, was found dead today.
SN Relpro SN/altro SV SN/altroSV SN
Relpro SN/altro SV
88FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
89FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
90FASTUS
Basato su automi a stati finiti (FSA)
SN, who was kidnapped, was found.
1.Parole complesse
2.Costituenti di base
3.Costituenti complessi
4.Eventi del dominio Pattern per riconoscere gli
eventi di interesse Costruzione dei templates di
base.
5. Fusione di strutture Template che provengono
da diverse parti del testo vengono fusi se danno
informazioni sulla stessa entità o evento..
91Stato dellarte dei sistemi di IE
- Sistemi costruiti a mano
- F-60 level (accordo tra annotatori 60-80)
- Domini brevi messaggi sulle operazioni
navali - (MUC-187, MUC-289)
- articoli di giornale e
trascrizioni di notiziari radiofonici - rapporti su terrorismo
(MUC-391, MUC-41992) - articoli su joint ventures
(MUC-5, 93) - articoli su cambiamenti di
management (MUC-6, 95) - articoli su veicoli
spaziali (MUC-7, 97) - Le regole sono scritte a mana (riconoscimento di
entità , - eventi del dominio, etc)
Apprendimento automatico da testi
apprendimento con supervisione preparazione del
corpus
Apprendimento non-supervisionato