Title: Metodi per il trattamento avanzato di documenti
1Metodi per il trattamento avanzato di documenti
2Quanta analisi del testo nei sistemi di accesso a
documenti?
- Motori di ricerca, sistemi di IR classici (parole
chiave) - Query un elenco di parole
- Risposta un elenco di documenti contenenti le
parole - Sistemi di Document Classification Retrieval
- Query un elenco di parole con operatori booleani
- Rispostaun elenco di documenti pertinenti
- Sistemi di Information Extraction
- Query una specifica formale del tipo di
informazioni di interesse - Rispostauna base di dati strutturata
- Sistemi di Open-Domain Question Answering
- Query una domanda qualsiasi in linguaggio
naturale - Rispostauna risposta in linguaggio naturale
AI
3Influenza delle metodologie di AI nei sistemi di
reperimento di informazioni
4Metodi di Classificazione di Documenti (1)
- Obiettivo
- A partire da
- Un insieme di categorie C C1,..Cn(es articoli
di sport, finanza, medicina..) eventualmente
strutturate in una tassonomia - Un insieme di documenti appartenenti a ciascuna
classe Di1.. Din.(learning set) - Apprendi un modello formale hi di ciascuna classe
tale che hi(Dik) Ci(Dik)
5Metodi di Classificazione di Documenti (2)
- Metodo
- Rappresenta ogni D mediante un vettore di
caratteristiche f(D)(ltw1,p1gtltwm,pmgt) - Le caratteristiche sono coppie parola/peso
- Vari metodi (statisticiNLP) per selezionare le
parole rilevanti e determinare i pesi - Per ogni classe Ci e set di documenti Dik genera
insieme di esempi S x ltf(Djk), Ci(Djk)gt
doveCi(Djk)1 se Djk ? Ci
6Esempio
- Documento (Reuters collection) Colombia opened
coffee export registrations for April and May
with the National Coffee Growers' Federation
setting no limit, Gilberto Arango, president of
the private exporters' association, said. - Vettore delle caratteristiche (Colombia, open,
coffee, export, registr, April/date, May/date,
National_Coffee_Growers_Federation/org,
president_Gilberto_Arango/pers,
exporter_association) - (in realtà il vettore contiene V attributi binari
ai, dove V è la taglia del vocabolario, ai1 se
la parola i-esima di V è presente, inoltre gli
attributi possono essere pesati, come abbiamo
visto nei modelli IR classici)
7Metodi di Classificazione di Documenti (3)
- Per ogni classe Ci ed ogni set di esempi D si
apprende un modello della classe h(Ci) - Metodi di apprendimento/ classificazione
- Modello bag of words o vector space model h
(Ci) è un cluster di vettori, centr(Ci) è il
centroide del cluster - Le parole sono pesate con tf-idf, la similarità
fra un nuovo documento e i modelli delle classi
è la cosine similarity già vista per IR
8Metodi di Classificazione di Documenti (4)
- Metodi di apprendimento/ classificazione (contd)
- Funzioni lineari
- Alberi di decisione
pijltvalk
pingtvaln
Ci
9Metodi di Classificazione di Documenti (5)
- Utilizzo di tecniche di NLP per migliorare la
classificazione - Rimpiazzare i termini con la radice
(categorizzare, categorizziamo, categorizzazione) - Disambiguazione morfologica (es piano/agg o
piano/nome) - Identificare termini complessi nomi propri
(president Bill Clinton) terminologia ( real
estate) espressioni regolari (date, numeri,
espressioni monetarie) - Espansione semantica rimpiazzare (alcuni)
termini con liste di sinonimi o categorie
semantiche (es money ?(money,currency,monetary
system))
10Estrazione di Informazioni (1)
- Obiettivo creazione di una rappresentazione
strutturata (template) da informazioni
selezionate estratte da archivi di testi - Es Sam Swartz retired as executive vice
president of the famous hot dog manifacturer,
Hupplewhite Inc. - He will be succeeded by Harry Himmelfarb.
- EVENT leave job
- PERSON Sam Swartz
- POSITION Executive vice president
- COMPANY Hupplewhite Inc
- EVENT start job
- PERSON Harry Himmelfarb
- POSITION Executive vice president
- COMPANY Hupplewhite Inc
11(No Transcript)
12Analisi del testo nei sistemi di IE (1)
- Identificazione dei costituenti il testo viene
segmentato in costrituenti sintattici semplici
(vp e np) cui possono eventualmente essere
aggiunte informazioni morfo-sintattiche - ?np e1 Sam Swartz ? ?vp retired ? as ?np
e2executive vice president ? of ?np e3 the
famous hot-dog manifacturer ? ?np e4
Hupplewhite Inc.?. ?np e5He? ?vp will be
succeeded? by ?np e6 Harry Himmelfab ?
13Analisi del testo nei sistemi di IE (2)
- Classificazione dei segmenti
- e1 type person name "Sam Schartz"
- e2 type human role "executive vice
president" - e3 type human org "manifacturer"
- e4 type company name "Hupplewhite Inc."
- e5 type person "He"
- e6 type person name "Harry Himmelfarb"
14Analisi del testo nei sistemi di IE (3)
- Pattern matching L'obiettivo di questa fase è di
identificare segmenti di frase che siano istanze
di segmenti generalizzati, o patterns. - person retires as position
- person is succeded by person
- .
- I patterns possono essere definiti mediante
espressioni regolari, equivalenti ad automi a
stati finiti.
15Analisi del testo nei sistemi di IE (4)
- Coreference resolution L'obiettivo di questa fase
è identificare istanze dello stesso concetto,
espresse con forme superficiali diverse nel
testo. - Ad esempio, nella frase di esempio fin qui
analizzata, i gruppi nominali e1 (Sam Swartz) e
e5 (He) si riferiscono alla stessa entità. - I modelli di risoluzione di co-referenze fanno
uso di informazioni sintattiche (ad esempio, "He"
deve corrispondere ad una persona maschile
singolare) e semantiche.
16KR reasoning nei sistemi di IE (1)
- Inferenze e riempimento dei templates L'obiettivo
di questa fase è di riempire i templates con
porzioni di testo rilevanti. - Perché ciò sia possibile, è necessario effettuare
alcune inferenze il cui obiettivo è stabilire un
collegamento -altrimenti non evidente - fra
patterns e "slot-fillers" dei templates (o valori
degli attributi, se si vuol vedere un template
come un vettore di attributi)
17KR reasoning nei sistemi di IE (2)
- Ad esempio se il template è
- IN
- EVENT leave job
- PERSON leave-job person
- POSITION leave-job position
- COMPANY leave-job company
- OUT
- EVENT start job
- PERSON start-job person
- POSITION start-job position
- COMPANY start-job company
- e se i patterns catturati sono
- ?Sam Schwartzperson retires as ?executive vice
presidentposition - ?Harry Himmelfarbperson succeeds ?Sam
Schwartzperson - una necessaria regola di inferenza è
- leave_job(X-person,Y-position)?succeed(Z-person,X-
person) ? start-job(Z-person, Y-position) - e simmetricamente
- start_job(X-person,Y-position)?succeed(X-person,Z-
person) ? leave-job(Z-person, Y-position)
18Valutazione dei Sistemi di IE
- Uno dei vantaggi dei sistemi di IE consiste
nell'esistenza di procedure consolidate di
valutazione, rappresentate dalle Message
Understanding Conferences (MUC) - http//www.muc.saic.com/proceedings/muc_7_toc.html
- Queste conferenze sono in realtà "gare" di
prestazione di sistemi di IE, in cui le
prestazioni vengono valutate sulla base di - Test set comuni
- Indici di prestazione pre-stabiliti dagli
organizzatori - Procedure di valutazione comuni, preventivamente
predisposte
19Sistemi di Open-Domain Question Answering
- Obiettivo rispondere in LN a domande in LN di
argomento qualsiasi - Es (le prime due da TREC-9 http//trec.nist.gov/pu
bs.html) - What tourist attractions are there in Reims?
- When was the Brandeburg gate in Berlin built?
- I would like to know if ACE has in its DB
candidates in the financial area, with 10 years
of experience and fluency in English? - La tecnologia dei sistemi di QA è ancora in fase
di definizione/assestamento
20Architettura del miglior sistema FALCON,
della SMU (1)
21Fase 1 analisi e trasformazione della domanda
22Alcuni metodi utilizzati in questa fase in FALCON
- Identificare riformulazioni di domande simili e
mantenere una cache di risposte (es What are
tourist attractions in Reims? What can one see in
Reims?) - Dettagliata tassonomia delle Domande( e tipi di
Risposta) (es. di top classes DATE, TIME,
REASON, MANNER), collegata con una tassonomia
generale (WordNet) - Stabilire collegamenti fra i termini nella
domanda e tassonomia (es What is the wingspan of
a condor?(wingspan ? QUANTITY) - Rappresentazione semantica e logica della domanda
- QUANTITY
- wingspan(x)?condor(y) ?QUANTITY(x)
23Esempio
- Question why did David Koresh ask the FBI for a
word processor? - Logic representation
- REASON(x)David(y)Koresh(y)ask(e,x,y,z,p)FBI(z
)processor(p)word(p) - Semantic expansion
- ask ? ask, enquire, request,make a request
- word processor ? word processor , word processing
system
24Fase 2 Estrazione di porzioni rilevanti dai
documenti
25Metodi utilizzati in questa fase in FALCON
- Espansione della query
- Espansioni morfologiche invent
inventORinventorOR invent - Espansioni lessicali e semantiche (killer
assassinORkiller, like likeORprefer)
26Fase 3 generazione della risposta
27Metodi usati in questa fase in FALCON
- Generazione di una forma semantica per il testo
della risposta - Dapprima tenta di unificare domanda e risposta
- IF fail, applica espansioni lessicali finché
lunificazione non ha successo - Infine, genera una prova abduttiva dalla risposta
alla domanda, eventualmente applicando ulteriori
espansioni semantiche.
28Esempio
- Testo estratto Over the week-end Mr Koresh sent
a request for a word processor to enable him to
record his revelations - Forma logica ottenuta
- Mr(71)Koresh(71)word(72)processor(72)revelati
ons(74)record(73 74 75)enable(75 73
76)request(76)sent(77 76 78 71)weekend(78)_PER
SON(71)DATE(78) - Esempio di dimostrazione ( e assiomi utilizzati)
- ?ProvingDavid(1)Koresh(1)word(2)processor(2)F
BI(4)ask(34215)_REASON(5)_PERSON(1)ORG(4) - unifying axioms David(1)Mr(1)..
- ask(12345)sent(1674)request(6)
_ORG(1)FBI(1).. - Se la dimostrazione fallisce, alcune regole di
abduzione consentono di unificare costanti che
sono differenti ma che sono argomenti dello
stesso predicato
29Performance di FALCON a TREC-9
- 79 risposte corrette
- Il secondo miglior sistema intorno al 55
- I moduli di abduzione e espansione semantica
hanno avuto un ruolo determinante nel 25 dei
casi - I progettisti di FALCON sostengono che il ruolo
di una open-domain linguistic ontology such as
WordNet è stato determinante
30Per concludere (sulle tecniche di elaborazione
dei testi)
- Luso di tecniche di AI-intensive è fortemente
crescente nei sistemi di accesso a informazioni
testuali - Comunità Europea e DARPA spingono progetti
orientati al reperimento, manipolazione,
presentazione di contenuti sulla rete (e-content,
Semantic web., Open-domain question answering..) - La disponibilità di open-domain Ontologies e
linguaggi di formattazione intermedia di
documenti (XML etc.) potrà avere un forte
impatto sulle prestazioni dei sistemi di DC/IE/QA