2 Faktenextraktion: - PowerPoint PPT Presentation

About This Presentation

Title:

2 Faktenextraktion:

Description:

2 Faktenextraktion: bersicht Faktenextraktion - zwischen Information Retrieval und Sprachverstehen Message Understanding Conferenc (MUC) Wettbewerb: – PowerPoint PPT presentation

Number of Views:68

Avg rating:3.0/5.0

Slides: 12

Provided by: schw197

Category:

more less

Transcript and Presenter's Notes

Title: 2 Faktenextraktion:

1
2 Faktenextraktion Übersicht

Faktenextraktion - zwischen Information Retrieval
und Sprachverstehen
Message Understanding Conferenc (MUC)
Wettbewerb IR-Fragestellung
"Relevant sind alle Artikel, die eine
Wirtschaftsprognose für 2003 abgeben und eine
Aussage zum Haushaltsdefizit machen."
NLP-Fragen "Wie hoch ist das
Haushaltsdefizit voraussichtlich in 2003?"
Wie lautet die Schätzung für das
Wirtschaftswachstum in 2003 ?"

Siehe Tutorial von Appelt, SRI, Tutorial 1999.
Wilckes Information Extraction, TR.
(elektronischer Reader)
2
Einschränkungen gegenüber NLP

Nur Teile des Inhalts "relevant"
Wie spezifiziert man den?
z.B. Datenbankschem
ButtoSProd ( Jahr, Wert), ......,
WachstumProg (Inst, Datum, fürJahr, Wert)
Faktenmuster ltNPgt ltVPgt Zahl ltProzgt
ltVPgtltNPgt Zahl ltProzgt
Trigger NPWirtschaftswachstum
VPbetragenPrognose ist...
ProzProzent

3
Methoden zur Regeldefinition

Wie findet man die Extraktionsregeln?
Manuell / intellektuell ("Knowledge Engineering
Ansatz") - Wissen über die Anwendung
("Domänen-Wissen") - Sprachliches Wissen
(Grammatik, Wortsemantik..) gt
Regel-Definition in Handarbeit
Aufwendig! Relativ gute Ergebnisse für
eingeschänkte Anwendungsbereiche.
Statistische Techniken
- Regeln durch Analyse großer Corpora lernen
- Überwachtes Lernen (Trainer) nützlich
gt Aufwand geringer, aber Trainingsdaten?
Statistische Techniken wichtig, s. o.

4
Grobarchitektur

Wortzerlegung
Morphologische / lexikalische Analyse

Typisch für alle Sprach- verarbeitungssysteme
Was ist spezifisch für FE / IE ?

Parsing
Feedback zur Disambiguierung
Semantik / Anwendungskontext
5
FE und NLP

FE sehr große Textmengen
Effizienz ist ein Thema
Texte nicht notwendig korrekt (grammatisch,
Rechtschreibung,..)
Robuste Parsing-Techniken
Endliche Automaten für Parsing
Gegenstandsbereich wichtig
Domänenwissen in jeden Verarbeitungsschritt
einbeziehen
-gt FE Technologie Vereinfachungen gegenüber
Natural Language Processing. Aber
Unterschiedliche Schulen

6
Wortzerlegung

Trivial ?

Nein! Sprachabhängig, nicht jede Sprache kennt
die Auflösung einer Äußerung in Worte. Aber
Englisch, Deutsch.....
Erkennen von Satzendungen? "Einer sog.
Abstraktion kommt in der Informatik große
Bedeutung zu."
Dennoch eher einfaches Problem.
7
Morphologie

Dictionary look up (Lexikon) mit / ohne
FlexionsformenIn machen Sprachen sehr viele
Formen (Finnisch 10000 mögliche Verformen!!)
Part-Of-Speech TaggingSammelbegriff für die
Zuweisung von syntaktischen Kategorien (auch
grammatikalische Kategorien statt POST).
FE eher untergeordnete Bedeutung (Appelt), da
keine vollständige syntaktische Analyse
Auch Eigennamen zuordnen
"General Electric", "Yesterday Microsoft
announced....", "The Redmond Microsoft branch.."

)

8
Name Tagger

Stastisch Hidden Markov Modelle
Annahme Es gibt einen probabilistischen
endlichen Automaten, der mit jedem Eingabewort
schaltet. Pfad vom Start- zum Endknoten liefert
Wahrscheinlichkeit für die Interpretation eines
Namens aus verschiedenen Konstituenten (hier).
z.B. "John Smith" (Person) , "John Deere"
(Firmenname)
Lernverfahren anwendbar!
Regelbasiert
z.B. Sequenz von Worten, die mit Großbuchstaben
beginnen......, sind Eigennamen (im
Englischen!).
Wenn dem Wort w direkt GmbH AG Inc. folgt,
handelt es sich um Firmennamen.

9
Syntax

"Full parsing" oder "Shallow parsing" ?
"Finite State Grammers" (reguläre Sprache ?!)
reicht für Erkennung von einfachen Fakten.
Schwierige grammatikalische Konstrukte weglassen
oder auflösen (Konjunktion -gt 2 Sätze)
Fehler haben oft andere Ursachen als falsche
syntaktische Zerlegung.
Keine binäre Entscheidung genauere Kenntnis der
syntaktischen Struktur ist nicht per se
schädlich.
Verhältnis von Aufwand und Nutzen.

10
Semantik

"Molekularer Ansatz"
Finde induktiv Sprachmuster für die relevanten
Fakten (Lesen von Texten, markieren, Regeln
aufstelle
"ltInstitutgt ltrechen prognostizierengt
ltWachstum.. von ltZahlgt"
Keine Trennung von sprachlicher Formulierung von
Fakten und formaler Repräsentation (z.B.
DB-Schema)
verspricht hohe Präzision, geringeren Recall
"Atomarer Ansatz"
Finde die wichtigen Konstituenten "Institute"
"Wachstum" "Prognose" Würde (evtl. !)
erkennen "Die Institute sind sich sicher, dass
das Bruttosozialprodukt sich um 2 erhöhen wird"
Ableiten von Fakten aus Konstituenten.