Title: 2 Faktenextraktion:
12 Faktenextraktion Übersicht
- Faktenextraktion - zwischen Information Retrieval
und Sprachverstehen - Message Understanding Conferenc (MUC)
Wettbewerb IR-Fragestellung
"Relevant sind alle Artikel, die eine
Wirtschaftsprognose für 2003 abgeben und eine
Aussage zum Haushaltsdefizit machen." - NLP-Fragen "Wie hoch ist das
Haushaltsdefizit voraussichtlich in 2003?"
Wie lautet die Schätzung für das
Wirtschaftswachstum in 2003 ?"
Siehe Tutorial von Appelt, SRI, Tutorial 1999.
Wilckes Information Extraction, TR.
(elektronischer Reader)
2Einschränkungen gegenüber NLP
- Nur Teile des Inhalts "relevant"
- Wie spezifiziert man den?
- z.B. Datenbankschem
- ButtoSProd ( Jahr, Wert), ......,
- WachstumProg (Inst, Datum, fürJahr, Wert)
-
- Faktenmuster ltNPgt ltVPgt Zahl ltProzgt
- ltVPgtltNPgt Zahl ltProzgt
- Trigger NPWirtschaftswachstum
VPbetragenPrognose ist... - ProzProzent
3Methoden zur Regeldefinition
- Wie findet man die Extraktionsregeln?
- Manuell / intellektuell ("Knowledge Engineering
Ansatz") - Wissen über die Anwendung
("Domänen-Wissen") - Sprachliches Wissen
(Grammatik, Wortsemantik..) gt
Regel-Definition in Handarbeit - Aufwendig! Relativ gute Ergebnisse für
eingeschänkte Anwendungsbereiche. - Statistische Techniken
- - Regeln durch Analyse großer Corpora lernen
- - Überwachtes Lernen (Trainer) nützlich
- gt Aufwand geringer, aber Trainingsdaten?
- Statistische Techniken wichtig, s. o.
4Grobarchitektur
Wortzerlegung
Morphologische / lexikalische Analyse
- Typisch für alle Sprach- verarbeitungssysteme
- Was ist spezifisch für FE / IE ?
Parsing
Feedback zur Disambiguierung
Semantik / Anwendungskontext
5FE und NLP
- FE sehr große Textmengen
- Effizienz ist ein Thema
- Texte nicht notwendig korrekt (grammatisch,
Rechtschreibung,..) - Robuste Parsing-Techniken
- Endliche Automaten für Parsing
- Gegenstandsbereich wichtig
- Domänenwissen in jeden Verarbeitungsschritt
einbeziehen - -gt FE Technologie Vereinfachungen gegenüber
Natural Language Processing. Aber
Unterschiedliche Schulen -
6Wortzerlegung
Nein! Sprachabhängig, nicht jede Sprache kennt
die Auflösung einer Äußerung in Worte. Aber
Englisch, Deutsch.....
Erkennen von Satzendungen? "Einer sog.
Abstraktion kommt in der Informatik große
Bedeutung zu."
Dennoch eher einfaches Problem.
7Morphologie
- Dictionary look up (Lexikon) mit / ohne
FlexionsformenIn machen Sprachen sehr viele
Formen (Finnisch 10000 mögliche Verformen!!) - Part-Of-Speech TaggingSammelbegriff für die
Zuweisung von syntaktischen Kategorien (auch
grammatikalische Kategorien statt POST). - FE eher untergeordnete Bedeutung (Appelt), da
keine vollständige syntaktische Analyse - Auch Eigennamen zuordnen
- "General Electric", "Yesterday Microsoft
announced....", "The Redmond Microsoft branch.."
)
8Name Tagger
- Stastisch Hidden Markov Modelle
- Annahme Es gibt einen probabilistischen
endlichen Automaten, der mit jedem Eingabewort
schaltet. Pfad vom Start- zum Endknoten liefert
Wahrscheinlichkeit für die Interpretation eines
Namens aus verschiedenen Konstituenten (hier).
z.B. "John Smith" (Person) , "John Deere"
(Firmenname) - Lernverfahren anwendbar!
- Regelbasiert
- z.B. Sequenz von Worten, die mit Großbuchstaben
beginnen......, sind Eigennamen (im
Englischen!). - Wenn dem Wort w direkt GmbH AG Inc. folgt,
handelt es sich um Firmennamen.
9Syntax
- "Full parsing" oder "Shallow parsing" ?
- "Finite State Grammers" (reguläre Sprache ?!)
reicht für Erkennung von einfachen Fakten. - Schwierige grammatikalische Konstrukte weglassen
oder auflösen (Konjunktion -gt 2 Sätze) - Fehler haben oft andere Ursachen als falsche
syntaktische Zerlegung. - Keine binäre Entscheidung genauere Kenntnis der
syntaktischen Struktur ist nicht per se
schädlich. - Verhältnis von Aufwand und Nutzen.
10Semantik
- "Molekularer Ansatz"
- Finde induktiv Sprachmuster für die relevanten
Fakten (Lesen von Texten, markieren, Regeln
aufstelle - "ltInstitutgt ltrechen prognostizierengt
ltWachstum.. von ltZahlgt" - Keine Trennung von sprachlicher Formulierung von
Fakten und formaler Repräsentation (z.B.
DB-Schema) - verspricht hohe Präzision, geringeren Recall
- "Atomarer Ansatz"
- Finde die wichtigen Konstituenten "Institute"
"Wachstum" "Prognose" Würde (evtl. !)
erkennen "Die Institute sind sich sicher, dass
das Bruttosozialprodukt sich um 2 erhöhen wird" - Ableiten von Fakten aus Konstituenten.
11Zusammenfassung
- Faktenextraktion einfacher als Textverstehen.
- .... aber ....
- viele Probleme des Textverstehens tauchen auch
hier auf. - Statistische Techniken scheinen sinnvoll
- Lernen von Mustern
- Lernen von Eigennamen etc.
- Grammatik
- Nutzen von Metatags (XML etc.?)
- Anwendungen
- Verbesserung von Information Retrieval als
wichtige Anwendung. - Abfragbare Datenbanken aufbauen schwierig, aber
nützlich.