Methoden%20der%20Sprachverarbeitung - PowerPoint PPT Presentation

About This Presentation
Title:

Methoden%20der%20Sprachverarbeitung

Description:

Methoden der Sprachverarbeitung H. Schweppe, FUB mit Zara Kanaeva WS 02/02 Ein Text Deutschland ist nach wie vor schwach , hei t es im Herbstgutachten, das die ... – PowerPoint PPT presentation

Number of Views:236
Avg rating:3.0/5.0
Slides: 25
Provided by: schw194
Category:

less

Transcript and Presenter's Notes

Title: Methoden%20der%20Sprachverarbeitung


1
Methoden der Sprachverarbeitung
  • H. Schweppe, FUB mit Zara Kanaeva
  • WS 02/02

2
Ein Text
  • Deutschland ist nach wie vor schwach, heißt es
    im Herbstgutachten, das die Forscher am Dienstag
    veröffentlichten. Die Institute rechnen im
    kommenden Jahr mit einem Wirtschaftswachstum von
    1,4 Prozent nach plus 0,4 Prozent in diesem Jahr.
    Die Institute erwarten darüber hinaus im
    kommenden Jahr einen deutlichen Abbau beim
    öffentlichen Defizit. Mit plus 3,2 Prozent werde
    in diesem Jahr die drei-Prozent- Marke des
    Europäischen Stabilitätspaktes überschreiten,
    heißt es im Herbstgutachten, das die Institute am
    Dienstag vorstellten. Im Jahr 2003 werde der
    Defizitanteil am Bruttoinlandsprodukt aber wegen
    der drastischen Haushaltskürzungen auf 1,9
    Prozent zurückgehen.
  • Die ostdeutsche Wirtschaft soll im kommenden Jahr
    erstmals seit 1997 wieder stärker wachsen als die
    Westdeutsche. Die mit 2,3 Prozent deutliche
    höhere Ost-Wachstumsrate sei allerdings auf einen
    Sondereffekt durch die Beseitigung der
    Flutschäden in den neuen Ländern zurückzuführen.
    Von einer konjunkturellen Belebung könne keine
    Rede sein. (tso/dpa)

3
Verschiedene Ziele
In dieser Veranstaltung nur geschriebene, keine
gesprochene Sprache!
  • Sprachwissenschaft
  • Verstehen wie Sprache
  • entsteht
  • verwendet wird
  • welche Eigenschaften
  • .......
  • Erkenntnis über natürliche Sprache gewinnen
  • Computerlinguistik / Informatik
  • Automatisierung von
  • Sprachverstehen
  • Ãœbersetzung....
  • Automatisierung von Kommunikationsprozessen in
    NL
  • Große Ãœberschneidungen der Ziele

4
Anwendungen der Sprachverarbeitung
  • Textanalyse (statistisch)
  • Stil keine große praktische Bedeutung
  • Grammatik wichtige Methode
  • einfache Werkzeuge (Häufigkeiten....)
  • kein "Sprachverstehen"
  • Sprachübersetzung
  • schwer relativ gute Ergebnisse (u.a. "Systran")
    Problem meist Nachbearbeitung nötig
  • Automatische Zusammenfassungen ("abstracts")
  • Sprachverstehen
  • Was ist das überhaupt??

5
Sprachverstehen
  • Arbeitsdefinition "Textverstehen" "Ein
    technisches System versteht einen
    natürlichsprachlichen Text, wenn es alle Fragen
    zu diesem Text beantworten kann, die ein
    (durchschnittlich intelligenter) Mensch
    beantworten kann. "Vergleiche Turing Test

6
Anwendungen...
  • Information Retrieval (?)
  • natürlichsprachliche Texte
  • relativ gute Ergebnisse
  • Beispiel
  • kein Sprachverstehen im Sinne der Definition
  • Dokument als Antwort
  • Einfaches statistisches Sprachmodell

7
Anwendungen...
  • Informations Extraktion (IE), Faktenextraktion
    (Fex)
  • Beispiel Text am Anfang "Die Institute rechnen
    im kommenden Jahr mit einem Wirtschaftswachstum
    von 1,4 Prozent nach plus 0,4 Prozent in diesem
    Jahr. "
  • Datenbank mit Wirtschaftsdaten
  • ButtoSProd ( Jahr, Wert), ......,
  • WachstumProg (Inst, Datum, fürJahr, Wert)
  • ( NULL , date, 2003, 1.4 )
  • ( NULL , date, 2002, 0.4 )
  • Nur gewisse, vorab zu definierende Sachverhalte
    extrahieren
  • Ãœberführung in abfragbaren Datenbestand (DB,
    nicht semantischeTiefenstruktur
  • Annahme Es werden nicht beliebig viele
    sprachliche Formen für eine Aussage verwendet.

8
Ziel der Veranstaltung
  • Verstehen von Methoden der Sprachverarbeitung
  • (Wortbasierte Techniken, Parsing,
    statistische Verfahren,...)
  • Fokus Methoden, die für IE / FEx nützlich sind
  • Zusammenhang IR und Fex bzw. Sprachverarbeitung
  • Experimente zur Faktenextraktion
  • Annahme
  • Natürlichsprachliche Texte sind die wichtigsten
    Träger elektronisch kodierter Information
  • Information Retrieval ist hilfreich, aber nicht
    ausreichend für Frage / Antwort Prozesse
  • Pragmatische Verfahren machen IE / FEx
    praxistauglich

9
(Sehr) Kleine Historie...
  • ... der Computerlinguistik
  • Am Anfang war das Wort.... (Turing)
  • Syntax Noam Chomsky 1955
  • Semantik Intensive Forschung in den USA ab
    1965 Ziele - Computermodelle, die
    Spracherwerb und -nutzung
    erklären können - Maschinelle
    Ãœbersetzung - "Question Answering"
    (ohne praktische Bedeutung)
  • Ende der 70er Natürlichsprachlicher
    Systemzugang - Text,
    nicht gesprochene Sprache
  • Mitte der 80er Euphoriephase der KI
    - "Problem in 15 Jahren gelöst!"
  • Gute Fortschritte in der Sprachübersetzung, ...
    aber sonst...
  • 90er Jahre Verarbeitung gesprochener Sprache
    setzt sich durch. Problem
    bleibt Semantik der
    natürlichsprachlichen Äußerung

10
Was macht Sprachverarbeitung schwierig?
  • Mehrdeutigkeiten (1)

11
  • Mehrdeutigkeiten (2)

Analog "Our problem is training workers"
12
  • Mehrdeutigkeiten (3)

S
NP
VP
Our company
V
VP
is
AdjP
NP
Analog "Those are training devices"
workers
training
Angeblich 455 verschiedene Parse-Bäume für den
Satz "List the sales of the products produced
in 1973 with the products produced in 1972"
13
Was macht Sprachverarbeitung schwierig?
  • Fehlendes Weltwissen zur Desambiguierung
  • "Deutschland ist nach wie vor schwach", heißt es
    im Herbstgutachten, das die Forscher am Dienstag
    veröffentlichten.
  • CycThe knowledge base is built upon a core of
    over 1,000,000 hand-entered assertions (or
    "rules") designed to capture a large portion of
    what we normally consider consensus knowledge
    about the world. For example, Cyc knows that
    trees are usually outdoors, that once people die
    they stop buying things, and that glasses of
    liquid should be carried rightside-up.
  • Seit 1984 systematische Sammlung von Common
    Sense - Weltwissen

14
Was macht Sprachverarbeitung schwierig?
  • Weitere linguistische Phänomene
  • Kollokationen
  • disk drive, ham and eggs, international best
    practice
  • 8-Bit Technologie, Magisterstudiengang
    Informatik,...
  • Morphologie Flexionsformen, Zeiten,...
  • sit, sits, sat -gt ins Wörterbuch
  • Komposita im Deutschen?
  • Koreferenzen
  • "Microsoft kündigte gestern an, ihre gesamte
    Software zu verschenken. Der Marktführer aus
    Redmond kommt damit einem Beschluss des Obersten
    Bundesgericht zur Auflösung der Firma zuvor."

15
  • Elementar, aber wichtig
  • Eigennamen erkennen " PixelPark", "I3V", ...
  • Zahlen erkennen "Auf dem ersten
    Platz..." "Auf dem vorletzten Platz aller
    europäischen Staaten.."

16
Zwei Ansätze
  • Strukturalistisch
  • Grammatik per Hand konstruiert
  • Weltwissen explizit aufgebaut
  • Semantische Analyse, Desamiguierung, .... als
    Teil eines "Knowledge Engineering" -
    Prozesses
  • Empirisch
  • Statistische Eigenschaften von Sprachgebrauch
    untersuchen und nutzen
  • Automatisches Trainieren
  • Lernverfahren

17
Statistische Spracheigenschaften Gesetz von Zipf
  • "Prinzip des geringsten Aufwandes"
  • Sprache Zusammenhang zwischen der Häufigkeit f
    des Vorkommens eines Worts zum Rang r in der
    Häufigkeitstabelle
  • fr const
  • f r fr
  • he 877 10 8770
  • but 410 20 8400
  • begin 9 900 8100
  • family 8 1000 8000
  • G.K. Zipf "Human Behaviour and the Pronciple of
    Least Effort", 1949

Beispiel aus Tom Sawyer, nach C. Manning,
(Auschnitt, tatsächlich größere Abweichungen)
18
Statistische Sprachanalyse einfache Beispiele
  • Frequenz von Kollokationen
  • Wort-Bigramme
  • Experiment mit 3 Monaten Text der "NewYork
    Times"
  • Häufigkeit 1. Wort 2. Wort
  • 1. 80871 of the
  • 2. 58841 in the
  • 3. 26430 to the
  • ....
  • 15 11429 New York
  • 16 10007 he said

19
Statistische Sprachanalyse einfache Beispiele
  • Mehrschrittige Verfahren
  • z.B.
  • - Wortkategorien zuweisen (Nomen, Adj, Verb,..)
    "Part of Speech Tagging, POST"
  • - Bigramme bilden
  • - Filtern nach vorgegebenen POS Mustern (z.B. N
    N, AN)

20
Statistische Sprachanalyse einfache Beispiele
  • Konkordanzen"In welchen syntaktischen
    Zusammenhängen taucht ein Verb auf?"
  • KWIC Index ("keyword in context")

1 could find a target. He showed the vacany
and went 2 n various ways, and then showed his
aversion to what w .... 9 own. The glimmering
light showed where it lay, peaceful .... KWIC
für "showed" in Tom Sawyer (nach C. Manning)
21
Statistische Sprachanalyse einfache Beispiele
  • Konkordanzen (2)
  • KWIC und POST
  • Ermittlung des syntaktischen Kontext, in dem
    ein Verb vorkommt

NP agent showed (NP recipient) NP content
(...) NP agent showed CP where content NP
agent showed NPaversion PP to Insgesamt 8
syntaktische Muster für "showed" in Tom Sawyer
22
Bewertung
  • "Wie gut ist das System?"
  • Für Faktenextraktion Bewertungstechniken des
    Information Retrievals
  • Wieviel Fakten sollten gefunden werden (n) ?
  • Wieviele wurden tatsächlich gefunden (m) gt
    recall m / n
  • Wieviele Fakten wurden insgesamt extrahiert (k)
    gt precision m/ k

23
Ãœbersicht
  • Zeitplan
  • 1. Einführung, EinführungIE (HS)
  • 2. Einführung IE (2) (HS)
  • 3. Vortrag Inf. Extraction and IR (Artikel von
    Gaizaukas)
  • Vortrag Fastus
  • Vorstellung des Annie-Systems
  • 4. Gate Technische Einführung
  • Experiment zur Extraktion vorbereiten
  • 5. Experiment und Auswertung

24
Ãœberblick
  • 6. Statistische Techniken der Textanalyse
    Prakatische Arbeit Statistische
    Charakterisierung von Texten
    (Worthäufigkeiten, n-Gramme, ...)
  • 7. Dictionaries WordNet (Vortrag zu WordNet)
  • 8. Weitere Wortbasierte Methoden Eigennamen,
    Zahlen erkennen. (Vortrag)
  • 9. 12 Satz- /Textorientierte Techniken
    Parsing
Write a Comment
User Comments (0)
About PowerShow.com