Title: Optimierung von Volltextinvertierung durch den Einsatz von Indexierungsw
1Optimierung von Volltextinvertierung durch den
Einsatz von Indexierungswörterbüchern
Artikelstrecke ab BUTTERBLUME im Deutschen
Wörterbuch von Jacob und Wilhelm Grimm
(http//edoc.hu-berlin.de/e_histfor/10_I/PHP/Woert
erbuecher_2007-10-I.php)
Spree SoSe 2011
2?
Wir erinnern uns Einschränkungen regebasierter
Verfahren
http//blogs.taz.de/wp-inst/wp-content/blogs.dir/2
0/files/2006/07/problem-moslem.jpg
- Fehler werden in Kauf genommen
- Tolerierbar, da Sucheingabe nach demselben
Prinzip gestemmt wird wie der Text - Nur sinnvoll, wenn Sprache über in hohem Maße
regelhafte Wortbildung verfügt - Anzahl der Regeln überschaubar ist
- Ausnahmen begrenzt sind
- Prefixe werden in der Regel nicht berücksichtigt
- Eigennamen werden nicht berücksichtigt
- Keine Kompositazerlegung möglich
- Phrasen werden nicht erkannt
- Synonyme werden nicht erkannt
3?
Lösung Indexierungswörterbuch
Grundform Benutzertest Wortart Substantiv
Vorzugsbenennung Usability-Test Wortformen
Benutzertestes, Benutzertests alternative
Schreibweisen Benutzer-Test, Benutzer-Testes,
Benutzer-Tests Abkürzung -- Teilwörter
Benutzer, Benuter, Test äquivalente Begriffe
Usertest, Nutzertest
Typischer Schreibfehler von Frau Spree
Wörterbucheintrag a-step
4?
Funktionsweise Indexierungswörterbücher
blogspot.com/.../sofortlC3B6sung.jpg
- Aufbau eines Wortformen-Wörterbuchs als
Positivliste, in der alle Wörter in Grundform
oder in Vollform aufgenommen sind - Vergleich der Wortform aus dem zu indexierenden
Text Buchstabe für Buchstabe (Beginn mit dem
letzten Buchstaben) mit den Lexikoneintragungen
(Lemma/ta) bis eine Übereinstimmung erkannt
wird. Diesen Prozess nennt man Lemmatisierung - Aufbau eines Relationen-Wörterbuchs, damit
Flexive und Derivative erkannt werden - Festlegen einer Erkennungsstrategie, um Wörter
erkennen und in Grundform bringen zu können - Festlegung eines Verfahrens zur Identifizierung
von Komposita
5?
Lemmatisierung
Worterkennung Zeichenkette zw. , und Leerzeichen
Geschichten von Kindern, Tieren und Steinen
Tieren
Texteingang
Tieren (Dativ Plural) Tier
Analyse
Tier
Lemma
(Wörterbucheintrag, lexikalische Beschreibung)
6?
Relationenwörterbuch
- Im Relationenwörterbuch werden die vorkommenden
Wörter auf Grundformen zurückgeführt - im Text vorkommende Mehrwortbegriffe/Phrasen
werden identifiziert - soweit es sich um Komposita handelt, werden auch
Beziehungen zwischen den Teilwörtern und dem im
Text / Titel stehenden Wort hergestellt. - Beziehungen zwischen Derivationen werden
hergestellt - (Beispiele besuchen / Besuch, anfahren /
Anfahrt, Begehung / begehen / begehbar ...). - Synonymbeziehungen können abgebildet werden
- "Sonnabend" zu "Samstag"
- Mit Hilfe der "Übersetzungsrelation" lassen sich
schließlich auch Wörtern einer Sprache
Übersetzungsäquivalente zuordnen. - (verkürzt aus Harald H. Zimmermann Automatische
Indexierung und elektronische Thesauri
http//www.uni-duesseldorf.de/ulb/mil_zimm.htm)
7?
Beispiel Grundformenwörterbuch
Quelle Klaus Lepsky Sprachengineering
Grundlagen und Methoden sprachverarbeitender
Verfahren (2003)
8?
Beispiel Wörterbuchabgleich Teilworterkennung
Komposita
Quelle Gödert, Lepsky, Nagelschmidt
Textsammlung automtische Indexierung.
linux2.fbi.fh-koeln.de/kram/textsammlung-automatis
che-indexierung.pdf
9?
Beispiel schematisch Relationenwörterbuch
Haustür ? Haus
? Tür Fristlose Kündigung
?fristlos ? Frist
?Kündigung Kindergarten ?Kindergarten Kinders
tuhl ?Kind
?Stuhl
Eintrag im Relationen- Wörterbuch hat
Priorität vor Zerlegung
10?
Was leisten lexikonbasierte Programme?
- Selektion sinntragender Stichwörter
- Nur die Wörter, die im Wörterbuch stehen, werden
in den Index übernommen - Reduktion von Wortformen im Text auf ihre
Grundform - Zerlegung von Komposita (Dekomposition)
- Phrasenerkennung / Bindestrichergänzungen
- Wortsubstitution / Thesaurusfunktion
- Einschränkung hoher Entwicklungs- und
Pflegeaufwand