Title: Optimierung von Volltextindices
1Optimierung von Volltextindices
Volltextinvertierung Ist das denn wirklich
automatische Indexierung?
Mit welchen Verfahren lassen sich Volltextindices
so verbessern, dass sich Recall und Precision
erhöhen?
Spree SoSe 2011
2Probleme von Volltextindices
Spree SoSe 2011
3gliederung
Gliederung
?
- Informationslinguistik in 5 Minuten
- Quiz Morphologie
- Teaser Verbesserung der Volltextindices durch
regelbasierte Methoden - Stemming
4informationslinguistik
?
1. Informationslinguistik in 5 Minuten
Welche Wissenschaften beschäftigen sich mit der
Sprache?
- Theoretische Linguistik Untersuchung der
Sprache als System - Semiotik, die Lehre der (sprachlichen) Zeichen
- Lexikologie, die Lehre des Wortschatzes einer
Sprache - Grammatik, die Lehre der regelhaften Baumuster
und Eigenschaften von Sprache - Phonologie, die Lehre vom Lautsystem einer
Sprache - Morphologie, der Lehre von den kleinsten
bedeutungstragenden Elementen einer Sprache - Syntax, die Lehre von Form und Struktur von
Sprache - Semantik, die Lehre von Sinn und Bedeutung von
Sprache - Pragmatik, die Lehre von Verwendung und Zweck von
Sprache
- Relevanz für Wissensorganisation?
- Verstehen Menschen Zeichen?
- Hat grün in Brasilien denselben Bedeutungsumfang
wie in Deutschland? - Automatische Übersetzung
- Automatische Indexierung
- Suchmaschine erkennt, wann Ente im Sinne von Auto
und wann im Sinne von Vogel gesucht wird - Eine Luft ist das hier bedeutet mach mal
Fenster auf
5autoübersetzung
1. Informationslinguistik in 5 Minuten
?
Das ist nicht immer so einfach mit der Grammatik
Ein Beispiel aus Babelfish (http//de.babelfish.ya
hoo.com/translate_txt) Wortbestandteile, die zur
Flexion, zur Derivation oder zur Komposition
herangezogen werden, nennt die Linguistik
Morpheme. Sie sind die kleinsten
bedeutungstragenden Einheiten der Sprache. Wird
zu The linguistics of morphemes calls word
components, which are consulted for the
inflection, for the Derivation or for the
composition. They are the smallest
meaning-meaning units of the language.
6computerlinguistik
1. Informationslinguistik in 5 Minuten Computerlin
guistik
?
- Computerlinguistik Verwendung von natürlicher
Sprache am Computer - um Sprache im Computer anwenden zu können,
müssen wir verstehen, wie Sprache funktioniert - Durch die Analyse der Sprache entdeckte
Regelmäßigkeiten werden dann in Computerprogramme
umgesetzt - Computer lösen die sprachlichen Probleme aber
häufig anders als Menschen. Besonders Ausnahmen
sind schwierig für Computer zu erkennen.
Kinder ? Kind (Singular) Inder ? Ind (Singular)?
7morphologie
1. Informationslinguistik in 5 Minuten Morpheme
kleinste bedeutungstragende Einheiten
?
Problem Wie bringe ich einem Programm bei, dass
wenn Informationen zu Mensch gesucht werden,
Dokumente, in denen das Wort Menschen vorkommt,
auch relevant sind?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
Unfreundlichkeit Pferdes der Schwerstarbeit Rosen
Un-freund-lich-keit Pferd-es der Schwer-st-arbeit
Ros-en
8morpheme
Informationslinguistik in 5 Minuten Morpheme
kleinste bedeutungstragende Einheiten
?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
Unfreundlichkeit Pferdes der Schwerstarbeit Rosen
Un-freund-lich-keit Pferd-es der Schwer-st-arbeit
Ros-en
Welche Funktion haben die Bestandteile
freund pferd ros schwer arbeit
-es -en -der -st
Grammati-kalische Bedeutung
-un -lich -keit
Wort-bildung
Lexikalische Bedeutung
9morpheme
Morpheme kleinste bedeutungstragende Einheiten
?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
unfriendliness horses the heavier roses
Un-friend-li-ness Hors-es the heav-ier ros-es
Welche Funktion haben die Bestandteile
friend hors ros heav
-es -ier -li
Grammati-kalische Bedeutung
-un -ness
Wort-bildung
Lexikalische Bedeutung
10flexionsmorphologie
Morpheme Übersicht
?
Eine Teildisziplin der Linguistik, die
Morphologie, untersucht Fragen der Wortbildung
wissenschaftlich. Lesen Sie bitte nach Lernmodul
a-step Morphologische Grundlagen
Tipp in eine guten Sprachwörterbuch lassen sich
die morphologischen Informationen zu einem Wort
nachschauen Wortschatz-Lexikon URL
http//wortschatz.uni-leipzig.de/
11morphemarten
Morpheme Übersicht
?
12Morpheme_quiz
Jetzt Sie Quiz Morphologie
?
- Definieren Sie Morphem.
- Was ist ein Derivativ?
- Nennen Sie ein Beispiel für ein lexikalisches
Morphem. - Warum bilden freie Morpheme eine offene Klasse?
- Handelt es sich bei der Konjugation eines Verbes
um eine Flexion oder eine Derivation? - Nennen Sie ein Beispiel für ein Wort mit einem
Suffix. - In welche Morphemklasse ordnen Sie nur ein?
- Nennen Sie ein Beispiel für ein Verb mit einem
Präfix. - Nennen Sie ein Beispiel für ein Verb mit einem
Zirkumfix - Was versteht man unter der Grundform eines
Wortes? - Was versteht man unter der Stammform eines
Wortes? - Nennen Sie ein Beispiel für eine Wortkomposition.
- Nennen Sie zwei Beispiele für Derivationen von
kaufen. - Nennen Sie je ein Beispiel für ein freies Morphem
und eine gebundenes Morphem - Zerlegen Sie Facebookkonten in die kleinsten
bedeutungstragenden Einheiten (Morpheme) und
benennen sie die Morphemarten. - Zerlegen Sie Geburtstagskuchen in die kleinsten
bedeutungstragenden Einheiten (Morpheme) und
benennen sie die Morphemarten. - Stichfrage Himbeerkuchen
13stemming
2. Verbesserung der Volltextinvertierung -
Stemming
?
Durch das Stemming werden die verschiedenen
Wortformen auf eine einheitliche Form
gebracht. Man unterscheidet zwei Wortformen
Grundform Wortform abzüglich aller Flexive
Verkleidungen -gt Verkleidung Girls -gt
girl Stammform Grundform abzüglich aller
Derivative Verkleidung -gt Kleid fishing -gt
fish
Einfache Verfahren zur Optimierung von
Volltextindices arbeiten mit der
Grundformreduktion Vereinheitlichung aller
Indextermini auf die Grundform, seltener mit der
Stammformreduktion Achtung für die Suchanfrage
und für den indexierten Text müssen dieselben
Verfahren eingesetzt werden.
14Probleme stemming
Probleme des Stemming
?
Overstemming Eine zu lange Zeichenkette wird
abgeschnitten Wörter mit unterschiedlichen
Bedeutungen werden auf ein und dieselbe Form
reduziert
Buchen (Bäume) ? Buch Buches ? Buch
Themen ? them Themas ? thema schlechtester ?
schlechtest schlechter ? schlecht Absorbieren ?
absorb Apsorption ? absorp
Understemming Eine zu kurze Zeichenkette wird
abgeschnitten. Wörter mit derselben Bedeutung
werden auf unterschiedliche Formen reduziert
15porter
Porter Stemmer
?
Stemmingprogramme Porter Stemmer Demoprogramm
für die deutsche Sprache
16?
Wer setzt solche Verfahren ein?
Im Hilfetext des Hostes LexisNexis können Sie
Folgendes lesen
- Plural
- Die nachfolgenden Beispiele gelten vor allem für
das Plural-S. Mit diesem Operator können Sie die
Suche auf Plural- und Possessivformen im Plural
begrenzen. - Wenn Sie den Singular angeben, finden Sie
Singular, Plural und Genitivformen vieler
Begriffe. - Beispiel city findet city, cities, city's, and
cities' - Das System erfasst jedoch nicht unregelmäßige
Pluralbildungen, wie es im Englischen
beispielsweise die Endungen "us" oder "is" sind. - Beispiel Mit bonus finden Sie nicht bonuses
- Beispiel Mit child finden Sie nicht children
- Hinweis Verwenden Sie für Suchen nach
unregelmäßigen Pluralformen den Operator ODER
OR.
Quelle Ausschnitt Hilfetext LexisNexis
(http//www.lexisnexis.com/help/global/globalhelp_
frameset.asp?localede_DElbuDEadaptationbusine
sssPagegh_termssAnchorgeneralfromHelptrue)