Title: Optimierung von Volltextinvertierung durch Stemming
1Optimierung von Volltextinvertierung durch
Stemming
Spree SoSe 2010
2?
Wer setzt solche Verfahren ein?
Im Hilfetext des Hostes LexisNexis können Sie
Folgendes lesen
- Plural
- Die nachfolgenden Beispiele gelten vor allem für
das Plural-S. Mit diesem Operator können Sie die
Suche auf Plural- und Possessivformen im Plural
begrenzen. - Wenn Sie den Singular angeben, finden Sie
Singular, Plural und Genitivformen vieler
Begriffe. - Beispiel city findet city, cities, city's, and
cities' - Das System erfasst jedoch nicht unregelmäßige
Pluralbildungen, wie es im Englischen
beispielsweise die Endungen "us" oder "is" sind. - Beispiel Mit bonus finden Sie nicht bonuses
- Beispiel Mit child finden Sie nicht children
- Hinweis Verwenden Sie für Suchen nach
unregelmäßigen Pluralformen den Operator ODER
OR.
Quelle Ausschnitt Hilfetext LexisNexis
(http//www.lexisnexis.com/help/global/globalhelp_
frameset.asp?localede_DElbuDEadaptationbusine
sssPagegh_termssAnchorgeneralfromHelptrue)
3genau
Stemming - Wiederholung
?
Durch das Stemming werden die verschiedenen
Wortformen auf eine einheitliche Form
gebracht. Man unterscheidet zwei Wortformen
Grundform Wortform abzüglich aller
Flexive Verkleidungen -gt Verkleidung Stammform
Grundform abzüglich aller Derivative Verkleidung
-gt Kleid
Einfache Verfahren zur Optimierung von
Volltextindices arbeiten mit der
Grundformreduktion Vereinheitlichung aller
Indextermini auf die Grundform, seltener mit der
Stammformreduktion Achtung für die Suchanfrage
und für den indexierten Text müssen dieselben
Verfahren eingesetzt werden.
4genau
Probleme des Stemming
?
Briefpapiere ?Briefpapi Buchen (Bäume) ?
Buch Buches ? Buch
Overstemming Eine zu lange Zeichenkette wird
abgeschnitten Wörter mit unterschiedlichen
Bedeutungen werden auf ein und dieselbe Form
reduziert
Themen ? them Themas ? thema schlechtester ?
schlechtest schlechter ? schlecht Absorbieren ?
absorb Apsorption ? absorp
Understemming Eine zu kurze Zeichenkette wird
abgeschnitten. Wörter mit derselben Bedeutung
werden auf unterschiedliche Formen reduziert
5genau
Übung Porter Stemmer
?
Stemmingprogramme Porter Stemmer Demoprogramm
für die deutsche Sprache
- Aufgabe
- Sie erhalten einen Text und ein
Indexierungsergebnis. Schauen Sie sich das
Ergebnis an und beantworten Sie folgende Fragen - Was hat das Programm gemacht?
- Was vermuten Sie, wie funktioniert das?
- Hätte ein Nutzer das Dokument bekommen, wenn er
recherchiert hätte - Informationswirtin
- Kundschaft AND Industrie
6genau
Porter Stemmer - Funktionsweise
?
- Abtrennung von Endungen (keine Präfixe,
Zirkumfixe, Infixe) - basiert auf statistischen Erkenntnissen über
Wortendungen und ihre Funktion / kein wirkliches
morphologisches Wissen hinterlegt - trunkiere alles, was länger als x Buchstaben
ist, wenn .. - iteratives (schrittweises) Vorgehen in Form der
Abarbeitung aufeinanderfolgender Regeln - basiert auf Erfahrungswissen
7genau
Porter Stemmer Elemente des Codes
?
- C, V, (CKonsonant VVokal)
- Zeichenfolgenlänge
- - Abfolgen von VC werden gezählt, um die
Zeichenfolgenlänge festzulegen - - Gezählt wird immer nur die VC Abfolge, C zu
Beginn und V zum Ende zählt nicht - Oats VC, also m1
- Tree CV also m0
- Zusatzbedingungen
- - S (Stamm endet mit S)
- - V (Stamm enthält Vokal)
- Eine einfache Erklärung des Porter-Algorithmus
liefert der Artikel Porter-Stemmer-Algorithmus
der Wikipedia http//de.wikipedia.org/wiki/Porter-
Stemmer-Algorithmus - Den Originaltext finden Sie im Lernmodul
http//www.bui.haw-hamburg.de/pers/ulrike.spree/as
tep/porter.doc
8genau
Porter Stemmer Regeln
?
- Einfache Regelstruktur für die Suffixbearbeitung
- Identifikation von Endungen (ate, s, ies )
- Endungen werden abgehängt, wenn der
übrigbleibender Stamm, bestimmte Bedingungen
erfüllt - Abhängen des Suffix erfolgt nur ab festgelegter
Wortlänge (VC-Folge) - Insgesamt 5 Bearbeitungsschritte
- Prinzip des longest match
9genau
Porter Stemmer Beispielregeln
?
Step 1a SSES -gt SS caresses -gt
caress IES -gt I ponies -gt poni
ties -gt ti SS -gt
SS caress -gt caress S -gt
cats -gt cat Step 1b (mgt0) EED -gt E
feed -gt feed agreed
-gt agree (v) ED -gt plastered -gt
plaster bled -gt bled
(v) ING -gt motoring -gt motor
sing -gt sing Wenn die erste
oder zweite Regel zutrifft, wird folgendes
getan AT -gt ATE conflat(ed) -gt
conflate BL -gt BLE troubl(ed) -gt
trouble IZ -gt IZE siz(ed) -gt
size (d and not (L or S or Z))
10genau
Porter Stemmer Beispielregeln
?
Step 2 (mgt0) ATIONAL -gt ATE
relational -gt relate (mgt0) TIONAL -gt
TION conditional -gt condition
rational -gt
rational (mgt0) ENCI -gt ENCE
valenci -gt valence ... Insgesamt 20
Fälle Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICAL -gt IC
electrical -gt electric Step 4 (mgt1) AL
-gt revival -gt reviv
(mgt1) ANCE -gt allowance
-gt allow (mgt1) ENCE -gt
inference -gt infer The suffixes are now
removed. All that remains is a little tidying
up. Step 5a (mgt1) E -gt
probate -gt probat Step 5b (m gt 1 and
d and L) -gt single letter
controll -gt control
roll -gt roll
11genau
Porter Stemmer Maßnahmen gegen overstemming
?
Regel (mgt1) ATE ? Suffixe werden nicht
entfernt, wenn der Stamm zu kurz ist. Maß ist m,
also Abfolge VokalConsonant. Es gibt keine
linguistische Grundlage für diese Beobachtung,
sie beruht nur auf Beobachtung.
RELATE ?RELATE DERIVATE ?DERIV m1
m2/mgt1
12?
Porter Algorithmus als Flussdiagramm
13?
Porter Algorithmus Beispiel für iteratives
Vorgehen
SSES -gt SS IES -gt SS -gt SS S -gt
- International ? intern
- Anwendung von Step 1 ?
- Step 1 wird nicht angewandt, weil keine der
Regeln zutrifft - Anwendung von Step 2
- Bedingung (mgt0) ?
- Ja, denn VCVC
- Regel (mgt0) ?ational ?ate
- international ? internate
- Anwendung von Step 3?
- Step 3 wird nicht angewandt, da keine der Regeln
zutrifft - Anwendung von Step 4?
- Regel (mgt1) ?ate ?
- internate ? intern
(mgt0) ATIONAL -gt ATE (mgt0) TIONAL -gt TION
(mgt1) ATE -gt
14?
Einschränkungen regebasierter Verfahren
- Fehler werden in Kauf genommen
- Tolerierbar, da Sucheingabe nach demselben
Prinzip gestemmt wird wie der Text - Nur sinnvoll, wenn Sprache über in hohem Maße
regelhafte Wortbildung verfügt - Anzahl der Regeln überschaubar ist
- Ausnahmen begrenzt sind
- Das System hat kein wirkliches morphologisches
Verständnis - Prefixe werden nicht berücksichtigt