Optimierung von Volltextinvertierung durch Stemming - PowerPoint PPT Presentation

About This Presentation
Title:

Optimierung von Volltextinvertierung durch Stemming

Description:

... Anzahl der Regeln berschaubar ist Ausnahmen begrenzt sind Das System hat kein wirkliches morphologisches Verst ndnis Prefixe werden ... des Suffix erfolgt nur ... – PowerPoint PPT presentation

Number of Views:62
Avg rating:3.0/5.0
Slides: 15
Provided by: Jutta6
Category:

less

Transcript and Presenter's Notes

Title: Optimierung von Volltextinvertierung durch Stemming


1
Optimierung von Volltextinvertierung durch
Stemming
Spree SoSe 2010
2
?
Wer setzt solche Verfahren ein?
Im Hilfetext des Hostes LexisNexis können Sie
Folgendes lesen
  • Plural
  • Die nachfolgenden Beispiele gelten vor allem für
    das Plural-S. Mit diesem Operator können Sie die
    Suche auf Plural- und Possessivformen im Plural
    begrenzen.
  • Wenn Sie den Singular angeben, finden Sie
    Singular, Plural und Genitivformen vieler
    Begriffe.
  • Beispiel city findet city, cities, city's, and
    cities'
  • Das System erfasst jedoch nicht unregelmäßige
    Pluralbildungen, wie es im Englischen
    beispielsweise die Endungen "us" oder "is" sind.
  • Beispiel Mit bonus finden Sie nicht bonuses
  • Beispiel Mit child finden Sie nicht children
  • Hinweis Verwenden Sie für Suchen nach
    unregelmäßigen Pluralformen den Operator ODER
    OR.

Quelle Ausschnitt Hilfetext LexisNexis
(http//www.lexisnexis.com/help/global/globalhelp_
frameset.asp?localede_DElbuDEadaptationbusine
sssPagegh_termssAnchorgeneralfromHelptrue)
3
genau
Stemming - Wiederholung
?
Durch das Stemming werden die verschiedenen
Wortformen auf eine einheitliche Form
gebracht. Man unterscheidet zwei Wortformen
Grundform Wortform abzüglich aller
Flexive Verkleidungen -gt Verkleidung Stammform
Grundform abzüglich aller Derivative Verkleidung
-gt Kleid
Einfache Verfahren zur Optimierung von
Volltextindices arbeiten mit der
Grundformreduktion Vereinheitlichung aller
Indextermini auf die Grundform, seltener mit der
Stammformreduktion Achtung für die Suchanfrage
und für den indexierten Text müssen dieselben
Verfahren eingesetzt werden.
4
genau
Probleme des Stemming
?
Briefpapiere ?Briefpapi Buchen (Bäume) ?
Buch Buches ? Buch
Overstemming Eine zu lange Zeichenkette wird
abgeschnitten Wörter mit unterschiedlichen
Bedeutungen werden auf ein und dieselbe Form
reduziert
Themen ? them Themas ? thema schlechtester ?
schlechtest schlechter ? schlecht Absorbieren ?
absorb Apsorption ? absorp
Understemming Eine zu kurze Zeichenkette wird
abgeschnitten. Wörter mit derselben Bedeutung
werden auf unterschiedliche Formen reduziert
5
genau
Übung Porter Stemmer
?
Stemmingprogramme Porter Stemmer Demoprogramm
für die deutsche Sprache
  • Aufgabe
  • Sie erhalten einen Text und ein
    Indexierungsergebnis. Schauen Sie sich das
    Ergebnis an und beantworten Sie folgende Fragen
  • Was hat das Programm gemacht?
  • Was vermuten Sie, wie funktioniert das?
  • Hätte ein Nutzer das Dokument bekommen, wenn er
    recherchiert hätte
  • Informationswirtin
  • Kundschaft AND Industrie

6
genau
Porter Stemmer - Funktionsweise
?
  • Abtrennung von Endungen (keine Präfixe,
    Zirkumfixe, Infixe)
  • basiert auf statistischen Erkenntnissen über
    Wortendungen und ihre Funktion / kein wirkliches
    morphologisches Wissen hinterlegt
  • trunkiere alles, was länger als x Buchstaben
    ist, wenn ..
  • iteratives (schrittweises) Vorgehen in Form der
    Abarbeitung aufeinanderfolgender Regeln
  • basiert auf Erfahrungswissen

7
genau
Porter Stemmer Elemente des Codes
?
  • C, V, (CKonsonant VVokal)
  • Zeichenfolgenlänge
  • - Abfolgen von VC werden gezählt, um die
    Zeichenfolgenlänge festzulegen
  • - Gezählt wird immer nur die VC Abfolge, C zu
    Beginn und V zum Ende zählt nicht
  • Oats VC, also m1
  • Tree CV also m0
  • Zusatzbedingungen
  • - S (Stamm endet mit S)
  • - V (Stamm enthält Vokal)
  • Eine einfache Erklärung des Porter-Algorithmus
    liefert der Artikel Porter-Stemmer-Algorithmus
    der Wikipedia http//de.wikipedia.org/wiki/Porter-
    Stemmer-Algorithmus
  • Den Originaltext finden Sie im Lernmodul
    http//www.bui.haw-hamburg.de/pers/ulrike.spree/as
    tep/porter.doc

8
genau
Porter Stemmer Regeln
?
  • Einfache Regelstruktur für die Suffixbearbeitung
  • Identifikation von Endungen (ate, s, ies )
  • Endungen werden abgehängt, wenn der
    übrigbleibender Stamm, bestimmte Bedingungen
    erfüllt
  • Abhängen des Suffix erfolgt nur ab festgelegter
    Wortlänge (VC-Folge)
  • Insgesamt 5 Bearbeitungsschritte
  • Prinzip des longest match

9
genau
Porter Stemmer Beispielregeln
?
Step 1a SSES -gt SS caresses -gt
caress IES -gt I ponies -gt poni
ties -gt ti SS -gt
SS caress -gt caress S -gt
cats -gt cat Step 1b (mgt0) EED -gt E
feed -gt feed agreed
-gt agree (v) ED -gt plastered -gt
plaster bled -gt bled
(v) ING -gt motoring -gt motor
sing -gt sing Wenn die erste
oder zweite Regel zutrifft, wird folgendes
getan AT -gt ATE conflat(ed) -gt
conflate BL -gt BLE troubl(ed) -gt
trouble IZ -gt IZE siz(ed) -gt
size (d and not (L or S or Z))
10
genau
Porter Stemmer Beispielregeln
?
Step 2 (mgt0) ATIONAL -gt ATE
relational -gt relate (mgt0) TIONAL -gt
TION conditional -gt condition
rational -gt
rational (mgt0) ENCI -gt ENCE
valenci -gt valence ... Insgesamt 20
Fälle Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICAL -gt IC
electrical -gt electric Step 4 (mgt1) AL
-gt revival -gt reviv
(mgt1) ANCE -gt allowance
-gt allow (mgt1) ENCE -gt
inference -gt infer The suffixes are now
removed. All that remains is a little tidying
up. Step 5a (mgt1) E -gt
probate -gt probat Step 5b (m gt 1 and
d and L) -gt single letter
controll -gt control
roll -gt roll
11
genau
Porter Stemmer Maßnahmen gegen overstemming
?
Regel (mgt1) ATE ? Suffixe werden nicht
entfernt, wenn der Stamm zu kurz ist. Maß ist m,
also Abfolge VokalConsonant. Es gibt keine
linguistische Grundlage für diese Beobachtung,
sie beruht nur auf Beobachtung.
RELATE ?RELATE DERIVATE ?DERIV m1
m2/mgt1
12
?
Porter Algorithmus als Flussdiagramm
13
?
Porter Algorithmus Beispiel für iteratives
Vorgehen
SSES -gt SS IES -gt SS -gt SS S -gt
  • International ? intern
  • Anwendung von Step 1 ?
  • Step 1 wird nicht angewandt, weil keine der
    Regeln zutrifft
  • Anwendung von Step 2
  • Bedingung (mgt0) ?
  • Ja, denn VCVC
  • Regel (mgt0) ?ational ?ate
  • international ? internate
  • Anwendung von Step 3?
  • Step 3 wird nicht angewandt, da keine der Regeln
    zutrifft
  • Anwendung von Step 4?
  • Regel (mgt1) ?ate ?
  • internate ? intern

(mgt0) ATIONAL -gt ATE (mgt0) TIONAL -gt TION
(mgt1) ATE -gt
14
?
Einschränkungen regebasierter Verfahren
  • Fehler werden in Kauf genommen
  • Tolerierbar, da Sucheingabe nach demselben
    Prinzip gestemmt wird wie der Text
  • Nur sinnvoll, wenn Sprache über in hohem Maße
    regelhafte Wortbildung verfügt
  • Anzahl der Regeln überschaubar ist
  • Ausnahmen begrenzt sind
  • Das System hat kein wirkliches morphologisches
    Verständnis
  • Prefixe werden nicht berücksichtigt
Write a Comment
User Comments (0)
About PowerShow.com