Stemming und Lemmatisierung - PowerPoint PPT Presentation

About This Presentation
Title:

Stemming und Lemmatisierung

Description:

Title: Stemming und Lemmatisierung Author: Petra Maier Last modified by: Petra Maier Created Date: 6/6/2001 9:26:34 AM Document presentation format – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 24
Provided by: Petra55
Category:

less

Transcript and Presenter's Notes

Title: Stemming und Lemmatisierung


1
Stemming und Lemmatisierung
  • Orthographische und morphologische Normalisierung
    von Index/Query Termen

2
Motivation
  • Simultane Suche nach allen morphologischen oder
    orthographischen Varianten
  • Verbesserung des Recalls ohne Verschlechterung
    der Precision
  • einfache Lösung Benutzer muss durch Verwendung
    von Trunkierungsoperatoren () oder Disjunktion
    über alle Formen selbst dafür Sorge tragen
  • Problem bei Trunkierung es werden ungewollte
    Fortsetzungen erzeugt auto findet Auto und
    Autos, aber auch automatisch, Autor oder
    Automorphismus usw.

3
Beispiele (Zahlen von AltaVista)
  • grosser Busen 152
  • großer Busen 180
  • große Busen 175
  • grosse Busen 126
  • grossen Busen 277
  • großen Busen 478
  • großem Busen 77
  • grossem Busen 110
  • Disjunktion 2.869
  • neuer Markt 102.117
  • neue Markt 15.058
  • neuen Markt 90.716
  • neuem Markt 404
  • Disjunktion 176.749

4
Vorgehen
  • Führe alle morphologischen oder orthographischen
    Varianten auf eine kanonische Form zurück
  • Stemming kanonische Form ist ein (künstlicher)
    Wortstamm, der durch regelbasiertes Abschneiden
    von Suffixen entsteht, ohne Konsultation eines
    Wörterbuchs. z.B. Museum, Museen-gt muse
  • Lemmatisierung kanonische Form ist die
    Grundform, die in einem (elektronischen)
    Wörterbuch nachgeschlagen wird. Z.B Museum,
    Museen -gt Museum

5
Stopwörter
  • Stopwörter sind Wörter, die in einer
    Dokumentenkollektion so häufig vorkommen, dass es
    keinen Sinn macht nach ihnen zu suchen bzw. sie
    zu indexieren (z.B. der, die, das, ist, ...)
  • Erstellung einer Stopwortliste entweder auf der
    Basis einer Frequenzliste, oder nach
    linguistischen Kriterien Funktionswörter
  • Vorteil der Eliminierung von Stopwörtern Index
    wird wesentlich kleiner
  • Nachteil keine Phrasensuche möglich to be or
    not to be

6
Stemming Algorithmen
  • Bekanntester und verbreitetster Porter Stemmer
  • Entwickelt fürs Englische
  • Idee in verschiedenen Durchgängen werden jeweils
    unterschiedliche Suffixe entfernt (soll Abfolge
    von Flexions- und Derivationssuffixen
    widerspiegeln)
  • Entfernung von Suffixen kann durch Bedingungen an
    den verbleibenden Stamm eingeschränkt werden

7
Porter Stemmer
  • Jedes Wort hat die Form C?(VC)mV?, C ist
    beliebige Folge von Konsonanten, V beliebige
    Folge von Vokalen, 0ltm
  • Jede Regel hat die Form (condition) S1 -gt S2
  • Mögliche Conditions m gt n, S (Stamm endet mit
    s), v (Stamm enthält Vokal), d (Stamm endet
    mit Doppelkonsonant), o (Stamm endet mit cvc)
  • S1 ist ein Suffix des Worts, S2 kann entweder
    leer sein oder ein neues Suffix sein

8
Porter Algorithmus
Step 1a SSES -gt SS
caresses -gt caress IES -gt I
ponies -gt poni
ties -gt ti SS -gt SS
caress -gt caress
S -gt cats -gt
cat Step 1b (mgt0) EED -gt EE
feed -gt feed
agreed -gt agree (v) ED -gt
plastered -gt plaster
bled -gt bled
(v) ING -gt motoring
-gt motor
sing -gt sing
9
Porter Algorithmus
If the second or third of the rules in Step 1b is
successful, the following is done AT -gt ATE
conflat(ed) -gt conflate
BL -gt BLE troubl(ed) -gt
trouble IZ -gt IZE
siz(ed) -gt size (d and not (L or S
or Z)) -gt single letter
hopp(ing) -gt hop
fall(ing) -gt fall
hiss(ing) -gt
hiss fizz(ed)
-gt fizz (m1 and o) -gt E
fail(ing) -gt fail
fil(ing) -gt file Step 1c (v) Y
-gt I happy -gt happi
sky -gt
sky
10
Porter Algorithmus
Step 2 (mgt0) ATIONAL -gt ATE
relational -gt relate (mgt0) TIONAL -gt
TION conditional -gt condition
rational -gt
rational (mgt0) ENCI -gt ENCE
valenci -gt valence (mgt0) ANCI -gt
ANCE hesitanci -gt hesitance
(mgt0) IZER -gt IZE digitizer -gt
digitize (mgt0) ABLI -gt ABLE
conformabli -gt conformable (mgt0) ALLI
-gt AL radicalli -gt radical
(mgt0) ENTLI -gt ENT differentli -gt
different (mgt0) ELI -gt E
vileli - gt vile (mgt0) OUSLI -gt OUS
analogousli -gt analogous (mgt0)
IZATION -gt IZE vietnamization -gt
vietnamize (mgt0) ATION -gt ATE
predication -gt predicate (mgt0) ATOR -gt
ATE operator -gt operate
(mgt0) ALISM -gt AL feudalism -gt
feudal (mgt0) IVENESS -gt IVE
decisiveness -gt decisive (mgt0) FULNESS -gt
FUL hopefulness -gt hopeful
(mgt0) OUSNESS -gt OUS callousness -gt
callous (mgt0) ALITI -gt AL
formaliti -gt formal (mgt0) IVITI -gt
IVE sensitiviti -gt sensitive
(mgt0) BILITI -gt BLE sensibiliti -gt
sensible
11
Porter Algorithmus
Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICITI -gt IC
electriciti -gt electric (mgt0) ICAL -gt
IC electrical -gt electric
(mgt0) FUL -gt hopeful -gt
hope (mgt0) NESS -gt
goodness -gt good Step 4 (mgt1) AL -gt
revival -gt reviv
(mgt1) ANCE -gt allowance -gt
allow (mgt1) ENCE -gt
inference -gt infer (mgt1) ER -gt
airliner -gt airlin (mgt1) IC
-gt gyroscopic -gt
gyroscop (mgt1) ABLE -gt
adjustable -gt adjust (mgt1) IBLE -gt
defensible -gt defens (mgt1)
ANT -gt irritant -gt
irrit (mgt1) EMENT -gt
replacement -gt replac (mgt1) MENT -gt
adjustment -gt adjust (mgt1)
ENT -gt dependent -gt
depend (mgt1 and (S or T)) ION -gt
adoption -gt adopt (mgt1) OU -gt
homologou -gt homolog (mgt1)
ISM -gt communism -gt
commun (mgt1) ATE -gt
activate -gt activ (mgt1) ITI -gt
angulariti -gt angular (mgt1)
OUS -gt homologous -gt
homolog (mgt1) IVE -gt
effective -gt effect (mgt1) IZE -gt
bowdlerize -gt bowdler
12
Porter Algorithmus
Step 5a (mgt1) E -gt
probate -gt probat
rate -gt rate (m1 and
not o) E -gt cease -gt
ceas Step 5b (m gt 1 and d and L) -gt
single letter
controll -gt control
roll -gt roll
13
Probleme beim Porter Stemmer
  • Erzeugung nicht existenter Stämme iteration -gt
    iter, general -gt gener. An sich kein Problem, da
    bei der Query derselbe Stamm erzeugt wird.
  • Künstliche Ambiguitäten organization, organ -gt
    organ, policy, police -gt polic, execute,
    executive -gt execut, arm, army -gt arm, usw.
  • Verwandte Formen werden nicht identifiziert
    european/europe, create/creation,
    matrices/matrix, usw.

14
Stemming im Deutschen nicht anwendbar
  • Wortinterne Prozesse, Präfigierung lesen las
    gelesen, Baum Bäume
  • Komposita verhindern sinnvolle Formulierung von
    Constraints Ferienende lesende Ende
  • Zerlegung von Komposita notwendig für wirkliche
    Verbesserung der Suche

15
Beispiel (mit Stopwortelimination)
  • This document will describe marketing strategies
    carried out by U.S. companies for their
    agricultural chemicals, report predictions for
    market share of such chemicals, or report market
    statistics for agrochemicals, pesticide,
    herbicide, fungicide, insecticide, fertilizer,
    predicted sales, market share, stimulate demand
    and price cut, volume of sales
  • market strateg carr compan agricultur chemic
    report predict market share chemic report market
    statist agrochem pesticid harbicid fungicid
    insecticid fertil sale stimul demand price cut
    volum sale

16
Lemmatisierung
  • Reduktion der Wortformen auf ihre Grundform (und
    weitere Information) durch Nachschlagen in einem
    elektronischen Wörterbuch
  • Vollformenlexikon jede Wortform kann direkt im
    Lexikon nachgeschlagen werden
  • Grundformenlexikon Wortform wird durch
    morphologische Regeln auf eine potentielle
    Grundform reduziert, die dann im Lexikon
    nachgeschlagen wird
  • Vollformenlexikon ist aufwendiger hinsichtlich
    Speicherplatz aber effizienter bei der
    Verarbeitung

17
Nachteile von Lemmatisierung
  • Erfordert umfangreiches elektronisches
    Wörterbuch, aufwendig in der Erstellung und
    Wartung
  • Relativ hohe Anforderungen an Verarbeitungszeit
    oder Speicherplatz
  • Was passiert mit Wortformen, die nicht im Lexikon
    gefunden werden
  • Eigennamen
  • Komposita im Deutschen
  • In der Regel keine Derivationsanalyse

18
Probleme bei der Lemmatisierung im Deutschen
  • Ambiguitäten laden kann lemmatisiert werden zu
    (laden, N, mask), (lade, N, fem), (laden, V),
    geäst kann lemmatisiert werden zu (äsen, V),
    (geäst, N, neut)
  • Was wird als Lemma bei systematischen
    Konversionen angenommen Verbinfinitiv Nomen
    (lachen das Lachen), Partizip Adjektiv
    (gestrichen), Adjektiv Nomen (süchtig der
    Süchtige)
  • Erfassung aller Komposita im Lexikon unmöglich,
    deshalb Kompositazerlegung notwendig

19
Probleme bei der Kompositazerlegung im Deutschen
  • Verschiedene korrekte Zerlegungen Wachstube in
    wachs tube oder wach stube
  • Simplizia können irrtümlich zerlegt werden
    Pomade -gt po made, Proletarier -gt prolet
    arier, Tangente -gt tang ente
  • große Anzahl von Zerlegungsambiguitäten, die
    nicht korrekt sind Aluminiumherstellung kann auf
    12 versch. Arten zerlegt werden, z.B.
    aluminiumherstellung, Alleinerziehende -gt
    alleinerziehende

20
Lemmatisierung und Suchmaschinen
  • Grundformreduktion bei Query- und Index- Termen
  • Query-Expansion um alle anderen Flexionsformen
  • Expansion der Indexterme um alle Flexionsformen

21
Query-Expansion
  • Vorteile
  • Leicht in bestehende Systeme zu integrieren, da
    Index nicht verändert werden muss
  • Keine Vergrößerung des Indexes
  • Expandierte Query kann vom Benutzer nacheditiert
    werden
  • Nachteile
  • Sprache der Query muss bekannt sein
  • Disjunktion kann bei stark flektierenden Sprachen
    zu grossem Performanzverlust führen
  • Problematisch im Zusammenhang mit Phrasensuche
  • Nicht vorhersehbare Interaktion mit dem Ranking

22
Expansion der Indexterme
  • Vorteile
  • Sprache der Query muss nicht bekannt sein,
    Dokumentensprache i.d.R. leicht zu ermitteln
  • Keine Manipulation der Query notwendig
  • Kein Performanzverlust durch aufgeblasene Query
  • Zur Disambiguierung steht der Kontext zur
    Verfügung
  • Nachteile
  • Immense Vergrößerung des Index
  • Wörtliche Suche muss weiterhin möglich sein
    (Eigennamen)
  • Keine Phrasensuche wenn kein Positionsindex
    vorhanden
  • Einbeziehung der expandierten Formen ins Ranking
    unklar

23
Normalisierung von Query- und Index-Termen
  • Nachteile
  • Sprache der Query muss bekannt sein
  • Wörtliche Suche muss weiterhin möglich sein
    (Eigennamen)
  • Keine Phrasensuche wenn kein Positionsindex
    vorhanden
  • Behandlung ambiger Grundformen unklar
  • Vorteile
  • Index wird im schlimmsten Fall doppelt so groß
  • Kein Performanzverlust bei der Suche durch große
    Disjunktionen
  • Fehlertolerant bei Index- und Query-Termen wird
    derselbe Fehler gemacht
Write a Comment
User Comments (0)
About PowerShow.com