Title: Stemming und Lemmatisierung
1Stemming und Lemmatisierung
- Orthographische und morphologische Normalisierung
von Index/Query Termen
2Motivation
- Simultane Suche nach allen morphologischen oder
orthographischen Varianten - Verbesserung des Recalls ohne Verschlechterung
der Precision - einfache Lösung Benutzer muss durch Verwendung
von Trunkierungsoperatoren () oder Disjunktion
über alle Formen selbst dafür Sorge tragen - Problem bei Trunkierung es werden ungewollte
Fortsetzungen erzeugt auto findet Auto und
Autos, aber auch automatisch, Autor oder
Automorphismus usw.
3Beispiele (Zahlen von AltaVista)
- grosser Busen 152
- großer Busen 180
- große Busen 175
- grosse Busen 126
- grossen Busen 277
- großen Busen 478
- großem Busen 77
- grossem Busen 110
- Disjunktion 2.869
- neuer Markt 102.117
- neue Markt 15.058
- neuen Markt 90.716
- neuem Markt 404
- Disjunktion 176.749
4Vorgehen
- Führe alle morphologischen oder orthographischen
Varianten auf eine kanonische Form zurück - Stemming kanonische Form ist ein (künstlicher)
Wortstamm, der durch regelbasiertes Abschneiden
von Suffixen entsteht, ohne Konsultation eines
Wörterbuchs. z.B. Museum, Museen-gt muse - Lemmatisierung kanonische Form ist die
Grundform, die in einem (elektronischen)
Wörterbuch nachgeschlagen wird. Z.B Museum,
Museen -gt Museum
5Stopwörter
- Stopwörter sind Wörter, die in einer
Dokumentenkollektion so häufig vorkommen, dass es
keinen Sinn macht nach ihnen zu suchen bzw. sie
zu indexieren (z.B. der, die, das, ist, ...) - Erstellung einer Stopwortliste entweder auf der
Basis einer Frequenzliste, oder nach
linguistischen Kriterien Funktionswörter - Vorteil der Eliminierung von Stopwörtern Index
wird wesentlich kleiner - Nachteil keine Phrasensuche möglich to be or
not to be
6Stemming Algorithmen
- Bekanntester und verbreitetster Porter Stemmer
- Entwickelt fürs Englische
- Idee in verschiedenen Durchgängen werden jeweils
unterschiedliche Suffixe entfernt (soll Abfolge
von Flexions- und Derivationssuffixen
widerspiegeln) - Entfernung von Suffixen kann durch Bedingungen an
den verbleibenden Stamm eingeschränkt werden
7Porter Stemmer
- Jedes Wort hat die Form C?(VC)mV?, C ist
beliebige Folge von Konsonanten, V beliebige
Folge von Vokalen, 0ltm - Jede Regel hat die Form (condition) S1 -gt S2
- Mögliche Conditions m gt n, S (Stamm endet mit
s), v (Stamm enthält Vokal), d (Stamm endet
mit Doppelkonsonant), o (Stamm endet mit cvc) - S1 ist ein Suffix des Worts, S2 kann entweder
leer sein oder ein neues Suffix sein
8Porter Algorithmus
Step 1a SSES -gt SS
caresses -gt caress IES -gt I
ponies -gt poni
ties -gt ti SS -gt SS
caress -gt caress
S -gt cats -gt
cat Step 1b (mgt0) EED -gt EE
feed -gt feed
agreed -gt agree (v) ED -gt
plastered -gt plaster
bled -gt bled
(v) ING -gt motoring
-gt motor
sing -gt sing
9Porter Algorithmus
If the second or third of the rules in Step 1b is
successful, the following is done AT -gt ATE
conflat(ed) -gt conflate
BL -gt BLE troubl(ed) -gt
trouble IZ -gt IZE
siz(ed) -gt size (d and not (L or S
or Z)) -gt single letter
hopp(ing) -gt hop
fall(ing) -gt fall
hiss(ing) -gt
hiss fizz(ed)
-gt fizz (m1 and o) -gt E
fail(ing) -gt fail
fil(ing) -gt file Step 1c (v) Y
-gt I happy -gt happi
sky -gt
sky
10Porter Algorithmus
Step 2 (mgt0) ATIONAL -gt ATE
relational -gt relate (mgt0) TIONAL -gt
TION conditional -gt condition
rational -gt
rational (mgt0) ENCI -gt ENCE
valenci -gt valence (mgt0) ANCI -gt
ANCE hesitanci -gt hesitance
(mgt0) IZER -gt IZE digitizer -gt
digitize (mgt0) ABLI -gt ABLE
conformabli -gt conformable (mgt0) ALLI
-gt AL radicalli -gt radical
(mgt0) ENTLI -gt ENT differentli -gt
different (mgt0) ELI -gt E
vileli - gt vile (mgt0) OUSLI -gt OUS
analogousli -gt analogous (mgt0)
IZATION -gt IZE vietnamization -gt
vietnamize (mgt0) ATION -gt ATE
predication -gt predicate (mgt0) ATOR -gt
ATE operator -gt operate
(mgt0) ALISM -gt AL feudalism -gt
feudal (mgt0) IVENESS -gt IVE
decisiveness -gt decisive (mgt0) FULNESS -gt
FUL hopefulness -gt hopeful
(mgt0) OUSNESS -gt OUS callousness -gt
callous (mgt0) ALITI -gt AL
formaliti -gt formal (mgt0) IVITI -gt
IVE sensitiviti -gt sensitive
(mgt0) BILITI -gt BLE sensibiliti -gt
sensible
11Porter Algorithmus
Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICITI -gt IC
electriciti -gt electric (mgt0) ICAL -gt
IC electrical -gt electric
(mgt0) FUL -gt hopeful -gt
hope (mgt0) NESS -gt
goodness -gt good Step 4 (mgt1) AL -gt
revival -gt reviv
(mgt1) ANCE -gt allowance -gt
allow (mgt1) ENCE -gt
inference -gt infer (mgt1) ER -gt
airliner -gt airlin (mgt1) IC
-gt gyroscopic -gt
gyroscop (mgt1) ABLE -gt
adjustable -gt adjust (mgt1) IBLE -gt
defensible -gt defens (mgt1)
ANT -gt irritant -gt
irrit (mgt1) EMENT -gt
replacement -gt replac (mgt1) MENT -gt
adjustment -gt adjust (mgt1)
ENT -gt dependent -gt
depend (mgt1 and (S or T)) ION -gt
adoption -gt adopt (mgt1) OU -gt
homologou -gt homolog (mgt1)
ISM -gt communism -gt
commun (mgt1) ATE -gt
activate -gt activ (mgt1) ITI -gt
angulariti -gt angular (mgt1)
OUS -gt homologous -gt
homolog (mgt1) IVE -gt
effective -gt effect (mgt1) IZE -gt
bowdlerize -gt bowdler
12Porter Algorithmus
Step 5a (mgt1) E -gt
probate -gt probat
rate -gt rate (m1 and
not o) E -gt cease -gt
ceas Step 5b (m gt 1 and d and L) -gt
single letter
controll -gt control
roll -gt roll
13Probleme beim Porter Stemmer
- Erzeugung nicht existenter Stämme iteration -gt
iter, general -gt gener. An sich kein Problem, da
bei der Query derselbe Stamm erzeugt wird. - Künstliche Ambiguitäten organization, organ -gt
organ, policy, police -gt polic, execute,
executive -gt execut, arm, army -gt arm, usw. - Verwandte Formen werden nicht identifiziert
european/europe, create/creation,
matrices/matrix, usw.
14Stemming im Deutschen nicht anwendbar
- Wortinterne Prozesse, Präfigierung lesen las
gelesen, Baum Bäume - Komposita verhindern sinnvolle Formulierung von
Constraints Ferienende lesende Ende - Zerlegung von Komposita notwendig für wirkliche
Verbesserung der Suche
15Beispiel (mit Stopwortelimination)
- This document will describe marketing strategies
carried out by U.S. companies for their
agricultural chemicals, report predictions for
market share of such chemicals, or report market
statistics for agrochemicals, pesticide,
herbicide, fungicide, insecticide, fertilizer,
predicted sales, market share, stimulate demand
and price cut, volume of sales - market strateg carr compan agricultur chemic
report predict market share chemic report market
statist agrochem pesticid harbicid fungicid
insecticid fertil sale stimul demand price cut
volum sale
16Lemmatisierung
- Reduktion der Wortformen auf ihre Grundform (und
weitere Information) durch Nachschlagen in einem
elektronischen Wörterbuch - Vollformenlexikon jede Wortform kann direkt im
Lexikon nachgeschlagen werden - Grundformenlexikon Wortform wird durch
morphologische Regeln auf eine potentielle
Grundform reduziert, die dann im Lexikon
nachgeschlagen wird - Vollformenlexikon ist aufwendiger hinsichtlich
Speicherplatz aber effizienter bei der
Verarbeitung
17Nachteile von Lemmatisierung
- Erfordert umfangreiches elektronisches
Wörterbuch, aufwendig in der Erstellung und
Wartung - Relativ hohe Anforderungen an Verarbeitungszeit
oder Speicherplatz - Was passiert mit Wortformen, die nicht im Lexikon
gefunden werden - Eigennamen
- Komposita im Deutschen
- In der Regel keine Derivationsanalyse
18Probleme bei der Lemmatisierung im Deutschen
- Ambiguitäten laden kann lemmatisiert werden zu
(laden, N, mask), (lade, N, fem), (laden, V),
geäst kann lemmatisiert werden zu (äsen, V),
(geäst, N, neut) - Was wird als Lemma bei systematischen
Konversionen angenommen Verbinfinitiv Nomen
(lachen das Lachen), Partizip Adjektiv
(gestrichen), Adjektiv Nomen (süchtig der
Süchtige) - Erfassung aller Komposita im Lexikon unmöglich,
deshalb Kompositazerlegung notwendig
19Probleme bei der Kompositazerlegung im Deutschen
- Verschiedene korrekte Zerlegungen Wachstube in
wachs tube oder wach stube - Simplizia können irrtümlich zerlegt werden
Pomade -gt po made, Proletarier -gt prolet
arier, Tangente -gt tang ente - große Anzahl von Zerlegungsambiguitäten, die
nicht korrekt sind Aluminiumherstellung kann auf
12 versch. Arten zerlegt werden, z.B.
aluminiumherstellung, Alleinerziehende -gt
alleinerziehende
20Lemmatisierung und Suchmaschinen
- Grundformreduktion bei Query- und Index- Termen
- Query-Expansion um alle anderen Flexionsformen
- Expansion der Indexterme um alle Flexionsformen
21Query-Expansion
- Vorteile
- Leicht in bestehende Systeme zu integrieren, da
Index nicht verändert werden muss - Keine Vergrößerung des Indexes
- Expandierte Query kann vom Benutzer nacheditiert
werden
- Nachteile
- Sprache der Query muss bekannt sein
- Disjunktion kann bei stark flektierenden Sprachen
zu grossem Performanzverlust führen - Problematisch im Zusammenhang mit Phrasensuche
- Nicht vorhersehbare Interaktion mit dem Ranking
22Expansion der Indexterme
- Vorteile
- Sprache der Query muss nicht bekannt sein,
Dokumentensprache i.d.R. leicht zu ermitteln - Keine Manipulation der Query notwendig
- Kein Performanzverlust durch aufgeblasene Query
- Zur Disambiguierung steht der Kontext zur
Verfügung
- Nachteile
- Immense Vergrößerung des Index
- Wörtliche Suche muss weiterhin möglich sein
(Eigennamen) - Keine Phrasensuche wenn kein Positionsindex
vorhanden - Einbeziehung der expandierten Formen ins Ranking
unklar
23Normalisierung von Query- und Index-Termen
- Nachteile
- Sprache der Query muss bekannt sein
- Wörtliche Suche muss weiterhin möglich sein
(Eigennamen) - Keine Phrasensuche wenn kein Positionsindex
vorhanden - Behandlung ambiger Grundformen unklar
- Vorteile
- Index wird im schlimmsten Fall doppelt so groß
- Kein Performanzverlust bei der Suche durch große
Disjunktionen - Fehlertolerant bei Index- und Query-Termen wird
derselbe Fehler gemacht