Optimierung von Volltextindices - PowerPoint PPT Presentation

About This Presentation
Title:

Optimierung von Volltextindices

Description:

Title: PowerPoint-Pr sentation Author: Jutta Lindenthal Last modified by: Spree Created Date: 10/2/2004 8:42:21 AM Document presentation format: Bildschirmpr sentation – PowerPoint PPT presentation

Number of Views:43
Avg rating:3.0/5.0
Slides: 17
Provided by: Jutta77
Category:

less

Transcript and Presenter's Notes

Title: Optimierung von Volltextindices


1
Optimierung von Volltextindices
Volltextinvertierung Ist das denn wirklich
automatische Indexierung?
Mit welchen Verfahren lassen sich Volltextindices
so verbessern, dass sich Recall und Precision
erhöhen?
Spree SoSe 2011
2
Probleme von Volltextindices
Spree SoSe 2011
3
gliederung
Gliederung
?
  • Informationslinguistik in 5 Minuten
  • Quiz Morphologie
  • Teaser Verbesserung der Volltextindices durch
    regelbasierte Methoden - Stemming

4
informationslinguistik
?
1. Informationslinguistik in 5 Minuten
Welche Wissenschaften beschäftigen sich mit der
Sprache?
  • Theoretische Linguistik Untersuchung der
    Sprache als System
  • Semiotik, die Lehre der (sprachlichen) Zeichen
  • Lexikologie, die Lehre des Wortschatzes einer
    Sprache
  • Grammatik, die Lehre der regelhaften Baumuster
    und Eigenschaften von Sprache
  • Phonologie, die Lehre vom Lautsystem einer
    Sprache
  • Morphologie, der Lehre von den kleinsten
    bedeutungstragenden Elementen einer Sprache
  • Syntax, die Lehre von Form und Struktur von
    Sprache
  • Semantik, die Lehre von Sinn und Bedeutung von
    Sprache
  • Pragmatik, die Lehre von Verwendung und Zweck von
    Sprache
  • Relevanz für Wissensorganisation?
  • Verstehen Menschen Zeichen?
  • Hat grün in Brasilien denselben Bedeutungsumfang
    wie in Deutschland?
  • Automatische Übersetzung
  • Automatische Indexierung
  • Suchmaschine erkennt, wann Ente im Sinne von Auto
    und wann im Sinne von Vogel gesucht wird
  • Eine Luft ist das hier bedeutet mach mal
    Fenster auf

5
autoübersetzung
1. Informationslinguistik in 5 Minuten
?
  • Automatische Übersetzung

Das ist nicht immer so einfach mit der Grammatik
Ein Beispiel aus Babelfish (http//de.babelfish.ya
hoo.com/translate_txt) Wortbestandteile, die zur
Flexion, zur Derivation oder zur Komposition
herangezogen werden, nennt die Linguistik
Morpheme. Sie sind die kleinsten
bedeutungstragenden Einheiten der Sprache. Wird
zu The linguistics of morphemes calls word
components, which are consulted for the
inflection, for the Derivation or for the
composition. They are the smallest
meaning-meaning units of the language.
6
computerlinguistik
1. Informationslinguistik in 5 Minuten Computerlin
guistik
?
  • Computerlinguistik Verwendung von natürlicher
    Sprache am Computer
  • um Sprache im Computer anwenden zu können,
    müssen wir verstehen, wie Sprache funktioniert
  • Durch die Analyse der Sprache entdeckte
    Regelmäßigkeiten werden dann in Computerprogramme
    umgesetzt
  • Computer lösen die sprachlichen Probleme aber
    häufig anders als Menschen. Besonders Ausnahmen
    sind schwierig für Computer zu erkennen.

Kinder ? Kind (Singular) Inder ? Ind (Singular)?
7
morphologie
1. Informationslinguistik in 5 Minuten Morpheme
kleinste bedeutungstragende Einheiten
?
Problem Wie bringe ich einem Programm bei, dass
wenn Informationen zu Mensch gesucht werden,
Dokumente, in denen das Wort Menschen vorkommt,
auch relevant sind?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
Unfreundlichkeit Pferdes der Schwerstarbeit Rosen
Un-freund-lich-keit Pferd-es der Schwer-st-arbeit
Ros-en
8
morpheme
Informationslinguistik in 5 Minuten Morpheme
kleinste bedeutungstragende Einheiten
?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
Unfreundlichkeit Pferdes der Schwerstarbeit Rosen
Un-freund-lich-keit Pferd-es der Schwer-st-arbeit
Ros-en
Welche Funktion haben die Bestandteile
freund pferd ros schwer arbeit
-es -en -der -st
Grammati-kalische Bedeutung
-un -lich -keit
Wort-bildung
Lexikalische Bedeutung
9
morpheme
Morpheme kleinste bedeutungstragende Einheiten
?
Bitte zerlegen Sie die folgenden Wörter in ihre
kleinsten bedeutungstragenden Einheiten
unfriendliness horses the heavier roses
Un-friend-li-ness Hors-es the heav-ier ros-es
Welche Funktion haben die Bestandteile
friend hors ros heav
-es -ier -li
Grammati-kalische Bedeutung
-un -ness
Wort-bildung
Lexikalische Bedeutung
10
flexionsmorphologie
Morpheme Übersicht
?
Eine Teildisziplin der Linguistik, die
Morphologie, untersucht Fragen der Wortbildung
wissenschaftlich. Lesen Sie bitte nach Lernmodul
a-step Morphologische Grundlagen
Tipp in eine guten Sprachwörterbuch lassen sich
die morphologischen Informationen zu einem Wort
nachschauen Wortschatz-Lexikon URL
http//wortschatz.uni-leipzig.de/
11
morphemarten
Morpheme Übersicht
?
12
Morpheme_quiz
Jetzt Sie Quiz Morphologie
?
  • Definieren Sie Morphem.
  • Was ist ein Derivativ?
  • Nennen Sie ein Beispiel für ein lexikalisches
    Morphem.
  • Warum bilden freie Morpheme eine offene Klasse?
  • Handelt es sich bei der Konjugation eines Verbes
    um eine Flexion oder eine Derivation?
  • Nennen Sie ein Beispiel für ein Wort mit einem
    Suffix.
  • In welche Morphemklasse ordnen Sie nur ein?
  • Nennen Sie ein Beispiel für ein Verb mit einem
    Präfix.
  • Nennen Sie ein Beispiel für ein Verb mit einem
    Zirkumfix
  • Was versteht man unter der Grundform eines
    Wortes?
  • Was versteht man unter der Stammform eines
    Wortes?
  • Nennen Sie ein Beispiel für eine Wortkomposition.
  • Nennen Sie zwei Beispiele für Derivationen von
    kaufen.
  • Nennen Sie je ein Beispiel für ein freies Morphem
    und eine gebundenes Morphem
  • Zerlegen Sie Facebookkonten in die kleinsten
    bedeutungstragenden Einheiten (Morpheme) und
    benennen sie die Morphemarten.
  • Zerlegen Sie Geburtstagskuchen in die kleinsten
    bedeutungstragenden Einheiten (Morpheme) und
    benennen sie die Morphemarten.
  • Stichfrage Himbeerkuchen

13
stemming
2. Verbesserung der Volltextinvertierung -
Stemming
?
Durch das Stemming werden die verschiedenen
Wortformen auf eine einheitliche Form
gebracht. Man unterscheidet zwei Wortformen
Grundform Wortform abzüglich aller Flexive
Verkleidungen -gt Verkleidung Girls -gt
girl Stammform Grundform abzüglich aller
Derivative Verkleidung -gt Kleid fishing -gt
fish
Einfache Verfahren zur Optimierung von
Volltextindices arbeiten mit der
Grundformreduktion Vereinheitlichung aller
Indextermini auf die Grundform, seltener mit der
Stammformreduktion Achtung für die Suchanfrage
und für den indexierten Text müssen dieselben
Verfahren eingesetzt werden.
14
Probleme stemming
Probleme des Stemming
?
Overstemming Eine zu lange Zeichenkette wird
abgeschnitten Wörter mit unterschiedlichen
Bedeutungen werden auf ein und dieselbe Form
reduziert
Buchen (Bäume) ? Buch Buches ? Buch
Themen ? them Themas ? thema schlechtester ?
schlechtest schlechter ? schlecht Absorbieren ?
absorb Apsorption ? absorp
Understemming Eine zu kurze Zeichenkette wird
abgeschnitten. Wörter mit derselben Bedeutung
werden auf unterschiedliche Formen reduziert
15
porter
Porter Stemmer
?
Stemmingprogramme Porter Stemmer Demoprogramm
für die deutsche Sprache
16
?
Wer setzt solche Verfahren ein?
Im Hilfetext des Hostes LexisNexis können Sie
Folgendes lesen
  • Plural
  • Die nachfolgenden Beispiele gelten vor allem für
    das Plural-S. Mit diesem Operator können Sie die
    Suche auf Plural- und Possessivformen im Plural
    begrenzen.
  • Wenn Sie den Singular angeben, finden Sie
    Singular, Plural und Genitivformen vieler
    Begriffe.
  • Beispiel city findet city, cities, city's, and
    cities'
  • Das System erfasst jedoch nicht unregelmäßige
    Pluralbildungen, wie es im Englischen
    beispielsweise die Endungen "us" oder "is" sind.
  • Beispiel Mit bonus finden Sie nicht bonuses
  • Beispiel Mit child finden Sie nicht children
  • Hinweis Verwenden Sie für Suchen nach
    unregelmäßigen Pluralformen den Operator ODER
    OR.

Quelle Ausschnitt Hilfetext LexisNexis
(http//www.lexisnexis.com/help/global/globalhelp_
frameset.asp?localede_DElbuDEadaptationbusine
sssPagegh_termssAnchorgeneralfromHelptrue)
Write a Comment
User Comments (0)
About PowerShow.com