Information Retrieval - PowerPoint PPT Presentation

About This Presentation

Title:

Information Retrieval

Description:

Title: Information Retrieval Subject: Information Retrieval im WEB Author: Bj rn Gustavs Keywords: IR, Information Retrieval, Last modified by: Bj rn – PowerPoint PPT presentation

Number of Views:90

Avg rating:3.0/5.0

Slides: 50

Provided by: Bjrn60

Category:

more less

Transcript and Presenter's Notes

Title: Information Retrieval

1
Information Retrieval

IR-Grundlagen von Suchmaschinen im Überblick
Björn Gustavs

2
Was ist IR?

Information Storage and RetrievalDas
systematische Vorgehen, um Daten zu sammeln und
derart zu katalogisieren, dass sie auf Anfrage
wieder aufgefunden und angezeigt werden können.
Für Suchmaschinen ? alle Dokumente im Internet
aufspüren, analysieren und auf Abfrage optimal
wiedergeben

3
Inhalt / Ausblick

Motivation
Einblick Web Traversierung
IR-Probleme
Methoden der Index-Erstellung
Methoden des IR auf dem Index
Zusammenfassung

4
Motivation

Informationsgehalt im Internet
Mai 2003 Anzahl der Seiten gt 6 Milliarden
verdoppelt sich alle 4-8 Monate
rund 40 des Internets verändert sich monatlich
um dieses Potential zu nutzen ?gewünschte Inhalte
effizient gezielt finden
Textinformation rechnergestützt auswerten

5
Dokumentensuche im Web

1. Suchroboter (aka Web robot, wanderer, worm,
walker, spider, knownbot) traversieren das Web
pro Anfrage
Nutzer gibt Suchbegriff an
Roboter durchsucht systematisch das Web nach
Dokumenten
Relevanzberechnung
Rückgabe einer rang-sortieren Liste
Größe des Netzes Wachstum machen diesen Ansatz
praktisch unmöglich

6
Dokumentensuche im Web

2. vorbereiteter Index wird durchsucht
Index ist ein durchsuchbares Archiv mit
Referenzen zu Dokumenten im Web
Suche wird auf dem Index ausgeführt

7
Der Index (1)

Index ist eine Dokumentenrepräsentation
Dokumente durch Inhaltsbeschreibung und
enthaltenen Termen repräsentiert
Terme dienen zu Ermittlung der Relevanz bei
Suchanfragen
Terme können automatisch oder von Spezialisten
erzeugt werden

8
Index-Erzeugung (1)

Seiten sammeln?Analysieren,Aufbereiten?Index
Programme (Robots, Crawler) suchen alle
Webseiten
Ausgehend von einer Anfangsadresse werden alle
URLs in Tiefen- oder Breitensuche verfolgt.
von Menge von Anfangsadressen aus- abhängig von
der Popularität der jeweiligen Seite
Partitionierung des WWW- ausgehend von
Internetnamen oder Landesgrenzen - wird das WWW
rekursiv durchsucht.
Auslesen von Metaangaben (manuell erstellte
Beschreibungen)
Textanalyse
Ermitteln von inhaltsrelevanten Termen zum
Dokument, Häufigkeit

9
Index-Erzeugung (3)-Qualität

Effektivität eines Indexing Systems wird bestimmt
über
Indexing exhaustivity Erfassungsgrad der
Dokumententhemen in den Index- exhaustive alle
Aspekte der Themen erfassen- nonexhaustive
weniger, aber die Kernthemen
Term specificity Grad, zu welchem die Menge
aller vorhandenen nützlichen Dokumente erfasst
werden
allgemeine/umfassende Terme ? viele nützliche
viele unnütze Resultate
genaue Terme ? weniger Resultate, evtl. auch
verpasste gute Ergebnisse

10
IR Qualität (1)

Genannte Parameter haben Auswirkung auf das
Indexierungssystem
Resultierende Retrieval Effiziens über 2
Parameter beschrieben
Recall (Vollständigkeit)
Precision (Trefferquote)

11
IR Qualität (2) - Recall

Recall (Vollständigkeit)Wieviele der relevanten
Dokumente werden erfasst?
Verhältnis der - Anzahl erfasster, relevanter
Dokumente zur - Anzahl relevanter Dokumente

12
IR Qualität (3) - Precision

Precisionwieviele relevante Dokumente werden
erfasst
Verhältnis der - Anzahl erfasster, relevanter
Dokumentezur- Anzahl erfasster Dokumente

13
IR Qualität (2)

Optimal hohe Recall Precision
Aber gehen jeweils auf Kosten des anderen
Effektivität wird gemessen anhand verschiedenen
Precision, bei festen Recall-Werten
Kompromiss

14
Der Index (4)

Suchmaschinen nutzen inverted index
besteht aus
durchsuchbares Wörterbuch, mit allen Wörtern im
Index, enthält
Vorkommen
Verweis auf inverted list des Wortes
inverted list für jedes Wort im Index,
enthält
Verweise auf Dokumente
Häufigkeit des Wortes im Dokument
weitere Optimierungen, z.B. Position/Offset des
Wortes im Dokument

15
Inverted Index, Beispiel
Lexikon inverted index list
16
Index Builder

Index BuilderSortierung, 1. nach Term, dann
nach DocID,

17
Indexierungsmethoden

Automatische Indexierungsmethoden
Single Term Indexierung
Statistische Methoden
Informationstheoretische Methoden
Probabilistische Methoden
Mutli-Term / Phrasen Indexierung
Statistische Methoden
Probabilistische Methoden
Linguistische Methoden

18
Single Term Indexing (1)

Welche Wörter eines Dokumentes in den Index?
alle Worte herauslösen
unwichtige Worte herausfiltern (Stoppwörter,
Füllworte,)
evtl. Rückführung auf Wortstamm
Häufigkeit im Dokument ermitteln

19
Single Term Indexing (2)

pro Dokument wird analysiert
Menge der auftretenden Wörter
deren Häufigkeiten
Ziel hohes Recall
Vorgehensweisen, Wörter zu gewichten
Statistisch
informations-theoretisch
probabilistische

20
Single Term Indexing(3)-statistisch

Statistische Methode
z.B. basiert rein auf Termhäufigkeitwij tfij
log(N / dfj)
tfij Term Frequency, des Terms j im Dokument i
dfj Document Frequency, Häufigkeit des Terms in
allen Dokumenten

21
Single Term Indexing (4)-inf.th.

Informationstheoretische Methode
basiert auf AussageTerm, dessen Vorkommen am
unwahrscheinlichsten ist, birgt meiste
Information
Methode bevorzugt in einzelnen Dokumenten
konzentrierte Terme

22
Single Term Indexing(5)-probal.

Probabilistische Methode
basiert auf Relevanz-Wahrscheinlichkeit
erfordert Training für Berechnungsgrundlage
Benutzer bewerten Relevanz von Suchresultaten
aus Trainingsergebnissen wird Termgewichtung
basierend auf bedingter Wahrscheinlichkeit des
Auftretens eines Terms berechnet

23
Multi-Term/Phrase Indexing (1)

Phrasen verhindern Doppeldeutigkeit einzelner
Wörter ohne Zusammenhang
Term trägt spezifischere Bedeutung
soll Precision erhöhen
Methoden zur Erzeugung von Phrasen für Index
statistisch
probabilistisch
sprachtheoretisch

24
Multi Term Indexing (2) -statistisch

Statistische Methode
Phrase besteht aus Kopf und Zusätzen
Hier muss der Kopf in weiteren Dokumenten
auftretenund weiteren Komponenten im gleichen
Satz
wenn Kombinationen in vielen Dokumenten
auftreten, werden diese gruppiert
(dies erzwingt keine semantische Beziehung
zwischen den Worten), fehleranfällig

25
Multi Term Indexing (3) lingust.

Linguistische Methode
Einsatz von sprachlicher Analyse für Term-
Zusammenhängen(Adjektive, Substantive, Verben)
verbessert statistischen Methoden, Reduktion
falscher Wortzusammenhänge
Einbringen semantischer Faktoren in die
Gruppierung

26
Multi Term Indexing (4) -probabil.

Probabilistische Methode
erzeugt komplexe Indexstrukturen, basierend auf
Abhängigkeiten der Terme
man müsste exponentielle Anzahl von
Term-Kombinationen betrachten
daher kaum Anwendung

27
Information Retrieval

Rückblick auf Indexerzeugung
Auffinden von Dokumenten im Netz
Analyse des Inhaltes
Metainformationen
Textinformationen (Inhalt) auswerten
Kurzbeschreibung erstellen (Terme)
Single- vs. Multi-term Indexing
jetzt RetrievalSuchmechanismen auf dem Index

28
Information Retrieval Modelle

Ein IR-Modell wird beschrieben durch
Repräsentation für Dokumente Abfragen
Strategien zur Bewertung der Relevanz von
Dokumenten bzgl. der Abfrage eines Benutzer
Ranking-Methoden, gewichtete Ordnung der
Resultate
Methoden zum Erhalt von nutzerrelevantem-Feedback
4 Verfahren
Boolesche Verfahren
Statistische Verfahren
Vektorraum Verfahren
Probabilistisches Verfahren
Hybrid Verfahren

29
Boolesches Modell (1)

basiert auf Mengenlehre und boolescher
Algebrabekannteste Verfahren, oft von IR
Systemen genutzt
Abfragen werden gebildet durch Terme, verbunden
durch logische Operatoren
Term aus Query im Dokument enthalten?
Dokument ist Treffer, wenn boolesche Auswertung
der Query wahr ist

30
Boolesches Modell (2)-Beispiel
DocID Term A Term B Term C Term D
1 ? ?
2 ? ?
3 ? ?
4 ?
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
31
Boolesches Verfahren (3)

Vorteile
leicht implementierbar
effizient in Anwendung (Computer DB)
Nachteile
nicht triviale Queries schwierig zu formulieren
Ganz oder gar nicht
keine Gewichtung ? keine Reihenfolge

32
Boolesches Verfahren,erweitert (3)

Smart Boolean
Anwender gibt sprachliche Frage ein, wird dann
automatisch in ein boolesches Konstrukt
umgewandelt
Techniken, um Abfragen einzuschränken zu
erweitern

33
Boolesches Verfahren,erweitert (4)

Fuzzy-Mengen Modell
Ziel Boolesche Strenge aufweichen Ranking
Fuzzytheorie
auch Dokumente als Resultat, die wenn Query nur
teilweise WAHR ist
Ergebnisstufen zwischen 0 und 1 ? Aufweichung des
GoG
Stufe beschreibt, wie stark Term dem Query
entspricht

34
Vektorraumverfahren (1)

Wurde in den 60ern in Havard im Laufe des
Smart-Projektes entwickelt und in den 80ern
überarbeitet
Dokumente Abfragen als Vektoren in einem
mehrdimensionalen Vektorraum aufgefasst
Dimensionen sind die Terme des Dokumentenindexes
Vektoren enthalten Gewichte aller Terme
Terme in Query können gewichtet werden

35
Vektorraumverfahren (2)
Jedes Dokument wird anhand des Auftretens
Gewichtung der Suchterme im Dokument, durch einen
Vektor repräsentiert. Nähe zum Query-Vektor
bestimmt Suchresultat -Reihenfolge.
Term1

Dokument 1

Query
Dokument 2
Term2
Dokument 3
Term3
36
Vektorraumverfahren (3)

im Smart-Projekt wurden heuristische Formeln
zur Berechnung von Gewichten für die Indexierung
entwickelt? verbesserte Suchergebnisse
Trefferberechnung Vergleich von Dokumenten-
Query-Vektoren
Vergleich z.B. cosinus-basiert

37
Vektorraumverfahren (4)

Vorteile
Relevanzabstufungen möglich (durch
Termgewichtungen)
Sortierung nach Ähnlichkeitsgrad möglich ?Rang
Nachteile
es wird vorausgesetzt, dass Therme wechselseitig
unabhängig sind

38
Hybrid-Modell (extended boolean)

Verbindung des Booleschen Modells mit dem
Vektormodell, für freie Gewichtung
Idee
Nutzer kann boolesche Anfrage stellen
zusätzlicher Parameter steuert die
Interpretation wie strikt AND,OR ausgewertet
werden
von 2 bis unendlich
2 ? keine Unterscheidung zwischen AND,OR
unendlich ? binäres Ranking (Treffer, nicht
Treffer)
beste Werte, empirische Untersuchungen 2 lt p lt
5

39
Probabilistisches Verfahren (1)

Berechnung der Wahrscheinlichkeit, dass Dokument
relevant ist
Training erforderlich
Berechnung stützt sich auf Parameter
Wahrscheinlichkeit der Relevanz UND
Irrelevanz eines Dokumentes auf die Query
Kostenparameter. Verlust bei
Auffinden eines irrelevanten Dokumentes
Nichtauffinden eines relevanten Dokumentes

40
Probabilistisches Verfahren (2)

Vorteile
Gefundene Dokumente werden nach
Wahrscheinlichkeit ihrer Relevanz sortiert
Nachteil
ist so gut, wie die Wahrscheinlichkeitsberechnung
eingepegelt ist (Training)
Häufigkeit eines Terms im Dokument ist irrelevant

41
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte
Ergebnisse, aber verbreitet.
42
Relevanz der Ergebnisse

alle relevanten Dokumente gefunden? Ranking
hilfreich?
Relevanz-Feedback vom Anwender gewünscht
Anwender bewertet Dokument des Suchergebnisses
2-Level brauchbar nicht brauchbar
Multi-Level Zwischenstufen im Bezug zu anderen
Dokumenten (weniger relevant als)

43
Relevanz-Feedback-Nutzung

1. Query anpassen
Gewichtungen der Query verändern (Termgewichte
des Queryvektors)
Query Erweiterung (Hinzufügen von Termen)
Query Splitting

44
Relevanz-Feedback-Nutzung (2)

2. Index verändern
Index manipulieren (Gewichtungen im Index)

45
Relevanz-Feedback (4)

kein Suchdienst bietet heute Relevanz-Feedback
Techniken!
Gefahren?

46
Zusammenfassung

Rückblick
versch. Methoden zur Bestimmung der Relevanz von
Query zu indexierten Dokumenten
damit verbunden, Ranking-Verfahren
Hilfe vom Benutzer wünschenswert

47
IR und das WWW

IR viele Einsatzfelder
Besonderheiten im Web
riesige Datenmengen, dunkle Bereiche im Web
(500x sichtbares Web) , wachsend)
oft nicht-statische Seiten (generierte Seiten,
DB)
Dynamik (verdoppelt sich alle 4-8 Monate)? tote
Links
Sprachenvielfalt
Duplikate
hohe Verlinkung (8Links/Seite) ?
Indexierungsaufwand
Benutzerverhalten kennen (Geschwindigkeit,
Ergebnisseiten)

Noch Fragen ?

49
Literaturangaben

Venkat N. Gudivada, Vijay V. Raghavan, William I.
Grosky, Rajesh Kasanagottu. Information
Retrieval on the World Wide Web. IEEE Internet
Computing. September-October 1997 (Vol. 1, No.
5). pp. 58-68
Mei Kobayashi, Koichi Takeda. Information
Retrieval on the Web. ACM Computing Surveys, Vol.
32, No. 2, June 2000. pp 144-173.
IR und das Web, Interuniversitäres Seminar 2001,
Martin Waldburger, PDF
Building Fast Search Engines, Hugh E. Williams,
http//www.hughwilliams.com/t1.pdf
Datamining im WWW,Knowledge Discovery im
Internet, Johann Zehentner, Ausarbeitung 2000