From Bits to Information - PowerPoint PPT Presentation

1 / 59
About This Presentation
Title:

From Bits to Information

Description:

From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University – PowerPoint PPT presentation

Number of Views:264
Avg rating:3.0/5.0
Slides: 60
Provided by: csBrownEd2
Category:

less

Transcript and Presenter's Notes

Title: From Bits to Information


1
From Bits to Information Maschinelle
Lernverfahren in Information Retrieval und Web
Mining
  • Thomas Hofmann
  • Department of Computer Science
  • Brown University
  • (Founder, CEO Chief Scientist,
  • RecomMind Inc., Berkeley Rheinbach (!))

In Kollaboration mit David Cohen, CMU Burning
Glass Jan Puzicha, UC Berkeley RecomMind David
Gondek Ioannis Tsochantaridis, Brown University
2
Vortragsüberblick
  1. Einleitung
  2. Vektorraum-Modell für Textdokumente
  3. Informationstheoretisches Retrieval Modell
  4. Probabilistic Latent Semantic Analysis
  5. Informationssuche und Textkategorisierung
  6. Hypermedia- Web-Retrieval
  7. Kollaboratives Filtern
  8. Ausblick

3
  1. Information Retrieval Probleme
    Herausforderungen

3
4
Robustes Information Retrieval Jenseits der
keyword-basierten Suche
5
Hypermedia Retrieval Linkanalyse und die
Qualität von Informationsquellen
6
Dokument-Klassifikation Text Mining
Automatische Klassifikation und Annotation von
Dokumenten
7
Kollaboratives Filtern Jenseits der
solipsistischen Suche
8
Kollaboratives Filtern Jenseits der
solipsistischen Suche
Multimedia Dokumente
User Community
Datenbank mit Benutzerprofilen
UserID ItemID Rating
10002 451 3
10221 647 4
10245 647 2
12344 801 5

Rating
9
2. Vektorraum-Modell für Textdokumente
9
10
Dokument-Term Matrix
D Dokumentensammlung
W Lexikon/Vokabular
intelligence
Texas Instruments said it has developed the first
32-bit computer chip designed specifically for
artificial intelligence applications ...
Dokument-Term Matrix
11
Dokument-Term Matrix (b)
  • Typisch
  • Zahl der Dokumente ? 1.000.000
  • Vokabular ? 100.000
  • Spärlichkeit lt 0.1
  • Dargestellt ? 1e-8

0
1
0
2
12
Vektorraum-Modell
Ähnlichkeit zwischen Dokument und Query
Kosinus des Winkels zwischen Query und
Dokument(en)
  • Retrieval Modell
  • Dokumente werde gemäß ihrer Ähnlichkeit zur Query
    sortiert
  • Verwendung im SMART System und vielen
    kommerziellen Systemen (z.B. Verity)

G. Salton, The SMART Retrieval System
Experiments in Automatic Document Processing,
1971.
13
Vektorraum-Modell Diskussion
  • Vorteile
  • Partielles Matching von Anfragen und Dokumenten
  • Ranking gemäß des Ähnlichkeitsmaßes
  • Nachteile
  • Dimensionalität (curse of dimensionality)
  • Spärlichkeit (inneres Produkt ist rauschanfällig)
  • Semantik Auftreten von exakt identischen Termen
    gefordert, semantische Beziehungen zwischen
    Wörtern werden nicht modelliert
  • Syntaktische/semantische Regularitäten bleiben
    unberücksichtigt

14
3. Informationstheoretisches Retrieval-Modell
14
15
Lexikale Semantik Synonymien und Polysemien
  • Mehrdeutigkeit von Wörtern (Polysemie)
  • Wörter haben oftmals eine Vielzahl von
    Bedeutungen und verschiedenartige Gebrauchsformen
    (insbesondere für heterogene Datenbestände).
  • Semantische Ähnlichkeit (Synonymie)
  • Verschiedene Wörter/Terme haben oft die
    identische oder sehr ähnliche Bedeutung
    (schwächer Wörter aus dem gleichen Themengebiet).

16
Dokumente als Informationsquellen
  • Ideales Dokument (gedächtnislose)
    Informations-quelle

D Dokumentensammlung
W Lexikon/Vokabular
17
Das Sprachmodell-Spiel
18
Informationsquellen-Modell des Information
Retrievals
  • Bayessche Regel Wahrscheinlichkeit der Relevanz
    eines Dokuments bzgl. einer Anfrage

A priori Relevanz- Wahrscheinlichkeit
  • Generatives Query Modell
  • Wahrscheinlichkeit daß q von d erzeugt wurde

J. Ponte W.B. Croft, A Language Model Approach
to Information Retrieval, SIGIR 1998.
19
4. Probabilistic Latent Semantic Analysis
19
20
Probabilistic Latent Semantic Analysis
  • Problemstellung Wie können dokument-spezfische
    Sprachmodelle gelernt werden? Datenmangel!
  • Ansatz pLSA
  • Dimensionsreduktionstechnik für
    Kontingenztabellen
  • Faktoranalyse für Zählvariablen (und kategorialen
    Variablen) Faktoren ? Konzepten / Themengebieten

T. Hofmann, Probabilistic Latent Semantic
Analysis, UAI 1999. Z. Gilula, M.J. Evans, I.
Guttman, "Latent Class Analysis of Two-Way
Contingency Tables by Bayesian Methods"
Biometrika, 1989.
21
pLSA Graphisches Modell
Graphische Darstellung mittels Plates
22
pLSA Bottleneck Parametrisierung
Dokumente
Terme
23
pLSA Bottleneck Parametrisierung
Latente Konzepte
Dokumente
Terme
24
pLSA Positive Matrix-Zerlegung
  • Mischverteilung in Matrixnotation
  • Randbedingungen (constraints)
  • Nicht-negativität aller Matrizen
  • Normalisierung gemäß der L1-Norm
  • (keine Orthogonalität gefordert!)

T. Hofmannn, Probabilistic Lantent Semantic
Analysis, Uncertainty in Artificial Intelligence
1999. D.D. Lee H.S. Seung, Learning the parts
of objects by non-negative matrix factorization,
Nature, 1999.
25
Vergleich SVD
  • Singulärwert-Zerlegung, Definition
  • orthonormale Spalten
  • Diagonal mit Singulärwerten (geordnet)
  • Eigenschaften
  • Existenz Eindeutigkeit
  • Schwellwertbildung über Singulärwerte resultiert
    in einer niederdimensionalen Approximation (im
    Sinne der Frobenius Norm)

26
Expectation-Maximization-Algorithmus
  • Maximierung der (temperierten) Log-Likelihood
    mittels Expectation-Maximization Iterationen
  • E-Schritt Posterior-Wahrscheinlichkeiten der
    latenten Variablen)
  • M-Schritt Schätzung der Parameter basierend auf
    vervollständigten Statistiken

Wahrsch. daß ein Term w in Dokument d durch
Konzept z erklärt wird
27
Beispiel TDT1 News Stories
  • TDT1 Dokumentensammlung mit gt16,000
    Kurznachrichten (Reuters, CNN, aus den Jahren
    1994/95)
  • Resultate basierend auf einer Zerlegung mit 128
    Konzepten
  • 2 dominante Faktoren für flight und love
    (wahrscheinlichsten Wörter)

love
flight
home family like just kids mother life happy frien
ds cnn
film movie music new best hollywood love actor en
tertainment star
plane airport crash flight safety aircraft air pas
senger board airline
space shuttle mission astronauts launch station cr
ew nasa satellite earth
P(wz)
28
Beispiel Science Magazine Artikel
  • Datensatz mit ca.12K Artikeln aus dem Science
    Magazine
  • Ausgewählte Konzepte eines Modells mit K200

P(wz)
P(wz)
29
  • 5. Informationssuche Textkategorisierung

29
30
Experiments Precison-Recall
4 test collections (each with approx.1000- 3500
docs)
31
Experimentelle Auswertung
  • Zusammenfassung der quantitativen Auswertung
  • Konsistente Verbesserung der Retrieval
    Genauigkeit
  • Relative Verbesserung von 15-45

Average Precision
Relative Gain in Average Prec.
32
Textkategorisierung
  • Support-Vektor-Maschinen mit semantischen
    Kernfunktionen
  • Standard-Textsammlung Reuters21578 (5
    Hauptkategorien), 5 Trainingsdaten mit Labels,
    95 Hintergrunddaten

Substantielle Ver-besserungen (ca.25), falls
zusätzliche ungelabelte Daten zur Verfügung stehen
T. Hofmann, An information-geometric approach to
learning the similarity between documents,
Neural Information Processing Systems, 2000.
33
Robustes Retrieval in der Praxis
34
(No Transcript)
35
MedlinePlus Gesundheits-Informationen für
Jedermann
36
Amazon Verbesserte Büchersuche
37
Amazon Verbesserte Büchersuche
38
  • 6. Hypermedia Retrieval

38
39
Hyperlinks in Information Retrieval
  • Hyperlinks stellen zusätzliche Autor-Annotationen
    zur Verfügung
  • Hyperlinks repräsentieren (typischerweise) eine
    implizite positive Bewertung der referenzierten
    Quelle
  • Web-Graph spiegelt soziale Strukturen wider
    (cyber/virtual/Web communities)
  • Link-Struktur erlaubt eine Einschätzung der
    Qualität der Dokumente (page authorithy)
  • Überwindung von reinem inhaltsbasiertem Retrieval
  • Erlaubt (potentiell) die Unterscheidung zwischen
    qualitativ hoch- und niederwertigen
    Web-Sites/Seiten

40
  • Random Walk auf Web Graphen
  • Fiktiver Surfer hüpft von Webseite zu Webseite
  • Zufällige Wahl eines Outlinks in jedem Schritt
  • Mit Wahrscheinlichkeit q Teleportation zu einer
    zufälligen Seite
  • PageRank
  • numerischer Score für jede Seite
  • Aufenthaltswahrscheinlichkeit des Surfers
  • Intuition
  • Es ist gut viele Inlinks zu haben.
  • Es ist nicht gut in einer abgekapselten
    Komponente zu sein.
  • Modellierung
  • Homogene Markov-Kette
  • PageRank stationäre Verteilung Random Walk
    nutzt Ergodizität, alternativ über
    Spektralzerlegung (dominanter Eigenvektor)

41
HITS (Hyperlink Induced Topic Search)
  • HITS (Jon Kleinberg und die Smart Gruppe in IBM)
  • Schritt 1 Query-basiertes Retrieval von
    Resultaten
  • Schritt 2 Generierung eines Kontextgraphen
    (Links und Backlinks)
  • Schritt 3 Rescoring Methode mit Hub- und
    Authority-Gewichten unter Verwendung der
    Adjazenzmatrix des Kontextgraphen
  • (Lösung Linke/rechte Eigenvektoren (SVD))

Authority- Gewichte
Hub Gewichte
J. Kleinberg, Authoritative Sources in a
Hyperlinked Environment, 1998.
42
Semantisches Modell des WWW
  • Verstehen des Inhalts
  • Probabilistic latent semantic analysis
  • Automatische Identifikation von Konzepten und
    Themengebieten.
  • Verstehen der Linkstruktur
  • Probabilistisches Graphenmodell prädiktives
    Modell für zusätzliche Links basierend auf
    vorhandenem Graph
  • Schätzung der Entropie des Web Graphen (im Sinne
    eines stochastischen Prozesses)
  • Basierend auf Web communities
  • Probabilistische Version von HITS

43
Latente Web Communities
Web Community dichter bipartiter Teilgraph
Target Knoten
Source Knoten
evtl. identisch
D. Cohen T. Hofmann, The Missing Link A
Probabilistic Models of Document Content and
Hypertext Connecivity, NIPS2001.
44
Dekomposition des Web-Graphen
Web Teilgraph
Links gehören zu genau einer Web Community (im
probab. Sinne) Web Seiten können zu mehreren
Communities gehören
45
Linking Hyperlinks and Content
  • Kombination von pLSA und pHITS (probab. HITS) in
    einem gemeinsamen Modell

46
Ulysses Webs Space, War, and Genius
(Helden unerwünscht!)
Basismenge generiert via Altavista mit Query
Ulysses
grant 0.019197 s 0.017092 ulysses
0.013781 online 0.006809 war 0.006619 school
0.005966 poetry 0.005762 president
0.005259 civil 0.005065 www.lib.siu.edu/projects/
usgrant/ www.whitehouse.gov/WH/glimpse
/presidents/ug18.html saints.css.edu/gppg.html
page 0.020032 ulysses 0.013361 new 0.010455 web
0.009060 site 0.009009 joyce 0.008430 net
0.007799 teachers 0.007236 information
0.007170 http//www.purchase.edu /Joyce/Ulysses.h
tm http//www.bibliomania.com /Fiction/joyce/ulyss
es http//teachers.net/chatroom
ulysses 0.022082 space 0.015334 page
0.013885 home 0.011904 nasa 0.008915 science
0.007417 solar 0.007143 esa 0.006757 mission
0.006090 ulysses.jpl.nasa.gov/
helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/
T. Hofmann, SIGIR 2000.
47
6. Kollaboratives Filteren
47
48
Vorhersage von Benutzerpräferenzen und -aktionen
Benutzerprofil Dr. Strangelove Three
Colors Blue Fargo Pretty Woman Rating?
Movie?
.
49
Kollaboratives Filtern
  • Kollaboratives / Soziales Filtern
  • Was tun, wenn Merkmalsextraktion problematisch
    ist? (Multimedia-Retrieval, e-Commerce, etc.)
  • Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten
    von Interessen zur Verbesserung von Vorhersagen
  • Verwendung von Benutzerprofildaten (Web logs von
    Downloads, Transaktionen, Click-Streams, Ratings)
  • Recommender Systeme e-commerce
  • Problemformalisierung
  • Datenrepräsentation dünn-besetzte Matrix mit
    impliziten und/oder expliziten Bewertungen

50
Kollaboratives Filtern via pLSA
Diskrete Bewertungsskala, z.B. Votes
(Zahl der Sterne)
z
v
Bewertung v ist unabhängig von der Person u,
gegeben den Zustand der latenten Variable z
y
u
  • Jede Person ist durch eine spezifische
    W-Verteilung charakterisiert
  • Analogie zum IR PersonDokument, ItemWort

51
pLSA vs. Memory-basierte Techniken
  • Standard-Technik Memory-basiert
  • Gegeben einen aktiven Benutzer, berechne
    Korrelation mit allen Benutzerprofilen in der
    Datenbank (e.g., Pearson Koeffizienten)
  • Transformation der Korrelation in relative
    Gewichte
  • Gewichtete (additive) Vorhersage über alle
    Nachbarn
  • pLSA
  • Explizite Dekomposition der Benutzerpräferenzen
    Interessen sind inhärent multidimensional ? keine
    globale Ähnlichkeitsfunktion zwischen Personen
    (es kommt auf die Hinsicht an!)
  • Probabilistisches Modell erlaubt explizite
    Optimierung der gewünschten Kostenfunktion
  • Data Mining Exploration von Benutzer-Daten,
    Auffinden von Interessensgruppen

52
EachMovie Datensatz
  • EachMovie gt40K Benutzer, gt1.6K Filme, gt2M
    Ratings
  • Experimentelle Auswertung Vergleich mit
    Memory-basierten Methoden, leave-one-out
    Protokoll
  • Vorhersagegenauigkeit

53
EachMovie Data Set (II)
  • Mittlere Absolute Abweichung
  • Bewertung der Rangordnung Gewichte fallen
    exponentiell mit dem Rang in einer
    Empfehlungsliste

54
Interessengruppen, Each Movie
55
Des-Interessengruppen, Each Movie
56
7. Ausblick
56
57
Zusammenfassung
  • Techniken des maschinellen Lernens, insbesondere
    Verfahren der Matrix Dekomposition, als
    Grundlagentechnologie des Information Retrieval
  • Zusammenhang zwischen Modellen mit latenten
    Variablen und semantischen Datenrepräsentationen
  • Vielzahl von Anwendungsszenarien von der
    Informationssuche und der Kategorisierung bis hin
    zur Analyse von Benutzerprofilen
  • Potentielle real-world Anwendungen
  • Robustere und genauere Retrieval- und
    Suchmaschinen
  • Automatische Kategorisierung von Dokumenten
  • Recommender Systeme für e-commerce und für
    Information Portals

58
Laufende Forschungsprojekte
  • Intelligente Informationsagenten, fokusiertes
    Web-Crawling DARPA-TASK Projekt 2000-2002
  • Question-Answering Information Retrieval NSF
    -Information Technology Research 2001-2003
  • Kategorisierung von Multimedia Dokumenten NSF -
    Information Technology Research 2000-2002
  • Probabilistische Web-Graph Modelle Internet
    Archiv
  • Generative Modelle zur Kombination von Text und
    Bildern NSF pending
  • Intelligente Mensch-Maschinen Schnittstellen zur
    effizienten Informations-Suche, Navigation und
    Visualisierung in Vorbereitung
  • Lernen von Konzept-Hierarchien und Integration
    von existierenden Taxonomien RecomMind
  • Personalisiertes Retrieval Interface Kombination
    von Suche und kollaborativem Filtern RecomMind

59
The End.
59
Write a Comment
User Comments (0)
About PowerShow.com