Title: From Bits to Information
1From Bits to Information Maschinelle
Lernverfahren in Information Retrieval und Web
Mining
- Thomas Hofmann
- Department of Computer Science
- Brown University
- (Founder, CEO Chief Scientist,
- RecomMind Inc., Berkeley Rheinbach (!))
In Kollaboration mit David Cohen, CMU Burning
Glass Jan Puzicha, UC Berkeley RecomMind David
Gondek Ioannis Tsochantaridis, Brown University
2Vortragsüberblick
- Einleitung
- Vektorraum-Modell für Textdokumente
- Informationstheoretisches Retrieval Modell
- Probabilistic Latent Semantic Analysis
- Informationssuche und Textkategorisierung
- Hypermedia- Web-Retrieval
- Kollaboratives Filtern
- Ausblick
3- Information Retrieval Probleme
Herausforderungen
3
4Robustes Information Retrieval Jenseits der
keyword-basierten Suche
5Hypermedia Retrieval Linkanalyse und die
Qualität von Informationsquellen
6Dokument-Klassifikation Text Mining
Automatische Klassifikation und Annotation von
Dokumenten
7Kollaboratives Filtern Jenseits der
solipsistischen Suche
8Kollaboratives Filtern Jenseits der
solipsistischen Suche
Multimedia Dokumente
User Community
Datenbank mit Benutzerprofilen
UserID ItemID Rating
10002 451 3
10221 647 4
10245 647 2
12344 801 5
Rating
92. Vektorraum-Modell für Textdokumente
9
10Dokument-Term Matrix
D Dokumentensammlung
W Lexikon/Vokabular
intelligence
Texas Instruments said it has developed the first
32-bit computer chip designed specifically for
artificial intelligence applications ...
Dokument-Term Matrix
11Dokument-Term Matrix (b)
- Typisch
- Zahl der Dokumente ? 1.000.000
- Vokabular ? 100.000
- Spärlichkeit lt 0.1
- Dargestellt ? 1e-8
0
1
0
2
12Vektorraum-Modell
Ähnlichkeit zwischen Dokument und Query
Kosinus des Winkels zwischen Query und
Dokument(en)
- Retrieval Modell
- Dokumente werde gemäß ihrer Ähnlichkeit zur Query
sortiert - Verwendung im SMART System und vielen
kommerziellen Systemen (z.B. Verity)
G. Salton, The SMART Retrieval System
Experiments in Automatic Document Processing,
1971.
13Vektorraum-Modell Diskussion
- Vorteile
- Partielles Matching von Anfragen und Dokumenten
- Ranking gemäß des Ähnlichkeitsmaßes
- Nachteile
- Dimensionalität (curse of dimensionality)
- Spärlichkeit (inneres Produkt ist rauschanfällig)
- Semantik Auftreten von exakt identischen Termen
gefordert, semantische Beziehungen zwischen
Wörtern werden nicht modelliert - Syntaktische/semantische Regularitäten bleiben
unberücksichtigt
143. Informationstheoretisches Retrieval-Modell
14
15Lexikale Semantik Synonymien und Polysemien
- Mehrdeutigkeit von Wörtern (Polysemie)
- Wörter haben oftmals eine Vielzahl von
Bedeutungen und verschiedenartige Gebrauchsformen
(insbesondere für heterogene Datenbestände).
- Semantische Ähnlichkeit (Synonymie)
- Verschiedene Wörter/Terme haben oft die
identische oder sehr ähnliche Bedeutung
(schwächer Wörter aus dem gleichen Themengebiet).
16Dokumente als Informationsquellen
- Ideales Dokument (gedächtnislose)
Informations-quelle
D Dokumentensammlung
W Lexikon/Vokabular
17Das Sprachmodell-Spiel
18Informationsquellen-Modell des Information
Retrievals
- Bayessche Regel Wahrscheinlichkeit der Relevanz
eines Dokuments bzgl. einer Anfrage
A priori Relevanz- Wahrscheinlichkeit
- Wahrscheinlichkeit daß q von d erzeugt wurde
J. Ponte W.B. Croft, A Language Model Approach
to Information Retrieval, SIGIR 1998.
194. Probabilistic Latent Semantic Analysis
19
20Probabilistic Latent Semantic Analysis
- Problemstellung Wie können dokument-spezfische
Sprachmodelle gelernt werden? Datenmangel! - Ansatz pLSA
- Dimensionsreduktionstechnik für
Kontingenztabellen - Faktoranalyse für Zählvariablen (und kategorialen
Variablen) Faktoren ? Konzepten / Themengebieten
T. Hofmann, Probabilistic Latent Semantic
Analysis, UAI 1999. Z. Gilula, M.J. Evans, I.
Guttman, "Latent Class Analysis of Two-Way
Contingency Tables by Bayesian Methods"
Biometrika, 1989.
21pLSA Graphisches Modell
Graphische Darstellung mittels Plates
22pLSA Bottleneck Parametrisierung
Dokumente
Terme
23pLSA Bottleneck Parametrisierung
Latente Konzepte
Dokumente
Terme
24pLSA Positive Matrix-Zerlegung
- Mischverteilung in Matrixnotation
- Randbedingungen (constraints)
- Nicht-negativität aller Matrizen
- Normalisierung gemäß der L1-Norm
- (keine Orthogonalität gefordert!)
T. Hofmannn, Probabilistic Lantent Semantic
Analysis, Uncertainty in Artificial Intelligence
1999. D.D. Lee H.S. Seung, Learning the parts
of objects by non-negative matrix factorization,
Nature, 1999.
25Vergleich SVD
- Singulärwert-Zerlegung, Definition
- orthonormale Spalten
- Diagonal mit Singulärwerten (geordnet)
- Eigenschaften
- Existenz Eindeutigkeit
- Schwellwertbildung über Singulärwerte resultiert
in einer niederdimensionalen Approximation (im
Sinne der Frobenius Norm)
26Expectation-Maximization-Algorithmus
- Maximierung der (temperierten) Log-Likelihood
mittels Expectation-Maximization Iterationen - E-Schritt Posterior-Wahrscheinlichkeiten der
latenten Variablen) - M-Schritt Schätzung der Parameter basierend auf
vervollständigten Statistiken
Wahrsch. daß ein Term w in Dokument d durch
Konzept z erklärt wird
27Beispiel TDT1 News Stories
- TDT1 Dokumentensammlung mit gt16,000
Kurznachrichten (Reuters, CNN, aus den Jahren
1994/95) - Resultate basierend auf einer Zerlegung mit 128
Konzepten - 2 dominante Faktoren für flight und love
(wahrscheinlichsten Wörter)
love
flight
home family like just kids mother life happy frien
ds cnn
film movie music new best hollywood love actor en
tertainment star
plane airport crash flight safety aircraft air pas
senger board airline
space shuttle mission astronauts launch station cr
ew nasa satellite earth
P(wz)
28Beispiel Science Magazine Artikel
- Datensatz mit ca.12K Artikeln aus dem Science
Magazine - Ausgewählte Konzepte eines Modells mit K200
P(wz)
P(wz)
29- 5. Informationssuche Textkategorisierung
29
30Experiments Precison-Recall
4 test collections (each with approx.1000- 3500
docs)
31Experimentelle Auswertung
- Zusammenfassung der quantitativen Auswertung
- Konsistente Verbesserung der Retrieval
Genauigkeit - Relative Verbesserung von 15-45
Average Precision
Relative Gain in Average Prec.
32Textkategorisierung
- Support-Vektor-Maschinen mit semantischen
Kernfunktionen - Standard-Textsammlung Reuters21578 (5
Hauptkategorien), 5 Trainingsdaten mit Labels,
95 Hintergrunddaten
Substantielle Ver-besserungen (ca.25), falls
zusätzliche ungelabelte Daten zur Verfügung stehen
T. Hofmann, An information-geometric approach to
learning the similarity between documents,
Neural Information Processing Systems, 2000.
33Robustes Retrieval in der Praxis
34(No Transcript)
35MedlinePlus Gesundheits-Informationen für
Jedermann
36Amazon Verbesserte Büchersuche
37Amazon Verbesserte Büchersuche
3838
39Hyperlinks in Information Retrieval
- Hyperlinks stellen zusätzliche Autor-Annotationen
zur Verfügung - Hyperlinks repräsentieren (typischerweise) eine
implizite positive Bewertung der referenzierten
Quelle - Web-Graph spiegelt soziale Strukturen wider
(cyber/virtual/Web communities) - Link-Struktur erlaubt eine Einschätzung der
Qualität der Dokumente (page authorithy) - Überwindung von reinem inhaltsbasiertem Retrieval
- Erlaubt (potentiell) die Unterscheidung zwischen
qualitativ hoch- und niederwertigen
Web-Sites/Seiten
40- Random Walk auf Web Graphen
- Fiktiver Surfer hüpft von Webseite zu Webseite
- Zufällige Wahl eines Outlinks in jedem Schritt
- Mit Wahrscheinlichkeit q Teleportation zu einer
zufälligen Seite - PageRank
- numerischer Score für jede Seite
- Aufenthaltswahrscheinlichkeit des Surfers
- Intuition
- Es ist gut viele Inlinks zu haben.
- Es ist nicht gut in einer abgekapselten
Komponente zu sein. - Modellierung
- Homogene Markov-Kette
- PageRank stationäre Verteilung Random Walk
nutzt Ergodizität, alternativ über
Spektralzerlegung (dominanter Eigenvektor)
41HITS (Hyperlink Induced Topic Search)
- HITS (Jon Kleinberg und die Smart Gruppe in IBM)
- Schritt 1 Query-basiertes Retrieval von
Resultaten - Schritt 2 Generierung eines Kontextgraphen
(Links und Backlinks) - Schritt 3 Rescoring Methode mit Hub- und
Authority-Gewichten unter Verwendung der
Adjazenzmatrix des Kontextgraphen - (Lösung Linke/rechte Eigenvektoren (SVD))
Authority- Gewichte
Hub Gewichte
J. Kleinberg, Authoritative Sources in a
Hyperlinked Environment, 1998.
42Semantisches Modell des WWW
- Verstehen des Inhalts
- Probabilistic latent semantic analysis
- Automatische Identifikation von Konzepten und
Themengebieten. - Verstehen der Linkstruktur
- Probabilistisches Graphenmodell prädiktives
Modell für zusätzliche Links basierend auf
vorhandenem Graph - Schätzung der Entropie des Web Graphen (im Sinne
eines stochastischen Prozesses) - Basierend auf Web communities
- Probabilistische Version von HITS
43Latente Web Communities
Web Community dichter bipartiter Teilgraph
Target Knoten
Source Knoten
evtl. identisch
D. Cohen T. Hofmann, The Missing Link A
Probabilistic Models of Document Content and
Hypertext Connecivity, NIPS2001.
44Dekomposition des Web-Graphen
Web Teilgraph
Links gehören zu genau einer Web Community (im
probab. Sinne) Web Seiten können zu mehreren
Communities gehören
45Linking Hyperlinks and Content
- Kombination von pLSA und pHITS (probab. HITS) in
einem gemeinsamen Modell
46Ulysses Webs Space, War, and Genius
(Helden unerwünscht!)
Basismenge generiert via Altavista mit Query
Ulysses
grant 0.019197 s 0.017092 ulysses
0.013781 online 0.006809 war 0.006619 school
0.005966 poetry 0.005762 president
0.005259 civil 0.005065 www.lib.siu.edu/projects/
usgrant/ www.whitehouse.gov/WH/glimpse
/presidents/ug18.html saints.css.edu/gppg.html
page 0.020032 ulysses 0.013361 new 0.010455 web
0.009060 site 0.009009 joyce 0.008430 net
0.007799 teachers 0.007236 information
0.007170 http//www.purchase.edu /Joyce/Ulysses.h
tm http//www.bibliomania.com /Fiction/joyce/ulyss
es http//teachers.net/chatroom
ulysses 0.022082 space 0.015334 page
0.013885 home 0.011904 nasa 0.008915 science
0.007417 solar 0.007143 esa 0.006757 mission
0.006090 ulysses.jpl.nasa.gov/
helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/
T. Hofmann, SIGIR 2000.
476. Kollaboratives Filteren
47
48Vorhersage von Benutzerpräferenzen und -aktionen
Benutzerprofil Dr. Strangelove Three
Colors Blue Fargo Pretty Woman Rating?
Movie?
.
49Kollaboratives Filtern
- Kollaboratives / Soziales Filtern
- Was tun, wenn Merkmalsextraktion problematisch
ist? (Multimedia-Retrieval, e-Commerce, etc.) - Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten
von Interessen zur Verbesserung von Vorhersagen - Verwendung von Benutzerprofildaten (Web logs von
Downloads, Transaktionen, Click-Streams, Ratings)
- Recommender Systeme e-commerce
- Problemformalisierung
- Datenrepräsentation dünn-besetzte Matrix mit
impliziten und/oder expliziten Bewertungen
50Kollaboratives Filtern via pLSA
Diskrete Bewertungsskala, z.B. Votes
(Zahl der Sterne)
z
v
Bewertung v ist unabhängig von der Person u,
gegeben den Zustand der latenten Variable z
y
u
- Jede Person ist durch eine spezifische
W-Verteilung charakterisiert - Analogie zum IR PersonDokument, ItemWort
51pLSA vs. Memory-basierte Techniken
- Standard-Technik Memory-basiert
- Gegeben einen aktiven Benutzer, berechne
Korrelation mit allen Benutzerprofilen in der
Datenbank (e.g., Pearson Koeffizienten) - Transformation der Korrelation in relative
Gewichte - Gewichtete (additive) Vorhersage über alle
Nachbarn - pLSA
- Explizite Dekomposition der Benutzerpräferenzen
Interessen sind inhärent multidimensional ? keine
globale Ähnlichkeitsfunktion zwischen Personen
(es kommt auf die Hinsicht an!) - Probabilistisches Modell erlaubt explizite
Optimierung der gewünschten Kostenfunktion - Data Mining Exploration von Benutzer-Daten,
Auffinden von Interessensgruppen
52EachMovie Datensatz
- EachMovie gt40K Benutzer, gt1.6K Filme, gt2M
Ratings - Experimentelle Auswertung Vergleich mit
Memory-basierten Methoden, leave-one-out
Protokoll - Vorhersagegenauigkeit
53EachMovie Data Set (II)
- Mittlere Absolute Abweichung
- Bewertung der Rangordnung Gewichte fallen
exponentiell mit dem Rang in einer
Empfehlungsliste
54Interessengruppen, Each Movie
55Des-Interessengruppen, Each Movie
567. Ausblick
56
57Zusammenfassung
- Techniken des maschinellen Lernens, insbesondere
Verfahren der Matrix Dekomposition, als
Grundlagentechnologie des Information Retrieval - Zusammenhang zwischen Modellen mit latenten
Variablen und semantischen Datenrepräsentationen - Vielzahl von Anwendungsszenarien von der
Informationssuche und der Kategorisierung bis hin
zur Analyse von Benutzerprofilen - Potentielle real-world Anwendungen
- Robustere und genauere Retrieval- und
Suchmaschinen - Automatische Kategorisierung von Dokumenten
- Recommender Systeme für e-commerce und für
Information Portals
58Laufende Forschungsprojekte
- Intelligente Informationsagenten, fokusiertes
Web-Crawling DARPA-TASK Projekt 2000-2002 - Question-Answering Information Retrieval NSF
-Information Technology Research 2001-2003 - Kategorisierung von Multimedia Dokumenten NSF -
Information Technology Research 2000-2002 - Probabilistische Web-Graph Modelle Internet
Archiv - Generative Modelle zur Kombination von Text und
Bildern NSF pending - Intelligente Mensch-Maschinen Schnittstellen zur
effizienten Informations-Suche, Navigation und
Visualisierung in Vorbereitung - Lernen von Konzept-Hierarchien und Integration
von existierenden Taxonomien RecomMind - Personalisiertes Retrieval Interface Kombination
von Suche und kollaborativem Filtern RecomMind
59The End.
59