Multilinguales Information Retrieval

1 / 42

About This Presentation

Title:

Multilinguales Information Retrieval

Description:

Multilinguales Information Retrieval Ruprecht-Karls-Universit t Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva –

Number of Views:161

Avg rating:3.0/5.0

Slides: 43

Provided by: AnaK5

Category:

more less

Transcript and Presenter's Notes

Title: Multilinguales Information Retrieval

1
Multilinguales Information Retrieval

Ruprecht-Karls-Universität Heidelberg
HS Information Retrieval WS 01/02
Ana Kovatcheva

2
Inhalt

Was versteht man unter MLIR
Einige Abkürzungen und Definitionen
Anwendungsgebiete und Szenarien
Der Anfang
Die Basis-Konzepte
Einige wichtige Projekte
Resümee
Literaturangaben

3
Was versteht man unter MLIR ?

Retrieval von Dokumenten, bei dem sich die
Sprache der Anfrage (Query) von der Sprache der
Dokumenten unterscheidet.
Dabei geht es immer um natürliche Sprachen und um
die ursprüngliche Form der Texte im
Dokumentenpool.

4
Was ist MLIR nicht ?

Multilinguales Information Retrieval darf man
nicht mit Suchmaschinen verwechseln, die eine
mehrsprachige Eingabe erlauben und nur Texte in
der Suchanfragesprache liefern.
Dabei handelt es sich um monolinguale Systeme,
die mit verschiedenen Dokumenten-Pools arbeiten.

5
Abkürzungen Definitionen

MLIR MultiLingual Information Retrieval
CLIR Cross-Language Information Retrieval
TIR Translingual Information Retrieval
MT Machine Translation
ML Machine Learning
HMM Hidden Markov Modelling

6
Abkürzungen Definitionen (II)

VSM Vector Space Model
GVSM - Generalized Vector Space Model
PRF Pseudo Relevance Feedback
EBT Example-Based Term Substitution
LSI Latent Semantic Indexing
SVD Singular Value Decomposition
TREC Text Retrieval Conference

7
Anwendungsgebiete

Dokumentenpool mit verschiedenen Dokumenten in
verschiedenen Sprachen
Pool mit identischen Dokumenten in mehreren
Sprachen
Beispiele für Variationen
Technische Dokumentation, in der oft englischer
Jargon verwendet wird
Wissenschaftliche Arbeiten mit Beispielen in
anderen Sprachen

8
Anwendungsszenarien

Der Benutzer besitzt nur Lesekenntnisse
beherrscht die Sprache nur passiv, ist aber im
Stande Gebrauch von den Texten zu machen
Der User beherrscht die Sprache nicht
Recherche in Bilder- oder Musik-Datenpools
Recherche nach Personen, Institutionen,
Forschungsgebiete
Vorauswahl von Dokumenten, die an einem
Übersetzer weitergeleitet werden

9
Der Anfang

1964 IRRD (International Road Research
Documentation)
1969 SMART Gerhard Salton at Cornell
Vector Space Ranked Text Retrieval System
Übersetzung von einem Teil der Wörter in einer
existierenden Konzept-Liste ins Deutsche
Salton stellt fest
Die CLIR-Effektivität variiert in verschiedenen
Dokumentenpools
CLIR ist fast so effektiv, wie monolinguales IR
Es ist wichtig , vollständigere Thesauri zu
entwickeln

10
Der Anfang (II)

1970 Pevzner das russische System PNP-2
exact match controlled vacabulary text retrieval
system
1971 Verlangen nach einem Standart für
Entwicklung von multilingualen Thesauri
1971 Beginn der Entwicklung im Auftrag von UNESCO
1973-1976 Spezifikation bei ISO
1978 ISO 5964 in USA
1982 GOST 7.24-80 in Russland

11
Der Anfang (III)

Beispiel für IS0 5964
EUROVOC Thesaurus in allen neun Sprachen der EU
plus einige andere
Sehr kostenintensiv, deckt nur einige Domänen
1975 Bollmann und Konrad
die ersten Techniken zum Generieren von
multilingualen Thesauri von monolingualen
1988 Kitano (NEC) generiert einen
Japanisch-Deutsch Thesaurus mit einem dafür
entwickelten Prozessor
ISSP Intelligent String Search Processor

12
Schlüsselfaktoren bei der Entwicklung

Bei den Evaluierungen der ersten CLIR-Systemen,
spielte folgendes eine große Rolle
Kosten - Thesauri-Entwicklung ist
teuerdomäneabhängige Theasari sind nicht
skalierbar
Der Nutzenfaktor bei unerfahrenen Benutzern ist
sehr gering - paraphrase problem
Daher ist Die Effektivität auch gering
Eins, der größten Problemeeinzelne Terme in
einer Sprache entsprechen komplexen booleschen
Ausdrücken in einer anderen.

13
Die Basiskonzepte

Grobe Unterteilung zwischen
MT-orientierte CLIR Systemen
Übersetzt werden entweder die Queries, oder
Die Dokumente
CLIR Systemen, die multilinguale Thesauri
verwenden
Systeme, die auf gesteuerten Vokabularen basieren
(controlled vocabulary)
Konzeptbasiertes CLIR
Korpus-orientierte CLIR Systemen
VSM, ML, HMM, LSI

14
MT-Methoden in CLIR

Gebraucht wird ein vollautomatisches MT-System,
das entweder das Query (q) oder das Dokument (d)
in einen einsprachigen Repräsentationsraum (D)
liefert.
Wissenschaftlicher Streit manche Forscher
behaupten, dass MT-basiertes CLIR eigentlich auf
monolinguales IR reduziert ist.

15
MT Pro- und Contraargumente

Genauigkeit der Übersetzung
Queries sind oft einzelne Wörter ohne
Kontextd.h sie können nie richtig übersetzt
werden
Maschinelle Übersetzung von Dokumenten ist
akkurater angesichts der Menge der Information
Genauigkeit des Retrieval
MT von Dokumenten gt MT von Queries
In der Praxis ist MT unmöglich für offene Domänen
MT ist ressourcenhungrig
Das Reindizieren ist sehr aufwändig

16
Multilinguale Thesauri

Ein multilinguales Thesaurus ist in dem Sinne ein
Werkzeug, was organisiertes Wissen beinhaltet
eine spezialisierte Ontologie, die mehrsprachige
Terminologie organisiert.
Zum Beispiel
Computerlinguistische Lexika mit syntaktischer
und semantischer Information, aber auch
Simple bilinguale Listen, die exakte
Übersetzungen von Termen enthalten

17
Multilinguale Thesauri (II)

Zwei Arten der Benutzung
Manuell bei s.g gesteuerten Vokabulare wird
jedes Konzept mit einer eindeutigen Beschreibung
versehen
Automatisch wenn, die im Thesaurus kodierten
Relationen, voll automatisch benutzt werden, wird
die Technik Concept Retrieval genannt

18
Gesteuerte Vokabulare

Nachteile
Sehr teuer, da in so einem System jedem Dokument
händisch die zugehörigen Konzepte zugewiesen
werden müssen.
Controlled Vocabulary Systems werden nur in
beschränkten Domänen benutzt.
Schwer skalierbar
Schwer zu bedienen für unerfahrene Benutzer
Vorteile
Sehr produktiv z.B in Bibliotheken, bei sich gut
auskennenden Usern

19
Konzept Retrieval

Einfache Möglichkeit
Concept SubstitutionMit Hilfe einer
Konzeptliste ersetzt man die einzelnen Terme mit
den zugehörigen Konzeptklassen
Komplizierter und effektiver
Query Expansionman benutzt die
Konzeptrelationen im Thesaurus. Um den Query zu
erweitern

20
Korpusbasierte Techniken

Die Alternative zu der Benutzung von Thesauri
ist, dass man direkt statistische Information
über die Terme gewinnt, indem man parallele
Korpora benutzt.
Zur Erinnerung
Inverse Dokument-Frequenz
Term-Frequenz und inverse Dokument-Frequenz

21
Korpusbasierte Techniken (II)

Zwei Techniken für Automatisches Generieren von
Korpora
Lin and Chen an der University of Arizona
Benutzen ML für die Konstruktion eines
Chinesisch-Englischen Thesaurus mit Hilfe von
Neuronalen Netzen
Entwickelt von van der Eijk von DEC
1000 dänisch-englische Satzpaare
Identifizierung von Nominalphrasen mit Hilfe von
einem einfachen Parser und einen POS-Tagger
Ausrechnen von Wahrscheinlichkeiten für jedes
Term und seinen potentiellen Übersetzungen

22
Term Vector Translation

Es geht im wesentlichen um Techniken, die Sätze
von tfidf Termgewichtungen vergleichen
Relevance Feedback (RF)
Pseudo Relevance Feedback (PRF)
Vector Space Model (VSM)
Generalized Vector Space Model (GVSM)
Latent Semantic Indexing (LSI)
All diese Techniken sind Varianten von dem VSM
von Salton

23
Pseudo Relevance Feedback

RF ist im wesentlichen Query Expansion
Der User spielt Juror bei ihm liegt die
Entscheidung, ob ein Dokument relevant ist oder
nicht. Die Entscheidungen werden für die Query
Expansion benutzt und dienen der weiteren Suche.
Pseudo Relevance Feedback
Ein Teil der (best-rangierten)Dokumente, wird als
relevant vorbestimmt und automatisch (ohne
Nachfrage beim Benutzer) für das weitere Suchen
benutzt.

24
PRF für CLIR

Die Adaption von PRF für MLIR ist relativ
einfach, wenn ein bilinguales Korpus vorhanden
ist
Die einzelnen Schritte
Finden der top-ranking Dokumente für eine Anfrage
in der Ausgangssprache
Substituieren der entsprechenden Dokumente
in der Zielsprache
Benutzen dieser Dokumente, um das entsprechende
Query in der Zielsprache zu formulieren

25
Generalized Vector Space Model

GVSM vs. VSM
Kritik an VSM Benutzung von Termen als
orthogonale Basis für den Vektorraum Terme sind
nicht immer semantisch unabhängig.
Die Grundidee bei GVSM ist die Benutzung von
Dokumenten, anstatt Terme, als Basis für die
Repräsentation der Terme.

26
GVSM monolingual

Die Dokumentenmatrix m - Größe des
K.
ist das Trainingkorpus n -
Zahl der Dok.
Die Dokumente sind die Spalten
Die Terme sind die Zeilen
Jeder Zeilen-Vektor repräsentiert die Häufigkeit
mit der ein Term im Korpus auftaucht
Das Retrieval für GVSM ist definiert als

27
GVSM multilingual

Bilinguales Training-Korpus - zwei Matrizen
A ist die Matrix für die Ausgangssprache
B ist die Matrix für die Zielsprache
Die aufeinanderzeigende Kolumnen in den Matrizen
bilden die Dokumentpaare
A wird für Query-Transformation und
B für die Zielsprache-Dokument-Transformation
Das Retrieval für MLGVSM ist definiert als

28
Latent Semantic Indexing

Motivation
weder Terme noch Dokumente sind optimal für die
Bildung des semantischen Raums
Standartmethoden scheitern bei relevanten
Dokumenten, die keine, in die Query eingegebene
Wörter enthalten, auch wenn der Kontext relevant
ist
Wörter werden nicht voneinander unabhängig und
zufällig verwendet sie stehen in impliziten
Abhängigkeiten (latent semantics) zueinander

29
LSI (II)

Behauptung Term-zu-Term Relationen können
automatisch modelliert werden
Sehr sinnvoll für CLIR, da bei verschieden
Sprachen direktes term matching nicht möglich
ist
LSI untersucht die Ähnlichkeit der Kontexte und
kreiert eine Repräsentation, in der Wörter, die
im selben Kontext auftauchen, nahe beieinander
liegen. (ein sinnvoll reduzierter Vektorraum)

30
LSI (II)

LSI funktioniert rein numerisch
Es werden keine
Externe Thesauri
Dictionaries, oder
Wissen gebraucht
Verwendet wird ein Verfahren der linearen Algebra
Singular-Value-Decomposition (SVD)

31
Kurzer Ausflug in SVD

Die Methode der SVD kommt aus der linearen
Algebra und ist mit der Eigenvektor Decomposition
verwandt
SVD wird in der digitalen Signalverarbeitung
eingesetzt um signifikante, oft sinusförmige
Signalanteile, in einem verrauschten
Eingangssignal zu finden, oder um die komplexität
digitaler Filter zu reduzieren.
Bei LSI trifft beides zu

32
Translingual LSI

ist die Matrix der bilingualen
Dokumentenpaare
A und B sind definiert wie bei GVSM
sind die
Matrizen des SVD
Das Retrieval für LSI ist definiert als

33
Vor- und Nachteile von LSI

Vorteile
Berücksichtigung von Kontext und Bedeutung
Anfragen in jeder Länge (auch ein ganzes
Dokument) möglich
Multilingualität ohne Übersetzung
Nachteile
Probleme mit Mehrdeutigkeiten (Polysemen)
Zu aufwendig für grössere Dokumentenpools, daher
nur für eingeschrenkte Domänen (Mengen) anwendbar

34
Evaluierung

Die Evaluierungsdaten sind von dem Paper
Translingual Information Retrieval A
Comparative Evaluation, s. Literaturhinweise
UN Multilingual Corpus von dem Linguistic Data
Consortium
2255 Dokumentenpaare (UNICEF Reports)
englische Dokumente und deren spanischen
Übersetzungen
Training- und Testdaten in beiden Sprachen
betragen insgesamt 2 Millionen Wörter

35
Evaluierung (II)

30 Queries auf Englisch
Jede Methode wird trainiert
Alle Tests werden getrennt multilingual und
monolingual durchgeführt
Alle Systeme wurden manuell optimiert
11-Pt. Precision (TREC-Standards)

36
Evaluierungsergebnisse
Site Method Monolingual IR TIR TIR/MIR
CMU Dict Q-tran .4721 SMART .2898 61
CMU EBT Q-tran .4721 SMART .4318 91
CMU PRF Q-exp .4478 .4043 90
CMU GVSM QD-tran .4008 .3804 95
CMU LSI QD-tran .3689 .3093 84
UMASS Corpus-Phrase .20 .1358 68
ETH LSI thes Q-exp .572 .212 40-53
(LSI thes RF) ? ? (68)
XEROX Dict Q-tran .393 .235 60
NMSU Dict Q-tran ? ? 40-50
37
Einige wichtige Projekte in CLIR

MULINEX DFKI Eine Suchmaschine fürs
WWWDeutsch, Englisch, Französisch
ERIC - The Educational Resources Information
Center
Spanische und deutsche Q für englische
Textedie Texte werden nach dem Retrieval
übersetzt
LIRIX - Xerox Research Center Europe (XRCE)
Französische und englische D mit englischen Q
IS-Russia controlled vocabulary System
Russische Dokumente mit englischen Queries
MTIR chinesische Q und englische D (werden ins
Chinesische übersetzt)
MUNDIAL Queries in Englisch und Spanisch
MuST-Multilingual Summarization and Translation
Englische Queries zum Suchen von
indonesische, spanischen, arabischen und
japanischen Dokumente

38
Literatur

Douglas W. Oard, Bonnie J. Dorr. 1996. A Survey
of Multilingual Text Retrieval. University of
Maryland.
Christian Fluhr. 1998. Multilingual Information
Retrieval. In Survey of the State of Natural
Language Processing, pages 301-305.
Carbonell, Jaime G.Yang, Yiming Frederking,
Robert E. Brown, Ralf D. Geng, Yibing Lee,
Danny. Translingual Information Retrieval A
Comparative Evaluation. Language Technologies
Institute, Carnegie Mellon University.
Gregor Erbach, Günter Neumann, Hans Uskoreit.
MULINEX, Multilingual Indexing, Navigation and
Editing Extensions for the World-Wide-Web.
Project Note. DFKI GmbH
Michael L. Littman, Susan T. Dumais, Thomas K.
Landauer. 1996. Automatic Cross-Language
Information Retrieval usin Latent Semantic
Indexing

39
Literatur (II)

Evans, D.A., Handerson, S.K., Monarch, I.A.,
Pereiro, J., Delon, L., Hersch, W.R 1998.-
Mapping Vocabularies Using Latenet Semantic
Indexing. In Grefenstette G. Cross-language
Information Retrieval, Kluwer Academic
Publishers, Boston, Dordrecht, London, pp. 51-52
Ralf D. Brown. Automatically-Extracted Thesauri
for Croll-Language IR When Better is Worse.
Language Technology Institute. Carnegie Mellon
University.
Frederic C. Gey and Hailing Jiang. Englich-German
Cross-Language Retrieval for the GIRT Collection
Exploiting a Multilingual Thesaurus. (UC DATA),
University of California, Berkley.
Martin Franz, J Scott McCarley, Salim Roukos.
1999. Ad hoc and Multilingual Information
Retrieval at IBM. IBM T. J. Watson Research
Center.
Jinxi Xu and Ralph Weischedel. 1999. TREC-9
Cross-lingual Retrieval at BBN. BBN Technologies.
Douglas W. Oard. 1997. Serving Users in Many
Languages Cross-Language Information Retrieval
for Digital Libraries. D-Lib Magazine. ISSN
1082-9873

40
Literatur (III)

Martin Braschler, Carol Peters, Peter Schäuble.
CLIR Track Overview. Eurospider Information Tech
AG, Zürich Instituto Elaborazione Informazione
(CNR)Piza
Atsushi Fujii and Tetsuya Ishikawa.
Cross-Language Information Retrieval for Technica
Documents. University of Library and Information
Science, Tsukuba, Japan.
Frederic Gay and Atio Chen. TREC-9 Cross-Language
Information Retrieval (Englich-Chinese) Overview.
University of California, Berkley

41
Online Highlights