Title: Multilinguales Information Retrieval
1Multilinguales Information Retrieval
- Ruprecht-Karls-Universität Heidelberg
- HS Information Retrieval WS 01/02
- Ana Kovatcheva
2Inhalt
- Was versteht man unter MLIR
- Einige Abkürzungen und Definitionen
- Anwendungsgebiete und Szenarien
- Der Anfang
- Die Basis-Konzepte
- Einige wichtige Projekte
- Resümee
- Literaturangaben
3Was versteht man unter MLIR ?
- Retrieval von Dokumenten, bei dem sich die
Sprache der Anfrage (Query) von der Sprache der
Dokumenten unterscheidet. - Dabei geht es immer um natürliche Sprachen und um
die ursprüngliche Form der Texte im
Dokumentenpool. -
4Was ist MLIR nicht ?
- Multilinguales Information Retrieval darf man
nicht mit Suchmaschinen verwechseln, die eine
mehrsprachige Eingabe erlauben und nur Texte in
der Suchanfragesprache liefern. - Dabei handelt es sich um monolinguale Systeme,
die mit verschiedenen Dokumenten-Pools arbeiten.
5Abkürzungen Definitionen
- MLIR MultiLingual Information Retrieval
- CLIR Cross-Language Information Retrieval
- TIR Translingual Information Retrieval
- MT Machine Translation
- ML Machine Learning
- HMM Hidden Markov Modelling
6Abkürzungen Definitionen (II)
- VSM Vector Space Model
- GVSM - Generalized Vector Space Model
- PRF Pseudo Relevance Feedback
- EBT Example-Based Term Substitution
- LSI Latent Semantic Indexing
- SVD Singular Value Decomposition
- TREC Text Retrieval Conference
7Anwendungsgebiete
- Dokumentenpool mit verschiedenen Dokumenten in
verschiedenen Sprachen - Pool mit identischen Dokumenten in mehreren
Sprachen - Beispiele für Variationen
- Technische Dokumentation, in der oft englischer
Jargon verwendet wird - Wissenschaftliche Arbeiten mit Beispielen in
anderen Sprachen
8Anwendungsszenarien
- Der Benutzer besitzt nur Lesekenntnisse
beherrscht die Sprache nur passiv, ist aber im
Stande Gebrauch von den Texten zu machen - Der User beherrscht die Sprache nicht
- Recherche in Bilder- oder Musik-Datenpools
- Recherche nach Personen, Institutionen,
Forschungsgebiete - Vorauswahl von Dokumenten, die an einem
Ãœbersetzer weitergeleitet werden
9Der Anfang
- 1964 IRRD (International Road Research
Documentation) - 1969 SMART Gerhard Salton at Cornell
- Vector Space Ranked Text Retrieval System
- Übersetzung von einem Teil der Wörter in einer
existierenden Konzept-Liste ins Deutsche - Salton stellt fest
- Die CLIR-Effektivität variiert in verschiedenen
Dokumentenpools - CLIR ist fast so effektiv, wie monolinguales IR
- Es ist wichtig , vollständigere Thesauri zu
entwickeln
10Der Anfang (II)
- 1970 Pevzner das russische System PNP-2
- exact match controlled vacabulary text retrieval
system - 1971 Verlangen nach einem Standart für
Entwicklung von multilingualen Thesauri - 1971 Beginn der Entwicklung im Auftrag von UNESCO
- 1973-1976 Spezifikation bei ISO
- 1978 ISO 5964 in USA
- 1982 GOST 7.24-80 in Russland
11Der Anfang (III)
- Beispiel für IS0 5964
- EUROVOC Thesaurus in allen neun Sprachen der EU
plus einige andere - Sehr kostenintensiv, deckt nur einige Domänen
- 1975 Bollmann und Konrad
- die ersten Techniken zum Generieren von
multilingualen Thesauri von monolingualen - 1988 Kitano (NEC) generiert einen
Japanisch-Deutsch Thesaurus mit einem dafür
entwickelten Prozessor - ISSP Intelligent String Search Processor
12Schlüsselfaktoren bei der Entwicklung
- Bei den Evaluierungen der ersten CLIR-Systemen,
spielte folgendes eine große Rolle - Kosten - Thesauri-Entwicklung ist
teuerdomäneabhängige Theasari sind nicht
skalierbar - Der Nutzenfaktor bei unerfahrenen Benutzern ist
sehr gering - paraphrase problem - Daher ist Die Effektivität auch gering
- Eins, der größten Problemeeinzelne Terme in
einer Sprache entsprechen komplexen booleschen
Ausdrücken in einer anderen.
13Die Basiskonzepte
- Grobe Unterteilung zwischen
- MT-orientierte CLIR Systemen
- Ãœbersetzt werden entweder die Queries, oder
- Die Dokumente
- CLIR Systemen, die multilinguale Thesauri
verwenden - Systeme, die auf gesteuerten Vokabularen basieren
(controlled vocabulary) - Konzeptbasiertes CLIR
- Korpus-orientierte CLIR Systemen
- VSM, ML, HMM, LSI
14MT-Methoden in CLIR
- Gebraucht wird ein vollautomatisches MT-System,
das entweder das Query (q) oder das Dokument (d)
in einen einsprachigen Repräsentationsraum (D)
liefert. - Wissenschaftlicher Streit manche Forscher
behaupten, dass MT-basiertes CLIR eigentlich auf
monolinguales IR reduziert ist.
15MT Pro- und Contraargumente
- Genauigkeit der Ãœbersetzung
- Queries sind oft einzelne Wörter ohne
Kontextd.h sie können nie richtig übersetzt
werden - Maschinelle Ãœbersetzung von Dokumenten ist
akkurater angesichts der Menge der Information - Genauigkeit des Retrieval
- MT von Dokumenten gt MT von Queries
- In der Praxis ist MT unmöglich für offene Domänen
- MT ist ressourcenhungrig
- Das Reindizieren ist sehr aufwändig
16Multilinguale Thesauri
- Ein multilinguales Thesaurus ist in dem Sinne ein
Werkzeug, was organisiertes Wissen beinhaltet
eine spezialisierte Ontologie, die mehrsprachige
Terminologie organisiert. - Zum Beispiel
- Computerlinguistische Lexika mit syntaktischer
und semantischer Information, aber auch - Simple bilinguale Listen, die exakte
Ãœbersetzungen von Termen enthalten
17Multilinguale Thesauri (II)
- Zwei Arten der Benutzung
- Manuell bei s.g gesteuerten Vokabulare wird
jedes Konzept mit einer eindeutigen Beschreibung
versehen - Automatisch wenn, die im Thesaurus kodierten
Relationen, voll automatisch benutzt werden, wird
die Technik Concept Retrieval genannt
18Gesteuerte Vokabulare
- Nachteile
- Sehr teuer, da in so einem System jedem Dokument
händisch die zugehörigen Konzepte zugewiesen
werden müssen. - Controlled Vocabulary Systems werden nur in
beschränkten Domänen benutzt. - Schwer skalierbar
- Schwer zu bedienen für unerfahrene Benutzer
- Vorteile
- Sehr produktiv z.B in Bibliotheken, bei sich gut
auskennenden Usern
19Konzept Retrieval
- Einfache Möglichkeit
- Concept SubstitutionMit Hilfe einer
Konzeptliste ersetzt man die einzelnen Terme mit
den zugehörigen Konzeptklassen - Komplizierter und effektiver
- Query Expansionman benutzt die
Konzeptrelationen im Thesaurus. Um den Query zu
erweitern
20Korpusbasierte Techniken
- Die Alternative zu der Benutzung von Thesauri
ist, dass man direkt statistische Information
über die Terme gewinnt, indem man parallele
Korpora benutzt. - Zur Erinnerung
- Inverse Dokument-Frequenz
- Term-Frequenz und inverse Dokument-Frequenz
21Korpusbasierte Techniken (II)
- Zwei Techniken für Automatisches Generieren von
Korpora - Lin and Chen an der University of Arizona
- Benutzen ML für die Konstruktion eines
Chinesisch-Englischen Thesaurus mit Hilfe von
Neuronalen Netzen - Entwickelt von van der Eijk von DEC
- 1000 dänisch-englische Satzpaare
- Identifizierung von Nominalphrasen mit Hilfe von
einem einfachen Parser und einen POS-Tagger - Ausrechnen von Wahrscheinlichkeiten für jedes
Term und seinen potentiellen Ãœbersetzungen
22Term Vector Translation
- Es geht im wesentlichen um Techniken, die Sätze
von tfidf Termgewichtungen vergleichen - Relevance Feedback (RF)
- Pseudo Relevance Feedback (PRF)
- Vector Space Model (VSM)
- Generalized Vector Space Model (GVSM)
- Latent Semantic Indexing (LSI)
- All diese Techniken sind Varianten von dem VSM
von Salton
23Pseudo Relevance Feedback
- RF ist im wesentlichen Query Expansion
- Der User spielt Juror bei ihm liegt die
Entscheidung, ob ein Dokument relevant ist oder
nicht. Die Entscheidungen werden für die Query
Expansion benutzt und dienen der weiteren Suche. - Pseudo Relevance Feedback
- Ein Teil der (best-rangierten)Dokumente, wird als
relevant vorbestimmt und automatisch (ohne
Nachfrage beim Benutzer) für das weitere Suchen
benutzt.
24PRF für CLIR
- Die Adaption von PRF für MLIR ist relativ
einfach, wenn ein bilinguales Korpus vorhanden
ist - Die einzelnen Schritte
- Finden der top-ranking Dokumente für eine Anfrage
in der Ausgangssprache - Substituieren der entsprechenden Dokumente
- in der Zielsprache
- Benutzen dieser Dokumente, um das entsprechende
Query in der Zielsprache zu formulieren
25Generalized Vector Space Model
- GVSM vs. VSM
- Kritik an VSM Benutzung von Termen als
orthogonale Basis für den Vektorraum Terme sind
nicht immer semantisch unabhängig. - Die Grundidee bei GVSM ist die Benutzung von
Dokumenten, anstatt Terme, als Basis für die
Repräsentation der Terme.
26GVSM monolingual
- Die Dokumentenmatrix m - Größe des
K. - ist das Trainingkorpus n -
Zahl der Dok. - Die Dokumente sind die Spalten
- Die Terme sind die Zeilen
- Jeder Zeilen-Vektor repräsentiert die Häufigkeit
mit der ein Term im Korpus auftaucht - Das Retrieval für GVSM ist definiert als
27GVSM multilingual
- Bilinguales Training-Korpus - zwei Matrizen
- A ist die Matrix für die Ausgangssprache
- B ist die Matrix für die Zielsprache
- Die aufeinanderzeigende Kolumnen in den Matrizen
bilden die Dokumentpaare - A wird für Query-Transformation und
- B für die Zielsprache-Dokument-Transformation
- Das Retrieval für MLGVSM ist definiert als
28Latent Semantic Indexing
- Motivation
- weder Terme noch Dokumente sind optimal für die
Bildung des semantischen Raums - Standartmethoden scheitern bei relevanten
Dokumenten, die keine, in die Query eingegebene
Wörter enthalten, auch wenn der Kontext relevant
ist - Wörter werden nicht voneinander unabhängig und
zufällig verwendet sie stehen in impliziten
Abhängigkeiten (latent semantics) zueinander
29LSI (II)
- Behauptung Term-zu-Term Relationen können
automatisch modelliert werden - Sehr sinnvoll für CLIR, da bei verschieden
Sprachen direktes term matching nicht möglich
ist - LSI untersucht die Ähnlichkeit der Kontexte und
kreiert eine Repräsentation, in der Wörter, die
im selben Kontext auftauchen, nahe beieinander
liegen. (ein sinnvoll reduzierter Vektorraum)
30LSI (II)
- LSI funktioniert rein numerisch
- Es werden keine
- Externe Thesauri
- Dictionaries, oder
- Wissen gebraucht
- Verwendet wird ein Verfahren der linearen Algebra
- Singular-Value-Decomposition (SVD)
31Kurzer Ausflug in SVD
- Die Methode der SVD kommt aus der linearen
Algebra und ist mit der Eigenvektor Decomposition
verwandt - SVD wird in der digitalen Signalverarbeitung
eingesetzt um signifikante, oft sinusförmige
Signalanteile, in einem verrauschten
Eingangssignal zu finden, oder um die komplexität
digitaler Filter zu reduzieren. - Bei LSI trifft beides zu
32Translingual LSI
- ist die Matrix der bilingualen
Dokumentenpaare - A und B sind definiert wie bei GVSM
- sind die
Matrizen des SVD - Das Retrieval für LSI ist definiert als
-
33Vor- und Nachteile von LSI
- Vorteile
- Berücksichtigung von Kontext und Bedeutung
- Anfragen in jeder Länge (auch ein ganzes
Dokument) möglich - Multilingualität ohne Übersetzung
- Nachteile
- Probleme mit Mehrdeutigkeiten (Polysemen)
- Zu aufwendig für grössere Dokumentenpools, daher
nur für eingeschrenkte Domänen (Mengen) anwendbar
34Evaluierung
- Die Evaluierungsdaten sind von dem Paper
Translingual Information Retrieval A
Comparative Evaluation, s. Literaturhinweise - UN Multilingual Corpus von dem Linguistic Data
Consortium - 2255 Dokumentenpaare (UNICEF Reports)
- englische Dokumente und deren spanischen
Ãœbersetzungen - Training- und Testdaten in beiden Sprachen
betragen insgesamt 2 Millionen Wörter
35Evaluierung (II)
- 30 Queries auf Englisch
- Jede Methode wird trainiert
- Alle Tests werden getrennt multilingual und
monolingual durchgeführt - Alle Systeme wurden manuell optimiert
- 11-Pt. Precision (TREC-Standards)
36Evaluierungsergebnisse
Site Method Monolingual IR TIR TIR/MIR
CMU Dict Q-tran .4721 SMART .2898 61
CMU EBT Q-tran .4721 SMART .4318 91
CMU PRF Q-exp .4478 .4043 90
CMU GVSM QD-tran .4008 .3804 95
CMU LSI QD-tran .3689 .3093 84
UMASS Corpus-Phrase .20 .1358 68
ETH LSI thes Q-exp .572 .212 40-53
(LSI thes RF) ? ? (68)
XEROX Dict Q-tran .393 .235 60
NMSU Dict Q-tran ? ? 40-50
37Einige wichtige Projekte in CLIR
- MULINEX DFKI Eine Suchmaschine fürs
WWWDeutsch, Englisch, Französisch - ERIC - The Educational Resources Information
Center - Spanische und deutsche Q für englische
Textedie Texte werden nach dem Retrieval
übersetzt - LIRIX - Xerox Research Center Europe (XRCE)
- Französische und englische D mit englischen Q
- IS-Russia controlled vocabulary System
- Russische Dokumente mit englischen Queries
- MTIR chinesische Q und englische D (werden ins
Chinesische übersetzt) - MUNDIAL Queries in Englisch und Spanisch
- MuST-Multilingual Summarization and Translation
- Englische Queries zum Suchen von
indonesische, spanischen, arabischen und
japanischen Dokumente -
38Literatur
- Douglas W. Oard, Bonnie J. Dorr. 1996. A Survey
of Multilingual Text Retrieval. University of
Maryland. - Christian Fluhr. 1998. Multilingual Information
Retrieval. In Survey of the State of Natural
Language Processing, pages 301-305. - Carbonell, Jaime G.Yang, Yiming Frederking,
Robert E. Brown, Ralf D. Geng, Yibing Lee,
Danny. Translingual Information Retrieval A
Comparative Evaluation. Language Technologies
Institute, Carnegie Mellon University. - Gregor Erbach, Günter Neumann, Hans Uskoreit.
MULINEX, Multilingual Indexing, Navigation and
Editing Extensions for the World-Wide-Web.
Project Note. DFKI GmbH - Michael L. Littman, Susan T. Dumais, Thomas K.
Landauer. 1996. Automatic Cross-Language
Information Retrieval usin Latent Semantic
Indexing
39Literatur (II)
- Evans, D.A., Handerson, S.K., Monarch, I.A.,
Pereiro, J., Delon, L., Hersch, W.R 1998.-
Mapping Vocabularies Using Latenet Semantic
Indexing. In Grefenstette G. Cross-language
Information Retrieval, Kluwer Academic
Publishers, Boston, Dordrecht, London, pp. 51-52 - Ralf D. Brown. Automatically-Extracted Thesauri
for Croll-Language IR When Better is Worse.
Language Technology Institute. Carnegie Mellon
University. - Frederic C. Gey and Hailing Jiang. Englich-German
Cross-Language Retrieval for the GIRT Collection
Exploiting a Multilingual Thesaurus. (UC DATA),
University of California, Berkley. - Martin Franz, J Scott McCarley, Salim Roukos.
1999. Ad hoc and Multilingual Information
Retrieval at IBM. IBM T. J. Watson Research
Center. - Jinxi Xu and Ralph Weischedel. 1999. TREC-9
Cross-lingual Retrieval at BBN. BBN Technologies. - Douglas W. Oard. 1997. Serving Users in Many
Languages Cross-Language Information Retrieval
for Digital Libraries. D-Lib Magazine. ISSN
1082-9873
40Literatur (III)
- Martin Braschler, Carol Peters, Peter Schäuble.
CLIR Track Overview. Eurospider Information Tech
AG, Zürich Instituto Elaborazione Informazione
(CNR)Piza - Atsushi Fujii and Tetsuya Ishikawa.
Cross-Language Information Retrieval for Technica
Documents. University of Library and Information
Science, Tsukuba, Japan. - Frederic Gay and Atio Chen. TREC-9 Cross-Language
Information Retrieval (Englich-Chinese) Overview.
University of California, Berkley
41Online Highlights
- http//raven.umd.edu/dlrg/clir/
- Research Ressources in CLIR (Douglas Oard)
- http//citeseer.nj.nec.com
- NEC Research Index in Language Processing (die
beste Quelle für CLIR-Papers) - Die Webseiten der einzelnen Projekte (verlinkt
auf Folie 35)
42... the end ...
- ENDE
- Ana Kovatcheva
- ani_at_kovatcheva.de
- Department of Computational Linguistics
- University of Heidelberg
- January 2002