Multilinguales Information Retrieval - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Multilinguales Information Retrieval

Description:

Multilinguales Information Retrieval Ruprecht-Karls-Universit t Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva – PowerPoint PPT presentation

Number of Views:154
Avg rating:3.0/5.0
Slides: 43
Provided by: AnaK5
Category:

less

Transcript and Presenter's Notes

Title: Multilinguales Information Retrieval


1
Multilinguales Information Retrieval
  • Ruprecht-Karls-Universität Heidelberg
  • HS Information Retrieval WS 01/02
  • Ana Kovatcheva

2
Inhalt
  • Was versteht man unter MLIR
  • Einige Abkürzungen und Definitionen
  • Anwendungsgebiete und Szenarien
  • Der Anfang
  • Die Basis-Konzepte
  • Einige wichtige Projekte
  • Resümee
  • Literaturangaben

3
Was versteht man unter MLIR ?
  • Retrieval von Dokumenten, bei dem sich die
    Sprache der Anfrage (Query) von der Sprache der
    Dokumenten unterscheidet.
  • Dabei geht es immer um natürliche Sprachen und um
    die ursprüngliche Form der Texte im
    Dokumentenpool.

4
Was ist MLIR nicht ?
  • Multilinguales Information Retrieval darf man
    nicht mit Suchmaschinen verwechseln, die eine
    mehrsprachige Eingabe erlauben und nur Texte in
    der Suchanfragesprache liefern.
  • Dabei handelt es sich um monolinguale Systeme,
    die mit verschiedenen Dokumenten-Pools arbeiten.

5
Abkürzungen Definitionen
  • MLIR MultiLingual Information Retrieval
  • CLIR Cross-Language Information Retrieval
  • TIR Translingual Information Retrieval
  • MT Machine Translation
  • ML Machine Learning
  • HMM Hidden Markov Modelling

6
Abkürzungen Definitionen (II)
  • VSM Vector Space Model
  • GVSM - Generalized Vector Space Model
  • PRF Pseudo Relevance Feedback
  • EBT Example-Based Term Substitution
  • LSI Latent Semantic Indexing
  • SVD Singular Value Decomposition
  • TREC Text Retrieval Conference

7
Anwendungsgebiete
  • Dokumentenpool mit verschiedenen Dokumenten in
    verschiedenen Sprachen
  • Pool mit identischen Dokumenten in mehreren
    Sprachen
  • Beispiele für Variationen
  • Technische Dokumentation, in der oft englischer
    Jargon verwendet wird
  • Wissenschaftliche Arbeiten mit Beispielen in
    anderen Sprachen

8
Anwendungsszenarien
  • Der Benutzer besitzt nur Lesekenntnisse
    beherrscht die Sprache nur passiv, ist aber im
    Stande Gebrauch von den Texten zu machen
  • Der User beherrscht die Sprache nicht
  • Recherche in Bilder- oder Musik-Datenpools
  • Recherche nach Personen, Institutionen,
    Forschungsgebiete
  • Vorauswahl von Dokumenten, die an einem
    Ãœbersetzer weitergeleitet werden

9
Der Anfang
  • 1964 IRRD (International Road Research
    Documentation)
  • 1969 SMART Gerhard Salton at Cornell
  • Vector Space Ranked Text Retrieval System
  • Ãœbersetzung von einem Teil der Wörter in einer
    existierenden Konzept-Liste ins Deutsche
  • Salton stellt fest
  • Die CLIR-Effektivität variiert in verschiedenen
    Dokumentenpools
  • CLIR ist fast so effektiv, wie monolinguales IR
  • Es ist wichtig , vollständigere Thesauri zu
    entwickeln

10
Der Anfang (II)
  • 1970 Pevzner das russische System PNP-2
  • exact match controlled vacabulary text retrieval
    system
  • 1971 Verlangen nach einem Standart für
    Entwicklung von multilingualen Thesauri
  • 1971 Beginn der Entwicklung im Auftrag von UNESCO
  • 1973-1976 Spezifikation bei ISO
  • 1978 ISO 5964 in USA
  • 1982 GOST 7.24-80 in Russland

11
Der Anfang (III)
  • Beispiel für IS0 5964
  • EUROVOC Thesaurus in allen neun Sprachen der EU
    plus einige andere
  • Sehr kostenintensiv, deckt nur einige Domänen
  • 1975 Bollmann und Konrad
  • die ersten Techniken zum Generieren von
    multilingualen Thesauri von monolingualen
  • 1988 Kitano (NEC) generiert einen
    Japanisch-Deutsch Thesaurus mit einem dafür
    entwickelten Prozessor
  • ISSP Intelligent String Search Processor

12
Schlüsselfaktoren bei der Entwicklung
  • Bei den Evaluierungen der ersten CLIR-Systemen,
    spielte folgendes eine große Rolle
  • Kosten - Thesauri-Entwicklung ist
    teuerdomäneabhängige Theasari sind nicht
    skalierbar
  • Der Nutzenfaktor bei unerfahrenen Benutzern ist
    sehr gering - paraphrase problem
  • Daher ist Die Effektivität auch gering
  • Eins, der größten Problemeeinzelne Terme in
    einer Sprache entsprechen komplexen booleschen
    Ausdrücken in einer anderen.

13
Die Basiskonzepte
  • Grobe Unterteilung zwischen
  • MT-orientierte CLIR Systemen
  • Ãœbersetzt werden entweder die Queries, oder
  • Die Dokumente
  • CLIR Systemen, die multilinguale Thesauri
    verwenden
  • Systeme, die auf gesteuerten Vokabularen basieren
    (controlled vocabulary)
  • Konzeptbasiertes CLIR
  • Korpus-orientierte CLIR Systemen
  • VSM, ML, HMM, LSI

14
MT-Methoden in CLIR
  • Gebraucht wird ein vollautomatisches MT-System,
    das entweder das Query (q) oder das Dokument (d)
    in einen einsprachigen Repräsentationsraum (D)
    liefert.
  • Wissenschaftlicher Streit manche Forscher
    behaupten, dass MT-basiertes CLIR eigentlich auf
    monolinguales IR reduziert ist.

15
MT Pro- und Contraargumente
  • Genauigkeit der Ãœbersetzung
  • Queries sind oft einzelne Wörter ohne
    Kontextd.h sie können nie richtig übersetzt
    werden
  • Maschinelle Ãœbersetzung von Dokumenten ist
    akkurater angesichts der Menge der Information
  • Genauigkeit des Retrieval
  • MT von Dokumenten gt MT von Queries
  • In der Praxis ist MT unmöglich für offene Domänen
  • MT ist ressourcenhungrig
  • Das Reindizieren ist sehr aufwändig

16
Multilinguale Thesauri
  • Ein multilinguales Thesaurus ist in dem Sinne ein
    Werkzeug, was organisiertes Wissen beinhaltet
    eine spezialisierte Ontologie, die mehrsprachige
    Terminologie organisiert.
  • Zum Beispiel
  • Computerlinguistische Lexika mit syntaktischer
    und semantischer Information, aber auch
  • Simple bilinguale Listen, die exakte
    Ãœbersetzungen von Termen enthalten

17
Multilinguale Thesauri (II)
  • Zwei Arten der Benutzung
  • Manuell bei s.g gesteuerten Vokabulare wird
    jedes Konzept mit einer eindeutigen Beschreibung
    versehen
  • Automatisch wenn, die im Thesaurus kodierten
    Relationen, voll automatisch benutzt werden, wird
    die Technik Concept Retrieval genannt

18
Gesteuerte Vokabulare
  • Nachteile
  • Sehr teuer, da in so einem System jedem Dokument
    händisch die zugehörigen Konzepte zugewiesen
    werden müssen.
  • Controlled Vocabulary Systems werden nur in
    beschränkten Domänen benutzt.
  • Schwer skalierbar
  • Schwer zu bedienen für unerfahrene Benutzer
  • Vorteile
  • Sehr produktiv z.B in Bibliotheken, bei sich gut
    auskennenden Usern

19
Konzept Retrieval
  • Einfache Möglichkeit
  • Concept SubstitutionMit Hilfe einer
    Konzeptliste ersetzt man die einzelnen Terme mit
    den zugehörigen Konzeptklassen
  • Komplizierter und effektiver
  • Query Expansionman benutzt die
    Konzeptrelationen im Thesaurus. Um den Query zu
    erweitern

20
Korpusbasierte Techniken
  • Die Alternative zu der Benutzung von Thesauri
    ist, dass man direkt statistische Information
    über die Terme gewinnt, indem man parallele
    Korpora benutzt.
  • Zur Erinnerung
  • Inverse Dokument-Frequenz
  • Term-Frequenz und inverse Dokument-Frequenz

21
Korpusbasierte Techniken (II)
  • Zwei Techniken für Automatisches Generieren von
    Korpora
  • Lin and Chen an der University of Arizona
  • Benutzen ML für die Konstruktion eines
    Chinesisch-Englischen Thesaurus mit Hilfe von
    Neuronalen Netzen
  • Entwickelt von van der Eijk von DEC
  • 1000 dänisch-englische Satzpaare
  • Identifizierung von Nominalphrasen mit Hilfe von
    einem einfachen Parser und einen POS-Tagger
  • Ausrechnen von Wahrscheinlichkeiten für jedes
    Term und seinen potentiellen Ãœbersetzungen

22
Term Vector Translation
  • Es geht im wesentlichen um Techniken, die Sätze
    von tfidf Termgewichtungen vergleichen
  • Relevance Feedback (RF)
  • Pseudo Relevance Feedback (PRF)
  • Vector Space Model (VSM)
  • Generalized Vector Space Model (GVSM)
  • Latent Semantic Indexing (LSI)
  • All diese Techniken sind Varianten von dem VSM
    von Salton

23
Pseudo Relevance Feedback
  • RF ist im wesentlichen Query Expansion
  • Der User spielt Juror bei ihm liegt die
    Entscheidung, ob ein Dokument relevant ist oder
    nicht. Die Entscheidungen werden für die Query
    Expansion benutzt und dienen der weiteren Suche.
  • Pseudo Relevance Feedback
  • Ein Teil der (best-rangierten)Dokumente, wird als
    relevant vorbestimmt und automatisch (ohne
    Nachfrage beim Benutzer) für das weitere Suchen
    benutzt.

24
PRF für CLIR
  • Die Adaption von PRF für MLIR ist relativ
    einfach, wenn ein bilinguales Korpus vorhanden
    ist
  • Die einzelnen Schritte
  • Finden der top-ranking Dokumente für eine Anfrage
    in der Ausgangssprache
  • Substituieren der entsprechenden Dokumente
  • in der Zielsprache
  • Benutzen dieser Dokumente, um das entsprechende
    Query in der Zielsprache zu formulieren

25
Generalized Vector Space Model
  • GVSM vs. VSM
  • Kritik an VSM Benutzung von Termen als
    orthogonale Basis für den Vektorraum Terme sind
    nicht immer semantisch unabhängig.
  • Die Grundidee bei GVSM ist die Benutzung von
    Dokumenten, anstatt Terme, als Basis für die
    Repräsentation der Terme.

26
GVSM monolingual
  • Die Dokumentenmatrix m - Größe des
    K.
  • ist das Trainingkorpus n -
    Zahl der Dok.
  • Die Dokumente sind die Spalten
  • Die Terme sind die Zeilen
  • Jeder Zeilen-Vektor repräsentiert die Häufigkeit
    mit der ein Term im Korpus auftaucht
  • Das Retrieval für GVSM ist definiert als

27
GVSM multilingual
  • Bilinguales Training-Korpus - zwei Matrizen
  • A ist die Matrix für die Ausgangssprache
  • B ist die Matrix für die Zielsprache
  • Die aufeinanderzeigende Kolumnen in den Matrizen
    bilden die Dokumentpaare
  • A wird für Query-Transformation und
  • B für die Zielsprache-Dokument-Transformation
  • Das Retrieval für MLGVSM ist definiert als

28
Latent Semantic Indexing
  • Motivation
  • weder Terme noch Dokumente sind optimal für die
    Bildung des semantischen Raums
  • Standartmethoden scheitern bei relevanten
    Dokumenten, die keine, in die Query eingegebene
    Wörter enthalten, auch wenn der Kontext relevant
    ist
  • Wörter werden nicht voneinander unabhängig und
    zufällig verwendet sie stehen in impliziten
    Abhängigkeiten (latent semantics) zueinander

29
LSI (II)
  • Behauptung Term-zu-Term Relationen können
    automatisch modelliert werden
  • Sehr sinnvoll für CLIR, da bei verschieden
    Sprachen direktes term matching nicht möglich
    ist
  • LSI untersucht die Ähnlichkeit der Kontexte und
    kreiert eine Repräsentation, in der Wörter, die
    im selben Kontext auftauchen, nahe beieinander
    liegen. (ein sinnvoll reduzierter Vektorraum)

30
LSI (II)
  • LSI funktioniert rein numerisch
  • Es werden keine
  • Externe Thesauri
  • Dictionaries, oder
  • Wissen gebraucht
  • Verwendet wird ein Verfahren der linearen Algebra
  • Singular-Value-Decomposition (SVD)

31
Kurzer Ausflug in SVD
  • Die Methode der SVD kommt aus der linearen
    Algebra und ist mit der Eigenvektor Decomposition
    verwandt
  • SVD wird in der digitalen Signalverarbeitung
    eingesetzt um signifikante, oft sinusförmige
    Signalanteile, in einem verrauschten
    Eingangssignal zu finden, oder um die komplexität
    digitaler Filter zu reduzieren.
  • Bei LSI trifft beides zu

32
Translingual LSI
  • ist die Matrix der bilingualen
    Dokumentenpaare
  • A und B sind definiert wie bei GVSM
  • sind die
    Matrizen des SVD
  • Das Retrieval für LSI ist definiert als

33
Vor- und Nachteile von LSI
  • Vorteile
  • Berücksichtigung von Kontext und Bedeutung
  • Anfragen in jeder Länge (auch ein ganzes
    Dokument) möglich
  • Multilingualität ohne Ãœbersetzung
  • Nachteile
  • Probleme mit Mehrdeutigkeiten (Polysemen)
  • Zu aufwendig für grössere Dokumentenpools, daher
    nur für eingeschrenkte Domänen (Mengen) anwendbar

34
Evaluierung
  • Die Evaluierungsdaten sind von dem Paper
    Translingual Information Retrieval A
    Comparative Evaluation, s. Literaturhinweise
  • UN Multilingual Corpus von dem Linguistic Data
    Consortium
  • 2255 Dokumentenpaare (UNICEF Reports)
  • englische Dokumente und deren spanischen
    Ãœbersetzungen
  • Training- und Testdaten in beiden Sprachen
    betragen insgesamt 2 Millionen Wörter

35
Evaluierung (II)
  • 30 Queries auf Englisch
  • Jede Methode wird trainiert
  • Alle Tests werden getrennt multilingual und
    monolingual durchgeführt
  • Alle Systeme wurden manuell optimiert
  • 11-Pt. Precision (TREC-Standards)

36
Evaluierungsergebnisse
Site Method Monolingual IR TIR TIR/MIR
CMU Dict Q-tran .4721 SMART .2898 61
CMU EBT Q-tran .4721 SMART .4318 91
CMU PRF Q-exp .4478 .4043 90
CMU GVSM QD-tran .4008 .3804 95
CMU LSI QD-tran .3689 .3093 84
UMASS Corpus-Phrase .20 .1358 68
ETH LSI thes Q-exp .572 .212 40-53
(LSI thes RF) ? ? (68)
XEROX Dict Q-tran .393 .235 60
NMSU Dict Q-tran ? ? 40-50
37
Einige wichtige Projekte in CLIR
  • MULINEX DFKI Eine Suchmaschine fürs
    WWWDeutsch, Englisch, Französisch
  • ERIC - The Educational Resources Information
    Center
  • Spanische und deutsche Q für englische
    Textedie Texte werden nach dem Retrieval
    übersetzt
  • LIRIX - Xerox Research Center Europe (XRCE)
  • Französische und englische D mit englischen Q
  • IS-Russia controlled vocabulary System
  • Russische Dokumente mit englischen Queries
  • MTIR chinesische Q und englische D (werden ins
    Chinesische übersetzt)
  • MUNDIAL Queries in Englisch und Spanisch
  • MuST-Multilingual Summarization and Translation
  • Englische Queries zum Suchen von
    indonesische, spanischen, arabischen und
    japanischen Dokumente

38
Literatur
  • Douglas W. Oard, Bonnie J. Dorr. 1996. A Survey
    of Multilingual Text Retrieval. University of
    Maryland.
  • Christian Fluhr. 1998. Multilingual Information
    Retrieval. In Survey of the State of Natural
    Language Processing, pages 301-305.
  • Carbonell, Jaime G.Yang, Yiming Frederking,
    Robert E. Brown, Ralf D. Geng, Yibing Lee,
    Danny. Translingual Information Retrieval A
    Comparative Evaluation. Language Technologies
    Institute, Carnegie Mellon University.
  • Gregor Erbach, Günter Neumann, Hans Uskoreit.
    MULINEX, Multilingual Indexing, Navigation and
    Editing Extensions for the World-Wide-Web.
    Project Note. DFKI GmbH
  • Michael L. Littman, Susan T. Dumais, Thomas K.
    Landauer. 1996. Automatic Cross-Language
    Information Retrieval usin Latent Semantic
    Indexing

39
Literatur (II)
  • Evans, D.A., Handerson, S.K., Monarch, I.A.,
    Pereiro, J., Delon, L., Hersch, W.R 1998.-
    Mapping Vocabularies Using Latenet Semantic
    Indexing. In Grefenstette G. Cross-language
    Information Retrieval, Kluwer Academic
    Publishers, Boston, Dordrecht, London, pp. 51-52
  • Ralf D. Brown. Automatically-Extracted Thesauri
    for Croll-Language IR When Better is Worse.
    Language Technology Institute. Carnegie Mellon
    University.
  • Frederic C. Gey and Hailing Jiang. Englich-German
    Cross-Language Retrieval for the GIRT Collection
    Exploiting a Multilingual Thesaurus. (UC DATA),
    University of California, Berkley.
  • Martin Franz, J Scott McCarley, Salim Roukos.
    1999. Ad hoc and Multilingual Information
    Retrieval at IBM. IBM T. J. Watson Research
    Center.
  • Jinxi Xu and Ralph Weischedel. 1999. TREC-9
    Cross-lingual Retrieval at BBN. BBN Technologies.
  • Douglas W. Oard. 1997. Serving Users in Many
    Languages Cross-Language Information Retrieval
    for Digital Libraries. D-Lib Magazine. ISSN
    1082-9873

40
Literatur (III)
  • Martin Braschler, Carol Peters, Peter Schäuble.
    CLIR Track Overview. Eurospider Information Tech
    AG, Zürich Instituto Elaborazione Informazione
    (CNR)Piza
  • Atsushi Fujii and Tetsuya Ishikawa.
    Cross-Language Information Retrieval for Technica
    Documents. University of Library and Information
    Science, Tsukuba, Japan.
  • Frederic Gay and Atio Chen. TREC-9 Cross-Language
    Information Retrieval (Englich-Chinese) Overview.
    University of California, Berkley

41
Online Highlights
  • http//raven.umd.edu/dlrg/clir/
  • Research Ressources in CLIR (Douglas Oard)
  • http//citeseer.nj.nec.com
  • NEC Research Index in Language Processing (die
    beste Quelle für CLIR-Papers)
  • Die Webseiten der einzelnen Projekte (verlinkt
    auf Folie 35)

42
... the end ...
  • ENDE
  • Ana Kovatcheva
  • ani_at_kovatcheva.de
  • Department of Computational Linguistics
  • University of Heidelberg
  • January 2002
Write a Comment
User Comments (0)
About PowerShow.com