Fundaci - PowerPoint PPT Presentation

About This Presentation
Title:

Fundaci

Description:

Fundaci n Duques de Soria La ingenier a ling stica en la sociedad de la informaci n 17-21 de julio de 2000 Tratamiento de corpora biling es – PowerPoint PPT presentation

Number of Views:185
Avg rating:3.0/5.0
Slides: 46
Provided by: nom657
Category:
Tags: fundaci | macbeth

less

Transcript and Presenter's Notes

Title: Fundaci


1
Fundación Duques de Soria La ingeniería
lingüística en la sociedad de la información
17-21 de julio de 2000
Tratamiento de corpora bilingües Joseba
Abaitua Universidad de Deusto
2
Tratamiento de corpora bilingüesJoseba
AbaituaUniversidad de Deusto
  • La lingüística de corpus
  • Tipos de corpora bilingües/traducciones
  • Técnicas de tratamiento
  • Anotaciones
  • Segmentación y alineación
  • Aplicaciones
  • Plurilingüismo en Internet

3
Aplicaciones
  • Enseñanza de segundas lenguas
  • Didáctica de la traducción
  • Lexicografía y terminografía
  • Traducción automática
  • Edición plurilingüe
  • Internalización de productos
  • Búsquedas translingüísticas
  • Internet

4
La lingüística de corpus
  • Introducciones McEnery y Wilson 1996, Pérez
    Guerra 1998
  • Estructuralismo, descripción gramatical (Fries
    1952, Quirk y otros 1985)
  • Generativismo (1960) intuiciones frente a datos,
    críticas de Birdsong 1989, LC
  • Consorcios internacionales para la creación de
    corpora (1980/90)

5
Problemas de los formalismos gramaticales
derivados del generativismo (ATN, DCG, LFG, GPSG,
HPSG...)
  • Aplicaciones reales requieren gramáticas
    complejas (gt 1.000 reglas)
  • Redundancia
  • Explosión combinatoria (alternativas, ambigüedad)
  • Incongruencias, contradicciones
  • Alto coste de desarrollo, transportabilidad y
    mantenimiento

6
Consorcios internacionalespara la creación de
corpora
  • Europa
  • ELRA
  • EEUU
  • Data Collection Initiative (ACL/DCI)
  • Linguistic Data Consortium (LCD)
  • Consortium for Lexical Research (CLR)

7
Tipos de corpus
  • Corpus oral, sonidos sin transliteración
  • Corpus de lengua hablada, transliteraciones de
    textos grabados
  • Corpus de lengua escrita, de cualquier modalidad
  • Corpus especializado Hansard, Aarhus
  • Corpus de referencia BNC (90-10), CREA

8
Propiedades de un corpus de referencia
  • Representatividad (Atkins, Clear y Ostler 1992)
  • Cobertura amplia (registros, estilos, géneros,
    modos...)
  • Aspectos relevantes de una lengua
  • Criterios de categorización (Biber y Finegan
    1986, Nakamura 1991)
  • Género función pragmática (novela, ensayo,
    manual, formulario...)
  • Tipo aspectos cuantitativos (longitud de
    oraciones, densidad léxica, frecuencias...)

9
Representatividad según géneros
10
Compilación de corpora en España
  • Castellano RAE (CREA, CORDE -125 k.) VOX (10
    k.), SGEL (8 k.), SM (0,8 k.)
  • Catalán IEC, IULA
  • Euskara Euskaltzaindia, UZEI, IXA, Deusto
  • Gallego Academia da Lingua (?)

11
Compilación de corpora bilingüe?
  • Castellano RAE (CREA, CORDE -125 k.) VOX (10
    k.), SGEL (8 k.), SM (0,8 k.)
  • Catalán IEC, IULA
  • Euskara Euskaltzaindia, UZEI, IXA, Deusto
  • Gallego

12
Tipos de corpora bi/multilingües
  • Corpora de textos en distintos idiomas (ECI/MCI)
  • Corpora comparables
  • Baker 1995, textos que sin ser traducciones
    comparten similar temática, tamaño, extensión y
    origen
  • Corpora paralelos
  • misma colección de textos en más de una lengua,
    generalmente son traducciones

13
Contribución de los traductólogos
  • Equivalencia (Nord 1994)
  • Función (Rabadán 1994)
  • Status de la traducción (Sager 1993)

14
Distintas dimensiones de equivalencia (Nord
1994)
  • Semántica (contenido, significado)
  • Estilística (forma)
  • Pragmática (función, efecto comunicativo)

15
Función de la traducción (Rabadán 1994)
  • Presentación de contenido, argumento, relato
  • Introducción de elementos culturales,
    tecnológicos
  • Innovación literaria, desarrollo lingüístico
    (Garcilaso, Lutero)
  • Emulación del autor original (Borges, Ezra Pound)
  • Recreación de obras originales (Shakespeare,
    Fitzgerald Rubáiyat)
  • Promoción de ideología (Macbeth de Garneau 1978)

16
Status de la traducción(Sager 1993)
  • Tipo A Tr. autónomas, que sustituyen a los
    originales (novelas de Julio Verne)
  • Tipo B Tr. que complementan al original, a modo
    de glosa (ediciones bilingües de obras
    literarias)
  • Tipo C Tr. simétricas, canónicas (traducciones
    de Atxaga, Gimferrer, Hansard, Biblia del Rey
    Jacobo, etc.)

17
  • Our Father, who art in heaven,
  • hallowed be thy name
  • thy kingdom come
  • thy will be done
  • on earth as it is in heaven.
  • Give us this day our daily bread.
  • And forgive us our trespasses,
  • as we forgive those who trespass against us.
  • And lead us not into temptation
  • but deliver us from evil.
  • For thine is the kingdom, the power and the
    glory,
  • for ever and ever. Amen.

18
Corpora bi/multilingües
  • Hansard (actas parlamento candiense, EN, FR)
  • Aarhus (derecho contractual europeo, EN, FR, DA)
  • China News Service (CH, EN) Xu y Tau 1999, Fung
    1995
  • NACSIS- National Center for Science Information
    Systems (JP, EN) Kando y Aizawa 1998
  • IULA (FR, EN, DE, ES, CA)
  • BOB o Legebiduna (EU, ES) Martínez 1998

19
Tratamiento (1/10)
  • Texto puro (ASCII) estudios cuantitativos
  • listas de formas, frecuencias, colocaciones,
    concordancias
  • filología (verificación de autoría), ling.
    cuantitativa, ling. diacrónica, dialectología,
    sociolingüísitica...
  • Laviosa 1998 obtiene perfiles de traductores
  • Stubbs 1996 lista nuclear (list head), palabras
    más frecuentes
  • Texto anotado explicitación de la información

20
Tratamiento anotaciones máximas de Leech 1993
  • 1. Facilitar la eliminación de las anotaciones,
    de forma que sea posible recuperar la versión
    original de los textos.
  • 2. Permitir la extracción de las anotaciones por
    sí mismas, de manera que puedan constituir una
    base de conocimientos autónoma, independiente del
    texto al que se deben.
  • 3. Distribuir las normas en las que se basan las
    anotaciones para que los usuarios finales puedan
    interpretarlas sin dificultad.
  • 4. Indicar el procedimiento por el que se
    introdujeron las anotaciones en los textos y las
    personas responsables del proceso.
  • 5. Alertar sobre la posibilidad de que el corpus
    anotado contenga errores. La anotación de un
    corpus es un acto de interpretación de
    estructuras y de contenidos y no es infalible.
  • 6. Permitir la más amplia funcionalidad y
    reutilización del corpus acudiendo a propuestas
    con mayor aceptación y neutras en lo posible
    respecto a formalismos o teorías gramaticales
    concretas.
  • 7. Admitir la existencia de otras normas y
    estándares de anotación.

21
7ª máxima de Leech 1993 Admitir la existencia
de otras normas y estándares de anotación
  • TEI-P3 (SGML), 1994- ACL, ACH, MLA
  • BCN, CREA...
  • EAGLES
  • PAROLE
  • MULTEXT
  • CES
  • CRATER

22
Tipos de anotaciones
  • Información extralingüística (cabecera)
  • registro de lengua, fecha(s), autor, editor,
    transcriptor, género, status, función, etc.
  • Cuestiones tipografémicas
  • ASCII 256 c., ISO-8859-1 (ISO-Latin)
  • JUNET
  • ISO-10646 (UCS, UNICODE 65.000 c.)
  • Información lingüística

23
Información lingüística
  • Anotaciones estructurales
  • Anotaciones morfosintácticas
  • Lematización
  • Análisis sintáctico, (semántico)
  • Anotaciones orientadas a la tarea
  • Códigos de correspondencia

24
Lematización y etiquetado POS
25
(No Transcript)
26
Alineación (Martínez 1999)
  • 1. Enfoque estadístico similitud de algunos
    rasgos cuantitativos en el corpus, como la
    longitud de oraciones, el número de palabras o de
    caracteres, etc. (Brown y otros 1991, Gale y
    Church 1991).
  • 2. Enfoque lingüístico emparejamiento previo de
    unidades sintagmáticas o de estructuras
    dependenciales (Sadler 1991, Kaji y otros 1992,
    Matsumoto y otros 1993).
  • 3. Enfoque mixto método que aprovecha la
    identificación de categorías gramaticales como
    apoyo para la alineación estadística (Chen 1993).

27
(No Transcript)
28
(No Transcript)
29
(No Transcript)
30
Aplicaciones
  • Enseñanza de segundas lenguas (International
    Corpus of Learner English, ICLE)
  • Didáctica de la traducción (Baker...)
  • Lexicografía y terminografía
  • Traducción automática
  • Edición plurilingüe (MultiMétéo, TREE, GIST)
  • Internalización de productos
  • Búsquedas translingüísticas
  • Internet

31
Traducción automática
  • Métodos simbólicos (RBMT)
  • directa, transferencia, interlingüe (KBMT)
  • Métodos analógicos (ABMT)
  • Probabilidades Weawer 1949, Brown 1990 (Watson
    Center de IBM)
  • Basado en ejemplos (EBMT), Nagao 1984
  • Memorias de traducción
  • Déjà Vu, TW, Transit, SDLX

32
Internet plurilingüe
33
Itzulpenak mekanizatzeko, zein sistema
hobe?Joseba Abaitua, Deustuko Unibertsitatea
  • ZER itzuli nahi dugu?
  • ZERTARAKO?
  • NOIZKO?
  • ZENBAT ?etan?
  • -NORK
  • -NOLA

34
ZER itzuli nahi dugun?
  • Testuen sailkapena
  • tipoa (Biber y Finegan 1986, Nakamura 1991)
  • esaldien luzapena, dentsitate lexikoa, estiloa...
  • generoa
  • foru aginduak, eguraldiko berriak, olerkiak...
  • modua
  • ahozkoa (1, 2 orality)
  • idatzizkoa
  • elektronikoa (HTML, XML, PDF, PPT)
  • helburuak...

35
ZERTARAKO?
  • Informazioa eskuragatik?
  • Behin behingo testu/erreferentziak sortzeko?
  • Argitaratzeko?
  • hitzaldi baterako, mintzoa sustatzeko, eztabaida
    sortarazteko...
  • ahoz kontatua izateko
  • irakurria izateko
  • WWWen, softwaren barruan, produkturen dok.
  • paperean, inprentan, CD-ROM...

36
NORK eta NOLA
  • Term extraction and substitution
  • Machine Translation (MT)
  • SYSTRAN, LOGOS, METAL...
  • Translation Memories
  • Déjà Vu (Atril/Ampersan)
  • TW (Trados)
  • Transit (Star)
  • SDLX (SDL)

37
Translation Memories
  • Abantailak
  • Kalitatezko itzulpenak (giza-itzultzaileak eginak
    eta balidatuak)
  • TMX
  • Desabantailak
  • testu kanonikoak, itxiak (bakarrik)
  • itzulpen partzialak (testu - zatiak)

38
  • Our Father, who art in heaven,
  • hallowed be thy name
  • thy kingdom come
  • thy will be done
  • on earth as it is in heaven.
  • Give us this day our daily bread.
  • And forgive us our trespasses,
  • as we forgive those who trespass against us.
  • And lead us not into temptation
  • but deliver us from evil.
  • For thine is the kingdom, the power and the
    glory,
  • for ever and ever. Amen.

39
(No Transcript)
40
(No Transcript)
41
(No Transcript)
42
Tipos de anotaciones
  • Información extralingüística (cabecera)
  • registro de lengua, fecha(s), autor, editor,
    transcriptor, género, status, función, etc.
  • Cuestiones tipografémicas
  • ASCII 256 c., ISO-8859-1 (ISO-Latin)
  • JUNET
  • ISO-10646 (UCS, UNICODE 65.000 c.)
  • Información lingüística

43
Etiquetado de i. lingüística
  • Segmentación
  • Anotaciones estructurales
  • Anotaciones morfosintácticas
  • Lematización
  • Análisis sintáctico, (semántico)
  • Anotaciones orientadas a la tarea
  • Alineación

44
Lematización y etiquetado POS
45
Alineación (Martínez 1999)
  • 1. Enfoque estadístico similitud de algunos
    rasgos cuantitativos en el corpus, como la
    longitud de oraciones, el número de palabras o de
    caracteres, etc. (Brown y otros 1991, Gale y
    Church 1991).
  • 2. Enfoque lingüístico emparejamiento previo de
    unidades sintagmáticas o de estructuras
    dependenciales (Sadler 1991, Kaji y otros 1992,
    Matsumoto y otros 1993).
  • 3. Enfoque mixto método que aprovecha la
    identificación de categorías gramaticales como
    apoyo para la alineación estadística (Chen 1993).
Write a Comment
User Comments (0)
About PowerShow.com