Title: Fundaci
1Fundación Duques de Soria La ingeniería
lingüística en la sociedad de la información
17-21 de julio de 2000
Tratamiento de corpora bilingües Joseba
Abaitua Universidad de Deusto
2Tratamiento de corpora bilingüesJoseba
AbaituaUniversidad de Deusto
- La lingüística de corpus
- Tipos de corpora bilingües/traducciones
- Técnicas de tratamiento
- Anotaciones
- Segmentación y alineación
- Aplicaciones
- Plurilingüismo en Internet
3Aplicaciones
- Enseñanza de segundas lenguas
- Didáctica de la traducción
- Lexicografía y terminografía
- Traducción automática
- Edición plurilingüe
- Internalización de productos
- Búsquedas translingüísticas
- Internet
4La lingüística de corpus
- Introducciones McEnery y Wilson 1996, Pérez
Guerra 1998 - Estructuralismo, descripción gramatical (Fries
1952, Quirk y otros 1985) - Generativismo (1960) intuiciones frente a datos,
críticas de Birdsong 1989, LC - Consorcios internacionales para la creación de
corpora (1980/90)
5Problemas de los formalismos gramaticales
derivados del generativismo (ATN, DCG, LFG, GPSG,
HPSG...)
- Aplicaciones reales requieren gramáticas
complejas (gt 1.000 reglas) - Redundancia
- Explosión combinatoria (alternativas, ambigüedad)
- Incongruencias, contradicciones
- Alto coste de desarrollo, transportabilidad y
mantenimiento
6Consorcios internacionalespara la creación de
corpora
- EEUU
- Data Collection Initiative (ACL/DCI)
- Linguistic Data Consortium (LCD)
- Consortium for Lexical Research (CLR)
7Tipos de corpus
- Corpus oral, sonidos sin transliteración
- Corpus de lengua hablada, transliteraciones de
textos grabados - Corpus de lengua escrita, de cualquier modalidad
- Corpus especializado Hansard, Aarhus
- Corpus de referencia BNC (90-10), CREA
8Propiedades de un corpus de referencia
- Representatividad (Atkins, Clear y Ostler 1992)
- Cobertura amplia (registros, estilos, géneros,
modos...) - Aspectos relevantes de una lengua
- Criterios de categorización (Biber y Finegan
1986, Nakamura 1991) - Género función pragmática (novela, ensayo,
manual, formulario...) - Tipo aspectos cuantitativos (longitud de
oraciones, densidad léxica, frecuencias...)
9Representatividad según géneros
10Compilación de corpora en España
- Castellano RAE (CREA, CORDE -125 k.) VOX (10
k.), SGEL (8 k.), SM (0,8 k.) - Catalán IEC, IULA
- Euskara Euskaltzaindia, UZEI, IXA, Deusto
- Gallego Academia da Lingua (?)
11Compilación de corpora bilingüe?
- Castellano RAE (CREA, CORDE -125 k.) VOX (10
k.), SGEL (8 k.), SM (0,8 k.) - Catalán IEC, IULA
- Euskara Euskaltzaindia, UZEI, IXA, Deusto
- Gallego
12Tipos de corpora bi/multilingües
- Corpora de textos en distintos idiomas (ECI/MCI)
- Corpora comparables
- Baker 1995, textos que sin ser traducciones
comparten similar temática, tamaño, extensión y
origen - Corpora paralelos
- misma colección de textos en más de una lengua,
generalmente son traducciones
13Contribución de los traductólogos
- Equivalencia (Nord 1994)
- Función (Rabadán 1994)
- Status de la traducción (Sager 1993)
14Distintas dimensiones de equivalencia (Nord
1994)
- Semántica (contenido, significado)
- Estilística (forma)
- Pragmática (función, efecto comunicativo)
15Función de la traducción (Rabadán 1994)
- Presentación de contenido, argumento, relato
- Introducción de elementos culturales,
tecnológicos - Innovación literaria, desarrollo lingüístico
(Garcilaso, Lutero) - Emulación del autor original (Borges, Ezra Pound)
- Recreación de obras originales (Shakespeare,
Fitzgerald Rubáiyat) - Promoción de ideología (Macbeth de Garneau 1978)
16Status de la traducción(Sager 1993)
- Tipo A Tr. autónomas, que sustituyen a los
originales (novelas de Julio Verne) - Tipo B Tr. que complementan al original, a modo
de glosa (ediciones bilingües de obras
literarias) - Tipo C Tr. simétricas, canónicas (traducciones
de Atxaga, Gimferrer, Hansard, Biblia del Rey
Jacobo, etc.)
17- Our Father, who art in heaven,
- hallowed be thy name
- thy kingdom come
- thy will be done
- on earth as it is in heaven.
- Give us this day our daily bread.
- And forgive us our trespasses,
- as we forgive those who trespass against us.
- And lead us not into temptation
- but deliver us from evil.
- For thine is the kingdom, the power and the
glory, - for ever and ever. Amen.
18Corpora bi/multilingües
- Hansard (actas parlamento candiense, EN, FR)
- Aarhus (derecho contractual europeo, EN, FR, DA)
- China News Service (CH, EN) Xu y Tau 1999, Fung
1995 - NACSIS- National Center for Science Information
Systems (JP, EN) Kando y Aizawa 1998 - IULA (FR, EN, DE, ES, CA)
- BOB o Legebiduna (EU, ES) Martínez 1998
19Tratamiento (1/10)
- Texto puro (ASCII) estudios cuantitativos
- listas de formas, frecuencias, colocaciones,
concordancias - filología (verificación de autoría), ling.
cuantitativa, ling. diacrónica, dialectología,
sociolingüísitica... - Laviosa 1998 obtiene perfiles de traductores
- Stubbs 1996 lista nuclear (list head), palabras
más frecuentes - Texto anotado explicitación de la información
20Tratamiento anotaciones máximas de Leech 1993
- 1. Facilitar la eliminación de las anotaciones,
de forma que sea posible recuperar la versión
original de los textos. - 2. Permitir la extracción de las anotaciones por
sí mismas, de manera que puedan constituir una
base de conocimientos autónoma, independiente del
texto al que se deben. - 3. Distribuir las normas en las que se basan las
anotaciones para que los usuarios finales puedan
interpretarlas sin dificultad. - 4. Indicar el procedimiento por el que se
introdujeron las anotaciones en los textos y las
personas responsables del proceso. - 5. Alertar sobre la posibilidad de que el corpus
anotado contenga errores. La anotación de un
corpus es un acto de interpretación de
estructuras y de contenidos y no es infalible. - 6. Permitir la más amplia funcionalidad y
reutilización del corpus acudiendo a propuestas
con mayor aceptación y neutras en lo posible
respecto a formalismos o teorías gramaticales
concretas. - 7. Admitir la existencia de otras normas y
estándares de anotación.
217ª máxima de Leech 1993 Admitir la existencia
de otras normas y estándares de anotación
- TEI-P3 (SGML), 1994- ACL, ACH, MLA
- BCN, CREA...
- EAGLES
- PAROLE
- MULTEXT
- CES
- CRATER
22Tipos de anotaciones
- Información extralingüística (cabecera)
- registro de lengua, fecha(s), autor, editor,
transcriptor, género, status, función, etc. - Cuestiones tipografémicas
- ASCII 256 c., ISO-8859-1 (ISO-Latin)
- JUNET
- ISO-10646 (UCS, UNICODE 65.000 c.)
- Información lingüística
23Información lingüística
- Anotaciones estructurales
- Anotaciones morfosintácticas
- Lematización
- Análisis sintáctico, (semántico)
- Anotaciones orientadas a la tarea
- Códigos de correspondencia
24Lematización y etiquetado POS
25(No Transcript)
26Alineación (Martínez 1999)
- 1. Enfoque estadístico similitud de algunos
rasgos cuantitativos en el corpus, como la
longitud de oraciones, el número de palabras o de
caracteres, etc. (Brown y otros 1991, Gale y
Church 1991). - 2. Enfoque lingüístico emparejamiento previo de
unidades sintagmáticas o de estructuras
dependenciales (Sadler 1991, Kaji y otros 1992,
Matsumoto y otros 1993). - 3. Enfoque mixto método que aprovecha la
identificación de categorías gramaticales como
apoyo para la alineación estadística (Chen 1993).
27(No Transcript)
28(No Transcript)
29(No Transcript)
30Aplicaciones
- Enseñanza de segundas lenguas (International
Corpus of Learner English, ICLE) - Didáctica de la traducción (Baker...)
- Lexicografía y terminografía
- Traducción automática
- Edición plurilingüe (MultiMétéo, TREE, GIST)
- Internalización de productos
- Búsquedas translingüísticas
- Internet
31Traducción automática
- Métodos simbólicos (RBMT)
- directa, transferencia, interlingüe (KBMT)
- Métodos analógicos (ABMT)
- Probabilidades Weawer 1949, Brown 1990 (Watson
Center de IBM) - Basado en ejemplos (EBMT), Nagao 1984
- Memorias de traducción
- Déjà Vu, TW, Transit, SDLX
32Internet plurilingüe
33Itzulpenak mekanizatzeko, zein sistema
hobe?Joseba Abaitua, Deustuko Unibertsitatea
- ZER itzuli nahi dugu?
- ZERTARAKO?
- NOIZKO?
- ZENBAT ?etan?
- -NORK
- -NOLA
34ZER itzuli nahi dugun?
- Testuen sailkapena
- tipoa (Biber y Finegan 1986, Nakamura 1991)
- esaldien luzapena, dentsitate lexikoa, estiloa...
- generoa
- foru aginduak, eguraldiko berriak, olerkiak...
- modua
- ahozkoa (1, 2 orality)
- idatzizkoa
- elektronikoa (HTML, XML, PDF, PPT)
- helburuak...
35ZERTARAKO?
- Informazioa eskuragatik?
- Behin behingo testu/erreferentziak sortzeko?
- Argitaratzeko?
- hitzaldi baterako, mintzoa sustatzeko, eztabaida
sortarazteko... - ahoz kontatua izateko
- irakurria izateko
- WWWen, softwaren barruan, produkturen dok.
- paperean, inprentan, CD-ROM...
36NORK eta NOLA
- Term extraction and substitution
- Machine Translation (MT)
- SYSTRAN, LOGOS, METAL...
- Translation Memories
- Déjà Vu (Atril/Ampersan)
- TW (Trados)
- Transit (Star)
- SDLX (SDL)
37Translation Memories
- Abantailak
- Kalitatezko itzulpenak (giza-itzultzaileak eginak
eta balidatuak) - TMX
- Desabantailak
- testu kanonikoak, itxiak (bakarrik)
- itzulpen partzialak (testu - zatiak)
38- Our Father, who art in heaven,
- hallowed be thy name
- thy kingdom come
- thy will be done
- on earth as it is in heaven.
- Give us this day our daily bread.
- And forgive us our trespasses,
- as we forgive those who trespass against us.
- And lead us not into temptation
- but deliver us from evil.
- For thine is the kingdom, the power and the
glory, - for ever and ever. Amen.
39(No Transcript)
40(No Transcript)
41(No Transcript)
42Tipos de anotaciones
- Información extralingüística (cabecera)
- registro de lengua, fecha(s), autor, editor,
transcriptor, género, status, función, etc. - Cuestiones tipografémicas
- ASCII 256 c., ISO-8859-1 (ISO-Latin)
- JUNET
- ISO-10646 (UCS, UNICODE 65.000 c.)
- Información lingüística
43Etiquetado de i. lingüística
- Segmentación
- Anotaciones estructurales
- Anotaciones morfosintácticas
- Lematización
- Análisis sintáctico, (semántico)
- Anotaciones orientadas a la tarea
- Alineación
44Lematización y etiquetado POS
45Alineación (Martínez 1999)
- 1. Enfoque estadístico similitud de algunos
rasgos cuantitativos en el corpus, como la
longitud de oraciones, el número de palabras o de
caracteres, etc. (Brown y otros 1991, Gale y
Church 1991). - 2. Enfoque lingüístico emparejamiento previo de
unidades sintagmáticas o de estructuras
dependenciales (Sadler 1991, Kaji y otros 1992,
Matsumoto y otros 1993). - 3. Enfoque mixto método que aprovecha la
identificación de categorías gramaticales como
apoyo para la alineación estadística (Chen 1993).