Title: Evaluaci
1Evaluación de sistemas de traducción automática
2Evaluación humana
- Parámetros de la evaluación humana
- Fluidez (Fluency) hasta qué punto se observan
las reglas de gramática - Fidelidad (Adequacy) hasta qué punto la
traducción comunica la información contenida en
el original
3Fluidez
- 4. Buena gramática
- 3. Fácil a comprender, pero con errores
- 2. Comprensible con esfuerzo
- 1. Incomprensible
4Fidelidad
- 4. No hay pérdidas de sentido
- 3. La mayor parte del sentido se expresa
- 2. Algo del sentido se expresa
- 1. Casi ningún sentido se expresa
5Defectos de evaluación humana
- Varios expertos evalúan las mismas traducciones
según una métrica predefinida. Los resultados de
los expertos se promedian. - Procedimiento largo y caro (semanas o meses)
- Conviene para las agencias evaluadoras
- Imposible para los investigadores necesitan
controlar el efecto de cambios diarios - Trabajo humano que no se puede reutilizar (para
otros textos, otros sistemas, otras lenguas)
6Variante de evaluación por expertos
- Se mide la cantidad de operaciones que tiene que
realizar el experto para revisar la traducción - Menos subjetivo
7Evaluación automática
- Objetivos
- rápida
- barata
- independiente de la lengua
- buena correlación con la evaluación humana
8BLEU Bilingual Evaluation Understudy
- Idea general cuanto más cerca está la traducción
automática de la traducción humana, mejor. - Hay que tener
- una traducción de referencia (mejor varias)
- una métrica de la proximidad entre los textos
9Por qué es difícil?
- Las métricas habituales en la recuperación de
información no se aplican directamente - Precisión la proporción de objetos encontrados
correctamente en el conjunto de todos los objetos
encontrados - Cubertura (recall) la proporción de objetos
encontrados correctamente en el conjunto de todos
los objetos que había que encontrar - Qué sería la precisión y la cubertura en el caso
de traducción? - Precisión Cuantas palabras de la traducción a
evaluar aparecen en la traducción de referencia? - Cubertura Cuántas palabras de la traducción de
referencia aparecen en la traducción a evaluar? - Ambas cosas no son muy demostrativas hay varias
traducciones igualmente correctas
10Ej.1 Traducción de chino
- Traducciones candidatos
- It is a guide to action which ensures that the
military always obeys the commands of the party. - It is to insure the troops forever hearing the
activity guidebook that party direct.
- Traducciones de referencia
- It is a guide to action that ensures that the
military will forever heed Party commands - It is the guiding principle which guarantees the
military forces always being under the command of
the Party - It is the practical guide for the army always to
heed the directions of the party.
11Ej.1 Traducción de chino
- It is a guide to action which ensures that the
military always obeys the commands of the party. - It is to insure the troops forever hearing the
activity guidebook that party direct.
- It is a guide to action that ensures that the
military will forever heed Party commands - It is the guiding principle which guarantees the
military forces always being under the command of
the Party - It is the practical guide for the army always to
heed the directions of the party.
12Ej.1 Traducción de chino
- It is a guide to action which ensures that the
military always obeys the commands of the party. - It is to insure the troops forever hearing the
activity guidebook that party direct.
- It is a guide to action that ensures that the
military will forever heed Party commands - It is the guiding principle which guarantees the
military forces always being under the command of
the Party - It is the practical guide for the army always to
heed the directions of the party.
13n-gramas
- Un n-grama es una subsecuencia de n elementos de
una secuencia dada. - a1 a2 a3 a4 a5
- Unigramas (n1) a1, a2, a3, a4, a5
- Bigramas (n2) a1a2, a2a3, a3a4, a4a5
- Trigramas (n3) a1a2a3, a2a3a4, a3a4a5
14Coincidencias de unigramas
- La piedra angular de la métrica la precisión.
- TC Traducción candidato
- TR-i Traducción de referencia i
- Pr El numero de palabras (unigramas) en TC que
se encuentren al menos en una TR-i dividido por
el numero de palabras en TC - Modificación es necesaria Sistemas TA suelen
generar más palabras que aparezcan en TR
15Ejemplo 2 TA mala con precisión alta
TC the the the the the the the TR1 the
cat is on the mat TR2 there is a cat on the
mat Pr 7/7 1 Todas palabras de TC
aparecen en TR
16Modificación de Precisión
- Para cada palabra en TC se coge el mayor número
de ocurrencia (maximum reference count) en TRi
(para todos i). - the aparece 2 veces en TR1 y una vez en TR2
- El mayor número de referencia 2
- Para cada palabra en TC su número de ocurrencia
se compara con el mayor número de referencia y se
coge el número menor. En este caso 7 vs. 2 ? 2 - Es decir se trunca el número de ocurrencia de
cada palabra para no superar el número máximo de
esta palabra observado en cualquier traducción de
referencia (número de ocurrencia modificado).
17Modificación de Precisión (cont.)
- Precisión modificada de unigramas la suma de
números de ocurrencia modificados de palabras
divididas por el numero de palabras en TC - En ej.2 Pr(n1) 2/7
- En ej.1 Pr(n1) 17/18
- Pr se calcula para todos n-gramas
- Bigramas en Ej. 2 Pr(n2) 0/6 0
18Ej.1 Traducción de chino
- Traducciones candidatos
- It is a guide to action which ensures that the
military always obeys the commands of the party. - It is to insure the troops forever hearing the
activity guidebook that party direct.
- Traducciones de referencia
- It is a guide to action that ensures that the
military will forever heed Party commands - It is the guiding principle which guarantees the
military forces always being under the command of
the Party - It is the practical guide for the army always to
heed the directions of the party.
19 Ejemplo 1 Bigramas en TC1 it is the
commands is a commands of a guide of
the guide to the party to action action
which which ensures ensures that that the the
military military always always obeys obeys the
20 Ejemplo 1 Bigramas en TC1 it is
1,1,1 the commands 0,0,0 is a
1,0,0 commands of 0,0,0 a guide 1,0,0 of
the 0,1,1 guide to 1,0,0 the
party 0,1,1 to action 1,0,0 action which
0,0,0 Bigramas en total 17 which ensures
0,0,0 Aparecen en TRi 10 ensures that
1,0,0 Pr(n2) 10/17 that the 1,0,0 the
military 1,0,0 military always 0,0,0 always
obeys 0,0,0 obeys the 0,0,0
21Calculo para el texto
- Calcular Pr(ni) como si fuera todo el texto una
oración - Para cada oración encontrar el numero de n-gramas
truncadas como se mostró más arriba - Sumar estas n-gamas en todas las oraciones y
dividir por el numero de n-gramas en todo el
texto. - Por ejemplo el texto T consiste en dos
oraciones O1 y O2. La precisión de unigramas de T
es el numero de unigramas confirmadas por las
traducciones de referencia en O1 más lo mismo en
O2 dividido por el numero total de unigramas en
(O1O2). - Los unigramas dan cuenta de la fidelidad de la
traducción (qué cantidad de información se
expresa). - N-gramas más largas corresponden a la fluidez.
- La correlación más alta con las opiniones de los
expertos humanos se muestra con n4.
22Problema de traducciones cortas
- Precisión modificada no resuelve el problema de
traducciones cortas - Ejemplo 1
- TR1 The cat is on the mat.
- TR2 There is a cat on the mat.
- TC the cat
- Pr(n1) ½ ½ 1
- Pr(n2) 1
23Cubertura no ayuda
- Cubertura baja hay muchas palabras en TR no
representadas en TC - Pero con TR múltiples la cubertura no funciona.
Una traducción buena utiliza una de las
posibilidades pero no todas. - Es fácil aumentar la cubertura de una traducción
mala
24Ejemplo 3
- TR1 I always do.
- TR2 I invariably do.
- TR3 I perpetually do.
- TC1 I always do.
- TC2 I always invariably perpetually do.
- TC2 tiene la cubertura mucho mejor aunque la
traducción sea mucho peor.
25Penalización para la brevedad
- r el largo del corpus de referencia la suma de
los largos de todas oraciones del corpus. Si hay
varias traducciones de referencia, cada oración
está representada por el variante más próximo a
la traducción candidato - c el largo de corpus candidato
- PB 1, si cgtr,
- e(1-r/c), si cr
26BLEU
- 1) PB media geométrica de Pr(ni)
- 2) PB media aritmética de Pr(ni)
- Bleu varia entre 0 y 1
27Crítica de Bleu
- Blue no está siempre en correlación con los
juicios humanos - No hace distinción entre las palabras
significativas y no significativas - Sobreestima los sistemas estadísticos en
comparación con sistemas basados en reglas
28Nuestro futuro
- Me voy de viaje hasta el febrero. Las demás dos
clases en enero os darán otros profesores. - Práctica 3 la espero para el 30.01.2010
- Preguntas y dudas
- email
- Skype igor-b2306