Title: Estudio preliminar para la creacin de Euskal PropBank
1Estudio preliminar para la creación de Euskal
PropBank
- Izaskun Aldezabal Roteta
- Grupo Ixa, UPV-EHU
- SERES. Octubre, 2006
2Esquema
- Finalidad
- Recursos
- Metodología
- Conclusiones
3Finalidad
- Comprobar la validez del modelo de etiquetado de
PropBank para el euskera - Motivación
- Parten de un corpus etiquetado sintácticamente
- Decisiones importantes tomadas distinción
argumentos/adjuntos, sentidos... - Se está trabajando con más lenguas chino,
español, catalán, euskera (español-catalán-euskera
, en la acción complementaria CESS-ECE).
Comparación multilingüe.
4Recursos
- Corpus Eus3LB Corpus del euskera etiquetado
sintácticamente, basándose en dependencias
(50.000 palabras). - Base de datos creada con la información obtenida
de PropBank y Verbnet. (Grupo Ixa base de datos
(de pago) PropBank). - Diccionarios monolingües y bilingües
(euskera-castellano inglés) - Tesis de Aldezabal (2004) Estudio de la
subcategorización verbal. Análisis detallado de
100 verbos en euskera, basándose en Levin (1993)
y utilizando métodos automáticos.
5Metodología
- Preparar la entrada léxica del verbo
- Elegir el verbo en euskera
- Obtener la visión general de los sentidos del
verbo en euskera y buscar sus equivalentes
léxicos en inglés - Analizar los equivalentes sintácticos en inglés
- Aplicar las entradas equivalentes de VerbNet y
PropBank al euskera - Etiquetar el corpus con los roles temáticos
- Etiquetar el corpus
- Criterios generales
- Agrupar las dudas y completar la tabla de
comentarios - Revisar/modificar la entrada
6Metodología IPreparar la entrada léxica del
verbo (I)
- Elegir el verbo en euskera
- Eus3lb
- 622 verbos diferentes
- 40 verbos de más de 20 apariciones
- 482 verbos de menos de 5 apariciones
- Criterios facilidad y frecuencia
7Metodología IPreparar la entrada léxica del
verbo (II)
- Obtener la visión general de los sentidos del
verbo en euskera - Diccionarios monolingües
- Expresar algo mediante palabras / prometer /
llamarse - Tesis Aldezabal (2004)
- Dos sentidos
- esan-DU-1 y esan-DU-2 actividad (de expresión)
de una entidad - esan-DIO-3 asignación de un atributo o
característica a una entidad - Conclusiones
- Dos acepciones
- alguien dice (a alguien) algo
- alguien llama a algo de una manera
8Metodología IPreparar la entrada léxica del
verbo (III)
- Analizar los equivalentes léxicos en inglés para
esos sentidos - Diccionarios bilingües
- alguien dice (a alguien) algo say eta tell
- alguien llama a algo de una madera call
9Metodología IPreparar la entrada léxica del
verbo (IV)
- Analizar los equivalentes sintácticos en PropBank
y en Verbnet. Para ello - Enterder la filosofía general de PropBank
- Entender la filosofía general de Verbnet
10Metodología IPreparar la entrada léxica del
verbo (V)
- Filosofía general de PropBank
- Dos niveles independientes
- Argumentos y adjuntos
- Argumentos 0-4 (Arg0, Arg1, , Arg4)
- Adjuntos (ArgM)
- Roles semánticos específicos
- buyer, thing bought, speaker
- Cada verbo tiene sus rolsets (sentidos) y cada
rolset tiene sus frames (realizaciones
sintácticas frameset)
11Metodología IPreparar la entrada léxica del
verbo (VI)
Ejemplo tell El roleset de tell.01 es
arg 0 speaker arg 1 utterance arg 2
hearer
Los frames asociados con el rolset tell.01 se
expresan de la siguiente manera ditransitive
(-) The score tell you what the characters are
thinking and feeling. Arg0 The score REL
tell Arg2 you Arg1 what the characters are
thinking and feeling odd ditransitive (-)
prepositional arg2 (-) fronted (-)
12Metodología IPreparar la entrada léxica del
verbo (VII)
- Filosofía general de Verbnet http//www.cis.upenn
.edu/group/verbnet/ - Clasificación basada en Levin (1993)
- Número de la clase 9.1, 9.2, 10.1
- Roles semánticos generales
- agent, theme, topic, beneficiary
- Propiedades semánticas
- animate, organization, communication,
concrete, location, region, animal
13Metodologia I Preparar la entrada léxica del
verbo (VIII)
- Consultar los verbos (say, tell y call) en la
base de datos Verbnet/PropBank Ej. - say.01 (LEVIN say 37.7)
- ARG0-null Sayer (VN Agent 37.7)
10449 (by 1) - ARG1-null Utterance (VN Topic 37.7)
10491 (by 1) - 10503 ARG2-null Hearer (VN Recipient 37.7)
12 (to 10) - ARG3-null Attributive (VN ) 37 (null 2,
about 10, ADV 1, for 2, For 3, in
1, of 16, Of 2) - tell.01 (LEVIN pass along information 37.1-1
37.2) - ARG0-null Speaker (VN Agent 37.1-1Agent
37.2) 323 (by 4) - 356 ARG1-null Utterance (VN Topic 37.1-1Topic
37.2) 340 (about 8, of 5) - ARG2-null Hearer (VN Recipient
37.1-1Recipient 37.)310 (to2, REC1)
14Metodología IPreparar la entrada léxica del
verbo (IX)
- Tener en cuenta lo propuesto en la tesis de
Aldezabal (2004) (esan) - 3 frames sintáctico-semánticos (fss),
correspondientes a dos sentidos - 1. alguien dice algo 2 argumentos con 2
variantes sintácticas - esan-DU-1 experimentador (erg) tema (abs)
- esan-DU-2 experimentador (erg) tema (compl.)
-
- 2. alguien a algo/alguien dice de un forma 3
argumentos, sin variantes sintácticas - esan-DU-3 origen (erg) destino (dat)
característica (abs) -
15Metodologia I Preparar la entrada léxica del
verbo (X)
- Proponer la entrada léxica del verbo esan al
estilo PropBank, manteniendo la información de
los casos -
- esan.01 (alguien dice algo a alguien sobre
algo) - Arg0 el que dice sayer agent ERG
- Arg1 lo dicho utterance topic ABS/COMPL
- Arg2 oyente hearer recipient DAT
- Arg3 atributo attributive??? INS / -i buruz
- esan.02 (alguien dice a algo/alguien de una
manera) - Arg0 el que dice caller agent ERG
- Arg1 el calificado item being
labelled theme DAT - Arg2 la calificación attribute of
arg1 predicate ABS
16Metodología IIEtiquetar el corpus con roles
temáticos (I)
- Etiquetar el corpus EPEC (corpus de referencia
para el tratamiento del euskera). 300.000
palabras. - Euskal gatazka ez dela armen bidez konponduko
esan digu, politikoki baizik, borroka armatua eta
errepresio itsua gaitzetsirik (Nos ha dicho que
el conflicto vasco no se arreglará mediante las
armas) - ccomp_obj (konp, esan, aditz_aurk, dela) Arg1
utterance/topic - ncsubj (erg, esan, pro2.1, pro2.1, subj)
- nczobj (dat, esan, pro3.1, pro3.1, zobj)
- auxmod (-, esan, digu)
- Gurreak ekintza salatu eta familiari elkartasuna
adierazi zion, Gobernuaren izenean (Gurrea ha
denunciado lo sucedido y le ha expresado su
solidaridad a la familia) - ncsubj (erg, adierazi, pro1.1, pro1.1, subj)
- nczobj (dat, adierazi, familiari, familiari,
zobj) Arg2 entzulea/hearer/recipient - ncobj (abs, adierazi, elkartasuna, elkartasuna,
obj) Arg1 utterance/topic - auxmod (-, adierazi, zion)
17Metodología IIEtiquetar el corpus con roles
temáticos (II)
- Teniendo en cuenta los criterios generales
- Los más importantes
- Semántica superficial (sólo los
argumentos/adjuntos que aparecen en el corpus) - La unidad es la oración de cada verbo a tratar
- Dejar a un lado las oraciones dudosas
18Metodología IIIAgrupar las dudas.
Revisar/modificar la entrada
- Agrupar dudas y completar la tabla de comentarios
- Problemas con los argumentos
- -Arg3 attributive -ren kasuan , ren aurrean ,
-ren gainean, -ri buruz... Son attributive?.
Comparar si con otros verbos estos casos
complejos tienen el mismo valor. - Ejemplos dudosos
- - Ambigüedad de los modificadores pertenecen a
un verbo u otro? - Revisar/modificar la entrada, si hace falta
- añadir/quitar
- argumentos
- sentidos
- realizaciones sintácticas
19Conclusiones I
- La adecuación al euskera de las entradas y el
etiquetado del modelo PropBank no ha acarreado
mayores problemas. Hemos trabajado con tres
verbos (esan, adierazi, eskatu). Quizás hay que
probar con verbos más difíciles (ambiguos) - Con todo, el estudio preliminar ha demostrado que
el modelo PropBank es válido para el euskera - Prevemos realizar el etiquetado de forma
semiautómatica. De la siguiente manera
20Conclusiones IIEtiquetado semiautomático
- Etiquetado semiautómático
- Se pueden utilizar heurísticos que garantizan un
etiquetado autómatico correcto - Pueden ser generales
- Caso de declinación ERG gt Arg0
- Pueden ser específicos (para cada verbo)
21Conclusiones IIIEtiquetado semiautomático
- Por ejemplo, con el verbo esan, las ambigüedades
de los casos según los sentidos son las
siguientes
22Conclusiones IIIEtiquetado semiautomático
- Así
- Los casos COMP, INS e -I BURUZ, desambiguarían
los sentidos y roles sin ningún error. - En el corpus, el COMP aparece en un 82 , y el
INS en un 3 - Eso significa que sólo un 18 quedaría ambíguo,
para tratarlo manualmente.
23Conclusiones IIIEtiquetado semiautomático
- Los adjuntos hay que etiquetarlos manualmente.
- Hace falta una revisión manual final
- La tarea principal consiste en definir bien las
entradas verbales. A partir de ahí, se pueden
proponer métodos semiautomáticos que faciliten y
agilicen la tarea de etiquetado.