Estudio preliminar para la creacin de Euskal PropBank - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Estudio preliminar para la creacin de Euskal PropBank

Description:

... la entrada l xica del ... Proponer la entrada l xica del verbo esan al estilo PropBank, ... Revisar/modificar la entrada. Agrupar dudas y completar la tabla ... – PowerPoint PPT presentation

Number of Views:65
Avg rating:3.0/5.0
Slides: 24
Provided by: gria
Category:

less

Transcript and Presenter's Notes

Title: Estudio preliminar para la creacin de Euskal PropBank


1
Estudio preliminar para la creación de Euskal
PropBank
  • Izaskun Aldezabal Roteta
  • Grupo Ixa, UPV-EHU
  • SERES. Octubre, 2006

2
Esquema
  • Finalidad
  • Recursos
  • Metodología
  • Conclusiones

3
Finalidad
  • Comprobar la validez del modelo de etiquetado de
    PropBank para el euskera
  • Motivación
  • Parten de un corpus etiquetado sintácticamente
  • Decisiones importantes tomadas distinción
    argumentos/adjuntos, sentidos...
  • Se está trabajando con más lenguas chino,
    español, catalán, euskera (español-catalán-euskera
    , en la acción complementaria CESS-ECE).
    Comparación multilingüe.

4
Recursos
  • Corpus Eus3LB Corpus del euskera etiquetado
    sintácticamente, basándose en dependencias
    (50.000 palabras).
  • Base de datos creada con la información obtenida
    de PropBank y Verbnet. (Grupo Ixa base de datos
    (de pago) PropBank).
  • Diccionarios monolingües y bilingües
    (euskera-castellano inglés)
  • Tesis de Aldezabal (2004) Estudio de la
    subcategorización verbal. Análisis detallado de
    100 verbos en euskera, basándose en Levin (1993)
    y utilizando métodos automáticos.

5
Metodología
  • Preparar la entrada léxica del verbo
  • Elegir el verbo en euskera
  • Obtener la visión general de los sentidos del
    verbo en euskera y buscar sus equivalentes
    léxicos en inglés
  • Analizar los equivalentes sintácticos en inglés
  • Aplicar las entradas equivalentes de VerbNet y
    PropBank al euskera
  • Etiquetar el corpus con los roles temáticos
  • Etiquetar el corpus
  • Criterios generales
  • Agrupar las dudas y completar la tabla de
    comentarios
  • Revisar/modificar la entrada

6
Metodología IPreparar la entrada léxica del
verbo (I)
  • Elegir el verbo en euskera
  • Eus3lb
  • 622 verbos diferentes
  • 40 verbos de más de 20 apariciones
  • 482 verbos de menos de 5 apariciones
  • Criterios facilidad y frecuencia

7
Metodología IPreparar la entrada léxica del
verbo (II)
  • Obtener la visión general de los sentidos del
    verbo en euskera
  • Diccionarios monolingües
  • Expresar algo mediante palabras / prometer /
    llamarse
  • Tesis Aldezabal (2004)
  • Dos sentidos
  • esan-DU-1 y esan-DU-2 actividad (de expresión)
    de una entidad
  • esan-DIO-3 asignación de un atributo o
    característica a una entidad
  • Conclusiones
  • Dos acepciones
  • alguien dice (a alguien) algo
  • alguien llama a algo de una manera

8
Metodología IPreparar la entrada léxica del
verbo (III)
  • Analizar los equivalentes léxicos en inglés para
    esos sentidos
  • Diccionarios bilingües
  • alguien dice (a alguien) algo say eta tell
  • alguien llama a algo de una madera call

9
Metodología IPreparar la entrada léxica del
verbo (IV)
  • Analizar los equivalentes sintácticos en PropBank
    y en Verbnet. Para ello
  • Enterder la filosofía general de PropBank
  • Entender la filosofía general de Verbnet

10
Metodología IPreparar la entrada léxica del
verbo (V)
  • Filosofía general de PropBank
  • Dos niveles independientes
  • Argumentos y adjuntos
  • Argumentos 0-4 (Arg0, Arg1, , Arg4)
  • Adjuntos (ArgM)
  • Roles semánticos específicos
  • buyer, thing bought, speaker
  • Cada verbo tiene sus rolsets (sentidos) y cada
    rolset tiene sus frames (realizaciones
    sintácticas frameset)

11
Metodología IPreparar la entrada léxica del
verbo (VI)
Ejemplo tell El roleset de tell.01 es
arg 0 speaker arg 1 utterance arg 2
hearer
Los frames asociados con el rolset tell.01 se
expresan de la siguiente manera ditransitive
(-) The score tell you what the characters are
thinking and feeling. Arg0 The score REL
tell Arg2 you Arg1 what the characters are
thinking and feeling odd ditransitive (-)
prepositional arg2 (-) fronted (-)
12
Metodología IPreparar la entrada léxica del
verbo (VII)
  • Filosofía general de Verbnet http//www.cis.upenn
    .edu/group/verbnet/
  • Clasificación basada en Levin (1993)
  • Número de la clase 9.1, 9.2, 10.1
  • Roles semánticos generales
  • agent, theme, topic, beneficiary
  • Propiedades semánticas
  • animate, organization, communication,
    concrete, location, region, animal

13
Metodologia I Preparar la entrada léxica del
verbo (VIII)
  • Consultar los verbos (say, tell y call) en la
    base de datos Verbnet/PropBank Ej.
  • say.01 (LEVIN say 37.7)
  • ARG0-null Sayer (VN Agent 37.7)
    10449 (by 1)
  • ARG1-null Utterance (VN Topic 37.7)
    10491 (by 1)
  • 10503 ARG2-null Hearer (VN Recipient 37.7)
    12 (to 10)
  • ARG3-null Attributive (VN ) 37 (null 2,
    about 10, ADV 1, for 2, For 3, in
    1, of 16, Of 2)
  • tell.01 (LEVIN pass along information 37.1-1
    37.2)
  • ARG0-null Speaker (VN Agent 37.1-1Agent
    37.2) 323 (by 4)
  • 356 ARG1-null Utterance (VN Topic 37.1-1Topic
    37.2) 340 (about 8, of 5)
  • ARG2-null Hearer (VN Recipient
    37.1-1Recipient 37.)310 (to2, REC1)

14
Metodología IPreparar la entrada léxica del
verbo (IX)
  • Tener en cuenta lo propuesto en la tesis de
    Aldezabal (2004) (esan)
  • 3 frames sintáctico-semánticos (fss),
    correspondientes a dos sentidos
  • 1. alguien dice algo 2 argumentos con 2
    variantes sintácticas
  • esan-DU-1 experimentador (erg) tema (abs)
  • esan-DU-2 experimentador (erg) tema (compl.)
  • 2. alguien a algo/alguien dice de un forma 3
    argumentos, sin variantes sintácticas
  • esan-DU-3 origen (erg) destino (dat)
    característica (abs)

15
Metodologia I Preparar la entrada léxica del
verbo (X)
  • Proponer la entrada léxica del verbo esan al
    estilo PropBank, manteniendo la información de
    los casos
  • esan.01 (alguien dice algo a alguien sobre
    algo)
  • Arg0 el que dice sayer agent ERG
  • Arg1 lo dicho utterance topic ABS/COMPL
  • Arg2 oyente hearer recipient DAT
  • Arg3 atributo attributive??? INS / -i buruz
  • esan.02 (alguien dice a algo/alguien de una
    manera)
  • Arg0 el que dice caller agent ERG
  • Arg1 el calificado item being
    labelled theme DAT
  • Arg2 la calificación attribute of
    arg1 predicate ABS

16
Metodología IIEtiquetar el corpus con roles
temáticos (I)
  • Etiquetar el corpus EPEC (corpus de referencia
    para el tratamiento del euskera). 300.000
    palabras.
  • Euskal gatazka ez dela armen bidez konponduko
    esan digu, politikoki baizik, borroka armatua eta
    errepresio itsua gaitzetsirik (Nos ha dicho que
    el conflicto vasco no se arreglará mediante las
    armas)
  • ccomp_obj (konp, esan, aditz_aurk, dela) Arg1
    utterance/topic
  • ncsubj (erg, esan, pro2.1, pro2.1, subj)
  • nczobj (dat, esan, pro3.1, pro3.1, zobj)
  • auxmod (-, esan, digu)
  • Gurreak ekintza salatu eta familiari elkartasuna
    adierazi zion, Gobernuaren izenean (Gurrea ha
    denunciado lo sucedido y le ha expresado su
    solidaridad a la familia)
  • ncsubj (erg, adierazi, pro1.1, pro1.1, subj)
  • nczobj (dat, adierazi, familiari, familiari,
    zobj) Arg2 entzulea/hearer/recipient
  • ncobj (abs, adierazi, elkartasuna, elkartasuna,
    obj) Arg1 utterance/topic
  • auxmod (-, adierazi, zion)

17
Metodología IIEtiquetar el corpus con roles
temáticos (II)
  • Teniendo en cuenta los criterios generales
  • Los más importantes
  • Semántica superficial (sólo los
    argumentos/adjuntos que aparecen en el corpus)
  • La unidad es la oración de cada verbo a tratar
  • Dejar a un lado las oraciones dudosas

18
Metodología IIIAgrupar las dudas.
Revisar/modificar la entrada
  • Agrupar dudas y completar la tabla de comentarios
  • Problemas con los argumentos
  • -Arg3 attributive -ren kasuan , ren aurrean ,
    -ren gainean, -ri buruz... Son attributive?.
    Comparar si con otros verbos estos casos
    complejos tienen el mismo valor.
  • Ejemplos dudosos
  • - Ambigüedad de los modificadores pertenecen a
    un verbo u otro?
  • Revisar/modificar la entrada, si hace falta
  • añadir/quitar
  • argumentos
  • sentidos
  • realizaciones sintácticas

19
Conclusiones I
  • La adecuación al euskera de las entradas y el
    etiquetado del modelo PropBank no ha acarreado
    mayores problemas. Hemos trabajado con tres
    verbos (esan, adierazi, eskatu). Quizás hay que
    probar con verbos más difíciles (ambiguos)
  • Con todo, el estudio preliminar ha demostrado que
    el modelo PropBank es válido para el euskera
  • Prevemos realizar el etiquetado de forma
    semiautómatica. De la siguiente manera

20
Conclusiones IIEtiquetado semiautomático
  • Etiquetado semiautómático
  • Se pueden utilizar heurísticos que garantizan un
    etiquetado autómatico correcto
  • Pueden ser generales
  • Caso de declinación ERG gt Arg0
  • Pueden ser específicos (para cada verbo)

21
Conclusiones IIIEtiquetado semiautomático
  • Por ejemplo, con el verbo esan, las ambigüedades
    de los casos según los sentidos son las
    siguientes

22
Conclusiones IIIEtiquetado semiautomático
  • Así
  • Los casos COMP, INS e -I BURUZ, desambiguarían
    los sentidos y roles sin ningún error.
  • En el corpus, el COMP aparece en un 82 , y el
    INS en un 3
  • Eso significa que sólo un 18 quedaría ambíguo,
    para tratarlo manualmente.

23
Conclusiones IIIEtiquetado semiautomático
  • Los adjuntos hay que etiquetarlos manualmente.
  • Hace falta una revisión manual final
  • La tarea principal consiste en definir bien las
    entradas verbales. A partir de ahí, se pueden
    proponer métodos semiautomáticos que faciliten y
    agilicen la tarea de etiquetado.
Write a Comment
User Comments (0)
About PowerShow.com