Construccin de treebanks: el proyecto 3LB - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Construccin de treebanks: el proyecto 3LB

Description:

Definici n y utilidades de un treebank. inferencia / extracci n de conocimiento ... fija el an lisis correcto de ambos anotadores o, en su caso, corregir EusWN. ... – PowerPoint PPT presentation

Number of Views:24
Avg rating:3.0/5.0
Slides: 50
Provided by: muti
Category:

less

Transcript and Presenter's Notes

Title: Construccin de treebanks: el proyecto 3LB


1
ConstrucciĆ³n de treebanks el proyecto 3LB
  • Alicia Ageno

Centre TALP Universitat PolitĆØcnica de Catalunya
2
ƍndice
  • IntroducciĆ³n creaciĆ³n de treebanks
  • El proyecto 3LB
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros
  • LĆ­neas de investigaciĆ³n
  • Datos
  • Herramientas desarrolladas

3
ƍndice
  • IntroducciĆ³n creaciĆ³n de treebanks
  • El proyecto 3LB
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros
  • LĆ­neas de investigaciĆ³n
  • Datos
  • Herramientas desarrolladas

4
DefiniciĆ³n y utilidades de un treebank
5
MetodologĆ­a
AnotaciĆ³n manual
AnotaciĆ³n semi-automĆ”tica
6
Estado del Arte (1) Treebanks existentes
  • (principales treebanks listado no exhaustivo)
  • NEGRA / TIGER (alemĆ”n 350.000 tokens)
  • PDT Prague Dependency Treebank (checo 450.000
    tok.)
  • Corpus Le Monde (francĆ©s 1.000.000 tokens)
  • TUT Turin University Treebank (italiano 1.000
    oraciones)
  • Spanish Treebank (UAM) (1.500 oraciones)
  • ISST Italian Syntactic-Semantic Treebank
    (300.000 tok.)
  • Penn Treebank (inglĆ©s 3mill. / 2 mill)
  • Susanne Corpus (inglĆ©s 120.000 tokens)

7
Estado del Arte (2) conceptos bƔsicos
Nivel de anotaciĆ³n morfologĆ­a / sintaxis /
(semƔntica)
Sintaxis
8
Dos ejemplos paradigmƔticos
PDT dependencias
NEGRA / Le Monde constituyentes y funciones
9
(No Transcript)
10
NEGRA (1)
AnotaciĆ³n sintĆ”ctica de
  • estructura sintĆ”ctica (parentizaciĆ³n)
  • categorĆ­as sintĆ”cticas (etiquetas para
    constituyentes)
  • funciones gramaticales

No tratan categorĆ­as vacĆ­as
Estructuras totalmente planas (X y X0)
Se permite el cruce de ramas (constituyentes
discontinuos)
11
(No Transcript)
12
Le Monde
chunker ? clustering lƩxico parser ? marcaje
constituyentes no recursivos tagger funcional ?
asignaciĆ³n funciones sintĆ”cticas
Marcaje de constituyentes
ltNPgt Marie lt/NPgt ltVNgt aime lt/VNgt ltNPgt les
fraises lt/NPgt ltCOORDgt et ltNPgt Paul lt/NPgt
ltNPgt les bananes lt/NPgt lt/COORDgt
13
ƍndice
  • IntroducciĆ³n
  • El proyecto 3LB
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros

14
Proyecto 3LB
Dpto. de Lenguajes y Sistemas informƔticos Univers
idad de Alicante
CLIC Centre de Llenguatge i ComputaciĆ³ Universitat
de Barcelona
IXA Taldea Euskal Herriko Unibersitatea
Dpto. de Sistemas InformƔticos y
ComputaciĆ³n Universidad PolitĆ©cnica de Valencia
Centre Talp Universitat PolitĆØcnica de Catalunya
15
Proyecto 3LB
  • Objetivo anotar tres corpus con informaciĆ³n
    sintƔctica y semƔntica
  • Cat3LB ? catalĆ”n
  • Eus3LB ? euskera
  • Cast3LB ? castellano
  • 25 de los corpus son comparables extraĆ­do de
    noticias de EFE de las mismas fechas.

16
ƍndice
  • IntroducciĆ³n
  • El proyecto 3LB
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros

17
Etiquetado sintƔctico
  • Para cada lengua se ha optado por un esquema de
    anotaciĆ³n, segĆŗn sus caracterĆ­sticas
  • Cat3LB constituyentes y funciones
  • Cast3LB constituyentes y funciones
  • Eus3LB dependencias.

18
LĆ­neas de etiquetado constituyentes y funciones
  • MetodologĆ­a etiquetado constituyentes
  • Chunking automĆ”tico (TACAT GramEsp/Cat).

19
LĆ­neas de etiquetado constituyentes y funciones
TokenizaciĆ³n IdentificaciĆ³n de Fechas
Strong Named-Entities
TokenizaciĆ³n
20
LĆ­neas de etiquetado constituyentes y funciones
Analizador MorfolĆ³gico (MACO) Desambiguador (REL
AX)
Etiquetado MorfolĆ³gico
TokenizaciĆ³n
ValidaciĆ³n manual de 100.000 palabras Corpus
CLiC-TALP
21
LĆ­neas de etiquetado constituyentes y funciones
Chunker (TACAT GramEsp
GramCat)
22
AnĆ”lisis MorfolĆ³gico (MACO)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0 e
NCFP000 rentable rentable AQ0CS0 publicitar
iamente publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 espaƱol
espaƱol AQ0MS0 espaƱol NCMS000 tiene tener
VMIP3S0 un uno DI0MS0 gran grande AQ0CS0
problema problema NCMS000 . . Fp
23
DesambiguaciĆ³n MorfolĆ³gica (RELAX)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0
rentable rentable AQ0CS0 publicitariamente
publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 espaƱol
espaƱol AQ0MS0 tiene tener VMIP3S0 un uno
DI0MS0 gran grande AQ0CS0 problema
problema NCMS000 . . Fp
24
Chunking (TACAT)
Etiquetado
25
LĆ­neas de etiquetado constituyentes y funciones
  • MetodologĆ­a etiquetado constituyentes
  • AnotaciĆ³n paralela de las 100 primeras oraciones
    entre cinco lingĆ¼istas
  • Establecimiento de los principios bĆ”sicos de
    anotaciĆ³n.
  • AnotaciĆ³n de 220 oraciones
  • RevisiĆ³n, modificaciĆ³n de los principios de
    anotaciĆ³n.
  • RevisiĆ³n de la anotaciĆ³n previa y refinamiento de
    las normas de anotaciĆ³n.
  • Acuerdo entre anotadores
  • AnotaciĆ³n del resto del corpus.

26
LĆ­neas de etiquetado constituyentes y funciones
  • MetodologĆ­a etiquetado funciones
  • AnotaciĆ³n de 100 oraciones en paralelo
  • Principios bĆ”sicos de anotaciĆ³n.
  • ComparaciĆ³n de la anotaciĆ³n
  • RevisiĆ³n y actualizaciĆ³n de la guĆ­a de anotaciĆ³n.
  • AnotaciĆ³n del resto de corpus

27
LĆ­neas de etiquetado constituyentes y funciones
  • En una primera fase se aplicĆ³ esta metodologĆ­a al
    corpus castellano Cast3LB, y luego al corpus
    catalƔn Cat3LB.
  • Para el corpus catalĆ”n el proceso fue mĆ”s rĆ”pido,
    ya que se aprovechĆ³ la experiencia del corpus
    castellano.

28
LĆ­neas de etiquetado dependencias
  • MetodologĆ­a
  • AnotaciĆ³n de 20 oraciones
  • DefiniciĆ³n de los criterios de anotaciĆ³n bĆ”sicos
  • AnotaciĆ³n en paralelo de 150 oraciones
    seleccionadas.
  • Estructuras representativas del euskera.
  • Acuerdo entre anotadores
  • AnotaciĆ³n del resto del corpus.

29
Datos anƔlisis sintƔctico
  • Cast3LB
  • 100.000 palabras (4.000 oraciones aprox).
  • Cat3LB
  • Constituyentes 106.000 palabras (2.700 oraciones
    aprox).
  • Funciones 53.000 palabras aprox. (1.350
    oraciones)
  • Eus3LB
  • 56.000 palabras (3.708 oraciones aprox)

30
Acuerdo entre anotadores
  • MĆ©tricas Parseval
  • Adaptadas a situaciĆ³n sin gold standard
  • ComparaciĆ³n de anĆ”lisis en ambos sentidos y
    cƔlculo de las medias con ambas medidas.
  • Medidas de comparaciĆ³n
  • P.E. precisiĆ³n de etiquetado.
  • P.P. precisiĆ³n de parentizado.
  • P.C. cobertura de parĆ©ntesis consistentes

31
Acuerdo entre anotadores
  • MetodologĆ­a
  • ComparaciĆ³n del anĆ”lisis entre anotadores en
    cinco fases de la anotaciĆ³n desde la primera con
    un borrador de la guĆ­a de anotaciĆ³n hasta la
    Ćŗltima con la guĆ­a de anotaciĆ³n acabada.
  • La precisiĆ³n llega a mejorar hasta un 27.

32
Acuerdo entre anotadores
  • Resultados

33
Herramientas
  • Castellano y catalĆ”n adaptaciĆ³n del editor de
    Ɣrboles del AGTK, TreeTrans
  • ModificaciĆ³n del formato de entrada/salida para
    que acepte TBF y XML.
  • AdaptaciĆ³n para que acepte sentidos de palabras.
  • Euskera 3LBAbarHitz
  • EspecĆ­fica para la anotaciĆ³n de dependencias
    controla el nĆŗmero y tipo de campos descritos en
    cada etiqueta
  • EdiciĆ³n visual de Ć”rboles

34
(No Transcript)
35
II Jornada La Recerca al Departament de
LingĆ¼Ć­stica General de la UB
Dijous, 3 octubre 2003
36
ltAnnotation id'agTreebankAG2Annotation22'
start'agTreebankAG2Anchor7' end'agTreebankAG
2Anchor8' type'wrd'gt ltFeature
name'label'gtlalt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation23lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation23' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'pos'gt ltFeatur
e name'label'gtda0fs0lt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation24lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation24' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'syn'gt ltFeatur
e name'label'gtespec.fslt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation28lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation28' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor9' type'syn'gt ltFeatur
e name'label'gtsnlt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation29lt/Feature
gt lt/Annotationgt lt/Annotationgt
II Jornada La Recerca al de LingĆ¼Ć­stica General
de la UB
37
II Jornada La Recerca al de LingĆ¼Ć­stica General
de la UB
, 3 octubre 2003
38
ƍndice
  • IntroducciĆ³n
  • El proyecto 3LB
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros

39
LĆ­neas de etiquetado
  • EspecificaciĆ³n del sentido de nombres, verbos y
    adjetivos
  • AproximaciĆ³n all words.
  • Mismo planteamiento para las tres lenguas
  • MetodologĆ­a
  • Recurso lĆ©xico
  • Herramienta de anotaciĆ³n

40
LĆ­neas de etiquetado
  • Recurso LĆ©xico WordNet espaƱol, WordNet catalĆ”n
    y WordNet euskera.
  • Misma estructura y misma representaciĆ³n semĆ”ntica
    para las tres lenguas.
  • Carencias de sentido o de palabra
  • etiqueta especial.

41
LĆ­neas de etiquetado
  • AproximaciĆ³n lĆ©xica o transversal
  • Mayor consistencia
  • Disminuye tiempo y esfuerzo anotaciĆ³n
  • MĆ©todo seguido en catalĆ”n y castellano
  • AnotaciĆ³n automĆ”tica con palabras de un solo
    sentido.
  • RevisiĆ³n final.
  • AnotaciĆ³n en paralelo de un subconjunto de
    palabras frecuentes
  • EspecificaciĆ³n de casos problemĆ”ticos
    (ambigĆ¼edad).
  • Desarrollo de la guĆ­a de anotaciĆ³n
  • un sentido por palabra
  • ante duda, el mĆ”s general
  • sĆ³lo para casos muy claros se asignarĆ”s mĆ”s de
    uno
  • AnotaciĆ³n del resto del corpus.

42
LĆ­neas de etiquetado
  • AproximaciĆ³n lĆ©xica o transversal
  • MĆ©todo seguido en euskera
  • Corpus mayor (300.000 palabras)
  • AnotaciĆ³n en paralelo de un subgrupo de palabras
    frecuentes
  • ModificaciĆ³n, si es necesario, de las acepciones
    de EusWN.
  • Un Ć”rbitro fija el anĆ”lisis correcto de ambos
    anotadores o, en su caso, corregir EusWN.
  • Para la anotaciĆ³n del resto del corpus anotaciĆ³n
    por separado, y verificaciĆ³n de muestras.

43
Datos anƔlisis semƔntico
  • Cast3LB 42.291 palabras aprox. (100)
  • 20.461 nombres,
  • 13.471 verbos,
  • 8.543 adjetivos.
  • Cat3LB 4.417 aprox. (10)
  • 2.379 formas nominales (839 nombres distintos),
  • 1.225 formas verbales (401 verbos distintos),
  • 813 formas adjetivas (377 adjetivos distintos).
  • Eus3LB 5.000 formas (10 del corpus de 300.000
    palabras)
  • Correspondientes a 75 palabras diferentes
    (incluyendo sustantivos, verbos y adjetivos).

44
Herramientas
  • 3LB-SAT
  • Orientada al etiquetado semĆ”ntico transversal o
    lƩxico.
  • Entrada TBF/XML y salida XML.
  • EWN etiquetas de carencias.
  • AnotaciĆ³n automĆ”tica de
  • palabras monosĆ©micas
  • palabras que no aparecen en los WWNN.
  • Informe de cambios

45
II Jornada La Recerca al Departament de
LingĆ¼Ć­stica General de la UB
Dijous, 3 octubre 2003
46
ƍndice
  • IntroducciĆ³n
  • Etiquetado sintĆ”ctico
  • Etiquetado semĆ”ntico
  • Conclusiones y trabajos futuros

47
Conclusiones
  • Con el proyecto 3LB se ha desarrollado un corpus
    anotado sintƔctica y semƔnticamente para el
    catalƔn, otro para el euskera y otro para el
    castellano.
  • MĆ”xima consistencia entre los tres corpus.
  • Libre disposiciĆ³n para investigaciĆ³n.
  • Manuales de anotaciĆ³n lingĆ¼Ć­stica para cada
    lengua profundamente desarrollados y probados en
    cada corpus
  • Importante aportaciĆ³n metodolĆ³gica al tema de la
    anotaciĆ³n sintĆ”ctica
  • Disponibles en la web http//clic.fil.ub.es/perso
    nal/civit

48
Trabajos futuros
  • AnotaciĆ³n de la anĆ”fora y cadenas de
    correferencia.
  • Similar criterio de anotaciĆ³n para las tres
    lenguas.
  • AmpliaciĆ³n del corpus a 500.000 palabras para
    cada lengua.
  • Desarrollo de recursos para la explotaciĆ³n de los
    corpus.

49
MĆ”s informaciĆ³n y/o contacto
  • http//gplsi.dlsi.ua.es9998
  • http//www.dlsi.ua.es/projectes/3lb/
  • http//www.lsi.upc.es/ageno
Write a Comment
User Comments (0)
About PowerShow.com