Title: Construccin de treebanks: el proyecto 3LB
1ConstrucciĆ³n de treebanks el proyecto 3LB
Centre TALP Universitat PolitĆØcnica de Catalunya
2Ćndice
- IntroducciĆ³n creaciĆ³n de treebanks
- El proyecto 3LB
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
- LĆneas de investigaciĆ³n
- Datos
- Herramientas desarrolladas
3Ćndice
- IntroducciĆ³n creaciĆ³n de treebanks
- El proyecto 3LB
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
- LĆneas de investigaciĆ³n
- Datos
- Herramientas desarrolladas
4DefiniciĆ³n y utilidades de un treebank
5MetodologĆa
AnotaciĆ³n manual
AnotaciĆ³n semi-automĆ”tica
6Estado del Arte (1) Treebanks existentes
- (principales treebanks listado no exhaustivo)
- NEGRA / TIGER (alemƔn 350.000 tokens)
- PDT Prague Dependency Treebank (checo 450.000
tok.) - Corpus Le Monde (francƩs 1.000.000 tokens)
- TUT Turin University Treebank (italiano 1.000
oraciones) - Spanish Treebank (UAM) (1.500 oraciones)
- ISST Italian Syntactic-Semantic Treebank
(300.000 tok.) - Penn Treebank (inglƩs 3mill. / 2 mill)
- Susanne Corpus (inglƩs 120.000 tokens)
7Estado del Arte (2) conceptos bƔsicos
Nivel de anotaciĆ³n morfologĆa / sintaxis /
(semƔntica)
Sintaxis
8Dos ejemplos paradigmƔticos
PDT dependencias
NEGRA / Le Monde constituyentes y funciones
9(No Transcript)
10NEGRA (1)
AnotaciĆ³n sintĆ”ctica de
- estructura sintĆ”ctica (parentizaciĆ³n)
- categorĆas sintĆ”cticas (etiquetas para
constituyentes) - funciones gramaticales
No tratan categorĆas vacĆas
Estructuras totalmente planas (X y X0)
Se permite el cruce de ramas (constituyentes
discontinuos)
11(No Transcript)
12Le Monde
chunker ? clustering lƩxico parser ? marcaje
constituyentes no recursivos tagger funcional ?
asignaciĆ³n funciones sintĆ”cticas
Marcaje de constituyentes
ltNPgt Marie lt/NPgt ltVNgt aime lt/VNgt ltNPgt les
fraises lt/NPgt ltCOORDgt et ltNPgt Paul lt/NPgt
ltNPgt les bananes lt/NPgt lt/COORDgt
13Ćndice
- IntroducciĆ³n
- El proyecto 3LB
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
14Proyecto 3LB
Dpto. de Lenguajes y Sistemas informƔticos Univers
idad de Alicante
CLIC Centre de Llenguatge i ComputaciĆ³ Universitat
de Barcelona
IXA Taldea Euskal Herriko Unibersitatea
Dpto. de Sistemas InformƔticos y
ComputaciĆ³n Universidad PolitĆ©cnica de Valencia
Centre Talp Universitat PolitĆØcnica de Catalunya
15Proyecto 3LB
- Objetivo anotar tres corpus con informaciĆ³n
sintƔctica y semƔntica - Cat3LB ? catalƔn
- Eus3LB ? euskera
- Cast3LB ? castellano
- 25 de los corpus son comparables extraĆdo de
noticias de EFE de las mismas fechas.
16Ćndice
- IntroducciĆ³n
- El proyecto 3LB
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
17Etiquetado sintƔctico
- Para cada lengua se ha optado por un esquema de
anotaciĆ³n, segĆŗn sus caracterĆsticas - Cat3LB constituyentes y funciones
- Cast3LB constituyentes y funciones
- Eus3LB dependencias.
18LĆneas de etiquetado constituyentes y funciones
- MetodologĆa etiquetado constituyentes
- Chunking automƔtico (TACAT GramEsp/Cat).
19LĆneas de etiquetado constituyentes y funciones
TokenizaciĆ³n IdentificaciĆ³n de Fechas
Strong Named-Entities
TokenizaciĆ³n
20LĆneas de etiquetado constituyentes y funciones
Analizador MorfolĆ³gico (MACO) Desambiguador (REL
AX)
Etiquetado MorfolĆ³gico
TokenizaciĆ³n
ValidaciĆ³n manual de 100.000 palabras Corpus
CLiC-TALP
21LĆneas de etiquetado constituyentes y funciones
Chunker (TACAT GramEsp
GramCat)
22AnĆ”lisis MorfolĆ³gico (MACO)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0 e
NCFP000 rentable rentable AQ0CS0 publicitar
iamente publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 espaƱol
espaƱol AQ0MS0 espaƱol NCMS000 tiene tener
VMIP3S0 un uno DI0MS0 gran grande AQ0CS0
problema problema NCMS000 . . Fp
23DesambiguaciĆ³n MorfolĆ³gica (RELAX)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0
rentable rentable AQ0CS0 publicitariamente
publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 espaƱol
espaƱol AQ0MS0 tiene tener VMIP3S0 un uno
DI0MS0 gran grande AQ0CS0 problema
problema NCMS000 . . Fp
24Chunking (TACAT)
Etiquetado
25LĆneas de etiquetado constituyentes y funciones
- MetodologĆa etiquetado constituyentes
- AnotaciĆ³n paralela de las 100 primeras oraciones
entre cinco lingĆ¼istas - Establecimiento de los principios bĆ”sicos de
anotaciĆ³n. - AnotaciĆ³n de 220 oraciones
- RevisiĆ³n, modificaciĆ³n de los principios de
anotaciĆ³n. - RevisiĆ³n de la anotaciĆ³n previa y refinamiento de
las normas de anotaciĆ³n. - Acuerdo entre anotadores
- AnotaciĆ³n del resto del corpus.
26LĆneas de etiquetado constituyentes y funciones
- MetodologĆa etiquetado funciones
- AnotaciĆ³n de 100 oraciones en paralelo
- Principios bĆ”sicos de anotaciĆ³n.
- ComparaciĆ³n de la anotaciĆ³n
- RevisiĆ³n y actualizaciĆ³n de la guĆa de anotaciĆ³n.
- AnotaciĆ³n del resto de corpus
27LĆneas de etiquetado constituyentes y funciones
- En una primera fase se aplicĆ³ esta metodologĆa al
corpus castellano Cast3LB, y luego al corpus
catalƔn Cat3LB. - Para el corpus catalƔn el proceso fue mƔs rƔpido,
ya que se aprovechĆ³ la experiencia del corpus
castellano.
28LĆneas de etiquetado dependencias
- MetodologĆa
- AnotaciĆ³n de 20 oraciones
- DefiniciĆ³n de los criterios de anotaciĆ³n bĆ”sicos
- AnotaciĆ³n en paralelo de 150 oraciones
seleccionadas. - Estructuras representativas del euskera.
- Acuerdo entre anotadores
- AnotaciĆ³n del resto del corpus.
29Datos anƔlisis sintƔctico
- Cast3LB
- 100.000 palabras (4.000 oraciones aprox).
- Cat3LB
- Constituyentes 106.000 palabras (2.700 oraciones
aprox). - Funciones 53.000 palabras aprox. (1.350
oraciones) - Eus3LB
- 56.000 palabras (3.708 oraciones aprox)
30Acuerdo entre anotadores
- MĆ©tricas Parseval
- Adaptadas a situaciĆ³n sin gold standard
- ComparaciĆ³n de anĆ”lisis en ambos sentidos y
cĆ”lculo de las medias con ambas medidas. - Medidas de comparaciĆ³n
- P.E. precisiĆ³n de etiquetado.
- P.P. precisiĆ³n de parentizado.
- P.C. cobertura de parƩntesis consistentes
31Acuerdo entre anotadores
- MetodologĆa
- ComparaciĆ³n del anĆ”lisis entre anotadores en
cinco fases de la anotaciĆ³n desde la primera con
un borrador de la guĆa de anotaciĆ³n hasta la
Ćŗltima con la guĆa de anotaciĆ³n acabada. - La precisiĆ³n llega a mejorar hasta un 27.
32Acuerdo entre anotadores
33Herramientas
- Castellano y catalĆ”n adaptaciĆ³n del editor de
Ć”rboles del AGTK, TreeTrans - ModificaciĆ³n del formato de entrada/salida para
que acepte TBF y XML. - AdaptaciĆ³n para que acepte sentidos de palabras.
- Euskera 3LBAbarHitz
- EspecĆfica para la anotaciĆ³n de dependencias
controla el nĆŗmero y tipo de campos descritos en
cada etiqueta - EdiciĆ³n visual de Ć”rboles
34(No Transcript)
35II Jornada La Recerca al Departament de
LingĆ¼Ćstica General de la UB
Dijous, 3 octubre 2003
36ltAnnotation id'agTreebankAG2Annotation22'
start'agTreebankAG2Anchor7' end'agTreebankAG
2Anchor8' type'wrd'gt ltFeature
name'label'gtlalt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation23lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation23' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'pos'gt ltFeatur
e name'label'gtda0fs0lt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation24lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation24' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'syn'gt ltFeatur
e name'label'gtespec.fslt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation28lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation28' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor9' type'syn'gt ltFeatur
e name'label'gtsnlt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation29lt/Feature
gt lt/Annotationgt lt/Annotationgt
II Jornada La Recerca al de LingĆ¼Ćstica General
de la UB
37II Jornada La Recerca al de LingĆ¼Ćstica General
de la UB
, 3 octubre 2003
38Ćndice
- IntroducciĆ³n
- El proyecto 3LB
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
39LĆneas de etiquetado
- EspecificaciĆ³n del sentido de nombres, verbos y
adjetivos - AproximaciĆ³n all words.
- Mismo planteamiento para las tres lenguas
- MetodologĆa
- Recurso lƩxico
- Herramienta de anotaciĆ³n
40LĆneas de etiquetado
- Recurso LƩxico WordNet espaƱol, WordNet catalƔn
y WordNet euskera. - Misma estructura y misma representaciĆ³n semĆ”ntica
para las tres lenguas. - Carencias de sentido o de palabra
- etiqueta especial.
41LĆneas de etiquetado
- AproximaciĆ³n lĆ©xica o transversal
- Mayor consistencia
- Disminuye tiempo y esfuerzo anotaciĆ³n
- MƩtodo seguido en catalƔn y castellano
- AnotaciĆ³n automĆ”tica con palabras de un solo
sentido. - RevisiĆ³n final.
- AnotaciĆ³n en paralelo de un subconjunto de
palabras frecuentes - EspecificaciĆ³n de casos problemĆ”ticos
(ambigĆ¼edad). - Desarrollo de la guĆa de anotaciĆ³n
- un sentido por palabra
- ante duda, el mƔs general
- sĆ³lo para casos muy claros se asignarĆ”s mĆ”s de
uno - AnotaciĆ³n del resto del corpus.
42LĆneas de etiquetado
- AproximaciĆ³n lĆ©xica o transversal
- MĆ©todo seguido en euskera
- Corpus mayor (300.000 palabras)
- AnotaciĆ³n en paralelo de un subgrupo de palabras
frecuentes - ModificaciĆ³n, si es necesario, de las acepciones
de EusWN. - Un Ɣrbitro fija el anƔlisis correcto de ambos
anotadores o, en su caso, corregir EusWN. - Para la anotaciĆ³n del resto del corpus anotaciĆ³n
por separado, y verificaciĆ³n de muestras.
43Datos anƔlisis semƔntico
- Cast3LB 42.291 palabras aprox. (100)
- 20.461 nombres,
- 13.471 verbos,
- 8.543 adjetivos.
- Cat3LB 4.417 aprox. (10)
- 2.379 formas nominales (839 nombres distintos),
- 1.225 formas verbales (401 verbos distintos),
- 813 formas adjetivas (377 adjetivos distintos).
- Eus3LB 5.000 formas (10 del corpus de 300.000
palabras) - Correspondientes a 75 palabras diferentes
(incluyendo sustantivos, verbos y adjetivos).
44Herramientas
- 3LB-SAT
- Orientada al etiquetado semƔntico transversal o
lƩxico. - Entrada TBF/XML y salida XML.
- EWN etiquetas de carencias.
- AnotaciĆ³n automĆ”tica de
- palabras monosƩmicas
- palabras que no aparecen en los WWNN.
- Informe de cambios
45II Jornada La Recerca al Departament de
LingĆ¼Ćstica General de la UB
Dijous, 3 octubre 2003
46Ćndice
- IntroducciĆ³n
- Etiquetado sintƔctico
- Etiquetado semƔntico
- Conclusiones y trabajos futuros
47Conclusiones
- Con el proyecto 3LB se ha desarrollado un corpus
anotado sintƔctica y semƔnticamente para el
catalƔn, otro para el euskera y otro para el
castellano. - MƔxima consistencia entre los tres corpus.
- Libre disposiciĆ³n para investigaciĆ³n.
- Manuales de anotaciĆ³n lingĆ¼Ćstica para cada
lengua profundamente desarrollados y probados en
cada corpus - Importante aportaciĆ³n metodolĆ³gica al tema de la
anotaciĆ³n sintĆ”ctica - Disponibles en la web http//clic.fil.ub.es/perso
nal/civit
48Trabajos futuros
- AnotaciĆ³n de la anĆ”fora y cadenas de
correferencia. - Similar criterio de anotaciĆ³n para las tres
lenguas. - AmpliaciĆ³n del corpus a 500.000 palabras para
cada lengua. - Desarrollo de recursos para la explotaciĆ³n de los
corpus.
49MĆ”s informaciĆ³n y/o contacto
- http//gplsi.dlsi.ua.es9998
- http//www.dlsi.ua.es/projectes/3lb/
- http//www.lsi.upc.es/ageno