Title: Servei deTecnologia Lingstica
1Servei deTecnologia LingüÃstica
- Facultad de FilologÃa
- Edificio Josep Carner, 5º pis0
- Persona de contacto Montserrat Nofre
- Tel 934035694
- stel_at_ub.edu/montsenofre_at_ub.edu
- http//stel.ub.edu
2Algunos conceptos previos
- FORMA (type) Equivalente a palabra cualquier
palabra que aparece en un corpus. - OCURRENCIA (token) Cada aparición de una forma
en un corpus. El número de ocurrencias de una
forma constituye su FRECUENCIA. - LEMA El estándar léxico de una forma es decir,
una forma tal y como la encontramos en el
diccionario (en catalán o español, el infinitivo
para los verbos, el masculino singular para los
adjetivos, el singular para los sustantivos,).
3Proceso de trabajo
- Diseño del estudio
- Selección del corpus textual (contenido, tamaño,
clasificación) - Introducción del corpus en soporte magnético
(manual, escáner OCR, Internet...) - Marcaje/etiquetaje/anotación del corpus textual
(modificaciones, partes/estructura, información
paratextual, anotaciones morfosintácticas...) - Aplicación del programa(s) informático(s) de
análisis de textos - Obtención de resultados
4Definición de corpus textual
- En principio, denominamos corpus textual a
cualquier conjunto de textos en soporte
informático, agrupados y clasificados según
determinados criterios y objetivos. - Un corpus constituye una fuente de información
para - el desarrollo de recursos lingüÃsticos básicos
(léxicos, gramáticas) - la investigación filológica y lingüÃstica
- la lexicografÃa
- También es un banco de pruebas para la
investigación en LingüÃstica Teórica y
Computacional - Los distinguimos según su tamaño, contenido, tipo
de ordenación,...
5Tipos de corpus
- Corpus general de referencia representativo de
una lengua, útil para realizar observaciones
generales sobre ella. Contiene material oral y
escrito, y una representación de diferentes tipos
de textos (procedencia, nivel, contenido). - Corpus para objetivos especÃficos se fija en un
aspecto particular del lenguaje (variedad de
lengua, género literario, temática,...). - Oral/de lengua hablada/de lengua escrita
- Monolingüe/multilingüe (comparable/paralelo)
- Sincrónico/diacrónico
- Abierto (corpus monitor)/cerrado
6Tipos de corpus (2)
- Corpus puros (formato ASCII) se utilizan para
elaborar estudios cuantitativos (listas de
formas, frecuencias, colocaciones,) - Corpus procesados permiten obtener información
sobre el uso de la lengua (análisis lingüÃstico,
traducción automática,) - Corpus etiquetados (tagged) morfosintácticamente
- Corpus analizados sintácticamente (análisis
superficial skeleton parsing o chunking
análisis profundo full parsing)
7Texto con información morfológica
8Etiquetarios (PoS taggers)
9Texto con información sintáctica
10Qué podemos marcar/etiquetar/anotar?
- Aspectos bibliográficos del texto (autor, tÃtulo,
año de publicación, tema, género) - Información sobre la constitución del corpus
(fecha, datos de transcripción, formato) - Estructura del corpus (divisiones textuales,
párrafos, citas, tÃtulos) - Caracterización de las unidades léxicas (léxico
general, extranjerismos, nombres propios,
abreviaturas) - MorfologÃa y sintaxis.
- Rasgos fonéticos.
- Caracterización semántica (desambiguación,
caracterización de usos polisémicos) - Anáfora y coreferencia
- Cuestiones de pragmática
11Tipos de marcaje
- Para los corpus puros
- Formato ltmarcagtlt/marcagt SGML , HTML, XML
- Marcas ad hoc
12El marcaje XML
- XML eXtended Markup Language
DTD Document Type Definition
Marcas XML
Consultas Extracción de información
13Tipos de marcaje
DTD
Texto marcado
14Tipos de marcaje (2)
- Para los corpus procesados
- Tagging anotaciones PoS (part of speech)
- Parsing naotaciones sintácticas
- Desambiguación y lematización
- ...
15Ejemplos de marcaje
- Lematización
- Tagging etiquetaje PoS (part of speech)
- Parsing etiquetaje sintáctico
16Análisis cuantitativo
- La aproximación más directa al trabajo con datos
textuales consiste simplemente en contar las
frecuencias de formas, ocurrencias u otras
clasificaciones (por ejemplo, frecuencias por
categorÃas gramaticales). - Los recuentos de frecuencias en datos absolutos
no permiten la comparación entre corpus o partes
de corpus, en especial si son de distinto tamaño.
Deben utilizarse porcentajes de aparición
respecto al tamaño del corpus.
17Análisis cuantitativo
- La función básica de un programa de análisis de
textos es la generación de una lista de
frecuencias de formas, que nos proporciona el
número de ocurrencias (apariciones) de cada
palabra. - Dicha lista puede tener dos tipos de ordenación
- orden alfabético (lexicográfico)
- recto
- inverso
- a tergo
- orden frecuencial
- creciente
- decreciente (lexicométrico)
18Procesamiento de corpus AntConc
- Programa gratuito para la elaboración de Ãndices
y concordancias para entornos Windows, Macintosh
y Linux. - http//www.antlab.sci.waseda.ac.jp/software.html
19Conceptos previos
- Tokens número total de palabras de un corpus
- Types número total de palabras distintas
20Tipos de Ãndices
- Listados de palabras
- alfabéticos
21TÃpos de Ãndices
- Listados de palabras
- alfabéticos por
- final de palabra
22Tipos de Ãndices
- Listados de palabras
- frecuenciales
- Permiten comparar el uso del léxico entre
- diferents corpus
- formas gramaticales
- formes lèxiques
- (vocabulario representativo)
- densidad léxica por categorÃas
23Comparación de frecuencias
24Comparación de frecuencias
- El PaÃs ClarÃn
- palabra posición posición
- Pinochet 10 11
- Chile 22 30
- dictador 23 21
- --
- verbos
- afirmó 162 murió 63
- dijo 70
- pidió 155
25Uso de comodines (wildcards)
- Ejemplos
- dict palabras que empiezan por dict (dictador,
dictadura, dictatorial) - hijo hijo o hijo seguido de (sólo) un carácter
(hijos) - hij? hij seguido de cualquier carácter (sólo
uno) (hijo, hija) - la_at_muerte sintagma en el cual puede haber o no
una palabra intercalada (la muerte, la súbita
muerte) - lade Pinochet sintagma en el cual se puede
intercalar culaquier palabra (la muerte de
Pinochet, la dictadura de Pinochet, la familia de
Pinochet) - dictadorsenador buscamos las apariciones de
cualquiera de las dos palabras (NO de ambas a la
vez)
26Concordancias
- Una concordancia permite ver la palabra o
secuencia buscada dentro de su contexto (una
lÃnea de pantalla de ordenador o el número de
caracteres definido por el usuario). - Los resultados pueden ordenarse según distintos
criterios - orden de aparición en el corpus
- por las palabras anteriores a la palabra clave
- por las palabras posteriores a la palabra clave
- gráficos de distribución de la palabra clave a lo
largo del texto
27Ejemplo de concordancia
28Ejemplo de concordancia (2)
29Clusters
- Esta función nos permite buscar series de
palabras de una extensión establecida por el
usuario que se repitan n veces. - La búsqueda puede realizarse según dos criterios
- a partir de una palabra
- por el número de palabras que deba contener la
secuencia (n-gramas)
30Ejemplo de cluster
31Ejemplo de cluster (2)
32Ejemplo de n-grama
33Collocates
- Nos permite buscar las palabras relacionadas con
una palabra determinada dentro del contexto de
distancia entre ellas que se establezca.