Title: Servei deTecnologia Ling
1Servei deTecnologia Lingüística
- Facultat de Filologia
- Edifici Josep Carner, 5è pis
- Persona de contacte Montserrat Nofre
- Tel 934035694
- stel_at_ub.edu
- http//stel.ub.edu
2Alguns conceptes previs
- TYPE (forma) Equivalent a paraula qualsevol
paraula que apareix en un corpus. - TOKEN (ocurrència) Cada cop que una forma
apareix en un corpus. El nombre docurrències
duna forma constitueix la seva FREQÜÈNCIA. - LEMA Lestàndard lèxic duna forma és a dir,
una forma tal i com la trobaríem en el diccionari
(en català o espanyol, linfinitiu per als verbs,
el masculí singular per als adjectius, el
singular per als substantius).
3Procés de treball
- Disseny de lestudi
- Selecció del corpus textual
- Contingut
- Mida del corpus
- Classificació
- Introducció del corpus en suport magnètic
- Manual (des del teclat)
- Escàner OCR
- CD-ROM
- Internet
4Procés de treball
- Marcatge o etiquetatge del corpus textual
- Referenciació de les parts
- Introducció dinformació paratextual
- Modificacions sobre el text
- Anotacions morfològiques, sintàctiques, etc.
(preprocessament) - Aplicació dun programa informàtic danàlisi de
textos - Obtenció de resultats
5El corpus textual
- En principi, anomenem corpus textual a
qualsevol conjunt de textos en suport informàtic,
agrupats i classificats segons determinats
criteris i objectius. - Els distingim segons la seva mida, el contingut,
el tipus dordenació,... - Un corpus constitueix una font dinformació
imprescindible per a - el desenvolupament de recursos lingüístics bàsics
(lèxics, gramàtiques) - la recerca filològica i lingüística
- la lexicografia
- També és un banc de proves per a la recerca en
Lingüística Teòrica i Computacional.
6El corpus textual
- Objectivitat
- Possibilitat de verificació de les teories
elaborades a partir dells - Facilitat daccés i manipulació dels materials
- Permeten el processament automàtic dels textos y
lexplicitació de diferents informacions
(categoría gramatical), que faciliten la seva
explotació - El mateix recurs pot tenir múltiples usos i
aplicacions - Responen a la necessitat de disposar de gran
quantitat de dades accesibles com a base per a
lestudi del llenguatge i el desenvolupament de
sistemes de PLN - Són un recurs per a lexploració dels aspectes
quantitatius del llenguatge - Són lúnica via possible per als estudis
diacrònics, quan no és possible recórrer a
parlants vius
7El corpus textual
- Requisits dels corpus
- Textos en format electrònic permet automatitzar
tasques com la cerca i recuperació dinformación,
el càlcul de freqüències i la classificació de
les dades segons diferents criteris - Autenticitat de les dades els textos han de ser
mostres reals dús de la llengua destudi, a
partir dels quals selaboren teories o
aplicacions computacionals - Criteris de selecció lingüístics i/o
extralingüístics, segons la finalitat concreta,
relacionada amb lanàlisi lingüística - Representativitat la selecció ha de respondre a
paràmetres estadístics que garanteixin la
varietat de la llengua destudi (mostra
representativa) - Mida Els corpus solen tenir una mida finita i
predeterminada en milions de paraules. En
lactualitat, la mida del corpus no és tan
important com el disseny a més, depén de la
disponibilitat dels textos i de la finalitat del
corpus
8Tipus de corpus
- Corpus general de referència representatiu
duna llengua, útil per fer observacions generals
sobre aquesta. Conté material oral i escrito, i
una representació de diferents tipus de textos. - Corpus per objectius específics es fixa en un
aspecte particular del llenguatge (varietat de
llengua, gènere literari,...). - Oral/escrit
- Monolingüe/multilingüe (comparable/parallel)
- Sincrònic/diacrònic
- Obert (corpus monitor)/tancat
9Tipus de corpus
- Corpus purs/crus (format ASCII) sutilitzen per
elaborar estudis quantitatiu (llistes de formes,
freqüències, collocacions,) - Corpus processats/anotats permeten obtenir
informació sobre lús de la llengua (anàlisi
lingüística, estudis de lèxic, traducció
automàtica,) - Corpus etiquetats (tagged) morfosintàcticament
- Corpus analitzats sintàcticament
- anàlisi superficial (skeleton parsing, chunking)
- anàlisi profunda (full parsing)
10Marcatge del text
- Referenciació de les parts
- Introducció dinformació paratextual
- Anotacions morfològiques, sintàctiques, etc.
11Marcatge del text
electorales. pero además sería ridículo no
publicarlos nadie podría esperar que los
partidos se reservaran esos datos sin que
llegaran a los medios de comunicación y que éstos
se los reservasen a su vez para su uso privado,
en análisis y comentarios. y más cuando su
contenido ya fue_revelado ayer por un diputado de
Izquierda_Unida, que posteriormente introdujo
toda la encuesta en su página web. incluso el
vicepresidente del Gobierno, Mariano_Rajoy, se
refirió al mismo sondeo para afirmar que los
resultados que arroja no son muy diferentes de
los de otras encuestas privadas. efectivamente,
no lo son, y ello hace más incomprensible -aunque
no más justificada- la decisión de ocultarla. la
única forma de que los ciudadanos juzguen por su
cuenta si son o no similares a los de otros
sondeos es que los conozcan. y lo que ayer era
fuerte sospecha de ocultación es evidencia a la
luz de la ficha técnica de la propia encuesta,
que precisa que el trabajo de campo finalizó el
25 de abril. que haya_tardado dos semanas en
llegar al
12Marcatge del text
ltdiari correogt ltdata 2704gt cita ineludible el
inicio formal de la campaña electoral deja atrás
meses de 'impasse' y confrontación extrema para
encaminar definitivamente a la ciudadanía hacia
las urnas del 13 de mayo. precisamente hoy,
cuando la larga espera para contar con un
veredicto inapelable de los electores está a
punto de terminar, se hace notar el sinsentido de
haber_prolongado la legislatura hasta la
extenuación, en un empeño absurdo que a nadie
ha_beneficiado y que ha_terminado perjudicando a
la política y a la sociedad. comienza la campaña
electoral cuando prácticamente todo lo que cabía
decir está dicho ya. en cualquier caso, dado que
quedan dos semanas hasta las elecciones, sería
bueno que los protagonistas de la campaña
aprovecharan la ocasión para ofrecer a la opinión
pública
13Marcatge del text
- Formats de marcatge
- SGML (Standard Generalized Markup Language)
- XML
- Formato ltmarcagtlt/marcagt
14Marcatge del text
-
- Altres estàndards de marcatge
- Referencias COCOA
- TEI (XML)
ltpoemgtlttitlegtThe Sick Roselt/titlegt ltstanzagt ltlinegt
O Rose thou art sick.lt/linegt ltlinegtThe invisible
worm,lt/linegt ltlinegtThat flies in the
nightlt/linegt ltlinegtIn the howling
stormlt/linegt lt/stanzagt ltstanzagt ltlinegtHas found
out thy bedgt/linegt
15Marcatge del text
16Recomptes sobre el corpus
- Laproximació més directa al treball amb dades
textuals consisteix simplement en comptar les
freqüències de formes, ocurrències, seqüències o
altres classificacions (per exemple, freqüències
por categories gramaticals). - Els recomptes de freqüències en dades absolutes
no permeten la comparació entre corpus o parts de
corpus, sobretot si són de mida diferent. Han
dutilitzar-se percentatges daparició respecte a
la mida del corpus.
17Recomptes sobre el corpus
- Llistats de paraules
- alfabètics
18Recomptes sobre el corpus
- Llistats de paraules
- alfabètics
19Recomptes sobre el corpus
- Llistats de paraules
- alfabètics per
- final de paraula
20Recomptes sobre el corpus
- Llistats de paraules
- freqüencials
- Permeten comparar els usos del lèxic entre
diferents corpus - formes gramaticals
- formes lèxiques (vocabulari
- representatiu)
- densitat lèxica per categories
21Recomptes sobre el corpus
- Llistats de paraules
- freqüencials
22Recomptes sobre el corpus
23Recomptes sobre el corpus
24Recomptes sobre el corpus
25Concordances
- Una concordança permet veure la paraula o
seqüència buscada dins del seu context (una línia
de pantalla dordinador o el nombre de caràcters
definit per nosaltres). - Tradicionals (naturals)
- Informatitzades
- Concordança de tipus KWIC (keyword in context)
- Concordança de context variable
- Contextos
- Els resultats es poden ordenar seguint diferents
criteris - ordre daparició en el corpus
- per les paraules o lletres anteriors a la paraula
clau - per les paraules o lletres posteriors a la
paraula clau - gràfics de distribució de la paraula clau al
llarg del text
26Concordances
co2704 o de participación ciudadana . la
libertad en el ejercicio del derecho a co2704
guridad efectiva que garantice la libertad y el
propio derecho a la vida co0605 a convivencia
, la seguridad y la libertad de toda la
ciudadanía . lo co0705 onvivencia . la
democracia y la libertad no cuentan con un
instrumento co0705 asca haya dado nunca en
pos de su libertad frente a la dictadura de ETA
co0805 ctimas que propiciaron en vida la
libertad y la democracia de que disfru co1105
votar en libertad esta
noche termina una de l co1105 an garantizada
su integridad y su libertad , porque resulta
lacerante ve co1105 electoral en condiciones
de plena libertad , es la libertad plena la que
co1105 iciones de plena libertad , es la
libertad plena la que han de emanar la co1305
udadanía puede ejercer con entera libertad . pero
aún no siendo una obli co1305 patía para
tomar postura entre la libertad y el abatimiento
, entre la r co1305 do del miedo y del
cinismo . la libertad , como la paz , sólo se
aprec co1306 a sobre todo una oportunidad a
la libertad , por lo que ha de concebirse
co1306 cudiendo a votar votando por la
libertad y la vida . de2804 be muy bien que
el PP defiende la libertad y , a duras penas ,
descifrad de0105 a sus filas , en pleno uso
de su libertad . les suena ? de1105 e
totalitarios , puesto que votar libertad es votar
a otra opción políti de1305 s huelan a vida ,
diálogo , paz y libertad o , lo que es lo mismo ,
que de1305 reniega de cualquiera de ellos (
libertad , paz , diálogo y vida ) a pa de1405
único que realmente garantiza su libertad . de
nada le han valido al de1405 nes decían que
aquí no se vota en libertad , tal y como el alto
nivel de de1405 uscar la paz , para
garantizar la libertad para dar una esperanza a
la mu1205 a comunidad autónoma vasca no hay
libertad de expresión y recuerda que s mu1205
compromiso con esa defensa de la libertad y de
los derechos humanos .
27Concordances
28Concordances
29Concordances
30Concordances
31Concordances
32Concordances recursos a Internet
- Biblioteca Virtual Miguel de Cervantes
(Herramientas lingüísticas Concordancias) - http//www.cervantesvirtual.com/concordancias/inde
x.shtml - SOL (Spanish on line). Concordancias españolas en
la web - http//spraakbanken.gu.se/lb/konk/rom2
- Concordances, a propòsit de lautoria d El
Lazarillo de Tormes - http//www.elazarillo.net/concordancias.html
-
33Clusters (segments repetits)
34Clusters (segments repetits)
35Clusters (segments repetits)
36Processament de corpus collocates
- Ens permet buscar les paraules relacionades amb
una paraula determinada dins del context de
distància entre elles que sestableixi.
37Càlculs estadístics especificitats
38Corpus processats
Els corpus crus (raw corpus) o sense anotar
són útils per a determinats aspectes, però
limitats quant a les sevess possibilitats. Els
corpus anotats (en els que sexplicita informació
lingüística i no lingüística, en molts casos de
forma automàtica) enriqueixen i augmenten el
potencial del corpus per a investigacions sobre
diversos aspectes del llenguatge. El
procedimient danotació dun corpus consisteix a
introducir una sèrie detiquetes que poden
referir-se a aspectes lingüístics (anotació,
tagging, parsing) o no lingüístics (marcatge,
codificació, mark-up).
39Corpus processats
- Anotació morfològica (PoS tagging)
- Consisteix a assignar a cada unitat lèxica del
text una etiqueta que indica la seva categoria o
part de loració. També sol incloure informació
sobre les característiques morfològiques (gènere,
nombre, cas, persona,). - Els programes que realitzen aquest procés de
manera automàtica reben el nom de taggers.
40Corpus processats
Texto etiquetat
Valor de les etiquetes
41Corpus processats
42Corpus processats
Etiquetaris (PoS taggers)
43Corpus processats
- Lematització
- És un procés íntimament lligat a lanotació
morfològica, perquè no pot lematitzar-se sense
una anotació (i la conseqüent desambiguació)
prèvia. - Consiste a la reducció de les paraules dun
corpus als seus respectius lemes o formes
bàsiques (la paraula tal i com apareix en el
diccionari). - És un tipus de processament especialment
important per a la lexicografia y els estudis de
vocabulari. - Lusuari pot examinar totes les variants duna
paraula i extraure informació sobre la seva
freqüència i distribució. - Hi ha programes que realitzen el procés de forma
automàtica. En el cas de llengües poc flexives
(anglès) no sembla ser molt útil, motiu pel qual
existeixen pocs corpus lematitzats.
44Corpus processats
Text lematitzat
45Corpus processats
Anotació sintàctica (parsing) Dun corpus
analitzat sintàcticament es pot extreure
informació referent a lestructura interna de les
oracions. Els corpus analitzats sintàcticament
també reben el nom de treebanks, quan tenen la
forma de diagrames arboris, tot i que de manera
habitual la informació es representa mitjançant
parèntesis. Daquí la denominació de corpus
parentitzats (bracketing). El parsing pot
realitzar-se de forma automàtica, però atès el
nombre de errors produïts, requereix la correcció
o fins i tot lanotació completament manual.
46Corpus processats
- Lanotació sintàctica pot presentar diferents
nivells de profunditat - skeleton parsing anàlisi superficial en el que
només es marquen els grans constituents de
loració, sense tenir en compte lestructura
interna. - full parsing representació detallada de toda
lestructura de loració.
47Corpus processats
48Corpus processats
Anotació sintàctica superficial
49Corpus processats
Anotació sintàctica detallada
50Corpus processats
- Lematització
- Tagging etiquetatge PoS (part of speech)
- Parsing etiquetatge sintàctic
51Programes utilitzats
- AntConc
- (http//www.antlab.sci.waseda.ac.jp/software.html
) - Hyperbase
- (http//www.unice.fr/bcl/)
- WordSmith
- (http//www.lexically.met/wordsmith/index.html)
- FreeLing
- (http//garraf.epsevg.upc.es/freeling/index)
52Bibliografia
- S. Hockey 2000). Electronic texts in the
Humanities. Oxford University Press. - F. Marcos Marín (1996). El comentario filológico
con apoyo informático. Madrid Síntesis. - J. Pérez Guerra (1998). Análisis computarizado de
textos. Una introducción a TACT. Servicio de
Publicacións, Universidade de Vigo. - J. Sinclair (1991). Corpus, concordance,
collocation. Oxford University Press. - C. Tribble, G. Jones (1997). Concordances in the
classroom. A resource book for teachers. Housten,
TX Athelstan. - Literary and Linguistic Computing, Journal of the
Association for Literary and Linguisting
Computing, Oxford University Press. (La BUB hi
està subscrita podeu accedir als articles
full-text de la revista des de la pàgina de la
Biblioteca, secció Revistes electròniques). - JADT (Jornades dAnàlisi de Dades Textuals) //
Lexicometrica revista electrònica, Centre de
Léxicometrie et dAnalyse Automatique des Textes
de lInstitut de Linguistique et Phonetique
Générales et Appliquées (ILPGA), Université
Sorbonne nouvelle-Paris 3. - http//www.cavi.univ-paris3.fr/lexicometrica/jadt/
index.htm