Servei deTecnologia Ling - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Servei deTecnologia Ling

Description:

TOKEN (ocurr ncia): Cada cop que una forma apareix en un corpus. El nombre d'ocurr ncies d'una forma constitueix la seva ... Processament de corpus: collocates ... – PowerPoint PPT presentation

Number of Views:91
Avg rating:3.0/5.0
Slides: 53
Provided by: mon7154
Category:

less

Transcript and Presenter's Notes

Title: Servei deTecnologia Ling


1
Servei deTecnologia Lingüística
  • Facultat de Filologia
  • Edifici Josep Carner, 5è pis
  • Persona de contacte Montserrat Nofre
  • Tel 934035694
  • stel_at_ub.edu
  • http//stel.ub.edu

2
Alguns conceptes previs
  • TYPE (forma) Equivalent a paraula qualsevol
    paraula que apareix en un corpus.
  • TOKEN (ocurrència) Cada cop que una forma
    apareix en un corpus. El nombre docurrències
    duna forma constitueix la seva FREQÜÈNCIA.
  • LEMA Lestàndard lèxic duna forma és a dir,
    una forma tal i com la trobaríem en el diccionari
    (en català o espanyol, linfinitiu per als verbs,
    el masculí singular per als adjectius, el
    singular per als substantius).

3
Procés de treball
  • Disseny de lestudi
  • Selecció del corpus textual
  • Contingut
  • Mida del corpus
  • Classificació
  • Introducció del corpus en suport magnètic
  • Manual (des del teclat)
  • Escàner OCR
  • CD-ROM
  • Internet

4
Procés de treball
  • Marcatge o etiquetatge del corpus textual
  • Referenciació de les parts
  • Introducció dinformació paratextual
  • Modificacions sobre el text
  • Anotacions morfològiques, sintàctiques, etc.
    (preprocessament)
  • Aplicació dun programa informàtic danàlisi de
    textos
  • Obtenció de resultats

5
El corpus textual
  • En principi, anomenem corpus textual a
    qualsevol conjunt de textos en suport informàtic,
    agrupats i classificats segons determinats
    criteris i objectius.
  • Els distingim segons la seva mida, el contingut,
    el tipus dordenació,...
  • Un corpus constitueix una font dinformació
    imprescindible per a
  • el desenvolupament de recursos lingüístics bàsics
    (lèxics, gramàtiques)
  • la recerca filològica i lingüística
  • la lexicografia
  • També és un banc de proves per a la recerca en
    Lingüística Teòrica i Computacional.

6
El corpus textual
  • Objectivitat
  • Possibilitat de verificació de les teories
    elaborades a partir dells
  • Facilitat daccés i manipulació dels materials
  • Permeten el processament automàtic dels textos y
    lexplicitació de diferents informacions
    (categoría gramatical), que faciliten la seva
    explotació
  • El mateix recurs pot tenir múltiples usos i
    aplicacions
  • Responen a la necessitat de disposar de gran
    quantitat de dades accesibles com a base per a
    lestudi del llenguatge i el desenvolupament de
    sistemes de PLN
  • Són un recurs per a lexploració dels aspectes
    quantitatius del llenguatge
  • Són lúnica via possible per als estudis
    diacrònics, quan no és possible recórrer a
    parlants vius

7
El corpus textual
  • Requisits dels corpus
  • Textos en format electrònic permet automatitzar
    tasques com la cerca i recuperació dinformación,
    el càlcul de freqüències i la classificació de
    les dades segons diferents criteris
  • Autenticitat de les dades els textos han de ser
    mostres reals dús de la llengua destudi, a
    partir dels quals selaboren teories o
    aplicacions computacionals
  • Criteris de selecció lingüístics i/o
    extralingüístics, segons la finalitat concreta,
    relacionada amb lanàlisi lingüística
  • Representativitat la selecció ha de respondre a
    paràmetres estadístics que garanteixin la
    varietat de la llengua destudi (mostra
    representativa)
  • Mida Els corpus solen tenir una mida finita i
    predeterminada en milions de paraules. En
    lactualitat, la mida del corpus no és tan
    important com el disseny a més, depén de la
    disponibilitat dels textos i de la finalitat del
    corpus

8
Tipus de corpus
  • Corpus general de referència representatiu
    duna llengua, útil per fer observacions generals
    sobre aquesta. Conté material oral i escrito, i
    una representació de diferents tipus de textos.
  • Corpus per objectius específics es fixa en un
    aspecte particular del llenguatge (varietat de
    llengua, gènere literari,...).
  • Oral/escrit
  • Monolingüe/multilingüe (comparable/parallel)
  • Sincrònic/diacrònic
  • Obert (corpus monitor)/tancat

9
Tipus de corpus
  • Corpus purs/crus (format ASCII) sutilitzen per
    elaborar estudis quantitatiu (llistes de formes,
    freqüències, collocacions,)
  • Corpus processats/anotats permeten obtenir
    informació sobre lús de la llengua (anàlisi
    lingüística, estudis de lèxic, traducció
    automàtica,)
  • Corpus etiquetats (tagged) morfosintàcticament
  • Corpus analitzats sintàcticament
  • anàlisi superficial (skeleton parsing, chunking)
  • anàlisi profunda (full parsing)

10
Marcatge del text
  • Referenciació de les parts
  • Introducció dinformació paratextual
  • Anotacions morfològiques, sintàctiques, etc.

11
Marcatge del text
electorales. pero además sería ridículo no
publicarlos nadie podría esperar que los
partidos se reservaran esos datos sin que
llegaran a los medios de comunicación y que éstos
se los reservasen a su vez para su uso privado,
en análisis y comentarios. y más cuando su
contenido ya fue_revelado ayer por un diputado de
Izquierda_Unida, que posteriormente introdujo
toda la encuesta en su página web. incluso el
vicepresidente del Gobierno, Mariano_Rajoy, se
refirió al mismo sondeo para afirmar que los
resultados que arroja no son muy diferentes de
los de otras encuestas privadas. efectivamente,
no lo son, y ello hace más incomprensible -aunque
no más justificada- la decisión de ocultarla. la
única forma de que los ciudadanos juzguen por su
cuenta si son o no similares a los de otros
sondeos es que los conozcan. y lo que ayer era
fuerte sospecha de ocultación es evidencia a la
luz de la ficha técnica de la propia encuesta,
que precisa que el trabajo de campo finalizó el
25 de abril. que haya_tardado dos semanas en
llegar al
12
Marcatge del text
ltdiari correogt ltdata 2704gt cita ineludible el
inicio formal de la campaña electoral deja atrás
meses de 'impasse' y confrontación extrema para
encaminar definitivamente a la ciudadanía hacia
las urnas del 13 de mayo. precisamente hoy,
cuando la larga espera para contar con un
veredicto inapelable de los electores está a
punto de terminar, se hace notar el sinsentido de
haber_prolongado la legislatura hasta la
extenuación, en un empeño absurdo que a nadie
ha_beneficiado y que ha_terminado perjudicando a
la política y a la sociedad. comienza la campaña
electoral cuando prácticamente todo lo que cabía
decir está dicho ya. en cualquier caso, dado que
quedan dos semanas hasta las elecciones, sería
bueno que los protagonistas de la campaña
aprovecharan la ocasión para ofrecer a la opinión
pública
13
Marcatge del text
  • Formats de marcatge
  • SGML (Standard Generalized Markup Language)
  • XML
  • Formato ltmarcagtlt/marcagt

14
Marcatge del text
  • Altres estàndards de marcatge
  • Referencias COCOA
  • TEI (XML)

ltpoemgtlttitlegtThe Sick Roselt/titlegt ltstanzagt ltlinegt
O Rose thou art sick.lt/linegt ltlinegtThe invisible
worm,lt/linegt ltlinegtThat flies in the
nightlt/linegt ltlinegtIn the howling
stormlt/linegt lt/stanzagt ltstanzagt ltlinegtHas found
out thy bedgt/linegt
15
Marcatge del text
16
Recomptes sobre el corpus
  • Laproximació més directa al treball amb dades
    textuals consisteix simplement en comptar les
    freqüències de formes, ocurrències, seqüències o
    altres classificacions (per exemple, freqüències
    por categories gramaticals).
  • Els recomptes de freqüències en dades absolutes
    no permeten la comparació entre corpus o parts de
    corpus, sobretot si són de mida diferent. Han
    dutilitzar-se percentatges daparició respecte a
    la mida del corpus.

17
Recomptes sobre el corpus
  • Llistats de paraules
  • alfabètics

18
Recomptes sobre el corpus
  • Llistats de paraules
  • alfabètics

19
Recomptes sobre el corpus
  • Llistats de paraules
  • alfabètics per
  • final de paraula

20
Recomptes sobre el corpus
  • Llistats de paraules
  • freqüencials
  • Permeten comparar els usos del lèxic entre
    diferents corpus
  • formes gramaticals
  • formes lèxiques (vocabulari
  • representatiu)
  • densitat lèxica per categories

21
Recomptes sobre el corpus
  • Llistats de paraules
  • freqüencials

22
Recomptes sobre el corpus
23
Recomptes sobre el corpus
24
Recomptes sobre el corpus
25
Concordances
  • Una concordança permet veure la paraula o
    seqüència buscada dins del seu context (una línia
    de pantalla dordinador o el nombre de caràcters
    definit per nosaltres).
  • Tradicionals (naturals)
  • Informatitzades
  • Concordança de tipus KWIC (keyword in context)
  • Concordança de context variable
  • Contextos
  • Els resultats es poden ordenar seguint diferents
    criteris
  • ordre daparició en el corpus
  • per les paraules o lletres anteriors a la paraula
    clau
  • per les paraules o lletres posteriors a la
    paraula clau
  • gràfics de distribució de la paraula clau al
    llarg del text

26
Concordances
co2704 o de participación ciudadana . la
libertad en el ejercicio del derecho a co2704
guridad efectiva que garantice la libertad y el
propio derecho a la vida co0605 a convivencia
, la seguridad y la libertad de toda la
ciudadanía . lo co0705 onvivencia . la
democracia y la libertad no cuentan con un
instrumento co0705 asca haya dado nunca en
pos de su libertad frente a la dictadura de ETA
co0805 ctimas que propiciaron en vida la
libertad y la democracia de que disfru co1105
votar en libertad esta
noche termina una de l co1105 an garantizada
su integridad y su libertad , porque resulta
lacerante ve co1105 electoral en condiciones
de plena libertad , es la libertad plena la que
co1105 iciones de plena libertad , es la
libertad plena la que han de emanar la co1305
udadanía puede ejercer con entera libertad . pero
aún no siendo una obli co1305 patía para
tomar postura entre la libertad y el abatimiento
, entre la r co1305 do del miedo y del
cinismo . la libertad , como la paz , sólo se
aprec co1306 a sobre todo una oportunidad a
la libertad , por lo que ha de concebirse
co1306 cudiendo a votar votando por la
libertad y la vida . de2804 be muy bien que
el PP defiende la libertad y , a duras penas ,
descifrad de0105 a sus filas , en pleno uso
de su libertad . les suena ? de1105 e
totalitarios , puesto que votar libertad es votar
a otra opción políti de1305 s huelan a vida ,
diálogo , paz y libertad o , lo que es lo mismo ,
que de1305 reniega de cualquiera de ellos (
libertad , paz , diálogo y vida ) a pa de1405
único que realmente garantiza su libertad . de
nada le han valido al de1405 nes decían que
aquí no se vota en libertad , tal y como el alto
nivel de de1405 uscar la paz , para
garantizar la libertad para dar una esperanza a
la mu1205 a comunidad autónoma vasca no hay
libertad de expresión y recuerda que s mu1205
compromiso con esa defensa de la libertad y de
los derechos humanos .
27
Concordances
28
Concordances
29
Concordances
30
Concordances
31
Concordances
32
Concordances recursos a Internet
  • Biblioteca Virtual Miguel de Cervantes
    (Herramientas lingüísticas Concordancias)
  • http//www.cervantesvirtual.com/concordancias/inde
    x.shtml
  • SOL (Spanish on line). Concordancias españolas en
    la web
  • http//spraakbanken.gu.se/lb/konk/rom2
  • Concordances, a propòsit de lautoria d El
    Lazarillo de Tormes
  • http//www.elazarillo.net/concordancias.html

33
Clusters (segments repetits)
34
Clusters (segments repetits)
35
Clusters (segments repetits)
36
Processament de corpus collocates
  • Ens permet buscar les paraules relacionades amb
    una paraula determinada dins del context de
    distància entre elles que sestableixi.

37
Càlculs estadístics especificitats
38
Corpus processats
Els corpus crus (raw corpus) o sense anotar
són útils per a determinats aspectes, però
limitats quant a les sevess possibilitats. Els
corpus anotats (en els que sexplicita informació
lingüística i no lingüística, en molts casos de
forma automàtica) enriqueixen i augmenten el
potencial del corpus per a investigacions sobre
diversos aspectes del llenguatge. El
procedimient danotació dun corpus consisteix a
introducir una sèrie detiquetes que poden
referir-se a aspectes lingüístics (anotació,
tagging, parsing) o no lingüístics (marcatge,
codificació, mark-up).
39
Corpus processats
  • Anotació morfològica (PoS tagging)
  • Consisteix a assignar a cada unitat lèxica del
    text una etiqueta que indica la seva categoria o
    part de loració. També sol incloure informació
    sobre les característiques morfològiques (gènere,
    nombre, cas, persona,).
  • Els programes que realitzen aquest procés de
    manera automàtica reben el nom de taggers.

40
Corpus processats
Texto etiquetat
Valor de les etiquetes
41
Corpus processats
42
Corpus processats
Etiquetaris (PoS taggers)
43
Corpus processats
  • Lematització
  • És un procés íntimament lligat a lanotació
    morfològica, perquè no pot lematitzar-se sense
    una anotació (i la conseqüent desambiguació)
    prèvia.
  • Consiste a la reducció de les paraules dun
    corpus als seus respectius lemes o formes
    bàsiques (la paraula tal i com apareix en el
    diccionari).
  • És un tipus de processament especialment
    important per a la lexicografia y els estudis de
    vocabulari.
  • Lusuari pot examinar totes les variants duna
    paraula i extraure informació sobre la seva
    freqüència i distribució.
  • Hi ha programes que realitzen el procés de forma
    automàtica. En el cas de llengües poc flexives
    (anglès) no sembla ser molt útil, motiu pel qual
    existeixen pocs corpus lematitzats.

44
Corpus processats
Text lematitzat
45
Corpus processats
Anotació sintàctica (parsing) Dun corpus
analitzat sintàcticament es pot extreure
informació referent a lestructura interna de les
oracions. Els corpus analitzats sintàcticament
també reben el nom de treebanks, quan tenen la
forma de diagrames arboris, tot i que de manera
habitual la informació es representa mitjançant
parèntesis. Daquí la denominació de corpus
parentitzats (bracketing). El parsing pot
realitzar-se de forma automàtica, però atès el
nombre de errors produïts, requereix la correcció
o fins i tot lanotació completament manual.
46
Corpus processats
  • Lanotació sintàctica pot presentar diferents
    nivells de profunditat
  • skeleton parsing anàlisi superficial en el que
    només es marquen els grans constituents de
    loració, sense tenir en compte lestructura
    interna.
  • full parsing representació detallada de toda
    lestructura de loració.

47
Corpus processats
48
Corpus processats
Anotació sintàctica superficial
49
Corpus processats
Anotació sintàctica detallada
50
Corpus processats
  • Lematització
  • Tagging etiquetatge PoS (part of speech)
  • Parsing etiquetatge sintàctic

51
Programes utilitzats
  • AntConc
  • (http//www.antlab.sci.waseda.ac.jp/software.html
    )
  • Hyperbase
  • (http//www.unice.fr/bcl/)
  • WordSmith
  • (http//www.lexically.met/wordsmith/index.html)
  • FreeLing
  • (http//garraf.epsevg.upc.es/freeling/index)

52
Bibliografia
  • S. Hockey 2000). Electronic texts in the
    Humanities. Oxford University Press.
  • F. Marcos Marín (1996). El comentario filológico
    con apoyo informático. Madrid Síntesis.
  • J. Pérez Guerra (1998). Análisis computarizado de
    textos. Una introducción a TACT. Servicio de
    Publicacións, Universidade de Vigo.
  • J. Sinclair (1991). Corpus, concordance,
    collocation. Oxford University Press.
  • C. Tribble, G. Jones (1997). Concordances in the
    classroom. A resource book for teachers. Housten,
    TX Athelstan.
  • Literary and Linguistic Computing, Journal of the
    Association for Literary and Linguisting
    Computing, Oxford University Press. (La BUB hi
    està subscrita podeu accedir als articles
    full-text de la revista des de la pàgina de la
    Biblioteca, secció Revistes electròniques).
  • JADT (Jornades dAnàlisi de Dades Textuals) //
    Lexicometrica revista electrònica, Centre de
    Léxicometrie et dAnalyse Automatique des Textes
    de lInstitut de Linguistique et Phonetique
    Générales et Appliquées (ILPGA), Université
    Sorbonne nouvelle-Paris 3.
  • http//www.cavi.univ-paris3.fr/lexicometrica/jadt/
    index.htm
Write a Comment
User Comments (0)
About PowerShow.com