ANNUNCI - PowerPoint PPT Presentation

1 / 73
About This Presentation
Title:

ANNUNCI

Description:

Title: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Author: Massimo Poesio Last modified by: Massimo Poesio Created Date: 3/7/2006 3:39:12 PM – PowerPoint PPT presentation

Number of Views:184
Avg rating:3.0/5.0
Slides: 74
Provided by: massimo8
Category:

less

Transcript and Presenter's Notes

Title: ANNUNCI


1
ANNUNCI
  • CAMBIAMENTO ORARI
  • 30/4 vacanza
  • Recupero lezione venerdi 18/5, 10-12
  • Recupero lab D venerdi 25/5, 14-16
  • http//www.dit.unitn.it/poesio/Teach/IUpiano
    delle lezioni di Informatica Umanistica D online.

2
RICEVIMENTO (MASSIMO POESIO)
  • Ricevimento Martedi 16-18, via Sighele 7

3
INFORMATICA UMANISTICA D LESSICOGRAFIA E COMPUTER
  • Parola
  • Informazioni lessicali parti del discorso
  • Informazioni lessicali morfologia

4
LESSICOGRAFIA E COMPUTER ARGOMENTI DEL CORSO
  • I dizionari e la loro storia
  • Conoscenza lessicale
  • parole e morfologia
  • collocazioni
  • semantica
  • Lessicografia
  • Dizionari elettronici
  • Lessici elettronici WordNet

5
LESSICO E DIZIONARIO
  • LESSICO insieme di parole di una lingua e delle
    informazioni lessicali su queste parole
  • DIZIONARIO una descrizione di questo lessico
  • (Differenza simile a quella tra struttura di una
    lingua e grammatica)

6
INFORMAZIONI LESSICALI
  • Significato
  • Proprieta foniche / grafiche
  • Informazioni sintattiche (parti del discorso)
  • Informazioni morfologiche

7
QUALI SONO LE PAROLE DI UNA LINGUA?
  • quante parole ha una lingua?
  • che lemmi ci devono essere in un dizionario?

8
DEFINIZIONE TRADIZIONALE
La parola e cio che si trova tra due spazi
bianchi
9
QUALI SONO LE PAROLE DI UNA LINGUA?
  • 25 lemmi dal Concise Oxford Dictionary
  • wannabe,
  • want, wanting, wanton, wapentake, wapiti,
  • War.,
  • war, waratah,
  • war baby,
  • warble1, warble2,
  • warble fly, warbler, warby, war chest, war crime,
    war cry, ward,
  • -ward

10
PRIMO CRITERIO DI IDENTIFICAZIONE
  • Si hanno parole distinte quando si abbiano
    CONCETTI diversi
  • Vedi sotto, morfemi

11
PAROLE E LEMMI
  • want (ma non wanted)
  • sings, sang, sung ? sing
  • Italiano
  • mangerò, mangeresti, mangerai? mangiare
  • nero, nera, neri, nere ? nero
  • 7 forme di parola, 2 lemmi

12
FORME DI CITAZIONE
  • Un dizionario riporta le FORME DI CITAZIONE (
    LEMMI) delle parole
  • Convenzioni diverse a seconda della lingua
  • Italiano infinito (AMARE)
  • Inglese TO LOVE
  • Latino prima persona presente singolare (AMO)

13
OMONIMI
  • warble1, warble2 due PAROLE, stessa FORMA
    (OMONIMI)
  • Italiano diligenza, tara, (botte, pesca )

14
PAROLE FORME FONEMICHE E GRAFICHE
  • La definizione di parola cio che si trova tra
    due spazi bianchi e puramente ORTOGRAFICA
  • Ogni parola ha DUE forme
  • i SUONI (FONEMI) che la compongono
  • e il modo in cui viene rappresentata graficamente
    (GRAFIA)

15
PAROLE E LA LORO GRAFIA
  • La nostra immagine delle parole (e la loro
    posizione in un dizionario, cartaceo od
    elettronico) spesso dipende dalla grafia usata
  • La grafia pero cambia di continuo lengaio ?
    linguaggio, dinaro ? denaro
  • Occorre anche ricordare che lo scritto segue il
    parlato, e che non sempre la corrispondenza e
    perfetta

16
INGLESE
  • HOMOGRAPHS
  • read, read, read
  • tear / tear
  • bow, refuse, wind
  • HOMOPHONES
  • bare / bear, pale / pail, stake / steak
  • Mary / merry / marry (alcuni dialetti Americani)

17
ITALIANO
  • La grafia delle parole Italiane non e cambiata
    molto dagli inizi del Cinquecento (prime edizioni
    a stampa, e.g., edizione del Petrarca curata da
    Bembo e stampata da Manuzio nel 1515)
  • Ma per secoli lortografia non corrispondeva alla
    pronuncia

18
DUE ESEMPI DI CAMBIAMENTO DI GRAFIA
  • V U
  • Vocabolario della Crusca, 1612
  • VATICINARE
  • VBBIA
  • VDITORE
  • (Crusca 1738 V ? U, ordine invariato)
  • H
  • Vocabolario della Crusca, 1612
  • HUMILE

19
GRAFEMI E FONEMI
mela m'mela
bello 'b?llo
bene 'b?ne
ieri 'j?ri
In Italiano ci sono 21 grafemi ( 5) ma 30 fonemi
20
UNA FORMA, DUE PAROLE
  • CONTRAZIONI
  • Wannabe
  • gonna, gimme
  • CLITICI
  • COMPRALO
  • SCRIVIMI

21
DUE FORME, UNA PAROLA
  • Parole POLIREMATICHE o COMPLESSE (Inglese
    MULTIWORDS)
  • RIFLESSIVI
  • sedersi (Mario si sedette)
  • Inglese ? sit (Mario sat)
  • PAROLE IDIOMATICHE
  • palla al piede, vuotare il sacco, tavola rotonda
  • WEAK VERBS
  • avere paura
  • COMPOSTI sci alpinismo, fuori servizio

22
MULTIWORDS IN INGLESE
  • PHRASAL VERBS break up, calm down, find out,
    give in, look over, pass out, show up, take off
    ..
  • COMPOUNDS
  • war baby, war chest, war crime, war cry, war
    dance
  • bell and whistles, rock and roll, bow and scrape,
    nip and tuck .
  • IN TEDESCO Donaudampfschiffahrtgesellschaftkapitä
    nwitwe

23
DA FORME POLIREMATICHE A COMPOSTI
  • salvavita / tritacarne / dopolavoro / benestante

24
JACKSON TRE SENSI DI WORD (PAROLA)
  • ORTHOGRAPHIC WORD una sequenza di lettere
    circondata da spazi
  • PHONEMIC WORD una sequenza di suoni (fonemi)
  • LEXEME una unita del lessico, a cui puo
    corrispondere una voce distinta in un dizionario

25
PAROLA LESSEMA
  • Marello
  • il termine PAROLA indica una unita
    linguistica a cui sono associati una funzione
    grammaticale ed un significato, separata
    graficamente dalle altre da spazi e dotata di
    coesione interna, per cui non si possono inserire
    altri elementi al suo interno, ne si puo mutare
    lordine degli elementi che la costituiscono

26
RICORDIAMO ALCUNE DEFINIZIONI
  • PAROLA (Inglese WORD) elemento linguistico (
    unita del lessico mentale, LESSEMA)
  • FORME DI PAROLA (Inglese WORD-FORM)
  • Ortografica
  • Fonetica
  • LEMMA
  • La FORMA DI CITAZIONE di una parola in un
    dizionario, associata con una VOCE (Inglese
    LEXICAL ENTRY)

27
USO DEI CORPORA PER LIDENTIFICAZIONE DEI LEMMI
Where did the Encarta Concise English
Dictionarys editors find the information on
which to base their definitions? The Bloomsbury
Corpus of World English, which now has over 150
million words, provided the main evidence. We
amplified this with a tailored reading programme
in science, technology, business, and other key
areas in order to find evidence of word use in
varied fields. Lastly we used the Internet as a
research source. Introduzione a ECED (citata
da Jackson, p. 167)
28
ANALISI LESSICOGRAFICA DI TESTI
  • Identificazione dei LEMMI
  • e delle loro parti del discorso
  • Calcolo delle loro frequenze
  • Costruzione di CONCORDANZE
  • liste ordinate di parole che si trovano in un
    testo con il contesto
  • Identificazione di COLLOCAZIONI
  • broken twig

29
LIDENTIFICAZIONE DEI LEMMI NEI TESTI VIA COMPUTER
  • TOKENIZZAZIONE
  • LEMMATIZZAZIONE
  • CLASSIFICAZIONE GRAMMATICALE

30
TOKENIZZAZIONE
CERA UNA VOLTA UN PEZZO DI LEGNO.
CERA UNA VOLTA UN PEZZO DI LEGNO.
C ERA UNA VOLTA UN PEZZO DI LEGNO
.
31
ALCUNI PROBLEMI CON IL PUNTO
CERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
32
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
33
FORME POLIREMATICHE( TOKEN COMPLESSI)
  • Vuotare il sacco, tagliare la corda, di rado,
    fuori servizio, ad hoc
  • War baby
  • Los Angeles, La Spezia
  • GU L 161 del 26.6.1999

34
QUANTE PAROLE CI SONO IN UN TESTO? ITALIANO E
LATINO
il ragazzo puer
ha dato dedit
una rosa rosam
a Maria Mariae
Altre lingue senza articoli / particelle lingue
slave (Ceco), Cinese,
35
LA CLASSIFICAZIONE DELLE PAROLE
  • Jackson, 1.5
  • Per saperne di piu
  • Jezek, capitolo 4
  • Graffi / Scalise, capitolo 2

36
RESTRIZIONI SULLE POSIZIONI DELLE PAROLE
  • La ragazza lesse rapidamente il libro
  • Ragazza la lesse rapidamente il libro
  • La ragazza lesse il rapidamente libro
  • Inglese The Sue quickly read the book
  • Sottocategorie
  • La ragazza arrivo il libro
  • conigliera, baleniera, teiera, ma virtuiera,
    pazienzera

37
CATEGORIE LESSICALI (PARTI DEL DISCORSO)
  • NOMI (tavolo, Simona)
  • VERBI (camminare, mangiare, colpire)
  • AGGETTIVI (rosso, rapido)
  • AVVERBI (probabilmente, subito)
  • PRONOMI (io, lui, ci)
  • ARTICOLI (il, la, un)
  • PREPOSIZIONI (di, a, con)
  • CONGIUNZIONI (e, ma, o)
  • Italiano INTERIEZIONI (ahi! )

38
ALCUNE DISTINZIONI
  • PARTI DEL DISCORSO VARIABILI / INVARIABILI
  • Luomo cammina / camminava
  • PARTI DEL DISCORSO APERTE / CHIUSE
  • Aperte nomi, verbi, aggettivi, avverbi
  • Chiuse articoli, pronomi, preposizioni,
    congiunzioni

39
CATEGORIE UNIVERSALI?
  • Il nome ed il verbo non mancano in nessuna lingua
  • Larticolo manca in molte lingue (Latino, lingue
    slave, Cinese)
  • Avverbio?

40
CATEGORIE LESSICALI E DIZIONARI
  • Un dizionario tipicamente identifica tutte le
    parti del discorso che una certa forma di
    parola puo essere usata per esprimere, e
    solitamente associa voci diverse con ogni parte
  • warble1, warble2
  • Italiano legge, letto, affetto, porto, pianta

41
ZINGARELLI INTERATTIVO LEGGE1
1 Norma, espressa dagli organi legislativi dello
Stato, che stabilisce diritti e doveri dei
cittadini Legge delega, che viene emessa dal
potere esecutivo su delega del potere legislativo
entro un ambito ben precisato Legge ponte,
emessa in attesa di un'altra più organica A
norma, a termini di legge, secondo ciò che la
legge prescrive. 2 (est.) Complesso delle norme
costituenti l'ordinamento giuridico di uno Stato
la legge è uguale per tutti Essere fuori della
legge, non essere garantito dalla legge o non
sentirsi a essa soggetto Dettar legge, imporre a
tutti la propria volontà. 3 Scienza giuridica
laurea in legge dottore in legge facoltà di
legge Uomo di legge, specialista nella scienza
giuridica.4 Autorità giudiziaria ricorrere alla
legge In nome della legge, formula con cui i
rappresentanti dell'autorità giudiziaria intimano
a qc. di obbedire a un comando della stessa in
nome della legge, aprite! 5 (est.) Ogni norma che
regola la condotta individuale o sociale degli
uomini le leggi della società. 6 (est.) Regola
fondamentale di una tecnica, di un'arte e sim.
le leggi della pittura. 7 Relazione determinata e
costante fra le quantità variabili che entrano in
un fenomeno le leggi della matematica, della
fisica.
42
ZINGARELLI INTERATTIVO LEGGE2
leggere v. tr. (pres. io lèggo, tu lèggi pass.
rem. io lèssi, tu leggésti part. pass. lètto) 1
Riconoscere dai segni della scrittura le parole e
comprenderne il significato imparare, insegnare
a leggere leggere a voce alta (ass.) Fare
lettura, dedicarsi alla lettura trascorro gran
parte della giornata leggendo. 2 Interpretare
certi segni convenzionali o naturali i ciechi
leggono con le dita leggere un diagramma (fig.)
Leggere la mano, ricavare dati sul carattere e
sul destino di qc. basandosi sulle linee della
mano. 3 (lett.) Interpretare uno scritto, un
passo i critici dell'Ottocento leggevano
erroneamente questa strofa (est.) Interpretare,
valutare scritti, eventi e sim. secondo
particolari criteri leggere un film in chiave
ironica. 4 (fig.) Intuire i pensieri e le
intenzioni di qc. gli si legge il terrore sul
volto.
43
CLASSIFICAZIONE GRAMMATICALE NEI CORPORA
  • In molti dei corpora piu recenti (a partire dal
    Brown corpus), e particolarmente in quelli usati
    per la lessicografia, i token vengono
    classificati con la loro parte di discorso
  • Brown corpus fatto a mano
  • BNC, LIP fatto automaticamente
  • Queste informazioni possono essere usate per
    associare parti del discorso ai lemmi

44
IL BROWN CORPUS
  • Il primo corpus in formato elettronico moderno
    (Francis and Kucera, 1961)
  • 500 testi, ognuno 2 000 parole
  • Analisi SINCRONICA dellInglese Americano testi
    di 15 generi (fantascienza, romanzi, articoli
    scientifici, reportage a stampa)
  • Annotata la parte del discorso di tutte le parole
    (87 classi)

45
IL British National Corpus (BNC)
  • Creato tra il 1991 ed il 1994 da un consorzio
    diretto da Oxford University Press
  • Circa 100 milioni di parole
  • Classificazione grammaticale automatica usando il
    classificatore CLAWS (parti corrette a mano
    successivamente)
  • http//www.hcu.ox.ac.uk/BNC

46
CLASSIFICAZIONE GRAMMATICALE BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB out/RP
a/AT living/RBG arrangement/NN with/IN jazz/NN
,/, which/VDT comes/VBZ to/IN the/AT medium/NN
more/QL as/CS an/AT uneasy/JJ guest/NN than/CS
as/CS a/AT relaxed/VBN member/NN of/IN the/AT
family/NN ./.
47
AMBIGUITA NELLA CLASSIFICAZIONE GRAMMATICALE
  • Molte forme di parola possono essere associate
    con parti del discorso diverse
  • STATO sia sostantivo (LO STATO ITALIANO) che
    verbo (NON SONO STATO IO)

48
AMBIGUITA NELLA CLASSIFICAZIONE GRAMMATICALE
The ATman NN
VBstill NN VB RBsaw
NN VBDher PPO PP
49
STATISTICHE SULLAMBIGUITA NEL B.C.
Unambiguous (1tag) 35,340Ambiguous (2-7
tags) 4,100 2 tags 3,760 3 tags 264 4
tags 61 5 tags 12 6 tags 2 7 tags 1
(still)
50
METODI PER LA CLASSIFICAZIONE GRAMMATICALE
AUTOMATICA
  • Prevalentemente STATISTICI
  • Combinano
  • Informazioni sulla FREQUENZA di una parola
  • Con informazioni sul CONTESTO (specialmente
    parole precedenti)
  • E sulla sua MORFOLOGIA (specialmente per parole
    sconosciute)
  • POBILARE

51
STRUMENTI INFORMATICI PER LA CLASSIFICAZIONE
GRAMMATICALE
  • INGLESE
  • LTG Edinburgh (LT-POS) http//www.ltg.ed.ac.uk/sof
    tware/pos/index.html
  • QTAG
  • Brill Tagger
  • TEDESCO
  • TreeTagger http//www.ims.uni-stuttgart.de/projek
    te/corplex/TreeTagger/DecisionTreeTagger.html
  • ITALIANO versione italiana di TreeTagger
  • A PAGAMENTO
  • Xelda (Italiano, Inglese, Francese, Tedesco,
    Chinese, Russo, etc)

52
MORFOLOGIA
  • Jackson, 1.6
  • Marello, 1.2
  • Graffi / Scalise, I.3

53
I MORFEMI
  • Le parole non sono necessariamente atomiche, ma
    (in Italiano almeno) si possono quasi sempre
    scomporre in unita piu piccole i MORFEMI
  • Un MORFEMA e la minima unita linguistica
    dotata di un significato proprio

54
DUE ESEMPI
BOYS
55
DUE ESEMPI
REPURIFICARE
56
STRUTTURA DELLE PAROLE
  • INGLESE RADICE AFFISSI
  • RADICE (boy)
  • AFFISSI (-s in boys)
  • ITALIANO TEMA AFFISSI
  • RADICE (ragazz-)
  • TEMA (radice vocale tematica e.g., ragazzo)
  • AFFISSI (-i in ragazzi)

57
AFFISSI
  • La modificazione delle parole avviene in due modi
    principali attaccando un AFFISSO ad un
    morfema o giustapponendo due morfemi
  • Tre tipi di affissi
  • PREFISSI RE- PURIFICARE ? REPURIFICARE
  • SUFFISSI PUR- - IFICARE ? PURIFICARE
  • INFISSI CANT- -ICCH- IARE ? CANTICCHIARE

58
TRE TIPI DI MODIFICAZIONE
  • FLESSIONE
  • DERIVAZIONE
  • COMPOSIZIONE

59
FLESSIONE
  • Processo che AGGIUNGE alla radice / tema
    informazione semantica grammaticalizzata
    (tipicamente via suffissi)
  • GENERE bello ? bella
  • NUMERO bello? belli
  • CASO (Latino, Tedesco) rosa? rosam
  • TEMPO ama? amava
  • PERSONA amo / ami / ama

60
DERIVAZIONE
  • Processo che produce NUOVE parole aggiungendo al
    tema prefissi, suffissi ed infissi
  • PREFISSI RE- PURIFICARE ? REPURIFICARE
  • SUFFISSI PUR- - IFICARE ? PURIFICARE
  • INFISSI CANT- -ICCH- IARE ? CANTICCHIARE

61
SUFFISSI ALTERATIVI
  • Indicano dimensioni ridotte o segnalano
    linformalita della situazione
  • casetta
  • cenetta / sposini
  • Tipici dellitaliano

62
CONVERSIONE
  • Il processo di derivazione puo produrre parole
    la cui categoria lessicale (parte del discorso)
    e diversa da quella della parola originale.
  • N ? V magnete ? magnetizzare
  • A ? V attivo ? attivare
  • N ? A ? V centro ? centrale ? centralizzare
  • A ? N ? V giusto ? giustizia ? giustiziare
  • In Italiano (ma non in Inglese) sostantivazione
    dellaggettivo (povero / il povero)

63
COMPOSIZIONE
  • La composizione forma nuove parole a partire da
    parole esistenti
  • CAPOSTAZIONE? CAPOSTAZIONE
  • SALVAVITA ? SALVAVITA
  • PAST- ASCIUTTA ? PASTASCIUTTA

64
LEMMATIZZAZIONE AUTOMATICA
DARGLIELO
65
LEMMATIZZAZIONE NEL LIP
  • In Italiano, una volta nota la categoria
    grammaticale di una forma il lemma e solitamente
    univocamente determinato
  • Eccezioni 1.4 (CONTI pl. di ? CONTO o ? CONTE)
  • Processo in tre passi

66
LEMMATIZZAZIONE
  • ANCORA LA DERIVA
  • ANCORA (N, V, CON) LA (ART, PRO) DERIVA N, V)
  • ANCORA (V) LA (ART) DERIVA (N)
  • ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

67
LEMMATIZZAZIONE CON XELDA
68
XELDA DEMO ONLINE
  • Analisi morfologica in 14 lingue

69
PER RIASSUMERE
  • NOZIONI DI BASE DI MORFOLOGIA
  • PARTI DEL DISCORSO
  • MORFEMA
  • FLESSIONE, DERIVAZIONE, COMPOSIZIONE

70
PROCESSI DI FORMAZIONE DELLE PAROLE
  • COMPOSIZIONE DA PAROLE ESISTENTI
  • Anche due parole greche (biblioteca, ippodromo)
  • DERIVAZIONI
  • Remasterizzare
  • ACRONIMI
  • AIDS, CD-ROM, HTML
  • PRESTITI
  • Bonsai, glasnost, golpe, tango,

71
ACRONIMI IN ITALIANO Dizionario interattivo
Zanichelli
  • TN (Trento, Tennessee, etc)
  • T/N turbonave
  • TND dinaro tunisino
  • TNT
  • TO
  • TOM - fr. Territoire d'Outre-Mer (territorio
    d'oltremare)
  • TOREMAR - TOscana REgionale MARittima (società di
    navigazione)
  • Torr. - Torrente (nelle carte geografiche)
  • TOSAP (Tassa sull'Occupazione di Spazi ed Aree
    Pubblici)
  • Tosc. (toscano)

72
DA DOVE ARRIVANO LE PAROLE DELLITALIANO?
  • Le parole piu antiche
  • Sec IX-X a, da, bevere, dente, favella
  • 960-963 anno, contenere, ki (qui)
  • 1150-59 genitore, male, pane, prendere
  • Dal bizantino arcipelago, catasto, duca,
    iconoclasta, molo,
  • Dal latino medievale acquavite, bonificare,
    commissario, scatola,
  • Dalle lingue Germaniche albergo (Gotico), airone
    (Longobardo)
  • DallArabo darsena, dogana, ,magazzino,
    assassino, cotone, facchino, algebra, zenit,
    alambicco
  • Dal Francese bersaglio, conte, dama, freccia,
    giullare, sire
  • Dallo Spagnolo acciacco, alfiere, appartamento,
    disinvoltura, .

73
STORIA DELLE PAROLE INGLESI
  • DallAnglo Sassone (? Old English)
  • Dalle lingue scandinave (they, them, their)
  • Dal Francese (? Middle English)
  • Dal Latino / Greco / Francese durante il
    Rinascimento fino al 1700 circa

74
LETTURE
  • Jackson, capitoli 1 e 9
  • Marello, capitolo 1
  • Per saperne di piu
  • Jezek, capitoli 1, 2 e 4
  • Lenci Montemagni Pirrelli, capitolo 4
Write a Comment
User Comments (0)
About PowerShow.com