Title: TAPoR
1TAPoR
- Text Analysis Portal for Research
2Cosè Tapor
- Si tratta di un analizzatore testuale che prevede
3 set di strumenti per altrettante tipologie di
file testuali - File di testo semplice (plain text)
- File HTML
- File XML
- Il progetto nasce come collaborazione tra 6
università
3Le 6 università
- McMaster University
- University of Alberta
- Université de Montreal
- University of New Brunswick
- University of Toronto
- University of Victoria
4(No Transcript)
5Un problema spinoso
- Il formato dei file riconosciuti da un
analizzatore testuale è vario e non standard - Generalmente si tratta di file con estensione TXT
(plain text) - Tact legge formati MS-DOS, TAPoR formati
US-ASCII, UNICODE.
6Salvare il testo
- I valori ASCII standard sono quelli fra 0 e 127,
cioè i valori ottenibili con 7 bit) - L'ASCII standard è uguale fra le diverse lingue e
le diverse macchine (mac, unix, win...) per i
valori fra 32 e 127, rappresentando lettere
dell'alfabeto inglese, numeri e alcuni caratteri
speciali - quelli fra 0 e 31 sono riservati ai diversi
sistemi operativi.
7Salvare il testo
- I bit vengono aumentati a 8 e si ebbe in tal modo
il cosiddetto ASCII esteso, che nelle varie
versioni internazionali ospitava tutti quei
caratteri non presenti nell'ASCII a 7 bit - Particolarmente usato è ISO-LATIN 1, che contiene
i caratteri principali delle lingue occidentali e
anglosassoni con alfabeti latini
8Muoversi in Tapor
- Tre tipologie di testi analizzabili (TXT, HTML,
XML) - Diversi strumenti per le diverse tipologie
- Su file lunghi le operazioni possono richiedere
molto tempo, dipendentemente dalla macchina e
dalla connessione a internet
9Analisi plain text gli strumenti
- List words (elencazione delle parole) elenca
tutte le parole presenti nel testo, ordinandole
in 4 modi (alfabetico diretto ed inverso, di
frequenza, di ordine di comparsa) - Find text (ricerca del testo) è lo strumento di
concordanza per cercare parole, frasi o righe di
testo
10BOX DI SELEZIONE PER LOPZIONE LIST WORDS
11RISULTATO INTERROGAZIONE SULLE RIME
DELLANGIOLIERI
12ORDINAMENTO PER FREQUENZA
13STRUMENTO FIND TEXT - CONCORDANZA
14CONCORDANZA PER LA PAROLA AMORE
15Analisi plain text gli strumenti
- Co-occurence (co-occorrenza) cerca le ricorrenze
di due parole vicine tra loro, a distanza
specificata - Collocation (collocazione) vengono restituite le
parole che precedono e seguono immediatamente la
parola data. Ordinamento alfabetico, per
frequenza e per Z-score
16STRUMENTO CO-OCCORENCE
17CO-OCCORRENZA AMORE/CUORE
18CO-OCCORRENZA AMORE/DOLORE
19Analisi plain text gli strumenti
- Tokenize (divisione in token) divide il testo in
parti, usando come separatore un token
specificato (una parola, uno spazio, un elemento,
ecc) - Fixed phrase (frase fissata) viene estratta la
frase che contiene una parola data calcolata in
base alla lunghezza del contesto voluta
20Analisi plain text gli strumenti
- Date finder (estrattore di date) trova nel testo
tutti i formati data possibili e li restituisce
insieme al contesto - Summarizer
- Comparator
- Distribution
- Speech Tagger
21La distribuzione
DISTRIBUZIONE FORMA GIUSTIZIA LA PATENTE,
L. PIRANDELLO
22Alcuni indici di rilievo
- Token
- Type
- Hapax legomena
- Hapax dislegomena
- Deviazione standard
- Z-score
- Indice di Kurtosis
- Caratteristica di Herdann
23- Number of Types 1325
- Number of Tokens 3018
- Type/Token ratio 0.439
- Token/Type ratio 2.278
- Hapax Legomena 932
- Hapax Dislegomena 193
- Hapax Legomena/Dislegomena ratio 4.8290
- Hapax Legomena/Number of Types 0.7034
- Hapax Legomena/Number of Tokens 0.3088
- Hapax Legomena cubed/Types squared 461.1221
- Variance ( S.D. squared ) 39.6977
- Standard Deviation (S.D.) 6.3006
- Coefficient of skewness 14.4959
- Coefficient of kurtosis 278.5743
- Herdan's characteristic 0.0760
- Yule's characteristic 652.5240
- Carroll TTR (Types / Sqrt of 2 X Tokens)
17.0546 - Most Frequent word "e" occurred 150 times
- repeat rate (Tokens / frequency most frequent
word) 20.1200
24Le statistiche di base
1021 types 2632 tokens 708 hapax legomena 148
hapax dislegomena
25Links
- http//tapor.humanities.mcmaster.ca/home.html
- http//taporware.mcmaster.ca