TAPoR - PowerPoint PPT Presentation

1 / 25
About This Presentation
Title:

TAPoR

Description:

TAPoR Text Analysis Portal for Research Cos Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali ... – PowerPoint PPT presentation

Number of Views:31
Avg rating:3.0/5.0
Slides: 26
Provided by: Lel98
Category:
Tags: tapor

less

Transcript and Presenter's Notes

Title: TAPoR


1
TAPoR
  • Text Analysis Portal for Research

2
Cosè Tapor
  • Si tratta di un analizzatore testuale che prevede
    3 set di strumenti per altrettante tipologie di
    file testuali
  • File di testo semplice (plain text)
  • File HTML
  • File XML
  • Il progetto nasce come collaborazione tra 6
    università

3
Le 6 università
  • McMaster University
  • University of Alberta
  • Université de Montreal
  • University of New Brunswick
  • University of Toronto
  • University of Victoria

4
(No Transcript)
5
Un problema spinoso
  • Il formato dei file riconosciuti da un
    analizzatore testuale è vario e non standard
  • Generalmente si tratta di file con estensione TXT
    (plain text)
  • Tact legge formati MS-DOS, TAPoR formati
    US-ASCII, UNICODE.

6
Salvare il testo
  • I valori ASCII standard sono quelli fra 0 e 127,
    cioè i valori ottenibili con 7 bit)
  • L'ASCII standard è uguale fra le diverse lingue e
    le diverse macchine (mac, unix, win...) per i
    valori fra 32 e 127, rappresentando lettere
    dell'alfabeto inglese, numeri e alcuni caratteri
    speciali
  • quelli fra 0 e 31 sono riservati ai diversi
    sistemi operativi.

7
Salvare il testo
  • I bit vengono aumentati a 8 e si ebbe in tal modo
    il cosiddetto ASCII esteso, che nelle varie
    versioni internazionali ospitava tutti quei
    caratteri non presenti nell'ASCII a 7 bit
  • Particolarmente usato è ISO-LATIN 1, che contiene
    i caratteri principali delle lingue occidentali e
    anglosassoni con alfabeti latini

8
Muoversi in Tapor
  • Tre tipologie di testi analizzabili (TXT, HTML,
    XML)
  • Diversi strumenti per le diverse tipologie
  • Su file lunghi le operazioni possono richiedere
    molto tempo, dipendentemente dalla macchina e
    dalla connessione a internet

9
Analisi plain text gli strumenti
  1. List words (elencazione delle parole) elenca
    tutte le parole presenti nel testo, ordinandole
    in 4 modi (alfabetico diretto ed inverso, di
    frequenza, di ordine di comparsa)
  2. Find text (ricerca del testo) è lo strumento di
    concordanza per cercare parole, frasi o righe di
    testo

10
BOX DI SELEZIONE PER LOPZIONE LIST WORDS
11
RISULTATO INTERROGAZIONE SULLE RIME
DELLANGIOLIERI
12
ORDINAMENTO PER FREQUENZA
13
STRUMENTO FIND TEXT - CONCORDANZA
14
CONCORDANZA PER LA PAROLA AMORE
15
Analisi plain text gli strumenti
  1. Co-occurence (co-occorrenza) cerca le ricorrenze
    di due parole vicine tra loro, a distanza
    specificata
  2. Collocation (collocazione) vengono restituite le
    parole che precedono e seguono immediatamente la
    parola data. Ordinamento alfabetico, per
    frequenza e per Z-score

16
STRUMENTO CO-OCCORENCE
17
CO-OCCORRENZA AMORE/CUORE
18
CO-OCCORRENZA AMORE/DOLORE
19
Analisi plain text gli strumenti
  1. Tokenize (divisione in token) divide il testo in
    parti, usando come separatore un token
    specificato (una parola, uno spazio, un elemento,
    ecc)
  2. Fixed phrase (frase fissata) viene estratta la
    frase che contiene una parola data calcolata in
    base alla lunghezza del contesto voluta

20
Analisi plain text gli strumenti
  1. Date finder (estrattore di date) trova nel testo
    tutti i formati data possibili e li restituisce
    insieme al contesto
  2. Summarizer
  3. Comparator
  4. Distribution
  5. Speech Tagger

21
La distribuzione
DISTRIBUZIONE FORMA GIUSTIZIA LA PATENTE,
L. PIRANDELLO
22
Alcuni indici di rilievo
  • Token
  • Type
  • Hapax legomena
  • Hapax dislegomena
  • Deviazione standard
  • Z-score
  • Indice di Kurtosis
  • Caratteristica di Herdann

23
  • Number of Types 1325
  • Number of Tokens 3018
  • Type/Token ratio 0.439
  • Token/Type ratio 2.278
  • Hapax Legomena 932
  • Hapax Dislegomena 193
  • Hapax Legomena/Dislegomena ratio 4.8290
  • Hapax Legomena/Number of Types 0.7034
  • Hapax Legomena/Number of Tokens 0.3088
  • Hapax Legomena cubed/Types squared 461.1221
  • Variance ( S.D. squared ) 39.6977
  • Standard Deviation (S.D.) 6.3006
  • Coefficient of skewness 14.4959
  • Coefficient of kurtosis 278.5743
  • Herdan's characteristic 0.0760
  • Yule's characteristic 652.5240
  • Carroll TTR (Types / Sqrt of 2 X Tokens)
    17.0546
  • Most Frequent word "e" occurred 150 times
  • repeat rate (Tokens / frequency most frequent
    word) 20.1200

24
Le statistiche di base
1021 types 2632 tokens 708 hapax legomena 148
hapax dislegomena
25
Links
  • http//tapor.humanities.mcmaster.ca/home.html
  • http//taporware.mcmaster.ca
Write a Comment
User Comments (0)
About PowerShow.com