Title: La Statistica
1La Statistica
- La statistica è una disciplina che ha come fine
lo studio quantitativo e qualitativo di un
particolare fenomeno. Studia i modi (descritti
attraverso formule matematiche) in cui una realtà
fenomenica - limitatamente ai fenomeni collettivi
- può essere sintetizzata e quindi compresa.
2Introduzione
- La statistica è la scienza che studia fenomeni di
interesse generale,ed è una parte di studio della
matematica. - Essa si divide in 1) metodologica
- 2) applicativa.
- La prima riguarda il metodo statistico e i
concetti di carattere generale,la seconda
utilizza il metodo statistico nei più svariati
campi. - Appartengono alla Statistica applicata discipline
quali - -la statistica demografica
- -la statistica biometria
- -la statistica sanitaria
- -la statistica economica
- -la statistica giudiziaria
3Indagine statistica
- Unindagine statistica si articola nelle seguenti
fasi - Prima fase determinazione del fenomeno da
sottoporre a ricerca statistica - Seconda fasedeterminazione della popolazione
oggetto dellindagine statistica - Terza faserilevazione dei dati statistici o
caratteri - Quarta faserilevazione dei dati statistici
- Quinta fasespoglio o rappresentazione grafiche
dei dati rilevati - Sesta faseelaborazione dei dati che consente di
- -formulare leggi empiriche
- -ricavare previsioni
- -operare scelte e prendere decisioni applicative
4Statistica
5Determinazione del fenomeno da sottoporre ad
indagine statistica
- La Statistica ricerca le leggi che regolano i
fatti appartenenti a due distinte classi di
fenomeni - la classe dei fenomeni naturali
- la classe dei fenomeni sociali.
- I fenomeni relativi alla prima classe sono
denominati naturali perché cadono sotto il
dominio delle scienze naturali quali la fisica,
la chimica, la biologia, ecc. Essi, non solo si
possono osservare nelle manifestazioni spontanee,
ma, in diversi casi, si possono riprodurre in
laboratorio attraverso esperimenti svolti con
modalità e condizioni ambientali invarianti. - Le leggi che si ricavano sono, nella maggioranza
dei casi, espresse in termini matematici, in
altre parole, esiste una relazione algebrica che
lega le grandezze protagoniste del fenomeno. - I fenomeni relativi alla seconda classe sono
denominati sociali perché cadono sotto il
dominio delle scienze sociali, quali la
demografia, leconomia, la psicologia, la sanità,
la sociologia, ecc. - I fenomeni sociali, al contrario di quelli
naturali, non si possono ricostruire in
laboratorio, sicché bisogna accontentarsi di
osservarli nelle condizioni di tempo e di luogo
in cui si manifestano spontaneamente e da cui si
ricavano leggi empiriche cioè non riproducibili
in relazioni matematiche. - Se consideriamo i seguenti fenomeni di studio
- fenomeno relativo alla caduta di un grave
- fenomeno relativo alle nascite avvenute in Italia
dal 1974 al 1984, - il primo è un fenomeno naturale il secondo è
sociale. - home
6Determinazione della popolazione
- Nella seconda fase, dopo aver determinato il
fenomeno che si vuole sottoporre a ricerca
statistica, si stabilisce su quale spazio di
elementi si dovrà porre tale indagine. Tale
spazio detto popolazione è strettamente legato al
tipo di fenomeno da studiare. Se lo spazio è
tutta la popolazione lindagine è totale
(ricordiamo i censimenti) altrimenti è parziale e
si stabilisce uno spazio campione su cui lavorare
che deve riprodurre lo spazio campione in modo
uniforme (ad esempio stessa percentuale di
maschi, donne, bambini, anziani ecc.). - home
7Schema caratteri di una unità statistica
- Si possono distinguere due tipi di caratteri
- caratteri di tipo qualitativo
- caratteri di tipo quantitativo
- Un carattere di tipo qualitativo si esprime
mediante aggettivi o nomi detti modalità. - Un carattere di tipo quantitativo si esprime
attraverso modalità numeriche
8Caratteri
- Popolazioni o universo
- Unità statistiche
- Caratteri delle unita statistiche
-
- Caratteri di tipo qualitativo
Caratteri di tipo quantitativo - (Modalità non numeriche
- classi aggettivi, nomi, professioni,ecc)
(Modalità numeriche, intensità, oppure
classi di intensità). -
-
- Serie statistica
Seriazione statistica - (Successione dei dati statistici,
(Successione dei dati
statistici - cioè delle frequenze)
cioè
delle frequenze) -
-
-
Caratterecontinuo Carattere discreto - (le intensità assumono soltanto un numero finito
di valori)
(Le intensità assumonotutti gli
infiniti valori numerici reali
di intervallo)
9Rilevazione dati
- La rilevazione in funzione del tempo si può
suddividere in - rilevazioni continue
- rilevazioni periodiche
- rilevazioni occasionali.
- Una rilevazione si suddivide in totale se
effettuata sulle unità statistiche di tutto
luniverso della popolazione, altrimenti è
parziale ed è effettuata su uno spazio campione.
10 Rilevazione dei dati
Rivelazione totale dati
svantaggi
problema dellestensione
quantitativa
del
campione problema della
composizione qualitativa
del campioneproblema
dellestensione dei risultati
dal campione alluniverso.
Rilevazione parziale Ristretta ad una parte
delluniverso vantaggi risparmio di tempo
risparmio di spesa
home
11INDICI DI POSIZIONE CENTRALE
- Gli indici di posizione centrale sono chiamati,
più precisamente, valori medi o medie di un
insieme di dati statistici. - Un valore medio di un insieme di dati numerici
- x1,x2,,xn
- è un particolare numero M che, da solo, è capace
di rappresentare sinteticamente l intero insieme
dei predetti dati che, per scopi prefissati, è ad
esso sostituibile. - È facile convincersi che M è, in ogni caso, un
numero compreso tra il minimo e il massimo dei
dati x1,x2,,xn. - I valori medi più importanti sono i seguenti
- 1) la media aritmetica
- 2) la moda
- 3) la mediana
- La media aritmetica è il rapporto tra la somma
dei valori e il numero totale dei valori n. -
-
- La moda è il valore che si ripete con maggiore
frequenza,mentre la mediana è il valore centrale
dellinsieme ordinato dei valori . - Dora in poi con M indicheremo la media aritmetica
12Indici di variabilità
- 1)Campo di variazione
- È il più semplice degli indici di variabilità.
Esso è dato dalla differenza tra il dato massimo
e il dato minimo. Ossia -
- Tale indice equivale allampiezza del minimo
intervallo che contiene tutti i dati.
13Indici di variabilità
- 2)Scarto semplice medio
- Si ottiene la formula di un nuovo indice di
variabilità, detto scarto semplice medio -
- Lo scarto semplice medio è uguale alla media
aritmetica dei valori assoluti degli scarti
semplici di ciascun dato x dalla media aritmetica
M.
14Indici di variabilità
- 3)Varianza
- Consideriamo la successione di dati statistici
- aventi la seguente media aritmetica
- Le differenze sotto indicate
- tra ciascun dato e la media aritmetica si
chiamano scarti semplici dei dati statistici
dalla loro media aritmetica M. Si verifica
facilmente che la sommatoria di tutti gli scarti
semplici è uguale a zero, ossia che - Se calcoliamo la media aritmetica di questi
scarti quadratici -
15Indici di variabilità
- Ricaviamo un indice di variabilità detto varianza
16Indici di variabilità
- 4)Scarto quadratico medio
- Eseguendo la radice quadratica della varianza,
otteniamo per risultato quellimportante indice
di variabilità che si chiama scarto quadratico
medio -
17Indici relativi della variabilità
- Gli indici E, S, , che abbiamo presentato,
sono indici assoluti,ossia sono espressi nella
stessa unità di misura dei dati da elaborare. - Gli indici assoluti servono solo per confrontare
le variabilità di due insiemi di dati
omogenei,cioè che siano valori della stessa
grandezza infatti, non ha alcun senso
confrontare direttamente, per esempio,temperature(
C) con lunghezze (m),oppure masse(kg)con
tempi(sec),ecc. - Per poter confrontare due successioni di dati non
omogenei,cioè due insiemi di valori di due
grandezze distinte,occorre svincolarsi dalle
rispettive unità di misura. Tale obbiettivo si
raggiunge introducendo nuovi indici, detti indici
relativi di variabilitàessi sono numeri puri che
si ottengono,in generale,dai rapporti degli
indici assoluti di variabilità con la media
aritmetica dei dati.
18Indici relativi della variabilità
- 1)IL CAMPO DI VARIAZIONE RELATIVO
- ER E/M
- 2)LO SCARTO SEMPLICE MEDIO RELATIVO
- SR S/M
- 3)LO SCARTO QUADRATICO MEDIO RELATIVO
- /M
home
19Grafici
- Nella quinta fase la rilevazione statistica può
essere rappresentata con vari tipi di grafici
essi sono - Gli ideogrammi rappresentano lentità di una
grandezza con un simbolo che richiama alla mente
lidea di ciò che si intende rappresentare, ad
esempio la popolazione di un territorio può
essere rappresentata attraverso luso di figure
stilizzate di uomini e donne ogni simbolo
rappresenta una quantità ad esempio ogni figura
stilizzata rappresenta 100.000 abitanti talvolta
i simboli hanno dimensione fissa e varia il
numero, in altri casi varia la dimernsione del
simbolo. In ogni caso la legenda ci fornisce la
chiave di lettura da utilizzare.
20Grafici
- Gli istogrammi lineari sono grafici in cui le
grandezze che descrivono dei fenomeni sono
rappresentate da linee spezzate in un riferimento
cartesiano ortogonale
Questo è il grafico delle oscillazioni dei prezzi
di combustibili fossili dal 1980 al 2001in
dollari/barili equivalenti di petrolio
21Grafici
- Gli ortogrammi o istogrammi a colonne sono
grafici in cui le grandezze che descrivono dei
fenomeni sono rappresentate da figure
geometriche, in genere rettangoli o
parallelogrammi la cui altezza o area o volume è
proporzionale al fenomeno che rappresenta
talvolta questi grafici vengono ruotati di 90 in
modo che le figure geometriche siano poste
orizzontalmente.
Questo istogramma rappresenta la crescita della
popolazione di alcune grandi città del cosiddetto
terzo mondo le barre di diverso coloro
permettono di confrontare la crescita della
popolazione della città vera e propria con la
crescita della popolazione della baraccopoli
22Grafici
- Gli areogrammi larea del cerchio (o del
quadrato) rappresenta la totalità del fenomeno,
ossia il 100, ogni spicchio corrisponde ad una
data percentuale sono anche comunemente detti
grafici a torta.
Areogrammi o grafici a torta si utilizzano per
rappresentare le componenti di un fenomeno
come puoi vedere sono molto facili da leggere e
consentono una percezione immediata delle
proporzioni
23Grafici
- I cartogrammi si usano per raffigurare la
distribuzione di un fenomeno su un territorio,
infatti la base del cartogramma è una carta
geografica sulla quale vengono visualizzati con
opportuni simboli gli elementi che si intendono
rappresentare, ad esempio i minerali, le
industrie, i prodotti agricoli e così via.
24Cartogramma
Rappresenta i saldi provvisori dei movimenti di
energia elettrica in Italia nel 2003 in GWh.
home
25ELABORAZIONE DEI DATI
- L elaborazione dei dati è quella fase dell
indagine statistica che consiste nella
trasformazione dei dati grezzi rilevati in nuovi
dati, ricavati matematicamente, dotati della
proprietà di essere più sintetici, indicati e
interpretabili ai fini della scoperta delle leggi
empiriche che regolano il fenomeno in oggetto. - Prenderemo in esame quelle elaborazioni che
portano alla determinazione di due importanti
tipi di indici sintetici gli indici di posizione
centrale o medie e gli indici di dispersione o di
variabilità. - Si costruisce una tabella delle frequenze per
ogni dato (frequenza numero di volte che il dato
si ripete) con relativo grafico
26La distribuzione
- Quando dobbiamo giudicare un evento possiamo
descriverlo con la distribuzione dei suoi
possibili valori. Se analizziamo la distribuzione
di un campione di persone che seguono un certo
programma televisivo per decadi di età, magari
otteniamo un grafico di questo tipo
27Curva di Gauss
- Le cose si complicano quando ho molti valori
possibili, addirittura infiniti.Supponiamo per
esempio di effettuare tante misurazioni di una
stessa grandezza con uno strumento avremo
risultati differenti, dovuti all'inevitabile
imprecisione del nostro strumento e del nostro
operato, che sono detti errori accidentali. Se
rappresentiamo le misure ottenute su un grafico,
se il numero di misurazioni è molto grande, al
limite infinito, la curva che otterremo è proprio
la curva di Gauss.
Si tratta di una curva dalla classica forma a
campana che ha un massimo attorno alla media dei
valori misurati e può essere più o meno stretta a
seconda della dispersione dei valori attorno alla
media la dispersione si misura con la deviazione
standard praticamente una delle proprietà della
gaussiana è che il 68 delle misurazioni
differisce dalla media meno della deviazione
standard e che il 95 meno di due deviazioni
standard quindi maggiore è la deviazione
standard, più la gaussiana è "aperta" e più c'è
la possibilità che la media (il punto più alto)
non sia rappresentativo di tanti casi.Anche nel
caso della curva di Gauss l'area sottesa dalla
curva vale 1 perché la somma delle probabilità di
tutti i valori dà 1, cioè la certezza.
28Un esempio reale
- La distribuzione di Gauss è spesso detta normale.
L'aggettivo è significativo perché indica che
moltissimi fenomeni possono essere descritti da
una curva gaussiana o Gauss-like (cioè
simile).Se è vero che la gaussiana vale per una
popolazione infinita di misurazioni e per eventi
del tutto casuali, è altresì vero che curve a
campana (Gauss-like) possono descrivere
facilmente molti fenomeni per detti fenomeni
anche i concetti di media e di deviazione
standard continuano a essere validi, anche se
spesso solo il primo può essere definito con una
notevole precisione. - Supponiamo di considerare l'altezza degli
italiani maschi. Analizziamo un campione di 1.000
soggetti. Probabilmente otterremmo una curva a
campana, centrata attorno a una media, del tipo
174 cm di media con una "deviazione standard" di
circa 20 cm, cioè il 95 dei soggetti analizzati
sarebbe compreso fra 154 cm e 194 cm.
home
29APPROFONDIMENTI
- CENNI DI CALCOLO DELLE PROBABILITA
- Si definisce variabile casuale x (o aleatoria)
una quantità variabile che può assumere i valori
X1, X2, Xn, al realizzarsi degli eventi
incompatibili e complementari E1, E2, En aventi
rispettivamente probabilità p1, p2, pn. - Definiamo uno spazio di probabilità O in questo
modo - 1) p (O) 1 con O E1 ? E2 ? ? En
- 2) p (Ø) 0
- 3) 0 p (Ei) 1 con i1, n
- 4) p (E1 ? E2) p (E1) ? p (E2)
- con Ei incompatibili cioè i ? j
30Funzione di probabilità
- Si dice variabile casuale continua una variabile
casuale che può assumere qualsiasi valore reale
appartenente a un certo intervallo limitato o
illimitato. - Per descrivere una variabile casuale continua non
si può più utilizzare una distribuzione di
probabilità P(x) la quale, per ogni x, dà la
probabilità che X assuma proprio quel valore,ma
sarà necessario ricorrere alla funzione di
ripartizione, che esprime la probabilità che la
variabile causale assuma valori compresi in un
certo intervallo, o alla funzione di densità. -
31Distribuzione di Gauss
- Tra le variabili casuali continue, la più
importante per la varietà di situazioni in cui
trova applicazione è quella a distribuzione
normale o di Gauss, che assume qualsiasi valore
reale, avente la seguente funzione di densità. -
- f(x)
- I parametri che descrivono tale distribuzione
sono - - M, che corrisponde al valore medio M(X) e
quindi rappresenta il valore rispetto a cui la
distribuzione è simmetrica - - s, che è lo scarto quadratico medio s(X),
quindi rappresenta la dispersione della
distribuzione attorno al valore medio.
32Errori di misura
- La teoria degli errori si occupa di determinare
lerrore che si commette quando si approssima un
numero c con un valore a che gli si avvicina. - Lapprossimazione, che può essere per difetto, se
a lt c,o per eccesso, se a gt c, si effettua per
esempio quando si arrotonda a una certa cifra un
numero irrazionale, oppure quando il valore da
utilizzare deriva da una misurazione che, a
seconda della precisione degli strumenti
utilizzati o dalla correttezza delle operazioni
di misurazione, fornisce un valore prossimo, ma
non coincidente, con il reale valore della
grandezza. - Ci occuperemo di quest ultimo tipo di
approssimazione, considerando cioè gli errori di
misura. - Tali errori vanno valutati quando in una
misurazione è richiesta una certa
precisione,quindi quando è opportuno effettuare
più misurazioni di una stessa grandezza, che
spesso non danno il medesimo risultato. Ciò può
riguardare la valutazione di una lunghezza, di un
peso, di un voltaggio, eccetera.
33Errori di misura
- Supponendo di poter eliminare gli errori derivati
dallimprecisione degli strumenti, consideriamo
solo gli errori casuali, che dipendono
dallaccuratezza della misurazione. - Definiamo innanzi tutto lerrore assoluto.
- Nella misurazione di una grandezza lerrore
assoluto ea è il valore assoluto della differenza
fra il valore xi ottenuto dalla misurazione e il
valore esatto c, cioè - ea xi c
34Errori di misura
- Indichiamo con xi il valore ottenuto dalle
misurazioni perché supponiamo di effettuare più
misurazioni e di ottenere quindi più valori di
ea. - Per determinare i valori precisi di ea si può
solo effettuare una stima di ea. - Da n misurazioni si ottengono n valori
x1,x2,,xn, dei quali è possibile calcolare la
media -
- M
- Tale valore M viene considerato come valore
esatto c,quindi gli scarti in valore assoluto
x1- M, x2 M,.....,xn M corrispondono ai
valori degli errori assoluti ea.
35Errori di misura
- Se consideriamo la distribuzione degli errori
assoluti casuali,possiamo verificare che essa
segue un andamento di tipo gaussiano, quindi la
sua funzione di densità è - F(x) con
e
36Errori di misura
Ponendo z
si ottiene la funzione di densità della
distribuzione normale standardizzata
f(z)
avente M0 e
E possibile determinare la probabilità che
lerrore casuale sia contenuto in un certo
intervallo.
37Esempio
- Dopo aver utilizzato un certo numero di
misurazioni di una grandezza, si è calcolato che
M180,6 e 1,2. Determinare la probabilità che
lerrore assoluto sia - minore di 1
- minore di 2
a)Abbiamo
Per poter utilizzare la tavola della curva
normale standardizzata dobbiamo determinare i
valori di z z1
e z2
38Esempio
quindi risulta p
I valori di z si possono anche determinare
ponendo z1 -
e z2
Per la simmetria della funzione e utilizzando la
tavola di Excell, arrotondando il valore alla
seconda cifra decimale possiamo scrivere p
Otteniamo quindi una probabilità superiore al 50
che lerrore assoluto sia minore di 1. b)
Analogamente abbiamo
Trasformiamo nella normale standardizzata
z1
e z2
quindi,arrotondando alla seconda cifra decimale
il valore di z, p
La probabilità che lerrore assoluto sia minore
di 2 è 0,905.
39GRAFICI
- CALCOLO DELLA DISTRIBUZIONE NORMALE (O GAUSSIANA)
E DELLA SUA FUNZIONE DI RIPARTIZIONE FISSANDO
MEDIA (M) E LA DEVIAZIONE STANDARD (s) - M10 s5
40GRAFICI