Title: Analisi Statistica dei Dati
1Analisi Statistica dei Dati
2Elementi di teoria della probabilitÃ
3Eventi aleatori
- Un evento è aleatorio (casuale) quando non si
può prevedere con certezza se avverrà o meno - I fenomeni (eventi) aleatori sono studiati
attraverso la teoria della probabilitÃ
- Probabilità di un evento semplice
- Un evento può risultare
- Certo (si verifica sempre)
- -estrazione di una pallina nera da unurna
contenente solo palline nere - Impossibile(non si verifica mai)
- -estrazione di una pallina bianca da unurna
contenente solo palline nere - Probabile(può verificarsi o no)
- -estrazione di una pallina bianca da ununa
contenente sia palline nere che bianche
4Eventi e probabilitÃ
certo
probabile
P0
0ltPlt1
P1
Se E indica un evento levento corrispondente al
non verificarsi di E rappresenta levento
complementare E con la relazione
P(E) 1 P(E)
La prova genera levento con una certa probabilitÃ
5Eventi aleatori
- Evento semplice singola manifestazione di un
fenomeno (misura,osservazione, risultato) che
esclude altri eventi (eventi incompatibili
testa o croce nel lancio di una moneta) - Evento composto è costituito da una
combinazione di più eventi semplici. Possono
verificarsi simultaneamente ovvero sono
compatibili(levento testa di una moneta è
compatibile con levento croce nel lancio di due
monete)
6Eventi aleatori
- Linsieme di tutti gli eventi di un fenomeno
costituiscono luniverso o spazio campione (O)
delle possibilità . - Si usa il termine successo per segnalare che si è
verificato levento considerato e insuccesso in
caso contrario. Essi sono eventi incompatibili o
mutuamente esclusivi
7Spazio campionario
- Lo spazio campionario associato al lancio di due
monete comprende 4 punti che rappresentano i
possibili risultati - Si chiama evento ogni sottoinsieme dello spazio
campionario
8Teoria e calcolo della probabilitÃ
- Lentità di successi in una serie di osservazioni
(prove) può essere definita come frequenza
relativa o (percentuale) calcolata come rapporto
tra il numero di eventi favorevoli rispetto al
numero di casi esaminati - Il grado di aspettativa circa il verificarsi di
un evento E, ovvero la probabilità dellevento
P(E) è
9Concezione classica della probabilitÃ
- La probabilità di un evento E è il rapporto
tra il numero di casi favorevoli al verificarsi
di E(n) e il numero di casi possibili (N), purché
siano tutti equi - probabili
Es probabilità di estrarre un asso da un mazzo
di 52 carte 4/52 0.08
probabilità di ottenere testa nel lancio di una
moneta 1/2 0.5
10Applicazioni della concezione classica
- Probabilità uscita testa
- Probabilità faccia 6 dado
- Qual è la probabilità che lanciando due volte una
moneta si presenti prima la faccia testa poi la
faccia croce - 1- TT
- 2- TC
- 3- CT
- 4- CC
11Concezione frequentista della probabilitÃ
- La probabilità di un evento è la frequenza
relativa di successo in una serie di prove
tendenti allinfinito, ripetute sotto identiche
condizioni - Nella concezione frequentista la probabilità è
ricavata a posteriori dallesame dei dati
Frequenza relativa su un gran numero di prove
Es qual è la probabilità post-operatoria dopo
lintervento xyz ? I dati su un decennio in un
territorio presentano 30 morti su 933
interventi Frequenza relativa 30/933 3.22
Probabilità di mortalità post-operatoria
12Legge dei grandi numeri
- P(E) ripetendo la prova un gran numero di volte
si osserva che il rapporto f m/n (frequenza
relativa) dove m numero di successi ed n numero
di prove tende ad avvicinarsi sempre più alla
probabilità P(E) - La frequenza relativa f al crescere del numero
delle prove, tende, pur oscillando, verso un
valore costante (stabilità della frequenza)
13Elementi di statistica
14Elementi di statistica
- La statistica è unestensione del calcolo delle
probabilità - Si parte dai concetti fondamentali
- Si estende la definizione di probabilitÃ
- Si introducono delle nuove variabili
15Estensione del concetto di probabilitÃ
16Estensione del concetto di probabilitÃ
- La probabilità viene fatta passare
- da un numero razionale ...
- ... ad un numero reale
- La probabilità può essere infinitesima
- Anche se poi si darà significato sempre alla
probabilità finita - Tramite integrazioni
17Estensione del concetto di probabilitÃ
- Si suppongono valide tutte le leggi delle
probabilità già stabilite - Non si può più definire la probabilità come
rapporto fra casi favorevoli e casi possibili
18Le variabili aleatorie(variate)
19Le variabili aleatorie
- Una variabile aleatoria è una variabile...
- ... reale
- ... discreta o continua
- ... associata ad una probabilitÃ
20Le variabili aleatorie
- Una variabile aleatoria discreta
- Assume i valori ...
- ... con probabilitÃ
21Le variabili aleatorie
- Esempio classico il dado
- Variata un numero da 1 a 6
- Probabilità associata 1/6
22- Si definisce
- Valore atteso
- Speranza matematica
- Valore medio
23- La variabile aleatoria discreta può essere
definita da una tabella - Esempio
- I numeri riportati sulle facce di un dado
- Attenzione i numeri potrebbero essere diversi
- Anche le probabilità se il dado fosse truccato...
24Il dado
xk Pk
1 0.167
2 0.167
3 0.167
4 0.167
5 0.167
6 0.167
25- Ed ecco una rappresentazione grafica
- Distribuzione
- Spettro
26(No Transcript)
27- Se si conoscono solo valori proporzionali alle
probabilità occorrerà normalizzarli
28- Una variata continua
- Assume valori reali in un dominio D con
probabilità infinitesima - La è la funzione di distribuzione
(spettro) - Funzione densitÃ
29- Il dominio D sarà per noi, praticamente sempre,
uno dei seguenti insiemi - Tutto lasse reale
- Il semiasse reale positivo
- Un intervallo (e di solito chiuso)
- Indicheremo in ogni caso lestremo inferiore con
low e quello superiore con high - Ecco degli esempi
30Binomiale
31Uniforme
32Poissoniana
33- In ogni caso vale la condizione di
normalizzazione - ...ed in generale un valore atteso (speranza
matematica) vale...
34(No Transcript)
35- Il momento di ordine 0 corrispnde alla condizione
di Normalizzazione
36Funzioni di distribuzione
- In sintesi, le principali caratteristiche di una
funzione di distribuzione sono
37Le distribuzioni in generale
38Le distribuzioni in generale
- Di solito hanno quindi dei picchi
- Il picco più alto si chiama moda della
distribuzione - Un picco unimodale
- Poi bimodale, multimodale...
39Le distribuzioni in generale
- Si definisce la mediana
- È definita con unequazione integrale
- Non gode di proprietà di linearitÃ
- Molto utile e potente soprattutto nellanalisi
delle serie temporali
40Le distribuzioni in generale
- Poi ci sono i quartili
- Mediane della mediana
- Poi i percentili ...
41Le distribuzioni in generale
- Quasi sempre di una distribuzione si fornisce
- La media
- La standard deviation
- La moda
- A volte anche il momento secondo (o la sua
radice) - Valore quadratico medio
- È il caso delle velocità in un gas
42Le distribuzioni in generale
- Attenzione a non confondere
- Facili a confondere se si usa il simbolo
43Distribuzioni discrete e continue
44Le principali distribuzioni discrete
45Le principali distribuzioni discrete
- Veramente importanti solamente due
- Distribuzione di Bernoulli e binomiale
- Distribuzione di Poisson, o degli eventi rari
46La distribuzione di Poisson
47La distribuzione di Poisson
- È la distribuzione di eventi rari
- È ciò che diviene la binomiale quando
- Legge della distribuzione
48La distribuzione di Poisson
49La distribuzione di Poisson
50La distribuzione di Poisson
51La distribuzione di Poisson
- Ed infine un grafico per e
52(No Transcript)
53Le principali distribuzioni continue
54Le principali distribuzioni continue
- Molte hanno interesse limitato
- Qui studiamo solo quelle di maggiore interesse
per la misura - Definite
- In un intervallo (solo la uniforme)
- Semiasse reale positivo
- Tutto lasse reale
55La distribuzione uniforme
56La distribuzione uniforme
- Definita fra 1/2 e 1/2
- Di solito però fra 0 e 1
- Il calcolatore estrae numeri a caso in questo
intervallo - In realtà i numeri sono pseudocasuali
- Estratti con un formalismo causale si verifica a
posteriori che rispettino la casualità - Il caso di p
- Sono la base per simulazioni statistiche
57(No Transcript)
58La distribuzione uniforme
- Definizione della distribuzione
- In generale
59(No Transcript)
60La distribuzione uniforme
61UN PROBLEMA INTERESSANTE
62Un problema interessante
- Visto che il calcolatore mi dà solo numeri
(pseudo)casuali fra 0 ed 1, posso (e se sì come)
ottenere dei numeri distribuiti fra A e B con una
distribuzione f(x) ? - La risposta è affermativa
- Metodo di reiezione
63Un problema interessante
64Un problema interessante
- Ricetta
- Calcoliamo anzitutto il massimo della funzione
nel - nostro intervallo
- Poi calcoliamo
- Estraiamo un numero fra 0 ed 1
- Calcoliamo
65Un problema interessante
- Ora estraiamo un secondo numero fra 0 ed 1, e
moltiplichiamolo per M - Quindi una distribuzione
- uniforme fra 0 ed M
- Siamo ora in possesso di due numeri
(pseudo)casuali - X fra a e b
- Y fra 0 ed M
66Un problema interessante
- Calcoliamo la
- Terremo per buono il valore X
- se è
- Rigetteremo il valore X
- se è
67Un problema interessante
- Il metodo è usatissimo e garantito
- Funziona a spese di estrazioni a vuoto
- In pratica
- Si riempie uniformemente il rettangolo verde di
punti - Si tengono per buoni solo quelli sotto la curva
- Funziona anche per più dimensioni
- ...e si allungano i tempi...
68La distribuzione gaussiana
69La distribuzione gaussiana
- Noi ci limiteremo alle variate normali
- Sono le più utili
- Coprono lassoluta maggioranza dei casi pratici
- Quando occorre qualcosa di più si è nei guai
- In questo caso bastano due momenti
- Media e SD
70La distribuzione gaussiana
- Caso importante fuori dal coro
- i conteggi
- Seguono la statistica di Poisson
- Però
- Regola a spanne
- Quando µ gt 10 usate pure Gauss con
71La distribuzione gaussiana
- La funzione di distribuzione
72La distribuzione gaussiana
73La distribuzione gaussiana
- Definiremo a partire da una variata normale x
- La variata centrata (detta anche scarto)
- La variata ridotta (detta anche scarto ridotto)
- Vediamo degli esempi grafici
74(No Transcript)
75La distribuzione gaussiana
- Una proprietà importante
- Le probabilità di stare dentro un certo numero N
di SD sono sempre le stesse - Attenzione la funzione derrore è (storicamente)
definita per una gaussiana non normalizzata...
76La distribuzione gaussiana
77La distribuzione gaussiana
78La distribuzione gaussiana
1
2
3
4
5
79(No Transcript)
80Curva di Gauss
- Caratteristiche
- E simmetrica rispetto alla mediala probabilitÃ
di un valore superiore alla media di una quantitÃ
prefissata è uguale alla probabilità di un valore
inferiore per la stessa quantità - Larea compresa tra la funzione e larea delle
ascisse - ( da a - ) sia 1 così da esaurire
lo spazio campionario - Esiste la probabilità al 100 che la misura sia
inclusa nella distribuzione - La frazione di area compresa tra due valori della
variabile è assimilabile alla probabilità di
riscontrare casualmente una misura entro tale
intervallo
81Le aree sottese alla curva normale
- Spesso è necessario determinare la probabilità di
riscontrare casualmente una misura entro tale
intervallo - Proprietà della curva normale larea sottesa
alla porzione di curva che vi è tra le media e
una ordinata posta a una distanza data,
determinata in termini di una o più deviazione
standard, è costante
82Applicazione curva di Gauss
- Se una popolazione di unità classificate secondo
un certo carattere X si distribuisce normalmente,
la conoscenza di media e varianza (o loro stime)
consente di calcolare (o di stimare) la frequenza
relativa delle unità che presentano un valore di
X compreso in un certo intervallo - Calcolare la probabilità che, estraendo da tale
popolazione ununità questa abbia un valore di X
compreso in un certo intervallo
83(No Transcript)
84(No Transcript)
85Distribuzione gaussiana standardizzata
- Per agevolare il ricercatore la variabile x viene
trasformata in una nuova variabile - La distribuzione standardizzata presenta il
vantaggio di consentire la predisposizione di
tabelle che permettono di calcolare porzioni di
area della distribuzione e di stabilire la
probabilità statistica di riscontrate valori in
relazione a determinati valori z
86(No Transcript)
87Valori notevoli della distribuzione z
- z area compresa
area esterna allintervallo - nellintervallo
(- z z) (code della
distribuzione) - (-z z)
- 1 (-1ltzlt1) 0.683 ( 68)
0.317 ( 32) - 1.96 (-1.96ltzlt1.96) 0.95 ( 95)
0.05 ( 5) - 2.58 (-2.58ltzlt2.58) 0.99 ( 99)
0.01 ( 1)
88Esempio di utilizzazione della distribuzione z
- Qual è la probabilità che un individuo estratto a
caso da una popolazione con peso medio - 72 Kg e deviazione standard
- 25 Kg pesi tra i 60 e 80 Kg?
- Occorre calcolare la porzione di area compresa
tra 60 e 80 Kg. - ai cui valori corrispondono
rispettivamente i valori
89Esempio di utilizzazione della distribuzione Z
- Facendo riferimento alla tabella z
- per z0.48 nelle due code è 0.631
- Larea di interesse tra -0.48 e 0 è 0.5 -
- Con analogo procedimento si calcola la porzione
di area tra 0 e 0.32
- P(60kgltpesolt80kgP(z60ltzltz80)
- P(-0.48ltzlt0) (P(0ltzlt0.32)
- 1-0.3155 - 0.37450.310 31,0
90(No Transcript)
910,5
Ripartizione delle aree di probabilità della
distribuzione z
92Esempio di utilizzazione della distribuzione z
- Una popolazione di bambini presenta valori di
statura distribuiti in modo gaussiano con media
120 cm. e deviazione standard 16 cm. - Quale è la probabilità che un bambino scelto a
caso presenti una statura inferiore a 132 cm.? - Quale è la probabilità che laltezza sia maggiore
di 116 cm., ma inferiore a 132 cm.? - 1R
93Esempio di utilizzazione della distribuzione z
- 2R
- P(Z116ltZltZ132)0.7735-0.40150.3720 37.20