Title: Matematica e statistica Versione didascalica: parte 5
1Matematica e statisticaVersione didascalica
parte 5
- Sito web del corso
- http//www.labmat.it
- Docente Prof. Sergio Invernizzi, Università di
Trieste - e-mail inverniz_at_units.it
21. Dati, frequenze, probabilità
31.1. Dati sperimentali
- 1.1.1. Scale di misura
- Scala nominale sesso (M, F), fattore Rh (, -),
... (0, 1) - Scala ordinale Mercalli (1-11), Mohs (1-10),
Beaufort (0-12), - Welzenbach (I-VI), voti positivi (18-30),
scale psicofisiche, - temperatura C, temperatura F, ...
- Scala rapportale grandezze del SI, ...
41.2. Dati simulati numeri casuali 0 ? X ? 1
Dato un sottointervallo a, b di 0, 1, si ha
che la probabilità
Proba ? X ? b b a
51.2.1. Distribuzioni uniformi 0 ? X ? 1
- Numero reale casuale 0 ? X ? 1
- su R
runif(1,0,1) - su molte calcolatrici rand
- Su R 12 numeri reali casuali fra 0 e 1
- gt runif(12,0,1)
- 1 0.3484068 0.8341864 0.8988571 0.5277379
- 5 0.3219228 0.1356026 0.4953923 0.2680660
- 9 0.7098743 0.9254270 0.2932126 0.7307181
61.2.1. Distribuzioni uniformi a ? X ? b
- Numero reale casuale a ? X ? b
- X lt- runif(1,a,b)
- X a rand ? (b a)
- Numero intero casuale n ? X ? m
- X lt- floor(runif(1,n,m 1))
- X int (n rand ? (m n 1))
- Dado 1 ? X ? 6
- X lt- floor(runif(1,1,7))
- X int (1 rand ? 6)
- Lotto/Tombola con R 1 ? X ? 90
- gt floor(runif(15,1,91))
- 1 88 52 4 40 77
- 6 89 63 41 41 11
- 11 41 78 17 52 12
71.2.1. Attenzione!
- Due dadi 2 ? X ? 12 (non uniforme), 30 lanci
- Il dado rosso Il dado
verde - gt floor(runif(30,1,7)) floor(runif(30,1,7))
- 1 8 7 6 4 8 7 7 9 10 5 4 10 8 8
- 15 8 4 2 4 12 2 7 6 7 11 10 9 10 8
- 29 11 7
- 30 lanci di un dado a 11 facce
numerate da 2 a 12 - gt floor(runif(30,2,13))
- 1 3 11 2 6 6 5 7 8 2 3 9 9 11 11
- 15 5 6 2 6 11 6 4 4 4 6 9 12 8 2
- 29 2 4
8250 dati interi da 1 a 12
Dati simulati con la ruota della fortuna a 12
spicchi uguali
4, 7, 4, 8, 6, 4, 3, 7, 3, 1, 6, 2, 9, 6, 6, 8,
12, 1, 1, 10, 11, 5, 8, 1, 8, 11, 5, 6, 3, 7, 2,
11, 12, 7, 9, 10, 3, 1, 3, 2, 4, 12, 3, 5, 5, 8,
7, 4, 10, 10, 3, 10, 8, ..., 6, 11, 7, 9, 6, 11,
4, 1, 6, 7, 10, 1, 11, 5, 8, 9, 3, 4, 3, 7, 7, 5,
7, 6, 2, 7, 12, 10, 8, 8, 9, 9, 3, 1, 11, 8
9250 dati interi da 1 a 12
Dati simulati con il lancio di due dadi
6, 6, 5, 6, 3, 4, 8, 7, 7, 6, 9, 5, 10, 6, 6, 7,
10, 10, 3, 3, 8, 5, 7, 6, 10, 7, 6, 7, 9, 4, 7,
2, 5, 11, 6, 6, 8, 6, 4, 7, 7, 9, 7, 7, 8, 10, 9,
5, 8, 6, 6, 7, 5, 5, 11, ..., 4, 10, 7, 9, 9, 7,
4, 9, 5, 10, 8, 5, 6, 9, 7, 6, 4, 7, 7, 6, 3, 2,
8, 9, 4, 8, 11, 2, 8, 9, 7, 11, 6, 9, 4, 8, 7, 6,
3, 6, 7, 4, 2, 6, 3, 4, 6, 3
101.3 Frequenze assolute e relative
Un esempio di istogramma di frequenze assolute.
Consideriamo il peso x di n 300 giovani trote
(dati di assoluta fantasia)
dati 217, 250, 297, 212, 380, 344, 259, 269,
303, 327, 285, 341, 326, 233, ..., 258, 357,
238, 300, 298, 321, 202, 368, 371, 422, 212, 349,
306, 344, 303, 328, 339, 363, 264, 305
Stabiliamo il minimo ed il massimo dei dati
158, 448 Fissiamo i cutoff in modo da dare
frequenza zero alla prima e all'ultima classe
cut 150, 200, 250, 300, 350, 400,
450 Determiniamo i centri delle 6 classi
limitate (escludendo cioè le due semirette x lt
150 e x gt 450) class 175, 225, 275, 325, 375,
425
111.3.1. Istogrammi
Calcoliamo le frequenze assolute di tutte le 8
classi 0, 4, 41, 98, 108, 43, 6, 0 Scartiamo
le frequenza della prima e dell'ultima
classe (nk) k1,6 4, 41, 98, 108, 43, 6
Istogramma delle frequenze assolute nk.
12(continua)
L'istogramma delle frequenza relative fk nk /
n 0.0133333, 0.136667, 0.326667, 0.36,
0.143333, 0.02 comporta solo un cambio di scala
sull'asse Y. Se vi e' aggiustamento automatico
di scala i due istogrammi (delle frequenze
assolute e delle relative) appaiono identici.
Istogramma delle frequenze relative fk nk / n
131.3.2. Areogrammi
Vediamo l'areogramma delle stesse frequenze
relative fk nk / n. Le 6 classi considerate
hanno tutte la stessa ampiezza w 50. Per
determinare l'areogramma delle frequenze
relative, l'altezza delle barre deve essere fk
/ w 0.000266667, 0.00273333, 0.00653333,
0.0072, 0.00286667, 0.0004 Posizioniamo le barre
al centro delle classi
Areogramma delle frequenze relative fk nk / n
14Raffinando la suddivisione...
Proviamo a suddividere in modo piu' fine una
delle classi, per esempio la 300, 350),
aggiungendo dei cutoff a x 315 ed x 335 cut
150, 200, 250, 300, 315, 335, 350, 400,
450 Calcoliamo le frequenze relative e
tracciamone l'istogramma
15(continua)
L'istogramma è stato "rovinato" dalla
suddivisione più fine di una delle classi, invece
l'areogramma...
... ha mantenuto la forma corretta! Ricorrere
sempre ad areogrammi di frequenze (non ad
istogrammi) quando la ampiezza delle classi --
quelle limitate -- non è costante!
16Esempio DNA
dna"GTCGACTCATCATTTCCTCTTGGTTGTAAAAGCTAAGAAGGGTTT
GACTGTTCGTCAATTAAAATGTTACGTGAGTTGGGTTAAATACGATGTGA
ATCAGTATGGTTCCTATCTGCTGAAGGAAATATTATCAAATTAAATCTCA
TTATTAGTACGCAAGGACCATAATGAATCAACCCATGGTGTATCTATTGA
TAATAATATAATATATTTAATAAAAATAATACTTTATTAATATATTATCT
ATATTAGTTTATATTTTAATTATATATTATCATAGTAGATAAGCTAAGTT
GATAATAAATAAATATTGAATACATATTAAATATGAAGTTGTTTTAATAA
GATAATTAATCTGATAATTTTATACTAAAATTAATAATTATAGGTTTTAT
ATATTATTTATAAATAAATATATTATAATAATAATAATTATTATTATTAA
TAAAAAATATTAATTATAATATTAATAAAATACTAATTTATCAGTTATCT
ATATAATATCTAATCTAATCTATTATTCTATATACTTATTACTCCTTATG
GGGTCCCGGTTGGACCGAGACTCCTCCCTTGCGGGATTGGTTCACACCTT
TATAAATAAATAATAAATAATAAATAAAGGTGTTCACTAATAAATATATA
TATATATATATATATATTATATTATAATATTATTTAATACTTAATATATT
ATATATTTTATATTTAATAAATAAAAAAAATATTAATAAATAATAATATT
AATAATAAAGAAATTATAATTAATACCCTTTATATATAATTCTAATTAAT
TAAATTAAATATTTATATATAATAATCAATATATTATTAATTTAATAATT
ATTATAATAGTTTATAAAAGTATATTTTATATTATATTATATTATATTTA
ATAAGTCATTTTNTCTTCACCCACCTTTTTTTTAATAATATATTATATTA
AAAATATAATAATTTATATGATTTATTAATACTTTTTATATAATTATATT
ATTAT"
17Esempio litaliano statistico
18La legge empirica del caso
- Esperimento E lancio due dadi.
- Evento A esce 8
- In n 10000 prove si osservano k 1386 successi
di A - ? k/n 0.1386 13.86
- ? Prob(A) ? 13.86
19Un caso non banale halting
- Esperimento E una macchina lancia
ripetutamente una moneta - se escono dieci teste consecutive la macchina
si ferma. - Evento A la macchina si ferma (ossia prima o
dopo escono 10 teste - consecutive)
- In n 2500 prove si osservano k 2500 successi
? Prob(A) ? 1 - Su 2500 prove, il tempo medio di attesa delle 10
teste consecutive è di - 2019.29 lanci istogramma dei tempi di attesa
osservati (in 20 classi)
Lattesa più lunga è stata di 18366 lanci (prima
che escano 10 teste consecutive)
20 Paradosso della scimmia
- Una scimmia battendo a caso su una macchina da
scrivere, scriverebbe prima o poi la frase
Millumino dimmenso. - La scimmia prima o poi scriverebbe tutto I
Promessi Sposi - La scimmia prima o poi scriverebbe Il Nome della
Rosa, seguita dalla Critica della Ragion Pura in
tedesco e dalla Divina Commedia. - Prima o poi.
211.4. Spazio campionario
- Esperimento E
- Eventi A, B, C, ...
- La totalità degli eventi elementari ? associati
ad un esperimento E - costituisce lo spazio campionario ?
dellesperimento E - Esempio
- E lancio di due dadi
- ? (1,1), (1,2), (1,3), (1,4), (1,5), (1,6),
- (2,1), (2,2), (2,3), (2,4), (2,5), (2,6),
- (3,1), (3,2), (3,3), (3,4), (3,5), (3,6),
- (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
- (5,1), (5,2), (5,3), (5,4), (5,5), (5,6),
- (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)
22Eventi composti
Lo spazio campionario del lancio di due dadi e
levento A esce 8 selezionato.
231.5.1. Regole di calcolo
- P(A) frequenza relativa (asintotica) di
successo - ? oppure
- ? e
- non
- In generale P(A ? B) P(A) P(B) P(A ? B)
- A, B incompatibili ? A ? B impossibile ? P(A ?
B) 0 - A, B incompatibili P(A ? B) P(A) P(B)
- In generale P(A) 1 P(A)
- Sistema completo di eventi A1, A2, A3, A4, ....
? - in ogni ripetizione di E se ne osserva uno e
uno solo. - Sistema completo di eventi A1, A2, A3, A4, ....
? P(Aj ? Ai) 0 - (j ? i)
- Sistema completo di eventi ? P(A1) P(A2 )
P(A3) .... 1
24(continua)
- Sistema completo di L eventi A1, A2, A3, ...,
AL equiprobabili ? - P(A1) P(A2 ) ... P(AL) 1 ? P(Aj
) 1/L (j 1, ..., L) - Sistema completo di L eventi A1, A2, A3, ...,
AL equiprobabili, - Un evento A composto da k di essi (casi
favorevoli ad A ) -
- ? P(A)
- E scelta di un individuo in una popolazione
u1, u2, ..., uL - Levento An viene scelto un
- ? A1, A2, ..., AL è un sistema completo di
eventi - Se gli An sono equiprobabili, si dice che la
scelta è casuale.
251.5.2 Probabilità condizionata
- Popolazione P di L 1 177 507 individui
- LA 129126 mancini (di ambo i sessi)
- LH 697782 donne
- LAH 69081 donne mancine
- evento A un individuo scelto a caso in tutta
la P è mancino - evento H un individuo scelto a caso in tutta
la P è donna - per definizione di scelta a caso
? P(A) LA / L ? P(H) LH / L
- Sottopopolazione F delle LH donne
- P(una donna scelta a caso è mancina) LAH / LH
AH (leggasi A dato H)
26Regola di Bayes
- Sottopopolazione F delle LH donne
- P(una donna scelta a caso è mancina) LAH / LH
AH (leggasi A dato H)
- P(AH) LAH / LH LAH / L / LH / L P(A ?
H) / P(H) - La probabilità condizionata di A sotto
lipotesi H (dato H) - P(A ? H) P(AH) P(H)
- P(H ? A) P(HA) P(A)
- P(AH) P(H) P(A ? H) P(H ? A) P(HA)
P(A) - P(AH) P(HA) P(A) / P(H) Regola di Bayes
271.5.3. Indipendenza
- P(A ? H) P(AH) P(H)
- A indipendente da H ? P(A) P(AH)
- ? P(A ? H) P(A) P(H)
- ? P(H ? A) P(A) P(H)
- ? H indipendente da A
- A, B indipendenti ? P(A ? B) P(A) P(B)
- Eventi A, B incompatibili non
sono indipendenti, anzi sono tanto dipendenti
che quando si verifica luno non si può
verificare laltro P(AB) P(BA) 0
28Esercizio taxi
Un taxi in servizio notturno provoca un incidente
e fugge. In città operano due compagnie, la Taxi
Blu e la Taxi Verdi. Si sa che 85 dei taxi in
città sono Verdi e per il 15 sono Blu. Un
testimone della scena ha identificato il taxi
coinvolto come un Taxi Blu. Il testimone viene
sottoposto ad un test visivo in analoghe
condizioni di visibilità, e mostra di
distinguere correttamente fra i due colori nell
80 delle prove. Qualè la probabilità che sia
stato uno taxi Blu a provocare lincidente
piuttosto che uno Verde?
29Simulazione
gt n lt- 25000 gt cab lt- c(1n) gt taxi lt-
function(x) if (runif(1)lt0.15) 1 else 0 gt for(i
in 1n) cabi lt- taxi(i) gt vedo lt- function(x)
if (runif(1)lt0.80) x else 1-x gt cabvistoblu lt-
c(1n) gt for(i in 1n) cabvistoblui lt-
vedo(cabi) gt sum(cabcabvistoblu)/sum(cabvistobl
u) 1 0.4138647
30Soluzione taxi
- A il taxi che ha causato lincidente è un taxi
blu - B il testimone riferisce correttamente il
colore - H il testimone riferisce di aver visto un taxi
blu - P(A) 0.15
- P(B) 0.80
- P(H) 0.15 ? 0.80 0.85 ? 0.20 0.12 0.17
0.29 - P(HA) 0.80 (in quanto HA è logicamente
equivalente a B) - P(AH) P(HA) P(A) / P(H) 0.80 ? 0.15/0.29
? 0.4138 ? 41 - Nota sul calcolo di P(H) H è logicamente
equivalente allevento - (A?B) ? ( A ? B) i due eventi (A?B), ( A ?
B) sono - incompatibili A, B (come A, B) sono
indipendenti
31Esercizio diagnosi medica
La prevalenza una certa malattia è 1/1000. In un
test utilizzato per diagnosticarla, la
probabilità di un falso positivo è del 5. Si
chiede la probabilità che un paziente positivo al
test abbia effettivamente contratto la malattia,
assumendo di non saper nulla sui sintomi
presentati dal paziente stesso.
32Grafica approssimata
33Soluzione diagnosi medica
- A il paziente è ammalato
- H il test dà esito positivo al paziente
- P(H ? A) 0.05 (falsi positivi positivi
e anche non ammalati) - P(A) 0.001
- P(H) 0.001 0.05 0.051
- P(HA) 1 (è sottointeso che il test è sempre
positivo sugli ammalati) - P(AH) P(HA) P(A) / P(H) 1 ? 0.001/0.051 ?
0.0196 ? 2 - Nota sul calcolo di P(H) H (H?A) ? (H? A),
gli eventi (H?A) e - (H? A) sono incompatibili (H?A) è
logicamente equivalente ad A -