Analisi Statistica dei Dati - PowerPoint PPT Presentation

About This Presentation
Title:

Analisi Statistica dei Dati

Description:

Title: PowerPoint Presentation Created Date: 1/1/1601 12:00:00 AM Document presentation format: On-screen Show Other titles: Arial Times New Roman Comic Sans MS ... – PowerPoint PPT presentation

Number of Views:179
Avg rating:3.0/5.0
Slides: 94
Provided by: infn134
Category:
Tags: analisi | dati | dei | statistica

less

Transcript and Presenter's Notes

Title: Analisi Statistica dei Dati


1
Analisi Statistica dei Dati
  • G.Marsella

2
Elementi di teoria della probabilità
3
Eventi aleatori
  • Un evento è aleatorio (casuale) quando non si
    può prevedere con certezza se avverrà o meno
  • I fenomeni (eventi) aleatori sono studiati
    attraverso la teoria della probabilità
  • Probabilità di un evento semplice
  • Un evento può risultare
  • Certo (si verifica sempre)
  • -estrazione di una pallina nera da unurna
    contenente solo palline nere
  • Impossibile(non si verifica mai)
  • -estrazione di una pallina bianca da unurna
    contenente solo palline nere
  • Probabile(può verificarsi o no)
  • -estrazione di una pallina bianca da ununa
    contenente sia palline nere che bianche

4
Eventi e probabilità
  • impossibile

certo
probabile
P0
0ltPlt1
P1
Se E indica un evento levento corrispondente al
non verificarsi di E rappresenta levento
complementare E con la relazione
P(E) 1 P(E)
La prova genera levento con una certa probabilità
5
Eventi aleatori
  • Evento semplice singola manifestazione di un
    fenomeno (misura,osservazione, risultato) che
    esclude altri eventi (eventi incompatibili
    testa o croce nel lancio di una moneta)
  • Evento composto è costituito da una
    combinazione di più eventi semplici. Possono
    verificarsi simultaneamente ovvero sono
    compatibili(levento testa di una moneta è
    compatibile con levento croce nel lancio di due
    monete)

6
Eventi aleatori
  • Linsieme di tutti gli eventi di un fenomeno
    costituiscono luniverso o spazio campione (O)
    delle possibilità.
  • Si usa il termine successo per segnalare che si è
    verificato levento considerato e insuccesso in
    caso contrario. Essi sono eventi incompatibili o
    mutuamente esclusivi

7
Spazio campionario
  • Lo spazio campionario associato al lancio di due
    monete comprende 4 punti che rappresentano i
    possibili risultati
  • Si chiama evento ogni sottoinsieme dello spazio
    campionario
  • TT
  • TC
  • CT
  • CC

8
Teoria e calcolo della probabilità
  • Lentità di successi in una serie di osservazioni
    (prove) può essere definita come frequenza
    relativa o (percentuale) calcolata come rapporto
    tra il numero di eventi favorevoli rispetto al
    numero di casi esaminati
  • Il grado di aspettativa circa il verificarsi di
    un evento E, ovvero la probabilità dellevento
    P(E) è

9
Concezione classica della probabilità
  • La probabilità di un evento E è il rapporto
    tra il numero di casi favorevoli al verificarsi
    di E(n) e il numero di casi possibili (N), purché
    siano tutti equi - probabili

Es probabilità di estrarre un asso da un mazzo
di 52 carte 4/52 0.08
probabilità di ottenere testa nel lancio di una
moneta 1/2 0.5
10
Applicazioni della concezione classica
  • Probabilità uscita testa
  • Probabilità faccia 6 dado
  • Qual è la probabilità che lanciando due volte una
    moneta si presenti prima la faccia testa poi la
    faccia croce
  • 1- TT
  • 2- TC
  • 3- CT
  • 4- CC
  • p
  • p
  • p

11
Concezione frequentista della probabilità
  • La probabilità di un evento è la frequenza
    relativa di successo in una serie di prove
    tendenti allinfinito, ripetute sotto identiche
    condizioni
  • Nella concezione frequentista la probabilità è
    ricavata a posteriori dallesame dei dati

Frequenza relativa su un gran numero di prove
Es qual è la probabilità post-operatoria dopo
lintervento xyz ? I dati su un decennio in un
territorio presentano 30 morti su 933
interventi Frequenza relativa 30/933 3.22
Probabilità di mortalità post-operatoria
12
Legge dei grandi numeri
  • P(E) ripetendo la prova un gran numero di volte
    si osserva che il rapporto f m/n (frequenza
    relativa) dove m numero di successi ed n numero
    di prove tende ad avvicinarsi sempre più alla
    probabilità P(E)
  • La frequenza relativa f al crescere del numero
    delle prove, tende, pur oscillando, verso un
    valore costante (stabilità della frequenza)

13
Elementi di statistica
14
Elementi di statistica
  • La statistica è unestensione del calcolo delle
    probabilità
  • Si parte dai concetti fondamentali
  • Si estende la definizione di probabilità
  • Si introducono delle nuove variabili

15
Estensione del concetto di probabilità
16
Estensione del concetto di probabilità
  • La probabilità viene fatta passare
  • da un numero razionale ...
  • ... ad un numero reale
  • La probabilità può essere infinitesima
  • Anche se poi si darà significato sempre alla
    probabilità finita
  • Tramite integrazioni

17
Estensione del concetto di probabilità
  • Si suppongono valide tutte le leggi delle
    probabilità già stabilite
  • Non si può più definire la probabilità come
    rapporto fra casi favorevoli e casi possibili

18
Le variabili aleatorie(variate)
19
Le variabili aleatorie
  • Una variabile aleatoria è una variabile...
  • ... reale
  • ... discreta o continua
  • ... associata ad una probabilità

20
Le variabili aleatorie
  • Una variabile aleatoria discreta
  • Assume i valori ...
  • ... con probabilità

21
Le variabili aleatorie
  • Esempio classico il dado
  • Variata un numero da 1 a 6
  • Probabilità associata 1/6

22
  • Si definisce
  • Valore atteso
  • Speranza matematica
  • Valore medio

23
  • La variabile aleatoria discreta può essere
    definita da una tabella
  • Esempio
  • I numeri riportati sulle facce di un dado
  • Attenzione i numeri potrebbero essere diversi
  • Anche le probabilità se il dado fosse truccato...

24
Il dado
xk Pk
1 0.167
2 0.167
3 0.167
4 0.167
5 0.167
6 0.167
25
  • Ed ecco una rappresentazione grafica
  • Distribuzione
  • Spettro

26
(No Transcript)
27
  • Se si conoscono solo valori proporzionali alle
    probabilità occorrerà normalizzarli

28
  • Una variata continua
  • Assume valori reali in un dominio D con
    probabilità infinitesima
  • La è la funzione di distribuzione
    (spettro)
  • Funzione densità

29
  • Il dominio D sarà per noi, praticamente sempre,
    uno dei seguenti insiemi
  • Tutto lasse reale
  • Il semiasse reale positivo
  • Un intervallo (e di solito chiuso)
  • Indicheremo in ogni caso lestremo inferiore con
    low e quello superiore con high
  • Ecco degli esempi

30
Binomiale
31
Uniforme
32
Poissoniana
33
  • In ogni caso vale la condizione di
    normalizzazione
  • ...ed in generale un valore atteso (speranza
    matematica) vale...

34
(No Transcript)
35
  • Il momento di ordine 0 corrispnde alla condizione
    di Normalizzazione

36
Funzioni di distribuzione
  • In sintesi, le principali caratteristiche di una
    funzione di distribuzione sono

37
Le distribuzioni in generale
38
Le distribuzioni in generale
  • Di solito hanno quindi dei picchi
  • Il picco più alto si chiama moda della
    distribuzione
  • Un picco unimodale
  • Poi bimodale, multimodale...

39
Le distribuzioni in generale
  • Si definisce la mediana
  • È definita con unequazione integrale
  • Non gode di proprietà di linearità
  • Molto utile e potente soprattutto nellanalisi
    delle serie temporali

40
Le distribuzioni in generale
  • Poi ci sono i quartili
  • Mediane della mediana
  • Poi i percentili ...

41
Le distribuzioni in generale
  • Quasi sempre di una distribuzione si fornisce
  • La media
  • La standard deviation
  • La moda
  • A volte anche il momento secondo (o la sua
    radice)
  • Valore quadratico medio
  • È il caso delle velocità in un gas

42
Le distribuzioni in generale
  • Attenzione a non confondere
  • Facili a confondere se si usa il simbolo

43
Distribuzioni discrete e continue
44
Le principali distribuzioni discrete
45
Le principali distribuzioni discrete
  • Veramente importanti solamente due
  • Distribuzione di Bernoulli e binomiale
  • Distribuzione di Poisson, o degli eventi rari

46
La distribuzione di Poisson
47
La distribuzione di Poisson
  • È la distribuzione di eventi rari
  • È ciò che diviene la binomiale quando
  • Legge della distribuzione

48
La distribuzione di Poisson
49
La distribuzione di Poisson
50
La distribuzione di Poisson
  • Media
  • Varianza

51
La distribuzione di Poisson
  • Ed infine un grafico per e

52
(No Transcript)
53
Le principali distribuzioni continue
54
Le principali distribuzioni continue
  • Molte hanno interesse limitato
  • Qui studiamo solo quelle di maggiore interesse
    per la misura
  • Definite
  • In un intervallo (solo la uniforme)
  • Semiasse reale positivo
  • Tutto lasse reale

55
La distribuzione uniforme
56
La distribuzione uniforme
  • Definita fra 1/2 e 1/2
  • Di solito però fra 0 e 1
  • Il calcolatore estrae numeri a caso in questo
    intervallo
  • In realtà i numeri sono pseudocasuali
  • Estratti con un formalismo causale si verifica a
    posteriori che rispettino la casualità
  • Il caso di p
  • Sono la base per simulazioni statistiche

57
(No Transcript)
58
La distribuzione uniforme
  • Definizione della distribuzione
  • In generale

59
(No Transcript)
60
La distribuzione uniforme
  • Media
  • Varianza

61
UN PROBLEMA INTERESSANTE
62
Un problema interessante
  • Visto che il calcolatore mi dà solo numeri
    (pseudo)casuali fra 0 ed 1, posso (e se sì come)
    ottenere dei numeri distribuiti fra A e B con una
    distribuzione f(x) ?
  • La risposta è affermativa
  • Metodo di reiezione

63
Un problema interessante
  • Uno schizzo grafico...

64
Un problema interessante
  • Ricetta
  • Calcoliamo anzitutto il massimo della funzione
    nel
  • nostro intervallo
  • Poi calcoliamo
  • Estraiamo un numero fra 0 ed 1
  • Calcoliamo

65
Un problema interessante
  • Ora estraiamo un secondo numero fra 0 ed 1, e
    moltiplichiamolo per M
  • Quindi una distribuzione
  • uniforme fra 0 ed M
  • Siamo ora in possesso di due numeri
    (pseudo)casuali
  • X fra a e b
  • Y fra 0 ed M

66
Un problema interessante
  • Calcoliamo la
  • Terremo per buono il valore X
  • se è
  • Rigetteremo il valore X
  • se è

67
Un problema interessante
  • Il metodo è usatissimo e garantito
  • Funziona a spese di estrazioni a vuoto
  • In pratica
  • Si riempie uniformemente il rettangolo verde di
    punti
  • Si tengono per buoni solo quelli sotto la curva
  • Funziona anche per più dimensioni
  • ...e si allungano i tempi...

68
La distribuzione gaussiana
69
La distribuzione gaussiana
  • Noi ci limiteremo alle variate normali
  • Sono le più utili
  • Coprono lassoluta maggioranza dei casi pratici
  • Quando occorre qualcosa di più si è nei guai
  • In questo caso bastano due momenti
  • Media e SD

70
La distribuzione gaussiana
  • Caso importante fuori dal coro
  • i conteggi
  • Seguono la statistica di Poisson
  • Però
  • Regola a spanne
  • Quando µ gt 10 usate pure Gauss con

71
La distribuzione gaussiana
  • La funzione di distribuzione

72
La distribuzione gaussiana
  • Media
  • Varianza

73
La distribuzione gaussiana
  • Definiremo a partire da una variata normale x
  • La variata centrata (detta anche scarto)
  • La variata ridotta (detta anche scarto ridotto)
  • Vediamo degli esempi grafici

74
(No Transcript)
75
La distribuzione gaussiana
  • Una proprietà importante
  • Le probabilità di stare dentro un certo numero N
    di SD sono sempre le stesse
  • Attenzione la funzione derrore è (storicamente)
    definita per una gaussiana non normalizzata...

76
La distribuzione gaussiana
  • Definizione

77
La distribuzione gaussiana
  • In realtà a noi serve

78
La distribuzione gaussiana

1
2
3
4
5
79
(No Transcript)
80
Curva di Gauss
  • Caratteristiche
  • E simmetrica rispetto alla mediala probabilità
    di un valore superiore alla media di una quantità
    prefissata è uguale alla probabilità di un valore
    inferiore per la stessa quantità
  • Larea compresa tra la funzione e larea delle
    ascisse
  • ( da a - ) sia 1 così da esaurire
    lo spazio campionario
  • Esiste la probabilità al 100 che la misura sia
    inclusa nella distribuzione
  • La frazione di area compresa tra due valori della
    variabile è assimilabile alla probabilità di
    riscontrare casualmente una misura entro tale
    intervallo

81
Le aree sottese alla curva normale
  • Spesso è necessario determinare la probabilità di
    riscontrare casualmente una misura entro tale
    intervallo
  • Proprietà della curva normale larea sottesa
    alla porzione di curva che vi è tra le media e
    una ordinata posta a una distanza data,
    determinata in termini di una o più deviazione
    standard, è costante

82
Applicazione curva di Gauss
  • Se una popolazione di unità classificate secondo
    un certo carattere X si distribuisce normalmente,
    la conoscenza di media e varianza (o loro stime)
    consente di calcolare (o di stimare) la frequenza
    relativa delle unità che presentano un valore di
    X compreso in un certo intervallo
  • Calcolare la probabilità che, estraendo da tale
    popolazione ununità questa abbia un valore di X
    compreso in un certo intervallo

83
(No Transcript)
84
(No Transcript)
85
Distribuzione gaussiana standardizzata
  • Per agevolare il ricercatore la variabile x viene
    trasformata in una nuova variabile
  • La distribuzione standardizzata presenta il
    vantaggio di consentire la predisposizione di
    tabelle che permettono di calcolare porzioni di
    area della distribuzione e di stabilire la
    probabilità statistica di riscontrate valori in
    relazione a determinati valori z

86
(No Transcript)
87
Valori notevoli della distribuzione z
  • z area compresa
    area esterna allintervallo
  • nellintervallo
    (- z z) (code della
    distribuzione)
  • (-z z)
  • 1 (-1ltzlt1) 0.683 ( 68)
    0.317 ( 32)
  • 1.96 (-1.96ltzlt1.96) 0.95 ( 95)
    0.05 ( 5)
  • 2.58 (-2.58ltzlt2.58) 0.99 ( 99)
    0.01 ( 1)

88
Esempio di utilizzazione della distribuzione z
  • Qual è la probabilità che un individuo estratto a
    caso da una popolazione con peso medio
  • 72 Kg e deviazione standard
  • 25 Kg pesi tra i 60 e 80 Kg?
  • Occorre calcolare la porzione di area compresa
    tra 60 e 80 Kg.
  • ai cui valori corrispondono
    rispettivamente i valori

89
Esempio di utilizzazione della distribuzione Z
  • Facendo riferimento alla tabella z
  • per z0.48 nelle due code è 0.631
  • Larea di interesse tra -0.48 e 0 è 0.5 -
  • Con analogo procedimento si calcola la porzione
    di area tra 0 e 0.32
  • P(60kgltpesolt80kgP(z60ltzltz80)
  • P(-0.48ltzlt0) (P(0ltzlt0.32)
  • 1-0.3155 - 0.37450.310 31,0

90
(No Transcript)
91

  • 0 z

0,5
Ripartizione delle aree di probabilità della
distribuzione z
92
Esempio di utilizzazione della distribuzione z
  • Una popolazione di bambini presenta valori di
    statura distribuiti in modo gaussiano con media
    120 cm. e deviazione standard 16 cm.
  • Quale è la probabilità che un bambino scelto a
    caso presenti una statura inferiore a 132 cm.?
  • Quale è la probabilità che laltezza sia maggiore
    di 116 cm., ma inferiore a 132 cm.?
  • 1R

93
Esempio di utilizzazione della distribuzione z
  • 2R
  • P(Z116ltZltZ132)0.7735-0.40150.3720 37.20
Write a Comment
User Comments (0)
About PowerShow.com