Title: Statistik Lektion 5
1StatistikLektion 5
- Flere stikprøvefordelinger
- Estimatore og estimater
- Konfidensintervaller
2Stikprøvefordeling
- Antag at vi vil udtale os om en
populationsparameter (fx middelværdien m) på
baggrund af en stikprøve statistik (fx.
stikprøve-gennemsnittet ). - Vores konklusion skal tage i betragtning, at
værdien af ændrer sig for hver ny tilfældig
stikprøve - Den tilfældig variation af stikprøve-statistikken
(her gennemsnittet) betegnes stikprøve-fordelingen
(af stikprøve-gennemsnittet)
3Stikprøve-gennemsnittets stikprøve-fordeling
Forventede værdi
- Lad de stokastiske variable X1, X2,,Xn være en
tilfældig stikprøve fra en population m.
middelværdi m og varians s2. - Stikprøve-gennemsnittet af disse SV er
- Den forventede værdi og varians for
stikprøve-gennemsnittet er
og
Hvis stikprøve er lille i forhold til population
4Den Centrale Grænseværdi Sætning (CLT)
(Central limit theorem)
- Lad X1, X2,, Xn, er være n uafhængige
stokastiske variable fra samme fordeling med
middelværdi m og varians s2. Da gælder, at når
stikprøvestørrelsen n øges, så vil fordelingen af -
-
- nærme sig mere og mere en standard
normal-fordeling. - Tommelfinger-regel n 30 er nok til en god
tilnærmelse.
5Populations og stikprøve andele
- Populations-andelen er andelen af succeser i
populationen - Stikprøve-andelen i en tilfældig stikprøve er
andelen af succeser i stikprøven
6Stikprøve-fordelingen af Andele
- Hvis stikprøven er lille i forhold til
populationen kan vi antage at antallet er
succeser er binomialt med sandsynlighedsparameter
p og antals parameter n - Eksempel n 10 og p 0.40
- Da X B(10,0.4) kan vi slå op i Tabel 3 side 848
for den kumulerede binomialfordeling
7Stikprøve-andel Middelværdi og Varians
- Vi ved om binomial-fordelingen
- Heraf følger, at middelværdien er
-
- og variansen er
8Stikprøve-fordelingen af Andele
- Genkald, at hvis X X1Xn , hvor Xierne er
uafhængige Bernoulli forsøg, hvor sandsynligheden
for succes er - P(Xi 1) p, så gælder X B(n,p).
- Derfor m EXi p og s2 VXi p(1- p).
- Ifølge CLT har vi (approksimativt)
- Approksimationen er god, hvis np(1 - p) er større
end 9.
9Stikprøve-fordelingen af Andele
- Eksempel 43 af alle cand.oecon. studerende
mener at et kursus i forretnings-etik er vigtig. - Vi udvælger 80 tilfældige cand.oecon studrende.
Hvad er sandsynligheden for at mere end 50 mener
det samme? - Vi har
- Standardafvigelsen for stikprøve-andelen
- Normalfordelings-approksimationen giver
10?2-fordelingen ki-i-anden
- En ?2 fordelt stokastisk variabel kan ikke være
negativ, så den er begrænset af 0 til venstre. - Fordelingen er højreskæv.
- En ?2 fordeling er specificeret ved antallet af
frihedsgrader. - Notation En stokastisk variabel Y, der følger en
?2 fordeling med n frihedsgrader angives som
C
h
i
-
S
q
u
a
r
e
D
i
s
t
r
i
b
u
t
i
o
n
d
f
1
0
,
d
f
3
0
,
d
f
5
0
0
.
1
0
df 10
0
.
0
9
0
.
0
8
0
.
0
7
0
.
0
6
)
df 30
?
2
5
0
.
0
(
f
0
.
0
4
df 50
0
.
0
3
0
.
0
2
0
.
0
1
0
.
0
0
1
0
0
5
0
0
?
2
- ?2-fordelingen nærmer sig en normal-fordelingen,
når antallet af frihedsgrader vokser.
11Mere om ?2 fordelingen
ny
- Hvis Y er c2 -fordelt med n frihedsgrader
- Lad X1, X2,, Xn være uafhængige, standard
normalfordelte stokastiske variable. Definer -
- Da gælder
12Stikprøvevariansen og dens fordeling
- Stikprøve-variansen for en tilfældig stikprøve er
- Generelt gælder
- Hvis populationen er normalfordelt gælder
13Estimator og estimat
En populations parameter er et numerisk mål for
en opsummerende karakteristik af populationen.
- En stikprøve statistik er et numerisk mål
for en opsummerende karakteristik af stikprøven.
fx
fx
- En estimator af en populations parameter er en
stikprøve statistik, der bruges til at estimere
populations parameteren. - Et estimat af en parameter er en bestemt numerisk
værdi af en stikprøve statistik. - Et punkt-estimat er en enkelt værdi, der bruges
som et estimat for en populations parameter. - Et interval-estimat er et interval, der bruges
som et estimat for en populations parameter.
Eksempel er en estimator for . er
et (punkt) estimat af .
14Estimatore Egenskaber
- Lad q være en generel populations-parameter, fx m
- Lad være en estimator for q, fx.
- Vi vil se på tre ønskelige egenskaber for
estimatore - Central
- Konsistent
- Effektiv
15Central og ikke-central estimator
- Definiton Hvis en estimator opfylder
er den central (unbiased). - Definiton
Bias
En central estimator rammer i gennemsnit plet.
En ikke-central (biased) estimator rammer i
gennemsnit ikke plet.
16Effektiv Estimator
- Definiton Antag at og er to centrale
estimatore. Hvis Var( ) lt Var( ), så siger
vi at er en mere effektiv estimator end .
En in effektiv estimator er i gennemsnit længere
fra at ramme plet.
En effektiv estimator er i gennemsnit tættere på
at ramme plet.
17Konsistent
- En estimator er konsistent hvis sandsynligheden
for at ligge tæt på den parameter, den estimerer,
stiger, når størrelsen på stikprøven stiger.
18Konfidensintervaller
- Konfidensintervaller generelt
- Konfidensintervaller for middelværdi
19Konfidens-intervaller
- Et punkt-estimat estimerer værdien af en ukendt
populations parameter ved en enkelt værdi. - Fx Middelhøjden blandt oecon studernde
. - Et konfidens interval er et interval, der
estimerer værdien af en ukendt populations
parameter. Kaldes også et interval estimat.
Sammen med intervallet gives et mål for, hvor
sikker man er på, at den sande populations
parameter ligger i intervallet. Dette mål kaldes
for konfidens niveauet. - Et punkt estimat indeholder ikke meget
information om den faktiske værdi af µ fx hvor
sikkert er vores punkt estimat? - Et interval estimat indeholder flere
informationer, for eksempel - Vi er 95 sikre på, at intervallet 164,8
180,7 indeholde den sande middelværdi µ. - Eller vi er 90 sikre på, at intervallet 166,1
179,3 indeholder den sande middelværdi µ.
20Konfidensinterval for middelværdien - når X er
normal-fordelt eller stikprøven er stor
- Da gælder følgende
- En 95 konfidensinterval for middelværdi
Bemærk at estimatoren er er ersattet med
estimatet .
21Mellemregninger.
0,95
0,025
0,025
22Konfidens-interval for middelværdi
Approksimativt 95 af stikprøve middelværdierne
kan forventes at falde indenfor intervallet
Omvendt, cirka 2.5
kan forventes at være under og
2.5 kan forventes at være over
. Så 5 kan forventes at være
udenfor intervallet. .
23Konfidens-interval for middelværdi
S
a
m
p
l
i
n
g
D
i
s
t
r
i
b
u
t
i
o
n
o
f
t
h
e
M
e
a
n
Approksimativt 95 af intervallerne
omring stikprøve middelværdien kan forventes at
indeholde den faktiske værdi af populations
middelværdien, ?. 5 af sådanne intervaller
omkring stikprøve middelværdien kan forventes
ikke at inkludere den faktiske værdi af
populations middelværdien.
0
.
4
95
0
.
3
0
.
2
0
.
1
2.5
2.5
0
.
0
?
x??????
x??????
24Et (1-a )100 konfidens-interval for m
Vi definerer som den z-værdi, hvor
sandsynligheden for at Z er højere end denne
værdi, er . Kaldes også fraktilen eller
den kritiske værdi. (1-a)100 kaldes
konfidens-niveauet.
fordeling
æ
ö
S
t
a
n
d
a
r
d
N
o
r
m
a
l
a/2
gt
P
Z
z
ç
è
ø
a
0
.
4
2
æ
ö
a/2
lt
-
P
Z
z
ç
0
.
3
è
ø
a
2
)
æ
ö
z
(
0
.
2
f
-
lt
lt
-
a
P
z
Z
z
ç
1
(
)
è
ø
a
a
2
2
0
.
1
(1-a)
100 konfidens
int
erval
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
25Kritiske værdier for z og konfidens-niveauer
S
t
a
n
d
a
r
d
N
o
r
m
a
l
D
i
s
t
r
i
b
u
t
i
o
n
0
.
4
0
.
3
)
z
(
0
.
2
f
0
.
1
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
Bemærk
26Eksempel
- Spørgsmål Antag (1-a) 80. Find za/2
- Løsning a 0.20 og a/2 0.10 Vi ved F(za/2)
1-0.1 0.90. - Dvs. za/2 1.28
27Konfidens niveau og bredden af konfidens-intervall
et
Når man tager stikprøver fra den samme population
og bruger den samme stikprøve størrelse, så jo
højere et konfidens-niveau, jo bredere et
konfidens-interval.
S
t
a
n
d
a
r
d
N
o
r
m
a
l
D
i
s
t
r
i
b
u
t
i
o
n
S
t
a
n
d
a
r
d
N
o
r
m
a
l
D
i
s
t
r
i
b
u
t
i
o
n
0
.
4
0
.
4
0
.
3
0
.
3
)
)
z
z
(
(
0
.
2
0
.
2
f
f
0
.
1
0
.
1
0
.
0
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
Z
28Stikprøvestørrelsen og bredden af
konfidens-intervallet
Når man tager stikprøver fra den samme population
og bruger det samme konfidens niveau, så jo
større stikprøvestørrelse, n, jo smallere et
konfidens interval.
29Eksempel på tavlen
30Students t fordeling
- Antag populationen er normalfordelt med
middelværdi m og varians s2. - Gammel viden Hvis vi kender variansen s2, så kan
vi bruge - Ny viden Hvis vi ikke kender variansen s2, så
kan vi erstatte s2 med stikprøve-variansen s2 - følger en t-fordeling med n-1 frihedsgrader.
31Students t fordeling
- t fordelingen er klokkeformet og symmetrisk og
defineret ved antal frihedsgrader (df). - Middelværdien er altid lig 0.
- Variansen af t er større end 1, men går mod 1,
når antallet af frihedsgrader vokser.
Standard normal
t, df20
t, df10
? ?
- t fordelingen er fladere og har tykkere haler
en standard normal fordelingen. - t fordelingen går mod standard normal fordelingen
nå antallet af frihedsgrader vokser.
32Konfidens interval for ? når ? er ukendt -
t fordelingen
Et (1-a)100 konfidens interval for m når s er
ukendt (og man antager en normalfordelt
population) hvor er værdien i t
fordelingen med n-1 frihedsgraders, hvor
sandsynligheden for at t er højere end denne
værdi, er
33Tabel for t-fordelingen
a/2
ta/2
For store frihedsgrader kan t fordelingen
approksimeres ved en standard normal fordeling.
34Eksempel
En aktie analytiker vil estimere den
gennemsnitlige gevinst på en bestemt aktie. En
stikprøve på 15 dage giver en gennemsnitlig
gevinst på og en standard
afvigelse på s 3.5. Antag en normal
population og giv et 95 konfidens interval for
den gennemsnitlige gevinst på denne aktie.
Den kritiske værdi af t for df (n -1) (15 -1)
14 og et højre halet areal på a/2 0.025
er Konfidens intervallet er
df t0.100 t0.050 t0.025 t0.010
t0.005 --- ----- ----- ------ ------ ------
1 3.078 6.314 12.706 31.821 63.657 . . .
. . . . . . . . .
. . . . . . 13 1.350 1.771 2.160 2
.650 3.012 14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947 . . . .
. . . . . . . . . .
. . . .
35R Commander
- Man kan slå ta/2 op i R Commander
- Distributions ? Continuous distributions ? t
distribution ? t quantiles - Indsæt værdien af a/2 i Probabilities
- Indsæt antal frihedsgrader i Degrees of freedom
- Vælg Upper tail
- Resultat
36Konfidensintervaller for Middelværdien i R
Commander
- R Commander har kun en indbygget funktion til at
beregne konfidensintervallet for m under
antagelse af ukendt varians - Statistics ? Means ? Single-sample t-test
- Derefter skal i vælge den variabel I vil finde
konfidens-interval for samt på hvilket
konfidens-niveau. - Eksempel 95 konfidens interval for højde i
Sundby95