Title: Statistik II Lektion 5 Modelkontrol
1Statistik II Lektion 5Modelkontrol
- Modelkontrol
- Modelsøgning
- Større eksempel
2Generel Lineær Model
- Y afhængig skala variabel
- x1,,xk forklarende variable, skala eller binære
- Model Middelværdien af Y givet x(x1,,xk)
3Generel Lineær Model
- Mere præcist ite observation yi ud af n er
givet ved - xj,i er jte forklarende variabel for ite
observation. - e1,,en er uafhængige og identisk fordelt ei
N(0,s2)
Systematisk del
Tilfældig del
Idependent and Identically Distributed - IID
4Hypotese-test
- Generelt vil vi teste om en eller flere bier kan
sættes lig nul. Det svarer til at fjerne de
tilsvarende led fra modellen. - Formelle hypoteser
- H0 b1 bq 0
- H1 Mindst et af de q parametre har bi ? 0
- Teststørrelsen er
- (Alternativ formulering i forhold til sidst)
q ber efter eget valg
5F-test
- Teststørrelsen er
- SSE er summen af de kvadrerede fejl i en model,
hvor når b1,, bq er med (den oprindelige model) - SSE er summen af de kvadrede fejl når b1,, bq
ikke er med. - Der gælder SSE SSE.
- Intuition Jo større forskel (SSE-SSE) jo mere
betyder b1,, bq for modellen og jo mindre tror
vi på F.
6F-fordelingen
F-fordeling
0
.
7
0
.
6
0
.
5
0
.
4
)
F
(
f
0
.
3
Areal p-værdi
0
.
2
0
.
1
0
.
0
F
5
4
3
2
1
0
F
7Opbygning af statistisk model
Eksplorativ data-analyse
Specificer model Ligninger og antagelser
Estimer parametre
Nej
Modelkontrol Er modellen passende?
Ja
Anvend modellen
8Modelkontrol
- For at kunne stole på test og estimater skal vi
sikre os, at modellens antagelser er overholdt! - Er der en lineær sammenhæng mellem X og Y ?
- Er fejlleddene e1,, en uafhænige?
- Følger fejlleddene e1,, en alle N(0,s2)?
9Residualanalyse
Bemærk at residualet er et estimat for
ei. Dvs. eierne groft sagt skal opføre sig som
uafhængige N(0,s2) variable! Grafisk kontrol
Plot eierne mod xi eller .
10Residualplot
Residualer
Residualer
v
0
0
Homoskedastisk Residualerne ser ud til at
variere ufahængigt af hinanden og x.
Heteroskedastisk Variansen for residualerne
ændrer sig når x ændrer sig.
Residualer
Residualer
0
0
Tid
Residualerne udviser lineær trend med tiden
(ellern anden variabel vi ikke har brugt). Dette
indikerer at tid skulle inkluderes i modellen.
Det buede mønster indikerer en underlæggende
ikke-lineær sammenhæng.
11Eksempel Salg og Reklame
- Data n30 par af observationer.
- Y Ugentlige salg
- X Ugentlige reklame-budget
12Residualer i SPSS
- I Linear Regression vinduet vælges Save
- I Save vinduet vælges Unstandardized både
under - Reresiduals (eierne) og
- Predicted Values ( erne) .
13- Efter endt regression skaber SPSS to nye søjler i
Data Editor, der indeholder - residualer (RES_1)
- prædiktioner (PRE_1) .
- Derefter kan man fx lave scatter plots.
14- Scatter plot af
- residualer (eierne) mod højde (xierne)
(øverst) - residualer (eierne) mod prædiktionerne
(yierne) (nederst). - Ser jo ganske usystematisk ud!
15Grafiske check for Normalfordeling
- For at tjekke holdbarheden af antagelsen om
normalfordelte fejlled ( eiN(0,s2) ) - Lav et histogram over residualerne og se efter om
det normalfordelt ud. - Lave et normalfordelingsplot (Q-Q plot).
16Histogram af residualer
Det ser jo ca. normalfordelt ud
17Normalfordelingsplot (Q-Q plot)
- Et Q-Q plot er scatter plot, hvor
- X Residualerne (eierne)
- Y Idealiseret stikprøve fra normalfordeling
- Bemærk at både xerne og xerne er sorterede.
- Hvis residualerne er normalfordelte, vil vi have
xi yi. - Dvs (x,y) ligge usystematisk omkring en linje med
hældning 1 og skæring 0.
18Normalfordelingsplot (Q-Q plot)
- De idealisrede data (yerne) opnås ved at
inddele normalfordelingen i n1 lige store
stykker.
Areal 1/(n1)
y5
19- Vælg Analyze ? Descriptive Statistics ? Q-Q
plots - Ser helt fint ud snor sig ikke alt for
systematisk omkring linjen. - Punkterne ligger rimlig usystematisk omkring
linjen Altså ca. normalfordelt
20Modelsøgning
- Formål Find den simplest mulig model, der
beskriver data tilfredsstillende. - Backwards-søgning
- Startmodel Vælg til at starte med en model, der
indeholder alle variable og vekselvirkninger, der
menes at være (fagligt) interessante som
forklaring den afhængige variabel. Undgå at
specificere en model der er vanskelig at
fortolke. - Test hvilke led i modellen, der kan fjernes.
Mindst signifikante led fjernes, dvs F-test med
højest p-værdi, dog så - Det hierarkiske princip er overholdt
- p-værdien gt a (typisk a 0.05)
- Reduceret model Når et led er fjernet udføres en
ny analyse på den nye og mindre model. - Slutmodel Når ikke flere led kan fjernes har vi
vores slutmodel. - Forbehold Før hver test-runde skal man afklare
om modellens antagelser er opfyldt ellers kan
man ikke stole på p-værdierne.
21R2 Determinations-koefficienten
- Definition
- Fordel Nem at fortolke Andel af den totale
variation der er forklaret af modellen. - Ulempe R2 vokser når vi tilføjer flere
forklarende variable. Dvs. et stort R2 er ikke
nødvendigvis en fordel.
22Justeret R2
- Definition
- Fordel Vokser kun, hvis ekstra forklarende
variabels forklaringsgrad er stor i forhold til
antal ekstra parametre. - Ulempe Ikke samme simple fortolkning som R2.
23Stort Eksempel Boligpriser
- price Boligens pris i
- sqft Boligens størrelse i kvadrat-fod
- bedrooms Antal soveværelser
- baths Antal badeværelser
- garage Antal biler, der er plads til i
garagen.
24Eksplorativ analyse
25Krydstabel
- garage vs bedrooms
- Bemærk Mange expected countslt5, så vi kan ikke
bruge en c2-test. - Løsning Slå kategorier sammen
26Omkodning af Garage
- Omkodning garage 0 til 1 ? garage2 0
- garage 2 ? garage2 1
- SPSS Transform?Recode into Different Variables
27Omkodning af Bedrooms
- Omkodning
- bedroom 1 til 2 ? bedroom2 2
- bedroom 3 ? bedroom2 3
- bedroom 4 til 5 ? bedroom2 4
28Krydstabel
- garage2 vs bedrooms2
- Hypotese
- H0 Uafhængighed
- H1 Afhænmgighed
- Teststørrelse
- c2
- P-værdi lt 0.0005
- Konklusion
- Vi afviser H0, dvs.
- der er afhængighed.
29Logistisk Regression
- Afhængig variabel garage2
- Forklarende variabel price
- Output
- Konklusion Pris har en betydning, hvis modellen
er god men det er modellen ikke
30Variansanalyse
- Afhængig Boligpris
- Forklarende Garage2 og Bedroom2
- Model(formel)
- Dummy variable
- xg0 1 ? garage2 0
- xb2 1 ? garage2 2
- xb3 1 ? garage2 3
31Modelform
- Slipper for detaljerne Brug modelform
- Modelform
- Denne model kaldes mættet, da alle tænkelig
vekselvirkninger er medtaget. - Er man ekstra doven, så skriver man kun
- De resterende led følger af det hierarkiske
princip.
Garage2 Bedroom2 Garage2Bedroom2
Garage2Bedroom2
32SPSS Test af model-led
- Vi afviser hypotesen om at vekselvirkningsleddet
kan udelades. - Konklusion Prisen på bolig kan ikke forklares af
antal soveværelser og størrelsen på garagen
alene. Et vekselvirkningsled mellem antal
soveværelser og størrelsen på garagen er
nødvendig. - Næste skridt burde være modelkontrol.
33Boligpris og Boligareal
34Badeværelser og Boligpris
35Generel Lineære Model - Startmodel
- Afhængig Boligpris
- Forklarende sqft, baths og bedroom2
- Modelform
sqft baths bedroom2 sqftbedroom2
bathsbedroom2 sqftbaths
36Model-formel
- Den tilsvarende model-formel er
- xb2 og xb3 er dummyvariable kodet som før.
37Modelkontrol
- Scatterplot af
- ei mod yi
- Godt Usystematisk
- Skidt Variansen er
- ikke konstant.
- Løsninger?
- Indfør price2 log(price)
- Indfør price2 vprice
38Normalfordelte Residualer
- Fordelingen er lidt for spids til at være
normalfordelt. - Men lad det nu ligge
39Test i SPSS
- Ingen af interaktionsleddene er signifikante!
- Fjerner mindst signifikante led (bathssqft)
40Reduceret Model
- Begge tilbageværende vekselvirkningsled er mindre
signifikante end før lidt atypisk. - Vi fjerner bedrooms2baths
41Slutmodel
- Nu er bedrooms2sqrt stærkt signifikant!
- Modelsøgningen er slut pånær modelkontrol.
42Estimater
- Antal badeværelser har betydning for prisen
- Ligeledes har antal soveværelser og boligareal
- Prisen for en ekstra sqft afhænger af antal
værelser.
43Mini-Projekt
- Omfang Ca. 30 sider
- Indhold
- Beskrivelse af data
- Opstilling af (kvalitative) hypoteser
- Anvend modeller og metoder fra kurset
- Aflevering Senest mandag. d. 27/10 kl. 12. pr.
e-mail til kkb_at_math.aau.dk - Eksamen Torsdag 30. Oktober.