Title: Statistik Lektion 18 Multipel Linear Regression
1Statistik Lektion 18Multipel Linear Regression
- Repetition
- Partiel F-test
- Modelsøgning
- Logistisk Regression
2Test for en eller alle parametre
- I jagten på en god statistisk model har vi set på
følgende to hypoteser og tilhørende test - H0 ß1 ß2 ß3 ßk 0
- dvs. modellen ikke er besværet værd. Til dette
anvendes et F-test. - H0 ßj0
- dvs. der er ingen lineær sammenhæng mellem Y og
Xj. Vi sammenligner to modeller der adskiller sig
ved om Xj er med eller ej. Her anvendes et
t-test.
3Test for flere parametre - Partiel F-test
- Med fuld model menes en model, der indeholder
alle forklarende variable af interesse. - En reduceret model indeholder kun et udvalg
(eller slet ingen) forklarende variable fra den
fulde model. - Ved et partielt F-test sammenlignes den fulde og
den reducerede model.
4Eksempel Eksport til Fjernøsten
- Vi vil sammenligne følgende fulde og reducerede
modeller - Fulde model
Export
M1
Lend
Price
Exch.
- Er det besværet værd, at have x2 og x4 med?
5- Det partielle F-test
- H0 ß2 ß4 0 (givet at X1 og X3 er i
modellen) - H1 ß2 og ß4 er ikke begge nul.
- Teststørrelse for partielt F-test
- hvor SSER og SSEF er sum of squares for errors
for hhv. den reducerede og den fulde model. - MSEF SSEF/n - k - 1) er mean square error.
- k er antal parameter i den fulde model
- r antal parametre vi forsøger at fjerne (2 i
eks.).
6Eksempel Eksport til Fjernøsten
Export
M1
Lend
Price
Exch.
- SSEF 6,990 SSER 6,996 MSEF 0,113
7Eksempel Eksport til Fjernøsten
- Er det besværet værd, at have x2 og x3 med?
- Det partielle F-test
- H0 ß2ß40 (givet at X1 og X2 er i modellen)
- H1 ß2 og ß4 er ikke begge nul.
- Testen er ikke signifikant, dvs. vi accepterer H0
hypotesen, dvs. den fulde model er ikke besværet
værd.
8Bemærkninger
- Partielle F-test, der kun omhandler en enkel
parameter er ækvivalente med et t-test. - Bruger man linear regression funktionen i SPSS,
så er der kun t-test i sving. - En kategorisk variabel med r niveauer, omkodes
til (r-1) 0/1 dummy variable. En test for
betydningen af den kvalitative variabel svarer
til et partielt F-test, hvor (r-1) variable
fjernes. - Fx. følgende model fra tidligere
- Test for effekten af indkomst på vægt Partielt
F-test af to parametre H0 bHøj bMellem 0.
Dummy variable
9Modelsøgning
- En statistiske analyse involverer ofte et stort
antal forklarende variable. - For at få overblik over, hvilke forklarende
variable, der har betydning for den afhængige
variabel udføres en modelsøgning. - I en modelsøgning, søger man en model, der kun
indeholder de forklarende variable, der har en
reel betydning for den afhængige variabel. - Der findes et utal af måder at udføre
modelsøgning. De mest almindelige er
10Modelsøgning Prøv alle muligheder
- Vi udfører en regression på alle tænkelige
kombinationer af forklarende variable. - Har vi k forklarende variable giver det 2k
forskellige modeller. Ved k4 forklarende
variable har vi allerede 2416 modeller. - Vi udvælger vores model blandt de 2k modeller fx.
den med største adjusted R2 eller mindste MSE.
11Modelsøgning Backward søgning
- Start med en model, hvor alle forklarende
variable af interesse er inkluderet. - For alle variable fortager vi et partielt F-test
for den tilsvarende parameter. Den variabel med
højst p-værdi over fx 0.05 fjernes fra modellen. - I den reducerede model foretages et partielt
F-test for hver af de tilbageværende variable.
Igen fjernes den variabel, der har højst p-værdi
over 0.05. - Dette gentages indtil alle tilbageværende
variable er signifikante, dvs. deres partielle
F-test har p-værdier under 0.05.
12Backward Eksempel
- Den fulde model (start-model)
- Fjerner Lend. Reducerede model
- Fjern Exchange. Reduceret model (slut-model)
Støreste p-værdi over 0.05
Støreste p-værdi over 0.05
Ingen p-værdi over 0.05
13Modelsøgning Forward søgning
- Vi starter med en tom model dvs. uden
forklarende variable. - Dernæst tilføjer vi den forklarende variabel,
hvor det tilhørende partielle F-test er mindst
p-vædi, dog under en given grænse, fx 0.10. - I den udvidede model tilføjes den variabel blandt
de resterende, hvor det tilsvarende partielle
F-test har mindst p-værdi under fx 0.10. - Fortsætter indtil ingen af de tilbageværende
variable har en F-test med p-værdi over 0.10.
14Modelsøgning Stepwise
- Vi starter med den tomme model.
- Vi tilføjer den variabel, hvor det tilhørende
partielle F-test har mindst p-værdi under PIN, fx
0.05. - Vi tilføjer den mest signifikante variabel blandt
de tilbageværende, med p-værdi under PIN. - Vi veksler nu mellem at fjerne den mindst
signifikante (højst p-værdi over POUT) og tilføje
en den mest signifikante variabel (lavest p-værdi
under PIN). - I hvert trin skal vi beregne partielle F-test for
alle variable. - Bemærk Kræver PIN POUT.
15Modelsøgning i SPSS
- I Linear Regression kan man i menuen Method
bl.a. vælge mellem - Enter (Uden søgning)
- Stepwise
- Backward
- Forward
- Independent indeholder variable, der skal indgå
i model-søgningen.
16Illustration af algoritmer
Forward algoritmen Start Den tomme model ?Test
for at tilføje
Trin M1 Lend Price Exchange
0
1
2
Tomme model
Backward algoritmen Start Den fulde model ?Test
for at fjerne
Trin M1 Lend Price Exchange
0
1
2
Fulde model
Stepwise algoritmen Start Den tomme model ?Test
for at fjerne/tilføje
Trin M1 Lend Price Exchange
0
1
2
3 (potentielt)
17SPSS detaljer for forward algoritmen
- Model 1
- inkluderer M1
- Model 2
- inkluderer M1 og Price
- Matchende rammer til højre illustrerer hvilke
P-værdier, der konkurrerede om pladsen i hvert
trin.
18Logistisk Regression
19Logistisk Regression
- Setup
- Y Afhængig dikotom variabel
- Fx Ja/Nej , Død/Levende
- X Forklarende variabel, skala eller kategorisk
- Fx Alder, Behandling, Dose
- Spørgsmål
- Antag Y ? Ja, Nej
- Hvad er P(YJaXx) ?
- Dvs. hvad er den betingede sandsynlighed for at
svare Ja givet Xx?
20Eksempel Myg og Gift
- Man har undersøgt effekten af myggegift ved
forskellige doser. - Ved det ite eksperiment har man noteret
- Xi Anvendte dose
- ni Antal levende myg før gift-angreb
- di Antal døde myg efter gift-angreb
- Lad p p(x) P(DødXdose) betegne
sandsynligheden for, at en myg dør ved en
gift-dose x.
21Eksempel Fortsat
- For hver dose kan vi estimere døds-sandsynligheden
- Data som tabel
- Bemærk Sandsynligheden for at dø øges med dosen!
Dose (xi) 0 1 2 3 4 5 6 7 8 9 10
Antal (ni) 13 26 33 29 29 22 38 29 20 26 28
Døde (di) 0 0 2 1 6 6 18 22 15 25 27
pi 0 0 0.06 0.034 0.207 0.273 0.474 0.759 0.750 0.962 0.964
22Estimerede sandsynligheder
- Mål Formuler en model for sammenhængen mellem p
og x. - Dvs. en model for sammenhængen mellem
sandsynligheden for, at en myg dør og gift-dosen.
23Dårlig Ide
- Antag at sammenhængen er lineær
- Estimerede sammenhæng
- Der er et lille problem
- Hint Hvad er sandsynligheden for død ved dose
1?
24Generelt Setup
- Data er på individ niveau.
- Vi har data for hver myg ikke kun totale antal.
- Den afhængige variabel omkodes til en binær (0/1)
variabel - Fx. hvis den ite myg er
- Død ? Yi 1
- Levende ? Yi 0
- Mål Finde model for P(Y 1 X x )
- Notation p P(Y 1 X x )
25Odds
- For en sandsynlighed p gælder
- Definition af Odds
- Der gælder
- Fortolkning Oddset angiver hvor mange gange
mere sandsynligt Y 1 er i forhold til Y 0.
26Odds Eksempel
- Ved dose X 7 har vi (estimeret) sandsynlighed
for at dø p 0.759. - Det (estimerede) Odds er
- Dvs. sandsynligheden for at dø er 3.149 gange
større end sandsynligheden for at overleve.
27Logit
- Difinition Logit er den naturlige logaritme af
Oddset - For logit gælder
28God Ide Logistisk Regression
- Antag at sammenhængen er Logit-lineær
- Dette er logistisk regression.
- Bemærk Eftersom Logit kan antage alle reelle
værdier, er der ikke problemer med at linjen
stikker udenfor definitionsområdet!
29SPSS og Logistisk Regression
- Vi antager at vi for den ite myg har notoret
- Yi Vital status
- ( 0 Levende, 1 Død )
- Xi Dose
- ( 0 til 10 )
- Model
30Scatter-plot af Data
31SPSS og Logistisk Regression
- SPSS Analyze ? Regression ? Binary Logistic
- Estimerede model
- Denne kasse fortæller, at det er
sandsynligheden for død vi modellerer.
Død kodes som Y 1
32Estimerede Model og Sandsynligeheder
- Estimerede sammenhæng
- For hver p har vi udregnet Logit(p) ln( p /
(1-p) ) - Bemærk Når p 0, så er Logit(p) ikke defineret.
33Omskrivninger
- Vi har
-
-
-
- Vi kan isolere Oddset
34Fortolkning
- Når vi øger X med én
- Dvs. når x øges med en ændres Oddset med en
faktor . - Eksempel b1 0.846 Når vi øger dosen med én så
øges Oddset for at dø med en faktor e0.846
2.33.
35Mere Omskrivning
- Vi har
-
-
- Isolér p
- Dvs. p (sandsynligheden for at dø) er en
kompliceret funktion af dosen x.
36Estimerede Sandsynligheder
- Estimerede sandsynligheder