Statistik Lektion 18 Multipel Linear Regression - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Statistik Lektion 18 Multipel Linear Regression

Description:

Statistik Lektion 18 Multipel Linear Regression Repetition Partiel F-test Models gning Logistisk Regression Test for en eller alle parametre I jagten p en god ... – PowerPoint PPT presentation

Number of Views:99
Avg rating:3.0/5.0
Slides: 37
Provided by: KasperKli9
Category:

less

Transcript and Presenter's Notes

Title: Statistik Lektion 18 Multipel Linear Regression


1
Statistik Lektion 18Multipel Linear Regression
  • Repetition
  • Partiel F-test
  • Modelsøgning
  • Logistisk Regression

2
Test for en eller alle parametre
  • I jagten på en god statistisk model har vi set på
    følgende to hypoteser og tilhørende test
  • H0 ß1 ß2 ß3 ßk 0
  • dvs. modellen ikke er besværet værd. Til dette
    anvendes et F-test.
  • H0 ßj0
  • dvs. der er ingen lineær sammenhæng mellem Y og
    Xj. Vi sammenligner to modeller der adskiller sig
    ved om Xj er med eller ej. Her anvendes et
    t-test.

3
Test for flere parametre - Partiel F-test
  • Med fuld model menes en model, der indeholder
    alle forklarende variable af interesse.
  • En reduceret model indeholder kun et udvalg
    (eller slet ingen) forklarende variable fra den
    fulde model.
  • Ved et partielt F-test sammenlignes den fulde og
    den reducerede model.

4
Eksempel Eksport til Fjernøsten
  • Vi vil sammenligne følgende fulde og reducerede
    modeller
  • Fulde model

Export
M1
Lend
Price
Exch.
  • Reducerede model
  • Er det besværet værd, at have x2 og x4 med?

5
  • Det partielle F-test
  • H0 ß2 ß4 0 (givet at X1 og X3 er i
    modellen)
  • H1 ß2 og ß4 er ikke begge nul.
  • Teststørrelse for partielt F-test
  • hvor SSER og SSEF er sum of squares for errors
    for hhv. den reducerede og den fulde model.
  • MSEF SSEF/n - k - 1) er mean square error.
  • k er antal parameter i den fulde model
  • r antal parametre vi forsøger at fjerne (2 i
    eks.).

6
Eksempel Eksport til Fjernøsten
Export
M1
Lend
Price
Exch.
  • Fulde model
  • Reducerede model
  • SSEF 6,990 SSER 6,996 MSEF 0,113

7
Eksempel Eksport til Fjernøsten
  • Er det besværet værd, at have x2 og x3 med?
  • Det partielle F-test
  • H0 ß2ß40 (givet at X1 og X2 er i modellen)
  • H1 ß2 og ß4 er ikke begge nul.
  • Testen er ikke signifikant, dvs. vi accepterer H0
    hypotesen, dvs. den fulde model er ikke besværet
    værd.

8
Bemærkninger
  • Partielle F-test, der kun omhandler en enkel
    parameter er ækvivalente med et t-test.
  • Bruger man linear regression funktionen i SPSS,
    så er der kun t-test i sving.
  • En kategorisk variabel med r niveauer, omkodes
    til (r-1) 0/1 dummy variable. En test for
    betydningen af den kvalitative variabel svarer
    til et partielt F-test, hvor (r-1) variable
    fjernes.
  • Fx. følgende model fra tidligere
  • Test for effekten af indkomst på vægt Partielt
    F-test af to parametre H0 bHøj bMellem 0.

Dummy variable
9
Modelsøgning
  • En statistiske analyse involverer ofte et stort
    antal forklarende variable.
  • For at få overblik over, hvilke forklarende
    variable, der har betydning for den afhængige
    variabel udføres en modelsøgning.
  • I en modelsøgning, søger man en model, der kun
    indeholder de forklarende variable, der har en
    reel betydning for den afhængige variabel.
  • Der findes et utal af måder at udføre
    modelsøgning. De mest almindelige er

10
Modelsøgning Prøv alle muligheder
  • Vi udfører en regression på alle tænkelige
    kombinationer af forklarende variable.
  • Har vi k forklarende variable giver det 2k
    forskellige modeller. Ved k4 forklarende
    variable har vi allerede 2416 modeller.
  • Vi udvælger vores model blandt de 2k modeller fx.
    den med største adjusted R2 eller mindste MSE.

11
Modelsøgning Backward søgning
  • Start med en model, hvor alle forklarende
    variable af interesse er inkluderet.
  • For alle variable fortager vi et partielt F-test
    for den tilsvarende parameter. Den variabel med
    højst p-værdi over fx 0.05 fjernes fra modellen.
  • I den reducerede model foretages et partielt
    F-test for hver af de tilbageværende variable.
    Igen fjernes den variabel, der har højst p-værdi
    over 0.05.
  • Dette gentages indtil alle tilbageværende
    variable er signifikante, dvs. deres partielle
    F-test har p-værdier under 0.05.

12
Backward Eksempel
  • Den fulde model (start-model)
  • Fjerner Lend. Reducerede model
  • Fjern Exchange. Reduceret model (slut-model)

Støreste p-værdi over 0.05
Støreste p-værdi over 0.05
Ingen p-værdi over 0.05
13
Modelsøgning Forward søgning
  • Vi starter med en tom model dvs. uden
    forklarende variable.
  • Dernæst tilføjer vi den forklarende variabel,
    hvor det tilhørende partielle F-test er mindst
    p-vædi, dog under en given grænse, fx 0.10.
  • I den udvidede model tilføjes den variabel blandt
    de resterende, hvor det tilsvarende partielle
    F-test har mindst p-værdi under fx 0.10.
  • Fortsætter indtil ingen af de tilbageværende
    variable har en F-test med p-værdi over 0.10.

14
Modelsøgning Stepwise
  • Vi starter med den tomme model.
  • Vi tilføjer den variabel, hvor det tilhørende
    partielle F-test har mindst p-værdi under PIN, fx
    0.05.
  • Vi tilføjer den mest signifikante variabel blandt
    de tilbageværende, med p-værdi under PIN.
  • Vi veksler nu mellem at fjerne den mindst
    signifikante (højst p-værdi over POUT) og tilføje
    en den mest signifikante variabel (lavest p-værdi
    under PIN).
  • I hvert trin skal vi beregne partielle F-test for
    alle variable.
  • Bemærk Kræver PIN POUT.

15
Modelsøgning i SPSS
  • I Linear Regression kan man i menuen Method
    bl.a. vælge mellem
  • Enter (Uden søgning)
  • Stepwise
  • Backward
  • Forward
  • Independent indeholder variable, der skal indgå
    i model-søgningen.

16
Illustration af algoritmer
Forward algoritmen Start Den tomme model ?Test
for at tilføje
Trin M1 Lend Price Exchange
0
1
2
Tomme model
Backward algoritmen Start Den fulde model ?Test
for at fjerne
Trin M1 Lend Price Exchange
0
1
2
Fulde model
Stepwise algoritmen Start Den tomme model ?Test
for at fjerne/tilføje
Trin M1 Lend Price Exchange
0
1
2
3 (potentielt)
17
SPSS detaljer for forward algoritmen
  • Model 1
  • inkluderer M1
  • Model 2
  • inkluderer M1 og Price
  • Matchende rammer til højre illustrerer hvilke
    P-værdier, der konkurrerede om pladsen i hvert
    trin.

18
Logistisk Regression
19
Logistisk Regression
  • Setup
  • Y Afhængig dikotom variabel
  • Fx Ja/Nej , Død/Levende
  • X Forklarende variabel, skala eller kategorisk
  • Fx Alder, Behandling, Dose
  • Spørgsmål
  • Antag Y ? Ja, Nej
  • Hvad er P(YJaXx) ?
  • Dvs. hvad er den betingede sandsynlighed for at
    svare Ja givet Xx?

20
Eksempel Myg og Gift
  • Man har undersøgt effekten af myggegift ved
    forskellige doser.
  • Ved det ite eksperiment har man noteret
  • Xi Anvendte dose
  • ni Antal levende myg før gift-angreb
  • di Antal døde myg efter gift-angreb
  • Lad p p(x) P(DødXdose) betegne
    sandsynligheden for, at en myg dør ved en
    gift-dose x.

21
Eksempel Fortsat
  • For hver dose kan vi estimere døds-sandsynligheden
  • Data som tabel
  • Bemærk Sandsynligheden for at dø øges med dosen!

Dose (xi) 0 1 2 3 4 5 6 7 8 9 10
Antal (ni) 13 26 33 29 29 22 38 29 20 26 28
Døde (di) 0 0 2 1 6 6 18 22 15 25 27
pi 0 0 0.06 0.034 0.207 0.273 0.474 0.759 0.750 0.962 0.964
22
Estimerede sandsynligheder
  • Mål Formuler en model for sammenhængen mellem p
    og x.
  • Dvs. en model for sammenhængen mellem
    sandsynligheden for, at en myg dør og gift-dosen.

23
Dårlig Ide
  • Antag at sammenhængen er lineær
  • Estimerede sammenhæng
  • Der er et lille problem
  • Hint Hvad er sandsynligheden for død ved dose
    1?

24
Generelt Setup
  • Data er på individ niveau.
  • Vi har data for hver myg ikke kun totale antal.
  • Den afhængige variabel omkodes til en binær (0/1)
    variabel
  • Fx. hvis den ite myg er
  • Død ? Yi 1
  • Levende ? Yi 0
  • Mål Finde model for P(Y 1 X x )
  • Notation p P(Y 1 X x )

25
Odds
  • For en sandsynlighed p gælder
  • Definition af Odds
  • Der gælder
  • Fortolkning Oddset angiver hvor mange gange
    mere sandsynligt Y 1 er i forhold til Y 0.

26
Odds Eksempel
  • Ved dose X 7 har vi (estimeret) sandsynlighed
    for at dø p 0.759.
  • Det (estimerede) Odds er
  • Dvs. sandsynligheden for at dø er 3.149 gange
    større end sandsynligheden for at overleve.

27
Logit
  • Difinition Logit er den naturlige logaritme af
    Oddset
  • For logit gælder

28
God Ide Logistisk Regression
  • Antag at sammenhængen er Logit-lineær
  • Dette er logistisk regression.
  • Bemærk Eftersom Logit kan antage alle reelle
    værdier, er der ikke problemer med at linjen
    stikker udenfor definitionsområdet!

29
SPSS og Logistisk Regression
  • Vi antager at vi for den ite myg har notoret
  • Yi Vital status
  • ( 0 Levende, 1 Død )
  • Xi Dose
  • ( 0 til 10 )
  • Model

30
Scatter-plot af Data
  • Ikke til megen nytte

31
SPSS og Logistisk Regression
  • SPSS Analyze ? Regression ? Binary Logistic
  • Estimerede model
  • Denne kasse fortæller, at det er
    sandsynligheden for død vi modellerer.

Død kodes som Y 1
32
Estimerede Model og Sandsynligeheder
  • Estimerede sammenhæng
  • For hver p har vi udregnet Logit(p) ln( p /
    (1-p) )
  • Bemærk Når p 0, så er Logit(p) ikke defineret.

33
Omskrivninger
  • Vi har
  • Vi kan isolere Oddset

34
Fortolkning
  • Når vi øger X med én
  • Dvs. når x øges med en ændres Oddset med en
    faktor .
  • Eksempel b1 0.846 Når vi øger dosen med én så
    øges Oddset for at dø med en faktor e0.846
    2.33.

35
Mere Omskrivning
  • Vi har
  • Isolér p
  • Dvs. p (sandsynligheden for at dø) er en
    kompliceret funktion af dosen x.

36
Estimerede Sandsynligheder
  • Estimerede sandsynligheder
Write a Comment
User Comments (0)
About PowerShow.com