Luento 4: Regressioanalyysi

About This Presentation

Title:

Luento 4: Regressioanalyysi

Description:

Title: Luento 4: Regressioanalyysi Author: Petri Nokelainen Last modified by: Petri Nokelainen Created Date: 1/11/2005 7:27:08 PM Document presentation format – PowerPoint PPT presentation

Number of Views:168

Avg rating:3.0/5.0

Slides: 75

Provided by: Petri47

Category:

more less

Transcript and Presenter's Notes

Title: Luento 4: Regressioanalyysi

1
Luento 4 Regressioanalyysi

Petri Nokelainen

petri.nokelainen_at_uta.fi http//www.uta.fi/petri.n
okelainen
Kasvatustieteiden yksikkö Tampereen yliopisto
2
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

3
1. General Linear Model (GLM)
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
4
(Nokelainen, 2008.)
5
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
6
1.1 Korrelaatio
?
?
DV
IV 1
7
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

8
2. Regressioanalyysi
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
9
(Nokelainen, 2008.)
10
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
11
2. Regressioanalyysi
IV 1
?
?
IV 2
?
DV
?
r
IV 3
?
IV 4
12
2. Regressioanalyysi

regression analysis is a method of analyzing
the variability of a dependent variable by
resorting to information available on one or more
independent variables.
(Pedhazur, 1982, 5)

13
2. Regressioanalyysi

Tarkastelee muuttujien välistä lineaarista
yhteyttä, ts. ilmoittaa korrelaatiokertoimen
tavoin kahden muuttujan välisen vaikutussuhteen
voimakkuuden (-1, , 1).
Mahdollistaa lisäksi DV -muuttujan arvojen
ennustamisen IV muuttujan (tai muuttujien)
arvojen perusteella.

14
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

15
2.1 Regressioanalyysin historia

Perustuu Galtonin (1885) havaintoihin
Pitkien isien pojista ei keskimäärin tullutkaan
yhtä pitkiä kuin isistään, lyhyiden isien pojista
tulikin keskimäärin pidempiä kuin isistään.
Poikien keskipituus lähestyi keskipituutta.

Sir Francis Galton 1822-1911
16
2.1 Regressioanalyysin historia

Regressioanalyysi on yksi kasvatustieteiden
käytetyimmistä menetelmistä, mutta usein
unohdetaan että sen tulisi perustua vahvalle
teoreettiselle pohjalle.

17
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

18
2.2 Regressioanalyysin lajit

Yhden tai useamman ennustemuuttujan (IV)
regressioanalyysi
Monimuuttujaregressioanalyysi (Multivariate
regression analysis)(ks. lisää esim. Nummenmaa
et al., 1997, 307-326 Kerlinger, 1986, 527-561).
Hierarkkinen regressioanalyysi
Hierarchical/sequential multiple regression
(Pedhazur, 1982 Tabachnick Fidell, 2007)

19
2.2 Regressioanalyysin lajit

Askeltava regressioanalyysi
Stepwise multiple regression (Pedhazur, 1982
Tabachnick Fidell, 2007)
Kanoninen korrelaatio
Canonical correlation (Kerlinger, 1986, 561-568)
Logistinen regressioanalyysi
Logistic regression analysis
Poistaa lineaarisen regressioanalyysin
vaatimuksen selitettävän muuttujan jatkuvuudesta,
ks. esimerkki dokumentista 6.1 Logistinen
regressio (FSD)
Multiway frequency analysis (Nummenmaa et al.,
1997, 127-147)

20
A Standardi R B Hierarkkinen R C Askeltava R
A
B
C
IV1
IV2
IV3
21
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

22
2.3 Regressioanalyysin käyttötapoja

Käyttötapoja
Selittävien (IV) muuttujien etsiminen
Opiskelumenestyksen selittäminen motivaation ja
oppimisstrategioiden avulla.
Selittävien (IV) muuttujien selitysosuuden
tutkiminen
Kuinka suuri vaikutus varhaisessa vaiheessa
tapahtuneella erityisluokalle siirrolla on
erityisoppilaan koulumenestykseen.
Selittävien (IV) muuttujien keskinäisen
selitysosuuden vertailu eli mitkä muuttujat ovat
toisia parempia tietyn Ilmiön selittäjinä.
Selitettävän (DV) muuttujan ennustaminen.

23
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

24
2.4 Regressioanalyysin rajoituksia

Yleisiä rajoituksia
Regressioanalyysin avulla löydetyt
vaikutussuhteet eivät välttämättä ole
kausaalisia.
Kausaalisuuden määrittely on looginen ja
koeasetelmallinen ongelma (Pearl, 2000).
Analyysiin mukaan otettujen DV ja IV muuttujien
valinnan tulee olla teoreettisesti, loogisesti
tms. perusteltavissa.

25
2.4 Regressioanalyysin rajoituksia

Teknisiä rajoituksia
Otoskoko (esim. viisi IV muuttujaa)
Greenin (1991) mukaan
N gt 508m (useita IV muuttujia), esim. N 5085
90
N gt 104 m (yksi IV), esim. N 104 5 109
Stevensin (1996) mukaan
N 15m (kaikissa tapauksissa), esim. 155 75
IV muuttujien väliset suhteet
Multikollineaarisuutta (korkeita r /- .9
korrelaatioita) ei saa esiintyä.
Singulaarisuutta (muuttuja on toisen/toisten
kombinaatio, esim. kolmen testin yksittäiset
pistemäärät ja niiden summamuuttuja) ei saa
esiintyä.

26
2.4 Regressioanalyysin rajoituksia

Teknisiä rajoituksia
Poikkeavat arvot (outlier) tulisi poistaa,
korvata uudella arvolla (rescore) tai muuntaa
(transform).
X Y muuttujien kuvaajien tarkastelu!
Regressioanalyysiohjelmissa (SAS, BMDP, SPSS)
poikkeavien arvojen vaikutusta tutkitaan
seuraavilla mittaluvuilla
Leverage (l) arvioi poikkeavia arvoja IV
muuttujien joukossa
Korkeat arvot ovat kaukana toisista
Discrepancy (d) arvioi sitä kuinka tapaus on
linjassa muiden kanssa.
Influency (l) l d.

27
2.4 Regressioanalyysin rajoituksia
Korkea l Korkea d Korkea i
Matala l Korkea d Kohtuullinen i
Korkea l Matala d Kohtuullinen i
(Tabachnik Fidell, 1996, 135.)
28
2.4 Regressioanalyysin rajoituksia

Residuaalien (havaitun ja ennustetun DV arvon
välinen erotus, regressioyhtälön virhetermi tai
jäännöstermi, ?)
Normaalisuus
Residuaalien (ennustevirheiden) tulisi olla
normaalisti jakautuneita
Lineaarisuus
Residuaalien ja ennustettujen DV arvojen välillä
tulisi olla lineaarinen suhde
Homoskedastisuus
DV muuttujien residuaalien varianssien tulisi
olla yhtä suuria.
Riippumattomuus
Residuaalien tulisi olla toisistaan
riippumattomia.

29
2.4 Regressioanalyysin rajoituksia
A

A) Normaalisuus ei toteudu
B) Lineaarisuus ei toteudu
C) Homoskedastisuus ei toteudu

0
0
C
B
0
0
30
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

31
2.5 Regressioanalyysin vaiheet

Regressioanalyysin vaiheet
Muuttujien valinta (DV, IV)
Paitsi jos käytetään Enter -menetelmää
Analyysi
Mallille tehtävät diagnostiset tarkastelut

32
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

33
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
34
3. Kahden muuttujan regressioanalyysi

Kahden muuttujan regressioanalyysi
Määritellään kahden, riippuvan (DV) ja
riippumattoman (IV) muuttujan välinen yhtälö.
Esim. ennustetaan akateemista tuottavuutta (DV)
kognitiivisten oppimistuotosten, esim. GPA,
avulla (IV).
Jokaiselle yhtälössä olevalle riippumattomalle
muuttujalle annetaan painokerroin (?), jotka
yhdessä muodostavat ns. Beta vektorin (B).
Selitettävän muuttujan arvo saadaan kun
selittävät muuttujat lasketaan yhteen
painokertoimilla painotettuna ja summaan lisätään
vakio.
Mallissa on aina mukana virhettä, jota kuvataan
jäännöstermin, residuaalin, (?) avulla.

35
3. Kahden muuttujan regressioanalyysi

Yksinkertaisessa kahden muuttujan välisessä
regressiossa määritetään lineaarinen yhtälö joka
kuvaa riippuvan (Y) ja riippumattoman (X)
muuttujan välistä suhdetta
y ?0 ?x ?
y riippuva muuttuja
?0 leikkauskohta (intercept, constant)
? regressioparametri (slope), kuvaa Y
muuttujan ennustettua arvon muutosta kun X
muuttujan arvo kasvaa yhden yksikön
x riippumaton muuttuja
? jäännöstermi

36
3. Kahden muuttujan regressioanalyysi
y
yi
ei
yi ?0 ?xi ?
yj,
x
37
3. Kahden muuttujan regressioanalyysi

Mallin (regressioyhtälö) hyvyyden mittana
käytetään selitettävän (DV, Y) ja selittävien
(IV, X) muuttujien välistä korrelaatiota R.
H0 DV ja IV muuttujien välillä ei ole
korrelaatiota (yksikin regressiokerroin saa arvon
0).
Suurella otoskoolla nollahypoteesi tulee siis
lähes varmasti hylätyksi.

38
3. Kahden muuttujan regressioanalyysi
39
3. Kahden muuttujan regressioanalyysi

R2 on mallin selitysaste
Kuinka monta prosenttia malli (siis
ennustemuuttuja eli IV) pystyy selittämään
riippuvan muuttujan (DV) vaihtelusta.
SPSS laskee kaksi selitysastetta, joista
tieteellisissä raporteissa käytetään
konservatiivisempaa (Adjusted R2).
Selitysasteen (R2) perusteella voidaan tehdä
päätelmiä efektikoosta

40
3. Kahden muuttujan regressioanalyysi
41
3. Kahden muuttujan regressioanalyysi
42
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

43
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
44
4. Useamman muuttujan regressioanalyysi

Määritellään yhden riippuvan (DV) ja usean
riippumattoman (IV) muuttujan välisiä yhtälöitä.
Esim. ennustetaan työssä koettua stressiä (DV)
esimiehen johtamisominaisuuksien (IV1) ja ryhmän
toimintakyvyn perusteella (IV2).
Kaikki riippumattomat muuttujat analysoidaan
(Enter menetelmä), niitä ei valita tai aseteta
järjestykseen.

45
4. Useamman muuttujan regressioanalyysi

Usean muuttujan lineaarisessa regressiossa
määritetään lineaarinen yhtälö joka kuvaa yhden
riippuvan ja usean riippumattoman muuttujan
välistä suhdetta
y ?0 ?1x1 ?2x2 ... ?nxn ?
y riippuva muuttuja
?0 vakio (constant)
?1n regressioparametreja
x1n riippumattomia muuttujia
? virhetermi

46
4. Useamman muuttujan regressioanalyysi
yi ?0 ?1ix1i ?2ix2i ... ?nixni
?
y
yi
ei
yj,
x
47
4. Useamman muuttujan regressioanalyysi
Knowledge
?
Value
Performance
Satisfaction
(Warren, White, Fuller, 1974.)
48
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen menestys
Kontrolliuskomukset
WorldSkills kilpailumenestys
?
Näyttötilanteiden jännittäminen
Ulkoinen tavoiteorientaatio
Tekemällä oppiminen
N64
49
4. Useamman muuttujan regressioanalyysi

Regressioanalyysin suorittaminen PASW/SPSS
-ohjelmassa
Analyze Regression - Linear
Dependent kilpailumenestys (alle 23-vuotiaiden
menestyminen WSC kilpailuissa, luokiteltu 3
luokkaan 1 heikko, 2 keskitasoinen, 3
paras).
Independent(s) str_3 (Learning by Doing,
asteikko 1 täysin eri mieltä .. 5 täysin
samaa mieltä), mot_2 (Extrinsic Goal
Orientation), mot_4 (Control Beliefs), mot_6
(Test Anxiety), ammatopmenestys (menestyminen
ammatillisissa opinnoissa), ya_ka (yläasteen
päästötodistuksen keskiarvo).
Statistics Estimates, Confidence intervals
(95), Model fit, Collinearity diagnostics,
Durbin-Watson.
Plots Y ZRESID (standardoidut residuaalit) ja
X ZPRED (standardoidut ennustetut arvot)

50
4. Useamman muuttujan regressioanalyysi

Ensin tarkastellaan tulosteen lopusta Charts
osasta täyttävätkö residuaalit niille asetetut
vaatimukset normaaliuden ja lineaarisuuden osalta

Residuaalit ovat jakautuneet normaalisti ja
lineaarisesti.
51
4. Useamman muuttujan regressioanalyysi

Seuraavaksi tarkastellaan Model Summary taulukon
Durbin-Watson sarakkeesta täyttävätkö
residuaalit niille asetetut vaatimukset myös
riippumattomuuden osalta

Durbin-Watson saa arvoja väliltä 0 4, arvon 2
osoittaessa korreloimattomia residuaaleja (D-W lt
2 positiivinen korrelaatio, D-W gt 2
negatiivinen korrelaatio). Hyväksyttävät arvot
vaihtelevat 1.0 3.0 välillä (2.0
optimi). Tässä aineistossa residuaalien voidaan
todeta olevan normaaleja, lineaarisia ja
riippumattomia, jolloin voidaan edetä varsinaisen
regressioanalyysin tulosten tulkintaan.
52
4. Useamman muuttujan regressioanalyysi
Kuvaa mallin yleistettävyyttä populaatioon, ts.
pitäisi olla lähellä R2 arvoa. Jos malli olisi
laskettu populaatiosta, eikä tästä 64 nuoren
otoksesta, se selittäisi noin 11 vähemmän
kilpailumenestyksestä (.442 - .331 .111).
Malli selittää tilastollisesti merkitsevästi
kilpailumenestystä.
53
4. Useamman muuttujan regressioanalyysi
Multikollineaarisuus-tarkastelu suoritetaan
vertaamalla Tolerance -sarakkeen arvoja lukuun
.67 (1-R21-.33). Suuret korrelaatiot eivät ole
ongelma, koska arvot vaihtelevat välillä
.730-.893 eli ovat arvoa .67 suurempia. Huom.
Tolerance 1 / VIF.
Luottamusväli joko osoittaa (tai sitten ei)
otoksesta lasketun painokertoimen (B) kuvaavan
populaation mielipidettä. Esim. B.644 kuvaa
tekemällä oppimisen positiivista yhteyttä
kilpailumenestykseen (p.021), ja samaa viestiä
tarjoaa luottamusvälikin (Bn arvo vaihtelee
populaatiossa 95 todennäköisyydellä välillä .104
- 1.185). Heikon selittäjän, esim. ulkoinen
tavoiteorientaatio (B.242 , p.368), osalta
luottamusväli ilmaisee että populaatiossa on
todennäköisesti myös henkilöitä joilla ulkoisen
tavoiteorientaation vaikutus kilpailumenestykseen
on negatiivinen (-.299).
Standardoimattomat kertoimet kuvaavat IV
muuttujan (prediktori) yhden yksikön kasvun
vaikutusta DV muuttujassa. Esim. kun
ammatillinen opintomenestys kasvaa yhdellä
arvosanalla, kilpailumenestyksen odotetaan
paranevan .66 sijoituksen verran.
54
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
-.141(.139)
Ammatillisten opintojen menestys
R233
.644(.417)
Kontrolliuskomukset
WorldSkills kilpailumenestys
.247(.166)
Näyttötilanteiden jännittäminen
-.426(-.362)
Ulkoinen tavoiteorientaatio
.242(.138)
.644(.341)
Tekemällä oppiminen
55
4. Useamman muuttujan regressioanalyysi

Ammattitaidon maailmanmestaruuskilpailuissa
menestymistä selittäviä tekijöitä tarkasteltiin
regressioanalyysilla kuuden ennustemuuttujan
avulla. Parhaat ennustajat olivat aiempi
ammattiopintomenestys (?.417, p.001), tekemällä
oppiminen (?.361, p.021) ja näyttötilanteiden
jännittäminen (?-.362, p.018). Malli sopi
aineistoon (p.005) ja tuloksen efektikoko oli
Cohenin (1988) mukaan suuri, .331.

56
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
57
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

58
4.1 Hierarkkinen regressioanalyysi

Hierarchical/sequential multiple regression
(Pedhazur, 1982 Tabachnick Fidell, 2007)
Rajoitukset ovat samat kuin perinteisessä
regressioanalyysissa.
Analyysin suorittamiseen tarvitaan yksi jatkuva
DV ja kaksi tai useampia jatkuva tai ei-jatkuva
IV muuttuja.
Analyysin avulla voi selvittää kunkin IV
muuttujan suhteellisen selitysosuuden DV
muuttujan varianssista.

59
4.1 Hierarkkinen regressioanalyysi

Riippumattomat muuttujat sijoitetaan
regressioyhtälöön tutkijan määrittämässä
järjestyksessä.
Yleensä sijoittelun taustalla on teoreettinen,
kausaalinen tms. oletus.
Tutkittaessa koettua stressiä (DV) sisäisten
prosessien (IV) ja ulkoisten tapahtumien
hallinnan (IV) toimiessa selittävinä muuttujina,
on varmasti hyvä ottaa malliin mukaan työkokemus
(IV) ja minäkäsitys (IV).

60
4.1 Hierarkkinen regressioanalyysi

Pääselittäjien voimaa voi myös tutkia
sijoittamalla yhtälöön ensin vähempiarvoisia
selittäjiä (kontrolloimalla niitä).
Henkilön lukunopeutta (DV) voi tutkia
intensiivikurssin sisällön (IV) ja keston (IV)
kannalta sijoittamalla yksilölliset erot
lukunopeudessa (IV) yhtälöön ensimmäiseksi.

61
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

62
4.2 Askeltava regressioanalyysi

Stepwise multiple regression, statistical
regression (Pedhazur, 1982 Tabachnick Fidell,
2007)
Menetelmää kutsutaan tilastolliseksi
regressioanalyysiksi, koska selittävien
muuttujien valinta perustuu puhtaasti
tilastollisiin kriteereihin (esim. korrelaation
voimakkuus DV muuttujan kanssa).
Muuttujien valinta tapahtuu yleisimmin kolmen
menetelmän avulla (1) forward selection, (2)
backward selection, ja (3) stepwise selection.

63
4.2 Askeltava regressioanalyysi

Forward selection (lisäävä menettely)
Tyhjään yhtälöön lisätään tilastollisen kriteerin
täyttävä IV yksi kerrallaan. Kukin lisätty IV jää
yhtälöön.
Backward selection (poistava menettely)
Kaikki IV muuttujat ovat alussa yhtälössä.
Tilastollisen kriteerin ulkopuolelle jäävät IVt
poistetaan yhtälöstä yksi kerrallaan.
Stepwise selection (askeltava menettely)
Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä,
ja siihen lisätään IV muuttujia yksi kerrallaan.
Yhtälöstä voidaan myös poistaa IV muuttujia kun
uusia, paremmin selittäviä tulee tilalle.

64
4.2 Askeltava regressioanalyysi

Perinteisessä regressioanalyysissa (A)
voimakkaasti selitettävän muuttujan (DV) kanssa
korreloiva selittävä muuttuja (IV1) voi jäädä
statistin rooliin.

A
65
4.2 Askeltava regressioanalyysi

Askeltavassa mallinnuksessa (C) selitettävät
muuttujat saavat krediitit riippuvan muuttujan
selittämisestä korrelaation voimakkuuden
perusteella.

C
66
4.2 Askeltava regressioanalyysi

Ylisovitus (overfitting) on askeltavien
menetelmien riski, erityisesti tehtäessä
tulkintoja yhden näytteen perusteella.
Ristiinvalidointi (cross validation) esim. toisen
näytteen avulla (tai suuren datatiedoston
puolitus) on suositeltavaa käytettäessä
tilastollisia regressiomenetelmiä.
Ajetaan sama regressioanalyysi kaksi kertaa eri
aineistoilla, esim. jaetaan yksi riittävän suuri
aineisto kahteen satunnaisesti muodostettuun
aliotokseen.

67
Sisältö

1. General Linear Model (GLM)
1.1 Korrelaatio
2. Regressioanalyysi
2.1 Regressioanalyysin historia
2.2 Regressioanalyysin lajit
2.3 Regressioanalyysin käyttötapoja
2.4 Regressioanalyysin rajoituksia
2.5 Regressioanalyysin vaiheet
3. Kahden muuttujan regressioanalyysi
4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi
4.2 Askeltava regressioanalyysi
5. Kanoninen korrelaatio
Lähteet

68
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
69
5. Kanoninen korrelaatio

Canonical correlation
(Kerlinger, 1986, 561-568)
Yleismenetelmä, jonka erikoistapauksia ovat mm.
regressioanalyysi, erotteluanalyysi ja MANOVA.
Käytetään tutkimuskirjallisuudessa enemmän
kuvailuun kuin hypoteesintestaukseen.
Tulokset ovat usein matemaattisesti elegantteja,
mutta vaikeasti tulkittavissa (Tabachnik
Fidell, 2007, 570).

70
5. Kanoninen korrelaatio

Menetelmän avulla tutkitaan kahden muuttujaryhmän
välisiä vaikutussuhteita.
Toinen ryhmä voi koostua DV (esim.
ympäristötietoisuus) ja toinen IV (esim.
sukupuoli, koulutustaso, poliittinen kanta)
muuttujista.
Tutkijan kannalta muuttujien valinta ja
erityisesti tulosten mielekäs tulkinta on
haasteellista.

71
Lähteet

Berk, R. A. (2004). Regression Analysis A
Constructive Critique. Thousand Oaks Sage.
Cohen, J. (1988). Statistical power analysis for
the behavioral sciences. Hillsdale, NJ Erlbaum.
Cronbach, L. J. (1951). Coefficient alpha and the
internal structure of tests. Psychometrika, 16,
297-334.
Galton, F. (1885). Regression towards mediocrity
in hereditary stature. Journal of the
Anthropological Institute, 15, 246-63.
Green, S. B. (1991). How many subjects does it
take to do a regression analysis? Multivariate
Behavioral Research, 26, 499-510.
Gulliksen, H. (1950). Theory of Mental Tests. New
York John Wiley Sons.

72
Lähteet

Howell, D. (1997). Statistical Methods for
Psychology. Belmont, CA Wadsworth Publishing
Company.
Kerlinger, F. (1986). Foundations of Behavioral
Research. Third Edition. New York CBS College
Publishing.
Kuder, G. F., Richardson, M. W. (1937). The
theory of the estimation of test reliability.
Psychometrika, 2, 151-160.
Metsämuuronen, J. (2003). Tutkimuksen tekemisen
perusteet ihmistieteissä. Helsinki International
Methelp Ky.
Nummenmaa, L. (2009). Käyttäytymistieteiden
tilastolliset menetelmät. Ensimmäinen painos,
uudistettu laitos. Helsinki Tammi.
Nummenmaa, T., Konttinen, R., Kuusinen, J.,
Leskinen, E. (1997). Tutkimusaineiston analyysi.
Porvoo WSOY.

73
Lähteet

Pierce, C. A., Block, R., Aguinis, H. (2004).
Cautionary note on reporting Eta-squared values
from multifactor ANOVA designs. Educational and
Psychological Measurement, 64(6), 916-924.
Pearl, J. (2000). Causality. New York Cambridge
University Press.
Pedhazur, E. (1982). Multiple Regression Analysis
in Behavioral Research. New York Holt, Rinehart
and Winston.
Stevens, J. (1996). Applied Multivariate
Statistics for the Social Sciences. Third
edition. Mahwah, NJ Lawrence Erlbaum.
Tabachnick, B. G., Fidell, L. S. (1996). Using
Multivariate Statistics. Third Edition. New York
Harper Collins.

74
Lähteet

Tabachnick, B. G., Fidell, L. S. (2007). Using
Multivariate Statistics. Fifth Edition. Boston
Pearson.
Warren, R. D., White, J. K., Fuller, W. A.
(1974). An errors-in-variables analysis of
managerial role performance. Journal of American
Statistical Association, 69, 886-893.
Vehkalahti, K. (2007). Kyselytutkimuksen mittarit
ja menetelmät. http//www.helsinki.fi/7ekvehka
la/mmm/moniste.pdf