Title: Gegevensverwerving en verwerking
1Gegevensverwerving en verwerking
Bibliotheek
Staalname
- aantal stalen/replicaten - grootte staal -
apparatuur
Statistiek
- beschrijvend - variantie-analyse - correlatie -
regressie - ordinatie - classificatie
Experimentele setup
Websites www.statsoft.com gt electronic
statistic textbook
allserv.rug.ac/ katdhond/ gt reservatie PC
zalen /
gdsmet/MarBiolwebsite/ gt lesnotas
2Eenvoudige lineaire regressie
Y a bX
Vergelijking van een rechte
gt residuelen zo klein mogelijk houden bij
bepalen van a en b
door de METHODE van de KLEINSTE KWADRATEN
SSregr.
SSY
SSres
Volgt bij benadering een F-distributie met 1 en
n-2 vrijheidsgraden indien b0
Regressie is significant
Dus indien F gt F tabel gt
SSregr.
RĀ² --------
SSY
RĀ² geeft weer hoeveel variatie in Y kan worden
toegeschreven aan een lineaire relatie met X.
De overige variatie is willekeurig.
3Voorwaarden (zelfde als bij parametrische
testen gt F-test en t-test
- alle variabelen zijn normaal verdeeld - er
zijn geen residuele uitbijters gt residuele
analyse
e is een willekeurige variabele met een
constante variantie e s zijn onderling
onafhankelijk es zijn normaal verdeeld.
gt op zoek naar uitbijters sterke impact op
regressielijn - wanneer e gt gemiddelde e waarde
3 SD - deleted residual residuele van een
waarneming, indien deze
niet in de analyse zou zijn
inbegrepen plot van residuelen tov deleted
residuals
4Test van residuelen
5Voorbeeld eenvoudige lineaire regressie
6(No Transcript)
7Correlations (regvb1.sta)
SALINITY SEDIMENT PH NUTR_ LICHT
TEMP POROSITE DIATOMS SALINITY 1.000000 .052
237 .100864 .369392 -.022323 -.174269 .126697 -.64
4688 SEDIMENT .052237 1.000000 .150468 .375451 -.6
58402 -.351110 .943332 -.182531 PH .100864 .150468
1.000000 -.091243 .013030 -.130438 .259497 .05340
7 NUTR_ .369392 .375451 -.091243 1.000000 -.760288
-.110341 .279120 -.729264 LICHT -.022323 -.658402
.013030 -.760288 1.000000 .314903 -.560574 .52026
8 TEMP -.174269 -.351110 -.130438 -.110341 .314903
1.000000 -.347578 .046892 POROSITE .126697 .94333
2 .259497 .279120 -.560574 -.347578 1.000000 -.198
859 DIATOMS -.644688 -.182531 .053407 -.729264 .52
0268 .046892 -.198859 1.000000
8Y as
X as
9Regression Summary for Dependent Variable
DIATOMS R .64468754 RĀ² .41562202 Adjusted RĀ²
.39397839 F(1,27)19.203 plt.00016 Std.Error of
estimate 5.0560 St. Err. St.
Err. BETA of BETA
B of B t(27) p-level Intercpt
32.70604 2.374576 13.77342 .000000 SALIN
ITY -.644688 .147118 -.40048 .091389 -4.38212 .0
00160
Besluit 41.5 van variatie in aantal
diatomeeƫn wordt verklaard door
saliniteit. Daar p lt0.05 kan de
regressielijn gezien worden als een betrouwbare
schatting diat. 32.7 - -0.40048 saliniteit.
gt model , voorspellingen ????
10Multiple lineaire regressie
Twee of meer (k) onafhankelijke variabelen
Y a b1X1 b2X2.bkXk
Vergelijking
Licht X1 temperatuurX2 nutrientenXk..
Groei Y
Onafhankelijke
Afhankelijke
variabelen
11Y a bX
a en b zijn parameters of constanten
a waarde van Y als X 0 snijpunt Y as b
aantal eenheden dat Y verandert als X met Ć©Ć©n
eenheid verandert helling of
REGRESSIE-COEFFICIENT
Y a b1X1 b2X2.bkXk
b1 verwachte verandering in Y wanneer X1 met
Ć©Ć©n eenheid verandert terwijl X2 constant is b2
idem voor X2 met X1 constant gt PARTIĆLE
REGRESSIE-COĆFFICIENTEN
12Gestandardiseerde partiƫle regressie-coƫfficienten
?, ?s
Y en Xen uitgedrukt in verschillende eenhedengt a
en bs onderling niet
vergelijkbaar. Daarom Y en Xen gestandardiseerd
(naar dezelfde Ć©Ć©nheid-variantie) gt afgeleide
regressie-coƫfficienten zijn een maat voor
relatief belang van elke onafhankelijke
variabele op de afhankelijke variabele.
?0
Y ? 1X1 ? 2X2. ? kXk
13Beperkingen
- meer data dan onafhankelijke variabelen (10 tot
20 maal) - de onafhankelijke variabelen mogen
niet overlappend zijn (redundancy)
Tolerantie-waarde 1-RĀ²
RĀ² van de regressie met Ć©Ć©n bepaalde
onafhankelijke variabele als afhankelijke
variabele, en de overige onafhankelijke
variabelen als onafhankelijke variabelen
Hoe kleiner de tolerantie-waarde, hoe meer
overlap er is tussen deze variabele met de
overige onafhankelijke variabelen. gt
aanvaardbaar minimum van 0.01 gt er is een
overlap van 99
14Betrouwbaarheid van de schatting
ANOVA F-test gt totale significantie t-test
gt partiƫle significantie standard
error van de schatting RĀ² ratio (aangepast naar
aantal vrijheidsgraden) gt neemt aantal
waarnemingen en aantal onafhankelijke variabelen
in rekening
betere maat voor de variatie verklaard door de
regressie dan RĀ²
15t-test gt partiƫle significantie
t-test kan grebruikt worden om na te gaan of b0
In geval van Ć©Ć©n onafhankelijke variabele is
t-test gelijk aan F-test meer
partiƫle significantie test voor elke
onafhankelijke variabele apart
t (geschatte b - verwachte b) / SEb
H0 b0
Deze t waarde wordt vergeleken met een
getabelleerde t-waarde van een Students t
distributie met n-2 vrijheidsgraden.
Indien t gt t (tabel) gt b is niet gelijk aan 0
gt sigificante bijdrage van X lt
b is gelijk aan 0 gt geen
significante bijdrage van X
16Selectie van de onafhankelijke variabelen
Stel groot aantal potentiƫle onafhankelijke
variabelen gt welke set van onafhankelijke
variabelen geeft de beste voorspelling van Y?
Voorwaartse selectie gt F to enter Achterwaartse
selectie gt F to remove (al of niet stapsgewijze
selectie)
Diverse strategieƫn
Selectie-criteria t-waarde
tolerantie gt 0.1
Voorwaarts gt selectie van de beste predictor
(grootste F waarde) gt vervolgens wordt de
volgende onafhankelijke variabele geselecteerd
die de F waarde het meest verhoogt enzovoort to
de selectie criteria niet langer voldaan
zijn.
17Voorbeeld multiple lineaire regressie
18Regression Summary for Dependent Variable
DIATOMS R .88777217 RĀ² .78813943 Adjusted RĀ²
.71751924 F(7,21)11.160 plt.00001 Std.Error of
estimate 3.4519 St. Err. St.
Err. BETA of BETA B
of B t(21) p-level Intercpt 22.78330 28
.83626 .79009 .438305 SALINITY -.578521 .139680 -.
35938 .08677 -4.14177 .000463 SEDIMENT .619084 .36
4097 .00195 .00115 1.70033 .103833 PH .074262 .109
559 2.49195 3.67641 .67782 .505284 NUTR_ -.196053
.217156 -.12619 .13977 -.90282 .376860 LICHT .5951
25 .238061 .15819 .06328 2.49988 .020784 TEMP -.17
5460 .116450 -.39707 .26353 -1.50674 .146772 POROS
ITE -.401487 .352781 -.00005 .00005 -1.13806 .2679
13
Analysis of Variance DV DIATOMS
(regvb1.sta) Sums of Mean
Squares df Squares F
p-level Regress. 930.866 7 132.9808 11.16026 .00
0008 Residual 250.227 21 11.9156 Total 1181.092
19Regression Summary for Dependent Variable
DIATOMS R .87965612 RĀ² .77379490 Adjusted RĀ²
.72461987 F(5,23)15.736 plt.00000 Std.Error of
estimate 3.4082 St. Err. St.
Err. BETA of BETA B
of B t(23) p-level Intercpt 38.94460 12
.81984 3.03784 .005846 NUTR_ -.139007 .204388 -.08
947 .13155 -.68011 .503222 SALINITY -.624841 .1286
09 -.38815 .07989 -4.85844 .000066 LICHT .621241 .
233754 .16513 .06213 2.65767 .014064 SEDIMENT .245
783 .140607 .00077 .00044 1.74802 .093800 TEMP -.1
86670 .114585 -.42244 .25931 -1.62909 .116915
Voorwaartse selectie
Regression Summary for Dependent Variable
DIATOMS R .81954882 RĀ² .67166026 Adjusted RĀ²
.64640336 F(2,26)26.593 plt.00000 Std.Error of
estimate 3.8620 St. Err. St.
Err. BETA of BETA B
of B t(26) p-level Intercpt 23.04245 2.
809975 8.20023 .000000 SALINITY -.633389 .112404 -
.39346 .069825 -5.63491 .000006 LICHT .506128 .112
404 .13453 .029878 4.50275 .000125
Achterwaartse selectie
20Tolerantie waarde 1 RĀ²
Redundancy of Independent Variables DV DIATOMS
(regvb1.sta) R-square column contains R-square of
respective variable with all other independent
variables Partial Semipart
Toleran. R-square Cor. Cor.
SALINITY .999502 .000498 -.741486 -.633231 LICHT
.999502 .000498 .661920 .506002
PH .989593 .010407 .194202 .111
279 NUTR_ .297700 .702300 -.3534
09 -.202506 POROSITE .672713 .327287 .351319 .2013
09 TEMP .872853 .127147 -.416310
-.238550 SEDIMENT .565097 .434903 .426678 .244491
21Regression Summary for Dependent Variable
DIATOMS R .81954882 RĀ² .67166026 Adjusted RĀ²
.64640336 F(2,26)26.593 plt.00000 Std.Error of
estimate 3.8620 St. Err. St.
Err. BETA of BETA B
of B t(26) p-level Intercpt 23.04245 2.
809975 8.20023 .000000 SALINITY-.633389 .112404 -.
39346 .069825 -5.63491 .000006 LICHT .506128 .1124
04 .13453 .029878 4.50275 .000125
Diatom. 23.04 0.393sal. - 0.134 licht
Analysis of Variance DV DIATOMS
(regvb1.sta) Sums of Mean
Squares df Squares F
p-level Regress. 793.293 2 396.6464 26.59314 .00
0001 Residual 387.800 26 14.9154 Total 1181.092
22Residuelen normaal verdeeld ?
23Geen residuele uitbijters ??
24Gezien aan de assumpties is voldaangt
Besluit
- 64.6 van de variatie in aantal diatomeeƫn
wordt verklaard door de combinatie van licht en
saliniteit.
Adjusted RĀ² .64640336
- de regressie is significant (totaal F gt Ftab
- en partieel (t-testen)
Diatom. 23.04 0.393sal. - 0.134 licht
- het belang van beide onafhankelijke variabelen
- is ongeveer even groot.
BETA
SALINITY-.633389 . LICHT .506128
25Bemerkingen
- Y vertoont willekeurige variatie X
niet (of voldoende klein) Model I X
wel Model II
- stel geen lineaire relatie tussen X en Y
gt transformatie (indien intrinsiek
lineair) gt andere dan lineaire functie
26(No Transcript)