Title: Gegevensverwerving en verwerking
1Gegevensverwerving en verwerking
Bibliotheek
Staalname
- aantal stalen/replicaten - grootte staal -
apparatuur
Statistiek
- beschrijvend - variantie-analyse - correlatie -
regressie - ordinatie - classificatie
Experimentele setup
2ANOVA (ANALYSIS OF VARIANCE)
Statistische test gebruikt om na te gaan of
groepen van waarnemingen significant van elkaar
verschillen
Voorbeeld 1
Staalnameplaats station herhaling staalname
minimum 3 replicaten/station
Verschillende stations worden bemonsterd langs
een gradient
Veranderingen in Saliniteit
Licht
Temperatuur
Diepte .
Waarnemingen Tellingen/densiteiten
Biomassa
Pigmentconcentraties
Diversiteit ..
3ANOVA (ANALYSIS OF VARIANCE)
Statistische test gebruikt om na te gaan of
groepen van waarnemingen significant van elkaar
verschillen
Voorbeeld 2
Experiment
- effect van verschillende behandelingen
- effect op verschillende populaties
Replicatie Waarnemingen - concentraties
- densiteiten
.
4ANOVA (ANALYSIS OF VARIANCE)
Statistische test gebruikt om na te gaan of
groepen van waarnemingen significant van elkaar
verschillen
Doel vergelijking van groepen van waarnemingen
Groepen aanduiden dmv groeperende variabele
Nulhypothese groepen verschillen niet
HO
Voorbeeld 1 stalen afkomstig van dezelfde
populatie ? geen
verschillen over omgevingsgradient
Voorbeeld 2 geen effect van behandeling
geen verschil in gevoeligheid van
verschillende populaties
of organismen
5ANOVA (ANALYSIS OF VARIANCE)
Statistische test gebruikt om na te gaan of
groepen van waarnemingen significant van elkaar
verschillen
Nulhypothese groepen verschillen niet
HO
Hoe testen ?
Natuurlijke variatie
Variatie t.g.v. gradient
behandeling
Variatie binnen groepen
tussen groepen
Aanvaard (P gt 0.05) Verworpen
ltltlt
HO
Significant verschil
62 mogelijke verklaringen voor het verschil tussen
2 gemiddelden
Beide groepen van 4 waarnemingen zijn afkomstig
van 2 verschillende populaties
Beide groepen zijn afkomstig van de extreme
zijden van dezelfde populatie
7Parametrisch of niet-parametrische testen
t - test F - test
Mann- Withney U test Wilcoxon test
2 groepen
Kruskal-Wallis test
ANOVA
gt 2 groepen
Als een gekende distributie (normale of
Poisson) als model voor data frequentie
distributie kan gebruikt worden
Voorwaarden
- willekeurige en onafhankelijke verzameling van
gegevens (randomness and independence ?
ingebouwd in staalname)
- waarnemingen of data moeten normaal verdeeld
zijn (eventueel na transformatie)
- homogeniteit van de varianties (transformatie)
- Bartletts test, Fmax test (gevoelig voor
afwijkingen van normaliteit) - ?Levenes test
- variantie onafhankelijk van het gemiddelde
(transformatie) BELANGRIJKSTE ASSUMPTIE
8Als een gekende distributie (normale of
Poisson) als model voor data frequentie
distributie kan gebruikt worden
- waarnemingen of data moeten normaal verdeeld
zijn (eventueel na transformatie)
9Als een gekende distributie (normale of
Poisson) als model voor data frequentie
distributie kan gebruikt worden
- homogeniteit van de varianties
- variantie onafhankelijk van het gemiddelde
Relatie gemiddelde - variantie
Na transformatie
Voor transformatie
10Parametrisch of niet-parametrische testen
t - test F - test
2 groepen
t-test vergelijking van gemiddelden van 2 stalen
Nulhypothese gemiddelde van beide groepen
verschillen niet (2 zijdig)
waarbij wordt uitgegaan van gelijke varianties
t waarde vergelijken met getabelleerde waarde Van
students T distributie voor bepaald
aantal vrijheidsgraden
Met s²p SS1 SS2 n1
n2
ts schatting hypothese SD van
verschil
variantie over beide groepen heen
Indien groepen even groot zijn, is t-test
ongevoelig voor heterogeniteit van varianties
? (xi- µ)2
s ² _______
N
variantie
11Parametrisch of niet-parametrische testen
t - test F - test
2 groepen
t-test vergelijking van gemiddelden van 2 stalen
waarbij niet wordt uitgegaan van gelijke
varianties
t waarde vergelijken met getabelleerde waarde
F- test vergelijking van varianties van
2 grote stalen (ngt50)
F waarde vergelijken met getabelleerde waardevoor
n1-1 en n2-1 vrijheidsgraden
(grootste variantie in teller) zie ook ANOVA
12Parametrisch of niet-parametrische testen
ANOVA
gt 2 groepen
Natuurlijke variatie
Variatie t.g.v. gradient
behandeling
Variatie binnen groepen
tussen groepen
Aanvaard Verworpen
ltltlt
HO
Significant verschil
13Voor k groepen en n waarnemingen in totaal
ANOVA - tabel
Totale gemiddelde
groepsgemiddelde
Variatie tussen groepen (effect)
Totale variatie
Variatie binnen groepen (error)
Som van de kwadraten (SS)
Variantie s² MS
14Totale gemiddelde
groepsgemiddelde
Variatie tussen groepen (effect)
Totale variatie
SS
Variatie binnen groepen (error)
Variantie s² MS SS / df
ANOVA - tabel
Bron van variatie
Vrijheidsgraden (df)
Som kwadraten SS
Gemiddelde kwadraten MS SS/df
SS / n-1
Totaal n-1
Tussen k-1
SS / k-1
Binnen n-k
SS / n-k
15Bron van variatie
Vrijheidsgraden (df)
Som kwadraten SS
Gemiddelde kwadraten MS SS/df
SS / n-1
Totaal n-1
Tussen k-1
SS / k-1
x n/k
Binnen n-k
SS / n-k
Staalgrootte waarop gemiddelden zijn gebaseerd
Totaal n-1
totale variantie over n waarnemingen
Tussen k-1
variantie van groepsgemiddelden (x n/k)
Binnen n-k
gemiddelde van de groepsvarianties
Getabelleerde F distributie met k-1 en n-k
vrijheidsgraden
16F -ratio
- F ratio is dus ratio van gemiddelde kwadraten
tussen groepen en de gemiddelde kwadraten binnen
groepen.
- De F-ratio volgt een verwachte distributie
volgens een bepaalde functie met 2 types
vrijheidsgraden.
- De F-distributie is dus een theoretische
waarschijnlijkheidsdistributie
- Er wordt steeds een F-distributie bekomen
wanneer de varianties gelijk zijn.
17Gebruikte voorbeelden steeds groepen met gelijk
aantal waarnemingen (n/k)
Indien k groepen van verschillende grootte, wordt
MS tussen groepen
Tussen k-1
x n/k
vervangen door
met
aantal waarnemingen in groep i
Wi
df ipv Wi
18 Totaal n-1 totale variantie over n
waarnemingen
Tussen k-1 variantie van
groepsgemiddelden (x n/k)
Binnen n-k gemiddelde van de
groepsvarianties
Voorbeeld 1
Vergelijking van de inhoud van 3 pipetten (in
ml) 3 groepen (k), 9 waarnemingen (n)
Variatie tussen pipetten (effect) (df 2)
Totale variatie (df 8)
Natuurlijke variatie binnen groepen (error) (df
6)
19Voorbeeld 1
Vergelijking van de inhoud van 3 pipetten (in
ml) 3 groepen (k), 9 waarnemingen (n)
Variatie tussen pipetten (effect) (df 2)
Totale variatie (df 8)
Natuurlijke variatie binnen groepen (error) (df
6)
Bron van variatie
Vrijheidsgraden (df)
Som kwadraten SS
Gemiddelde kwadraten MS SS/df
95
Totaal n-1
Tussen k-1
x n/k
23.55 x 3 70.6
Binnen n-k
103.1
20Voorbeeld 1
Vergelijking van de inhoud van 3 pipetten (in
ml) 3 groepen (k), 9 waarnemingen (n)
Bron van variatie
Vrijheidsgraden (df)
Som kwadraten SS
Gemiddelde kwadraten MS SS/df
95
Totaal n-1
Tussen k-1
x n/k
23.55 x 3 70.6
Binnen n-k
103.1
70.6 / 103.1 0.68
Getabelleerde F waarde voor 6 en 2
vrijheidsgraden 19.33 gt geen significant
verschil tussen pipetten
21Voorbeeld 1
Vergelijking van de inhoud van 3 pipetten (in
ml) 3 groepen (k), 9 waarnemingen (n)
70.6 / 103.1 0.68
Getabelleerde F waarde voor 2 en 6
vrijheidsgraden 5.14 gt geen significant
verschil tussen pipetten
Variatie binnen groepen
Variatie tussen groepen
aanvaard
HO
Stalen afkomstig van dezelfde populatie
of verschillen tussen pipetten liggen binnen te
verwachten foutmarges.
HO
H 0 wordt aanvaard als de probabiliteit of
waarschijnlijkheid groter is dan 5 (of 0.05)
H 0 wordt verworpen als de probabiliteit of
waarschijnlijkheid kleiner is dan 5 (of 0.05)
22df teller
df noemer
Hypothese testen nulhypothese verwerpen of
aanvaarden Type I error ? Nulhypothese
verwerpen terwijl ze waar is ? kans zo klein
mogelijk houden Beslissingsregel ingevoerd om de
kans om een type I error te maken zo
klein mogelijk te houden (kleiner dan 1 of 5 )
Significantie niveau
23 Totaal n-1 totale variantie over n
waarnemingen
Tussen k-1 variantie van
groepsgemiddelden (x n/k)
Binnen n-k gemiddelde van de
groepsvarianties
Voorbeeld 2
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 4 verschillende
farmaceutische behandelingen (k) 6 muizen per
behandeling gt 24 waarnemingen(n)
Variatie tussen behandelingen (effect) (df 3)
Totale variatie (df 23)
Natuurlijke variatie binnen groepen (error) (df
20)
24Voorbeeld 2
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 4 verschillende
farmaceutische behandelingen (k) 6 muizen per
behandeling gt 24 waarnemingen(n)
Bron van variatie
Vrijheidsgraden (df)
Som kwadraten SS
Gemiddelde kwadraten MS SS/df
Totaal n-1 23
111057.9 4828.6
Tussen k-1 3
104060.45 5781.14 X 6 34686.8
Binnen n-k 20
6977.5 349.9
Getabelleerde F waarde (df 3 en 20 en p 5)
3.1
99.14
HO
Verworpen gt significante verschillen
tussen behandelingen
25ANOVA (ANALYSIS OF VARIANCE)
Parametrische testen
1 effect of behandeling
one way ANOVA
Variatie tussen groepen (effect)
Totale variatie
Variatie binnen groepen (error)
2 effecten of behandelingen
two way ANOVA
Variatie effect 1 Variatie effect 2 Var. effect 1
en 2
Variatie tussen groepen (effect)
Totale variatie
Variatie binnen groepen (error)
26Voorbeeld 1 en 2 één groeperende variabele 3
pipetten, 4 behandelingen
slechts 1 effect
one way ANOVA
two way ANOVA
2 groeperende variabelen
om effect van twee variabelen (behandelingen,
gradienten) tegelijk na te gaan
Voorbeeld 3
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met Bordetella
pertussis bacteriën
Zelfde data als in voorbeeld 2 maar nu is groep
A controle (geen behandeling) groep B infectie
met pertussis groep C toedienen van
adrenaline groep D beide behandelingen
(adrenaline pertussis)
27Voorbeeld 3
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met pertussis
bacteriën
n 24 k 4
groep A controle (geen behandeling) groep B
infectie met pertussis groep C toedienen van
adrenaline groep D beide behandelingen
(adrenaline pertussis)
Pertussis effect Adrenaline effect Adre Pert
df 1 df 1 df 1
Variatie tussen groepen (effect)
tgv behandeling
df 3
Totale variatie df 23
Variatie binnen groepen (error) of natuurlijke
variatie (residueel)
df 20
28Voorbeeld 3
Pertussis adrenaline Pert x Adre
tussen
n 24 k 4
totaal
Binnen
(df)
SS
MS SS/df
Bron van variatie
F ratio
Totaal 23 111057.9
4828.6
Tussen 3 104060.45
34686.8
Pertus 1 77407.04
77407.04 221
Adren 1 22143.4
22143.4 63.3 In teractie
1 4510.04 4510.04
12.9
Binnen 20 6977.5
349.9
variantie van groepsgemiddelden AC en BD x
12 (n/2) variantie van groepsgemiddelden AB en
CD x 12 (n/2)
29Voorbeeld 3
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met pertussis
bacteriën
n 24 k 4
Drie nulhypothesen (1) geen verschil in
glucose tussen geinfecteerde en
niet-geinfecteerde muizen (2) geen verschil in
glucose met of zonder toevoeging van
adrenaline (3) er is geen interactie tussen
beide types behandelingen
Getabelleerde F-waarde voor 1 en 20
vrijheidsgraden voor p 0.05 is 4.35
HO
Alle verworpen gt significante
verschillen tgv beide behandelingen
en interactie tussen
beide
30Niet- geinfecteerd Geinfecteerd met Pertussis
31Besluit - Met Pertussis geinfecteerde muizen
hebben een significant lager glucose gehalte dan
niet geïnfecteerde muizen. - Toediening van
adrenaline verhoogt significant de glucose
spiegel in het serum van alle muizen -
Toediening van adrenaline verhoogt de glucose
spiegel meer bij niet geïnfecteerde muizen dan
bij met Pertussis geïnfecteerde muizen.
32Voorbeeld 4
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met pertussis
bacteriën
n 24 k 4
3 blokken van 2 waarnemingen
Randomized blocks with nesting
Pertussis adrenaline Pert x Adre
tussen
totaal
Binnen
33Voorbeeld 4
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met pertussis
bacteriën
n 24 k 4
3 blokken van 2 waarnemingen
Randomized blocks with nesting
Pertussis adrenaline Pert x Adre
Blokken (2) Behandelingen (3) blok x behand (6)
Tussen (11)
totaal
Binnen (12)
34(No Transcript)
35Voorbeeld 5
Vergelijking van de glucose concentratie (mg/l)
in serum van muizen na 2 types van behandelingen
behandeling 1 toedienen van adrenaline op dag
14 behandeling 2 infectie met pertussis
bacteriën
n 24 k 4
Blocks without nesting (lower order effect)
Pertussis adrenaline Pert x Adre
Blokken (5) Behandelingen (3) blok x behand (15)
totaal
Tussen (23)
residuele
36(No Transcript)
37Vergelijkingen van gemiddelden
Stel H0 wordt verworpen bij ANOVA gt er zijn
significante verschillen
tussen
groepen
Tussen welke ????
Vergelijking tussen paren en groepen van
gemiddelden
Welke paren of groepen men vergelijkt hangt af
van wat men wil testen
Indien onafhankelijk van het resultaat op
voorhand is uitgemaakt welke groepen met elkaar
worden vergeleken spreken we van GEPLANDE of A
PRIORI vergelijkingen
Vb testen van controle tov gemiddelde van
verschillende experimentele behandelingen
Indien afhankelijk van het resultaat bepaalde
groepen met elkaar worden vergeleken spreken we
van ONGEPLANDE of A POSTERIORI vergelijkingen. De
ze testen omvatten de vergelijking van alle
mogelijke paren van vergelijkingen a groepen gt
(a (a-1)/2 combinaties)
38Voorbeeld 2
Tukey HSD test Probabilities for Post Hoc
Tests MAIN EFFECT 1
2 3 4 A
1 .000176 .000176 .000615 B
2 .000176 .000175 .027491 C
3 .000176 .000175 .000175 D
4 .000615 .027491 .000175
39Parametrisch of niet-parametrische testen
2 groepen
t - test F - test
Man Withney U test
gt 2 groepen
ANOVA
Kruskal Wallis test Friedmans test
one way two way
In een parametrische test wordt er bij de
nulhypothese uitgegaan van een bepaalde
distributie en moeten de parameters (gemiddelde
en variantie) van die distributie hetzelfde zijn
voor elke groep (staal of experiment).
Niet-parametrische testen die niet uitgaan van
deze voorwaarden, zijn minder krachtig doordat
ze niet alle aanwezige informatie gebruiken gt
RANKING In het geval van kleine stalen en geen
normale distributie van de data zijn ze echter
krachtiger dan parametrische testen.
40Mann Withney U test
Twee onafhankelijke willekeurige stalen komen van
dezelfde populatie met gelijke distributie en
mediaan. (geen assumpties over vorm van
distributie)
HO
Werkwijze (voor kleine groepen)
1. Gooi alle waarnemingen van beide groepen samen
en orden ze van laag naar hoog.
2. Vervang elke waarneming door zijn
rankingsnummer
3. In het geval van gelijke waarnemingen wordt
het gemiddelde berekend van de overeen-
stemmende rankingsgetallen en dit aan de
betreffende overlappende waarnemingen toegekend.
4. Beide groepen worden terug uit elkaar gehaald
en de rankingsnummers per groep gesommeerd.
5. Vervolgens wordt per groep de U- coëfficient
berekend.
6. De kleinste U coefficient wordt vergeleken met
getabelleerde waarde voor welbepaalde ns en p
waarden. Indien kleinste U waarde kleiner dan U
tabel bij een probaliteit groter dan 0.05 gt H0
is verworpen
41Voorbeeld 6
Twee ongelijke, onafhankelijke stalen van
Mysidaceeën met grootte broed in marsupium of
broedbuidel.
Staal 1 n1 5 data 2 4 5 7 12
Staal 2 n2 10 data 4 5 8 14 14 15 19 28 36
rank 1 2.5 4.5 6 8
rank 2.5 4.5 7 9.5 9.5 11.5 13 14 15
U1 7 U2 43 U waarde bij 5 en 5 en 10
vrijheidsgraden is gelijk aan 8 gt H0 verworpen
42Parametrisch of niet-parametrische testen
gt 2 groepen
ANOVA
Kruskal Wallis test
one way
Kruskall Wallis test
Voor meerdere groepen van ongelijke grootte
i aantal groepen Ri som van ranks in staal
i ni aantal waarnemingen in staal i
K is bij benadering verdeeld als een chi-kwadraat
distributie met i-1 df
gt H0 wordt verworpen indien K gt met i-1 df
en bij p 0.05
43Ook voor de niet-parametrische Kruskal Wallis
test wordt er geen uitsluitsel gegeven over welke
stalen-groepen significant van elkaar verschillen
gt methode om na te gaan welke paren significant
van elkaar verschillen.
De groepen i en j verschillen van elkaar indien
Ri som van ranks in staal I t twaarde
(distributie) voor N-k df en bepaalde
probaliliteit
Met R(Xij) het rankingsnummer van de waarneming
Xij gesommeerd over alle ranks
44Parametrisch of niet-parametrische testen
gt 2 groepen
ANOVA
Friedmans test
two way met randomized blocks
Friedmans test
- alleen voor n groepen met gelijk aantal
waarnemingen - elke groep kan ingedeeld worden in
aantal blokken(b) - bepalen van rangorde in elke
blok (in geval van 4 behandelingen (a) ranking
van 1 tot 4)
Voorbeeld 5
45Friedmans test
Voorbeeld 5
Deze waarde wordt vergeleken met de chi
kwadraat waarde voor a-1 of 3 vrijheidsgraden en
plt 0.05 7.815 gt Indien groter H0 wordt
verworpen Er is een significant verschil
Niet parametrische test kan alleen verschillen
tussen groepen aantonen de test zegt niets over
interacties tussen behandelingen.