Wyklad 11 Analiza wariancji (ANOVA) - PowerPoint PPT Presentation

1 / 47
About This Presentation
Title:

Wyklad 11 Analiza wariancji (ANOVA)

Description:

Title: Rozk ad pr bkowy dla redniej z rozk adu normalnego Author: gosia Last modified by: gosia Created Date: 10/21/2004 7:51:09 AM Document presentation format – PowerPoint PPT presentation

Number of Views:175
Avg rating:3.0/5.0
Slides: 48
Provided by: gos108
Category:

less

Transcript and Presenter's Notes

Title: Wyklad 11 Analiza wariancji (ANOVA)


1
Wyklad 11Analiza wariancji (ANOVA)
  • Sposób analizy danych gdy mamy wiecej niz dwa
    zabiegi lub populacje.
  • Omówimy ANOV-e w najprostszej postaci.
  • Te same podstawowe zalozenia/ograniczenia co przy
    tescie Studenta
  • W kazdej populacji badana cecha ma rozklad
    normalny
  • Obserwacje sa niezalezne i losowe
  • Bedziemy testowali hipotezy o srednich w
    populacjach
  • ?i
  • Zalozenie standardowe odchylenia badanej cechy
    w kazdej populacji sa sobie równe (podobne) wiec
    mozemy uzyc usrednionego SE

2
  • Uwaga ANOVA moze byc stosowana takze gdy próby
    nie sa niezalezne
  • Np. W ukladzie zrandomizowanym blokowym
  • (zasada podobna do testu Studenta dla powiazanych
    par)
  • Nie bedziemy tego omawiac. Omówimy tylko uklady
    zupelne zrandomizowane.
  • Cel
  • Testujemy hipotezy postaci
  • H0 ?1 ?2 ?3 ?k
  • HA nie wszystkie srednie sa równe

3
Dlaczego nie stosujemy wielu testów Studenta?
  • Wielokrotne porównania
  • P-stwo bledu pierwszego rodzaju (p - stwo
    odrzucenia prawdziwej hipotezy) jest trudne do
    kontrolowania)

4
Korekta Bonferoniego
  • Prosta ale na ogól konserwatywna (p-stwo bledu
    pierwszego rodzaju mniejsze niz zalozone strata
    mocy).

5
  • Estymacja bledu standardowego
  • ANOVA wykorzystuje informacje zawarta we
    wszystkich obserwacjach zwykle daje wieksza
    precyzje

6
Notacja k 3 zabiegi (próby, grupy)
Zabieg 1 Zabieg 2 Zabieg 3
1 48 40 39
2 39 48 30
3 42 44 32
4 43 35
srednia 43 44 34
SS 42 32 46
7
  • Trzy rodzaje rachunków
  • Wewnatrz grup, pomiedzy grupami, calkowite.
  • Liczymy trzy wartosci SS, df, MS

SS df MS
Between
Within
Total
8
Notacja
k grup (prób, zabiegów) k
n1, n2, n3, , nk rozmiary grup ( obserwacji) n1 , n2 , n3
?y1 , ?y2, ?yk srednie w grupach ?y1 ,?y2 , ?y3
calkowita srednia
n calkowita liczba obserwacji n
9
  • Dwa podstawowe typy rachunków
  • (gdzie konieczne, bedziemy uzywali i do
    indeksowania grup a j do indeksowania obserwacji
    w kazdej grupie yij )
  • Wewnatrz kazdej grupy
  • oznacza sume wewnatrz grupy

10
  • Uwzgledniajace wszystkie grupy
  • oznacza sume we wszystkich grupach
  • np. n
  • i

11
  • UWAGA Gdy rozmiary prób nie sa równe
  • nie jest srednia z k srednich!!!
  • Ale mozna ja obliczyc jako
  • (n1?y1 n2?y2 n3?y3) / n

12
Wewnatrz grup (wypelniamy drugi rzad w tabeli)
  • Suma kwadratów wewnatrz grup (SSW)
  • Liczymy SS wewnatrz kazdej grupy
  • (itd. - SS2,
    SS3 , )
  • SS1
  • SS2 32, SS3 46

13
  • SSW SS1SS2SSk
  • SSW
  • Stopnie swobody wewnatrz grup
  • dfw n - k dfw
  • Srednia suma kwadratów wewnatrz grup
  • MSW SSW / dfw MSW
  • To samo co usredniona wariancja
  • Dla przypomnienia dla
    dwóch prób

14
  • Usrednione standardowe odchylenie
  • sc
  • Pomiedzy grupami (wypelniamy pierwszy rzad
    tabeli)
  • Porównujemy srednie grupowe do sredniej
    calkowitej
  • Wazone przez rozmiar grupy
  • Suma kwadratów pomiedzy grupami (SSB)
  • SSB
  • SSB

15
  • Stopnie swobody pomiedzy grupami (dfb)
  • dfb k 1 dfb
  • Srednia suma kwadratów pomiedzy grupami (MSB)
  • MSB SSB/dfb MSB
  • Calkowite
  • Calkowita suma kwadratów (SST)
  • SST
    SST8212228252348

16
  • Uwaga SST SSWSSB 348 120 228
  • Zwykle nie trzeba liczyc SST z definicji
  • Calkowita liczba stopni swobody (dft)
  • dft n 1 dft
  • Uwaga dft dfbdfw 10 2 8

17
Tablica ANOV-y
SS df MS
Between
Within
Total
18
Ta tabela bedzie dostepna na kolokwium i
egzaminie
SS df MS
Pomiedzy SSB dfb k 1 SSB/dfb
Wewnatrz SSW dfw n k SSW/dfw
Calkowite SST dft n 1

19
Test F
  • Dane dla k ? 2 populacji lub zabiegów sa
    niezalezne
  • Dane w kazdej populacji maja rozklad normalny ze
    srednia ?i dla populacji i, i tym samym
    odchyleniem standardowym ?

20
  • Testujemy H0 ?1 ?2 ?3 ?k (wszystkie
    srednie sa sobie równe)
  • vs.
  • HA nie wszystkie srednie sa sobie równe
  • (HA jest niekierunkowa ale obszar odrzucen bedzie
    jednostronny)
  • Kroki
  • Obliczenie tabeli ANOV-y
  • Testowanie

21
Jak opisac F test
  • Zdefinowac wszystkie ?
  • H0 podac za pomoca wzoru i slownie
  • HA tylko slownie
  • Statystyka testowa Fs MSB/MSW
  • przy H0, Fs ma rozklad Snedecora z dfb, dfw
    stopniami swobody
  • Na kolejnych slajdach podane sa wartosci
    krytyczne z ksiazki D.S. Moore i G. P. McCabe
    Introduction to the Practice of Statistics
  • "numerator df" dfb i
  • "denominator df" dfw.

22
(No Transcript)
23
(No Transcript)
24
(No Transcript)
25
(No Transcript)
26
  • Odrzucamy H0 gdy zaobserwowane Fs gt Fkrytyczne
  • Przykladowy wniosek - Na poziomie istotnosci a
    (nie) mamy przeslanki aby twierdzic, ze grupy
    róznia sie poziomem badanej cechy.

27
  • Przyklad Losowa próbe 15 zdrowych mezczyzn
    podzielono losowo na 3 grupy skladajace sie z 5
    mezczyzn. Przez tydzien otrzymywali oni lekarstwo
    Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym
    czasie zmierzono im poziom serotoniny.
  • Czy Paxil wplywa na poziom serotoniny u zdrowych,
    mlodych mezczyzn ?
  • Niech ?1 bedzie srednim poziomem serotoniny u
    mezczyzn przyjmujacych 0 mg Paxilu.
  • Niech ?2 bedzie srednim poziomem serotoniny u
    mezczyzn przyjmujacych 20 mg Paxilu.
  • Niech ?3 bedzie srednim poziomem serotoniny u
    mezczyzn przyjmujacych 40 mg Paxilu.

28
  • H0 ?1 ?2 ?3 sredni poziom serotoniny nie
    zalezy od dawki Paxilu
  • HA sredni poziom serotoniny nie jest ten sam we
    wszystkich grupach (albo sredni poziom serotoniny
    zalezy od dawki Paxilu).
  • Zastosujemy F-Test

29
(No Transcript)
30
  • Fs MSB / MSW przy H0 ma rozklad
  • Testujemy na poziomie istotnosci ? 0.05.
    Wartosc krytyczna F.05 .
  • Obserwujemy Fs
  • Wniosek

31
Na jakiej zasadzie to dziala ?
  • Dla przypomnienia
  • Test Studenta patrzy na róznice miedzy srednimi
    (?y1-?y2)
  • Dzieli ja przez miare rozrzutu tej róznicy
    (SE?y1-?y2 )
  • Jezeli (?y1-?y2) jest duze w porównaniu do do SE
    to statystyka testu Studenta jest duza i
    odrzucamy H0.

32
  • Dla testu F,
  • Liczymy usredniony kwadrat róznicy miedzy
    srednimi (MSB)
  • Dzielimy go przez oszacowanie zróznicowania w
    próbie (MSW)
  • Jezeli MSB jest duze w porównaniu do MSW wówczas
    statystyka testu F jest duza i odrzucamy H0.
  • Test F jest analogiczny do testu Studenta ale
    umozliwia jednoczesne porównanie kilku srednich.

33
  • Could actually do an F-test with only 2 samples
  • Statystyka testu F dla dwóch prób jest równa
    kwadratowi statystyki testu Studenta
  • Decyzje i p-wartosci sa dokladnie takie same dla
    obu testów.

34
Porównania pomiedzy poszczególnymi grupami
  • Test Studenta i korekta Bonferoniego ?
  • Poszczególne testy w ANOV-ie nie sa niezalezne.
  • Korekta Bonferoniego jest na ogól zbyt
    konserwatywne i daje mala moc.
  • Mozemy wykorzystac procedure Newmana Keulsa.

35
Newman-Keuls Procedure
  • Sample sizes for each treatment group should be
    same
  • Procedure
  • Construct an array of means in increasing order
  • Find qi from table 11 (dfdfw) and compute
  • Ri qi sqrt(MSW/n) (Ri is the critical value),
    nnumber of observation in each treatment group

36
  • The pairwise comparison
  • Compare the difference between the largest and
    smallest of the k sample means with the critical
    value Rk. If the difference is smaller than Rk
    the corresponding null hypothesis is not rejected
    and the line is drawn under the entire array of
    means, if the difference is larger than Rk than
    proceed to the next step.

37
  • Ignore the smallest mean and repeat the procedure
    for remaining subarray of (k-1) means. Ignore the
    largest mean and repeat the the procedure for
    other (k-1) means. (Use a separate line each
    time).
  • Continue by looking at all subarrays of (k-2)
    means etc. Dont test within any subarray that
    has already been underlined.
  • When the procedure is complete, those pairs of
    means which are not connected by an underline
    correspond to null hypotheses that have been
    rejected.

38
Example
  • Blood chemistry in rats

Diet A B C D E
mean 40.0 40.7 32.9 29.6 48.8
Source Df SS MS
Between 4 894.80 223.70
Within 15 319.35 21.79
Total 19 1214.15
39
  • Ordered array
  • diet D C A B E
  • mean 29.6 32.9 40.0 40.7 48.8
  • Scale factor sqrt(MSW/n) sqrt(21.29/4)
    2.307
  • qi 3.01 3.67 4.08 4.37
  • Ri 6.9 8.5 9.4 10.1
  • Largest smallest Mean(E) Mean(D) 19.2 gt R5
    10.1
  • Reject null H0 ?D ?E

40
Value of i Comparison Conclusion
5 48.829.619.2gt10.1 Reject
4 48.8-32.915.9gt9.4 Reject
4 40.7-29.611.1gt9.4 Reject
3 48.8-408.8gt8.5 Reject
3 40.7-32.97.8lt8.5 Do not reject Line from C to B
3 40-29.610.4gt8.5 Reject
2 48.8-40.78.1gt6.9 Reject
2 32.9-29.63.3lt6.9 Do not reject Line from D to C
41
Two-way ANOVA
  • One way ANOVA model
  • yij ??i ?ij , ?ij independent N(0,?2)
  • µ- grand population mean
  • µi population mean for group i
  • ?i µi µ
  • H0 ?1 ?2 ?3 ?k is equivalent to
  • H0 ?1 ?2 ?3 ?k0

42
Two-way ANOVA model
  • Randomized block design
  • Treatment effect, Block effect
  • Model
  • Yijk ? ?i ?j ?ijk
  • Hypothesis
  • H0 ?1 ?2 ?3 ?k0 (no treatment
    effect)
  • H1 Not H0 (some of ?s are different from zero)

43
Decomposition of SS
  • Sum of squares between blocks
  • SS(total) SS(within)SS(between)SS(block)
  • df(total) df(within)df(between)df(block)
  • Df(block)b-1 number of blocks -1

44
ANOVA table
Source df SS MS F-ratio
Between k-1 SSBt MSBtSSBt/(k-1)
Block b-1 SSBl MSBl SSBl/(b-1)
Within n-k-b1 SSW MSWSSW/(n-k-b1) FMSBt/MSW
Total n-1 SST
45
Example (plant height)
Low Acid High Acid Control Block Mean
Block1 1.58 1.10 2.47 1.717
Block2 1.15 1.05 2.15 1.450
Block3 1.27 0.50 1.46 1.077
Block4 1.25 1.00 2.36 1.537
Block5 1.00 1.50 1.00 1.167
n 5 5 5
Trt mean 1.25 1.03 1.888
46
Build ANOVA table
  • Grand mean 1.389
  • SSBt (SS treatment)
  • 5(1.25-1.389)2 5(1.888-1.389)2 1.986
  • MSBt 1.986/(3-1).993
  • SSBl (SS block)
  • 3(1.717-1.389)2 3(1.167-1.389)20.840
  • MSBl 0.840/(5-1).210

47
  • SSW SST SSBt SSBl 1.452
  • df(SSW) 14-2-4 8, MSW 1.452/80.182
  • Fs MSBt / MSW .993/.182 5.47
  • df for numerator2, df for denominator8
  • 0.02 lt P-value lt 0.05
  • Reject H0 at the significance level a0.05.
  • At the significance level a0.05 there is
    enough evidence to say that the acid content has
    an influence on the growth of alfalfa plants.
Write a Comment
User Comments (0)
About PowerShow.com