Title: Randomizacn
1Randomizacní a Monte Carlo metody
2Aneb
Kterak delat statistiku bez znalostí statistiky
3Ono to jde?
4Jo!!!
5Ignác II Spravedlivý
6(No Transcript)
7(No Transcript)
8(No Transcript)
9Tri možné prístupy
- Klasické statistické testy
- Exaktní testy
- Randomizacní a Monte Carlo testy
10Princip metody
Vyzkoušet, jak by vypadala data v prípade
platnosti nulové hypotézy.
11Jak na to?
- Formulovat hypotézu (model), kterou chceme
testovat. - Vymyslet, cím (v kterém parametru testová
statistika) by se experimentální data získaná v
prípade platnosti tohoto modelu lišila od
obdobných dat náhodne vygenerovaných. - Vypocítat príslušnou hodnotu parametru (testové
statistiky) pro experimentální data.
12Pokracování
- Vygenerovat nekolikrát (mnohokrát) soubory
náhodných dat a pro každý takový soubor vypocítat
príslušnou hodnotu parametru. - Seradit získané hodnoty parametru podle
velikosti a zjistit, kolikátá v poradí je hodnota
získaná z experimentálních dat. - Rozhodnout, zda umístení experimentální hodnoty
na n-tém míste muže být dílem náhody.
13Príklad 1
Liší se prumerná inteligence žen
nakažených parazitem Toxoplasma gondii a žen
nenakažených?
14Inteligence mladých žen merená pomocí Cattellova
dotazníku
15Experimentální data
16Hypotéza
Ženy nakažené T. gondii jsou v prumeru
inteligentnejší než ženy nenakažené. Z toho
vyplývá, že rozdíl v prumerné inteligenci souboru
nakažených a souboru nenakažených žen (delta IQ)
je vetší, než kdybychom do dvou stejne velkých
souboru rozdelili ženy bez ohledu na jejich
nakaženost prvokem T. gondii.
17Náhodná data
18Výsledky permutacního testu
Z celkového poctu 4999 vygenerovaných souboru dat
vykazovalo ve srovnání s experimentálním
souborem delta IQ 64 (1,22) vetší 0
(0) stejné 4935 (98,7) menší
19Záver
Existuje zhruba 1,22 pravdepodobnost, že
nakažené ženy nejsou inteligentnejší než
nenakažené, a že pozorovaný rozdíl v našem
experimentálním souboru je pouze dílem
náhody. Nulovou hypotézu tedy zamítáme na hladine
pravdepodobnosti p0,0122.
20Príklad 2
Existuje u žen korelace mezi vzrustem
Affectothymie a délkou nákazy parazitem T.
gondii?
21Hodnoty affectothymie a hladina specifických
protilátek u nakažených žen
22Korelace mezi titrem protilátek a mírou
affectothymie
23Hodnoty affectothymie a hladina specifických
protilátek u nakažených žen
24Výsledky permutacního testu
Z celkového poctu 19 999 vygenerovaných souboru
dat vykazovalo ve srovnání s experimentálním
souborem S(xi yi) 337 (1,69)
menší 3 (0,015) stejnou 19 660
(98,3) vetší
25Záver
Existuje zhruba 1,7 pravdepodobnost, že mezi
affectothymií a hladinou specifických protilátek
není u žen nakažených T. gondii negativní
korelace, a že tedy závislost pozorovaná v našem
experimentálním souboru je pouze dílem
náhody. Nulovou hypotézu tedy zamítáme na hladine
pravdepodobnosti p0,017.
26Príklad 3
Vykazují príbuzné kmeny parazitického prvoka
Trichomonas vaginalis podobnou míru virulence?
27Fylogenetický strom kmenu trichomonád
Císla v závorkách ukazují stupen virulence
28Hypotéza
Míra virulence je podobná u príbuzných kmenu. To
znamená, že suma rozdílu virulencí sousedících
kmenu (skupin kmenu) ?(vira - virb) pro všechny
uzly fylogenetického stromu trichomonád bude
menší, než obdobná suma rozdílu pro stejný strom
s náhodne proházenými hodnotami virulence.
29Proházené hodnoty virulence
30Výsledky permutacního testu
Z celkového poctu 4 999 vygenerovaných souboru
dat vykazovalo ve srovnání s experimentálním
souborem ?(vira - virb) 101 (2,02)
menší 1 (0,02) stejnou 4 898
(98,0) vetší
31Záver
Existuje zhruba 2 pravdepodobnost, že mezi
vzájemnou príbuzností a podobností co do
virulence (patogenních projevu) není žádný vztah,
a že tedy závislost pozorovaná v našem
experimentálním souboru je pouze dílem
náhody. Nulovou hypotézu tedy zamítáme na hladine
pravdepodobnosti p0,02.
32Další duležité aplikace randomizacních a Monte
Carlo testu
- Podobnost dvou matic - Manteluv test (koreluje
druhové složeni jezer s jejich vzdáleností?) - prostorové a casové vztahy mezi jedinci ci mezi
událostmi - testy s vyloucením urcitého procenta odlehlých
hodnot (truncated)
33Prostorové vztahy
34Další duležité aplikace randomizacních a Monte
Carlo testu
- Podobnost dvou matic (Manteluv test)
- prostorové a casové vztahy mezi jedinci ci mezi
událostmi - testy s vyloucením urcitého procenta odlehlých
hodnot (truncated)
35Testy s vyloucením urcitého procenta odlehlých
hodnot
- Toxoplasma-nakažené ženy byly lehcí než
nenakažené - S dobou od nákazy hmotnost ženy klesala
nenakažené
nakažené
36Typy metod
- Monte Carlo
- Permutacní testy
- jackknifing x bootstrapping
37Výhody randomizacních a Monte Carlo testu
- Jsou bližší uvažování nematematiku.
- Nevyžadují znalost statistiky.
- Vetšinou mají menší požadavky na charakter dat
(normalita atd.) než klasické metody (vcetne
metod neparametrických). - Síla techto testu (pravdepodobnost oprávneného
zamítnutí nulové hypotézy) bývá zpravidla vetší,
než u neparametrických testu. - Jsou flexibilnejší, lze je ušít na míru
konkrétního problému.
38Nevýhody randomicacních a Monte Carlo testu
- Vetšinou vyžadují myšlení, nekdy i kreativitu.
- Vetšinou vyžadují rychlý (radeji velmi rychlý)
pocítac. - Casto nejsou k dispozici vhodné programy, nekdy
nutno i programovat.
39Programy pro randomizacní a Monte Carlo metody
- SPSS Exact Tests
- StatXact, LogXact
- NPSTAT (freeware)
- RT, Resampling
- Treept
- Mathematica, Maple
40Literatura
- Manly, Randomization, bootstrap and Monte Carlo
methods in biology Chapman Hall 1997 - Good, Resampling methods, A practical guide to
data analysis Birkhäuser 1999 - Manuály k jednotlivým programum
41A s chutí do toho!!!
Nebojte se pavouku a statistiky. At se bojí oni
Vás!