Title: SAS
1SAS
- Zintegrowany system programów do
- wprowadzania, zarzadzania, manipulowania i
prezentacji danych - analizy statystycznej i matematycznej
- wspomagania dezycji
- wspomagania projektów
- ...i.t.d
2Organizacja danych
1. Opis zmiennych
2. Dane
rasa
wagaP
wagaK
ID
IMIE
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7
3Tworzenie zbioru danych
DATA psiklub INPUT idno imie rasa wagap
wagak utrata wagap wagak CARDS
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7
Psiklub to dane tymczasowe. Isnieja tylko w tej
sesji
4Wczytywanie danych z pliku
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa wagap wagak utrata wagap
wagak RUN
5Wczytujemy rekordy o róznej dlugosci
1023 Pirat spaniel 5 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 7 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 6 26 22.7
_at_trzymaj ten rekord dopóki zdecyduje jak go
przeczytac
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa _at_ SELECT (rasa)
WHEN ( spaniel ) INPUT wiek wagap wagak
OTHERWISE INPUT wagap wagak END RUN
6Jezyk SASa
- Deklaracje (statements)
- Wyrazenia (expressions)
- Funkcje
- Opcje
- Formaty
7Reguly dla nazw bazy danych i zmiennych
- 1-8 znaków
- Pierwszy znak to litera albo podkreslnik _
- Nie ma przerw
8Kroki DATA i PROC
DATA ... . . . . . . PROC / DATA / RUN
PROC ... . . . . . . PROC / DATA / RUN
9Wydruk danych
PROC PRINT DATApsiklub TITLE Pieski z
naszego klubu RUN
10Poszerzanie danych
DATA psiklub_2 SET psiklub procent_utracone
utrata / wagap 100 RUN
11Podstawowe statystyki MEANS
- MEANS liczy
- N
- minimum
- maximum
- srednia
- odch. std.
PROC MEANS DATApsiklub_2 RUN
PROC MEANS DATApsiklub_2 VAR wagap RUN
PROC MEANS DATApsiklub_2 VAR wagap wagak
CLASS rasa TITLE Wagi psów w poszczególnych
rasach RUN
12Sortowanie danych
PROC SORT DATApsiklub_2 BY rasa RUN
PROC SORT DATApsiklub_2 BY rasa wagak RUN
13Wiecej statystyk opisowych UNIVARIATE
PROC SORT DATApsiklub_2 BY rasa PROC
UNIVARIATE VAR utrata BY rasa ID imie
RUN
Imiona 5 psów o najwyzszej i najnizszej utracie
wagi
tabela czestosci i rózne wykresy
PROC UNIVARIATE FREQ
PROC UNIVARIATE PLOT
14Korelacje CORR
PROC CORR datapsiklub PEARSON SPEARMAN VAR
wagap wagak TITLE Korelacja miedzy wagami
RUN
Korelacje Spearmana to korelacje miedzy
rankingami dla dwóch cech.
15Ranking RANK
PROC RANK DATApsiklub DESCENDING VAR wagap
wagak RANKS rank1 rank2 RUN
rank1 rank2
1023 Pirat spaniel 24 22 2 2 3 1049 Aniel
jamnik 18 16 2 5 5 1219 Rabus spaniel 26
24.5 1.5 1 1 1246 Lotna jamnik 19
18.5 0.5 4 4 1078 Docent spaniel 26
22.7 3.5 3 2
16Standaryzacja zmiennych STANDARD
DATA nowedane SET psiklub wagastd wagap
PROC STANDARD DATAnowedane
mean0 std1 OUT danestd VAR
wagastd RUN
17Dane sklasyfikowane
18Zmienne nieciagle o ograniczonej liczbie wartosci
- Ulubiony kolor? Zielony, czerwony, zólty
- Który maz? Pierwszy, drugi, trzeci (Mozna
uporzadkowac) - Ocena
- 0 9 pkt. niedostateczna
- 10 19 mierna
- 20 29 dostateczna
19Dwie zmienne - tabele kontyngencji
- Contingency to uwarunkowanie
Tabela 22
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
20Swinie przydzielono losowo do dwóch grup po 75
osobników
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
Wartosci stale
Wartosci losowe
21U stu losowo wybranych swin zbadano DNA i mieso
CC CT TT RAZEM
Mieso kwasne 12 31 13 56
Mieso dobre 15 14 15 44
RAZEM 27 45 28 100
Wartosci losowe
Wartosci losowe
22Zbadano wszystkie swinie w chlewni (251)
CC CT TT RAZEM
Mieso kwasne 29 73 28 130
Mieso dobre 62 29 30 121
RAZEM 91 102 58 251
Wartosci stale
Wartosci stale
23Interesujace pytania
- Jakie sa czestosci w poszczególnych podgrupach?
- Czy istnieje zaleznosc miedzy dwoma kryteriami
podzialu na grupy? - Jaka jest sila zaleznosci?
24FREQ
- PROC FREQ OPCJE
- BY zmienna
- TABLES zmiennazmienna / OPCJE
- WEIGHT zmienna
25(No Transcript)
26Wczytanie liczebnosci
_at__at_ trzymaj wczytana linie dla nastepnej iteracji
- DATA swinie
- DO grupa 1 TO 2
- DO stan 1 TO 2
- INPUT liczba _at__at_
- OUTPUT
- END
- END
- CARDS
- 10 65
- 20 55
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
27- PROC FREQ DATAswinie
- WEIGHT liczba
- TABLES grupa stan
- RUN
28Test niezaleznosci dwóch zmiennych
- H0 Czy swinia jest zdrowa czy chora nie zalezy
od szczepienia. - H1 Jest zaleznosc miedzy stanem zdrowia a
szczepieniem - Test Chi-kwadrat dla niezaleznosci dwóch
zmiennych (grupujacych) - St. swobody (W-1)(K-1)
29PROC FREQ DATA swinie WEIGHT liczba
TABLES grupa stan / CHISQ RUN
30Statystyki
Chi-kwadrat rozwaza róznice miedzy czestosciami
obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2
to moze byc test miedzy proporcjami. Hipoteza
alternatywna jest ta o ogólnej asocjacji.
Chi-kw. ilorazu wiarogodnosci interpretacja
podobna jak przy chi-kwadrat.
Poprawka uciagl chi-kwadrat jak chi-kwadrat ale
z pewna poprawka, przydatna gdy próba jest mala
31Statystyki c.d.
Chi-kwadrat Mantela-Haenszela Hipoteza
alternatywna jest ta o liniowej asocjacji miedzy
zmiennymi. Zmienne musza byc na skali porzadkowej!
Test dokladny Fishera liczy P obserwowania
wyników, które daja co najmniej tyle dowodów na
asocjacje ile te rzeczywiscie obserwowane, pod
warunkiem, ze H0 jest prawda. Sumy wierszy i
kolumn sa traktowane jako stale. Hipoteza
alternatywna to ta o asocjacji ogólnej.
Poprawka uciagl chi-kwadrat jak chi-kwadrat,
ale z pewna poprawka przydatna gdy próba jest mala
32Dokladny (exact) test Fishera
Kiedy liczba obserwacji na 1 st. swobody jest lt 5
Badania wsród 10 najlepszych studentów
Uczestnictwo w wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach
Uczestnictwo w wykladach Nieciekawe Przecietne Interesujace Fascynujace
Rzadko 0-5 2 1
Czasami 5-10 2 1 1
Czesto 10-15 1 2
Stopnie swobody 2 3 6 Liczba obserwacji 10
33DATA studenci INPUT uczestnictwo opinia
CARDS rzadko nieciekawe rzadko
nieciekawe rzadko przecietne czasami
przecietne czasami przecietne czasami
interesujace czesto interesujace czesto
interesujace czesto fascynujace PROC FREQ
TABLES uczestnictwo opinia / EXACT RUN
Wczytywanie surowych danych!
34(No Transcript)
35Miary asocjacji
- Wspólczynnik FI
- Tablica 22 -1 Fi 1
- Inne 0 Fi 1
- Wspólczynnik wielodzielczosci P
- 0 P 1
- Wartosc V Cramera
- Tablica 22 -1 V 1
- Inne V Fi
36Miary asocjacji miedzy zmiennymi uporzadkowanymi
- Gamma
- Tau-b Kendalla
- Tau-c Stuarta
- Korelacja Pearsona
- Korelacja Spearmana
- Inne
37Uwarstwione tablice kontyngencji
- Chlewnia grupa chore zdrowe
- --------------------------------------------------
-------- - A szczepiona 10 65
- kontrolna 20 55
- --------------------------------------------------
-------- - B szczepiona 8 52
- kontrolna 12 48
- --------------------------------------------------
-------- - C szczepiona 23 77
- kontrolna 38 62
38- H0 W zadnej chlewni nie ma zaleznosci miedzy
szczepieniem i stanem zdrowotnym - H1 Jest pewna zaleznosc
- Statystyki testowe Cochrana-Mantela-Haenszela
39DATA swinie INPUT chlewnia grupa stan
liczba CARDS A szczepiona chore 10 A
szczepiona zdrowe 65 A kontrolna chore 20 A
kontrolna zdrowe 55 B szczepiona chore 8 B
szczepiona zdrowe 52 B kontrolna chore 12 B
kontrolna zdrowe 48 C szczepiona chore 23 C
szczepiona zdrowe 77 C kontrolna chore 38 C
kontrolna zdrowe 62 PROC FREQ TABLES
chlewnia grupa stan / CMH WEIGHT liczba
RUN
Kolejnosc!!! Badamy zaleznosc miedzy grupa i
stanem zdrowia biorac poprawke na chlewnie
40(No Transcript)
41Statystyka 1Statystyka korelacji
- H1 W co najmniej jednej chlewni jest liniowa
zaleznosc miedzy zmiennymi - Dotyczy zmiennych, które mozna uporzadkowac, np
- kolejny poród a liczba prosiat w miocie
42Statystyka 2Statystyka srednich w wierszach
(ANOVA)
- H1 W co najmniej jednej warstwie srednie w
wierszach róznia sie - Warunek druga (ostatnia) zmienna mozna
uporzadkowac, np - stan zdrowotny a liczba prosiat w miocie
43Statystyka 3Ogólna statystyka skojarzenia
- H1 W co najmniej jednej chlewni jest jakas
zaleznosc miedzy zmiennymi - Niezalezne od typu zmiennych
- Wniosek W co najmniej jednej chlewni istnieje
zaleznosc miedzy szczepieniami i stanem zdrowia.
44Mozna kontrolowac wiecej zmiennych
- PROC FREQ
- TABLES sezon chlewnia grupa stan / CMH
- WEIGHT liczba
- RUN
45Uwaga
- Statystyki CMH rzadko wykrywaja zaleznosc jezeli
jej kierunek jest rózny w poszczególnych
populacjach (warstwach).
46Zadanie 1
- Testowano nowy lek dla owiec. Chore owce
podzielono na dwie grupy po 20 sztuk grupe
leczona i kontrolna.
Owce leczone Grupa kontrolna
wyleczone 15 7
chore 5 13
- Sformuluj hipoteze H0
- Zastosuj test chi-kwadrat
- Wyciagnij wnioski.
47Zadanie 2
Wyniki badan nad powiazaniem srednich wyników na
studiach i efektywnoscia pracy nowych
pracowników. Przeanalizowano 90 pracowników
Efektywnosc Srednia ocen Srednia ocen Srednia ocen
gt4.0 gt3.5 ?3.0
gt przecietna 19 8 3
przecietna 9 12 15
lt przecietna 6 5 13
Czy sa dowody na takie powiazanie?
48Zadanie 3
Wyniki badan nad powiazaniem mutacji w genie
leptyny swini i poziomem leptyny we krwi
CC wysoki CC sredni CT wysoki CT wysoki CC
niski CT wysoki CT wysoki CC niski CC niski CT
sredni CT sredni CT niski TT niski CC sredni TT
niski CC wysoki CC wysoki TT sredni
- Sformuluj hipoteze H0
- Wczytaj surowe dane!
- Ile jest stopni swobody?
- Przeprowadz test typu EXACT
- Zinterpretuj wynik
49Zadanie dla chetnych
Testowano skutecznosc leku na pacjentach w 4
klinikach
Klinika Stan zdrowia Stan zdrowia Stan zdrowia
Pogorszenie Bez zmian Poprawa
1 Placebo Lek 10 12 15 14 17 10
2 Placebo Lek 6 4 20 15 22 10
3 Placebo Lek 7 5 25 22 12 12
4 Placebo Lek 2 1 14 12 20 15
Przeanalizuj skutecznosc leku, uwzgledniajac
fakt, ze leczenie przeprowadzano w czterech
róznych klinikach.