SAS - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

SAS

Description:

SAS Zintegrowany system program w do: wprowadzania, zarz dzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji – PowerPoint PPT presentation

Number of Views:107
Avg rating:3.0/5.0
Slides: 50
Provided by: Maciej73
Category:
Tags: sas | proc | univariate

less

Transcript and Presenter's Notes

Title: SAS


1
SAS
  • Zintegrowany system programów do
  • wprowadzania, zarzadzania, manipulowania i
    prezentacji danych
  • analizy statystycznej i matematycznej
  • wspomagania dezycji
  • wspomagania projektów
  • ...i.t.d

2
Organizacja danych
1. Opis zmiennych
2. Dane
rasa
wagaP
wagaK
ID
IMIE
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7
3
Tworzenie zbioru danych
DATA psiklub INPUT idno imie rasa wagap
wagak utrata wagap wagak CARDS
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7

Psiklub to dane tymczasowe. Isnieja tylko w tej
sesji
4
Wczytywanie danych z pliku
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa wagap wagak utrata wagap
wagak RUN
5
Wczytujemy rekordy o róznej dlugosci
1023 Pirat spaniel 5 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 7 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 6 26 22.7
_at_trzymaj ten rekord dopóki zdecyduje jak go
przeczytac
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa _at_ SELECT (rasa)
WHEN ( spaniel ) INPUT wiek wagap wagak
OTHERWISE INPUT wagap wagak END RUN
6
Jezyk SASa
  • Deklaracje (statements)
  • Wyrazenia (expressions)
  • Funkcje
  • Opcje
  • Formaty

7
Reguly dla nazw bazy danych i zmiennych
  • 1-8 znaków
  • Pierwszy znak to litera albo podkreslnik _
  • Nie ma przerw

8
Kroki DATA i PROC
DATA ... . . . . . . PROC / DATA / RUN
PROC ... . . . . . . PROC / DATA / RUN
9
Wydruk danych
PROC PRINT DATApsiklub TITLE Pieski z
naszego klubu RUN
10
Poszerzanie danych
DATA psiklub_2 SET psiklub procent_utracone
utrata / wagap 100 RUN
11
Podstawowe statystyki MEANS
  • MEANS liczy
  • N
  • minimum
  • maximum
  • srednia
  • odch. std.

PROC MEANS DATApsiklub_2 RUN
PROC MEANS DATApsiklub_2 VAR wagap RUN
PROC MEANS DATApsiklub_2 VAR wagap wagak
CLASS rasa TITLE Wagi psów w poszczególnych
rasach RUN
12
Sortowanie danych
PROC SORT DATApsiklub_2 BY rasa RUN
PROC SORT DATApsiklub_2 BY rasa wagak RUN
13
Wiecej statystyk opisowych UNIVARIATE
PROC SORT DATApsiklub_2 BY rasa PROC
UNIVARIATE VAR utrata BY rasa ID imie
RUN
Imiona 5 psów o najwyzszej i najnizszej utracie
wagi
tabela czestosci i rózne wykresy
PROC UNIVARIATE FREQ
PROC UNIVARIATE PLOT
14
Korelacje CORR
PROC CORR datapsiklub PEARSON SPEARMAN VAR
wagap wagak TITLE Korelacja miedzy wagami
RUN
Korelacje Spearmana to korelacje miedzy
rankingami dla dwóch cech.
15
Ranking RANK
PROC RANK DATApsiklub DESCENDING VAR wagap
wagak RANKS rank1 rank2 RUN
rank1 rank2
1023 Pirat spaniel 24 22 2 2 3 1049 Aniel
jamnik 18 16 2 5 5 1219 Rabus spaniel 26
24.5 1.5 1 1 1246 Lotna jamnik 19
18.5 0.5 4 4 1078 Docent spaniel 26
22.7 3.5 3 2
16
Standaryzacja zmiennych STANDARD
DATA nowedane SET psiklub wagastd wagap
PROC STANDARD DATAnowedane
mean0 std1 OUT danestd VAR
wagastd RUN
17
Dane sklasyfikowane
  • Analiza pakietem SAS

18
Zmienne nieciagle o ograniczonej liczbie wartosci
  • Ulubiony kolor? Zielony, czerwony, zólty
  • Który maz? Pierwszy, drugi, trzeci (Mozna
    uporzadkowac)
  • Ocena
  • 0 9 pkt. niedostateczna
  • 10 19 mierna
  • 20 29 dostateczna

19
Dwie zmienne - tabele kontyngencji
  • Contingency to uwarunkowanie

Tabela 22
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
20
Swinie przydzielono losowo do dwóch grup po 75
osobników
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
Wartosci stale
Wartosci losowe
21
U stu losowo wybranych swin zbadano DNA i mieso
CC CT TT RAZEM
Mieso kwasne 12 31 13 56
Mieso dobre 15 14 15 44
RAZEM 27 45 28 100
Wartosci losowe
Wartosci losowe
22
Zbadano wszystkie swinie w chlewni (251)
CC CT TT RAZEM
Mieso kwasne 29 73 28 130
Mieso dobre 62 29 30 121
RAZEM 91 102 58 251
Wartosci stale
Wartosci stale
23
Interesujace pytania
  1. Jakie sa czestosci w poszczególnych podgrupach?
  2. Czy istnieje zaleznosc miedzy dwoma kryteriami
    podzialu na grupy?
  3. Jaka jest sila zaleznosci?

24
FREQ
  • PROC FREQ OPCJE
  • BY zmienna
  • TABLES zmiennazmienna / OPCJE
  • WEIGHT zmienna

25
(No Transcript)
26
Wczytanie liczebnosci
_at__at_ trzymaj wczytana linie dla nastepnej iteracji
  • DATA swinie
  • DO grupa 1 TO 2
  • DO stan 1 TO 2
  • INPUT liczba _at__at_
  • OUTPUT
  • END
  • END
  • CARDS
  • 10 65
  • 20 55

Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
27
  • PROC FREQ DATAswinie
  • WEIGHT liczba
  • TABLES grupa stan
  • RUN

28
Test niezaleznosci dwóch zmiennych
  • H0 Czy swinia jest zdrowa czy chora nie zalezy
    od szczepienia.
  • H1 Jest zaleznosc miedzy stanem zdrowia a
    szczepieniem
  • Test Chi-kwadrat dla niezaleznosci dwóch
    zmiennych (grupujacych)
  • St. swobody (W-1)(K-1)

29
PROC FREQ DATA swinie WEIGHT liczba
TABLES grupa stan / CHISQ RUN
30
Statystyki
Chi-kwadrat rozwaza róznice miedzy czestosciami
obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2
to moze byc test miedzy proporcjami. Hipoteza
alternatywna jest ta o ogólnej asocjacji.
Chi-kw. ilorazu wiarogodnosci interpretacja
podobna jak przy chi-kwadrat.
Poprawka uciagl chi-kwadrat jak chi-kwadrat ale
z pewna poprawka, przydatna gdy próba jest mala
31
Statystyki c.d.
Chi-kwadrat Mantela-Haenszela Hipoteza
alternatywna jest ta o liniowej asocjacji miedzy
zmiennymi. Zmienne musza byc na skali porzadkowej!
Test dokladny Fishera liczy P obserwowania
wyników, które daja co najmniej tyle dowodów na
asocjacje ile te rzeczywiscie obserwowane, pod
warunkiem, ze H0 jest prawda. Sumy wierszy i
kolumn sa traktowane jako stale. Hipoteza
alternatywna to ta o asocjacji ogólnej.
Poprawka uciagl chi-kwadrat jak chi-kwadrat,
ale z pewna poprawka przydatna gdy próba jest mala
32
Dokladny (exact) test Fishera
Kiedy liczba obserwacji na 1 st. swobody jest lt 5
Badania wsród 10 najlepszych studentów
Uczestnictwo w wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach
Uczestnictwo w wykladach Nieciekawe Przecietne Interesujace Fascynujace
Rzadko 0-5 2 1
Czasami 5-10 2 1 1
Czesto 10-15 1 2
Stopnie swobody 2 3 6 Liczba obserwacji 10
33
DATA studenci INPUT uczestnictwo opinia
CARDS rzadko nieciekawe rzadko
nieciekawe rzadko przecietne czasami
przecietne czasami przecietne czasami
interesujace czesto interesujace czesto
interesujace czesto fascynujace PROC FREQ
TABLES uczestnictwo opinia / EXACT RUN
Wczytywanie surowych danych!
34
(No Transcript)
35
Miary asocjacji
  • Wspólczynnik FI
  • Tablica 22 -1 Fi 1
  • Inne 0 Fi 1
  • Wspólczynnik wielodzielczosci P
  • 0 P 1
  • Wartosc V Cramera
  • Tablica 22 -1 V 1
  • Inne V Fi

36
Miary asocjacji miedzy zmiennymi uporzadkowanymi
  • Gamma
  • Tau-b Kendalla
  • Tau-c Stuarta
  • Korelacja Pearsona
  • Korelacja Spearmana
  • Inne

37
Uwarstwione tablice kontyngencji
  • Chlewnia grupa chore zdrowe
  • --------------------------------------------------
    --------
  • A szczepiona 10 65
  • kontrolna 20 55
  • --------------------------------------------------
    --------
  • B szczepiona 8 52
  • kontrolna 12 48
  • --------------------------------------------------
    --------
  • C szczepiona 23 77
  • kontrolna 38 62

38
  • H0 W zadnej chlewni nie ma zaleznosci miedzy
    szczepieniem i stanem zdrowotnym
  • H1 Jest pewna zaleznosc
  • Statystyki testowe Cochrana-Mantela-Haenszela

39
DATA swinie INPUT chlewnia grupa stan
liczba CARDS A szczepiona chore 10 A
szczepiona zdrowe 65 A kontrolna chore 20 A
kontrolna zdrowe 55 B szczepiona chore 8 B
szczepiona zdrowe 52 B kontrolna chore 12 B
kontrolna zdrowe 48 C szczepiona chore 23 C
szczepiona zdrowe 77 C kontrolna chore 38 C
kontrolna zdrowe 62 PROC FREQ TABLES
chlewnia grupa stan / CMH WEIGHT liczba
RUN
Kolejnosc!!! Badamy zaleznosc miedzy grupa i
stanem zdrowia biorac poprawke na chlewnie
40
(No Transcript)
41
Statystyka 1Statystyka korelacji
  • H1 W co najmniej jednej chlewni jest liniowa
    zaleznosc miedzy zmiennymi
  • Dotyczy zmiennych, które mozna uporzadkowac, np
  • kolejny poród a liczba prosiat w miocie

42
Statystyka 2Statystyka srednich w wierszach
(ANOVA)
  • H1 W co najmniej jednej warstwie srednie w
    wierszach róznia sie
  • Warunek druga (ostatnia) zmienna mozna
    uporzadkowac, np
  • stan zdrowotny a liczba prosiat w miocie

43
Statystyka 3Ogólna statystyka skojarzenia
  • H1 W co najmniej jednej chlewni jest jakas
    zaleznosc miedzy zmiennymi
  • Niezalezne od typu zmiennych
  • Wniosek W co najmniej jednej chlewni istnieje
    zaleznosc miedzy szczepieniami i stanem zdrowia.

44
Mozna kontrolowac wiecej zmiennych
  • PROC FREQ
  • TABLES sezon chlewnia grupa stan / CMH
  • WEIGHT liczba
  • RUN

45
Uwaga
  • Statystyki CMH rzadko wykrywaja zaleznosc jezeli
    jej kierunek jest rózny w poszczególnych
    populacjach (warstwach).

46
Zadanie 1
  • Testowano nowy lek dla owiec. Chore owce
    podzielono na dwie grupy po 20 sztuk grupe
    leczona i kontrolna.

Owce leczone Grupa kontrolna
wyleczone 15 7
chore 5 13
  1. Sformuluj hipoteze H0
  2. Zastosuj test chi-kwadrat
  3. Wyciagnij wnioski.

47
Zadanie 2
Wyniki badan nad powiazaniem srednich wyników na
studiach i efektywnoscia pracy nowych
pracowników. Przeanalizowano 90 pracowników
Efektywnosc Srednia ocen Srednia ocen Srednia ocen
gt4.0 gt3.5 ?3.0
gt przecietna 19 8 3
przecietna 9 12 15
lt przecietna 6 5 13
Czy sa dowody na takie powiazanie?
48
Zadanie 3
Wyniki badan nad powiazaniem mutacji w genie
leptyny swini i poziomem leptyny we krwi
CC wysoki CC sredni CT wysoki CT wysoki CC
niski CT wysoki CT wysoki CC niski CC niski CT
sredni CT sredni CT niski TT niski CC sredni TT
niski CC wysoki CC wysoki TT sredni
  1. Sformuluj hipoteze H0
  2. Wczytaj surowe dane!
  3. Ile jest stopni swobody?
  4. Przeprowadz test typu EXACT
  5. Zinterpretuj wynik

49
Zadanie dla chetnych
Testowano skutecznosc leku na pacjentach w 4
klinikach
Klinika Stan zdrowia Stan zdrowia Stan zdrowia
Pogorszenie Bez zmian Poprawa
1 Placebo Lek 10 12 15 14 17 10
2 Placebo Lek 6 4 20 15 22 10
3 Placebo Lek 7 5 25 22 12 12
4 Placebo Lek 2 1 14 12 20 15
Przeanalizuj skutecznosc leku, uwzgledniajac
fakt, ze leczenie przeprowadzano w czterech
róznych klinikach.
Write a Comment
User Comments (0)
About PowerShow.com