Title: Statistica analitica
1Statistica analitica
2Probabilitati
- Probabilitatea unui eveniment specificat este
fractiunea sau proportia din toate evenimentele
posibile ale evenimentului specificat intr-o
succesiune aproape nelimitata a probelor in
conditii similare. - Probabilitatea unui eveniment nu poate fi mai
mare de 1 (100) sau mai mica decat 0 (0).
3Aplicatii
- Valorile probabile intr-o populatie sunt
distribuite intr-o maniera definita care poate fi
folosita pentru a analiza populatia. - Valorile probabile care nu urmeaza o distributie
pot fi analizate folosind metode neparametrice.
4Tipuri
- Cele mai uzuale distributii de probabilitate
sunt - a. distributia binomiala
- b. distributia normala
- c. distributia t
- d. distributia ?2 (Chi)
5Calcul
- Probabilitatea unui eveniment este determinata de
formula - Pr (A) n/N
- Pr (A) probabilitatea evenimentului A
- n nr. de cate ori evenimentul A s-a produs
- N nr. de cate ori evenimentul A este posibil sa
se produca (nr. total de evenimente posibile)
6Reguli de calcul a probabilitatilor
- Regula aditiva daca avem cel putin doua
evenimente mutual exclusive sau disjuncte
(realizarea unuia inseamna automat nerealizarea
celuilalt) atunci probabilitatea lui A sau B se
calculeaza prin insumarea probabilitatilor
fiecarui eveniment. - Calcul Pr(A sau B)Pr(A)Pr (B)
7Reguli de calcul a probabilitatilor
- Regula multiplicativa se aplica in situatia a 2
sau mai multe evenimente independente care se
produc concomitent si consta in multiplicarea
probabilitatilor individuale ale evenimentelor. - Calcul Pr(A si B)Pr(A)xPr(B)
8Ipoteza nula
- H0 este ipoteza care postuleaza faptul ca
esantioanele sau populatiile pe care le avem de
comparat in cadrul unui studiu, experiment sau
test sunt similare, sau cu alte cuvinte, orice
diferenta este atribuita sansei si nu unui anumit
factor.
9Aplicatii si caracteristici
- Ipoteza nula postuleaza absenta unor deosebiri
care pot aparea in orice problema de comparare
statistica. - Este folosita pentru a defini semnificatia
diferentei. Semnificatia diferentei, numita si
semnificatie statistica, este concluzia ca
diferenta intre esantioane, populatii sau ambele,
este datorata unor factori altora decat sansa. - Diferenta semnificativa apare cand ipoteza nula
este respinsa.
10- Cand ipoteza nula este respinsa, cel putin una
din ipotezele alternative este acceptata, deci
diferenta poate fi explicata prin alt factor
decat sansa. - Cand nici o diferenta nu poate fi sustinuta intre
2 populatii, inseamna ca se accepta ipoteza nula,
dar nu inseamna ca mediile populatiilor sunt
identice. - Valoarea probabilitatii pentru care diferenta se
datoreaza numai sansei se numeste nivel de
semnificatie. Daca el este de maximum 5 atunci
ipoteza nula este respinsa si o ipoteza
alternativa este acceptata spunem ca diferenta
este statistic semnificativa.
11- Nivelul de semnificatie se noteaza cu a sau
p-value si este ales de cercetator a priori. - In orice procedeu de comparare se pot emite 2
tipuri de erori - Eroarea de speta I care reprezinta decizia de a
respinge ipoteza nula cand ea este adevarata - Eroarea de spata aII-a care reprezinta decizia de
a accepta ipoteza nula cand aceasta este falsa.
12- Probabilitatile erorilor asociate sunt
- Pr (respH0/H0adevarat)ariscul erorii de speta
I - Pr(acceptH0/H0fals)ßriscul erorii de speta
aII-a - 1- ß puterea testului
- Pe baza acestei interpretari, in spatiul
esantioanelor multimea valorilor posibile
calculate se divide in 2 intervale - Intervalul de acceptare sau intervalul critic
reprezinta multimea valorilor pentru care daca o
valoare a statisticii calculate se inscrie
printre valorile sale, se accepta ipoteza nula. - Intervalul de respingere reprezinta multimea
valorilor pentru care daca o valoare a
statisticii calculate prin test se inscrie
printre valorile sale se respinge ipoteza nula.
13- Diferentele statistic semnificative pot sa nu fie
semnificative clinic, si diferentele clinic
importante pot sa nu fie statistic semnificative. - Ipoteza nula poate fi testata fie prin test
unilateral one-tailed test sau bilateral
two-tailed test
14Testul unilateral
- Este acel test pentru care intervalul de
respingere este format (dupa distributia normala)
dintr-o singura coada stanga sau dreapta testul
fiind unilateral stang sau drept. - Este folosit pentru a testa o ipoteza nula pentru
care ipoteza alternativa este directionata,
comparatia facandu-se intr-un singur sens , si
este mai puternic ca un test bilateral.
15Testul bilateral
- Este acel test pentru care intervalul de
respingere este format din 2 cozi-in stanga si
in dreapta curbei - Este folosit pentru a testa o ipoteza nula
nefiind necesara nici o presupunere privind
ipoteza alternativa - Se folosesc cand generam ipotezele alternative si
sunt mai utilizate in comparatie cu testele
unilaterale
16Calcul
- H0P1-P00 sau P1P0
- HaP1-P00 sau P1P0
- Unde P1 este probabilitatea caracteristicii
studiate in esantion, iar P0 este probabilitatea
aceleiasi caracteristici in populatie sau o
probabilitate teoretica sau din literatura.
17Tabele de contingenta si grade de libertate
- Reprezinta o clasificare a datelor in functie de
2 criterii in cadrul carora datele sunt in
continuare divizate in 2 sau mai multecategorii
discrete si mutual exclusive. - Tabelul de contingenta in care sunt mai mult de 2
categorii pentru fiecare din cele 2 criterii este
numit tabelul rxc. - Un tabel de contingenta in care avem numai 2
categorii pentru fiecare din cele 2 criterii de
grupare este numit tabelul 2x2
18Aplicatii
- Este o metoda simpla de prezentare a datelor si
mult folosita cand aplicam testul chi patrat sau
alte teste neparametrice. - Tabelul 2x2 se foloseste in domeniul
epidemiologiei.
19Grade de libertate
- Este un numar legat de efectivul valorilor
dintr-o serie sau o distributie el poate fi in
mod liber atribuit cand suma valorilor este
fixata. - Intr-un tabel de contingenta, gradele de
libertate reprezinta numarul celulelor din tabel
carora li se pot atribui in mod liber valori,
presupunand totalul si valorile marginale
stabilite. - Daca valorile din aceste celule au fost
stabilite, valorile tuturor celulelor ramase din
tabel sunt determinate in mod automat.
20Aplicatie si calcul
- In cadrul unor distributii de probabilitate, cum
ar fi distributia t si distributia ?2
valorile probabilitatilor de respingere a
ipotezei nule variaza in functie de numarul de
grade de libertate ale esantionului. - Calcul cand distributia are fie o singura linie,
fie o singura coloana, numarul de grade de
libertate este determinat prin formula dfc-1,
daca r1 sau dfr-1, daca c1 - Cand tabelul are cel putin 2 linii si/sau cel
putin 2 coloane, nr. de grade de libertate este
determinat de formula df(r-1)x(c-1)
21Distributia unui esantion de 100 nou-nascuti in
functie de sex si de mediul de rezidenta
Criteriul A (sex) Criteriul A (sex) Criteriul A (sex) Criteriul A (sex)
Criteriul B (mediu) Masculin Feminin Total
Urban a (21) b (19) ab (40)
Rural c (32) d (28) cd (60)
Total ac (53) bd (47) n (100)
22Distributia binomiala
- Este acea distributie a rezultatelor obtinute in
cadrul unui experiment, cand acestea au numai
valori discrete si mutual exclusive. - Aplicatii este folosita cand ne referim la
probabilitatea a 2 rezultate mutual exclusive
intr-un numar cunoscut de probe. Probabilitatea
fiecaruia dintre cele 2 rezultate este aceeasi in
fiecare proba, dar rezultatul fiecarei probe este
independent de rezultatul altei probe.
23Calcul
- Pentru o distributie binomiala, probabilitatea
este data de formula - f(x) n!/x!(n-x)!pxqn-x
- f(x) probabilitatea obtinerii valorii x in probe
- pprobabilitatea unuia din cele 2 rezultate
posibile (un succes) intr-o singura proba - qprobabilitatea celuilalt rezultat posibil (un
esec) intr-o singura proba - nnr. total de probe din cadrul experimentului
- xnr. de succese obtinute in cadrul unui
experiment de n probe - n-xnumarul de esecuri obtinute in cadrul
aceluiasi experiment - !semnul factorial
24- Distributia binomiala se refera deci la o
variabila aleatorie discreta x pentru care
valoarea medie si dispersia sunt date de
formulele - µxnp
- ?2npq
- Pentru diverse valori ale lui n si p se obtin
- diverse curbe reprezentative pentru
- probabilitatile f(x).
- Pentru npgt10 si nqgt10, curbele devin
- insuficient de simetrice in jurul valorii lui µx
si se - poate asimila distributia binomiala cu o
distributie - normala.
25- Daca in cazul distributiei binomiale consideram n
foarte mare si probabilitatea p foarte mica,
astfel ca produsul np?x devin - f(x)e- ?. Tx/x! probabilitati care conduc la
distributia Poisson. Se demonstreaza ca valoarea
medie si dispersia pentru aceasta distributie
sunt µx ? - ?2 x ?
- Prin cresterea lui ? se obtin curbe cat mai
- simetrice, astfel pentru ?gt20 sau ?20,
distributia - lui Poisson poate fi asimilata cu o distributie
- normala.
26Distributia normala (Gauss Laplace)
- Este o distributie teoretica, continua,
simetrica, unimodala, si poate, teoretic, sa
varieze intre infinit si infinit. - Curba distributiei normale are doua cozi
simetrice si este determinata prin media µ si
deviatia standard a populatiei ?. - Media, mediana si modulul unei populatii
distribuite normal sunt egale.
27Aplicatii
- Poate fi folosita pentru a studia multe populatii
si esantioane, esantioanele trebuie sa fie de
minimum 30 de cazuri. - Distributia normala si aproximarea normala
constituie bazele unui numar de teste analitice,
cum ar fi testul t sau chi patrat.
28Raportul critic sau scorul z
- Este numarul deviatiilor standard ce separa un
indicator calculat in esantion de parametrul
corespunzator intr-o populatie normala. - Cresterea raportului critic corespunde
descresterii probabilitatii de acceptare a
ipotezei nule - Pot fi calculate si listate proportiile
populatiei in interiorul intervalului si/sau in
afara intervalului.
29- Intr-o populatie distribuita normal, aproximativ
68 din populatie este situata in interiorul unui
raport critic, aproximativ 95 din populatie este
situata in interiorul a 2 rapoarte critice ale
mediei si in jur de 99,7 este situata in
interiorul a 3 rapoarte critice mediei. - In esantioanele numeroase, raportul critic este
folosit pentru a calcula intervalele de incredere
in jurul mediei de esantion.
30Calcul
- zlx-µl/?
- zraportul critic
- xvaloarea de testat
- µmedia populatiei
- ?deviatia standard a populatiei
31Testul t (student)
- Este bazat pe distributia t, distributie care
reflecta o mai mare variatie datorata sansei in
comparatie cu distributia normala. - Este continua, simetrica, unimodala, variaza de
la infinit la infinit, este mult mai larga in
comparatie cu distributia normala.
32- Este utilizata pentru a analiza esantioane mici.
- Cand volumele esantioanelor cresc, distributia t
se apropie de distributia normala, astfel ca
pentru un numar infinit de grade de libertate
cele 2 distributii sunt identice si valorile
critice ale lui t sunt egale cu raportul critic
al distributiei normale.
33Testul t pentru un esantion mic
- Testul t pentru un singur esantion mic compara o
singura medie (x) a esantionului cu media
populatiei.
34Aplicatii si caracteristici
- Sunt folosite pentru a evalua ipoteza nula pentru
variabile cantitative, pentru esantioane de volum
mai mic de 30 de cazuri. - Sunt utilizate in analiza pentu care SD din
esantioane sunt substituite ca estimatii pentru
SD din populatii. - Valoarea probabilitatii de respingere a ipotezei
nule, cand aceasta este adevarata ap-value este
obtinuta din tabela t corespunzatoare lui dfn-1
grade de libertate. - In cazul esantioanelor mici, sub 30 de cazuri,
distributia t este folosita pentru a calcula
intervalele de incredere in jurul mediei
esantioniului.
35Calcul
- Valoarea calculata a testului pentru compararea
mediei esantionului cu media populatiei este
determinata prin formula - t(df)lx-µl/(SD/vn)
- t(df)valoarea calculata a testului la df. gr. de
libertate - dfnr. de grade de libertate
- xvaloarea medie a esantionului
- µmedia populatiei
- SDdeviatia standard
- nvolumul esantionului
- Numitorul ecuatiei se numeste eroarea standard a
mediei esantionului.
36Testul t pentru esantioane independente
- Compara valori medii a 2 esantioane mici.
- Utilitatea si restrictiile sunt aceleasi cu
exceptia ca esantioanele trebuie sa fie sub 30 de
cazuri. - Este nepotrivit cand avem de comparat mai multe
valori medii.
37Calcul
- t(df)lx-yl/SDpv1/n11/n2
- SDpvS(xi-x)2 S(yi-y)2/(n1-1)(n2-1)
- SDpdeviatia standard ponderata a celor 2
esantioane
38Testul t pentru esantioane perechi
- Compara valorile medii a 2 esantioane perechi.
- In acest caz numarul de perechi trebuie sa fie
sub 30. - t(df)d /(SDp/vn)
- SDp vS(di-d)2/(n-1)
- didiferentele in cadrul fiecarei perechi
- dvaloarea medie a diferentelor
39- Numitorul testului t pe perechi este eroarea
standard a diferentei mediilor. - Valoarea calculata a testului t este folosita
pentru a stabili probabilitatea ca diferenta
intre esantioanele perechi, la gradele de
libertate respective sa se datoreze sau nu sansei.
40Eroarea standard si limitele de incredere
- Este bazata pe un esantion al populatiei si este
o estimatie a deviatiei standard a masuratorilor
pentru populatie. - Este o masura a acuratetei mediei esantionului ca
o estimatie a mediei populatiei. - Este raportul dintre deviatia standard si radical
de ordinul 2 din volumul esantionului. - Este folosita pentru a construi limitele de
incredere in jurul mediei esantionului. - Este folosita la testul t.
- SEMSD/vn unde nnr. de obs. in esantion
41Limitele de incredere ale valorii medii
- Definesc valorile probabile pentru un parametru
al populatiei, pe baza volumului esantionului si
a valorii erorii standard. - Intervalele de incredere sunt exprimate in
termenii probabilitatii bazate pe eroarea a. - Un interval de incredere (1- a), exprima faptul
ca probabilitatea ca parametrul populatiei sa se
gaseasca in intervalul de incredere este 1- a,
iar probabilitatea ca parametrul populatiei sa se
gaseasca in afara intervalului de incredere este
a.
42- Limitele de incredere ale mediei populatiei (µ)
definesc intervalul de incredere pentru media
populatiei pe baza mediei esantionului. - Pentru esantioane mai mari sau egale cu 30
limitele de incredere sunt bazate pe raportul
critic corespunzator probabilitatii asociate. - Pentru esantioane mici sub 30 limitele de
incredere sunt bazate pe valorile lui t din
tabele, corespunzator numarului de grade de
libertate si probabilitatii asociate.
43Utilitate
- Sunt folosite pentru a estima media populatiei pe
baza mediei esantionului extras din populatie. - Cel mai des folosite sunt limitele de incredere
de 95, care indica faptul ca probabilitatea ca
valoarea mediei necunoscuta din populatie sa se
afle intre aceste limite este de 95, iar in
afara lor este de 5.
44Calcul
- Pentru esantioane mari
- Limitele de incredere (1- a)xzaSEM
- Pentru esantioane mici
- Limitele de incredere (1- a)xtdf,aSEM
45Testul chi patrat ?2
- Compara o distributie de frecvente absolute
observate cu o distributie teoretica (asteptata)
de frecvente absolute pe baza distributiei de
probabilitate chi patrat. - Este o distributie continua, simetrica si se
bazeaza pe aproxiamtia normala a distributiei
binomiale. Distributia chi patrat cu 1 grad de
libertate este identica cu distributia patratului
raportului critic.
46Aplicatii si caracteristici
- Testul chi patrat de tip rxc este folosit pentru
a compara o distributie observata cu o
distributie teoretica sau compara 2 sau mai multe
distributii observate. - Categoriile de date folosite trebuie sa fie
mutual exclusive si discrete. - Trebuie folosite numai valori absolute.
- Frecventele teoretice trebuie sa fie mai mari
decat 5, cele observate pot fi mai mici decat 5. - Valorile probabilitatii pentru respingerea
ipotezei nule sunt obtinute din tabele speciale
pentru distributia chi patrat corespunzator
numarului de grade de libertate.
47Corectia Yates
- Deoarece distributia chi patrat este bazata pe
aproximatia normala a distributiei binomiale, se
impune o corectie de continuitate numita corectia
Yates, aceasta consta intr-o modificare in
formula de calcul a testului chi patrat - Corectia Yates se foloseste pentru esantioane
mici si scade valoarea lui chi patrat, deci scade
probabilitatea respingerii ipotezei nule.
48Calcul
- ?2c(df)S (Oi-Ei-1/2)2/Ei
- ? 2c(df)valoarea calculata a testului chi patrat
cu corecta Yates - Oifrecventele absolute observate din fiecare
celula a tabelului - Eifrecventele teoretice corespunzatoare
frecventelor observate - ½corectia yates
49Testul chi patrat 2x2
- Este un caz particular si se aplica pantru
tabelele de contingenta de tip 2x2 si are un grad
de libertate. - ?2c(1)n(ad-bc-n/2)2/(ab)(cd)(ac)(bd)
50Testul McNemar
- Este un test chi patrat 2x2 specific pentru
compararea esantioanelor perechi. - Ipoteza nula care este de testat este aceea ca
frecventele asteptate pentru perechile
discordante sunt egale. - Testul are un grad de libertae si se poate
calcula dupa formula - ?2c(f-g-1)2/fg unde f si g sunt valorile
perechilor discordante