Title: Kapcsolat vizsg
1Kapcsolat vizsgálat I egy és többváltozós
lineáris regressziós vizsgálatok és alkalmazásaik
a klinikumban.
- Füst György
- III. Belklinika
2KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI A
KORRELÁCIÓ ÉS A REGRESSZIÓ
- Az alapveto kérdés van-e kapcsolat két,
ugyanabban az egyénben, állatban, kísérleti
mintában, stb. mért különbözo változó között? - Ha csak arra vagyunk kíváncsiak, hogy ilyen
kapcsolat fennáll-e, akkor korrelációt számítunk,
ha arra is, hogy ha fennáll ilyen kapcsolat,
akkor az egyik változó értékeibol hogyan lehet
elore jelezni a másik változó értékeit, akkor
regressziós, általában lineáris regressziós
számítást végzünk. A korreláció és a regresszió
között sok a hasonlóság, ha a korreláció
méroszáma az un. korrelációs koefficiens
szignifikáns, akkor mindig szignifikáns lesz a
lineáris regresszió is. - A leggyakrabban használt és az orvosi irodalomban
igen gyakran megtalálható eljárások.
3A KORRELÁCIÓ
- A két változó közötti egyenes arányú, fordított
arányú vagy hiányzó kapcsolat (pozitív, negatív
vagy nem létezo korreláció) lehet. Becslése az
értékek ábrázolása alapján lehetséges. - ELOSZÖR MINDIG RAJZOLJUNK!!!
4(No Transcript)
5(No Transcript)
6(No Transcript)
7A korrelációs koefficiens legfontosabb
tulajdonságai
- Ha nincs lineáris korreláció, akkor a korrelációs
koefficiens értéke 0, tökéletes pozitív, ill.
negatív lineáris korreláció fennállása esetén a
korrelációs koefficiens értéke 1,00, ill. -1,00. - A korrelációs koefficiens értéke független a
mértékegységektol, amelyekben a két változó
rögzítve van (pl. testmagasság és testsúly
közötti korreláció, mindegy, hogy ezek milyen
mértékegységben (kg, font, cm, inch) vannak
megadva). - A korrelációs koefficiens értékét az outlier
(kiugró) értékek igen erosen befolyásolják. Ezt
minden esetben végig kell gondolni és pl.
adat-transzformációt kell végrehajtani. A kiugró
érték lehet egy szabálytalan, torzult eloszlás
eredménye, ilyenkor segíthet a transzformáció,
vagy lehet mérési hiba, ilyenkor lehet a mérést
ismételni, vagy az értéket kizárni - 4, A korreláció nem jelent ok-okozati
kapcsolatot, mert ez lehet annak a következménye,
hogy-az x tengelyre felvett változó befolyásolja
az y tengelyre felvettet-az y tengelyre felvett
változó befolyásolja az x tengelyre
felvettet-egyik eset sem áll fenn, hanem egy
harmadik tényezo mindkettot egy irányba (pozitív
korreláció) vagy különbözo irányokba (negatív
korreláció) mozdítja el.
8- A korrelációs koefficiens legalacsonyabb értéke
0 (nincs lineáris korreláció), a legmagasabb 1,0
vagy -1,0 (tökéletes pozitív, ill. negatív
lineáris korreláció) - A korrelációs koefficiens értéke független a
mértékegységektol, amelyekben a két változó meg
van adva pl. testmagasság és testsúly közötti
korreláció, mindegy, hogy milyen mértékegységben
(kiló, font, cm, inch) vannak ezek megadva) - A korrelációs koefficiens értékét az outlier
(kilógó) értékek igen erôsen befolyásolják. Ezt
minden esetben végig kell gondolni, az adatokat
transzformálni, esetleg, ha ez korrekt korrigálni
is lehet. A kilógó érték lehet egy szabálytalan,
torzult eloszlás eredménye, ilyenkor segíthet a
transzformáció, vagy lehet mérési hiba, ilyenkor
lehet óvatosan korrigálni
9EGY KIUGRÓ (OUTLIER) ÉRTÉK HATÁSA A KORRELÁCIÓS
KOEFFICIENS NAGYSÁGÁRA ÉS SZIGNIFIKANCIÁJÁRA
10A korreláció (a két változó közötti kapcsolat)
erosségének megítélése. A leegyszerusített
megoldás
Korrelációs koefficiens A kapcsolat erossége
0-0,25 Nincs vagy igen gyenge
0,25-0,50 Gyenge
0,50-0,75 Mérsékelten eros vagy eros
0,75-1,00 Igen eros
11(No Transcript)
12(No Transcript)
13A PEARSON-FÉLE KORRELÁCIÓS KOEFFICIENS SZÁMÍTÁS
ELSO LÉPÉSE, AZ X ILL. Y ÁTLAGTÓL VALÓ TÁVOLSÁG
14(No Transcript)
15(No Transcript)
16(No Transcript)
17A determináltsági koefficiens (r2)
- Az r2 érték azt fejezi ki, hogy az egyik változó
változásai várhatóan milyen mértékben járnak a
másik változó változásaival, vagyis mennyire
lehet az egyikbol a másikat elore jelezni. Ha az
r0,50, az r20,25, akkor 25-ban lehet elore
jelezni az egyik változóból a másikat, és
fordítva (a korrelációnál a két változó
felcserélheto). Példánkban a két komplement
fehérje (C9 és C1-INH) között az r0,62, az
r20,38, tehát a C9 szintje alapján 39-ban lehet
a C1-INH szintet, ill. a C1-INH szintje alapján a
C9 szintet elore jelezni.
18(No Transcript)
19Az r CI-a
- Az r értékeknek is van eloszlása, ez azonban nem
szimmetrikus és csak nagyobb (Ngt10) esetszámnál
értékelheto. Minden program megcsinálja, kézzel
elég macerás, A C9 és C1-INH koncentráció közötti
r (0,62) CI-a 0,42-0,76.
20A korrelációs koefficiens szignifikanciája
21A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei I.
- A vizsgált egyének (állatok, minták, stb) egy
nagyobb populációból véletlenszeruen lettek
kiválasztva - Minden vizsgált egyénnél megmérték mindkét (x és
y) változót (a hiányzó értékekkel a legtöbb
számítógépes program boldogul) - A megfigyelések egymástól függetlenek A vizsgált
egyének kiválasztása egymást nem befolyásolja
(nincs rokonsági kapcsolat). Nem tekinthetok
független megfigyeléseknek ha ugyanazt a
vizsgálatot ugyanazokban az egyénekben
megismételjük és ezeket különálló mintáknak
tekintjük (a kettot összevonjuk)
22A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei II.
- Az x és y értékeknek is függetleneknek kell lenni
egymástól (l. a HCV RNS változási példát fent). - Ha az x változó szisztematikusan változik, pl.
ido, koncentráció vagy dózis) akkor ne
korrelációt, hanem lineáris regressziót kell
számolni, bár ugyanazt az r és P értéket kapjuk,
de a regresszióból több következtetés vonható le.
- Mind az x, mind az y mintáknak normál eloszlást
mutató populációból kell származniuk. Ha ez nem
áll fenn, akkor nem paraméteres eljárást
(Spearman korrelációs koefficiens) kell végeznünk.
23A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei III.
- Az x és az y végig egy irányban kell változzon.
Pl. az r-nek semmi értelme akkor, ha az x
növekedésével egy darabig no az y, de a további
növelés után csökkenni kezd. - sohasem szabad két populációból származó mintát
kombinálni, mert ez ál-szignifikáns korrelációt
fog mutatni, noha sem az egyik, sem a másik
mintában külön-külön nincs kapcsolat a két
változó között.
24HOGYAN NEM SZABAD KORRELÁCIÓT SZÁMÍTANI?
25(No Transcript)
26Összefüggés az almavirágok átméroje és az almák
súlya között. Hipotetikus példa a
rang-korrelációs eljárás elvének szemléltetésére.
Virág-alma párok sorszáma Virág átméroje, mm Rangszám Alma súlya, g Rangszám Rangszámok különbsége
1 32 3,5 210 4 0,5
2 18 1 150 1 0
3 36 5 235 6 1
4 32 3,5 205 3 0,5
5 39 7 220 5 2
6 37 6 256 7 1
7 30 2 190 2 0
8 42 8 300 8 0
Spearman korrelációs koefficiens Spearman korrelációs koefficiens Spearman korrelációs koefficiens Spearman korrelációs koefficiens r0,9222, p0,0022
27(No Transcript)
28Pozitív lineáris korreláció a szérum
log10triglicerid és log10HbA1C szintek között
cukorbetegekben
Paraméteres, lineáris korrelációs koefficiens meghatározás Paraméteres, lineáris korrelációs koefficiens meghatározás
Az XY párok száma 228
Pearson korrelációs koefficiens (r) 0,2504
Az r 95-os CI-je 0,1256 0,3674
p-érték (kétoldalú) 0,0001
A p-érték összefoglaló értékelése
Szignifikáns-e (plt0,05) a korrelációs koefficiens? Igen
R2 (determináltsági koefficiens) 0,0627
29Negatív lineáris korreláció a szérum
log10triglicerid és HDL-koleszterin szintek
között cukorbetegekben
Paraméteres, lineáris korrelációs koefficiens meghatározás Paraméteres, lineáris korrelációs koefficiens meghatározás
Az XY párok száma 228
Pearson korrelációs koefficiens (r) -0,4435
Az r 95-os CI-je -0,5414 -0,3337
p-érték (kétoldalú) lt0,0001
A p-érték összefoglaló értékelése
Szignifikáns-e (plt0,05) a korrelációs koefficiens? Igen
R2 (determináltsági koefficiens) 0,1967
30Negatív korreláció a szérum log10 triglicerid és
HDL-koleszterin szintek között cukorbetegekben.
Számítás a nem paraméteres Spearman próbával
Nem paraméteres korrelációs koefficiens meghatározás Nem paraméteres korrelációs koefficiens meghatározás
Az XY párok száma 228
Spearman korrelációs koefficiens (r) -0,4559
Az r 95-os CI-je -0,5550 -0,3442
p-érték (kétoldalú) lt0,0001
A p-érték összefoglaló értékelése
Pontos vagy megközelíto p-érték? Gaussi megközelítés
Szignifikáns-e (plt0,05) a korrelációs koefficiens? Igen
31A korrelációs számítás legfontosabb szabálya a
szignifikáns korreláció sem jelent ok-okozati
kapcsolatot
- Ha x és y között eros korreláció van, akkor az
lehet azért, mert - 1. az y változásai okozzák az x változásait
- 2. a x változásai okozzák az y változásait
- 3. egy harmadik faktor mind az x-et, mind az y-t
egy irányba (vagy ellenkezo irányba)
befolyásolja. Ez a leggyakoribb!!!
32A REGRESSZIÓ
- A regresszió úgy mutatja meg két változó
kapcsolatát, hogy egyben az egyik változó (függo
változó) a másik változótól (független változó)
való függésének mértékét is kifejezi. - lineáris és nem-lineáris regresszió
- egyszeru és többszörös regresszió
33(No Transcript)
34(No Transcript)
35PÉLDA
- Az allergének aktiválják a komplement rendszert
az un. klasszikus reakcióúton át. Ennek elsô
lépése a C1 makromolekula belsô, enzimatikus
aktivációja. A második lépésben a C1 enzim (C1
eszteráz) egyik szubsztrátját, a C4-et C4b-vé és
C4a-vá hasítja el, majd a C4b tovább bomlik és
C4d keletkezik belole. Egy speciális,
monoklonális ellenanyagokkal muködo kit lehetové
teszi a C4d szint mérést szérumban. Mi egy
allergén (Parietaria judaicafalfu) különbözô
dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum)
inkubáltuk 37oC-on 60 percig egy vizsgált egyén
szérumát és minden mintában megmértük a
keletkezett C4d mennyiségét (µg/ml)
36(No Transcript)
37(No Transcript)
38- Látható, hogy minél több allergént adtunk a
szérumhoz, annál több C4d keletkezett. Kérdésünk
a korrelációs számítással szemben, amikor csak
azt kérdeztük volna, hogy kapcsolatban áll-e
egymással az allergén dózisa és a keletkezett C4d
mennyisége, most azt is tudni szeretnénk, hogy az
allergén egy adott dózisa (x mg/ml) milyen
mértéku (y µg/ml) C4d képzôdést indukál a
szérumban. - Ha az x és az y között lineáris vagy ezt
megközelíto összefüggés látszik (példánkban ez a
helyzet), akkor a kérdésre a (egyszeru vagy
egyszeres, simple) lineáris regresszió
módszerével kaphatunk választ.
39(No Transcript)
40- A lineáris regressziós számítás lényege az, hogy
egy olyan vonalat húzunk, amely a mérési
pontoktól a leheto legkisebb távolságban van,
ezeket a legjobban megközelíti (best fit
regression line). Matematikailag ez azt jelenti,
hogy minden más vonal esetében a mérési pontok
függoleges távolsága négyzeteinek összege nagyobb
volna.
41- Tehát a vonal úgy készül, hogy egy képlet alapján
kiszámolja a gép, de természetesen mi is
kiszámolhatjuk a lineáris regressziós egyenes
egyenletét (meredekség és metszési pont az y
tengelyen) és ennek alapján ábrázoljuk az
egyenest. - Az elso és harmadik pont elég távol esik a
regressziós egyenestol ahhoz, hogy a pontok és
egyenes közötti függoleges távolságokat is
ábrázoljuk. E távolságok négyzetének összege kell
minimális legyen. A távolságokat reziduumnak
(residual) nevezzük, ezek négyzetének összege a
reziduumok varianciája, melynek négyzetgyöke a
reziduumok SD-je. A regressziós egyenes az az
egyenes, amelynél a reziduumok összegének az
SD-je a legkisebb. Egyes programok ezt is
kiszámítják
42A számítás segítségével meghatározhatjuk az
egyenesek konfidencia intervallumát is, tehát
azokat a határokat, amelyek közé azok a
regressziós egyenesek esnének 95-os
valószínuséggel, amelyek más olyan kísérletekhez
tartoznának, amelyekben ugyanezt az összefüggést
vizsgálnánk
43(No Transcript)
44A regressziós egyenes egyenlete
45(No Transcript)
46példánkban
47A lineáris regressziós egyenes szignifikanciája
- A null-hipotézis nem áll fenn lineáris
összefüggés a parietária allergén dózisa és a
képzodött C4d mennyisége között. Ha ez igaz,
akkor a regressziós egyenes az x tengellyel
párhuzamos lenne, tehát a meredeksége 0. A P
érték azt jelenti, hogy ha a null-hipotézis igaz,
akkor mi annak a valószínusége, hogy véletlenül a
0-tól az észlelt mértékben eltéro, vagy ennél még
nagyobb meredekséget észlelnénk. Ha a P érték
kicsi, akkor valószínutlen, hogy az észlelt
összefüggés véletlen koincidencia eredménye
lenne. Példánkban a P érték 0.0249, tehát
kevesebb, mint 2,5 annak a valószínusége, hogy
az allergén dózisától nem függ a szérumban
képzôdo C4d mennyisége.
48A lineáris regresszió elvégezhetoségének
feltételei
- Az x és az y értékek nem felcserélhetok, az x
értékek alapján szeretnénk elore jelezni az y
értékeket, fordítva ez nem lehetséges, mert a
kísérletben az x-et variáljuk, vagy idoben
esetleg logikailag megelozi az y-t (pl. elobb
adtuk hozzá a szérumhoz az allergént és csak
ezután képzodött a C4d) - Az ábrázolás szerint az x és y értékek között
lineáris összefüggés áll fenn. Ennek eldöntésre a
legtöbb program lehetové teszi a reziduumok
ábrázolását is, ennek elemzése elosegítheti annak
az eldöntését, hogy valóban fennáll-e az x és y
között a lineáris viszony.
49(No Transcript)
50(No Transcript)
51A lineáris regresszió elvégezhetôségének
feltételei (folyt.)
- Bár matematikailag az összefüggés a végtelen
kicsi és a végtelen nagy irányban is megmarad az
x és y között, lehetoleg csak a megfigyelések
által meghatározott tartományban számoljunk
ezzel, annál is inkább, mert az y értékek akár
negatívvá is válhatnak, amelynek biológiailag
legtöbbször semmi értelme sincs. - A reziduumok távolsága a regressziós egyenestol
normál eloszlású vagy ezt megközelíto legyen - Minden vizsgált minta egymástól függetlenül lett
kiválasztva. - Az x érékek és az y értékeket egymástól
függetlenül határoztuk meg. Tehát a korrelációhoz
hasonlóan nem szabad lineáris regressziót
számolni egy változó kiinduló értéke és ennek
változásának mértéke között, hiszen az utóbbi
kiszámításánál az elôzôt is figyelembe vettük (l.
a HCV RNS példát a korrelációnál)
52A log10 szérum HbA1c értékek és az ugyanabban a
mintában mért log10 triglicerid értékek közötti
összefüggés vizsgálata cukorbetegekben lineáris
regresszió módszerével.
53A pontokat legjobban megközelíto egyenes (best fit values)
meredeksége (slope) 0,6109 0,1558
1/slope 1,6375
metszéspontja az y tengellyel -0,2854 0,1474
metszéspontja az x tengellyel 0,4672
95-os konfiedencia intervallumok
meredeksége (slope) 0,3056-0,9162
metszéspontja az y tengellyel, amikor x0 -0,5744-0,003545
metszéspontja az x tengellyel, amikor y0 -0,01151-0,6320
Az illeszkedés pontossága (goodness of fit)
R2 0,06269
A meredekség szignifikánsan különbözik-e a 0-tól?
F 15,38
Szabadsági fok (n-1 ill. df) 1, 230
p-érték lt0,0001
A 0-tól való eltérés szignifikáns
Adatok
száma 232
hiányzó 0
54ANOVA
modell Négyzetösszeg df (n-1) Négyzetek átlaga F p-érték
1 Regresz-szió 1,267 1 1,267 15,383 lt0,0001
maradék 18,942 230 0,08236
összesen 20,209 231
55Regressziós koefficiens
Nem standardizált koefficiens Standardizált koefficiens t p-érték A B 95-os CI-je A B 95-os CI-je
Modell B SEM beta alsó határ felso határ
konstans -0,285 0,147 -1,936 0,054 -0,576 0,005
log10HbA1c 0,611 0,156 0,250 3,922 lt0,0001 0,304 0,918
56A x értékek kiszámítása az y értékek alapján
(standard görbe a laboratóriumokban)
- Ez a laboratóriumok mindennapi feladata. Pl. van
egy standard magas ismert IgG tartamú szérumom.
Ebbol hígítási sort készítek és megmérem benne
Mancini módszerrel a keletkezett precipitációs
körök átmérojét mm-ben kifejezve. Ezután
elkészítem a standard görbét az x tengelyre az
egyes hígítások ismert IgG koncentrációja jön, a
y tengelyre pedig a precipitációs körök átméroje.
Az ismeretlen mintákban kapott átmérot a y
tengelyre viszem majd meghatározom az ehhez
tartozó x értéket, tehát IgG koncentrációt. Ez
számítógéppel (hiszen ismert az x és y közötti
összefüggés egyenlet) végtelenül egyszeru.
Elvileg lehet extrapolálni is, tehát a standard
görbénél kisebb vagy nagyobb tartományban
dolgozni, itt azonban igen óvatosnak kell lenni.
57(No Transcript)
58(No Transcript)
59(No Transcript)
60Mi történik, ha az x és az y közötti összefüggés
nem lineáris?
- 1. Meg kell próbálni úgy transzformálni az
értékeket, hogy lineárissá váljon az összefüggés - 2. Ha ez nem lehetséges, a nem-lineáris
regresszióval kell dolgozni.
61NEM LINEÁRIS REGRESSZIÓ
- Az eljárást a klinikumban ritkán használjuk, az
orvosbiológiai tudományokban azonban nagyon
fontos eljárás, pl. a ligand receptorról való
disszociációja vagy a rádióaktív izotóp bomlása,
vagy a gyógyszerek májban történô metabolizmusa,
ill. vesében történo kiürítése egy nem-lineáris
összefüggés, szerint, az exponenciális model
szerint (pl. a kiválasztott gyógyszer mennyisége
a gyógyszer plazmakoncentrációjának függvénye,
ahogy ez csökken a kiválasztás üteme is lelassul. - A nem-lineáris regresszió lényege egy egyenlet
illesztése az adatokhoz és annak a vizsgálat,
hogy az adatok illeszkednek-e az egyenlet által
meghatározott görbéhez (lineáris regesszió
ugyanez egyenessel). A számítógépes programokba
számos egyenlet be van építve, de lehetoség van
saját egyenlet készítésére is.
62(No Transcript)
63(No Transcript)
64(No Transcript)