Documente Academic
Documente Profesional
Documente Cultură
Corelaii i regresii
1. Noiunea de corelaie
Funcionarea organismul ca un tot unitar este condiionat de conlucrarea ntr-o armonie perfect a unei
miriade de factori, muli dintre ei nc necunoscui. Legturile dintre ei sunt de o complexitate ce ne scap
deocamdat n multe cazuri. Cunoaterea uman, cu toate progresele fcute, a reuit s dezvluie ceea ce am
putea numi vlul exterior al proceselor complexe din organism. Rmn de studiat corelaii pe care acum nici
nu le bnuim sau pe care le cunoatem doar superficial i trebuie s le aprofundm.
Pentru a explica noiunea de corelaie, vom exemplifica cteva legturi ntre parametri de macrosistem, adic
parametri ce caracterizeaz organismul n totalitatea lui sau sistemele mai importante din organism. Astfel,
tim cu toii c exist o corelaie ntre tensiunea arterial sistolic i cea diastolic. Ce nseamn acest fapt?
nseamn c tendina de cretere a tensiunii sistolice, este nsoit de o tendin de cretere i a tensiunii
diastolice, iar tendina de scdere a primeia este nsoit de o tendin de scdere a celei de-a doua.
Tot astfel, alte perechi de parametri manifest o comportare asemntoare: greutatea i nlimea, numrul de
eritrocite i hemoglobina, vitezele de sedimentare a hematiilor la o or i la dou ore, colesterolemia i
lipemia, etc. Trebuie subliniat c variaia concomitent a celor doi parametri se manifest numai ca tendin,
nu este o regul. Pot exista indivizi cu tensiunea sistolic foarte mare i cea diastolic normal sau invers,
indivizi cu tensiunea sistolic normal i cea diastolic sczut. Totui, majoritatea indivizilor manifest
tendina de a avea valori crescute sau sczute, pentru ambele concomitent.
Definiie:
Vom spune c doi parametri care au tendina de a crete sau descrete simultan sunt direct
corelai.
Aa cum a fost dat mai sus, noiunea de corelaie se refer la tendina de cretere sau descretere simultan a
doi parametri indiferent ct de puternic sau de slab este aceast tendin. Vom vedea mai departe c este
nevoie de o cuantificare a triei corelaiei ntre doi parametri, altfel discuiile nu pot fi nuanate i corelaia ar
fi o noiune prea puin util.
Pe de alt parte, exist cazuri n care doi parametri se coreleaz prin creterea unuia nsoit de o tendin de
descretere a celuilalt. Astfel, creterea concentraiei hormonului tiroidian T 4, este nsoit de o scdere a
frecvenei cardiace. Aceti doi parametri sunt un exemplu de corelaie invers.
Definiie:
Vom spune c doi parametri sunt corelai invers dac au tendina ca, odat cu creterea sau
descreterea unuia, cellalt s descreasc sau s creasc. (au tendin invers de variaie).
Trebuie fcute cteva observaii care s clarifice cele introduse mai sus i s evite o folosire abuziv a
termenului de corelaie:
Corelaiile le vom cuta pentru parametri care pot fi msurai cantitativ i deci sunt exprimai prin
numere.
Nu vom cuta corelaii, cel puin nu n sensul definiiei de mai sus ntre parametri calitativi care se
exprim prin simboluri nenumerice, adic care produc date nominale sau ordinale.
Tendina de corelaie o putem nelege n mai multe sensuri dintre care dou intereseaz mai mult domeniul
medicinii:
Tendina unui parametru de a se schimba de la pacient la pacient poate fi nsoit de tendina altui
parametru de a se schimba n acelai sens sau invers
Corelaii n sensul c un parametru variaz la acelai individ, de exemplu n timp, i variaia este
nsoit de o variaie corepunztoare a altui parametru, la acelai pacient
Exemple de situaii n care avem corelaie ntre doi parametri sunt redate n figurile 1, 2 i 3. n figura 1, sunt
reprezentate valorile bilirubinei totale i ale bilirubinei directe la 235 de pacieni cu ciroze hepatice i cancer
hepatic. Se observ o corelaie extrem de puternic, din forma norului de puncte care este extrem de alungit
i subire.
Figura 1 Valorile bilirubinei totale i ale bilirubinei directe la 235 de pacieni cu ciroze hepatice i cancer hepatic. Se
observ o corelaie extrem de puternic, din forma norului de puncte care este extrem de alungit i subire
n figura 2, sunt reprezentate valorile pentru hormonul tiroidian T4 i cele ale hormonului T3, la 9
pacieni cu hipertiroidie i 9 pacieni hipotiroidie. Valorile sunt puternic corelate, fapt care se observ
din forma norului dublu de puncte care se aliniaz de-a lungul unei linii aproape drepte.
Faptul c norul este ntrerupt nu are o relevan prea mare n acest caz, dar de multe ori are o
importan mare. La mijlocul norului de puncte lipsesc de fapt valorile normale. Pacienii pentru care
s-au fcut msurtorile, avnd diferite forme de tiroidii, valorile pentru cei doi hormoni sunt extreme.
Figura 2 Valorile pentru hormonul tiroidian T4 i cele ale hormonului T3, la 9 pacieni cu hipertiroidie i 9 pacieni
hipotiroidie. Valorile sunt puternic corelate, fapt care se observ din forma norului dublu de puncte care se aliniaz
de-a lungul unei linii aproape drepte.
n figura 3 este dat un alt exemplu de pereche de parametri care se coreleaz puternic: VSH la o or i VSH
la dou ore. Norul foarte alungit i subire, arat tendina de corelaie. Cele cteva puncte care sunt mult n
afar norului, trdeaz erori de introducere a datelor. Acest exemplu ne spune i c unele din valorile aberante
pot fi observate pe graficul de corelaie.
Figura 3 VSH la o or i VSH la dou ore. Norul foarte alungit i subire, arat tendina de corelaie
n figura 4 se observ c ntre valorile sodiului seric i potasiului seric ale pacienilor cu afeciuni hepatorenale nu exist nici o corelaie, deoarece datele sunt distribuite aproximativ ntmpltor. Nu se poate
observa o tendin clar ca punctele graficului s fie aezate ntr-un fel anume, n afar de tendina natural
ca densitatea s fie mai mare n mijloc, tendin care se poate observa n general, la majoritatea datelor n
medicin i biologie i nu numai. Pe de alt parte, tendina punctelor de a se aeza ntr-un singur nor, arat
omogenitatea seriei de valori.
Corelatia intre sodiul si potasiul seric la pacientii cu
afectiuni hepato-renale
5.0
K seric
4.5
4.0
3.5
3.0
120
125
130
135
140
145
150
Na seric
Figura 4 Valorile sodiului seric i potasiului seric la 235 de pacieni cu afeciuni hepato-renale. Nu exist corelaie,
deoarece punctele norului sunt distribuite ntmpltor.
se poate observa o tendin clar ca punctele graficului s fie aezate ntr-un fel anume, n afar de tendina
natural ca densitatea s fie mai mare n mijloc, tendin care se poate observa n general, la majoritatea
datelor n medicin i biologie i nu numai. Pe de alt parte, tendina punctelor de a se aeza ntr-un singur
nor, arat omogenitatea seriei de valori.
n graficul din figura 1, se observ c ntre valorile bilirubinei totale i bilirubinei directe ale pacienilor cu
ciroze i cancere hepatice exist o corelaie puternic, deoarece datele sunt distribuite aproximativ de-a
lungul unei linii drepte. De asemeni, eantionul este omogen, ca i n cazul graficului 1, lucru care se observ
din faptul c norul de puncte nu are tendina de a se divide n doi nori diferii.
Pe de alt parte se vede c norul este mult mai dens n stnga jos. Deci, valorile din seria bilirubinei totale
(orizontal), sunt distribuite asimetric (valori mai multe n stnga = asimetrie dreapta). La fel, valorile din
seria bilirubinei directe (vertical), sunt mai dense jos, la valori mici, deci sunt distribuite tot asimetric
(asimetrie dreapta).
n figura 2, se observ c ntre valorile hormonilor tiroidieni T4 i T3 ale pacienilor cu diferite forme de
tiroidism exist o corelaie datele fiind distribuite tot de-a lungul unei linii, chiar dac este discontinu. De
asemeni, se observ c distribuia lor este grupat: o grup cu valori mici pentru cei doi hormoni indicnd
hipotiroidienii i o grup cu valori mari pentru cei doi hormoni indicnd hipertiroidienii, adic o tendin
clar de separare n doi nori diferii. Spunem n acest caz c eantionul este eterogen sau neomogen.
La fiecare grafic de acest tip este bine s fie urmrite cele trei tipuri de informaie pe care poate s ni le ofere
(Corelaie, Omogenitate i Simetrie). Unele ne dau o informaie mai util privind corelaia, altele ne
informeaz mai bine n ce privete omogenitatea sau simetria, deci nu totdeauna se pot obine dintr-un singur
grafic toate cele trei tipuri de informaie la fel de uor. Aprecierile sunt totdeauna subiective i depind de
deprinderile pe care utilizatorul i le-a format lucrnd cu ct mai muote i mai variate exemple.
x X y
i 1
x X
i 1
y
i 1
Aceast formul, care la prima vedere pare foarte complicat, ne ofer n realitate ntr-un mod relativ simplu,
o valoare numeric care, se va vedea mai jos, apreciaz foarte obiectiv situaia de fapt n ceea ce privete
corelaia.
Pentru a nelege cum funcioneaz formula de mai sus s lum un exemplu: tensiunile arteriale sistolic i
diastolic msurate la 10 pacieni sunt urmtoarele:
Tensiunea sistolic TMAX: 170, 160, 160, 150, 150, 170, 160, 180, 150, 150.
Tensiunea diastolic TMIN: 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75
Se observ c pentru calculul lui r avem nevoie de mediile celor dou serii statistice, X i Y , i pentru
fiecare pacient n parte de diferenele xi X i yi Y , care pentru numrtor trebuie nmulite ntre ele,
4
iar pentru numitor trebuie ridicate la ptrat i apoi sumate pentru toi pacienii. Deoarece valorile au fost
alese special ca s se uureze calculele, se observ c mediile pentru TAMAX i TAMIN sunt X =160 i Y
=80. Este bine ca toate calculele necesare pentru gsirea lui r s fie organizate ntr-un tabel aa cum se vede
n tabelul 9.1:
Tabelul 9.1 Calculul coeficientului de corelaie Pearson
xi
170, 160, 160, 150, 150, 170, 160, 180, 150, 150
yi
85,
80,
80,
xi X ( X =160)
10
-10
yi Y ( Y
50
=80)
x X y Y
i
75,
80,,
85,
80,
85,
75,
75
-10
10
20
-10
-10
-5
-5
-5
50
50
100
50
50
10
x
i 1
100
100
100 100
400
100
100
25
25
25
25
25
25
X yi Y =350
10
i 1
10
i 1
=1000
=150
350
1000 150
350
15 10000
350
350
0,9037 90,37%
100 3,8729 387,29
Trecnd peste faptul c de obicei calculele sunt puin mai dificile din cauza unor zecimale care apar inerent
la calculul mediilor i deci al diferenelor, s cutm s vedem ce se poate ntmpla n diverse situaii ce pot
apare n legtur cu valorile luate de cei doi parametri. n primul rnd s observm c la numrtor, n cazul
nostru, numrul 350 a fost obinut prin adunarea unor numere pozitive i anume 5x50+100. Dar observm c
valoarea 50 obinut pentru al patrulea pacient (ca i la al noulea i al zecelea, de altfel) s-au nmulit dou
numere negative, pe cnd la celelalte valori diferite de 0, la pacienii 1, 6 i 8, numerele au fost obinute prin
nmulirea unor numere pozitive. Acest lucru nu este nici pe de parte lipsit de importan, ci din contr, este
ceea ce caracterizeaz situaia prezentat n mod fundamental.
S facem urmtoarele observaii referitoare la cazul prezentat:
Pacienii 4,9 i 10 au i valori TAMAX i TAMIN sub media celor 10 pacieni. Deci diferenele
xi X i y i Y sunt ambele negative iar produsul lor, cel care se adun la numrtor este pozitiv
Pacienii 1,6 i 8 au i valori TAMAX i TAMIN peste media celor 10 pacieni. Deci diferenele
xi X i y i Y sunt ambele pozitive iar produsul lor, cel care se adun la numrtor este pozitiv
Pacienii 2, 3, 5 i 7 au valori TAMAX sau TAMIN egale cu media celor 10 pacieni. Deci, dintre
diferenele xi X i y i Y cel puin una este 0 iar produsul lor, cel care se adun la numrtor
este 0.
Ceea ce am precizat n rndurile de mai sus este caracteristic pentru situaiile n care cei doi parametri se
coreleaz: cei doi parametri iau valori preponderent n acelai sens, adic ori ambii sub medie, ori ambii
peste medie.
Din cauza tendinei a doi parametri care se coreleaz direct, ca atunci cnd unul este crescut, s fie i cellalt
crescut, vom fi pentru majoritatea pacienilor n situaii ca mai sus i produsele care se adun la numrtor
sunt preponderent pozitive. n acest caz, suma de la numrtor tinde s aib valori pozitive crescute. Evident,
corelaia dintre parametri este doar o tendin i este probabil s ntlnim pacieni care, dei au unul din
5
parametri crescut, de exemplu peste medie, cellalt poate s nu fie crescut, chiar s fie sub medie, caz n care
produsul xi X yi Y corespunztor lui va fi negativ. Dar acest fenomen nu este o tendin dac
parametrii sunt corelai ci mai curnd accident. Suma obinut la numrtor va avea tendina de a lua valori
mari i pozitive n ciuda unor astfel de accidente.
Dac cei doi parametri sunt corelai invers, adic tendina unuia de a avea valori crescute este nsoit de
tendina celuilalt de a avea valori sczute, n acest caz, predominante vor fi situaiile n care n produsul
xi X yi Y , ia des valori negative. ntr-adevr, dac un parametru are valori sub medie i cellalt
peste medie, o parantez va fi pozitiv i una negativ. Dac acest fapt este o tendin, parantezele de la
numrtor vor fi cele mai multe negative. Suma obinut la numrtor va avea tendina de a lua valori mari i
negative.
Dac cei doi parametri nu sunt corelai, parantezele de la numrtor vor avea semne aleatorii, vor fi unele
produse xi X yi Y pozitive i unele negative. Tendina va fi ca cele negative i cele pozitive s se
anuleze unele pe altele. Suma obinut la numrtor va avea tendina de a lua valori mici, pozitive sau
negative.
Nu am discutat nimic despre numitorul coeficientului r, deoarece el are totdeauna semnul +, iar rolul lui este
numai de a face ca r s fie cuprins ntre -1 i +1. Magnitudinea lui r, precum i semnul su, sunt dictate de
suma de la numrtor. Aadar, orice valori ar lua cei doi parametri, prin calculul lui r, obinem un numr real
cuprins n intervalul de numere reale [-1, 1].
Interpretarea coeficientului de corelaie Pearson se face n termeni extrem de subiectivi i imprecis astfel:
Valori foarte apropiate de 1 arat o foarte puternic corelaie direct
Figura 6 Corelaia valorilor latenei undei P100 pentru ochiul drept (vertical) i valorile latenei undei P100 pentru
ochiul stng (orizontal), la 913 de pacieni, msurate n milisecunde. Fiecare punct de pe grafic corespunde unui
pacient. Se observ o corelaie puternic din aranjarea norului de puncte, care are o form alungit .
Aa cum era de ateptat valorile LD i LS se coreleaz, n sensul c au tendina de a se aeza ntr-un nor
alungit dinspre stnga jos spre dreapta sus pe grafic, cu unele excepii, reprezentate de punctele care sunt
ieite din nor. De fapt, se observ c majoritatea punctelor din grafic se aranjaz ntr-o zon oval.
n cazurile ca cel din figura 6, se poate ncerca gsirea unei drepte care s treac ct mai aproape de punctele
graficului, dreapt care s reprezinte o legtur ntre cei doi parametri. n figura 7 este reprezentat o astfel
de dreapta pentru graficul din figura 6. Aceast dreapt exist pentru nori de puncte foarte diveri, i se
numete dreapt de regresie.
Figura 7 Dreapta de regresie pentru cazul latenei semnalului nervos pe cei doi ochi, la apcieni cu diverse afeciuni.
Pe orizontal, valorile pentru ochiul stng, iar pe vertical cele pentru ochiul drept.
Numim aceast dreapt legtur ntre cei doi parametri n sensul urmtor: dac se cunoate valoarea de pe
orizontal, se poate calcula cu oarecare aproximare valoarea de pe vertical, i invers. n exemplul din figura
7, dac tim latena pentru ochiul stng, putem calcula cu o anumit aproximaie latena pentru ochiul drept,
i invers. Acest fapt este sugerat n figura 8, de sgeile care indic valoarea aproximativ de pe o ax,
corespunztoare unei anumite valori de pe cealalt ax.
Figura 8 Folosirea dreptei de regresie ca legtur ntre cei doi parametri care sunt puternic corelai.
Dreapta de regresie este de obicei cutat prin aa-numita metod a celor mai mici ptrate, expus n
subcapitolul urmtor.
Vom spune c o dreapt este dreapt de regresie dac suma distanelor de la puncte la dreapt, msurate pe
vertical i ridicate la ptrat, este minim.
Dreapta pe care o cutm are ecuaia y ax b , i vom nelege prin aceasta c, odat cunoscut valoarea
parametrului de pe abscis, x, putem calcula valoarea parametrului de pe ordonat, y, prin nmulirea cu a i
adunarea lui b. Aadar, gsirea dreptei de regresie este echivelent cu gsirea coeficienilor a i b. n figura
10 este prezentat o situaie n care dreapta de regresie poate fi folosit pentru aproximarea unui efect Y (care
poate fi un rezultat al unei medicaii) n funcie de o cauz X (care poate fi medica ia). Se observ c putem
gsi nivelul efectului dup valoarea luat de factorul cauz. Pentru valoarea 10 a lui X, efectul Y are valoarea
aproximativ 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925.
Figura.10 Dreapta de regresie ca legtur ntre cauz i efect. Se observ c putem gsi nivelul efectului dup valoarea luat de
factorul cauz. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativ 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925
S yi axi b min
2
i 1
ceea ce exprim faptul c segmentele ce unesc fiecare punct cu punctele de pe dreapt situate pe aceeai vertical,
trebuie s fie ct mai scurte posibil. Exprimarea aceasta nu este tocmai corect, ci mai degrab intuitiv, cci, a spune c
segmentele sunt ct mai scurte, nu precizeaz nimic cnd se refer la toate segmentele. Nu vom ti exact care dintre ele
trebuie s fie mai scurt i care mai lung cnd suma ptratelor lor este minim.
Vom interpreta expresia de mai sus ca o expresie ce conine dou necunoscute, i anume a i b, i dorim aflarea lor
pentru a putea fi utilizate n ecuaia y ax b , atunci cnd avem nevoie.
Minimul expresiei ce are ca variabile pe a i pe b, se poate afla printr-un procedeu care este cunoscut din analiza
matematic, i anume, minimul unei funcii se realizeaz pentru acele valori ale necunoscutei care anuleaz derivata
nti a funciei n raport cu variabila respectiv. n cazul n care avem o funcie cu dou variabile, ca cea de mai sus, va
trebui s anulm derivatele ei n raport cu fiecare dintre cele dou necunoscute. Vom scrie deci expresia S astfel ca
derivarea n raport cu a i cu b s fie ct mai facil.
Pentru aceasta, vom folosi formula
i 1
i 1
i 1
i 1
xi yi .... zi xi yi ..... zi
Astfel vom avea:
n
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
i 1
x
i 1
2
i
S x2 ,
y
i 1
2
i
S y2 ,
x y
i 1
S xy ,
x
i 1
Sx ,
y
i 1
Sy
Aadar, S x , S y , S xy , S x , S y sunt numere cunoscute n momentul calculului de care ne ocupm ceea ce face ca
expresia lui S s devin:
S
S
2aS x2 2 S xy 2bS x 0 i
2bn 2 S y 2aS x 0 ,
a
b
care se vede c pot fi rescrise ca un sistem de dou ecuaii cu dou necunoscute, n felul urmtor:
2aS x2 2bS x 2S xy 0
,
2aS x 2bn 2 S y 0
sau, dup trecerea termenilor care nu depind de necunoscutele a i b n partea dreapt i mprirea cu 2 a ambelor
egaliti, obinem:
aS x2 bS x S xy
aS x bn S y
Acesta este, dup cum se poate uor observa, un sistem de dou ecuaii cu dou necunoscute, chiar n forma cea mai
simpl (sistem liniar). - - facultativMetoda expus mai sus se numete Metoda Celor Mai Mici Ptrate (MCMMP), i este mult folosit pentru
simplitatea cu care ne pune la dispoziie un rezultat util. Utilitatea acestei metode este mai clar pus n eviden atunci
cnd o folosim pentru evaluarea unui efect cuantificabil cnd cauzele care l produc pot fi cuantificate suficient de bine.
Un bun exemplu este aplicarea unui tratament cu un medicament n diferite doze, dac efectul acestuia este suficient de
obiectiv cuantificabil.
Alt exemplu de aplicare util a metodei celor mai mici ptrate este estimarea evoluiei n timp a unor fenomene de
intensitate cuantificabil. De exemplu, atunci cnd am nregistrat numrul anual de cazuri de cancer de sn ntr-o arie
geografic dat, i ne punem problema dac este ndreptit ipoteza unei tendine de cretere a incidenei acestei
maladii. n acest caz, dreapta de regresie este un estimator al vitezei de cretere a incidenei i se poate testa dac exist
o cretere semnificativ, iar n caz afirmativ se poate estima cantitativ aceast tendin.
caz n care, n mod evident trebuie gsii trei coeficieni n loc de doi. Cantitatea de minimizat este
y
n
axi2 bxi c
i 1
min .
n acest caz, cei trei coeficieni sunt soluiile unui sistem de trei ecuaii cu trei necunoscute, obinute din egalarea cu 0 a
celor trei derivate pariale ale lui S n raport cu a, b i respectiv c:
S
S
S
0,
0,
0
a
b
c
Au fost folosite i regresii cu polinoame de ordin mai mare, ns pentru a presupune c ntre doi parametri este o
legtur foarte complex trebuie puternice dovezi teoretice, care de obicei nu ne stau la dispoziie.
Y a1 X 1 a 2 X 2 .......... a n X m
unde Y este parametrul care depinde de ceilali, X1, X2,.............Xn sunt parametrii independeni, iar m este numrul lor,
uzual avnd valoarea 2 sau 3, mai rar ajungnd la 6 sau 8, foarte rar mai mare.
n acest caz, se pune problema gsirii coeficienilor a 1, a2,......an, astfel ca diferenele dintre valorile msurate
1
2
m
Y1,Y2,........Yn, s fie ct mai apropiate de valorile calculate cu expresia, a1 X i a 2 X i .......... a n X i , unde
coeficienii a1, a2,......an, i considerm necunoscute i ne propunem s i aflm, iar indicele i ne indic msurtoarea,
adic:
La msurtoarea 1 se obin valorile X 11 , X 12 ,....... X 1m , iar pentru Y valoarea Y1
La msurtoarea 2 se obin valorile X 21 , X 22 ,....... X 2m , iar pentru Y valoarea Y2
......................................................................................
1
y
n
a1 X i1 a 2 X i2
i 1
4. Chestiuni de examen
1. Coeficientul de corelaie msoar:
1. tria mprtierii datelor unei serii statistice
2. tria corelaiei ntre medie i median
3. tria corelaiei ntre doi parametri exprimai numeric
4. tendina de cretere sau descretere simultan sau invers a doi parametri.
2. Coeficientul de corelaie calculat pentru doi parametri msurai la 429 de pacieni este 0,829. Aceasta nseamn c:
1. cei doi parametri nu sunt corelai
2. cei doi parametri sunt slab corelai
3. cei doi parametri sunt puternic corelai
4. sunt prea puine cazuri i nu avem ncredere n valoarea coeficientului
3. Coeficientul de corelaie calculat pentru doi parametri msurai la 429 de pacieni este -0,925. Aceasta nseamn c:
1. cei doi parametri nu sunt corelai
2. cei doi parametri sunt anticorelai
3. cei doi parametri sunt slab corelai
10
12