Sunteți pe pagina 1din 9

19 REGRESIE - CORELAŢIE

Noţiuni prezentate:
 Regresie liniară şi corelaţie

În ştiinţele experimentale şi, în particular, în medicină şi biologie,


interesează nu numai variaţia unui singur parametru, ci şi a doi parametri,
cantitativi, despre care presupunem că se influenţează unul pe altul. De
exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie între
greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului, etc.
Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi joacă
un rol important în ştiinţele vieţii, şi în particular în medicină. Cel mai simplu
caz de corelaţie este corelaţia liniară, unde una dintre mărimi variază
proporţional cu alta, ambele mărimi fiind numerice sau cantitative [16].
Pentru a se determina o expresie precisă a influenţei pe care unul
dintre parametri îl exercită asupra celuilalt în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.
Astfel, pentru un eşantion dintr-o populaţie dată, se calculează:
mediile aritmetice ale celor doi parametri analizaţi, x şi y , precum şi
abaterile de la medie ale valorilor individuale, x  x şi y  y . Variaţia
proporţională a celor doi parametri x, y este exprimată din punct de vedere
matematic prin faptul că suma produselor abaterilor de la medie ale celor doi
parametri este un număr pozitiv:
 ( x  x)( y  y)  0 .
Analog, variaţia invers proporţională a celor doi parametri x, y este
exprimată prin faptul că suma produselor abaterilor de la medie ale celor doi
parametri este un număr negativ:
 (x  x)  ( y  y)  0 .
iar absenţa oricărei influenţe între cei doi parametri este exprimată prin faptul
că această expresie este egală sau tinde spre 0:
 ( x  x)( y  y)  0 .
Pentru a se da o semnificaţie mai generală acestei sume, ea se
raportează la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă,
COV(x, y) [16]:

P
 ( x  x)( y  y) .
N
Bibliografie | 1
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi
parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între
două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă
de regresie” şi de asemenea poate fi descrisă precis din punct de vedere
matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus,
va fi:

y  y  a x ( x  x) , unde a x 
 ( x  x)( y  y) =
𝐶𝑂𝑉(𝑥,𝑦)
.
 ( x  x) 2 𝜎𝑥2
ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară
panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare sau
mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă
ascendentă sau descendentă de la stânga la dreapta.

În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de


regresie a lui x în raport cu y, care corespunde ecuaţiei:

x  x  a y  ( y  y) , unde a y 
 ( y  y)( x  x) 𝐶𝑂𝑉(𝑥,𝑦)
= .
 ( y  y) 2 𝜎𝑦2
ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta
dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai mic
decât y.

Pe baza acestor doi coeficienţi liniari de regresie ai lui y în x,


respectiv x în y, se defineşte produsul r  a x  a y (media geometrică a celor
2

două pante de regresie); acest parametru se numeşte coeficientul corelaţiei


liniare, sau coeficientul de corelaţie Pearson. Formula de calcul a
coeficientului de corelaţie liniară va fi [16]:
𝐶𝑂𝑉(𝑥, 𝑦) 𝐶𝑂𝑉(𝑥, 𝑦)
𝑟 2 = 𝑎 𝑥 ∙ 𝑎𝑦 ⟹ 𝑟 2 = ∙
𝜎𝑥2 𝜎𝑦2
𝐶𝑂𝑉(𝑥, 𝑦) ∑(𝑥 − 𝑥) ∙ (𝑦 − 𝑦)
⟹𝑟= =
𝜎𝑥 ∙ 𝜎𝑦 √∑(𝑥 − 𝑥)2 ∙ ∑(𝑦 − 𝑦)2
Coeficienţii de corelaţie Pearson reprezintă măsura intensităţii
legăturii liniare între două variabile şi au valori cuprinse între -1 şi 1. Valorile
apropiate de 0 indică absenţa corelaţiei între variabilele respective, iar
valorile apropiate de 1 sau de -1 indică prezenţa unei corelaţii puternice între
variabile.
Valorile negative indică prezenţa unei corelaţii invers proporţionale
(atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile
scad corespunzător), iar valorile pozitive indică prezenţa unei corelaţii direct

2 | Bibliografie
proporţionale (atunci când valorile uneia dintre variabile cresc, valorile
celeilalte variabile cresc şi ele).

Colton (1974) a indicat următoarele reguli empirice pentru


interpretarea coeficienţilor de corelaţie:
 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă
sau foarte slabă,
 Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
 Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
 Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.

Exemple:

1. Determinaţi coeficienţii de corelaţie între Vârstă, Greutate şi


Glicemie la momentul 0, pentru a putea afla dacă vârsta sau
greutatea influenţează în vreun fel valorile Glicemiei.

Una dintre condiţiile necesare pentru a putea calcula coeficienţii de


corelaţie este ca variabilele pentru care dorim să îi calculăm să fie situate în
coloane învecinate – condiţie realizată în cazul tabelului nostru – altfel,
coloanele respective ar trebui copiate şi rearanjate separat.
Se selectează comanda Data / Data Analysis / Correlation:

Se specifică şirul de celule în


care se află valorile
variabilelor pentru care
dorim să calculăm coeficienţii
de corelaţie.

Se specifică
specificămodul decelule
şirul de grupare în
acarevalorilor
se – află
în coloane în
valorile
cazul de faţă. pentru care
variabilelor
dorim să calculăm coeficienţii
de specifică
Se corelaţie.
bifează modul
când deîngrupare
prima
acelulă
valorilor – în coloane
din fiecare coloană se în
cazulnumele
află de faţă.variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia


Se bifează cândde în
calcul
prima
curentă, pe o nouă foaie de calcul saucelulă
chiardin
într-un registru
fiecare de se
coloană
calcul nou. află numele variabilei.

Figura 19-1. Fereastra corespunzătoare


Se precizează calculului
locul de afişare coeficienţilor
a rezultatelor de corelaţiei
– pe foaia de calcul
curentă, pe o nouă foaie de calcul sau chiar într-un registru de
calcul nou.
Bibliografie | 3
Rezultatele sunt afişate după cum urmează:

Figura 19-2. Modul de prezentare a rezultatului corelaţiei

Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine


coeficienţii de corelaţie Pearson între toate perechile posibile de variabile
selectate prin comandă.
În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci
pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.

2. Determinaţi coeficienţii de covarianţă între Vârstă, Greutate şi


Glicemie la momentul 0, pentru a putea afla dacă vârsta sau
greutatea influenţează în vreun fel valorile Glicemiei.

După cum am arătat, covarianţa este o măsură premergătoare


calculului coeficienţilor de corelaţie între două variabile, definită ca media
produselor deviaţiilor pentru fiecare pereche de puncte. Spre deosebire de
coeficientul de corelaţie, coeficientul de covarianţă nu aparţine unui interval
dat de valori, putând lua ca valoare orice număr real.
Se selectează comanda Data / Data Analysis / Covariance:

Se specifică şirul de celule în care se află


valorile variabilelor pentru care dorim să
calculăm coeficienţii de covarianţă.

Se specifică modul
şirul dedecelule în care
grupare se află
a valorilor
valorile variabilelor pentru
– în coloane în cazul de faţă. care dorim să
calculăm coeficienţii de covarianţă.
Se specifică
bifează modul
când deîn grupare a valorilor
prima celulă din
– în coloane
fiecare în cazul
coloană denumele
se află faţă. variabilei.

Se bifează când în prima celulă din


Se precizează locul
fiecare de afişare
coloană a rezultatelor
se află – pe
numele variabilei.
foaia de calcul curentă, pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.
Figura 19-3. Fereastra corespunzătoare calculului covarianţei
Se precizează locul de afişare a rezultatelor – pe
Covarianţa se foloseşte pentru
foaiaade
determina doarpenatura
calcul curentă, o nouă legăturii între
foaie de calcul
sau chiar într-un registru de calcul nou.
cele 2 variabile: valorile pozitive ale ei indică o legătură direct proporţională

4 | Bibliografie
între variabile, valorile negative indică o legătură invers proporţională, iar
valorile apropiate de 0 indică absenţa unei influenţe între cele două variabile.
Rezultatele sunt afişate după cum urmează:

Figura 19-4. Modul de prezentare a rezultatului calculului covarianţei

Între toate cele 3 variabile există o legătură direct proporţională, mai


accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi
Vârstă (6.3772), respectiv Greutate (7.7596).

3. Construiţi modelul de regresie liniară între Vârstă şi Glicemie la


mom. 0, respectiv Greutate şi Glicemie la mom. 0, pentru a
determina modul în care aceste variabile influenţează valorile
Glicemiei. Comentaţi rezultatele obţinute şi realizaţi reprezentarea
grafică corespunzătoare (de tip SCATTER).
Se selectează comanda Data / Data Analysis / Regression:
Se specifică şirul de celule în
care se află valorile
variabilei dependente/
influenţate - Glicemia.

Se
Se specifică
specifică şirul
şirul de
de celule
celule în
în
care
care se se aflăaflă valorile
valorile
variabilei
variabilei independente/
dependente/
care influenţează
influenţate - Vârsta.
- Glicemia.
Se bifează şirul
Se specifică cânddeîncelule
primaîn
celulă din fiecare coloană
care se află valorile se
află numele variabilei.
variabilei independente/
care influenţează - Vârsta.
Se
Se vor calcula
bifează şi intervalele
când în prima
de încredere 95% în jurul
celulă din fiecare coloană se
dreptei de regresie.
află numele variabilei.

Se vor calcula şi intervalele


Se precizează locul de afişare de
a rezultatelor
încredere –95%
pe foaia de
în jurul
calcul curentă, pe o nouă foaiedreptei
de calcul sau chiar
de regresie. într-un
registru de calcul nou.

Figura 19-5. Fereastra corespunzătoare regresiei


Se precizează locul de afişare a rezultatelor – pe foaia de
Rezultatele sunt afişate
calcul după cum
curentă, pe ourmează:
nouă foaie de calcul sau chiar într-un
registru de calcul nou.
Bibliografie | 5
Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie)

Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă
şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă
proporţia din variaţia variabilei Y (Glicemie) care este explicată de
influenţa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor medii
ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară (7.9118 – de
asemeni foarte mică, dar nu pentru că modelul de regresie este bun,
ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care
afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel
de corelaţie între cele 2 variabile). Pentru a se verifica testul respectiv, se
calculează statistica F=0.234971 şi nivelul său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta
dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o
relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este
CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie
semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult
mai mare decât celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi
Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:
- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât
semnifică o dreaptă mai înclinată, deci o legătură mai puternică; când

6 | Bibliografie
panta are o valoare pozitivă, atestă o corelaţie direct proporţională
între cele 2 variabile, în timp ce atunci când are o valoare negativă,
atestă o corelaţie invers proporţională între cele 2 variabile.
- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în
care dreapta intersectează axa verticală.
Reprezentarea grafică se realizează folosind comanda SCATTER, în
care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală
variabila dependentă (influenţată de cealaltă):

150
Corelatia intre Varsta si Glicemie
140
Glicemie

130
120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie

Pentru a se figura pe acest


grafic ecuaţia dreptei de regresie,
se selectează punctele din norul
de puncte, după care se activează
meniu-ul personalizat (click
dreapta) din care se alege
opţiunea „Add trendline…”.
Se bifează tipul de regresie
dorit – Linear, şi opţiunile
- Display Equation on chart:
pentru afişarea pe grafic a
ecuaţiei dreptei de regresie,
- Display R-squared value on
chart: pentru afişarea pe grafic a
coeficientului de determinare.

Figura 19-8. Modul de setare


pentru afişarea dreptei de regresie
Graficul care se obţine va fi:

Bibliografie | 7
Corelatia intre Varsta si Glicemie
150
Se vede clar din ecuaţia
140 dreptei de regresie că practic
Glicemie

130 Vârsta nu influenţează deloc


120 Glicemia, dreapta fiind
aproape paralelă cu axa
110
orizontală.
100
y = 0.0461x + 125.54
90 R² = 0.0049Se vede clar din ecuaţia
80 dreptei de regresie că practic
0 20 40 60 80 Vârsta nu influenţează deloc
Varsta Glicemia, dreapta fiind
aproape paralelă
Figura 19-9. Reprezentarea grafică a dreptei de regresie cu axa
orizontală.

Construim similar modelul de regresie liniară între Greutate şi


Glicemie la momentul 0.
Rezultatele obţinute vor fi:

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaţie între Greutate şi Glicemie la momentul 0


este cel deja cunoscut, R = 0.0660, fiind de asemenea foarte mic.
Testul ANOVA de caracterizare a pantei dreptei de regresie
furnizează de asemenea un coeficient de încredere p = 0.6487 > 0.05, care
conduce la concluzia că panta dreptei de regresie este aproape egală cu 0, iar
ecuaţia dreptei de regresie, aşa cum rezultă din calcule, va fi y = 0.0339x +
124.3388, adică o dreaptă de regresie din nou aproape paralelă cu axa
orizontală – fapt deja anticipat de valoarea coeficientului de corelaţie şi de
rezultatul testului ANOVA.

8 | Bibliografie
Aceste elemente sunt de asemenea confirmate de reprezentarea
grafică corespunzătoare:

Corelatia intre Greutate si Glicemie la mom. 0


160
140
120
Glicemie

100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)

Bibliografie | 9

S-ar putea să vă placă și