Sunteți pe pagina 1din 8

REGRESIE LINIARĂ ŞI CORELAŢIE

În ştiinţele experimentale şi, în particular, în medicină şi biologie, interesează nu


numai variaţia unui singur parametru, ci şi a doi parametri, cantitativi, despre care
presupunem că se influenţează unul pe altul. De exemplu, dorim să ştim dacă există într-o
grupă de subiecţi o relaţie între greutate şi înălţime, între tensiunea arterială şi valoarea
colesterolului, etc. Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi
joacă un rol important în ştiinţele vieţii, şi în particular în medicină. Cel mai simplu caz de
corelaţie este corelaţia liniară, unde una dintre mărimi variază proporţional cu alta, ambele
mărimi fiind numerice sau cantitative [16].
Pentru a se determina o expresie precisă a influenţei pe care unul dintre parametri îl
exercită asupra celuilalt în cazul unei variaţii proporţionale a acestora, statisticienii folosesc
noţiunea de covarianţă.
Astfel, pentru un eşantion dintr-o populaţie dată, se calculează: mediile aritmetice
ale celor doi parametri analizaţi, x şi y , precum şi abaterile de la medie ale valorilor
individuale, x  x şi y  y . Variaţia proporţională a celor doi parametri x, y este exprimată
din punct de vedere matematic prin faptul că suma produselor abaterilor de la medie ale
celor doi parametri este un număr pozitiv:
 ( x  x)( y  y)  0 .
Analog, variaţia invers proporţională a celor doi parametri x, y este exprimată prin
faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr
negativ:
 (x  x)  ( y  y)  0 .
iar absenţa oricărei influenţe între cei doi parametri este exprimată prin faptul că această
expresie este egală sau tinde spre 0:
 ( x  x)( y  y)  0 .
Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează la numărul
de cazuri N, definindu-se astfel noţiunea de covarianţă, COV(x, y) [16]:

P
 ( x  x)( y  y) .
N
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între două variabile
este caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi de asemenea
poate fi descrisă precis din punct de vedere matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus, va fi:

y  y  a x ( x  x) , unde a x 
 ( x  x)( y  y) =
𝐶𝑂𝑉(𝑥,𝑦)
.
 ( x  x) 2 𝜎𝑥2

ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară panta dreptei D
pe orizontala Ox. Indică de câte ori în medie y este mai mare sau mai mic decât x. Este pozitiv sau
negativ după cum dreapta are o pantă ascendentă sau descendentă de la stânga la dreapta.

În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de regresie a lui x


în raport cu y, care corespunde ecuaţiei:
x  x  a y  ( y  y) , unde a y 
 ( y  y)( x  x) =
𝐶𝑂𝑉(𝑥,𝑦)
.
 ( y  y) 2 𝜎𝑦2

ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta dreptei D pe verticala
Oy. Indică de câte ori în medie x este mai mare sau mai mic decât y.

Pe baza acestor doi coeficienţi liniari de regresie ai lui y în x, respectiv x în y, se


defineşte produsul r  a x  a y (media geometrică a celor două pante de regresie); acest
2

parametru se numeşte coeficientul corelaţiei liniare, sau coeficientul de corelaţie Pearson.


Formula de calcul a coeficientului de corelaţie liniară va fi [16]:
𝐶𝑂𝑉(𝑥, 𝑦) 𝐶𝑂𝑉(𝑥, 𝑦)
𝑟 2 = 𝑎𝑥 ∙ 𝑎𝑦 ⟹ 𝑟 2 = ∙
𝜎𝑥2 𝜎𝑦2
𝐶𝑂𝑉(𝑥, 𝑦) ∑(𝑥 − 𝑥) ∙ (𝑦 − 𝑦)
⟹𝑟= =
𝜎𝑥 ∙ 𝜎𝑦 √∑(𝑥 − 𝑥)2 ∙ ∑(𝑦 − 𝑦)2
Coeficienţii de corelaţie Pearson reprezintă măsura intensităţii legăturii liniare între
două variabile şi au valori cuprinse între -1 şi 1. Valorile apropiate de 0 indică absenţa
corelaţiei între variabilele respective, iar valorile apropiate de 1 sau de -1 indică prezenţa
unei corelaţii puternice între variabile.
Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci când
valorile uneia dintre variabile cresc, valorile celeilalte variabile scad corespunzător), iar
valorile pozitive indică prezenţa unei corelaţii direct proporţionale (atunci când valorile
uneia dintre variabile cresc, valorile celeilalte variabile cresc şi ele).

Colton (1974) a indicat următoarele reguli empirice pentru interpretarea


coeficienţilor de corelaţie:
 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă sau foarte slabă,
 Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie acceptabilă,
 Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie moderată spre bună,
 Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.

Exemple:

1. Determinaţi coeficienţii de corelaţie între Vârstă, Greutate şi Glicemie la


momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel
valorile Glicemiei.

Una dintre condiţiile necesare pentru a putea calcula coeficienţii de corelaţie este ca
variabilele pentru care dorim să îi calculăm să fie situate în coloane învecinate – condiţie
realizată în cazul tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate
separat.
Se selectează comanda Data / Data Analysis / Correlation:
Se specifică şirul de celule în
care se află valorile
variabilelor pentru care
dorim să calculăm
coeficienţii de corelaţie.

Se specifică
specifică
şirul modul
de celule de
în
grupare
care sea valorilor
află – în
valorile
coloane în cazulpentru
variabilelor de faţă. care
dorim să calculăm
coeficienţii
Se de
specifică corelaţie.
modul
bifează când în prima de
grupare a valorilor –
celulă din fiecare coloană se în
coloane
află în cazul
numele de faţă.
variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia


Se bifează cânddeîncalcul
prima
curentă, pe o nouă foaie de calcul saucelulă
chiardin
într-un registru
fiecare de se
coloană
calcul nou. află numele variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul


curentă,
Figura 19-1. pe o nouă
Fereastra foaie de calcul calculului
corespunzătoare sau chiar într-un registru de
coeficienţilor de corelaţiei
calcul nou.
Rezultatele sunt afişate după cum urmează:

Figura 19-2. Modul de prezentare a rezultatului corelaţiei

Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine coeficienţii de


corelaţie Pearson între toate perechile posibile de variabile selectate prin comandă.
În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci pozitivă,
acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697), respectiv glicemie şi greutate
(0.0660) sunt practic nule.

2. Determinaţi coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie la


momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel
valorile Glicemiei.

După cum am arătat, covarianţa este o măsură premergătoare calculului


coeficienţilor de corelaţie între două variabile, definită ca media produselor deviaţiilor
pentru fiecare pereche de puncte. Spre deosebire de coeficientul de corelaţie, coeficientul de
covarianţă nu aparţine unui interval dat de valori, putând lua ca valoare orice număr real.
Se selectează comanda Data / Data Analysis / Covariance:
Se specifică şirul de celule în care se află
valorile variabilelor pentru care dorim
să calculăm coeficienţii de covarianţă.

Se specifică
specificăşirulmodul
de celule
deîn grupare
care se află
a
valorile variabilelor pentru care dorim
valorilor – în coloane în cazul de faţă.
să calculăm coeficienţii de covarianţă.
Se bifează
specificăcândmodul de grupare
în prima celulă dina
valorilor – în coloane în cazul
fiecare coloană se află numele de faţă.
variabilei.

Se precizează locul de când


Se bifează afişareîna rezultatelor
prima celulă– pe
din
foaia de calcul curentă,
fiecare pe o nouă
coloană se foaie
află de numele
calcul
sau chiar într-un registru de calcul nou.
variabilei.
Figura 19-3. Fereastra corespunzătoare calculului covarianţei
Se precizează locul de afişare a rezultatelor – pe
foaia de calcul curentă, pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.
Covarianţa se foloseşte pentru a determina doar natura legăturii între cele 2 variabile:
valorile pozitive ale ei indică o legătură direct proporţională între variabile, valorile negative
indică o legătură invers proporţională, iar valorile apropiate de 0 indică absenţa unei
influenţe între cele două variabile.
Rezultatele sunt afişate după cum urmează:

Figura 19-4. Modul de prezentare a rezultatului calculului covarianţei

Între toate cele 3 variabile există o legătură direct proporţională, mai accentuată între
Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi Vârstă (6.3772), respectiv
Greutate (7.7596).

3. Construiţi modelul de regresie liniară între Vârstă şi Glicemie la mom. 0, respectiv


Greutate şi Glicemie la mom. 0, pentru a determina modul în care aceste variabile
influenţează valorile Glicemiei. Comentaţi rezultatele obţinute şi realizaţi
reprezentarea grafică corespunzătoare (de tip SCATTER).
Se selectează comanda Data / Data Analysis / Regression:
Se specifică şirul de celule
în care se află valorile
variabilei dependente/
influenţate - Glicemia.

Se
Se specifică
specifică şirul
şirul de celule
de celule
în care se află valorile
în care se află valorile
variabilei
variabilei independente/
dependente/
care influenţează - Vârsta.
influenţate - Glicemia.
Se bifează când
Se specifică în celule
şirul de prima
celulă din fiecare coloană
în care se află valorile
se află numele
variabilei variabilei.
independente/
care influenţează - Vârsta.
Se
Se vor calcula
bifează şi intervalele
când în prima
de încredere
celulă 95% coloană
din fiecare în jurul
dreptei
se de regresie.
află numele variabilei.

Se vor calcula şi intervalele


Se precizează locul de afişare de
a rezultatelor
încredere –95%
pe foaia de
în jurul
calcul curentă, pe o nouă foaiedreptei
de calcul sau chiar într-un
de regresie.
registru de calcul nou.

Figura 19-5. Fereastra corespunzătoare regresiei


Se precizează locul de afişare a rezultatelor – pe foaia de
calcul curentă, pe o nouă foaie de calcul sau chiar într-un
registru de calcul nou.
Rezultatele sunt afişate după cum urmează:

Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie)

Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă proporţia din
variaţia variabilei Y (Glicemie) care este explicată de influenţa liniară a variabilei X
(0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor medii ale variabilei
Y (Glicemie) prin ecuaţia de regresie liniară (7.9118 – de asemeni foarte mică, dar nu
pentru că modelul de regresie este bun, ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care afirmă că panta
dreptei de regresie este egală cu 0 (deci nu există nici un fel de corelaţie între cele 2
variabile). Pentru a se verifica testul respectiv, se calculează statistica F=0.234971 şi nivelul
său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de
regresie este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y.
Dacă p>0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie este 0
şi nu există nici o relaţie semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult mai mare decât
celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:
- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât semnifică o
dreaptă mai înclinată, deci o legătură mai puternică; când panta are o valoare
pozitivă, atestă o corelaţie direct proporţională între cele 2 variabile, în timp ce atunci
când are o valoare negativă, atestă o corelaţie invers proporţională între cele 2
variabile.
- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în care dreapta
intersectează axa verticală.
Reprezentarea grafică se realizează folosind comanda SCATTER, în care pe axa
Orizontală se pune variabila independentă, iar pe cea Verticală variabila dependentă
(influenţată de cealaltă):

150
Corelatia intre Varsta si Glicemie
140
Glicemie

130
120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie
Pentru a se figura pe acest grafic ecuaţia
dreptei de regresie, se selectează punctele din
norul de puncte, după care se activează meniu-ul
personalizat (click dreapta) din care se alege
opţiunea „Add trendline…”.
Se bifează tipul de regresie dorit – Linear, şi
opţiunile
- Display Equation on chart: pentru
afişarea pe grafic a ecuaţiei dreptei de regresie,
- Display R-squared value on chart:
pentru afişarea pe grafic a coeficientului de
determinare.

Figura 19-8. Modul de setare pentru afişarea dreptei de regresie


Graficul care se obţine va fi:

Corelatia intre Varsta si Glicemie


150
Se vede clar din ecuaţia
140 dreptei de regresie că practic
Glicemie

130 Vârsta nu influenţează deloc


120 Glicemia, dreapta fiind
aproape paralelă cu axa
110
orizontală.
100
y = 0.0461x + 125.54
90 R² = 0.0049 Se vede clar din ecuaţia
80 dreptei de regresie că practic
0 20 40 60 80 Vârsta nu influenţează deloc
Varsta Glicemia, dreapta fiind
Figura 19-9. Reprezentarea grafică a dreptei de regresie axa
aproape paralelă cu
orizontală.

Construim similar modelul de regresie liniară între Greutate şi Glicemie la momentul 0.


Rezultatele obţinute vor fi:

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaţie între Greutate şi Glicemie la momentul 0 este cel deja


cunoscut, R = 0.0660, fiind de asemenea foarte mic.
Testul ANOVA de caracterizare a pantei dreptei de regresie furnizează de
asemenea un coeficient de încredere p = 0.6487 > 0.05, care conduce la concluzia că panta
dreptei de regresie este aproape egală cu 0, iar ecuaţia dreptei de regresie, aşa cum rezultă
din calcule, va fi y = 0.0339x + 124.3388, adică o dreaptă de regresie din nou aproape
paralelă cu axa orizontală – fapt deja anticipat de valoarea coeficientului de corelaţie şi de
rezultatul testului ANOVA.
Aceste elemente sunt de asemenea confirmate de reprezentarea grafică
corespunzătoare:

Corelatia intre Greutate si Glicemie la mom. 0


160
140
120
Glicemie

100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)

S-ar putea să vă placă și