Sunteți pe pagina 1din 8

CURSUL3

3.3. Analiza corelaţiei

Prin estimarea parametrilor funcţiei de regresie s-a finalizat


analiza de regresie, adică stabilirea formei şi sensului legăturii.
Pentru a completa analiza legăturii dintre cele două variabile, este
necesar să se determine şi intensitatea acestei legături, ceea ce
constituie obiectul analizei corelaţiei. Aceasta constă într-un
ansamblu de metode parametrice şi neparametrice de cuantificare a
gradului de concentrare sau de împrăştiere a valorilor variabilei
rezultative y în jurul curbei de regresie.
Metodele respective se aplică diferenţiat, în funcţie de natura
variabilelor studiate. Astfel, în cazul variabilelor cantitative,
măsurabile, direct cuantificabile, aşa cum sunt majoritatea
variabilelor economice, se utilizează o serie de indicatori de
corelaţie determinaţi prin calcul direct, pe baza seturilor de date
aferente variabilelor respective.
În cazul variabilelor calitative, necuantificabile în mod direct,
care presupun anumite transformări în vederea cercetării, se aplică
alte metode, specifice, cunoscute generic sub numele de metode
neparametrice de determinare a intensităţii legăturilor.

3.1.1. Analiza corelaţiei variabilelor cantitative


Cel mai general indicator al corelaţiei variabilelor cantitative
îl reprezintă covarianţa.1 Ea se utilizează ca indicator intermediar
în măsurarea intensităţii legăturii liniare între două variabile x şi y
şi cuantifică variaţia simultană a acestora, conform relaţiei:

1
CAPITOLUL 3

1 n
cov x , y     xi  x  yi  y 
n i 1 (3.3)
Determinarea covarianţei are la bază cele patru cadrane ale
graficului de corelaţie, separate de valorile medii ale celor două
variabile, prezentate în figura 3.2:

I I
i di

I I

0 X

Figura 3.2. Graficul de corelaţie

Cele patru cadrane au următoarele interpretări:


 în cadranul I, atât abaterile valorilor variabilei factoriale x
faţă de media lor, cât şi cele ale variabilei rezultative y sunt
pozitive (+ +), ceea ce sugerează o corelaţie directă;
 în cadranul II, abaterile variabilei factoriale sunt negative,
iar abaterile variabilei rezultative sunt pozitive (– +), ceea ce
sugerează o corelaţie inversă;
 în cadranul III, ambele abateri sunt negative (– –), ceea ce
arată o corelaţie directă între x şi y;
 în cadranul IV, abaterile variabilei factoriale sunt pozitive,
iar abaterile variabilei rezultative sunt negative (+ –), ceea ce arată
o corelaţie inversă între x şi y.

2
FUNDAMENTELE ANALIZEI DE REGRESIE ŞI CORELAŢIE

Cu cât predomină dispunerea punctelor în jurul uneia dintre


cele două bisectoare, cu atât intensitatea legăturii este mai mare.
Legătura este directă dacă punctele graficului de corelaţie sunt
dispuse în jurul primei bisectoare şi inversă dacă punctele sunt
dispuse în jurul celei de-a doua bisectoare.
Covarianţa prezintă dezavantajul că nu poate fi utilizată direct
pentru aprecierea intensităţii legăturii deoarece nu este un indicator
normalizat şi depinde de unităţile de măsură ale celor două
variabile.
De aceea, intensitatea legăturii simple sau multiple se
apreciază, de regulă, cu ajutorul a mai multor coeficienţi, şi anume:
coeficientul de corelaţie liniară simplă, raportul de corelaţie simplă
sau multiplă, coeficientul de determinaţie şi coeficienţii de corelaţie
sau determinaţie parţială.
Coeficientul de corelaţie liniară simplă (), propus de K.
Pearson, are următoarea relaţie de calcul:

cov x , y    xi  x  yi  y 
  i 1
 x    y  n
  xi  x   yi  y 
2 2

i 1 (3.4)

Se poate utiliza şi următoarea relaţie, dedusă din relaţia 3.4:

n n n
n  xi yi   xi  yi
 i 1 i 1 i 1

 n 2  n    n 2  n 2 
2

n  xi    xi    n  yi    yi  
 i 1  i 1    i 1  i 1   (3.5)

Coeficientul de corelaţie este o mărime adimensională, fapt


pentru care unităţile de măsură ale variabilei factoriale şi a celei
rezultative nu influenţează analiza. El oferă informaţii despre
3
CAPITOLUL 3

sensul şi intensitatea legăturii numai atunci când este vorba despre


legături liniare simple.
Valoarea coeficientului de corelaţie se situează întotdeauna în
intervalul [–1, 1] şi are următoarele semnificaţii:
 dacă valoarea coeficientului de corelaţie tinde către 1,
legătura dintre cele două variabile este puternică şi directă;
 dacă valoarea coeficientului de corelaţie tinde către –1,
legătura dintre cele două variabile este puternică şi inversă;
 dacă valoarea coeficientului de corelaţie tinde către zero, între
cele două variabile nu există legătură liniară simplă.
Coeficientul de corelaţie, deşi este un indicator foarte
important al măsurării intensităţii legăturii dintre două variabile,
prezintă dezavantajul că nu poate fi utilizat decât în cazul
regresiilor liniare simple.
Raportul de corelaţie (R) poate fi aplicat atât pentru regresii
liniare, cât şi pentru funcţii neliniare, simple sau multiple.
În cazul regresiei simple, determinarea sa este legată strâns de
descompunerea varianţei totale a variabilei rezultative (y2), care
cuantifică variaţia variabilei rezultative y datorită influenţei tuturor
factorilor care acţionează asupra sa, pe două componente:
 Varianţa explicată (2y/x), care cuantifică influenţa variabilei
factoriale x asupra variabilei rezultative y;
 Varianţa reziduală (2), care cuantifică influenţa asupra
aceleiaşi variabile rezultative y a factorilor aleatori,
nesemnificativi, neincluşi în model, notaţi generic cu .
În aceste condiţii, raportul de corelaţie se defineşte ca radical
din raportul dintre varianţa explicată (2y/x) şi varianţa totală a
variabilei rezultative (y2), conform relaţiei:

 y2 / x  2
R  1 2
 y2 y (3.5)

4
FUNDAMENTELE ANALIZEI DE REGRESIE ŞI CORELAŢIE

Raportul de corelaţie ia valori în intervalul [0,1] şi se


interpretează astfel:
 dacă raportul de corelaţie tinde către 1, legătura dintre cele două
variabile este puternică, adică variaţia variabilei rezultative
depinde în mare măsură de variaţia variabilei factoriale;
 dacă raportul de corelaţie tinde către 0, între cele două variabile
nu există legătură.
În cazul corelaţiei liniare simple, raportul de corelaţie este
egal cu coeficientul de corelaţie în valoare absolută (R =  ), fapt
ce poate fi utilizat ca test de verificare a liniarităţii legăturii.
În cazul regresiilor multiple, care implică mai multe variabile
factoriale, problema intensităţii corelaţiei presupune cercetarea în
paralel a două aspecte.
În primul rând, trebuie determinată măsura în care variabila
rezultativă este influenţată de acţiunea simultană a tuturor
variabilelor factoriale, caz în care se determină indicatori precum
raportul de corelaţie multiplă R şi coeficientul de determinaţie
multiplă R2.
În al doilea rând, este necesar să se studieze gradul de
dependenţă a variabilei rezultative în raport de fiecare variabilă
factorială, sau faţă de o parte dintre acestea, situaţie în care se
determină coeficienţii de corelaţie parţială (ryx1x2…xk) şi coeficienţii de
determinaţie parţială (dyx1x2…xk).
Raportul de corelaţie multiplă (R) măsoară intensitatea
legăturii dintre variabila rezultativă y şi două sau mai multe
variabile factoriale x1, x2, …, xk. El se determină, similar cu raportul
corelaţiei simple, ca radical din raportul dintre varianţa explicată
2yx1x2…xk şi varianţa totală a variabilei rezultative 2y, conform
relaţiei:

 yx
2
1 x2 ...x k
R
 y2 (3.6)

5
CAPITOLUL 3

Varianţa explicată reprezintă variaţia variabilei rezultative y


datorată influenţei variabilelor factoriale x1, x2, …, xk, care arată
împrăştierea valorilor estimate în jurul mediei valorilor reale ale
variabilei rezultative şi se determină după relaţia:
n

 y  y
2
i
i 1
 yx2 1x2 ...xk 
n (3.7)

Varianţa totală reprezintă variaţia variabilei rezultative y


datorată influenţei tuturor factorilor ce acţionează asupra sa
(variabile factoriale şi factori întâmplători, aleatori), care arată
împrăştierea valorilor reale ale variabilei rezultative yi în jurul
mediei lor şi se determină conform relaţiei:
n

 y  y
2
i
 y2  i 1
n (3.8)

Înlocuind cele două varianţe din relaţia 3.6 cu formulele lor


de calcul date de relaţiile 3.7 şi 3.8, se obţine o nouă relaţie a
raportului de corelaţie multiplă, astfel:

(3.9)

Mai des utilizat, însă, este pătratul raportului de corelaţie


multiplă, care poartă numele de coeficient de determinaţie multiplă
(R2), determinat după relaţia:

6
FUNDAMENTELE ANALIZEI DE REGRESIE ŞI CORELAŢIE

y  y
2
i
i 1
R2  n

y  y
2
i
i 1 (3.10)

Coeficientul de determinaţie multiplă exprimă ponderea


influenţei simultane a tuturor variabilelor factoriale în totalul
variaţiei variabilei rezultative. În aceste condiţii, ponderea
influenţei factorilor aleatori, necuprinşi în model, va fi 1 - R2
(coeficientul de nedeterminaţie). Coeficientul de determinaţie
multiplă este întotdeauna pozitiv şi ia valori în intervalul [0,1], cu
următoarele interpretări:
dacă R2 are valori apropiate de 1, înseamnă că ponderea
influenţei variabilelor factoriale în totalul variaţiei variabilei
rezultative este mare, adică există o corelaţie multiplă puternică;
dacă R2 are valori apropiate de 0, acest lucru înseamnă că
ponderea influenţei variabilelor factoriale în totalul variaţiei
variabilei rezultative este mică şi corelaţia multiplă este slabă sau
chiar inexistentă.
În practica econometrică, se consideră că există o corelaţie
multiplă dacă valoarea coeficientului de determinaţie este mai mare
de 0,6 (sau 60%, în exprimare procentuală), iar corelaţia este foarte
puternică dacă valoarea coeficientului de determinaţie este mai
mare de 0,8 (80% în exprimare procentuală).
Coeficientul de determinaţie prezintă, însă, dezavantajul că
ţine cont doar de valorile variaţiilor lui y şi yi , şi nu de volumul
eşantioanelor studiate. O soluţie de rezolvare a acestei probleme o
reprezintă utilizarea în locul variaţiilor, a estimatorilor varianţelor
aferente, calculate ca raport între variaţii şi numărul de grade de
libertate.2 Se obţine, astfel, coeficientul de determinaţie corectat
(ajustat), notat cu R 2 , după relaţia:

7
CAPITOLUL 3

 
R 2  1  1  R2 
n 1
n  k 1 (3.11)

Conform relaţiei dintre coeficientul de determinaţie R2 şi


coeficientul de determinaţie corectat R 2 se poate spune faptul că
întotdeauna între cei doi coeficienţi va exista raportul de mărime:
R2  R 2 (deoarece volumul eşantionului n şi numărul de variabile
factoriale k sunt numere întregi pozitive). Cu cât volumul
eşantionului este mai mare, cu atât cei doi coeficienţi vor avea
valori mai apropiate.

S-ar putea să vă placă și