Sunteți pe pagina 1din 12

Corelaţie parţială

1. Exemplu introductiv.
2. Generalizarea noţiunii de corelare parţială.
3. Relaţia între coeficienţii de corelaţie simplă, parţială şi multiplă.
Cum se determină mixul optimal de variabile explicative? Formulată în termeni
statistici această întrebare se reduce la găsirea variabilelor explicative care
maximizează coeficientul lor de corelare cu seria de explicat, acestea fiind puţin
corelate între ele.
Mai întâi se va prezenta noţiunea de corelare parţială care permite determinarea
aportului relativ al fiecărei serii explicative la explicarea seriei endogene.
Un comerciant de îngheţată situat aproape de turnul Eiffel, doreşte să calculeze
coeficientul de corelare între vânzările sale (x1) şi numărul de turişti care vizitează
acest monument (x2). Aceste două variabile sunt influenţate de climă: consumul de
îngheţată este mai important atunci când e cald şi turiştii sunt puţin predispuşi să
viziteze un monument exterior când este frig sau pe timp de ploaie, această
variabilă (x3 ) se numeşte variabilă climaterică.
Putem considera corelarea între x1 şi x2 ca fiind pozitivă, totuşi un calcul al
coeficientului de corelare simplă nu e ne poate permite să aflăm nivelul real de
legătură între aceste două variabile; de fapt variabila clima influenţează vânzarea
îngheţatei, precum şi frecvenţa turiştilor. Adică, coeficientul de corelare simplu
calculat astfel însumează aportul variabilităţii condiţiilor climaterice fără a putea
izola influenţa relativă a numărului de turişti.
Coeficientul de corelare parţială măsoară legătura între două variabile, în timp
ce influenţa unei a tria variabile este retrasă.
În exemplul nostru, putem calcula trei coeficienţi de corelaţia simplă:
r12 = coeficientul de corelare între x1 şi x2 ;
r13 = coeficientul de corelare între x1 şi x3 ;
r23 = coeficientul de corelare între x2 şi x3.
şi doi coeficienţi de corelare parţială:
r12.3 = coeficient de corelare parţială între x1 şi x2, influenţa lui x3 fiind retrasă;

1
r13.2 = coeficientul de corelare parţială între x1 şi x3 , influenţa lui x2 fiind retrasă.
2. Generalizarea noţiunii de corelare parţială
Coeficientul de corelare parţială măsoară legătura între două variabile atunci
când influenţa uneia sau mai multor variabile explicative este retrasă.
Fie y o variabilă de explicat, şi x1, x2 şi x3 variabile explicative:

r 2 y , x1 , r 2 y , x 2 , şi r 2 y , x 3 măsoară respectiv varianţa lui y


explicată prin variabila x1 singură, x2 singură şi x3 singură.

Se pot calcula şase coeficienţi de corelare parţială de prim ordin: r 2 yx1x 2 ;

2
r 2 yx1x3 ; r yx 2x3 ; r yx2  x1
2
r 2 yx 3x1 ; r 2 yx3x 2 ; precum şi trei
coeficienţi de corelare parţială de ordinul doi:

2 2 2
r yx1x 2 x 3 ,
r yx 2 x1x 3 ,
r yx 3 x1x 2 Această noţiune de
corelare parţială este foarte importantă pentru că permite de a judeca pertinenţa de
includere a unei variabile explicative într-un model.
Cu cât coeficientul de corelare parţială este mai mare, cu atât contribuţia acestei
variabile este mai importantă pentru explicarea globală a modelului.
Coeficientul de corelare parţială se poate calcula în două moduri, începând cu:
1) Coeficientul de corelare simplă
- Între reziduul regresiei variabilei de explicat în subansamblul compus din k-
1 alte variabile explicative;
- Şi reziduul regresiei variabilei explicative xi, în k-1 variabile explicative.

- Exemplu de calcul a r 2 yx3 . x1x 2


Etapa 1: calcularea reziduului e1 regresiei y asupra x1 şi x2

e = y − (aˆ0 + aˆ1 x1 + aˆ2 x2 )


: 1

2
Etapa 2: calcularea reziduului e2 regresiei lui y asupra x1 şi

x2 : e2 = x3 − (aˆ 0 + aˆ1 x1 + aˆ 2 x2 )
Etapa 3: calcularea coeficientului de corelare simplă între e1 şi

e2 :
r 2
yx 3 x1x 2 =r 2
e1e 2
2) t Student
Într-un model cu k variabile explicative, există o relaţie între coeficientul de
corelare parţială şi t Student :
2
ti
r yxi( altevar iabile) = 2
2

t i + (n − k − 1)
Atenţie: această relaţie nu este verificată decât pentru un coeficient de corelare
parţială de ordinul (k-1).
Caz particular : relaţia între trei variabile.
În cazul unei relaţii între trei variabile x1, x2 şi x3 , există o relaţie între coeficienţii
de corelare parţială şi simplă.
r12.3 = coeficient de corelare parţială între x1 şi x2 , influenţa lui x3 fiind retrasă, el
se egalează cu:

r12 − (r13 )(r23 )


r12.3 =
(1 − r )(1 − r )
2
13
2
23

r13.2 = coeficient de corelare parţială între x1 şi x3, influenţa lui x2 fiind retrasă, el se
egalează cu:

r13 − (r12 )(r23 )


r13.2 =
(1 − r )(1 − r )
2
12
2
23

3) Relaţia între coeficienţi de corelare simplă, parţială şi multiplă.

3
În cazul unui model cu o singură variabilă explicativă x1, suma pătratelor
reziduurilor este egală cu:

( )
SCR =  e2t =  ( yt − y ) 1 − R 2 y. x1 =  ( yt − y ) 1 − r 2 yx1
2 2
( )
t t

R 2 y. x1 = coeficient de determinare a regresiei lui y asupra lui x1 .


Să presupunem un model cu două variabile explicative:

y=a
ˆ0 + a
ˆ1 x1 + a
ˆ 2 x2 + e
Suma pătratelor reziduurilor, după retragerea influenţei lui x1 şi x2, este egală cu:

SCR =  et2 =  ( yt − y ) 1 − R 2 y. x1x 2


2
( )
R 2 yx1x 2 - coeficient de determinare a regresiei lui y asupra lui x şi x .1 2

r 2 yx 2. x1 este proporţia reziduului explicată prin variabila x2 singură,


această ultimă expresie se poate deci scrie:

(
 ty − y ) (
1 − R
2
yx1 x 2 ) =
2
(
1 − r yx 2 x1 ) 2
(
 ty − y ) (
1 − r 2
yx1 )
2

Sau:

1 − R 2 y . x1x 2 = (1 − ryx 2. x1 ) 1 − r 2 yx1 ( )


Avem, astfel, descompunerea influenţei relative a fiecărei variabile, aportul lui
x2 asupra y atunci când influenţa lui x1 este retrasă şi aportul lui x1 asupra y (unii
autori folosesc termenul de randament pentru a califica aceste aporturi relative).
Această formulă poate fi generalizată pentru un model cu trei variabile
explicative:

4
1− R 2
y. x1x 2 x3 (
= 1− r 2
yx1 )(1− r )(1− r
2
yx 2. x1
2
yx 3. x1x 2 )
Pentru un model cu patru variabile explicative se obţine:

( )( )( )(
1 − R2 y.x1x 2 x3x 4 = 1 − r 2 yx1 1 − r 2 yx 2.x1  1 − r 2 yx3.x1x 2 1 − r 2 yx 4.x1x 2 x3 )
Trebuie, deci, de notat ca indicii pot schimba ordinea relaţiei precedente în 3,4,1,2,
ea devenind:

( )( )( )(
1 − R2 y.x1x 2 x3x 4 = 1 − r 2 yx3 1 − r 2 yx 4.x3  1 − r 2 yx1.x3x 4 1 − r 2 yx 2.x1x3x4 ) .
Multicolinearitate
1. Consecinţele multicolinearităţii.
2. Teste de detecţie a multicolinearităţii.
2.1. Test Klein L.R. (1962)
2.2. Test Farrar D.E. şi Glauber R.R. (1967)
3. Micşorarea multicolinearităţii.
4. Selectarea variabilelor explicative.

Termenul de multicolinearitate este folosit în cazul unui model care conţine


serii explicative legate între ele.

Contrar, pentru seriile explicative cu covarianţă nulă (cov (x1 , x 2 ) = 0) , le


vom numi ortogonale. Dacă, pentru studii teoretice, putem presupune că două serii
statistice sunt ortogonale, în practică, când economistul modelează fenomenele
economice, seriile explicative sunt mereu mai mult sau mai puţin legate între ele.
Multicolinearitatea are trei consecinţe principale asupra coeficienţilor de regresie estimaţi :
a) Creşterea varianţei estimate a unor coeficienţi
Varianţa coeficienţilor este cu atât mai mare, cu cât gradul de multicolinearitate este mai
ridicat. O dispersie mai mare a coeficienţilor de regresie implică o împrăştiere mai mare a
norului de puncte dat de observaţiile statistice, ceea ce conduce la un grad de eroare mai
mare al regresiei.
b) Instabilitatea coeficienţilor estimaţi prin metoda celor mai mici pătrate.

Multicolinearitatea este caracterizată printr-o instabilitate a estimatorilor, determinând


fluctuaţii importante ale valorilor iniţiale ale coeficienţilor regresiei, atunci când eşantionul
statistic este extins cu noi date.
5
c) singularitatea matricei XTX .

Un grad ridicat de multicolinearitate este echivalent cu o matrice singulară (determinantul ei


este nul) şi este imposibil de calculat coeficienţii de regresie.
Pentru detectarea multicolinearităţii se folosesc două teste principale.

2.1. Test Klein.

Testul Klein este fondat pe compararea coeficientului de determinare R y2


calculat pe baza modelului cu k variabile:

y = aˆ 0 + aˆ1 x1 + aˆ 2 x2 + ... + aˆ k xk + e

şi coeficienţii de corelare simplă


rx2i , x j între variabilele explicative pentru

i j .

Dacă
R 2
y  r 2
xi , x j , atunci există o presupunere a multicolinearităţii.

Nu este vorba de un test statistic în sensul unui test de ipoteze, dar doar de un
criteriu de presupunere a multicolinearităţii.
2) Test Farrar şi Glauber.
Prima etapă constă în calculul determinantului matricei coeficienţilor de
corelare între variabilele explicative.

1 rx1x 2 rx1x 3 ... rx1xk


rx 2 x1 1 rx 2 x 3 ... rx 2 xk
D=
... ... ... ... ...
rxkx1 rxkx 2 rxkx 3 ... 1

6
Atunci când valoarea determinantului D tinde spre zero, riscul
multicolinearităţii este important.
De exemplu, pentru un model cu două variabile explicative, dacă amândouă
sunt perfect corelate, determinantul D se scrie:

1 rx1x 2 1 1
D= = =0
rx 2 x1 1 1 1
În cazuri contrare, când seriile explicative sunt ortogonale, determinantul
devine:

1 rx1x 2 1 0
D= = =1
rx 2 x11 1 0 1
A doua etapă constă în efectuarea unui test 2, cu următoarele ipoteze:
H0 : D = 1 (seriile sunt ortogonale)
H1 : D  1 (seriile sunt dependente)
Valoarea empirică a lui *2 calculată începând cu eşantionul este egal cu:

 
* = − 
2 n − 1 −
1
(2 K + 5 ) * Ln D
6
unde n este mărimea eşantionului, K – numărul de variabile explicative
(termenul constant este inclus, K =k+1);
Ln – logaritmul neperian.
2 2
Dacă *   citit în tabelul cu 1/2K(K-1) grade de libertate şi cu pragul  ales, atunci ipoteza H0 este neglijată, avem,

deci, prezumţie de multicolinearitate.

Dacă *2  2, atunci acceptăm ipoteza de ortogonalitate.

3) micşorarea multicolinearităţii.
*Creşterea mărimii eşantionului:

7
Această tehnică nu este eficace decât în cazul când adaosul de observări diferă
semnificativ de cele care deja figurează în model, altfel vom avea reconducerea
mulricolinearităţii.
*«Regresia Ridge » este un răspuns pur numeric, este vorba de a transforma
matricea XTX în (XTX + cI) unde c este o constantă aleasă arbitrar care, mărind
valorile primei diagonale, reduce efectele „numerice” ale multicolineartăţii.
*Eliminarea variabilelor explicative susceptibile
Singura soluţie cu adevărat eficace constă în eliminarea seriilor explicative
susceptibile de a reprezenta aceleaşi fenomene şi, deci, de a fi corelate între ele
pentru a evita efectul măştii.
4) Selectarea variabilelor explicative.
În practică, econometria deseori se confruntă cu alegerea mai multor variabile
explicative x1,x2,…,xk candidate pentru explicarea variabilei y. Proceduri statistice
permit determinarea căror variabile trebuie de adăugat în model.
Aceste tehnici automatice de selecţie a variabilelor explicative trebuie de
manipulat cu atenţie.
Vom examina cinci metode care vor permite reţinerea variabilelor, şi anume:
- cel mai mult corelate cu variabila de explicat;
- cel mai puţin corelate între ele.
1) Metoda regresiilor multiple. Toate regresiile posibile.
Vom estima toate combinaţiile de regresii posibile ( 2k –1 posibilităţi, k număr
de variabile explicative candidate) şi modelul reţinut este cel a cărui R2 este maxim
pentru un model cu variabile explicative semnificative. Limita de utilizare a acestei
metode este legată de numărul iniţial al variabilelor explicative candidate, de
exemplu, dacă k=10, atunci numărul de combinaţii posibile este 1023.
2) Metoda eliminării progresive în amonte (« Backward Elimination »)
Această procedură constă, în modelul complet cu k variabile explicative, în
eliminarea treptată (adică reestimând ecuația după fiecare eliminare) a variabilelor
explicative a căror t Student sunt sub pragul critic. Această procedură nu se
utilizează, decât dacă prima ecuaţie poate fi efectiv estimată, ceea ce nu se

8
întâmplă deseori. De fapt, când modelul are un număr mare de variabile
explicative, riscul coliniarității între aceste variabile este ridicat şi matricea XTX
poate fi singulară.
3) Metoda eliminării progresive în aval (« Forward Regression »)
Conform acestei proceduri, la prima etapă se selecţionează variabila explicativă
al cărei coeficient d corelare simplă este variabila y, adică xj fiind această variabilă.
O a doua etapă constă în calcularea coeficienţilor de corelaţie parţială

ryx2 j xi pentru j  i şi de reţinut variabila explicativă cu coeficientul mai mare.


Selecţia se opreşte atunci când t Student a variabilelor explicative sunt inferioare
pragului critic.
4) Metoda regresiei pas cu pas (« Stepwise Regression »)
Această procedură este identică precedentei, dar că după încorporarea unei noi
variabile explicative vom examina testul t Student a fiecărei variabile explicative
selectată în prealabil şi vom elimina din model acea (acele) pentru care t Student
este inferior pragului critic.
5) Metoda regresiei etapizate ( Stagewise Regression)
Acesta este un proces de selecţie a variabilelor explicative care permit de a
minimiza intercorelaţiile între seriile explicative prin studiul reziduului.
Prima etapă: variabila explicativă a cărei coeficient de corelare simplă este cel
mai mare cu variabila y selectată, fie xi această variabilă.
A doua etapă: calculul reziduului regresiei lui y asupra lui xi :

e1 = y − aˆ 0 − aˆ1 xi
Coeficienţii de corelare simplă între reziduul e1 şi variabilele explicative sunt calculaţi, vom reţine variabila explicativă a

cărei coeficient este mai mare. Fie xj această variabilă explicativă.

A treia etapă: vom calcula un nou reziduu: e2 = y − aˆ 0 − aˆ1 xi − aˆ 2 x j

Coeficienţii de corelare simplă între reziduul e2 şi variabilele explicative sunt


calculaţi, vom reţine variabila explicativă, al cărei coeficient este mai mare, ceea ce

9
permite de a degaja un nou reziduu. Procedura este oprită atunci când coeficienţii
de corelare nu sunt semnificativ diferiţi de 0.
Practic
Etapa1: Selectăm din rezultatele anterior calculate, variabila explicativă cu cel mai
înalt coefficient de corelaţie simplă cu variabila Y, avem următoarele rezultate:
; ; ;
Cel mai înalt coefficient de corelaţie simplă cu variabila Y, este , deci
selectăm variabila explicativă X1.
Etapa2: Calculăm rezidiul corespunzător regresiei Y asupra variabilei explicative X1:
, în rezultat obţinem:

Etapa3: Determinăm coeficienţii de corelaţie simplă r, între rezidiu e şi fiecare dintre


variabilele explicative, selectăm acea variabilă a cărei coeficient este cel mai mare,
calculele le efectuăm conform demonstraţiilor anterioare sau cu ajutorul programului
Eviews , în rezultat obţinem:
; ; ;
Concluzie: În urma analizei şi calculelor efectuate am observat că în cele mai dese cazuri,
variabila explicativă X1, corespundea tuturor cerințelor necesare, deci putem spune că
variabila explicativă X1, explică cel mai bine variabila dependentă Y.
Aplicație practică

Depistam multicolinearitatea in modelul de regresiei multipla ce conține variabilele:


- variabila dependenta - PIB
- variabilele independente
o Formarea Bruta de Capital Fix (FBC)
o Consumul Final(CF)
o Variatia Stocurilor (VS)

Anul PIB Consumul Final Formarea Bruta de Capital Variatia Stocurilor


2000 16020 16503 2472 1364
2001 19052 19263 3190 1246

10
2002 22556 23289 3682 1204
2003 27619 30451 5127 1274
2004 32032 33298 6787 1656
2005 37652 41368 9258 2349
2006 44754 50972 12691 1965

Modelul estimate este: Y = 1323.173 + 0.900*X1 - 0.314*X2 + 0.940*X3

Testul Klein
Coeficientul de determinatie este R y2 = 0,995, adica 99,5% din variatia PIB-lui este

determinata de influenta acestor 3 variabile exogene alese in model.


Testul Klein presupune compararea coeficientul de determinatie cu coeficientii de corelatie
partiala a variabilelor independente.
In tabel este prezentata matricea corelatiilor partiale:
Y X1 X2 X3
Y 1.0 0.989 0.802 0.997
X1 0.989 1.0 0.825 0.986
X2 0.802 0.825 1.0 0.811
X3 0.997 0.986 0.811 1.0

Deoarece corelatiile partiale a variabilelor independente sunt mai mici decit coeficientul de
determinatie, exista prezumtia de multicolinearitate.

Testul Farrar et Glauber


Calculam determinantul matricei coeficientilor de corelatie simpla intre variabilele
independente.
D = 3,01281E-05
Deoarece determinantul tinde catre zero, exista un risc foarte mare de prezenta a
multicolinearitatii.
Efectuam testul  2 .
H0: D = 1 (seriile sunt ortogonale)
H1: D <1 (seriile sunt dependente, deci exista multicolinearitate)
1
 calc2 = −[n − 1 − (2 K + 5)]  ln D = 39,9052
6
 teor 2[ 12 K ( K −1)]; = 12,59159

Deoarece  2calc   2teor ecuatia de regresie este susceptibila de multicolinearitate.

11
Remedierea multicolinearitatii
Determinam „Numărul de condiție” care măsoare sensibilitatea estimatorilor regresiei la
schimbările mici in date. Este definit ca rădăcina patrata a raportului dintre cea mai mare si
cea mai mica valoare proprie ale matricei X’X a variabilelor explicative.
Numărul de condiție = 1 / 2 = 20,12 .
Numarul de conditie este mai mare decit 1, deci exista o multicolinearitate intre variabilele
exlicative.
• Folosind Metoda regresiilor multiple, am estimat toate cele 7 combinatii posibile de
variabile independente. Astfel modelul pentru care R2 este maximal este
Yi = 0 + 1 x1 +  , cu R2 ajustat = 0,993862.

• In cazul metodei eliminarii progresive in amonte (“Backward Elimination”), in


primul rind am eliminat a doua variabila - Formarea Bruta de Capital Fix, pentru
care valoarea testului t era cea mai mica si sub nivelul critip acceptat. Dupa
reestimarea ecuatiei, am eliminat a treia variabila, cu valoarea testului t sub nivelul
critic. Astfel am ajuns la aceeasi concluzie ca si in cazul metodei precedente, modelul
potrivit este Yi = 0 + 1 x1 +  , x1 – Consumul Final.

Y = 2910,536 + 0,833448 x1

• Metoda regresiei etapizate a adus la modelul cu doua variabile explicative –


Consumul Final si Variatia Stocurilor: Yi = 0 + 1x1 + 3 x3 + 

Y = 2405,549 + 0,8134x1 + 0,70972x3

Concluzii
Eliminarea multicolinearitatii a ajutat determinarea modelului de regresiei si eliminarea
variabilelor nereprezentative.

12

S-ar putea să vă placă și