Documente Academic
Documente Profesional
Documente Cultură
1. Exemplu introductiv.
2. Generalizarea noţiunii de corelare parţială.
3. Relaţia între coeficienţii de corelaţie simplă, parţială şi multiplă.
Cum se determină mixul optimal de variabile explicative? Formulată în termeni
statistici această întrebare se reduce la găsirea variabilelor explicative care
maximizează coeficientul lor de corelare cu seria de explicat, acestea fiind puţin
corelate între ele.
Mai întâi se va prezenta noţiunea de corelare parţială care permite determinarea
aportului relativ al fiecărei serii explicative la explicarea seriei endogene.
Un comerciant de îngheţată situat aproape de turnul Eiffel, doreşte să calculeze
coeficientul de corelare între vânzările sale (x1) şi numărul de turişti care vizitează
acest monument (x2). Aceste două variabile sunt influenţate de climă: consumul de
îngheţată este mai important atunci când e cald şi turiştii sunt puţin predispuşi să
viziteze un monument exterior când este frig sau pe timp de ploaie, această
variabilă (x3 ) se numeşte variabilă climaterică.
Putem considera corelarea între x1 şi x2 ca fiind pozitivă, totuşi un calcul al
coeficientului de corelare simplă nu e ne poate permite să aflăm nivelul real de
legătură între aceste două variabile; de fapt variabila clima influenţează vânzarea
îngheţatei, precum şi frecvenţa turiştilor. Adică, coeficientul de corelare simplu
calculat astfel însumează aportul variabilităţii condiţiilor climaterice fără a putea
izola influenţa relativă a numărului de turişti.
Coeficientul de corelare parţială măsoară legătura între două variabile, în timp
ce influenţa unei a tria variabile este retrasă.
În exemplul nostru, putem calcula trei coeficienţi de corelaţia simplă:
r12 = coeficientul de corelare între x1 şi x2 ;
r13 = coeficientul de corelare între x1 şi x3 ;
r23 = coeficientul de corelare între x2 şi x3.
şi doi coeficienţi de corelare parţială:
r12.3 = coeficient de corelare parţială între x1 şi x2, influenţa lui x3 fiind retrasă;
1
r13.2 = coeficientul de corelare parţială între x1 şi x3 , influenţa lui x2 fiind retrasă.
2. Generalizarea noţiunii de corelare parţială
Coeficientul de corelare parţială măsoară legătura între două variabile atunci
când influenţa uneia sau mai multor variabile explicative este retrasă.
Fie y o variabilă de explicat, şi x1, x2 şi x3 variabile explicative:
2
r 2 yx1x3 ; r yx 2x3 ; r yx2 x1
2
r 2 yx 3x1 ; r 2 yx3x 2 ; precum şi trei
coeficienţi de corelare parţială de ordinul doi:
2 2 2
r yx1x 2 x 3 ,
r yx 2 x1x 3 ,
r yx 3 x1x 2 Această noţiune de
corelare parţială este foarte importantă pentru că permite de a judeca pertinenţa de
includere a unei variabile explicative într-un model.
Cu cât coeficientul de corelare parţială este mai mare, cu atât contribuţia acestei
variabile este mai importantă pentru explicarea globală a modelului.
Coeficientul de corelare parţială se poate calcula în două moduri, începând cu:
1) Coeficientul de corelare simplă
- Între reziduul regresiei variabilei de explicat în subansamblul compus din k-
1 alte variabile explicative;
- Şi reziduul regresiei variabilei explicative xi, în k-1 variabile explicative.
2
Etapa 2: calcularea reziduului e2 regresiei lui y asupra x1 şi
x2 : e2 = x3 − (aˆ 0 + aˆ1 x1 + aˆ 2 x2 )
Etapa 3: calcularea coeficientului de corelare simplă între e1 şi
e2 :
r 2
yx 3 x1x 2 =r 2
e1e 2
2) t Student
Într-un model cu k variabile explicative, există o relaţie între coeficientul de
corelare parţială şi t Student :
2
ti
r yxi( altevar iabile) = 2
2
t i + (n − k − 1)
Atenţie: această relaţie nu este verificată decât pentru un coeficient de corelare
parţială de ordinul (k-1).
Caz particular : relaţia între trei variabile.
În cazul unei relaţii între trei variabile x1, x2 şi x3 , există o relaţie între coeficienţii
de corelare parţială şi simplă.
r12.3 = coeficient de corelare parţială între x1 şi x2 , influenţa lui x3 fiind retrasă, el
se egalează cu:
r13.2 = coeficient de corelare parţială între x1 şi x3, influenţa lui x2 fiind retrasă, el se
egalează cu:
3
În cazul unui model cu o singură variabilă explicativă x1, suma pătratelor
reziduurilor este egală cu:
( )
SCR = e2t = ( yt − y ) 1 − R 2 y. x1 = ( yt − y ) 1 − r 2 yx1
2 2
( )
t t
y=a
ˆ0 + a
ˆ1 x1 + a
ˆ 2 x2 + e
Suma pătratelor reziduurilor, după retragerea influenţei lui x1 şi x2, este egală cu:
(
ty − y ) (
1 − R
2
yx1 x 2 ) =
2
(
1 − r yx 2 x1 ) 2
(
ty − y ) (
1 − r 2
yx1 )
2
Sau:
4
1− R 2
y. x1x 2 x3 (
= 1− r 2
yx1 )(1− r )(1− r
2
yx 2. x1
2
yx 3. x1x 2 )
Pentru un model cu patru variabile explicative se obţine:
( )( )( )(
1 − R2 y.x1x 2 x3x 4 = 1 − r 2 yx1 1 − r 2 yx 2.x1 1 − r 2 yx3.x1x 2 1 − r 2 yx 4.x1x 2 x3 )
Trebuie, deci, de notat ca indicii pot schimba ordinea relaţiei precedente în 3,4,1,2,
ea devenind:
( )( )( )(
1 − R2 y.x1x 2 x3x 4 = 1 − r 2 yx3 1 − r 2 yx 4.x3 1 − r 2 yx1.x3x 4 1 − r 2 yx 2.x1x3x4 ) .
Multicolinearitate
1. Consecinţele multicolinearităţii.
2. Teste de detecţie a multicolinearităţii.
2.1. Test Klein L.R. (1962)
2.2. Test Farrar D.E. şi Glauber R.R. (1967)
3. Micşorarea multicolinearităţii.
4. Selectarea variabilelor explicative.
y = aˆ 0 + aˆ1 x1 + aˆ 2 x2 + ... + aˆ k xk + e
i j .
Dacă
R 2
y r 2
xi , x j , atunci există o presupunere a multicolinearităţii.
Nu este vorba de un test statistic în sensul unui test de ipoteze, dar doar de un
criteriu de presupunere a multicolinearităţii.
2) Test Farrar şi Glauber.
Prima etapă constă în calculul determinantului matricei coeficienţilor de
corelare între variabilele explicative.
6
Atunci când valoarea determinantului D tinde spre zero, riscul
multicolinearităţii este important.
De exemplu, pentru un model cu două variabile explicative, dacă amândouă
sunt perfect corelate, determinantul D se scrie:
1 rx1x 2 1 1
D= = =0
rx 2 x1 1 1 1
În cazuri contrare, când seriile explicative sunt ortogonale, determinantul
devine:
1 rx1x 2 1 0
D= = =1
rx 2 x11 1 0 1
A doua etapă constă în efectuarea unui test 2, cu următoarele ipoteze:
H0 : D = 1 (seriile sunt ortogonale)
H1 : D 1 (seriile sunt dependente)
Valoarea empirică a lui *2 calculată începând cu eşantionul este egal cu:
* = −
2 n − 1 −
1
(2 K + 5 ) * Ln D
6
unde n este mărimea eşantionului, K – numărul de variabile explicative
(termenul constant este inclus, K =k+1);
Ln – logaritmul neperian.
2 2
Dacă * citit în tabelul cu 1/2K(K-1) grade de libertate şi cu pragul ales, atunci ipoteza H0 este neglijată, avem,
3) micşorarea multicolinearităţii.
*Creşterea mărimii eşantionului:
7
Această tehnică nu este eficace decât în cazul când adaosul de observări diferă
semnificativ de cele care deja figurează în model, altfel vom avea reconducerea
mulricolinearităţii.
*«Regresia Ridge » este un răspuns pur numeric, este vorba de a transforma
matricea XTX în (XTX + cI) unde c este o constantă aleasă arbitrar care, mărind
valorile primei diagonale, reduce efectele „numerice” ale multicolineartăţii.
*Eliminarea variabilelor explicative susceptibile
Singura soluţie cu adevărat eficace constă în eliminarea seriilor explicative
susceptibile de a reprezenta aceleaşi fenomene şi, deci, de a fi corelate între ele
pentru a evita efectul măştii.
4) Selectarea variabilelor explicative.
În practică, econometria deseori se confruntă cu alegerea mai multor variabile
explicative x1,x2,…,xk candidate pentru explicarea variabilei y. Proceduri statistice
permit determinarea căror variabile trebuie de adăugat în model.
Aceste tehnici automatice de selecţie a variabilelor explicative trebuie de
manipulat cu atenţie.
Vom examina cinci metode care vor permite reţinerea variabilelor, şi anume:
- cel mai mult corelate cu variabila de explicat;
- cel mai puţin corelate între ele.
1) Metoda regresiilor multiple. Toate regresiile posibile.
Vom estima toate combinaţiile de regresii posibile ( 2k –1 posibilităţi, k număr
de variabile explicative candidate) şi modelul reţinut este cel a cărui R2 este maxim
pentru un model cu variabile explicative semnificative. Limita de utilizare a acestei
metode este legată de numărul iniţial al variabilelor explicative candidate, de
exemplu, dacă k=10, atunci numărul de combinaţii posibile este 1023.
2) Metoda eliminării progresive în amonte (« Backward Elimination »)
Această procedură constă, în modelul complet cu k variabile explicative, în
eliminarea treptată (adică reestimând ecuația după fiecare eliminare) a variabilelor
explicative a căror t Student sunt sub pragul critic. Această procedură nu se
utilizează, decât dacă prima ecuaţie poate fi efectiv estimată, ceea ce nu se
8
întâmplă deseori. De fapt, când modelul are un număr mare de variabile
explicative, riscul coliniarității între aceste variabile este ridicat şi matricea XTX
poate fi singulară.
3) Metoda eliminării progresive în aval (« Forward Regression »)
Conform acestei proceduri, la prima etapă se selecţionează variabila explicativă
al cărei coeficient d corelare simplă este variabila y, adică xj fiind această variabilă.
O a doua etapă constă în calcularea coeficienţilor de corelaţie parţială
e1 = y − aˆ 0 − aˆ1 xi
Coeficienţii de corelare simplă între reziduul e1 şi variabilele explicative sunt calculaţi, vom reţine variabila explicativă a
9
permite de a degaja un nou reziduu. Procedura este oprită atunci când coeficienţii
de corelare nu sunt semnificativ diferiţi de 0.
Practic
Etapa1: Selectăm din rezultatele anterior calculate, variabila explicativă cu cel mai
înalt coefficient de corelaţie simplă cu variabila Y, avem următoarele rezultate:
; ; ;
Cel mai înalt coefficient de corelaţie simplă cu variabila Y, este , deci
selectăm variabila explicativă X1.
Etapa2: Calculăm rezidiul corespunzător regresiei Y asupra variabilei explicative X1:
, în rezultat obţinem:
10
2002 22556 23289 3682 1204
2003 27619 30451 5127 1274
2004 32032 33298 6787 1656
2005 37652 41368 9258 2349
2006 44754 50972 12691 1965
Testul Klein
Coeficientul de determinatie este R y2 = 0,995, adica 99,5% din variatia PIB-lui este
Deoarece corelatiile partiale a variabilelor independente sunt mai mici decit coeficientul de
determinatie, exista prezumtia de multicolinearitate.
11
Remedierea multicolinearitatii
Determinam „Numărul de condiție” care măsoare sensibilitatea estimatorilor regresiei la
schimbările mici in date. Este definit ca rădăcina patrata a raportului dintre cea mai mare si
cea mai mica valoare proprie ale matricei X’X a variabilelor explicative.
Numărul de condiție = 1 / 2 = 20,12 .
Numarul de conditie este mai mare decit 1, deci exista o multicolinearitate intre variabilele
exlicative.
• Folosind Metoda regresiilor multiple, am estimat toate cele 7 combinatii posibile de
variabile independente. Astfel modelul pentru care R2 este maximal este
Yi = 0 + 1 x1 + , cu R2 ajustat = 0,993862.
Y = 2910,536 + 0,833448 x1
Concluzii
Eliminarea multicolinearitatii a ajutat determinarea modelului de regresiei si eliminarea
variabilelor nereprezentative.
12