Sunteți pe pagina 1din 39

IPOTEZELE MODELULUI LINIAR DE REGRESIE

Conf.univ.dr. Cristina BOBOC

Modelul de regresie liniară poate fi folosit în inferenţa statistică şi pentru


previziune doar în cazul în care ipotezele pe care acesta se bazează sunt verificate. În acest
capitol vor fi definite ipotezele de fundamentare ale metodei celor mai mici pătrate, cu
consecinţele neîndeplinirii acestora, cu metodele de testare şi cele de ameliorare a
situaţiilor în care acestea nu sunt verificate.

4.1. HETEROSCEDASTICITATEA

Definire

O ipoteză importantă a modelului clasic de regresie liniară este


homoscedasticitatea erorilor.
Erorile ui ce apar în funcţia de regresie, dependente de valorile observate ale
variabilei explicative, xi, sunt homoscedastice dacă varianţa lor este constantă.
yi   0  1 xi  ui
Var (ui )   2 , i  1, n
Grafic, în cazul modelului de regresie liniar unifactorial, homoscedasticitatea poate
fi reprezentată astfel:

Densitatea

1 + 2 Xi
X

Fig. 1- Erori homoscedastice

Erorile ui sunt heteroscedastice dacă varianţa condiţionată a lui yi se modifică odată


cu modificarea lui xi.
yi   0  1 xi  ui
Var (ui )   i2 , i  1, n

şi i  j astfel încât  i2   2j
Grafic, în cazul modelului de regresie liniar unifactorial, heteroscedasticitatea
poate fi reprezentată astfel:

Densitatea

1 + 2 Xi
X

Fig. 2- Erori heteroscedastice

Exemplul 1:
Presupunem modelul de regresie ce descrie legătura între venitul anual (xi) şi cheltuielile
pentru concediu ale gospodăriilor (yi ).
Dacă creşterea venitului determină în medie creşterea cheltuielilor pentru concediu, iar
variaţia cheltuielilor rămâne aproximativ aceeaşi pentru orice nivel al venitului, erorile vor fi
homoscedastice (fig. 3a). În cazul în care variaţia cheltuielilor pentru concediu ale gospodăriilor
creşte odată cu creşterea venitului, erorile vor fi heteroscedastice (fig.3b).

cheltuieli cheltuieli
pentru pentru
vacanţă 1 + 2 Xi vacanţă 1 + 2 Xi

venit venit
a. model homoscedastic b. model heteroscedastic

Fig. 3

Cauze de apariţie a heteroscedasticităţii

Variaţia erorilor poate să nu rămână constantă datorită mai multor cauze, printre
care:
1. Modelele de învăţare din erori: indivizii învaţă permanent, erorile lor
comportamentale diminuându-se în timp. De exemplu, variaţia erorilor obţinute în
culegerea de text scade odată cu creşterea numărului de ore de practică ca operator PC.
Atunci când indivizii au puţină experienţă, numărul erorilor variază în funcţie de
capacitatea de concentrare şi atenţia acestora. Pe măsură ce aceştia câştigă experienţă,
variaţia erorilor se datorează din ce în ce mai puţin trăsăturilor individuale. În acest caz,
dependenţa între erorile obţinute în culegerea de text şi numărul de ore de practică, se
poate descrie printr-un model de regresie liniară cu panta negativă şi homoscedastic.

erori de
culegere
text

1 + 2 Xi
2<0

număr de ore
de practică
Densitatea

erori de
culegere text

număr de ore 1 + 2 Xi
de practică

Fig. 4

2. Pe măsura creşterii veniturilor, cresc posibilităţile de alegere în distribuirea


acestora, şi deci variabilitatea i. De exemplu, indivizii cu venituri ridicare prezintă o
variabilitate mai ridicată a economiilor decât cei cu venituri scăzute, deoarece
posibilităţilor lor de economisire sunt mai reduse. În cazul firmelor cu profituri ridicate,
variabilitatea distribuţiei dividendelor este mai mare decât în cazul firmelor cu profituri
reduse. Firmele în faza de creştere vor prezenta o variabilitate mai mare în rata lor de
dividente atribuite decât cele care deja au o poziţie stabilă pe piaţă.

3. Erorile de măsură: unii din respondenţi pot furniza răspunsuri mai precise decât
alţii, ceea ce va produce heteroscedasticitatea.

4. Strategiile de eşantionare: adesea datele sunt observate în cuiburi. Uneori, sunt


alese mai multe unităţi din unele grupuri deliberat. De exemplu, schema de eşantionare
poate include un număr disproporţionat de mare de minorităţi, pentru a asigura ulterior
posibilitatea analizei de subeşantioane din acestea. Astfel de strategii, pot introduce un
grad de heteroscedasticitate în erori.
5. Transformarea incorectă a datelor: datele sunt transformate incorect prin
raportare la mărimi incompatibile, prin diferenţiere necorespunzătoare etc., ceea ce poate
conduce la apariţia heteroscedasticităţii erorilor.

6. Specificarea eronată a formei funcţionale: utilizarea lui X în locul variabilei X2


sau log(X), a lui Y în locul variabilei log(Y), omiterea unei variabile din model, etc., pot
produce heteroscedasticitatea erorilor.

Consecinţele heteroscedasticităţii asupra estimatorilor obţinuţi


prin metoda celor mai mici pătrate

Utilizarea metodei celor mai mici pătrate în condiţiile în care ipoteza


homoscedasticităţii nu este verificată conduce la estimatori deplasaţi ai variaţiei
coeficienţilor modelului liniar de regresie şi estimatori ne-eficienţi ai coeficienţilor
modelului liniar de regresie, existând alţi estimatori cu varianţa mai mică.
Metoda celor mai mici pătrate minimizează suma pătratelor erorilor:  ei2 . Deci,
indivizii cu cele mai mari erori potenţiale vor avea ponderi mai mari decât restul, cu toate
că aceştia se află cel mai departe de dreapta de regresie, deci vor furniza cea mai mică
informaţie. Motivul pentru care metoda celor mai mici pătrate clasică nu este optimală
atunci când apare fenomenul de heteroscedasticitate, este faptul ca toate observaţiile au
aceeaşi pondere, cu toate că observaţiile cu deviaţii mai mari de la medie aduc mai puţină
înformaţie decât cele cu deviaţii mai mici de la medie.

Fie modelul de regresie:


yi   0  1 xi  ui
Var (ui )   i2 , i  1, n şi i  j astfel încât  i2   2j

Prin metoda celor mai mici pătrate se obţine estimatorul:


^
 xi yi  xi (  0  1xi  ui )  xi  xi ui
1  2

2
 0
2
 1 
2
 xi  xi  xi  xi

2 2
  xi u i
  
  E   xi u    xi  i
^ ^ 2 2
Var (  1 )  E (  1  1 )  E 
2
  x2


 i
  x2 i 
 i   xi  
2 2

deoarece nu există corelaţie între erori ( cov(ui , u j )  0, i  j )

Pentru înlăturarea heteroscedasticităţii se transformă modelul astfel (metoda celor


mai mici pătrate ponderată):
yi x x u
  0 0i  1 i  i unde x0i=1 pentru orice i.
i i i i
sau
yi*   0* x0*i  1* xi*  ui*

În acest caz:
Var (ui* )  1, i  1, n deci heteroscedasticitatea a fost înlăturată.
Prin metoda celor mai mici pătrate se obţine estimatorul:
* *
~  xi y i
1 
*
 xi 2
 
2
 * *  * 2
~ ~   xi u i   xi 1
Var (  1 )  E (  1  1 ) 2  E    
  x* 2
 i   
  * 2
  xi 
2
  x
  i


2

  i 

Raportând varianţele celor doi estimatori se obţine1:

 xi2 2
~
Var ( 1 )  xi2 i2
 
 xi
2 2
  1
Var ( ˆ1 )  xi 
2
x 
2
    xi  i    i 
2 2
i  i 

Egalitatea celor două varianţe se obţine doar în cazul în care  i2  constanti  1, n .

Deci, în cazul heteroscedasticităţii estimatorul obţinut prin metoda celor mai mici
pătrate clasică ˆ1 este ineficient în raport cu estimatorul obţinut prin metoda celor mai
~
mici pătrate ponderată 1 .

Un estimator al varianţei estimatorului ˆ1 este:


1
ˆ 2ˆ  su2
1 2
 xi
1
unde su2  2
 ei este un estimator al varianţei erorilor (ei erorile observate).
n2

Acest estimator este deplasat în cazul heteroscedasticităţii când, există corelaţie


între erori şi variabila exogenă:
1 1
E (ˆ 2ˆ )  E ( ( yi  ˆ0  ˆ1 xi ) 2 )  E ( (  0  1 xi  ui  ˆ0  ˆ1 xi ) 2 ) 
1 (n  2) xi2 (n  2) xi2
1
 [Var ( ˆ0 )  Var ( ˆ1 ) xi2   E (u i2 )  2 E (( o  ˆo )(1  ˆ1 ) xi
(n  2) xi2
 2 E (( o  ˆo ) u i  2 E ((1  ˆ1 ) xi u i )]

................................ tb completat

În cazul în care între erori şi variabila exogenă există o corelaţie pozitivă, varianţa
estimatorului parametrului 1 este subestimată. Acesta va conduce la o creştere artificială a

1
din inegalitatea Cauchy-Buniakovski-Schwarz: ai,bi perechi de numere,  ai2  bi2   ai bi     2
valorii statisticii student pentru verificarea semnificaţiei estimatorului, existând riscul
acceptării unui parametru ca fiind semnificativ, atunci când nu este.
În cazul în care între erori şi variabila exogenă există o corelaţie negativă, varianţa
estimatorului parametrului 1 este supraestimată, existând riscul respingerii unui estimator
ca fiind nesemnificativ, atunci când în realitate el este.
În aceste cazuri testul de semnificaţie Student nu mai este valabil.

Depistarea heteroscedasticităţii

Pentru depistarea heteroscedasticităţii sunt folosite metode empirice, formale sau


informale, dintre care sunt prezentate:
- metoda grafică
- testul White
- testul Goldfeld-Quandt

a. Metoda grafică

De multe ori se întâmplă să ştim a priori că există şanse ridicate ca fenomenul de


heteroscedasticitate să apară. De exemplu, în modelarea legăturii între investiţii şi vânzări,
rata dobânzii, etc, pentru diverse întreprinderi, mici, mijlocii, mari, heteroscedasticitatea
are şanse mari să apară.

În cazul în care nu există o astfel de informaţie, se poate face o analiză a erorilor


observate în urma utilizării metodei regresiei, pentru a observa dacă ele prezintă o tendinţă
sistematică. Se reprezintă grafic ei2 în funcţie de xi şi se observă dacă există o legătură
sistematică între acestea. În fig. 5.a nu există o configuraţie sistematică a lui ei2 în funcţie
de xi, ceea ce sugerează faptul că heteroscedasticitatea este absentă. În fig. 5 b-c există
relaţii bine determinate între xi şi ei2, ceea ce sugerează existenţa heteroscedasticităţii.
Metoda grafică este sugestivă în cazul în care eşantioanele sunt de volum mare.

ei2 ei2

xi xi
2
ei

xi
a. b. c.
Fig.5 Configuraţii ale pătratelor erorilor

b. Testul White

Acesta este un test statistic care pleacă de la explicitarea erorilor observate în


raport cu una sau mai multe variabile exogene.
Etapa 1. Se estimează parametrii modelului de regresie multifactorial: Y=X
prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n
Etapa 2. Se explicitează seria (ei2)i=1,n în raport cu una sau mai multe variabile
exogene, astfel:
k k
1. e   a j x ji   b j x 2ji  vi
2
i
j 1 j 1

sau
2. ei2  a1 x1i  a2 x2i  b1 x12i  b2 x22i  c1 x1i x2i  vi

Etapa 3. Ipotezele testului:


H0: a1=...=ak=b1=...=bk=0  model homoscedastic
H1: a1  0 sau bj  0  model heteroscedastic

Se demonstrează că în cazul ipotezei nule, nR2 este repartizată r2, unde r este
numărul de parametri din modelul erorilor folosit.
Deci, statistica testului este:
LM=nR2r2
unde:
- n este numărul observaţiilor folosite pentru estimarea parametrilor şi erorilor
- R2 este raportul de determinare evaluat pentru unul din modelele erorilor
- r este numărul de parametri din modelele erorilor

Etapa 4. Pentru r grade de libertate şi o probabilitate de garantare a rezultatelor de


95% se determină valoarea 2,r .
Dacă LM>2,r atunci se respinge H0, deci modelul este heteroscedastic.
Dacă LM<2,r atunci se acceptă H0, deci modelul este homoscedastic.

Observaţii:
1. O creştere a lui r conduce la diminuarea puterii testului.
2. Când sunt un număr mare de variabile exogene se recomandă utilizarea modelului 1.
3. Când sunt un număr moderat de variabile exogene se recomandă utilizarea
modelului 2.

Exemplul 2: Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între valoarea
investiţiilor realizate şi rata dobânzii, înregistrate în perioada 1995-2004.

An 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Investiţii (mld. lei) 15424,9 24998,5 53540,1 67919,9 96630,4 151947,2 241153,6 322836 422535,1 526555,8
Rata dobânzii (%) 36,5 38,1 51,6 38,3 45,4 32,4 26,2 18,4 10,8 11,3
Se doreşte testarea homoscedasticităţii erorilor, folosind testul White.

Etapa 1 : Se estimează parametrii modelului liniar de regresie :


yˆ i  554842,3  1173101 xi
unde yi sunt investiţiile iar xi este rata dobânzii.
Etapa 2 : Se calculează erorile ei=yi- ŷi iar pentru acestea se estimează modelul :
ei2  b0 xi  b1 xi2
şi se obţine:
eˆi2  788264420 xi  1842359 xi2 cu R2=0,568
Etapa 3: Se calculează statistica testului White :
LM  10  0,568  5,68
iar valoarea critică  02,05; 2  5,99 >LM.

Deci se acceptă ipoteza H0, modelul fiind homoscedastic.

c. Testul Goldfeld-Quandt

Acest test este util atunci când se presupune că o singură variabilă exogenă este
cauza heteroscedasticităţii.
Presupunem modelul unifactorial şi că i2 este corelată pozitiv cu xi astfel încât:
 i2   2 xi2
unde 2 este o constantă.
Etapa 1. Se ordonează crescător seriile observaţiilor după xi, variabila exogenă ce
generează heteroscedasticitatea.
Etapa 2. Se exclud din serie c valori centrale, unde c este determinat a priori.
Se obţin 2 subserii: prima formată din primele (n-c)/2 observaţii şi a doua din ultimele (n-
c)/2 observaţii.
Valoarea c influenţează în mod direct puterea testului, fiind recomandat a se alege
c=n/3 sau n=n/4.
Etapa 3. Folosind cele două serii de observaţii se estimează două modele de
regresie:
yi   0  1 xi  ui , i  1, (n - c)/2 cu suma pătratelor erorilor:
( n c ) / 2
SPE1   ( yi  yˆ i ) 2
i 1
şi yi   0  1 xi  ui , i  (n  c)/2  1, n cu suma pătratelor erorilor:
n
2
SPE2   ( yi  yˆ i )
i ( n c ) / 21
SPE1 suma pătratelor erorilor regresiei relative la cele mai mici xi (grupul cu
varianţa ce mai mică) şi SPE2 suma pătratelor erorilor regresiei relative la cele mai mari xi
(grupul cu varianţa cea mai mare).
Etapa 4. Se calculează raportul:
SPE 2 /( n2  p)
GQ   F (n1  p, n2  p) unde n1=n2=(n-c)/2
SPE1 /( n1  p)
Dacă valoarea statisticii GQ calculată este mai mare decât o valoare critică a
repartiţiei F, atunci se consideră că ipoteza homoscedasticităţii nu este validată.

Observaţii:
1. În cazul unei repartiţii normale a erorilor se recomandă utilizarea testului White.
2. Testul Goldfield – Quandt oferă rezultate semnificative numai în măsura în care s-
a identificat corect variabila exogenă ce cauzează nerespectarea ipotezei
homoscedasticităţii.

Exemplul 3 : Se consideră datele din Exemplul 2. Se doreşte testarea homoscedasticităţii erorilor,


folosind testul Goldfield - Quandt.

Etapa 1. Se ordonează crescător seriile observaţiilor după rata dobânzii:

An 2003 2004 2002 2001 2000 1995 1996 1998 1999 1997
Investiţii (mld. lei) 422535,1 526555,8 322836 241153,6 151947,2 15424,9 24998,5 67919,9 96630,4 53540,1
Rata dobânzii (%) 10,8 11,3 18,4 26,2 32,4 36,5 38,1 38,3 45,4 51,6

Etapa 2. Se exclud din serie c=n/4=2 valori centrale. Se obţin 2 subserii: prima formată din
primele 4 observaţii şi a doua din ultimele 4 observaţii.
Etapa 3. Folosind cele două serii de observaţii se estimează două modele de regresie :
yˆ i  639235,9  15650,12  xi cu R2=0,84 şi SPE1 =181768,4
yˆ i  3507,015  1320,997 xi cu R2=0,082 şi SPE1 =105005,5
Etapa 4. Statistica testului :
105005,5 / 3
GQ   0,58
181768,4 / 3
iar valoarea critică : F0,05 ;3 ;3 = 9,28>GQ.

Deci se acceptă ipoteza H0, modelul fiind homoscedastic

Măsuri corective ale heteroscedasticităţii

Deoarece heteroscedasticitatea are consecinţe importante asupra estimatorilor


modelului de regresie, este necesară transformarea modelului pentru înlăturarea acesteia.

a.  i2 cunoscut

În cazul în care  i2 este cunoscut modalitatea cea mai simplă de transformare a


modelului este metoda celor mai mici pătrate ponderată, descrisă în subcapitolul 3.

b.  i2   2 xi2

În cazul în care  i2   2 xi2 , deci variaţia erorii este proporţională cu pătratul


variabilei explicative, modelul se transformă astfel:
yi x u
  0 0i  1  i unde x0i=1 pentru orice i.
xi xi xi
sau
yi*   0 xi*  1  ui*

În acest caz:
u  2 x2
Var (ui* )  Var ( i )  2 i   2 , i  1, n deci heteroscedasticitatea a fost
xi xi
înlăturată şi poate fi aplicată metoda celor mai mici pătrate modelului transformat.

c.  i2   2 xi

În cazul în care  i2   2 xi , deci variaţia erorii este proporţională cu variabila


explicativă, modelul se transformă astfel:

yi x u
  0 0i  1 xi  i unde x0i=1 pentru orice i.
xi xi xi
sau
yi*   0 x0*i  1 xi*  ui*

În acest caz:
ui  2 xi
Var (ui* )  Var ( )   2 , i  1, n deci heteroscedasticitatea a fost
xi xi
înlăturată şi poate fi aplicată metoda celor mai mici pătrate modelului transformat.

d. Transformarea logaritmică

Transformarea logaritmică este adesea folosită pentru înlăturarea


heteroscedasticităţii, deoarece reduce dispersia variabilelor iniţiale. Astfel se estimează
prin metoda celor mai mici pătrate modelul:
ln yi  1   2 ln yi  ui în locul modelului yi   0  1 xi  ui

Exemplul 4:
Se consideră modelul de regresie ce descrie legătura între raportul de solvabilitate bancară2 şi
valoarea totală a creditelor acordate:

Rata de Valoarea totala Rata de Valoarea totala


solvabilitate a creditelor solvabilitate a creditelor
Luna (%) (mii mld lei) Luna (%) (mii mld lei)
ian.03 24,97 200,57 ian.04 21,24 305,7
feb.03 24,36 207,93 feb.04 20,99 308,33

2
Indicatorul de solvabilitate bancară este raportul dintre fondurile proprii ale băncilor (capital propriu +
capital suplimentar) şi suma activelor nete şi a celorlalte elemente din afara bilanţului, ponderate în funcţie
de gradul lor de risc de credit.
mar.03 25,02 215,32 mar.04 20,46 324,39
apr.03 23,42 225,9 apr.04 20,06 323,39
mai.03 23,26 239,29 mai.04 20,1 335,84
iun.03 22,82 246,4 iun.04 20,34 346,14
iul.03 22,48 220,31 iul.04 19,86 336,95
aug.03 21,88 232,32 aug.04 19,57 348,57
sep.03 21,36 242,18 sep.04 19,74 354,64
oct.03 20,72 253,84 oct.04 19,82 355,91
nov.03 20,62 268,63 nov.04 19,93 356,75
dec.03 21,09 301,23 dec.04 20,64 365,19

Modelul liniar de regresie potrivit acestor date este:


yˆ i  29,014  0,026  xi
unde yi este rata de solvabilitate iar xi este valoarea totală a creditelor.

Pentru verificarea homoscedasticităţii erorilor, se foloseşte testul White. Se calculează erorile


ei=yi- ŷi iar pentru acestea se estimează modelul :
ei2  b0 xi  b1 xi2
şi se obţine:
eˆi2  0,013  xi  3,5  10 5  xi2 cu R2=0,501
Se calculează statistica testului White : LM  24  0,501  12,024
iar valoarea critică  02,05; 2  5,99 <LM.

Deci se respinge ipoteza H0, modelul fiind heteroscedastic.

a.  i2   2 xi2

Se transformă modelul de regresie astfel :


yi*   0 xi*  1  ui*
yi 1
unde : yi*  şi xi*  .
xi xi

Parametrii estimaţi ai noului model sunt:


yˆ i*  29,741xi*  0.029 , R2=0,978

Pentru verificarea homoscedasticităţii erorilor, se foloseşte testul White. Se obţine modelul


erorilor:
2 2
eˆi*  0.05  xi*  2,176  xi* , R2=0,547
Se calculează statistica testului White :
LM  24  0,547  13,13
iar valoarea critică  02,05; 2  5,99 <LM.

Se respinge ipoteza H0, modelul fiind heteroscedastic. Heteroscedasticitatea nu a fost eliminată,


presupunerea privind variaţia erorilor fiind eronată.

b.  i2   2 xi
Se transformă modelul de regresie astfel :
yi*   0 x0*i  1 xi*  ui*
yi 1
unde : yi*  , x0*i  şi xi*  xi .
xi xi

Parametrii estimaţi ai noului model sunt:


yˆ i*  29,367x0*i  0.027xi* , R2=0,998

Pentru verificarea homoscedasticităţii erorilor, se foloseşte testul White. Se obţine modelul


2 2 2
erorilor: eˆi*  70,097  x0*i  1,884  x0*i  74,63  xi*  9,7  10 6  xi*  0,001  x0*i  xi* ,
R2=0,292.

Se calculează statistica testului White :


LM  24  0,292  7,01
iar valoarea critică  02,05;5  11,07 >LM.
Se acceptă ipoteza H0, modelul fiind homoscedastic.

Deci, modelul liniar de regresie homoscedastic, ce descrie legătura între raportul de solvabilitate
bancară şi valoarea totală a creditelor acordate, este:
yˆ i  29,367  0,027 xi

4.2. AUTOCORELAREA ERORILOR

Definire

Autocorelarea erorilor poate fi definită ca prezenţa unei corelaţii între observaţiile


ordonate temporal (în cazul datelor longitudinale) sau spaţial (în cazul datelor
transversale).
În modelul de regresie clasic se consideră erorile necorelate, adică eroarea oricărei
observaţii nu este influenţată de altă observaţie:
Cov(ui,uj) = 0  ij
Grafic, în cazul modelului de regresie liniar unifactorial, lipsa autocorelării erorilor
poate fi reprezentată astfel:

0
timp

Fig. 1

Pentru modelul de regresie Y=Xu matricea de covarianţă a variabilei reziduale


este:
 cov(u1 , u1 ) cov(u1 , u 2 )  cov(u1 , u n ) 
cov(u , u ) cov(u , u )  cov(u , u )
 2 1 2 2 2 n 

    
 
cov(u n , u1 ) cov(u n , u 2 )  cov(u n , u n )

Erorile sunt autocorelate  ij astfel încât Cov(ui,uj)  0.

Grafic, în cazul modelului de regresie liniar unifactorial, autocorelarea erorilor


poate fi reprezentată prin diverse pattern-uri ale erorilor (fig. 2).

u u

timp
timp

Fig. 2

Cauzele apariţiei autocorelării erorilor

1. Absenţa uneia sau mai multor variabile explicative importante


De multe ori, se pleacă de la un model de regresie plauzibil, care poate să nu fie
perfect. Prin analiza modelului estimat, se pot identifica diverse neconformităţi ale
acestuia, printre care şi autocorelarea erorilor, ce poate fi datorate neincluderii în model a
uneia sau mai multor variabile explicative importante.
De exemplu, se studiază dependenţa dintre calitatea imaginii unui aparat foto
digital (yi) , numărul de funcţii manuale (x1i) şi marca acestuia (x2i) :
yi  a  bx1i  cx2i  ui
Analistul omite iniţial din model variabila marca aparatului foto, obţinând un model de
regresie cu erorile autocorelate:
yi  a  bx1i  ui
Eroarea în acest caz este explicitată prin intermediul variabilei omise:
ui    x2i  wi
unde wi este variabila reziduală ce satisface ipotezele modelului clasic de regresie.

2. Modelul de regresie nu este corect specificat


În cazul în care forma funcţională a modelului nu este corect identificată, poate
apărea fenomenul de autocorelare a erorilor. De exemplu, pentru descrierea dependenţei
dintre creşterea cererii dintr-un produs la creşterea calităţii se foloseşte o funcţie
liniară: yi  a  bxi  ui .
În acest caz apare fenomenul autocorelării erorilor ui, datorită erorii de specificare,
forma funcţională potrivită fiind funcţia pătratică: yi  a  bxi  cxi2  ui .
cererea

calitatea

Fig. 3

3. Modele autoregresive
În cazul în care una din variabilele exogene este variabila endogenă întârziată se
obţine un model autoregresiv: yt  a  bxt  cy t 1  ut . Dacă se neglijează termenul
întârziat yt-1, eroarea rezultată va avea o distribuţie sistematică, datorată influenţei
variabilei endogene întârziate asupra variabilei endogene.
De exemplu, numărul celor ce caută un loc de muncă într-un domeniu dat, la
momentul t este influenţat de salariul mediu în domeniul respectiv şi de numărul celor ce
căutau un loc de muncă în domeniu respectiv din perioada anterioară. Ofertanţii de forţă
de muncă nu îşi schimbă uşor domeniul, datorită profilului lor profesional şi al experienţei.

4. Transformarea datelor
În practică, de multe ori datele sunt transformate.
De exemplu, în cazul seriilor cronologice, datele lunare se transformă în date
trimestriale, prin calculul unei medii trimestriale. Această transformare, egalizează datele,
amortizând fluctuaţiile lunare, ceea ce poate conduce la autocorelarea erorilor în cazul
modelelor de regresie.
Interpolarea şi extrapolarea datelor se face pe baza unor ipoteze, care pot conduce
la pattern-uri sistematice ale datelor, care produc autocorelarea.

Consecinţele autocorelării erorilor asupra estimatorilor obţinuţi


prin metoda celor mai mici pătrate

Utilizarea metodei celor mai mici pătrate în condiţiile în care erorile sunt
autocorelate, conduce estimatori nedeplasaţi şi consistenţi, dar nu şi eficienţi, ai
coeficienţilor modelului liniar de regresie, existând alţi estimatori cu varianţa mai mică.
Astfel procedurile clasice de testare a ipotezelor modelului general de regresie, estimat
prin metoda celor mai mici pătrate, nu mai sunt valabile.

Fie modelul de regresie:


yt   0  1 xt  ut
Cov(ut , ut s )  0, s≠0

Se presupune că erorile sunt autocorelate de ordin 1:


ut  ut 1   t , -1<<1
unde  este coeficientul de autocorelaţie de ordin 1:
cov( ut , ut 1 )
 ,
var( ut ) var( ut 1 )
iar t este zgomot alb, ce satisface ipotezele standard ale metodei celor mai mici pătrate:
E ( t )  0
var( t )   2
cov( t ,  t  s )  0, s  0
Astfel:
 2
var( ut ) 
1 2
 2
Cov(ut , ut  s )   s
1 2
Deoarece  este o constantă cuprinsă între -1 şi 1, întotdeauna varianţa ut va fi
homoscedastică, dar ut este corelată cu mai multe valori anterioare, nu doar cu cea imediat
anterioară. O condiţie foarte importantă este ca -1<<1, pentru ca raportul 1/(1-2) să aibă
sens.

Revenind la modelul de regresie iniţial, estimatorul obţinut prin metoda celor mai
mici pătrate pentru panta 1 este:
^
1 
 xt yt cu Var ( ^ )   2 , în cazul în care erorile se presupun a nu fi
 xt2 1
 xt2
autocorelate.

Dacă erorile sunt autocorelate de ordin 1, varianţa estimatorului este:


^
Var (  1 ) autocor 
2 
1  2
 xt xt 1  2 2  xt xt 2  ...  2 n1 x1 xn 
2 
 xt   xt2  xt2  xt2 
Deci, varianţa estimatorului 1 este subestimată în cazul în care există autocorelaţia
erorilor şi nu se ţine cont de ea.

În cazul autocorelării erorilor, se transformă modelul astfel (metoda celor mai mici pătrate
generalizată):
yt    yt 1   0 (1   )  1 ( xt  xt 1 )  ut  ut 1
obţinându-se:
yt*   0*  1* xt*   t cu t verificând ipotezele metodei celor mai mici pătrate.

Estimatorul de verosimilitate maximă pentru 1 este:


n

(x t  xt 1 )( yt  yt 1 )


ˆ1*  t 2
n

(x
t 2
t  xt 1 ) 2

2
Var ( ˆ * ) 
1 n

(x t 2
t  xt 1 ) 2
Deci, în cazul autocorelării erorilor, pentru testarea ipotezelor modelului general de
regresie şi pentru stabilirea intervalelor de încredere trebuie utilizată metoda celor mai
mici pătrate generalizată, care va furniza estimatori ai parametrilor de verosimilitate
maximă.

Dacă erorile sunt autocorelate şi acest lucru nu este luat în considerare, pot rezulta
erori majore în modelul de regresie clasic prin subestimarea variaţiei reziduale 2 sau a
variaţiei estimatorului 1. Astfel testele t şi F clasice nu mai sunt valabile şi în cazul în
care sunt folosite, pot furniza concluzii eronate asupra semnificaţiei statistice a
coeficienţilor de regresie estimaţi.

Depistarea autocorelaţiei erorilor

Pentru depistarea autocorelării erorilor sunt folosite metode empirice, formale sau
informale, dintre care sunt prezentate:
- metoda grafică
- testul Durbin Watson
- testul Breusch-Godfrey

a. Metoda grafică

Analiza vizuală a valorilor erorilor observate, poate furniza o informaţie utilă


asupra autocorelării erorilor.
Acestea pot fi reprezentate printr-o cronogramă. În cazul în care evoluţia
temporală a variabilei reziduale urmează anumite pattern-uri, sugerează faptul că erorile
sunt autocorelate.
Pentru identificarea unei autocorelaţii de ordinul 1 pentru erori, se pot reprezenta
grafic printr-o corelogramă valorile observate pentru ut şi ut-1. Dacă valorile reprezentate
nu sunt aleatoare, se poate spune că erorile sunt autocorelate de ordin 1. De exemplu, în
fig.4, punctele determinate de erorile observate pentru ut şi ut-1 sugerează o autocorelaţie
negativă, de ordin 1, între erori.
ut

0
ut-1

Fig. 4

b. Testul Durbin Watson


Testul cel mai utilizat în analiza autocorelării erorilor este testul Durbin Watson,
deşi detectează doar autocorelarea de ordin 1 şi se bazează pe câteva ipoteze restrictive:
a) modelul de regresie trebuie să cuprindă termen liber: în cazul în care modelul nu
are termen liber trebuie să se revină şi să se transforme datele pentru obţinerea unui
model de regresie cu termen liber;
b) matricea X trebuie să fie nestochastică;
c) erorile sunt determinate printr-un proces autoregresiv de ordin 1: ut  ut 1   t ;
d) erorile sunt presupuse a fi distribuite normal;
e) modelul de regresie nu cuprinde ca variabilă explicativă, variabila endogenă cu
decalaj: testul Durbin Watson nu poate fi aplicat modelelor de tipul:
p
yt   0    s x st  yt 1  ut .
s 1

În cazul în care aceste ipoteze sunt verificate, se consideră modelul de regresie


multifactorial:
Y=Xu unde ut  ut 1   t

Etapa 1. Se estimează parametrii modelului de regresie prin metoda celor mai mici
pătrate şi se obţine seria reziduurilor (ei)i=1,n.
Ipotezele ce trebuie testate sunt:
H0:  = 0 şi
H1:  ≠ 0
unde  este coeficientul de autocorelare a erorilor de ordin 1.

Etapa 2. Se calculează statistica Durbin Watson :


n

 (e t  et 1 ) 2
DW  t 2
n
, situată între 0 şi 4.
e
t 1
t
2

n n n n
 n

 (et  et 1 )2  et2   et21  2 et et 1   et et 1 
DW  t 2
 t 2 t 2 t 2
 21  t 2n   2(1  ˆ )
n n  
e t
2
e t
2
  et2 
t 1 t 1  t 1 
unde ̂ este coeficientul de autocorelaţie a erorilor de ordin 1, observate, estimator al lui
.

Dacă :
 ˆ  0  DW  2  pentru o valoare a statisticii calculate apropiată de 2, erorile nu
sunt autocorelate ;
 ˆ  1  DW  0  pentru o valoare a statisticii calculate apropiată de 0, erorile sunt
autocorelate pozitiv ;
 ˆ  1  DW  4  pentru o valoare a statisticii calculate apropiată de 4, erorile
sunt autocorelate negativ .
Etapa 3. Se determină valorile critice ale statisticii Durbin Watson, d1 şi d2, în
funcţie de numărul de variabile exogene incluse în modelul de regresie (p), de numărul de
observaţii (n) şi de pragul de semnificaţie ales ().

Etapa 4. Se compară statistica Durbin Watson cu valorile critice ale statisticii şi


rezultă următoarele zone de decizie :
 0<DW<d1 : erorile sunt autocorelate pozitiv ;
 d1<DW<d2 : nu se poate spune dacă erorile sunt corelate pozitiv ;
 d2<DW<4-d2 : erorile nu sunt autocorelate ;
 4-d2<DW<4-d1 : nu se poate spune dacă erorile sunt corelate negativ ;
 4-d1<DW<4 : erorile sunt autocorelate negativ.

Exemplul 1: Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între rata de
solvabilitate bancară şi totalul sumelor datorate către bănci în miliarde lei.

Luna Rata solvabilitate Total sume datorate Luna Rata solvabilitate Total sume datorate
ian.02 28,18 166599 iun.03 22,82 296198
feb.02 27,5 172543 iul.03 22,48 296029
mar.02 27,24 184806 aug.03 21,88 314975
apr.02 26,11 196550 sep.03 21,36 321995
mai.02 27,47 201206 oct.03 20,72 336362
iun.02 27,09 206722 nov.03 20,62 341096
iul.02 27,26 208508 dec.03 21,09 364528
aug.02 26,73 215573 ian.04 21,24 354209
sep.02 26,22 220474 feb.04 20,99 370735
oct.02 25,77 227831 mar.04 20,46 386328
nov.02 24,86 241042 apr.04 20,06 397065
dec.02 25,04 252625 mai.04 20,1 407180
ian.03 24,97 257288 iun.04 20,34 435333
feb.03 24,36 260337 iul.04 19,86 458771
mar.03 25,02 268130 aug.04 19,57 467051
apr.03 23,42 278585 sep.04 19,74 484288
mai.03 23,26 286370

Se doreşte testarea autocorelării erorilor folosind testul Durbin Watson.

Etapa 1 : Se estimează parametrii modelului liniar de regresie :


yˆ t  32,421  3  105  xt
unde yi este rata de solvabilitate iar xi este totalul sumelor datorate.
Etapa 2 : Se calculează erorile et=yt- ŷ t şi se calculează statistica Durbin Watson :
n

 (e
t 2
t  et 1 ) 2
DW  n
=0,427.
e
t 1
t
2

Etapa 3 : Pentru n=33, o variabilă exogenă şi o probabilitate de garantare a rezultatelor de 0.95 :


d1= 1,37 şi d2= 1,5.
Etapa 4 : DW<d1, deci erorile sunt autocorelate pozitiv.
Deci, nu poate fi acceptată ipoteza de neautocorelare a erorilor.

c. Testul Breusch-Godfrey
Pentru rezolvarea situaţiilor în care testul Durbin Watson nu poate fi aplicat,
statisticienii Breusch şi Godfrey au propus un test general pentru testarea autocorelării erorilor.
Se consideră modelul de regresie multifactorial:
Y=Xu
şi se verifică dacă erorile se reprezintă sub forma:
r
ut    s ut s   t unde t este zgomot alb
s 1

Etapa 1. Se estimează parametrii modelului de regresie prin metoda celor mai mici
pătrate şi se obţine seria reziduurilor (ei)i=1,n.
Ipotezele ce trebuie testate sunt:
H0: 1=...=r=0  erorile nu sunt autocorelate
H1: dacă t admite o reprezentare autoregresivă de ordin r  erorile sunt autocorelate

Etapa 2. Se estimează prin metoda celor mai mici pătrate parametrii modelului
liniar de regresie ce descrie legătura între erori şi variabilele exogene iniţiale x j şi erorile
decalate et-s:
r p
et    s et s    j x jt  vt
s 1 j 1

Etapa 3. Se calculează statistica testului:


LM=(n-r)R2r2
unde: - n este numărul observaţiilor folosite pentru estimarea parametrilor şi erorilor;
- r este numărul de parametri din modelul erorilor;
- R2 este raportul de determinare evaluat pentru modelul erorilor.

Etapa 4. Pentru r grade de libertate şi o probabilitate de garantare a rezultatelor de


95% se determină valoarea 2,r .
Dacă LM>,r2 atunci se respinge H0, deci erorile sunt autocorelate.
Dacă LM<,r2 atunci se acceptă H0, deci erorile nu sunt autocorelate.

Observaţii:
1. Avantajul acestui test este că nu se bazează pe nici o ipoteză a priori.
2. Inconvenientul major al testului este neprecizarea lungimii decalajului de
autocorelare a erorilor, r.

Exemplul 2: Se consideră datele din Exemplul 1. Se doreşte testarea autocorelării erorilor,


folosind testul Breusch - Godfrey.
Etapa 1 : Se estimează parametrii modelului liniar de regresie :
yˆ t  32,421  3  105  xt
unde yi este rata de solvabilitate iar xi este totalul sumelor datorate.
Etapa 2 : Se calculează erorile et=yt- ŷ t şi se estimează parametrii modelului erorilor :
eˆt  2,01 107  xt  0,828  et 1 , R2=0,597
Etapa 3 : Se calculează statistica testului : LM=310.597=18,507
Etapa 4: Valoarea critică  02,05; 2  5,99 <LM  se respinge H0.

Deci erorile sunt autocorelate de ordin 1.


Măsuri corective ale autocorelării erorilor

Dacă în urma aplicării unui test de diagnostic al autocorelaţiei erorilor, a rezultat


prezenţa acesteia, se decide dacă aceasta nu este rezultatul unei erori de specificare a
modelului. În acest caz dacă:
- forma funcţionalei este necorespunzătoare, se alege o nouă funcţie de regresie;
- au fost omise variabile importante pentru descrierea modelului, acestea sunt
incluse în model;
- variabilele necesită transformări suplimentare, acestea sunt realizate.
În cazul autocorelaţiei pure, se poate aplica metoda celor mai mici pătrate
generalizată descrisă în continuare.

a. Metoda celor mai mici pătrate generalizată,  cunoscut

Se consideră modelul de regresie :


p
yt   0    j x jt  ut
j 1

Se presupune că seria erorilor (ui)i=1,n, urmează un proces autoregresiv de ordinul


întâi:
ut  ut 1   t

Atunci:
p p
yt   0    j x jt  ut  yt    yt 1   0 (1   )    j ( x jt  x jt 1 )  ut  ut 1
j 1 j 1

 yt*  yt  yt 1
 *
 x  x jt  x jt 1
Notând:  jt
 0   0 (1   )
  u  u
 t t t 1

se obţine un nou model:


p
yt*   0    j x *jt   t cu t zgomot alb.
j 1

Parametrii modelului se estimează prin metoda celor mai mici pătrate, obţinându-se
estimatori de verosimilitate maximă^.

b. Estimarea autocorelaţiei de ordin 1: 

Pentru aplicarea metodei celor mai mici pătrate generalizată, trebuie cunoscută
autocorelaţia de ordin 1.

1. O primă posibilitate este estimarea autocorelaţiei de ordinul 1 a erorilor


prin calculul autocorelaţiei reziduurilor estimate:
n

 e e t t 1
 t 2
n

e
t 2
2
t 1

2. O altă posibilitate este estimarea modelului reziduurilor:


ut  ut 1   t

Prin metoda celor mai mici pătrate se obţine estimatorul  pentru autocorelaţia de
ordinul 1 a erorilor.

Exemplul 3: Se consideră datele din Exemplul 1. Se doreşte corectarea autocorelării erorilor prin
metoda celor mai mici pătrate generalizată.
Deoarece  este necunoscut se va estima pe baza celor două metode prezentate anterior, pentru
identificarea diferenţelor dintre ele.
n

 e e t t 1
1.   t 2
n
=0,8179
e
t 2
2
t 1

2. uˆt  0,819ut 1 R2=0,592, F=44,93


(0,122)
t= (6,7)

Deci modelul estimat este semnificativ, iar parametrii estimaţi de asemenea.



Prin această metodă  =0,819.

Se observă că diferenţa între cele două valori obţinute prin cele două metode de estimare a
autocorelaţiei erorilor de ordin 1 este foarte mică.


 yt  yt  0,82 yt 1
*
Se determină  * şi se estimează modelul: yt*  0  xt*   t prin

 xt  xt  0,82xt 1
metoda celor mai mici pătrate :
yˆ t*  5,291  2,1  105  xt* R2= 0,376, F=18,061, DW=2,346
(0,323) (0,000)
t = (16,373) (-4,25)

Deci, modelul estimat este semnificativ. Parametrii estimaţi sunt semnificativi şi de


verosimilitate maximă. Revenindu-se în variabilele iniţiale se rescrie modelul :
yˆ t  29,39  2,1  105  xt
4.3. MULTICOLINEARITATE

Definire

Multicolinearitatea în sens restrâns semnifică existenţa unei relaţii liniare perfecte


între două sau mai multe variabile exogene ale unui model de regresie:
1 x1  2 x2  ...   p x p  0
unde: - x1, ..., xp sunt variabilele explicative ale modelului de regresie;
- 1, ..., p sunt constante, cel puţin două dintre ele fiind diferite de zero.

Multicolinearitatea în sens larg semnifică existenţa unei relaţii liniare imperfecte


între două sau mai multe variabile exogene ale unui model de regresie:
1 x1  2 x2  ...   p x p  i  0
unde: - i este un termen de eroare stocastică.

Se consideră două variabile exogene x1 şi x2, care se reprezintă grafic prin


intermediul cercurilor cu centrul în punctul determinat de valoarea medie a variabilei şi cu
raza egală cu variaţia variabilei. Dacă cercurile nu se intersectează, variabilele sunt
necorelate (fig.1a). Dacă unul din cercuri se află complet în interiorul celuilalt, variabilele
sunt corelate perfect (fig. 1d). În funcţie de mărimea zonei de intersecţie, variabilele sunt
mai mult sau mai putin corelate (fig. 1b, fig. 1c).

x 1 x x 1 x
2 2

x1 x2 x1 x2
a. x1 şi x2 necorelate b. x1 şi x2 slab corelate

x 1

x
1 x x
2 2

x1 x 2
x1 x 2

c. x1 şi x2 puternic corelate d. x1 şi x2 perfect corelate

Fig.1 - Reprezentarea grafică a multicolinearităţii

Cauze de apariţie a multicolinearităţii

Există mai multe surse de multicolinearitate printre care:


1. Metoda de colectare a datelor: în cazul în care datele nu au fost observate
complet aleator, ori au fost excluse anumite grupuri de indivizi din eşantion,
poate apare fenomenul de multicolinearitate a variabilelor observate, fără ca
acesta să fie real;
2. Restricţiile asupra modelului sau asupra populaţiei eşantionate: în cazul unor
restricţii care elimină indivizii ce diferenţiază variabilele observate, apare
colinearitatea variabilelor;
3. Specificarea modelului: adăugarea de termeni polinomiali unui model de
regresie pentru care funcţia gamma a variabilei x este foarte mică;
4. Model supradeterminat: în cazul în care un model are mai multe variabile
explicative decât observaţii.

Consecinţele multicolinearităţii

Pentru demonstrarea consecinţelor multicolinearităţii, se consideră modelul de


regresie trifactorial:
yi   0  1 x1i   2 x2i  ui sau Y=X+u
 y1  1 x11 x 21   0 
     
unde: Y     , X       şi    1 
y  1 x x 2 n   
 n  1n  2

Estimatorul coeficienţilor de regresie este:   ( X ' X )1 X ' Y .
 
 n x 1i x 2i 
 
X ' X    x1i x 2
1i x 1i x 2 i 
 
  x 2i x x x 2

 1i 2i 2i

Dacă există colinearitate perfectă între x1 şi x2, atunci există  astfel încât x2=x1.
În acest caz det(X’X)=0 şi nu se poate defini inversa matricei X’X, deci nu pot fi
determinaţi estimatorii coeficienţilor de regresie.
În cazul unei multicolinearităţi puternice dar nu perfecte, determinantul matricei X’X
nu va fi identic zero, dar va tinde către zero. Componentele matricei X’X vor tinde către
infinit, deci şi variaţia estimatorilor parametrilor de regresie va tinde către infinit.

Pentru a avea o imagine asupra vitezei de creştere a varianţei estimatorilor şi a


intervalelor de încredere odată cu creşterea corelării variabilelor explicative, se vor
considera diverse valori ale coeficientului de corelaţie pentru două variabile exogene
pentru care vor fi calculate varianţele estimatorilor şi intervalele de încredere.

Pentru modelul:
yi   0  1 x1i   2 x2i  ui
2 2
var( ˆ1 )  şi var( ˆ 2 )  unde r12=cor(x1,x2)
x
2
1i (1  r122 ) x 2
2i (1  r122 )

r12 2 A Intervalul de încredere (95%)


var( ˆ1 )  
x 2
1i (1  r )
2
12 (1  r122 ) pentru 1: ˆ1  1,96  var( ˆ1 )
0 A 1,96A
0,5 1,33A 2,61A
0,95 10,26A 20,11A
0,995 100,00A 196,00A
0,999 500,00A 980,00A

Se observă că în cazul unei corelaţii slabe a variabilelor explicative (r12=0,5), variaţia


estimatorului creşte de 1,33 ori, iar în cazul unei corelări putenice (r12=0,995), variaţia
estimatorului creşte de 100 de ori, faţă de variaţia estimatorului în cazul independenţei
variabilelor explicative.

Deci, prezenţa corelării puternice a variabilelor exogene conduce:


 la imposibilitatea estimării parametrilor de regresie, în cazul existenţei unei
multicolinearităţi perfecte;
 la creşterea varianţei acelor estimatori ai parametrilor modelului liniar de regresie
ce corespund variabilelor exogene aflate într-o dependenţă liniară semnificativă,
deci scăderea performanţelor modelului de regresie estimat prin metoda celor mai
mici pătrate clasică;
 la intervale de încredere mari şi acceptarea ipotezei nule (parametrii nu sunt
semnificativ diferiţi de zero), datorită varianţiei ridicate;
 valori ale raportului de corelaţie R2 foarte ridicate, chiar în cazul în care raportul t
este nesemnificativ.

Depistarea multicolinearităţii

Multicolinearitatea variabilelor explicative este o problemă de natură: măsura în


care variabilele exogene sunt corelate şi nu existenţa unei colinearităţi perfecte a
variabilelor.
În continuare sunt prezentate câteva metode empirice de determinare a
multicolinearităţii.

d. Criteriul Klein

Criteriul Klein reprezintă una din cele mai simple modalităţi empirice de
determinare a multicolinearităţii.
Pentru modelul de regresie complet se calculează raportul de corelaţie Ry2. Se
 
determină matricea de corelaţie liniară a variabilelor exogene: rxi / x j .
i , j 1,n

Două variabile exogene xi şi xj sunt coliniare dacă: R  rxi / x j .


2
y

e. Criteriul factorului de inflaţie

Multicolinearitatea provine din faptul că unul sau mai mulţi regresori sunt
combinaţii liniare perfecte sau aproape perfecte de alţi regresori. O posibilitate de a
identifica care din variabilele exogene este corelată cu o altă variabilă exogenă, este de a
regresa fiecare variabilă exogenă (j) în funcţie de toate celelalte variabile exogene,
notându-se cu R 2j coeficientul de determinare.
Se calculează apoi factorul de inflaţie:
1
FI j 
1  R 2j
Dacă acest factor este foarte mare pentru o variabilă, atunci se poate presupune că
există fenomenul de multicolinearitate datorat variabilei j.

f. Criteriul Belsley

Se calculează valorile proprii ale matricei X’X, soluţii ale ecuaţiei:


X’X-Ip=0
În cazul în care una sau mai multe valori proprii sunt zero sau aproximativ zero,
fenomenul de colinearitate este semnificativ şi va afecta într-o bună măsură calitatea
estimatorilor.
Se calculează indicatorul:
max
(X ) 
min
Dacă valorile acestui indicator sunt superioare lui 1, colinearitatea este prezentă. O
valoare cuprinsă între 20 şi 30 sau mai mare, pentru datele reale, relevă o colinearitate
puternică a variabilelor exogene.

Exemplul 1 : Se consideră modelul de regresie liniară ce descrie legătura între:


- variabila endogenă: ritmul anual de modificare a consumului final (yi) şi
- variabilele exogene: ritmul anual de creştere a câştigului salarial mediu (x1i) şi rata
inflaţiei (x2i)

Rata Ritmul anual de creştere Ritmul anual de modificare a


An inflaţiei a salariului mediu consumului final
1995 32,3 48,9 10,8
1996 38,8 51,9 7
1997 155 96,8 -4,3
1998 59,1 64,9 1,1
1999 45,8 46,1 -2,5
2000 45,7 62,8 1,4
2001 34,5 41,2 6,3
2002 22,5 25,5 4,9
2003 15,3 27,7 6,9
2004 11,9 23,3 10,3

Modelul de regresie estimat este:


yˆ t  8,808  0.012 x1i  0,087 x2i R2=0,558, F=4,424, rx1 ,x2 =0,922
(4,267) (0,149) (0,081)
t= (2,064) (-0,082) (-1,079)

Modelul de regresie estimat are parametrii 1 şi 2 nesemnificativi. Deoarece coeficientul


de corelaţie a variabilelor exogene este foarte ridicat, se va testa multicolinearitatea folosind cele
trei criterii enunţate anterior.

Criteriul lui Klein


R2=0,558< rx1 ,x2 =0,922  variabilele exogene sunt puternic corelate.

Criteriul factorului de inflaţie


Se regresează variabila exogenă ritmul anual de creştere a câştigului salarial mediu în
funcţie de rata inflaţiei:
xˆ1i  25,76  0,503 x 2i R2=0,849
1
FI   6,62 valoare ridicată ce va mări variaţia estimatorilor de 6,62 ori.
1  0,849
Deci există fenomenul de multicolinearitate datorat variabilei x2 (rata inflaţiei).

Criteriul Belsley
 10 489,1 460,9 
 
Matricea: X ' X   489,1 28394 30110,35
 460,9 30110,4 36324,87 
 
Pentru determinarea valorilor proprii ale matricii X’X se determină:
X’X-Ip=-3+64728,862-124714813+101777463
Se consideră funcţia:
f()=-3+64728,862-124714813+101777463
f’()=-32+64728,862-124714813 are soluţiile: 986 şi 42166.
Soluţiile ecuaţiei f()=0 vor fi: max>42166, min<986 şi * între 986 şi 42166.

max
Deci,  ( X )  >6,54>1  colinearitatea este prezentă.
min
În urma aplicării celor trei criterii, a rezultat o multicolinearitate puternică a variabilelor
exogene, ce trebuie eliminată pentru estimarea modelului de regresie.

Măsuri corective ale multicolinearităţii

În cazul unei multicolinearităţi puternice a variabilelor exogene, pot fi utilizate


diverse metode empirice de eliminare a acesteia.

a. Partiţionarea matricei variabilelor exogene

În cazul apariţiei multicolinearităţii, după determinarea variabilelor exogene ce


conduc la aceasta, se va partiţiona matricea variabilelor explicative X, în două submatrice
cu coloanele liniar independente (variabilele corelate sunt separate în submatrici diferite) :
X=(Xm, Xp-m).
Se consideră modelul de regresie, în care sunt incluse variabilele exogene din
prima matrice:
y=Xmm+m
Se estimează parametrii modelului anterior şi se calculează:
y*  y  X m ˆm
Se consideră apoi modelul de regresie, cu variabilele exogene din a doua matrice:
y*=Xrr+r
Se estimează parametrii acestui nou model de regresie.
Observaţie: Estimatorii obţinuţi prin partiţionarea matricii variabilelor explicative
în două, nu sunt identici cu cei obţinuţi prin considerarea matricii complete a variabilelor
exogene. Diferenţele însă sunt foarte mici, aceasta metodă fiind adesea utilizată în studiile
practice.

b. Eliminarea mecanică a multicolinearităţii

În cazul unei multicolinearităţi puternice, cea mai simplă metodă ar fi eliminarea câte
uneia din variabilele corelate. Însă prin eliminarea unei variabile explicative din model se
produce o eroare de specificare.
Pentru modelul trifactorial: yi   0  1 x1i   2 x2i  ui , variabilele x1 şi x2 sunt
puternic corelate.
Eliminând variabila x1 din model se obţine: yi  b0  b1 x1i  wi , pentru care se poate
demonstra, că:
E(b1)=1+2
unde  este panta regresiei variabilei x2 asupra lui x1: x2i=x1i + i.

Deci estimatorul b1 va fi deplasat faţă de 1, atâta timp cât  este diferit de zero,
deci când există colinearitatea. Dacă 2 este o valoare pozitivă, estimatorul b1 va
supraestima pe 1, iar când 2 este o valoare negativă, estimatorul b1 va subestima pe 1.

c. Transformarea variabilelor

Pentru reducerea multicolinearităţii, în cazul seriilor temporale, se apelează adesea


la transformarea variabilelor iniţiale, folosind diferenţele de ordinul întâi.
Astfel în locul modelului general:
yt   0  1 x1t  ...   p x pt  ut
se vor estima parametrii modelului:
yt  yt 1  1 ( x1t  x1t 1 )  ...   p ( x pt  x pt1 )  ut  ut 1
O altă transformare ce poate fi aplicată datelor, este împărţirea datelor la una din
variabile, în cazul în care există semnificaţie economică pentru noile variabile obţinute. De
exemplu, pentru trecerea de la exprimarea în preţuri curente la exprimarea în preţuri
comparabile, se divizează variabilele prin indicele preţului; pentru exprimarea valorilor
unitare, se divizează variabilele (PIB, venit, numul de studenţi etc.) prin numărul de
locuitori.

Exemplul 2 : Se consideră datele din Exemplul 1. S-a demonstrat prezenţa multicolinearităţii şi


necestitatea eliminării acesteia.

Partiţionarea matricei variabilelor exogene


Se patiţionează matricea variabilelor exogene în X1 = (1 x2) şi X2=(x1)
Se estimează parametrii modelului de regresie : y=X11+1 şi se obţine :
yˆ i  8,495  0.093 x 2i R2=0,558, F=10,095
(1,771) (0,029)
t = (4,797) (-3,177)
Estimatorii acestui model sunt semnificativi iar modelul este valid.
Se calculează: y i* = yi - ŷ i şi se estimează parametrii modelului: y*=X22+2:
yˆ i*  0.001 x1i R2=0,000, F=0,000
(0,02)
t= (-0,014)
Estimatorii acestui model nu sunt semnificativi iar modelul nu este valid.

Deci această metodă de eliminare a multicolinearităţii nu este potrivită în acest caz.

Eliminarea mecanică a multicolinearităţii


Coeficientul de corelaţie între ritmul anual de creştere a câştigului salarial mediu (x 1i) şi rata
inflaţiei (x2i) este: rx1 ,x2 =0,922, coeficient semnificativ statistic.
Pentru descrierea ritmului anual de modificare a consumului final, se va pastra în model ritmul
anual de creştere a câştigului salarial mediu, eliminându-se rata inflaţiei.
Se obţine astfel modelul:
yˆ i  12,004  0.160  x1i R2=0,485, F=7,531
(3,102) (0,058)
t= (3,87) (-2,744)
Estimatorii acestui model sunt semnificativi iar modelul este valid.
Însă, nici această transformare nu este foarte bună deoarece, estimatorul obţinut este deplasat.

Transformarea variabilelor
Deoarece atât ritmul anual de creştere a câştigului salarial mediu cât şi ritmului anual de
modificare a consumului final sunt dependente de rata inflaţiei, variabilele se vor împărţi la rata
inflaţiei.
Modelul ce descrie ritmului anual de modificare a consumului final este:
x y
yˆ i*   0  1  xi* unde x i*  1i şi y i*  i
x 2i x 2i
Se obţine:
yˆ i*  0,586  0.618  xi* R2=0,746, F=23,463
(0,173) (0,128)
t= (-3,389) (4,844)
Estimatorii acestui model sunt semnificativi iar modelul este valid.
Acastă transformare este recomandată în acest caz pentru înlăturarea fenomenului de
multicolinearitate.

4.4. ERORI DE SPECIFICARE

Definire

Modelul clasic de regresie liniară se bazează pe presupunerea corectei specificări a


modelului sub forma:
Y=X + u

Tipurile de erori de specificare cel mai frecvent întâlnite sunt:


 omisiunea unei variabile relevante din model;
 includerea unei variabile nerelevante în model;
 specificarea eronată a formei funcţionale a modelului.

a. Omisiunea unei variabile relevante din model


Se presupune că modelul de regresie corect specificat ar fi:
yi   0  1 xi1   2 xi2  ui
unde: - yi reprezintă producţia pe muncitor;
- x1 reprezintă cheltuielile cu capitalul pe muncitor;
- x2 reprezintă cheltuielile de cercetare dezvoltare pe muncitor.

Variabila x2, cheltuieli de cercetare/dezvoltare pe muncitor este exclusă, fiind utilizat


modelul:
yi   0  1 xi1  u'i
Utilizând acest model pentru descrierea producţiei pe muncitor, este realizată o
eroare de specificare prin omiterea unei variabile relevante. Termenul eroare va avea
forma:
u'i   2 xi2  ui

Consecinţele omiterii variabilei x2 din model vor fi:


 dacă variabilele x1 şi x2 sunt corelate, coeficientul de corelaţie între cele două
variabile va fi diferit de zero, estimatorii ˆ 0 şi ˆ1 fiind deplasaţi: E( ̂ 0 )0 şi
E( ̂ 1 )1;
 dacă variabilele x1 şi x2 sunt necorelate, estimatorul ˆ 0 este deplasat:
E( ̂ 0 )0;
 variaţia erorii 2 va fi incorect estimată;
 intervalele de încredere standard şi procedeele de testare a ipotezelor vor
furniza concluzii eronate în ceea ce priveşte semnificaţia statistică a
parametrilor estimaţi.

b. Includerea unei variabile nerelevante în model

Se presupune că modelul de regresie corect specificat ar fi:


yi   0  1 x1i  ui
unde: - yi reprezintă producţia pe muncitor
- x1 reprezintă cheltuielile cu capitalul pe muncitor

Se introduce o nouă variabilă în model x2, cheltuielile de service al echipamentelor pe


muncitor:
yi   0  1 x1i   2 xi2  u'i
Utilizând acest model pentru descrierea producţiei pe muncitor, este realizată o
eroare de specificare prin includerea unei variabile nerelevante.

Consecinţele includerii variabilei x2 în model vor fi:


 estimatorii parametrilor modelului incorect sunt nedeplasaţi, varianţa erorii este
corect estimată, intervalele de încredere şi procedeele de testare a ipotezelor
rămânând valabile;
 estimatorii parametrilor i vor fi mai puţin precişi ca estimatorii modelului
corect specificat.

Observaţie:
Deoarece singura consecinţă negativă a introducerii unei variabile nerelevante în
model este obţinerea de estimatori mai puţin precişi, în timp ce neincluderea în model a
unei variabile relevante conduce la estimatori deplasaţi, intervale de încredere şi teste ce
pot furniza concluzii eronate, este de preferat includerea mai multor variabile în model,
chiar cu riscul ca acestea să fie nerelevante.

c. Specificarea incorectă a formei funcţionale a modelului

În cazul în care se alege o formă a funcţiei de regresie necorespunzătoare, se


comite de asemenea o eroare de specificare, ce va conduce la rezultate deplasate şi
neeficiente.

De exemplu, în cazul în care modelul corect specificat este:



y i   0  xi 1  u i
iar analistul consideră forma funcţională ca fiind
yi   0  1  xi  ui'
acesta comite o eroare de specificare care va conduce la obţinerea unor rezultate
eronate.

Considerarea unui model aditiv (yi =xi+ ui) în locul unui model multiplicativ (yi
= xi ui), este de asemenea o eroare de specificare.

Testarea erorilor de specificare

Erorile de specificare sunt uşor de remediat, odată ce au fost depistate. În


continuare sunt prezentate câteva metode de identificare a erorilor de specificare.

a. Includerea unei variabile nerelevante în model

Identificarea includerii într-un model a unei variabile nerelevante, se poate face


prin intermediul testelor de semnificaţie. O variabilă nerelevantă va fi nesemnificativă
statistic.
O strategie de construire a unui model este includerea tuturor variabilelor ce ar
putea influenţa fenomenul studiat. Se estimează parametrii modelului şi sunt reţinute doar
variabilele ale căror parametrii estimaţi sunt semnificativi din punct de vedere statistic3.

Exemplu:

b. Omisiunea unei variabile relevante din model sau


specificarea incorectă a formei funcţionale a modelului

Examinarea erorilor
O posibilitate de identificare a unei erori de specificare prin omisiunea unei
variabile relevante din model sau prin o formă funcţională incorectă este examinarea
erorilor. Dacă graficul erorilor prezintă configuraţii particulare, există riscul comiterii unei

3
Vezi capitolul de teste de semnificaţie pentru parametrii modelelor de regresie
erori de specificare. Testul Durbin Watson poate fi folosit pentru identificarea unei
autocorelaţii a erorilor care se poate datora unei erori de specificare.

Testul RESET de Ramsey


Testul RESET de Ramsey este folosit pentru identificarea erorilor de specificare în
modelele seriilor de timp provenite din neincluderea unor termeni putere în model. Etapele
acestui test sunt:
Etapa 1. Se estimează parametrii modelului liniar de regresie unifactorial:
yi   0  1  xi  ui prin metoda celor mai mici pătrate şi se obţin estimatorii ŷ i şi
coeficientul de determinare R2.
Etapa 2. În modelul de regresie anterior se introduce ŷ i într-o formă oarecare (în
general pătratică sau/şi cubică), ca variabilă(e) exogenă(e) suplimentară(e):
yi   0  1 xi1   2 yˆ i2   3 yˆ i3  u'i
Se estimează parametrii noului model prin metoda celor mai mici pătrate şi se calculează
şi coeficientul de determinare Rn2 .
Etapa 3. Se calculează statistica F:
( R 2  Rn2 ) n  p1
F 
(1  Rn2 ) p1  p
unde: - n este numărul de observaţii
- p1 este numărul parametrilor noului model
- p este numărul parametrilor modelului iniţial
Etapa 4. Dacă FF,p1-p,n-p1 atunci se poate accepta ipoteza că modelul prezintă
erori de specificare.

Testul Multiplicatorului lui Lagrange


Testul Multiplicatorului lui Lagrange este o alternativă a testului RESET de
Ramsey pentru identificarea erorilor de specificare în modelele de regresie liniară
multifactoriale. Etapele acestui test sunt:
Etapa 1. Se estimează prin metoda celor mai mici pătrate parametrii modelului
liniar de regresie: yi   0  1  x1i  ...   p  x pi  ui şi se obţin erorile estimate
ei  yi  yˆ i .
Etapa 2. Se regresează erorile ei în funcţie de toate variabilele exogene:
ei   0  1  x1i  ...   p  x pi   p1  x p 1i  ... s  xsi  u'i
Şi se obţine coeficientul de determinare R2.
Etapa 3. Se calculează statistica:
LR=nR2  s2

Etapa 4. Dacă LR   2 ,s atunci se poate accepta ipoteza că modelul prezintă erori


de specificare.

Erori de măsură
Un caz particular de erori de specificare îl reprezintă erorile de măsură ale
variabilei dependente sau a regresorilor. Aceste erori introduc o deplasare a estimatorilor.

a. Erori de măsură în variabila endogenă y

Pentru descrierea efectelor erorilor de măsură în variabila endogenă asupra


estimatorilor modelului de regresie, se consideră modelul unifactorial:
y i   0   1  xi  u i
În variabila yi intervin erori de măsură, variabila observabilă fiind: yi*  yi   i ,
unde i reprezintă eroarea de măsură în yi.
Deci va fi estimat modelul:
yi*   0  1  xi  (ui   i )   0  1  xi  vi
unde vi este termenul eroare compus din eroarea ecuaţiei de regresie şi eroarea de măsură.
Se presupune că:
- E(ui) = E(i) = 0
- cov(xi,ui) = cov(xi,i) = cov(ui,i) = 0

Aceste ipoteze fiind verificate, estimatorul lui 1 din ambele modele, cu sau fără
erori de măsură, este nedeplasat, însă varainţele sunt diferite:
 u2 ˆ * )  v  u 
2 2 2
var( ˆ y )  şi var( 
 xi2 y
 xi2  xi2
Deci, în cazul în care intervin erori de măsură varianţa estimatorului creşte, chiar
dacă acesta rămâne nedeplasat. Astfel precizia estimatorului scade.

b. Erori de măsură în variabilele exogene x

Pentru descrierea efectelor erorilor de măsură în variabila exogenă asupra


estimatorilor modelului de regresie, se consideră modelul unifactorial:
y i   0   1  xi  u i
În variabila xi intervin erori de măsură, variabila observabilă fiind: xi*  xi   i ,
unde i reprezintă eroarea de măsură în xi.
Deci va fi estimat modelul:
yi   0  1  ( xi   i )  ui   0  1  xi  (ui  1 i )   0  1  xi  vi
unde vi este termenul eroare compus din eroarea ecuaţiei de regresie şi eroarea de măsură.
Se presupune că:
- E(ui) = E(i) = 0
- cov(xi,ui) = cov(ui,i) = 0

Însă, cov(xi,vi)= cov(xi,ui+1i )= 1 2 , deci variabila explicativă şi termenul


eroare sunt corelate, deci este încălcată una din ipotezele de bază ale modelului de regresie
liniară. Astfel estimatorii obţinuţi prin metoda celor mai mici pătrate vor fi deplasaţi.
O posibilitate de remediere a acestei situaţii este introducerea de variabile
instrumentale care să separe erorile de măsură. Determinarea în practică a unor variabile
instrumentale bune, nu este simplă. Din această cauză este fundamental a măsura datele
cât de exact este posibil.
4.5. APLICAŢII

Problema 1
Se consideră modelul cu trei variabile explicative:
yt  a0  a1 x1t  a2 x2t  a3 x3t  ut
Datele observate anuale pentru cele patru variabile sunt:

An yt x1t x2t x3t


1985 87.4 98.6 99.1 108.5
1986 97.6 101.2 99.1 110.1
1987 96.7 102.4 98.9 110.4
1988 98.2 100.9 110.8 104.3
1989 99.8 102.3 108.2 107.2
1990 100.5 101.5 105.6 105.8
1991 103.2 101.6 109.8 107.8
1992 107.8 101.6 108.7 103.4
1993 96.6 99.8 100.6 102.7
1994 88.9 100.3 81 104.1
1995 75.1 97.6 68.6 99.2
1996 76.9 97.2 70.9 99.7
1997 84.6 97.3 81.4 102
1998 90.6 96 102.3 94.3
1999 103.1 99.2 105 97.7
2000 105.1 100.3 110.5 101.1
2001 96.4 100.3 92.5 102.3
2002 104.4 104.1 89.3 104.4
2003 110.7 105.3 93 108.5
2004 127.1 107.6 106.6 111.3

1. Să se estimeze parametrii modelului prin metoda celor mai mici pătrate şi să se


interpreteze rezultatele obţinute.
2. Să se testeze heteroscedasticitatea şi în cazul existenţei acesteia să se corecteze.
3. Să se testeze autocorelaţia erorilor şi în cazul existenţei acesteia să se corecteze.
4. Să se depisteze existenţa multicolinearităţii variabilelor exogene, iar în cazul existenţei
acesteia să se corecteze.
5. Să se testeze corecta specificare a modelului.

1. Să se estimeze parametrii modelului prin metoda celor mai mici pătrate şi să se


interpreteze rezultatele obţinute.

În calculele estimatorilor şi a diverselor statistici va fi utilizat SPSS.

Se crează un fisier de date în SPSS cu 5 variabile:


- an: variabilă numerică cu zero zecimale
- y, x1, x2, x3: variabile numerice cu 2 zecimale
Se aplică o analiză de regresie liniară (Analyse/Regression/Linear) cu variabila dependentă
y şi variabile independente: x1, x2 şi x3.
Rezultatele obţinute sunt:
Model Summary(b)

Adjusted R Std. Error of


Model R R Square Square the Estimate Durbin-Watson
1 .969(a) .939 .927 3.18683 1.054
a Predictors: (Constant), x3, x2, x1
b Dependent Variable: y

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regress ion 2496.752 3 832.251 81. 948 .000a
Res idual 162.494 16 10. 156
Tot al 2659.246 19
a. Predic tors : (Const ant ), x3, x2, x1
b. Dependent Variable: y

Coeffici entsa

Uns tandardized Standardized


Coef f icients Coef f icients
Model B Std. Error Beta t Sig.
1 (Constant) -242.795 26. 800 -9.060 .000
x1 3. 897 .400 .931 9. 736 .000
x2 .404 .061 .441 6. 591 .000
x3 -. 879 .240 -. 337 -3.659 .002
a. Dependent Variable: y

Modelul de regresie liniară estimat prin metoda celor mai mici pătrate este:

yˆ t  242,79  3,897  x1t  0,404  x2t  0,879  x3t R2= 0,939, F=81,95, DW=1,05
(26,8) (0,4) (0,061) (0,24)
t= (-9,06) (9,74) (6,59) (-3,66)

Interpretare:
Variaţia variabilei yt se datorează în proporţie de 93,9% variaţiei variabilelor x1t, x2t şi x3t:
- la modificarea cu o unitate a variabilei exogene x1t, variabila yt se va modifica în
acelaşi sens cu 3,897 unităţi;
- la modificarea cu o unitate a variabilei exogene x2t, variabila yt se va modifica în
acelaşi sens cu 0,404 unităţi;
- la modificarea cu o unitate a variabilei exogene x3t, variabila yt se va modifica în
direcţie opusă cu 0,879 unităţi.

Coeficienţii de regresie calculaţi sunt toţi semnificativi cu o probabilitate de garantare a


rezultatelor de 95%:
t a1 , t a2 , t a3  t 0,05;16  1,746

Modelul estimat poate fi validat cu o probabilitate de 95%:


F  F0,05;3,16  3,239
2. Să se testeze heteroscedasticitatea şi în cazul existenţei acesteia să se corecteze.

Metoda grafică
Se reprezintă grafic pătratul erorii în funcţie de cele trei variabile exogene.
Se observă că punctele prezintă o distribuţie aleatoare. Din grafic nu poate fi depistată
prezenţa heteroscedasticităţii.

30.00

20.00
e2

10.00

0.00

96.00 98.00 100.00 102.00 104.00 106.00 108.00

x1

30.00

20.00
e2

10.00

0.00

60.00 70.00 80.00 90.00 100.00 110.00 120.00

x2

30.00

20.00
e2

10.00

0.00

94.00 96.00 98.00 100.00 102.00 104.00 106.00 108.00 110.00 112.00

x3

Testul White
Folosind seria residualurilor estimate prin aplicarea metodei celor mai mici pătrate la
punctul anterior, se estimează modelul erorilor:
ei2  a1 x1i  a2 x2i  b1 x12i  b2 x22i  c1 x1i x2i  vi
şi se obţine statistica testului White:
LM = 200,474 = 9,48
Din tabelele repartiţiei 2 se determină valoarea critică  02,05;5 =11,07.
LM <  52  modelul este homoscedastic

Testul Goldfeld-Quandt
Folosind acest test se va verifica dacă există o dependenţă între variaţia erorilor şi
variabila exogenă x1. Se consideră c=n/4=5. Se împart seriile de date în câte 2 subserii, din
primele 8 observaţii, şi din ultimele 8 observaţii.
Se estimează cele două modele de regresie aplicate seriilor de date astfel partiţionate şi se
obţin sumele pătratelor erorilor:
SPE1 = 52,17 SPE2 = 16,70
52,17 / 4
GQ   3,12
16,7 / 4
Din tabelele repartiţiei Fisher se determină valoarea critică F0,05;4,4 = 6,388.
GQ < F0,05;4,4  modelul este homoscedastic

3. Să se testeze autocorelaţia erorilor şi în cazul existenţei acesteia să se corecteze.

Metoda grafică
Se reprezintă grafic erorile ei în funcţie de erorile deplasate ei-1.
Se observă că punctele nu prezintă o distribuţie aleatoare, sugerând faptul că erorile sunt
autocorelate.

6.00000

4.00000
Unstandardized Residual

2.00000

0.00000

-2.00000

-4.00000

-6.00000

-6.00 -4.00 -2.00 0.00 2.00 4.00 6.00

edepl

Testul Durbin Watson


Statistica Durbin Watson calculată pentru modelul de regresie estimat la punctul 1 este:
DW = 1,05
Pentru n=20, 3 variabile exogene şi o probabilitate de garantare a rezultatelor de 0,95 :
d1= 1,00 şi d2= 1,68.
d1<DW<d2, deci nu se poate spune dacă erorile sunt autocorelate pozitiv, recomandându-se
acceptarea autocorelării pozitive deoarece este foarte apropiat de d1.

Testul Breusch-Godfrey
Folosind seria residualurilor estimate prin aplicarea metodei celor mai mici pătrate la
punctul anterior, se estimează modelul erorilor:
et  1et 1  a1 x1t  a2 x2t  a3 x3t  vt
şi se obţine statistica testului Breusch-Godfrey:
LM=(n-r)R2=(20-4)0,186=2,97
Din tabelele repartiţiei 2 se determină valoarea critică  02,05;4 =9,488.
LM <  52  erorile nu sunt autocorelate

4. Să se depisteze existenţa multicolinearităţii variabilelor exogene, iar în cazul existenţei


acesteia să se corecteze.

Criteriul Klein
Din matricea de corelaţie a variabilelor exogene, se observă că cel mai mare coeficient de
corelaţie este înregistrat pentru variabilele x1 şi x3: r13 = 0,742.
Raportul de corelaţie al modelului de regresie iniţial este: R y2 =0,939.
Deci rij < R y2 pentru oricare dintre variabilele exogene, deci nu există o multicolinearitate
puternică între acestea.
Correlati ons

x1 x2 x3
x1 Pears on C orrelation 1 .384 .742**
Sig. (2-t ailed) .095 .000
N 20 20 20
x2 Pears on C orrelation .384 1 .288
Sig. (2-t ailed) .095 .219
N 20 20 20
x3 Pears on C orrelation .742** .288 1
Sig. (2-t ailed) .000 .219
N 20 20 20
**. Correlat ion is signif icant at t he 0.01 lev el (2-tailed).

Criteriul factorului de inflaţie


Regresând variabila exogenă x1 în funcţie de x2 şi x3 se obţine R12 =0,582 şi F1=2,398.
Regresând variabila exogenă x2 în funcţie de x1 şi x3 se obţine R22 =0,147 şi F2=1,172.
Regresând variabila exogenă x3 în funcţie de x1 şi x2 se obţine R32 =0,551 şi F3=2,227.

Cei trei factori de inflaţie nu sunt foarte mari, deci corelarea variabilelor exogene nu este
puternică.

5. Să se testeze corecta specificare a modelului.


Pentru a identifica o eroare de specificare prin includerea unei variabile nerelevante în
model, va fi testată semnificaţia estimatorilor.
Prin aplicarea metodei celor mai mici pătrate modelului iniţial se obţin rezultatele:
Coeffici entsa

Uns tandardized Standardized


Coef f icients Coef f icients
Model B Std. Error Beta t Sig.
1 (Constant) -242.795 26. 800 -9.060 .000
x1 3. 897 .400 .931 9. 736 .000
x2 .404 .061 .441 6. 591 .000
x3 -. 879 .240 -. 337 -3.659 .002
a. Dependent Variable: y

Coeficienţii de regresie calculaţi sunt toţi semnificativi cu o probabilitate de garantare a


rezultatelor de 95%:
t a1 , t a2 , t a3  t 0,05;16  1,746
Deci nu sunt incluse variabile nerelevante în model.