Sunteți pe pagina 1din 29

Unitatea de studiu 6.

VERIFICAREA IPOTEZELOR MODELULUI DE


REGRESIE

Cuprins unitate de studiu


6.1 Ipoteze asupra erorilor
6.2 Ipoteze asupra variabilelor independente

Obiective
- definirea ipotezelor modelului clasic de regresie
- prezentarea condiţiilor şi efectelor nerespectării acestor ipoteze
- prezentarea demersului testării fiecărei ipoteze
- analiza posibilităţilor de corectare a modelelor care nu respectă o anumită ipoteză

Competenţe
- înţelegerea conţinutului fiecărei ipoteze
- competenţe teoretice privind efectele încălcării ipotezelor pentru un model
- însuşirea metodologiei de testare a ipotezelor modelului de regresie
- abilităţi practice de a corecta un model care nu respectă o anumită ipoteză
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 8 h

Bibliografie selectivă
1. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

2. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

3. Kmenta, J., Elements of Econometrics, MacMillan Publishing, 1986

4. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001


84 Verificarea ipotezelor modelului de regresie

Modelarea econometrică se realizează în anumite condiţii sau cu respectarea unui set de


restricţii care se numesc ipoteze ale modelului de regresie. Calitatea estimării parametrilor
modelului de regresie depinde de îndeplinirea a două clase de ipoteze: ipoteze asupra
componentei aleatoare sau asupra variabilei eroare şi ipoteze asupra componentei deterministe
sau asupra variabilelor independente.

Ipotezele asupra componentei aleatoare sunt: media erorilor este nulă, homoscedasticitatea,
normalitatea şi necorelarea erorilor. Formal, aceste ipoteze se scriu astfel:
- M (  i )  0 , media erorilor este nulă;
- V (  i )   2 , ipoteza de homoscedasticitate;
-  i ~ N( 0, 2 ) , ipoteza de normalitate;
- cov( i , j )  0 , ipoteza de necorelare sau de independenţă a erorilor.

Ipotezele asupra componentei deterministe sunt:


- variabilele independente sunt nestochastice;
- variabilele independente sunt necoliniare;
- variabilele independente şi variabila eroare sunt necorelate, cov( X i , i )  0 .

Nerespectarea acestor ipoteze determină modificarea proprietăţilor estimatorilor parametrilor


modelului de regresie şi ridică probleme importante în realizarea demersului cercetării
econometrice.

6.1. Ipoteze asupra erorilor

Pentru testarea ipotezelor cu privire la componenta aleatoare se va aborda un demers care


presupune parcurgerea următoarelor etape: definirea ipotezei, stabilirea efectelor încălcării
ipotezei, testarea ipotezei pe un set de date statistice şi corectarea modelului în condiţiile în
care este ipoteza este încălcată.

1. Media variabilei reziduale este egală cu zero, M (  i )  0

Definirea ipotezei
Potrivit acestei ipoteze, restricţia modelării econometrice este ca toţi ceilalţi factori, neincluşi
în model şi reprezentaţi de variabila reziduală, precum şi erorile determinate de metoda
statistică să nu afecteze sistematic media variabilei dependente Y.

Ipoteza M (  i )  0 este echivalentă cu condiţia: M ( Y / X )   0   1 X .

Efectele încălcării ipotezei


Dacă media variabilei reziduale nu este egală cu zero, atunci se modifică proprietăţile
estimatorilor parametrilor modelului de regresie. Avem două situaţii: când media variabilei
reziduale este constantă şi când aceasta nu este constantă.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 85

a. M (  i )    cst.
Considerăm modelul de regresie liniară simplă: Y   0   1 X   . Acesta se mai poate scrie:
Y  0    1 X      0*  1 X   * , unde  0*   0   ,  *     .

Pentru ultimul model obţinut, Y   0*   1 X   * , este îndeplinită ipoteza M (  i* )  0 , însă se


poate arăta că parametrul 1 este estimat nedeplasat de estimatorul ̂ 1 , iar parametrul 0 este
estimat deplasat de estimatorul ̂ * . Astfel, M ( ˆ * )     .
0 0 0

b. M (  i )   i
În acest caz, modelul de regresie se poate scrie:
yi  0  i  1 xi   i  i  0*  1 xi   i* şi se poate demonstra că parametrul 1 este
estimat deplasat de estimatorul ̂ 1 .

Într-adevăr, considerăm următoarea relaţie:


n xi yi   xi  yi nxi   xi
ˆ 1  i i i
 i
yi .
n xi2  (  xi )2 i n xi2  (  xi )2
i i i i

Rezultă că media estimatorului ̂ 1 va fi:


nxi   xi
M ( ˆ 1 )   i
 M ( yi ) , iar M ( yi )   0  i   1 xi .
i n xi2  (  xi )2
i i
Rezultă,
n xi i   xi  i
M ( ˆ 1 )   1  i i i
,
n xi2  (  xi )2
i i

ceea ce indică un estimator deplasat.

În concluzie, dacă ipoteza M (  i )  0 este încălcată, estimarea parametrilor modelului se


realizează cu o eroare sistematică, este vorba despre o deplasare de care suferă fie estimarea
parametrului 0, fie estimarea parametrului 1.

Testarea ipotezei cu privire la media erorilor


Verificarea acestei ipoteze se realizează pe un set de date, de obicei de la nivelul unui
eşantion. Etapele testării sunt următoarele:

- se estimează un model de regresie liniară simplă, fără a ţine cont de ipoteza cu privire la
media erorilor;
- se determină erorile estimate, ca diferenţă între valorile variabilei dependente observate şi
cele calculate pe baza modelului estimat. Erorile estimate sunt de forma ei  yi  b0  b1 xi ;

Econometrie – Dănuţ JEMNA


86 Verificarea ipotezelor modelului de regresie

- se realizează un test cu privire la media erorilor, cu ajutorul unui test Student, în care
ipoteza nulă este: H 0 :    0 ;
- rezultatul testării, pentru un prag de semnificaţie stabilit, ne arată dacă este încălcată sau
nu ipoteza M (  i )  0 .

Corectarea modelului
Dacă ipoteza cu privire la media erorilor este încălcată, soluţia este corectarea modelului
iniţial, cu ajutorul estimaţiei mediei erorilor calculate la nivelul setului de date disponibile.
Astfel, dacă ceilalţi factori, neincluşi în model, induc o deplasare sau o influenţă sistematică
asupra mediei variabilei dependente, atunci valorile variabilei dependente pot fi corectate cu
aceasta valoare. Modelul corectat va fi de forma:
yi*  0  1 xi  ui , unde yi*  yi  M (  i ) .

Exemplu
Pentru exemplificare, considerăm un model de regresie liniară simplă construit cu ajutorul
datelor disponibile în baza de date Employee data oferită de SPSS, pentru un eşantion de 474
persoane. Ca variabilă dependentă considerăm variabila Current Salary ($), iar ca variabilă
independentă variabila Educational Level (ani de studiu).

Modelul estimat se poate scrie pe baza rezultatelor din tabelul de mai jos.
Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -18331.2 2821.912 -6.496 .000
Educational Level (years ) 3909.907 204.547 .661 19.115 .000
a. Dependent Variable: C urrent Salary

Modelul estimat este: yi  b0  b1 xi  18331,2  3909,907xi .

Pe baza ecuaţiei modelului estimat se obţin estimaţiile erorilor ei  yi  b0  b1 xi .

O sinteză statistică pentru erorile estimate, obţinută cu ajutorul SPSS, se prezintă în tabelul
Residuals Statistics.
Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N


Predicted Value $12,948.08 $63,776.86 $34,419.57 $11,279.480 474
Res idual -$21,567.422 $79,042.953 $.000 $12,819.966 474
Std. Predicted Value -1.904 2.603 .000 1.000 474
Std. Residual -1.681 6.159 .000 .999 474
a. Dependent Variable: Current Salary

Tabelul de mai sus indică o medie estimată a erorilor egală cu zero şi o abatere standard egală
cu 12819,96.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 87

Testul Student pentru testarea ipotezei M (  )  0


1. Formularea ipotezelor
H0 : M (  )  0 ;
H1 : M (  )  0 .

2. Alegerea pragului de semnificaţie:   0 ,05 .

3. Alegerea testului
Se utilizează statistica Student:
M̂ (  )  M (  )
t .
V̂ ( M̂ (  ))

4. Valoarea teoretică a testului


M̂ (  )
În condiţiile acceptării ipotezei nule, statistica Student este t  . Din tabela
V̂ ( M̂ (  ))
Student se citeşte valoarea t / 2 ;n1  t0 ,025;473  1,96 .

5. Valoarea calculată a testului


Indicatorii statisticii descriptive pentru erorile estimate sunt prezentaţi în tabelul de mai jos.
M ( ei ) 0
Pe baza acestora, se calculează: tcalc   0.
sM̂ (  ) 588,84

One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
Uns tandardized Res idual 474 .0000000 12819.96640 588.8406

6. Decizia
Comparând valoarea calculată a testului cu valoarea teoretică, rezultă că tcalc  [ 1,96 ;1,96 ] ,
ceea ce conduce la decizia de a accepta ipoteza nulă, cu o probabilitate de 0,95. În concluzie,
se acceptă ipoteza că media erorilor este zero.

În SPSS, acest test este realizat cu procedeul One-Sample Test, iar rezultatele sunt prezentate
în tabelul de mai jos.

One-Sample Test

Test Value = 0
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Uns tandardized R es idual .000 473 1.000 .00000000 -1157.07 1157.067

Econometrie – Dănuţ JEMNA


88 Verificarea ipotezelor modelului de regresie

Dacă se compară semnificaţia testului cu pragul de semnificaţie, se observă că semnificaţia


testului este egală cu 1 şi are loc: Sig t>0,05. Rezultă aceeaşi decizie de a accepta ipoteza că
media erorilor nu diferă semnificativ de zero.

2. Homoscedasticitatea erorilor, V (  i )   2

Definire ipoteză
În cazul a două variabile X, Y, între care există o legătură liniară, regresia este o medie
condiţionată definită pe repartiţia bidimensională (X,Y) şi pe repartiţiile condiţionate de forma
Y X  xi .

Regresia liniară este dată prin relaţia: M ( Y / X  xi )  f ( xi )   0   1 xi .


La nivelul fiecărei repartiţii condiţionate se definesc variabilele reziduale
 i  yi  M ( Y / X  xi )  yi   0   1 xi .

Erorile astfel definite sunt homoscedastice dacă varianţele acestora sunt egale şi sunt
constante. Formal, ipoteza de homoscedasticitate se scrie astfel: V (  i )   2 .

Exemplu
În figura 1 este prezentată repartiţia bidimensională a unui eşantion de 27 de familii după
consumul şi venitul lunar, exprimate în unităţi monetare. Repartiţiile condiţionate sugerează
existenţa heteroscedasticităţii.

90.00

80.00

70.00
consum

60.00

50.00

40.00

30.00

50.00 60.00 70.00 80.00 90.00 100.00

venit

Figura 1. Repartiţia familiilor după venit şi consumul lunar

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 89

Efectele heteroscedasticităţii

Dacă ipoteza de homoscedasticitate este încălcată, modelul de regresie se numeşte


heteroscedastic. Efectul încălcării ipotezei de homoscedasticitate este pierderea eficienţei
estimatorilor parametrilor modelului de regresie.

Pentru parametrul 1, de exemplu, se poate arăta că acesta îşi pierde eficienţa, adică estimează
parametrul cu o varianţă mai mare decât în cazul în care ipoteza este verificată.

( xi  x )
În acest sens, considerăm relaţia: ˆ 1   1   wi i , unde wi  .
i  ( xi  x )2
i

În situaţia unui model heteroscedastic are loc relaţia: V (  i )   . i


2

Varianţa estimatorului parametrului 1 este:


V ( ˆ 1 )  V (  wi i )   wi2V (  i )   wi2 i2 ,
i i i
care diferă de varianţa estimatorului, în condiţiile în care este respectată ipoteza de
2
homoscedasticitate: V ( ˆ 1 )  .
 ( xi  x )2
i

Cele două varianţe sunt egale doar dacă  i2   2 .

Testarea homoscedasticităţii

În literatura de specialitate, pentru verificarea ipotezei de homoscedasticitate sunt prezentate


mai multe metode: metode grafice şi metode numerice. Metodele grafice permit identificarea
existenţei heteroscedasticităţii prin vizualizarea variaţiei erorilor în funcţie de variaţia
valorilor variabilei independente. Metodele numerice sunt de forma testelor statistice, iar
dintre acestea menţionăm:
- testul Glejser;
- testul corelaţiei neparametrice între erorile estimate şi variabila independentă;
- testul Goldfeld-Quandt;

a. Testul Glejser
Acest test are la bază un model de regresie între variabila reziduală estimată şi variabila
independentă. Forma acestui model indică şi forma heteroscedasticităţii. Ideea de bază a
acestui test este că varianţele erorilor  i2 ar putea fi explicate prin valorile variabilei
independente.

Observaţii
1. În cazul unui model de regresie multiplă, se identifică acea variabilă independentă ale
cărei valori pot fi asociate cu cele ale varianţei erorilor.
2. Testul Glejser se recomandă doar în cazul în care estimarea modelului de regresie se
realizează pe eşantioane mari de date.

Econometrie – Dănuţ JEMNA


90 Verificarea ipotezelor modelului de regresie

Etapele testării
Testarea homoscedasticităţii cu ajutorul testului Glejser presupune parcurgerea următorului
demers:
- se construieşte modelul de regresie yi   0   1 xi   i şi se estimează valorile
y xi  b0  b1 xi ;
- pentru modelul propus, se determină erorile estimate:
ei  yi  y xi  yi  b0  b1 xi ;
- se construieşte un model de regresie pe baza erorilor estimate în valoare absolută şi
variabila independentă aleasă ca posibilă sursă a heteroscedasticităţii. Un exemplu de
model este modelul liniar de forma:  i   0   1 xi  ui .
- se testează modelul din etapa anterioară: dacă parametrul 1 este semnificativ, atunci
modelul iniţial este heteroscedastic. În caz contrar, modelul este homoscedastic.

Exemplu
Testul Glejser va fi aplicat pentru modelul de regresie dintre variabila Current Salary ($) şi
variabila Educational Level (ani de studiu), estimat pe eşantionul din baza de date Employee
data oferită de SPSS.
Modelul estimat este: yi  b0  b1 xi  18331,2  3909,907xi .

Pentru modelul de regresie  i   0   1 xi  ui , s-au obţinut rezultatele din tabelul de mai jos.

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -1773.944 1865.129 -.951 .342
Educational Level (years ) 821.842 135.194 .269 6.079 .000
a. Dependent Variable: abs

Aşa cum arată testul Student (tcalc=6,079), parametrul 1 este semnificativ statistic (Sig t=0),
ceea ce indică încălcarea ipotezei de homoscedasticitate.

b. Testul corelaţiei neparametrice între erorile estimate şi valorile variabilei


independente

Acest test este o variantă a testului Glejser şi presupune testarea semnificaţiei coeficientului
de corelaţie neparametrică dintre erorile estimate în valoare absolută şi variabila
independentă.

Pentru un model de regresie liniară simplă, Y   0   1 X   , etapele testării sunt


următoarele:
- se construieşte modelul de regresie, fără a ţine seama de ipoteza de homoscedasticitate;

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 91

- se estimează erorile pe baza datelor de la nivelul unui eşantion reprezentativ;


- se atribuie ranguri pentru valorile absolute ale erorilor estimate şi pentru valorile variabilei
independente;
- se calculează coeficientul de corelaţie neparametric Spearman, pe baza rangurilor valorilor
ei şi xi;
- se testează semnificaţia coeficientului de corelaţie cu ajutorul testului Student;
- decizia: modelul este homoscedastic dacă se acceptă ipoteza nulă pentru testul Student din
etapa anterioară şi este considerat heteroscedastic dacă se respinge ipoteza nulă.

În acest test se utilizează:


 d̂i2
- estimatorul coeficientului de corelaţie: ˆ  1  6 i
2
, unde d̂ i2 reprezintă estimatorii
n( n  1 )
diferenţelor dintre ranguri pentru cele două variabile, iar n este volumul eşantionului;
ˆ n  2
- testul Student: t  ~ t( n  2 ) ;
1  ˆ 2
r n2
- valoarea calculată a testului este: tcalc  , unde
1 r2
 d i2
r  16 i
este estimaţia coeficientului de corelaţie a rangurilor, iar d i  R ei  Rxi ,
n( n 2  1 )
adică diferenţa dintre ranguri.

Exemplu
Pentru datele din exemplul anterior, rezultatul testului corelaţiei neparametrice este prezentat
în tabelul de mai jos.

Correlations

Educational
abs Level (years )
Spearman's rho abs Correlation Coefficient 1.000 .268**
Sig. (2-tailed) . .000
N 474 474
Educational Level (years) Correlation Coefficient .268** 1.000
Sig. (2-tailed) .000 .
N 474 474
**. Correlation is s ignificant at the 0.01 level (2-tailed).

În tabelul Correlations este calculat coeficientul de corelaţie Spearman (r=0,268) şi este


realizat şi testul Student pentru acest coeficient. Semnificaţia testului (Sig t=0,00) conduce la
decizia de a respinge ipoteza nulă a testului Student (ipoteză conform căreia coeficientul de
corelaţie este nesemnificativ diferit de zero).

Econometrie – Dănuţ JEMNA


92 Verificarea ipotezelor modelului de regresie

În concluzie, se respinge ipoteza de homoscedasticitate pentru modelul de regresie dintre


variabila Current Salary ($) şi variabila Educational Level (ani de studiu), cu o probabilitate
de 0,95.

c. Testul Goldfeld-Quandt
Acest test are la bază ideea că între valorile varianţei erorilor la nivelul repartiţiilor
condiţionate şi valorile variabilei dependente există o legătură pozitivă de forma:  i2   2 xi2 .

Pentru realizarea acestui test se parcurg următoarele etape:


- se ordonează crescător seria de date, la nivelul eşantionului, după variabila X;
- se împarte seria în două părţi egale, după omiterea unui set de date din centrul seriei.
Sensul omiterii acestor valori este de a obţine două subeşantioane de date relativ
omogene, cu acelaşi volum, pentru valorile mici, respectiv mari, ale variabilei
independente.
- se construiesc două modele de regresie pentru cele două seturi de date, utilizând ecuaţia
modelului de regresie iniţial;
- se calculează variaţia reziduală estimată (RSS) pentru fiecare model în parte;
- se realizează un test Fisher care compară cele două variaţii reziduale. Valoarea calculată a
RSS2
testului este: Fcalc  . Dacă din seria de date s-au exclus un număr de l date, atunci
RSS1
fiecare subeşantion va fi de volum (n-l)/2, iar statistica Fisher va urma o lege de repartiţie
nl nl
F(  k;  k ).
2 2
- Decizia: dacă testul Fisher este semnificativ statistic, atunci modelul iniţial de regresie
este heteroscedastic.

Exemplu
Pentru modelul de regresie dintre variabila Current Salary ($) şi variabila Educational Level
(ani de studiu), aplicarea testului Goldfeld-Quandt a presupus eliminarea din centrul seriei a
unui număr de 24 de unităţi.

S-au construit două regresii pentru două sub-eşantioane de câte 225 de unităţi. În SPSS,
pentru fiecare model de regresie, s-a obţinut estimaţia variaţiei reziduale conform tabelelor de
mai jos. Astfel, RSS1=6815593304, iar RSS2=45525230880.

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regres s ion 94844496.01 1 94844496.01 3.103 .080 a
Res idual 6815593304 223 30563198.67
Total 6910437800 224
a. Predictors : (Cons tant), Educational Level (years )
b. Dependent Variable: Current Salary

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 93

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regres s ion 44870108013 1 44870108013.171 219.791 .000 a
Res idual 45525230880 223 204149017.398
Total 90395338893 224
a. Predictors : (Cons tant), Educational Level (years )
b. Dependent Variable: Current Salary

RSS2
Valoarea calculată a testului Fisher este: Fcalc   6 ,67 .
RSS1
Valoarea teoretică a testului este: F0 ,05;223;223  1,26 .

Decizia: deoarece Fcalc>Fteor, se respinge ipoteza de homoscedasticitate, cu o probabilitate de


0,95.

Corectarea heteroscedasticităţii
Dacă în urma testării ipotezei de homoscedasticitate s-a constatat că ipoteza nu se verifică, se
impune corectarea modelului. Acest lucru este posibil în funcţie de următoarele două situaţii:
parametrii  i2 sunt cunoscuţi şi parametrii  i2 nu sunt cunoscuţi.

i.  i2 sunt cunoscuţi
Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:
y i   0   1 xi   i .

În condiţiile în care se cunosc parametrii  i2 , modelul poate fi transformat prin relaţia:


yi  0 x 
  1 i  i .
i i i i
1
Noul model de regresie este: yi*   0*   1* xi*   i* , unde:
i
y x 
yi*  i , xi*  i ,  i*  i .
i i i

Se poate demonstra că acest model este homoscedastic, deoarece varianţa erorilor este aceeaşi
pentru fiecare repartiţie condiţionată şi este constantă:
 1
V (  i* )  V ( i )  2 V (  i )  1 .
i i

Observaţie
1
Corectarea hetroscedasticităţii presupune ponderarea modelului iniţial cu variabila .
i
Estimarea parametrilor pentru modelul corectat se poate realiza prin aplicarea metodei celor

Econometrie – Dănuţ JEMNA


94 Verificarea ipotezelor modelului de regresie

mai mici pătrate, care în acest caz poartă denumirea de metoda celor mai mici pătrate
ponderată (method of weighted least squares).

ii.  i2 sunt necunoscuţi


Dacă nu sunt cunoscuţi parametrii  i2 , corectarea modelului se poate realiza prin utilizarea
unor transformări care au la bază diferite ipoteze funcţionale între parametrii  i2 şi variabila
independentă. Asemenea relaţii pot fi detectate cu ajutorul testului Glejser.

Un exemplu des întâlnit este corecţia modelului pe baza relaţiei:  i2   2 xi2 .

yi  0 
În acest caz, modelul corectat are forma:   1  i .
xi xi xi
1
Prin transformare, se obţine modelul: yi*   0*   1*   i* , în care:
xi
V (  i* )   2 .

1
Această metodă utilizează ca variabilă de ponderare a modelului iniţial variabila .
xi

Exemplu
Pentru modelul de regresie dintre variabila Current Salary ($) şi variabila Educational Level
1
(ani de studiu), aplicăm metoda de corecţie utilizând ca variabilă de ponderare variabila .
xi

Rezultatele modelării, utilizând SPSS, sunt prezentate în tabelul de mai jos.

Coefficientsa,b

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (C ons tant) -9342.365 2421.220 -3.859 .000
Educational Level (years ) 3243.652 184.227 .630 17.607 .000
a. Dependent Variable: C urrent Salary
b. Weighted Leas t Squares Regres s ion - Weighted by inv

Pe baza tabelului Coefficients se obţine modelul estimat corectat, homoscedastic:


yi  9342,36  3243,65 xi .

Se poate observa că modelul corectat diferă de modelul iniţial care are relaţia:
yi  b0  b1 xi  18331,2  3909,907xi

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 95

3. Normalitatea erorilor,  i ~ N( 0, 2 )

Definire ipoteză
Estimatorii parametrilor modelului de regresie sunt combinaţii liniare în care apare variabila
eroare. Dacă este respectată ipoteza de normalitate a erorilor, estimatorii parametrilor
modelului de regresie urmează, de asemenea, o lege de repartiţie normală.

Pentru modelul de regresie liniară simplă, Y   0   1 X   , prin metoda celor mai mici
pătrate, se obţin estimatorii:

n xi yi   xi  yi nxi   xi
ˆ 1  i i i
 i
 yi ,
n xi2  (  xi )2 i n xi2  (  xi )2
i i i i
1 ( xi  x )
ˆ 0  ŷ  ˆ 1 x   yi (  x wi ) , unde wi  , iar
i n  ( xi  x )2
i
yi   0   1 xi   i .

Dacă  i ~ N( 0, 2 ) , au loc relaţiile:


 
 2 
ˆ
1 ~ N  1 , 2 
sau ˆ 1 ~ N 1 ,  21  ,
 ( xi  x ) 
 i 
  
 2 1 x2 
ˆ
0 ~ N  0 ,    2 
sau ˆ 0 ~ N 0 ,  20 , unde 
  n  i
( x  x ) 
  i 
 este dispersia erorilor.
2

Efectele încălcării ipotezei


Dacă erorile de modelare nu urmează o lege de repartiţie normală, atunci estimatorii construiţi
pe baza metodei celor mai mici pătrate nu urmează o lege de repartiţie normală.

Pentru eşantioane de volum mare, proprietatea de normalitate este atinsă asimptotic.

Verificarea ipotezei de normalitate a erorilor

Testarea normalităţii repartiţiei erorilor se poate realiza cu un test neparametric clasic, cum ar
fi testul chi-pătrat sau testul Kolmogorov. Pe lângă acestea, în literatura de specialitate se
întâlneşte un test care se construieşte pe baza parametrilor formei unei repartiţii: asimetria şi
boltirea. Acesta este testul Jarque-Bera, după numele statisticienilor care l-au elaborat.

Econometrie – Dănuţ JEMNA


96 Verificarea ipotezelor modelului de regresie

Testul Jarque-Bera
Pentru repartiţia erorilor, considerăm parametrii formei:
3
- coeficientul de asimetrie Fisher: Sw  , Sw = 0 pentru o repartiţie normală, Sw>0,
3
pentru o asimetrie pozitivă şi Sw<0, pentru o asimetrie negativă (notaţia vine de la
termenul din limba engleză pentru asimetrie: skewness);
4
- coeficientul de boltire Fisher K   3 , K=0, pentru o repartiţie normală, K<0, pentru o
 22
repartiţie aplatizată şi K>0, pentru o repartiţie cu boltire (notaţia vine de la termenul din
limba engleză pentru boltire: kurtosis).

Estimatorii pentru cei doi parametri sunt:


ˆ i3 ˆ 4
(
n2
)2  n i 2
Ŝw  i
, respectiv K̂  i
3
ˆ i2 ˆ i2
( ) 3
( ) 2

i n2 i n2
Statistica Jarque-Bera are relaţia:
n  K̂ 2 
2
JB   Sw  ~  2 ( 2 ) , adică urmează o lege de repartiţie chi-pătrat de două grade
6  4 
de libertate.

Testarea se realizează cu ajutorul datelor disponibile, pe baza cărora se calculează erorile


estimate. La nivelul acestei repartiţii, se obţin estimaţiile pentru parametrii formei repartiţiei
erorilor şi se calculează o valoare a testului Jarque-Bera.

n  2 k2 
Valoarea calculată a testului este: JBcalc   sw   , unde
6  4 
ei3 2 ei4
( ) 
sw  i n2
2
, k  i n 2 2  3 , iar
e e
(  i )3 (  i )2
i n2 i n2

ei  yi  b0  b1 xi .

Ipoteza de normalitate a erorilor se admite în cazul în care valoarea calculată a testului este
mai mică decât valoarea teoretică pentru o distribuţie chi-pătrat de două grade de libertate şi
un prag de semnificaţie  specificat, adică JBcalc  2 ,2 .

Dacă JBcalc  2 ,2 , se respinge ipoteza nulă, adică ipoteza de normalitate a erorilor, cu o
probabilitate egală cu 1   .

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 97

Exemplu
Ca exemplu, utilizăm modelul de regresie prezentat în subcapitolul anterior.

Pentru erorile estimate ale acestui model, în SPSS, s-au obţinut rezultatele din tabelul de mai
jos.
Descriptive Statistics

N Mean Std. Skewnes s Kurtos is


Statis tic Statis tic Deviation
Statis tic Statis tic Std. Error Statis tic Std. Error
Uns tandardized Res idual 474 .0000000 12819.97 1.764 .112 5.798 .224
Valid N (lis twis e) 474

Estimaţiile parametrilor formei repartiţiei erorilor sunt:


sw=1,764 şi k=5,79.

100

80
Frequency

60

40

20

Mean = -1.5916157E-12
Std. Dev. =
12819.9663973
N = 474
0
-40000.00000 -20000.00000 0.00000 20000.00000 40000.00000 60000.00000 80000.00000

Unstandardized Residual

Figura 2 Repartiţia erorilor estimate

Aşa cum arată şi figura de mai sus, estimaţiile parametrilor formei indică o abatere a formei
repartiţiei erorilor de la repartiţia normală. Semnificaţia acestor abateri este confirmată de
testul Jarque-Bera.

Valoarea statisticii Jarque-Bera este următoarea:

n  2 k 2  474
JBcalc   sw    ( 3,11  8 ,38 )  907,7 .
6 4  6

Potrivit tabelei chi-pătrat, valoarea teoretică a testului este: 02,05;2  5,99 .


În concluzie, JBcalc  2 ,2 , ceea ce conduce la decizia de a respinge ipoteza de normalitate a
erorilor, cu o probabilitate de 0,95.

Econometrie – Dănuţ JEMNA


98 Verificarea ipotezelor modelului de regresie

Deoarece volumul eşantionului este mare, media erorilor nu diferă semnificativ de zero, iar
erorile se concentrează în jurul mediei, putem considera că încălcarea ipotezei de normalitate
nu afectează semnificativ calitatea modelului estimat.

4. Necorelarea erorilor, cov( i , j )  0

Definire ipoteză
Variabilele aleatoare reziduale definite la nivelul repartiţiilor condiţionate de forma Y X  xi
pot fi independente sau corelate. Ipoteza de necorelare a erorilor se referă la lipsa unei
corelaţii între variabilele reziduale sau la faptul că eroarea asociată unei valori a variabilei
dependente nu este influenţată de eroarea asociată altei valori a variabilei dependente.

În cazul în care ipoteza nu se verifică, modelul de regresie înregistrează o autocorelare a


erorilor sau o corelaţie serială. Formal, încălcarea ipotezei înseamnă cov( i , j )  0 . Dacă se
admite ipoteza că media erorilor este zero, relaţia anterioară este echivalentă cu
M( i   j )  0 .

Autocorelarea erorilor poate cauzată de:


- lipsa unei specificaţii adecvate a formei modelului de regresie;
- lipsa din model a uneia sau a mai multor variabile semnificative;
- sistematizarea şi pregătirea datelor pentru prelucrare;
- inerţia fenomenelor în timp şi decalajul, în cazul seriilor de timp.

În condiţiile încălcării ipotezei de necorelare a erorilor, se poate considera că între erori există
o relaţie de forma:
 i   i 1  u i ,
unde ui reprezintă o variabilă pur aleatoare (numită „zgomot alb”) care respectă ipotezele
modelului clasic de regresie.

Parametrul  este coeficientul de autocorelaţie între  i şi  i1 şi este definit de relaţia:


cov(  i , i 1 )
 .
 i i 1

Pentru variabila ui au loc relaţiile:


- M ( u i )  0 , media erorilor este nulă;
- V ( ui )   u2 , homoscedasticitatea erorilor;
- ui ~ N( 0, u2 ) , normalitatea erorilor;
- cov(ui ,u j )  0 , necorelarea erorilor.

Dacă există autocorelare a erorilor pentru modelul de regresie, iar celelalte ipoteze se
respectă, intensitatea legăturii dintre erori este măsurată prin:

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 99

cov( i , i 1 )   i   i1
  i
.
2   i2
i

În aceste condiţii, au loc relaţiile:


 u2
 2  V (  i )  V ( i1  ui )   2 2   u2 ,  2  .
1 2
Din ultima relaţie se poate interpreta semnificaţia coeficientului de corelaţie dintre erori:
- =0, erorile nu sunt corelate, ci se comportă ca variabile pur aleatoare;
-   0 , între erori există o legătură, iar dispersia acestora este mai mare decât dispersia
unei variabile pur aleatoare;
- =1, erorile sunt perfect corelate, iar modelarea nu se poate realiza.

Observaţie
Măsurarea intensităţii corelaţiei dintre erori se poate realiza şi pentru un decalaj de cu ordin
mai mare decât unu. Pentru astfel de situaţii, se defineşte funcţia de autocorelaţie de ordin k,
potrivit relaţiei:
cov( i , i 1 ) cov( i , i k )
f(k )  .
 i i  k 2

Efectele încălcării ipotezei


În condiţiile existenţei autocorelării erorilor, este afectată calitatea estimaţiilor obţinute prin
metoda celor mai mici pătrate.

Se poate demonstra că prin aplicarea metodei celor mai mici pătrate, pentru parametrul 0 , se
obţine un estimator neeficient.

Considerăm modelul de regresie liniară simplă yi   0   1 xi   i .


Pentru erori, considerăm că are loc relaţia  i   i 1  u i . Din acest model, se poate observa
că eroarea pur aleatoare se obţine ca o diferenţă de tipul:  i   i 1  ui . Aceasta este o quasi-
diferenţă, care se obţine cu ajutorul coeficientului de corelaţie de ordinul întâi dintre erorile
modelului.

Pe baza acestei quasi-diferenţe se poate construi un model de regresie transformat, în care


variabila aleatoare să fie tocmai variabila ui.

În acest sens, se construieşte modelul de regresie cu un decalaj:


yi 1   0   1 xi 1   i 1 .
Dacă acest ultim model se înmulţeşte cu  şi se scade din modelul iniţial, rezultă modelul:
yi    yi 1   0 ( 1   )   1 ( xi    xi 1 )  ui

Acest ultim model admite ca variabilă reziduală o variabilă aleatoare pură şi deci admite
ipoteza de necorelare a erorilor.

Econometrie – Dănuţ JEMNA


100 Verificarea ipotezelor modelului de regresie

Modelul de mai sus se numeşte model de quasi-diferenţă şi se poate scrie astfel:


yi*  0*  1* xi*  ui , unde
0*  0 ( 1   ) ;
 1*   1 ;
xi*  xi    xi 1 ;
yi*  yi    yi1 .

Acest model respectă ipotezele modelului clasic de regresie, iar prin aplicarea metodei celor
mai mici pătrate ne oferă un alt estimator pentru parametrul  0 , care este nedeplasat şi
eficient.

Testarea autocorelării erorilor


Autocorelarea erorilor se poate testa cu ajutorul mai multor teste, dintre care vom prezenta
următoarele două teste mai des utilizate: Durbin Watson test şi Runs test.

a. Durbin Watson test

Testul presupune testarea semnificaţiei coeficientului de corelaţie de ordinul întâi dintre erori.
Dacă acest coeficient este semnificativ statistic, modelul de regresie admite fenomenul de
autocorelare a erorilor, iar în caz contrar, ipoteza de necorelare este respectată.

Testul Durbin Watson se realizează prin parcurgerea etapelor prezentate mai jos.

1. Formularea ipotezelor
H0:  = 0 (erorile nu sunt autocorelate)
H1:   0 (există autocorelare a erorilor)

2. Alegerea pragului de semnificaţie (de regulă, se consideră   0 ,05 ).

3. Alegerea testului
( ˆ ˆ i i 1 )2
Statistica test utilizată este: DW  d  i
.
 ˆ i
i
2

Dacă se presupune existenţa autocorelaţiei de forma  i   i 1  u i , statistica DW se mai


poate scrie astfel:

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 101

 ˆ i2  2 ˆ iˆ i1   ˆ i21  ˆ i2   ˆ iˆ i1


d i i i
2 i i

 ˆ i2  ˆ i2
i i


  ˆ iˆ i1 
 2 1  i   2( 1  ˆ ).
  ˆ i2 
 i 
Estimatorul coeficientului de corelaţie a erorilor este:
 ˆ iˆ i1
ˆ  i şi respectă condiţia:  1  ˆ  1 .
 ˆ i2
i

Dacă d  2( 1  ˆ ) , valorile statisticii DW sunt cuprinse în intervalul: 0  d  4 .

Interpretare
- ˆ  1  d  4 , între erori există autocorelare negativă maximă;
- ˆ  1  d  0 , între erori există autocorelare pozitivă maximă;
- ˆ  0  d  2 , nu există autocorelare a erorilor.

4. Determinarea valorii teoretice a testului


Din tabela Durbin-Watson se citesc valorilor critice ale statisticii DW, în funcţie de pragul de
semnificaţie şi de volumul eşantionului.

În tabele sunt prezentate două valori critice, notate cu dL (limita inferioară) şi dU (limita
superioară) pentru diverse valori ale pragului de semnificaţie şi ale volumului eşantionului. În
funcţie de aceste valori critice se determină următoarele intervale, care permit luarea deciziei
de respingere sau de acceptare a ipotezei nule:

0 dL dU 2 4- dU 4- dL 4

- (0 ; dL) este o regiune de respingere, erorile înregistrează o autocorelare pozitivă;


- (dL ; dU) şi (4-du ; 4-dL) sunt regiuni de nedeterminare şi nu permit luarea unei decizii
asupra existenţei autocorelării erorilor;
- (dU ; 4- dU ) este o regiune de acceptare a ipotezei nule, erorile nu sunt autocorelate;
- (4-dL ; 4) este o regiune de respingere, erorile înregistrează o autocorelare negativă.

5. Determinarea valorii calculate a testului


Pe baza datelor de la nivelul unui eşantion, se calculează o valoare a statisticii Durbin-
 ( ei ei1 )2
Watson: d calc  i .
 ei2
i

Econometrie – Dănuţ JEMNA


102 Verificarea ipotezelor modelului de regresie

6. Decizia
Decizia de a accepta sau a respinge ipoteza nulă se ia în urma comparării valorii calculate a
testului cu valorile critice din tabela Durbin-Watson, adică în funcţie de poziţia valorii
calculate în una dintre regiunile specificate la punctul 4.

Testul Durbin Watson nu realizează decât un test asupra existenţei unei autocorelări de
ordinul întâi între termenii variabilei eroare. Pentru a lua în considerare posibilele corelaţii
între termenii cu un decalaj de ordin mai mare decât unu, se poate considera un model de
forma:
 i  '  i 1  ' '  i 2  ...   ( p ) i  p  ui
Decizia asupra încălcării ipotezei de necorelare a erorilor se ia în urma testării valorilor
funcţiei de autocorelaţie pentru decalaje de diverse ranguri.

Exemplu
Pentru modelul de regresie dintre variabila Current Salary ($) şi variabila Educational Level
(ani de studiu), s-au obţinut rezultatele din tabelul de mai jos.

Model Summ aryb,c

Adjus ted Std. Error of Durbin-


Model R R Square R Square the Es timate Wats on
1 .630 a .396 .395 $3,328.975 1.139
a. Predictors: (Cons tant), Educational Level (years )
b. Dependent Variable: Current Salary
c. Weighted Leas t Squares Regres s ion - Weighted by inv

În tabelul Model Summary, este prezentată valoarea calculată a statisticii Durbin-Watson:


dcalc=1,139.

Din tabela Durbin-Watson pentru un prag de semnificaţie de 0,05, pentru un model de


regresie cu doi parametri şi un eşantion de volum n=474, se citesc cele două valori critice:
dL = 1,748
dU = 1,789

În concluzie, dcalc aparţine intervalului (0 ; dL), ceea ce conduce la decizia de a respinge


ipoteza nulă, adică se consideră că erorile înregistrează o autocorelare pozitivă.

b. Runs test

Valorile variabilei aleatoare eroare pot fi privite ca seturi de valori care se succed în funcţie de
semnul lor. Succesiunea acestor secvenţe de date poate fi aleatoare sau poate avea o anumită
regularitate sau ordine. Un run este o astfel de secvenţă de valori de acelaşi semn ale
variabilei eroare.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 103

În cazul independenţei erorilor, succesiunea de runs este aleatoare, iar numărul acestora este
distribuit normal. În caz contrar, numărul de runs nu este distribuit normal, iar secvenţele apar
într-o anumită ordine.

Pentru testare, se utilizează următoarele notaţii:


n, volumul eşantionului;
ei , valorile estimate ale erorilor;
n1, numărul de valori pozitive ale valorilor ei ;
n2, este numărul de valori negative ale ei , n1 + n2 = n ;
K, numărul de runs, variabilă aleatoare care are următorii parametri:
n1n2
M( K )  2 1,
n1  n2
2n1n2  n1  n2
V ( K )   k2  2n1n2 .
( n1  n2 )2 ( n1  n2  1 )

Etapele testării

1. Formularea ipotezelor
H0: K este distribuit normal (nu există autocorelare a erorilor);
H1: K nu este distribuit normal (ipoteza este încălcată).

2. Alegerea pragului de semnificaţie (de obicei, este 0,05)

3. Alegerea testului
K  M( K )
Pentru testare se utilizează o statistică Student: t  .
ˆ K
4. Pentru un prag de semnificaţie de 5%, se citeşte din tabel o valoare teoretică a testului
Student t(n-2).

5. Valoarea calculată a testului


Valoarea calculată se obţine pe baza estimaţiilor mediei şi varianţei variabilei K.

6. Decizia de a accepta ipoteza nulă se ia în cazul în care valoarea calculată se află în


intervalul: [ t0 ,025;n2 ; t0 ,025;n2 ] .

Exemplu
În SPSS, pentru modelul de regresie dintre variabila Current Salary ($) şi variabila
Educational Level (ani de studiu), s-au obţinut rezultatele din tabelul de mai jos.

Econometrie – Dănuţ JEMNA


104 Verificarea ipotezelor modelului de regresie

Runs Test

Uns tandardiz
ed Res idual
TestValuea -3031.46179
Cas es < Tes t Value 236
Cas es >= Tes t Value 238
Total C as es 474
Number of Runs 213
Z -2.299
As ymp. Sig. (2-tailed) .022
a. Median

Din tabelul Runs Test, se observă că semnificaţia testului este Sig t=0,022, care este mai mică
decât 0,05, deci se decide respingerea ipotezei nule cu probabilitatea 0,95. În concluzie, se
consideră că erorile modelului sunt autocorelate.

Corectarea autocorelării erorilor

Corectarea modelului pentru care se încalcă ipoteza de independenţă a erorilor se realizează în


funcţie de următoarele două situaţii: i) este cunoscut coeficientul de corelaţie de ordinul întâi
a erorilor şi ii) nu se cunoaşte acest coeficient.

Se consideră procedeul de corecţie pentru modelul de regresie liniară simplă:


y i   0   1 xi   i .

i. Cazul  cunoscut
Pentru corectarea modelului se utilizează modelul de quasi-diferenţă, adică modelul de
regresie: yi*  0*  1* xi*  ui , unde
0*  0 ( 1   ) ;
 1*   1 ;
yi*  yi  yi1 ;
xi*  xi  xi1 ;
u i   i   i 1 .

Aplicând metoda celor mai mici pătrate pentru modelul de quasi-diferenţă, se obţin doi
estimatori nedeplasaţi, convergenţi şi eficienţi, adică ˆ 0* , ˆ 1* . Pe baza acestora, se obţin
estimatorii pentru modelul iniţial:
ˆ *
ˆ 0  0 , ˆ 1  ˆ 1* .
1 
Dacă nu există autocorelare, estimatorii sunt identici; dacă există autocorelare a erorilor,
parametrul  0 este estimat eficient de estimatorul ̂ 0* . Cunoscând coeficientul de corelaţie a
erorilor, se pot obţine estimaţiile parametrilor, pe baza datelor disponibile, utilizând relaţiile
de mai sus.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 105

ii. Cazul  necunoscut


Dacă nu este cunoscut coeficientul de corelaţie dintre erori, soluţia este estimarea acestuia pe
baza datelor de sondaj. O metodă de corectare a autocorelării erorilor care se bazează pe
estimaţiile coeficienţilor de corelaţie a erorilor este procedeul iterativ Cochrane-Orcutt.

Procedeul presupune parcurgerea următorului demers:


1. Se construieşte modelul de regresie: yi   0   1 xi   i .
2. Se estimează erorile modelului şi se obţin valorile ei.
3. Pe baza erorilor estimate, se construieşte modelul  i   i 1  ui şi se estimează punctual
parametrul , adică se obţine o estimaţie a acestuia r. Estimaţia din prima iteraţie se notează
r( 1 ) .
4. Se construieşte modelul de quasi-diferenţă yi*  0*  1* xi*  ui , cu ajutorul estimaţiei
parametrului determinată la pasul 3.
5. Se reia pasul 1 cu rezultatele de la pasul 4 dacă modelul obţinut în prima iteraţie este în
continuare influenţat de autocorelare. Procedeul continuă cu o nouă iteraţie, care are ca punct
de plecare modelul obţinut în prima iteraţie. În cea de-a doua iteraţie, se estimează un alt
coeficient de autocorelare a erorilor pe care îl notăm r(2).

Procedeul se opreşte atunci când între două valori estimate ale coeficientului de autocorelaţie
din două iteraţii succesive se verifică relaţia: r ( p )  r ( p1 )  0 ,0025 .

Exemplu
Utilizând procedeul Cochrane-Orcutt în SPSS, pentru modelul de regresie dintre variabila
Current Salary ($) şi variabila Educational Level (ani de studiu), s-au obţinut rezultatele din
tabelele de mai jos.

Model Fit Summary

Adjus ted Std. Error of Durbin-


R R Square R Square the Es timate Wats on
.655 .429 .427 12808.126 2.014
The Cochrane-Orcutt es timation method is us ed.

Regression Coefficients

Uns tandardized Standardized


Coefficients Coefficients
B Std. Error Beta t Sig
Educational Level (years) 3857.562 205.236 .655 18.796 .000
(Cons tant) -17662.9 2839.490 -6.220 .000
The Cochrane-Orcutt es timation m ethod is us ed.

Rezultatele din tabelul Model Fit Summary indică o valoare calculată a statisticii Durbin-
Watson egală cu 2,014, ceea ce arată lipsa corelării erorilor modelului de regresie.

În tabelul Regression Coefficients se prezintă estimaţiile parametrilor modelului de regresie


corectat: b0=-17662,9 şi b1=3857,56.

Econometrie – Dănuţ JEMNA


106 Verificarea ipotezelor modelului de regresie

6.2. Ipoteze asupra variabilelor independente

1. Prezentare ipoteze

Pentru variabilele independente, sunt valabile mai multe ipoteze care funcţionează ca restricţii
de modelare.

O primă restricţie este legată de gradul de omogenitate a variabilelor independente. Deoarece


în relaţiile varianţelor estimatorilor apare varianţa variabilelor independente, este important ca
această varianţă să fie posibil de calculat, să fie finită şi diferită de zero.

O altă ipoteză este condiţia ca variabilele independente să nu fie corelate cu variabilele


reziduale. Această restricţie este respectată dacă este îndeplinită condiţia ca variabilele
independente să fie variabile deterministe sau nestochastice.

Cea mai importantă ipoteză asupra variabilelor independente este cea de necoliniaritate, care
va fi tratată separat în continuare.

2. Ipoteza de necoliniaritate a variabilelor independente

Definire ipoteză
Ipoteza este valabilă pentru modelele de regresie liniară multiplă, care au două sau mai multe
variabile independente. Condiţia impusă de această ipoteză este ca între variabilele
independente să nu existe o legătură de tip liniar.

În cazul existenţei coliniarităţii, se impune identificarea gradului de coliniaritate. Pentru un


model de regresie care are p variabile independente se definesc două tipuri de coliniaritate:
perfectă şi imperfectă.

Între variabilele independente există o coliniaritate perfectă dacă există p constante


1 ,2 ,..., p , nu toate nule, astfel încât să aibă loc relaţia:
1 X 1  2 X 2  ...   p X p  0 .

Analog, între variabile există o coliniaritate imperfectă, dacă pentru p constante 1 ,2 ,..., p ,
nu toate nule, are loc relaţia:
1 X 1  2 X 2  ...   p X p  u  0 ,
unde u este o variabilă pur aleatoare, adică respectă ipotezele pentru componenta aleatoare a
unui model de regresie.

Coliniaritatea poate apărea din mai multe surse: tipul de model de regresie utilizat, natura
fenomenului şi variabilele alese pentru a realiza modelarea etc. Este important de precizat că
fenomenul apare la nivelul eşantionului de date disponibile, în contextul estimării
parametrilor modelului şi nu la nivelul populaţiei totale.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 107

Efectele coliniarităţii

Dacă pentru un model de regresie multiplă variabilele independente sunt coliniare, varianţa
estimatorilor parametrilor modelului de regresie creşte, adică estimatorii pierd proprietatea de
eficienţă. Dacă se înregistrează o coliniaritate perfectă, varianţa estimatorilor este infinită,
ceea ce înseamnă că parametrii pentru aceste variabile independente nu pot fi estimaţi. Dacă
se înregistrează o coliniaritate imperfectă, varianţele estimatorilor pentru parametrii modelului
de regresie sunt mari.

Testarea coliniarităţii

Un prim indiciu pentru existenţa coliniarităţii poate fi următorul: dacă între variabilele
independente există o legătură de tip liniar, cel mai probabil coeficientul de determinaţie
pentru acest model va avea o valoare ridicată, însă testul Student pentru fiecare parametru al
variabilelor coliniare nu va fi semnificativ statistic.

În consecinţă, se poate testa coliniaritatea prin testarea coeficienţilor de regresie, iar indiciul
este existenţa unui coeficient de determinaţie mare. În condiţiile în care parametrii modelului
de regresie sunt nesemnificativi, se poate decide că modelul admite fenomenul de
coliniaritate.

O altă metodă de testare a coliniarităţii este testarea parametrilor modelelor de regresie


auxiliară construite ca modele de regresie liniară doar pe baza variabilelor independente. Dacă
parametrii acestor modele sunt semnificativi, atunci variabilele independente sunt coliniare.

Pe baza modelelor de regresie auxiliare se pot construi doi indicatori cu ajutorul cărora se
poate detecta existenţa coliniarităţii. În soft-urile de statistică, aceşti indicatori sunt denumiţi
Tolerance şi VIF (Variance Inflation Factor).

Considerăm un model de regresie multiplă cu două variabile independente:


yi   0   1 x1i   2 x2 i   i . Pentru acest model, varianţele estimatorilor parametrilor sunt:
2
V ( ˆ 1 )  ,
 x1i  x1  ( 1  R122 )
2

2
V ( ˆ 2 )  , unde
 x2i  x2  ( 1  R122 )
2

i
2
 
  x1i  x1 x2i  x2 
2
R12  i  este raportul de determinaţie dintre variabilele
 2  2
 x1i  x1    x2i  x2  
i  i 
independente din modelul de regresie auxiliar.

Econometrie – Dănuţ JEMNA


108 Verificarea ipotezelor modelului de regresie

Pentru cazul unui model de regresie cu p variabile independente, varianţa estimatorului


parametrului  j , j  1, p , asociat variabilei independente Xj, este:
2
V ( ˆ j )  ,
 x ji  x j  ( 1  R 2j )
2

i
2
unde R este raportul de determinaţie din modelul de regresie auxiliar, construit pe baza
j

variabilelor independente. În acest model, variabila j este variabila dependentă, iar celelalte
variabile factoriale sunt variabile independente.

Pentru p variabile independente, modelul auxiliar se poate scrie astfel:


X j  0  1 X 1  ...   j 1 X j 1   j 1 X j 1  ...   p X p  u .

Indicatorul VIF se defineşte prin relaţia:


1
VIF j  .
( 1  R 2j )
Acesta indică modul în care varianţa estimatorului unui coeficient de regresie este influenţată
de prezenţa coliniarităţii la nivelul variabilelor independente.

Interpretare
Valoarea VIF = 1 indică lipsa coliniarităţii şi se realizează atunci când R 2j  0 . Dacă R 2j  1 ,
între variabilele independente există o coliniaritate perfectă, iar valoarea VIF este infinită.
Dacă variabilele sunt coliniare, indicatorul VIF are o valoare ridicată. În practică, pentru o
valoare VIF>10 , se consideră că este prezent fenomenul de coliniaritate.

Indicatorul Tolerance se determină ca inversul indicatorului VIF:


1
TOL j   ( 1  R 2j ) .
VIFj

Interpretare
Pentru TOL = 1, variabilele independente nu sunt coliniare, iar dacă TOL = 0, există
coliniaritate perfectă. Existenţa coliniarităţii este sugerată de valorile mici ale indicatorului
TOL.

Corectarea coliniarităţii

Metodele de corecţie a coliniarităţii trebuie să ţină cont de tipul de coliniaritate dintre


variabile, de numărul de variabile din model şi de informaţiile suplimentare despre fenomenul
studiat.

În literatura de specialitate se întâlnesc mai multe metode de corectare a coliniarităţii.

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 109

Cea mai facilă metodă este eliminarea variabilei care introduce coliniaritatea la nivelul
modelului de regresie. În această situaţie însă, există riscul eliminării din model a unei
variabile importante pentru explicarea fenomenului studiat.

O altă metodă este construirea unui model de regresie cu variabile transformate prin diverse
funcţii sau operatori (de exemplu, prin operatorul decalaj, diferenţă), iar în acest mod se poate
elimina dependenţa liniară dintre variabilele factoriale.

Exemplu
Pentru a exemplifica demersul verificării ipotezei de coliniaritate, utilizăm baza de date
Employee data oferită de SPSS. Ca variabilă dependentă alegem variabila Current Salary (Y,
$), iar ca variabile independente Educational Level (X1, ani de studiu) şi Previous Experience
(X2, luni).

Pentru aceste variabile, se estimează un model de regresie liniară multiplă. Rezultatele sunt
prezentate în tabelul de mai jos.

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients Collinearity Statis tics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (C ons tant) -20978,3 3087,258 -6,795 ,000
Educational Level (years ) 4020,343 210,650 ,679 19,085 ,000 ,936 1,068
Previous Experience
12,071 5,810 ,074 2,078 ,038 ,936 1,068
(m onths)
a. Dependent Variable: Current Salary

Modelul estimat are ecuaţia:


yi  20978,3  4020,34 x1i  12,07 x2i .

Interpretarea indicatorilor de coliniaritate


Valoarea indicatorului VIF este mică (1,068), ceea ce indică lipsa coliniarităţii dintre
variabilele independente utilizate în model.

Econometrie – Dănuţ JEMNA


110 Verificarea ipotezelor modelului de regresie

Test1
1. Un model de regresie este homoscedastic dacă:
a) erorile de modelare sunt independente
b) varianţele erorilor de modelare sunt egale
c) erorile au dispersia cuprinsă în intervalui (0,1)

2. Testul Durbin-Watson se utilizează pentru testarea:


a) coliniarităţii variabilelor factoriale
b) homoscedasticităţii erorilor
c) independenţei erorilor

3. Într-un model de regresie liniară multiplă, dacă variabilele independente sunt perfect
coliniare:
a) dispersia estimatorilor parametrilor este zero
b) dispersia estimatorilor parametrilor este infinită
c) erorile de modelare sunt minime

4. În testarea autocorelării erorilor, dacă valoarea calculată a statisticii Durbin-Watson este d


= 0, se poate considera că:
a) există autocorelare negativă maximă între erori
b) există autocorelare pozitivă maximă între erori
c) nu există autocorelare între erori

5. În vederea testării ipotezei de necorelare a erorilor unui model de regresie liniară, s-au
obţinut următoarele rezultate:
Model Summ aryb

Adjus ted Std. Error of Durbin-


Model R R Square R Square the Es timate Wats on
1 ,780 a ,609 ,565 29,22321 1,483
a. Predictors: (Cons tant), rata_inflatiei
b. Dependent Variable: PIB_loc

Cunoscând valorile critice din tabela Durbin-Watson dL = 1,503 şi dU = 1,585, pentru un risc
de 0,05, se poate considera că:
a) erorile de modelare sunt autocorelate pozitiv
b) erorile de modelare sunt autocorelate negativ
c) nu este posibilă luarea unei decizii cu privire la existenţa autocorelării erorilor

6. În vederea testării ipotezei de normalitate a erorilor unui model de regresie liniară simplă,
prin prelucrarea datelor pentru un eşantion de volum n = 11 unităţi, s-au obţinut următoarele
rezultate:

1 Rezultate test: 1 – b; 2 – c; 3 – b; 4 – c; 5 – a; 6 – a; 7 – b; 8 – b; 9 - a

Econometrie – Dănuţ JEMNA


Verificarea ipotezelor modelului de regresie 111

Descriptive Statistics

N Mean Skewnes s Kurtos is


Statis tic Statis tic Statis tic Std. Error Statis tic Std. Error
Error for PIB 11 ,0000000 -,252 ,661 1,063 1,279
Valid N (lis twis e) 11

Cunoscând valoarea teoretică a statisticii test, 02,05;2  5,99, se poate considera că:
a) erorile de modelare urmează o lege de repartiţie normală
b) erorile de modelare nu urmează o lege de repartiţie normală
c) erorile de modelare sunt independente

7. Într-un model de regresie liniară multiplă, dacă variabilele independente nu sunt perfect
coliniare:
a) dispersia estimatorilor parametrilor este zero
b) dispersia estimatorilor parametrilor este mare
c) erorile de modelare sunt minime

8. Dacă pentru un model de regresie liniară multiplă indicatorul Tolerance ia valoarea TOL =
1, atunci variabilele independente sunt:
a) coliniare
b) necoliniare
c) dependente

9. Pentru un model de regresie liniară multiplă, coliniaritatea este perfectă atunci când:
a) între variabilele independente există o legătură liniară deterministă de forma:
1 X 1  2 X 2  ...   p X p  0
b) între variabilele independente există o legătură liniară stochastică de forma:
1 X 1  2 X 2  ...  p X p    0
c) între variabilele independente nu există o legătură liniară

Econometrie – Dănuţ JEMNA