Sunteți pe pagina 1din 64

ECONOMETRIE

Curs 13
Prof. univ. dr. Mariana HATMANU

- anul universitar 2022-2023 –

1
Capitolul 5. Verificarea ipotezelor modelului
de regresie
a) Ipoteze formulate asupra erorilor de regresie
(componenta aleatoare a modelului)
5.1. Media erorilor este egală cu zero
5.2. Ipoteza de homoscedasticitate a erorilor
5.3. Ipoteza de normalitate a erorilor
5.4. Ipoteza de necorelare a erorilor
b) Ipoteze formulate asupra variabilelor
independente (componenta deterministă a
modelului)
5.5. Ipoteza de lipsă a coliniarității variabilelor
independente

2
5.3. Ipoteza de normalitate a erorilor

1. Formularea problemei:
- erorile  i urmează o lege normală de medie 0 şi
varianţă  2 :

 i ~ N ( 0 , 2 )

- ipoteza de normalitate a erorilor este importantă


pentru stabilirea proprietăţilor estimatorilor
parametrilor de regresie.

3
5.3. Ipoteza de normalitate a erorilor
• dacă  ~ N (0,  2 ) , atunci estimatorii parametrilor modelului de
regresie urmează, de asemenea, o lege normală:

ˆ 0 ~ N (  0 , 2ˆ ), ˆ1 ~ N ( 1 , 2ˆ )
0 1
2. Efectele încălcării ipotezei
- dacă ipoteza de normalitate este încălcată, estimatorii
construiţi prin MCMMP au doar proprietăţi asimptotice, adică
urmează legi normale de distribuţie numai în cazul
eşantioanelor de volum mare ( n   );
- Testul t statistic aplicat pentru verificarea semnificației
estimatorilor nu este valid.

4
5.3. Ipoteza de normalitate a erorilor

3. Verificarea ipotezei de normalitate a erorilor


- 3.1. Procedee grafice
- Histograma şi curba frecvenţelor
- Diagrama Q-Q Plot

3.2. Procedee numerice:


- Testul Kolmogorov-Smirnov
- Testul Jarque-Bera

5
5.3. Ipoteza de normalitate a erorilor

a) Histograma şi curba frecvenţelor


- se reprezintă histograma şi curba frecvenţelor erorilor
şi se observă dacă forma distribuţiei acestora are alură
de clopot.

Exemplu:

6
5.3. Ipoteza de normalitate a erorilor

Histogram

12

10

8
Frequency

Mean = -3,1086245E-15
Std. Dev. = 6,72464405
0 N = 30
-20,00000 -10,00000 0,00000 10,00000 20,00000
7
Unstandardized Residual
b. Diagrama Q-Q Plot

• - compară vizual frecvențele relative cumulate observate (empirice) ale


erorilor cu cele teoretice / așteptate sau cu probabilitățile corespunzătoare
repartiției normale (obținute cu ajutorul tabelului funcției lui Laplace)

• frecvențele cumulate teoretice se distribuie sub forma unei drepte (dreapta


lui Henry) = diagonala din pătratul probabilităților
• Frecvențele cumulate observate se pot distribui foarte aproape de această
dreaptă – putem considera că repartiția erorilor respectă condiția de
normalitate
• SAU se pot abate semnificativ de o parte și de alta a dreptei frecvențelor
teoretice – ipoteza este încălcată

8
b. Diagrama Q-Q Plot: reziduuri normal distribuite

Normal Q-Q Plot of Unstandardized Residual

20

10
Expected Normal Value

-10

-20
-20 -10 0 10 20

Observed Value
9
b. Diagrama Q-Q Plot
Reziduuri asimetrice, nu sunt normal distribuite

10
d. Diagrama Q-Q Plot
Reziduuri asimetrice

11
Procedee numerice de verificare a ipotezei de normalitate erorilor

a. Testul Kolmogorov-Smirnov-Lilliefors (KSL)


- presupune compararea frecvenţelor empirice cumulate
cu frecvenţele teoretice cumulate citite din tabelul
repartiţiei normale standard;
- se calculează diferenţele absolute dintre frecvenţele
empirice şi frecvenţele teoretice şi se alege cea
mai mare diferenţă.

Ipoteze statistice:
H0: erorile sunt normal distribuite
H1: erorile nu sunt normal distribuite

12
5.3 Testul Kolmogorov-Smirnov
• Statistica Kolmogorov - Smirnov este dată de diferenţa
maximă, în mărime absolută, între valorile celor două funcţii de
repartiţie (empirică și, respectiv, teoretică) corespunzătoare
pentru aceeaşi abscisă xi :
Dn  max Fn ( x)  F0 ( x)
   x  

• Valorile critice ale testului Kolmogorov-Smirnov sunt tabelate şi


depind de volumul eşantionului şi riscul 
• Regula de decizie
 dacă Dn  D / 2 sau Sig   , se respinge ipoteza nulă;
Dacă Dn  D / 2 sau Sig   , NU se respinge ipoteza nulă

13
a. Testul Kolmogorov-Smirnov-Lilliefors (KSL)

•.

14
b. Testul Jarque-Bera

- se bazează pe verificarea simultană a proprietăţilor de asimetrie şi


boltire ale repartiţiei variabilei reziduale.

Coeficientul de asimetrie Fisher (Sw - skewness):


3
Sw 
3
în cazul distribuției normale
– asimetrie pozitivă
– asimetrie negativă

15
b. Testul Jarque-Bera

Coeficientului de boltire Fisher (K - kurtosis):


4
K 2
3
2

- 𝐾 = 0 în cazul distribuției normale (distribuție mezocurtică)


- 𝐾 > 0 – repartiție cu boltire (distribuție leptocurtică)
- K< 0 – repartiție aplatizată (distribuție platicurtică)

16
b. Testul Jarque-Bera

Formularea ipotezelor statistice:


H0: erorile sunt normal distribuite
H1: erorile nu sunt normal distribuite

17
b. Testul Jarque-Bera

• Statistica test JB are expresia:

n  2 K2
JB   S  
6  4 

unde: S este coeficientul de asimetrie (Skewness):


K este coeficientul de boltire (Kurtosis):

18
n
2
X ~  (v,  ) 2
X i ~ N (0,  ), i  1, n   X i2 ~  2 (v,  )
i 1
b. Testul Jarque-Bera

Regula de decizie:
Statistica JB urmează o lege de repartiţie chi-pătrat cu două grade de libertate şi un
prag de semnificaţie  specificat,  ., 2
2

- dacă valoarea calculată a statisticii test JB > 2 , 2 sau Sig   , atunci se
respinge ipoteza Ho.
2
- dacă valoarea calculată a statisticii test JB    , 2
sau Sig   , atunci NU se respinge (se acceptă) ipoteza Ho.
19
Statistici descriptive ale variabilei erorilor de regresie

20
5.4. Ipoteza de necorelare a erorilor
- presupune lipsa unei corelaţii între erorile  i la nivelul
distribuţiilor condiţionate, de forma Y / X  xi

- lipsa autocorelării erorilor se exprimă prin:


Cov( i ,  j )  0, i  j
- Dacă există autocorelare a erorilor, iar celelalte ipoteze sunt
respectate, intensitatea legăturii dintre erori se măsoară
prin coeficientul de autocorelaţie de ordinul unu:

cov(i ,i 1 ) cov(i ,i 1 )


 
 i  i1 2
21
5.4. Ipoteza de necorelare a erorilor
- Intensitatea corelației dintre erori se poate măsura și pentru un decalaj de
ordin mai mare decât unu. Coeficientul de autocorelaţie de ordinul k este
coeficientul de corelaţie calculat între εi şi εi-k , dat prin relaţia:
cov( i ,  i  k ) cov( i ,  i  k )
k  
  i   i k  2

- Semnificaţia coeficientului de corelaţie:


-   0 erorile nu sunt corelate;
-   0 , între erori există legătură;
-   1 , erorile sunt perfect corelate, iar modelarea nu se poate realiza.

22
5.4. Ipoteza de necorelare a erorilor

Surse ale autocorelării erorilor


- neincluderea în modelul de regresie a unor variabile explicative importante;
- specificarea incorectă a formei modelului de regresie;
- sistematizarea şi pregătirea datelor pentru prelucrare

23
5.4. Ipoteza de necorelare a erorilor
Efectele autocorelării erorilor:
- Se demonstrează că, în cazul erorilor autocorelate, estimatorul
̂ 0 (obţinut prin MCMMP) are varianţa mai mare decât în cazul în
care erorile nu sunt autocorelate, pierzându-şi astfel eficienţa.
(Estimatorul eficient al unui parametru este estimatorul nedeplasat care
are varianţa minimă, dintre toţi estimatorii posibili)

- Testul t statistic de verificare a semnificației estimatorilor nu


este valid

24
5.4. Ipoteza de necorelare a erorilor

Teste de verificare a autocorelării erorilor:


1. Testul Durbin-Watson
2. Testul runs

25
1. Testul Durbin-Watson

- presupune testarea semnificaţiei coeficientului de


corelaţie de ordinul întâi (  ) dintre erori;
- dacă acest coeficient este semnificativ statistic,
erorile de regresie sunt autocorelate şi se poate
considera că între erori există o relaţie de forma:

 i   i 1  ui , cu ui ~ N (0,  u2 )

- Dacă  nu este semnificativ statistic, ipoteza de


necorelare a erorilor este respectată.

26
1. Testul Durbin-Watson
1. Ipoteze statistice:
H0: erorile nu sunt autocorelate ( = 0)
H1: erorile sunt autocorelate (  0 )

2. Alegerea testului statistic:

(ˆi ˆi1)2
DW  d  i
 2(1  ˆ )
 ˆi2
i

27
1. Testul Durbin-Watson
3 . Valorile critice ale statisticii DW se citesc din tabelul
Durbin-Watson în funcţie de riscul  , volumul
eşantionului şi numărul de parametri din modelul de regresie.
• În tabelul DW se citesc două valori critice, notate cu
d L (limita inferioară) şi dU (limita superioară).

4. Valoarea calculată a statisticii:


2
( ei ei 1 )
dcalc  i  2(1  r )
2
 ei
i

28
Interpretarea rezultatelor:

Deoarece  1    1 , valorile statisticii DW se


găsesc în intervalul: 0  d  4

• Dacă   1  d  0 , atunci există autocorelare


pozitivă maximă a erorilor;
• Dacă   1  d  4 , atunci există autocorelare
negativă maximă a erorilor;
• Dacă   0  d  2 , atunci nu există
autocorelare.

29
Regula de decizie:

În funcţie de valorile critice ale statisticii DW se determină


următoarele intervale, care permit luarea deciziei de respingere
sau acceptare a ipotezei nule:

a. (0<DWcalc< d L ) se respinge ipoteza Ho, erorile înregistrează o


autocorelare pozitivă;
b. ( d L< DWcalc< dU ) şi (4- dU <DWcalc< 4- d L ) sunt regiuni de
nedeterminare, nu se poate decide asupra existenţei autocorelării
erorilor;

30
Regula de decizie:
c. (du <DWcalc< 4- du) se acceptă ipoteza Ho, erorile nu sunt
autocorelate;

d. (4-dL <DWcalc< 4) se respinge ipoteza Ho,


erorile înregistrează o autocorelare negativă.

Sintetic: o valoare a statisticii DW apropiată de 2 arată


că erorile nu sunt autocorelate între ele.

31
Calculul statisticii Durbin Watson cu SPSS:

b
Model Summary

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 ,985a ,970 ,960 2,41523 1,429
a. Predictors: (Constant), X
b. Dependent Variable: Y

32
Exemplu

2
 ( ei ei 1 )
25
DWcalc  i   1,429
2 17 ,5
 ei
i

Interpretare:
Din tabelul Durbin Watson, pentru n=25, k=2 si α=0.05 se citesc
valorile: dL=1,288; dU=1,454.
În exemplul dat:
(dL=1,288)<(DWcalc=1,429)<(dU=1,454), ceea ce arată că nu se poate
decide cu privire la existența autocorelării erorilor.

33
5.4. Ipoteza de necorelare a erorilor
2. Testul Runs
- se bazează pe ideea că valorile variabilei reziduale se
constituie în secvenţe sau seturi de valori pozitive sau
negative numite runs, care se succed într-o anumită ordine
sau aleator.
- ipoteza de bază a acestui test este aceea că în cazul lipsei
autocorelării erorilor (ipoteza nulă), succesiunea acestor
seturi (runs) este aleatoare, iar numărul lor este distribuit
normal.
- În caz contrar, secvenţele (runs) apar într-o anumită ordine,
iar numărul de runs NU este distribuit normal.

34
2. Runs Test

1. Ipoteze statistice
H0: erorile NU sunt autocorelate (k este distribuit normal )
H1: erorile sunt autocorelate ( k NU este distribuit normal)

2. Alegerea statisticii test


- se foloseşte testul t Student, cu expresia:
k  M (k )
t
k
unde: k este numărul de runs caracterizat prin:

35
2. Runs Test

n1n2
M( k )  2 1
n1  n2

2n1 n2  n1  n2
V ( k )   k2  2n1 n2
( n1  n2 )2 ( n1  n2  1 )

36
2. Runs Test
-

- n1 este numărul de valori pozitive ale variabilei eroare

- n2 este numărul de valori negative ale variabilei eroare


cu n1 + n2 = n .

3. Valoarea critică a statisticii t: t / 2; n  2

4. Valoarea calculată a statisticii t

5. Regula de decizie:
- Dacă t  t  / 2 , n  2 sau sig   , atunci nu se repinge
ipoteza H0 , adică se poate considera că erorile modelului sunt independente.

37
Exemplu: Pentru două variabile, X şi Y, se cunosc valorile xi, yi şi
ei (erorile estimate ale modelului de regresie simpl liniară):

Nr.crt. xi yi ei
1 1 20 -3,07508
2 2 21 -3,05303
3 3 22 -3,03099
4 4 24 -2,00894
5 5 25 -1,98689
6 7 27 -1,94280
7 8 29 -,92075
8 9 30 -,89871
9 10 32 ,12334
10 12 35 1,16743
11 13 37 2,18948
12 15 39 2,23357
13 17 40 1,27766
14 19 43 2,32176
15 20 45 3,34380

38
Exemplu

16 22 47 3,38790
17 23 48 3,40994
18 25 49 2,45403
19 27 50 1,49813
20 29 52 1,54222
21 30 54 2,56427
22 32 55 1,60836
23 35 57 ,67450
24 37 58 -,28141
25 39 59 -1,23732
26 40 61 -,21527
27 43 62 -2,14913
28 45 63 -3,10504
29 47 66 -2,06094
30 50 70 -,99481
31 52 71 -1,95071
32 55 75 -,88457 39
Exemplu

Să se testeze ipoteza de lipsă a autocorelării erorilor, folosind testul Runs.

Rezolvare:
- În funcţie de semnul valorilor erorilor ei se pot identifica următoarele seturi sau runs:

(----…-----)(+++…+++)((----…-----)

(primele 8 valori ale erorilor ei sunt negative, următoarele 15 valori sunt pozitive iar ultimele 9
valori sunt negative).

40
Exemplu

Numărul total de valori pozitive ale erorilor ei este n1=15, iar numărul total de valori negative
este n2=17.

Numărul de seturi de valori (runs) formate este k=3.

Pentru testarea statistică se parcurg următoarele etape:

41
Exemplu

Ipoteze statistice
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate
Calculul statisticii test:
k  M ( k ) 3  16,94
t   4 ,849( esantion de vol . mic )
sk 2 ,7712
nn 15  17
unde: M (k )  2 1 2  1  2   1  16,94
n1  n2 15  17
2n1n2  n1  n2 2 15 17  15  17
sk2  2n1n2  2 15 17   7 ,6796
2 2
( n1  n2 ) ( n1  n2  1 ) ( 15  17 )  ( 15  17  1 )

s k  7,6796  2,7712 42
Exemplu

Regula de decizie:
(|tcalc |=4,849)>(ttab=1,96): se respinge ipoteza Ho, K nu este distribuit
normal, erorile sunt autocorelate, în condiţiile riscului admis de
5%.
SAU se determină IC al mediei lui K (numarul de runs)

ICk : ( 16,94  1,96  2,7712 )  ( 11,51 ; 22,37 )

Numărul de seturi de valori k=3 nu este acoperit de intervalul de


încredere, ceea ce arată că se respinge ipoteza Ho, erorile sunt
autocorelate, în condiţiile riscului admis de 5%.

43
Testul Runs în SPSS

Runs Test 2

Unstandardiz
ed Residual
Test Value a ,0000000
Cases < Test Value 17
Cases >= Test Value 15
Total Cases 32
Number of Runs 3
Z -4,849
Asymp. Sig. (2-tailed) ,000
a. Mean

44
b) Ipoteze formulate asupra variabilelor independente
PT DUPA VACANTA

5.5. Ipoteza de lipsă a coliniarității variabilelor


independente
- pentru modele de regresie liniară multiplă (două sau mai
multe variabile independente)

Y   0  1  X 1   2  X 2     p  X p  

- presupune ca între variabilele independente să NU existe o


legătură de tip liniar

45
5.5. Ipoteza de necoliniaritate a variabilelor independente

- Se disting două tipuri de coliniaritate:


1. coliniaritate perfectă
2. coliniaritate imperfectă

46
5.5. Lipsa coliniarităţii variabilelor independente

Coliniaritate perfectă

- apare atunci când, există p constante λi, cu i=1, ..., p, nu toate nule, astfel încât între
variabilelele independente X1, X2, ..., Xp ale unui model de regresie să aibă loc o
relaţie de forma:

1  X 1  2  X 2     p  X p  0

47
5.5. Lipsa coliniarităţii variabilelor independente

Coliniaritatea dintre variabile se numeşte


imperfectă, dacă are loc relaţia:
1  X 1  2  X 2    k  X p  u  0
- unde u este o variabilă aleatoare reziduală care
respectă ipotezele modelului clasic de regresie

48
5.5. Lipsa coliniarităţii variabilelor independente

Coliniaritatea imperfectă dintre variabilele independente


poate fi exprimată cu ajutorul unui model de regresie
auxiliară:
X j   0  1  X 1   j 1 X j 1   j 1 X j 1  k X k  u

Această relaţie arată faptul că variabila Xj nu este explicată


doar de variaţia celorlalte variabile independente, ci şi de
variaţii aleatoare, definite prin termenul eroare, u.

49
5.5. Lipsa coliniarităţii variabilelor independente

- Efectele coliniarităţii:
- varianţa estimatorilor parametrilor modelului de regresie
creşte, adică estimatorii pierd proprietatea de eficienţă
- pentru o coliniaritate perfectă, varianţa estimatorilor este
infinită, iar parametrii modelului nu pot fi estimaţi
- Scade valoarea calculată a statisticii test (t), însoțită de
probabilitate mare (Sig)
- Scade puterea testului

- Formularea ipotezelor statistice:


- H0: variabilele independente NU sunt coliniare;
- H1: variabilele independente sunt coliniare;

50
Testarea coliniarităţii

20,00
Metoda grafică

15,00
X2

10,00

5,00

R Sq Linear = 1
0,00

0,00 2,00 4,00 6,00 8,00 10,00

X1

Figura 1. Identificarea grafică a coliniarităţii perfecte


dintre două variabile independente, X1 şi X2

51
Testarea coliniarităţii

20,00

15,00

X2
10,00

5,00

0,00 R Sq Linear = 0,902

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00

X1

Figura 2. Identificarea grafică a coliniarităţii imperfecte


dintre două variabile independente, X1 şi X2

52
Testarea coliniarităţii

Procedee numerice

1. Testarea parametrilor modelului de regresie iniţial


Dacă raportul de determinaţie are valoare mare (peste 0,8) şi coeficienţii de regresie
NU sunt semnificativi statistic, atunci variabilele independente sunt coliniare,
adică este încălcată ipoteza de lipsă a coliniarităţii.

53
Testarea coliniarităţii

2. Testarea parametrilor modelului de regresie auxiliară


- dacă parametrii acestor modele sunt semnificativi, atunci
variabilele independente sunt coliniare

3. Indicatorul VIF (Variance-Inflation Factor) – construit pe


baza modelelor de regresie auxiliară
1
VIF j 
1  R 2j

2
unde R j reprezintă raportul de determinaţie din regresia
auxiliară, construită pe baza variabilelor independente,
în care variabila j este dependentă.
54
1
Testarea coliniarităţii VIF j 
1  R 2j

- atunci când legăturile dintre variabilele independente


sunt puternice, valoarea raportul de determinație se
apropie de unu (R2=1), iar raportul VIF tinde spre
infinit (VIF  ).
-când valoarea raportului de determinație este zero
(R2=0), nu există legătură între variabile, valoarea
raportului VIF este egală cu unu, VIF=1, variabilele
independente NU sunt coliniare.
- în practică, se consideră că o valoare VIF>10 indică
prezenţa coliniarităţii

55
Testarea coliniarităţii

4. Indicatorul Tolerance – se determină ca inversul indicatorului VIF, după relaţia:

1
TOL j   (1  R 2j )
VIF j
• - dacă TOL=1, variabilele independente nu sunt coliniare
• - dacă TOL=0, există o coliniaritate perfectă
• - existenţa coliniarităţii este indicată de valori mici ale indicatorului TOL
• In practica, se consideră ca valori TOL>0,5 indică absența coliniarității

56
Exemplu

1. Analiza valorii raportului de corelaţie (din modelul


iniţial) în raport cu parametrii de regresie

Model Summaryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 .996a .991 .986 .34224 3.085
a. Predictors: (Constant), X2, X1
b. Dependent Variable: Y

57
Exemplu

• Coeficienţii (parametrii) de regresie ai modelului iniţial

a
Coefficients

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 1.806 .592 3.050 .055
X1 .261 .052 .347 5.045 .015 .607 1.648
X2 1.415 .131 .741 10.773 .002 .607 1.648
a.Dependent Variable: Y

58
Exemplu

2. Analiza coeficienților de regresie ai regresiei auxiliare

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 9.837 2.916 3.373 .028
X2 1.591 .988 .627 1.610 .183
a. Dependent Variable: X1

59
Exemplu

3. Analiza indicatorilor VIF și TOL


Raportul de determinaţie al modelului de regresie
auxiliară
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .627 a .393 .242 3.30459
a. Predictors: (Constant), X2

Care este valoarea indicatorului VIF? Cum se interpretează?

60
Exemplu

• Indicatorul VIF are valoarea: VIF=1,648


• Indicatorul Tolerance: TOL=0,607

VIF<10 si TOL>0,5 indică absenţa coliniarităţii


variabilelor independente ale modelului de
regresie analizat

61
Alte exemple

Cum se poate atenua/corecta problema coliniarității din acest model?

62
Corectarea coliniarităţii variabilelor independente

Metode de corectare a coliniarității variabilelor independente:


1. Eliminarea variabilei care introduce coliniaritatea (există riscul eliminării unei
variabile importante pentru explicarea fenomenului studiat)
2. Construirea unui model de regresie cu variabile transformate prin diverse
funcții sau operatori (ex. Operatorul diferență)

63
Alte exemple

Care este valoarea raportului de determinație al regresiei


auxiliare dintre variabilele competence și motivation?

64

S-ar putea să vă placă și