Sunteți pe pagina 1din 66

ECONOMETRIE – CURS 13

-anul universitar 2018-2019-

1
6.3. Ipoteza de normalitate a erorilor

1. Formularea problemei:
- erorile  i urmează o lege normală de medie 0
şi varianţă  2 :

 i ~ N ( 0 , 2 )

- ipoteza de normalitate a erorilor este importantă


pentru stabilirea proprietăţilor estimatorilor
parametrilor de regresie.
2
6.3. Ipoteza de normalitate a erorilor

• dacă  ~ N (0,  2 ) , atunci estimatorii parametrilor modelului


de regresie urmează, de asemenea, o lege normală:

ˆ 0 ~ N (  0 , 2ˆ ), ˆ1 ~ N ( 1 , 2ˆ )
0 1
2. Efectele încălcării ipotezei
- dacă ipoteza de normalitate este încălcată, estimatorii
construiţi prin MCMMP au doar proprietăţi asimptotice,
adică urmează legi normale de distribuţie numai în cazul
eşantioanelor de volum mare ( n   );
- estimatorii parametrilor din model nu sunt eficienți;
- Testul t statistic aplicat pentru verificarea semnificației
estimatorilor nu este valid.
3
6.3. Ipoteza de normalitate a erorilor

3. Verificarea ipotezei de normalitate a erorilor


- 3.1. Procedee grafice
- Histograma şi curba frecvenţelor
- Diagrama Boxplot
- Diagrama P-P Plot
- Diagrama Q-Q Plot

3.2. Procedee numerice:


- Testul Kolmogorov-Smirnov
- Testul Jarque-Bera

4
6.3. Ipoteza de normalitate a erorilor

a) Histograma şi curba frecvenţelor


- se reprezintă histograma şi curba frecvenţelor
erorilor şi se observă dacă forma distribuţiei
acestora are alură de clopot.

Exemplu:

5
6.3. Ipoteza de normalitate a erorilor

Histogram

12

10

8
Frequency

Mean = -3,1086245E-15
Std. Dev. = 6,72464405
0 N = 30
-20,00000 -10,00000 0,00000 10,00000 20,00000

Unstandardized Residual 6
b. Diagrama Boxplot

- se reprezintă grafic poziţia următoarelor cinci


valori: mediana, prima si a treia quartilă, valorile
extreme (inferioară şi superioară);

- dă informaţii cu privire la locul medianei, dispersia


şi asimetria unei distribuţii statistice.

7
b. Diagrama Boxplot

Unstandardized Residual

-20 -10 0 10
8
xi  x
zi 
s c. Diagrama P-P Plot
- Compară funcţia de repartiţie a distribuţiei unei variabile
empirice cu funcţia de repartiţie a unei distribuţii teoretice
specificate (ex: distribuţia normală standard);

- Pe abscisă se reprezintă frecvenţele empirice relative


cumulate crescător Fi , iar pe ordonată frecvenţele
teoretice relative cumulate crescător, respectiv valorile
funcţiei de repartiţie F ( zi )  P( Z  zi )
cu
zi 
ei  ei2
2 i
s s 
nk
Valorile F(zi) se citesc din tabelul repartitiei normale
standard sau se calculează cu ajutorul funcţiei
Laplace  ( zi )
9
d. Diagrama P-P Plot
Analyse/Descriptive statistics/P-P plot sau Analyse/Regression/Linear/Plots

Normal P-P Plot of Unstandardized Residual

1.0

0.8
Expected Cum Prob

0.6

0.4

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0

Observed Cum Prob


10
d. Diagrama Q-Q Plot
Analyse/Descriptive statistics/P-P plot

Normal Q-Q Plot of Unstandardized Residual

20

10
Expected Normal Value

-10

-20
-20 -10 0 10 20

Observed Value
11
d. Diagrama Q-Q Plot
Reziduuri asimetrice

12
d. Diagrama Q-Q Plot

• .

13
Procedee numerice de verificare a ipotezei de
normalitate erorilor

a. Testul Kolmogorov-Smirnov-Lilliefors (KSL)


- presupune compararea frecvenţelor empirice cumulate
cu frecvenţele teoretice cumulate citite din tabelul
repartiţiei normale standard;
- calculul elementelor se face similar diagramei P-P
plot
- se calculează diferenţele absolute dintre frecvenţele
empirice şi frecvenţele teoretice şi se alege cea
mai mare diferenţă (în valoare absolută).

Ipoteze statistice:
H0: erorile sunt normal distribuite
H1: erorile nu sunt normal distribuite 14
2.3 Testul Kolmogorov-Smirnov

• Statistica Kolmogorov - Smirnov este dată de diferenţa


maximă, în mărime absolută, între valorile celor două
funcţii de repartiţie corespunzătoare pentru aceeaşi
abscisă xi :
Dn  max Fn ( x)  F0 ( x)
   x  

• Valorile critice ale testului Kolmogorov-Smirnov sunt


tabelate şi depind de volumul eşantionului şi riscul 
• Regula de decizie
 dacă Dn  D / 2 sau Sig   , se respinge ipoteza nulă;
 dacă Dn  D / 2 sau Sig   , se acceptă ipoteza nulă
15
a. Testul Kolmogorov-Smirnov-Lilliefors (KSL)

Regula de decizie:
- valoarea pragului de semnificaţie empiric (Sig.) se
compară cu valoarea teoretică  : dacă Sig   ,
atunci NU se respinge ipoteza de normalitate a
erorilor.
- Vezi regula de respingere a ipotezei nule

Exemplu:

16
a. Testul Kolmogorov-Smirnov-Lilliefors (KSL)

One-Sample Kolmogorov-Smirnov Test

Unstandardized
Residual
N 75
Normal Parameters a,b Mean .0000000
Std. Deviation 6.51080700
Most Extreme Absolute .077
Differences Positive .051
Negative -.077
Kolmogorov-Smirnov Z .671
Asymp. Sig. (2-tailed) .759
a. Test distribution is Normal.
b. Calculated from data.

17
b. Testul Jarque-Bera
- se bazează pe verificarea simultană a
proprietăţilor de asimetrie şi boltire ale
repartiţiei variabilei reziduale.
Pentru o repartiţie normală:
- valoarea coeficientului de asimetrie (S) nu
diferă semnificativ de zero,
 32
S 3
2
- valoarea coeficientului de boltire (K) nu diferă
semnificativ de zero, K   4  3
 22 18
b. Testul Jarque-Bera

Formularea ipotezelor statistice:


H0: erorile sunt normal distribuite
H1: erorile nu sunt normal distribuite

19
b. Testul Jarque-Bera

• Statistica test JB are expresia:


n  2 K2
JB   S  
6  4 

unde: S este coeficientul de asimetrie (Skewness):


K este coeficientul de boltire (Kurtosis):

20
,

NU!!!
Parametrii formei repartiţiei probabiliste a unei variabile
aleatoare
Coeficientul de asimetrie Fisher
 32  3
1   3
2 
3

Coeficientul de boltire (aplatizare) Fisher:


4
 2  2  3  3
2
2

Pentru o distribuţie normală,  1  0 şi  2  0

21
n
X ~  2 (v,  ) X i ~ N (0,  2 ), i  1, n   X i2 ~  2 (v,  )
i 1
b. Testul Jarque-Bera

Regula de decizie:
Statistica JB urmează o lege de repartiţie chi-pătrat
cu două grade de libertate şi un prag de
semnificaţie  specificat, . 2 , 2
2

- dacă valoarea calculată a statisticii test JB >  , 2
sau Sig   , atunci se respinge ipoteza Ho.

- dacă valoarea calculată a statisticii test JB  2 , 2


sau Sig   , atunci NU se respinge (se acceptă)
ipoteza Ho.
22
23
Rezultate obținute cu EViews

24
6.4. Ipoteza de necorelare a erorilor
- presupune lipsa unei corelaţii între erorile  i la
nivelul distribuţiilor condiţionate, de forma Y / X  xi

- lipsa autocorelării erorilor se exprimă prin:


Cov( i ,  j )  0, i  j
- Dacă există autocorelare a erorilor, iar celelalte
ipoteze sunt respectate, intensitatea legăturii dintre
erori se măsoară prin coeficientul de
autocorelaţie de ordinul unu:

cov(i ,i 1 ) cov(i ,i 1 )


 
 i  i1 2
25
6.4. Ipoteza de necorelare a erorilor
- coeficientul de autocorelaţie de ordinul k este coeficientul
de corelaţie calculat între εi şi εi-k , dat prin relaţia:
cov( i ,  i  k ) cov( i ,  i  k )
k  
  i   i k  2
- Semnificaţia coeficientului de corelaţie:
-   0 erorile nu sunt corelate;
-   0 , între erori există legătură;
-   1 , erorile sunt perfect corelate, iar modelarea nu se
poate realiza.

26
6.4. Ipoteza de necorelare a erorilor

Surse ale autocorelării erorilor


- neincluderea în modelul de regresie a unor variabile
explicative importante;
- specificarea incorectă a modelului de regresie;
- sistematizarea şi pregătirea datelor pentru prelucrare

27
6.4. Ipoteza de necorelare a erorilor
Efectele autocorelării erorilor:
- Se demonstrează că, în cazul erorilor autocorelate, estimatorul
̂ 0 (obţinut prin MCMMP) are varianţa mai mare decât în cazul în
care erorile nu sunt autocorelate, pierzându-şi astfel eficienţa.
(Estimatorul eficient al unui parametru este estimatorul nedeplasat care
are varianţa minimă, dintre toţi estimatorii posibili)

- Testul t statistic de verificare a semnificației estimatorilor nu


este valid

28
6.4. Ipoteza de necorelare a erorilor

Teste de verificare a autocorelării erorilor:


1. Testul Durbin-Watson
2. Testul runs

29
1. Testul Durbin-Watson

- presupune testarea semnificaţiei coeficientului de


corelaţie de ordinul întâi (  ) dintre erori;
- dacă acest coeficient este semnificativ statistic,
erorile de regresie sunt autocorelate şi se poate
considera că între erori există o relaţie de forma:

 i   i 1  ui , cu ui ~ N (0,  u2 )

- Dacă  nu este semnificativ statistic, ipoteza de


necorelare a erorilor este respectată.

30
1. Testul Durbin-Watson
1. Ipoteze statistice:
H0: erorile nu sunt autocorelate ( = 0)
H1: erorile sunt autocorelate (  0 )

2. Alegerea testului statistic:

 (ˆi ˆi 1 ) 2
DW  d  i
 2(1  ˆ )
 ˆi2
i

31
1. Testul Durbin-Watson
3 . Valorile critice ale statisticii DW se citesc din tabelul
Durbin-Watson în funcţie de riscul  , volumul
eşantionului şi numărul de parametri din model.
• În tabelul DW se citesc două valori critice, notate cu
d L (limita inferioară) şi dU (limita superioară).

4. Valoarea calculată a statisticii:

2
( ei ei 1 )
dcalc  i  2(1 r )
2
 ei
i
32
Interpretarea rezultatelor:

Deoarece  1    1 , valorile statisticii DW se


găsesc în intervalul: 0  d  4

• Dacă   1  d  0 , atunci există autocorelare


pozitivă maximă a erorilor;
• Dacă   1  d  4 , atunci există autocorelare
negativă maximă a erorilor;
• Dacă   0  d  2 , atunci nu există
autocorelare.

33
Regula de decizie:

În funcţie de valorile critice ale statisticii DW se


determină următoarele intervale, care permit
luarea deciziei de respingere sau acceptare a
ipotezei nule:

a. (0<DWcalc< d L ) se respinge ipoteza Ho, erorile


înregistrează o autocorelare pozitivă;
b. (d L < DWcalc< dU ) şi (4- dU <DWcalc< 4- d L ) sunt
regiuni de nedeterminare, nu se poate decide
asupra existenţei autocorelării erorilor;

34
Regula de decizie:

c. (du <DWcalc< 4- du) se acceptă ipoteza Ho, erorile nu sunt


autocorelate;

d. (4-dL <DWcalc< 4) se respinge ipoteza Ho,


erorile înregistrează o autocorelare negativă.

Sintetic: o valoare a statisticii DW apropiată de 2 arată


că erorile nu sunt autocorelate între ele.

35
Calculul statisticii Durbin Watson cu SPSS:

b
Model Summary

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 ,985a ,970 ,960 2,41523 1,429
a. Predictors: (Constant), X
b. Dependent Variable: Y

36
Exemplu

2
 ( ei ei 1 )
25
DWcalc  i   1,429
2 17 ,5
 ei
i
Interpretare:
Din tabelul Durbin Watson, pentru n=25, k=2 si α=0.05 se citesc
valorile: dL=1,288; dU=1,454.
În exemplul dat:
(dL=1,288)<(DWcalc=1,429)<(dU=1,454), ceea ce arată că nu se
poate decide cu privire la existența autocorelării erorilor.

37
6.4. Ipoteza de necorelare a erorilor

2. Testul Runs
- se bazează pe ideea că valorile variabilei reziduale se
constituie în secvenţe sau seturi de valori pozitive sau
negative numite runs, care se succed într-o anumită ordine
sau aleator.

- ipoteza de bază a acestui test este aceea că în cazul lipsei


autocorelării erorilor (ipoteza nulă), succesiunea acestor
seturi (runs) este aleatoare, iar numărul lor este distribuit
normal.
- În caz contrar, secvenţele (runs) apar într-o anumită ordine,
iar numărul de runs NU este distribuit normal.

38
2. Runs Test

1. Ipoteze statistice
H0: erorile NU sunt autocorelate (k este distribuit normal )
H1: erorile sunt autocorelate ( k NU este distribuit normal)

2. Alegerea statisticii test


- se foloseşte testul t Student, cu expresia:
k  M (k )
t
k
unde: k este numărul de runs caracterizat prin:

39
2. Runs Test NU!!

n1 n2
M( k )  2 1
n1  n2

2n1 n2  n1  n2
V ( k )    2n1 n2
2
k
( n1  n2 )2 ( n1  n2  1 )

40
2. Runs Test
-

- n1 este numărul de valori pozitive ale variabilei eroare

- n2 este numărul de valori negative ale variabilei eroare


cu n1 + n2 = n .

3. Valoarea critică a statisticii t: t / 2; n  2

4. Valoarea calculată a statisticii t

5. Regula de decizie:
- dacă t  t  / 2 , n  2 sau sig   sau

 
k  M ( k )  t / 2 , n 2  sk , atunci se
acceptă ipoteza H0 pentru un prag de semnificaţie specificat. 41
NU!! Aplicaţie: Pentru două variabile, X şi Y, se
cunosc valorile xi, yi şi ei (erorile estimate ale
modelului de regresie simpl liniară):
Nr.crt. xi yi ei
1 1 20 -3,07508
2 2 21 -3,05303
3 3 22 -3,03099
4 4 24 -2,00894
5 5 25 -1,98689
6 7 27 -1,94280
7 8 29 -,92075
8 9 30 -,89871
9 10 32 ,12334
10 12 35 1,16743
11 13 37 2,18948
12 15 39 2,23357
13 17 40 1,27766
14 19 43 2,32176
15 20 45 3,34380

42
NU!! Exemplu

16 22 47 3,38790
17 23 48 3,40994
18 25 49 2,45403
19 27 50 1,49813
20 29 52 1,54222
21 30 54 2,56427
22 32 55 1,60836
23 35 57 ,67450
24 37 58 -,28141
25 39 59 -1,23732
26 40 61 -,21527
27 43 62 -2,14913
28 45 63 -3,10504
29 47 66 -2,06094
30 50 70 -,99481
31 52 71 -1,95071
43
32 55 75 -,88457
NU!! Exemplu

Să se testeze ipoteza de lipsă a autocorelării erorilor, folosind


testul Runs.

Rezolvare:
- În funcţie de semnul valorilor erorilor ei se pot identifica
următoarele seturi sau runs:

(----…-----)(+++…+++)((----…-----)

(primele 8 valori ale erorilor ei sunt negative, următoarele 15 valori


sunt pozitive iar ultimele 9 valori sunt negative).

44
Exemplu

Numărul total de valori pozitive ale erorilor ei este n1=15, iar


numărul total de valori negative este n2=17.

Numărul de seturi de valori (runs) formate este k=3.

Pentru testarea statistică se parcurg următoarele etape:

45
Exemplu

Ipoteze statistice
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate
Calculul statisticii test:
k  M ( k ) 3  16,94
t   4,849( esantion de vol . mic )
sk 2,7712
unde: nn 15  17
M (k )  2 1 2  1  2   1  16,94
n1  n2 15  17
2n1n2  n1  n2 2 15 17  15  17
sk2  2n1n2  2 15 17   7 ,6796
2 2
( n1  n2 ) ( n1  n2  1 ) ( 15  17 )  ( 15  17  1 )

s k  7,6796  2,7712 46
Exemplu

Regula de decizie:
(|tcalc |=4,849)>(ttab=1,96): se respinge ipoteza Ho, K nu este
distribuit normal, erorile sunt autocorelate, în condiţiile
riscului admis de 5%.
SAU
ICk : ( 16 ,94  1,96  2 ,7712 )  ( 11,51 ; 22 ,37 )
Numărul de seturi de valori k=3 nu este acoperit de intervalul
de încredere, ceea ce arată că se respinge ipoteza Ho,
erorile sunt autocorelate, în condiţiile riscului admis de 5%.

47
Testul Runs în SPSS

Runs Test 2

Unstandardiz
ed Residual
Test Value a ,0000000
Cases < Test Value 17
Cases >= Test Value 15
Total Cases 32
Number of Runs 3
Z -4,849
Asymp. Sig. (2-tailed) ,000
a. Mean

48
b) Ipoteze formulate asupra variabilelor
independente

6.5. Ipoteza de lipsă a coliniarității


variabilelor independente
- pentru modele de regresie liniară multiplă (două sau mai
multe variabile independente)

Y X 1 , X p   0  1  X 1   2  X 2     p  X p  

- presupune ca între variabilele independente să NU existe o


legătură de tip liniar

49
6.5. Ipoteza de necoliniaritate a variabilelor
independente

- Se disting două tipuri de coliniaritate:


1. coliniaritate perfectă
2. coliniaritate imperfectă

50
6.5. Lipsa coliniarităţii variabilelor
independente
Coliniaritate perfectă

- apare atunci când, există p constante λi, cu i=1, ..., p, nu


toate nule, astfel încât între variabilelele independente X1,
X2, ..., Xp ale unui model de regresie să aibă loc o relaţie
de forma:

1  X 1  2  X 2     p  X p  0

51
6.5. Lipsa coliniarităţii variabilelor independente

Coliniaritatea dintre variabile se numeşte


imperfectă, dacă are loc relaţia:
1  X 1  2  X 2    k  X p  u  0
- unde u este o variabilă aleatoare care respectă
ipotezele modelului clasic de regresie

52
6.5. Lipsa coliniarităţii variabilelor
independente

Coliniaritatea imperfectă dintre variabilele independente


poate fi exprimată cu ajutorul unui model de regresie
auxiliară:
X j   0  1  X 1   j 1 X j 1   j 1 X j 1  k X k  u

Această relaţie arată faptul că variabila Xj nu este explicată


doar de variaţia celorlalte variabile independente, ci şi de
variaţii aleatoare, definite prin termenul eroare, ui.

53
6.5. Lipsa coliniarităţii variabilelor independente

- Efectele coliniarităţii:
- varianţa estimatorilor parametrilor modelului de regresie
creşte, adică estimatorii pierd proprietatea de eficienţă
- pentru o coliniaritate perfectă, varianţa estimatorilor este
infinită, iar parametrii modelului nu pot fi estimaţi

- Formularea ipotezelor statistice:


- H0: variabilele independente NU sunt coliniare;
- H1: variabilele independente sunt coliniare;

54
Testarea coliniarităţii

20,00 Metoda grafică

15,00
X2

10,00

5,00

R Sq Linear = 1
0,00

0,00 2,00 4,00 6,00 8,00 10,00

X1

Figura 1. Identificarea grafică a coliniarităţii perfecte


dintre două variabile independente, X1 şi X2

55
Testarea coliniarităţii

20,00

15,00

X2
10,00

5,00

0,00 R Sq Linear = 0,902

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00

X1

Figura 2. Identificarea grafică a coliniarităţii imperfecte


dintre două variabile independente, X1 şi X2

56
Testarea coliniarităţii

Procedee numerice

1. Testarea parametrilor modelului de regresie iniţial


Dacă raportul de determinaţie are valoare mare (peste 0,8) şi
coeficienţii de regresie NU sunt semnificativi statistic, atunci
variabilele independente sunt coliniare, adică este încălcată
ipoteza de lipsă a coliniarităţii.

57
Testarea coliniarităţii

2. Testarea parametrilor modelului de regresie auxiliară


- dacă parametrii acestor modele sunt semnificativi, atunci
variabilele independente sunt coliniare

3. Indicatorul VIF (Variance-Inflation Factor) – construit pe


baza modelelor de regresie auxiliară
1
VIF j 
1  R 2j
unde R 2j reprezintă raportul de determinaţie din regresia
auxiliară, construita pe baza variabilelor independente,
în care variabila j este dependenta.

58
1
VIF j 
Testarea coliniarităţii 1  R 2j

- atunci când legăturile dintre variabilele independente


sunt puternice, valoarea coeficientului de corelaţie se
apropie de unu (R2=1), iar raportul VIF tinde spre
infinit (VIF   ).
-când valoarea raportului de corelaţie este zero (R2=0),
nu există legătură între variabile, valoarea raportului
VIF este egală cu unu, VIF=1, variabilele
independente NU sunt coliniare.
- în practică, se consideră că o valoare VIF>10 indică
prezenţa coliniarităţii

59
Testarea coliniarităţii

4. Indicatorul Tolerance – se determină ca inversul indicatorului


VIF, după relaţia:

1
TOL j   (1  R 2j )
VIF j

• - dacă TOL=1, variabilele independente nu sunt coliniare


• - dacă TOL=0, există o coliniaritate perfectă
• - existenţa coliniarităţii este indicată de valori mici ale
indicatorului TOL

60
Exemplu

1. Analiza valorii raportului de corelaţie (din


modelul iniţial) în raport cu parametrii de
regresie

Model Summaryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 .996a .991 .986 .34224 3.085
a. Predictors: (Constant), X2, X1
b. Dependent Variable: Y

61
Exemplu

• Coeficienţii (parametrii) de regresie ai modelului


iniţial

a
Coefficients

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 1.806 .592 3.050 .055
X1 .261 .052 .347 5.045 .015 .607 1.648
X2 1.415 .131 .741 10.773 .002 .607 1.648
a. Dependent Variable: Y

62
Exemplu

2. Analiza coeficienților de regresie ai regresiei


auxiliare

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 9.837 2.916 3.373 .028
X2 1.591 .988 .627 1.610 .183
a. Dependent Variable: X1

63
Exemplu

3. Analiza indicatorilor VIF și TOL


Raportul de determinaţie al modelului de regresie
auxiliară

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .627a .393 .242 3.30459
a. Predictors: (Constant), X2

64
Exemplu

• Indicatorul VIF are valoarea: VIF=1,648


• Indicatorul Tolerance: TOL=0,607

VIF<10 si TOL>0,5 indică absenţa coliniarităţii


variabilelor independente ale modelului de
regresie analizat

65
Corectarea coliniarităţii variabilelor
independente

Metode de corectare a coliniarității variabilelor


independente:
1. Eliminarea variabilei care introduce coliniaritatea (există
riscul eliminării unei variabile importante pentru
explicarea fenomenului studiat)
2. Construirea unui model de regresie cu variabile
transformate prin diverse funcții sau operatori (ex.
Operatorul diferență)

66

S-ar putea să vă placă și