Sunteți pe pagina 1din 46

ECONOMETRIE

- Curs 11-

Ipoteze statistice:
I3 - Ipoteza de normalitate a erorilor
I4 - Ipoteza de necorelare sau de independenţă a erorilor
I5 - Ipoteza de necoliniaritate a variabilelor independente

1
I3 - Ipoteza de normalitate a erorilor

1. Formularea problemei
- erorile εi urmează o lege normală de medie 0 şi
varianţă σ2:
 i ~ N ( 0 , 2 )

2. Efectele încălcării acestei ipoteze


- ipoteza de normalitate a erorilor este importantă
pentru stabilirea proprietăţilor estimatorilor
parametrilor modelului de regresie.

3
I3 - Ipoteza de normalitate a erorilor
• Dacă  i ~ N ( 0 , 2 ), atunci estimatorii parametrilor modelului de
regresie urmează, de asemenea, o lege normală:

ˆi ~ N ( i ,  2ˆ )
i

• Dacă ipoteza de normalitate este încălcată, atunci estimatorii


construiţi pe baza metodei celor mai mici pătrate au doar
proprietăţi asimptotice, adică necesită eşantioane sau seturi
mari de date.

4
I3 - Ipoteza de normalitate a erorilor

3. Verificarea normalității erorilor

3.1. Procedee grafice


- Histograma (curba frecvenţelor);
- Box-Plot;
- Q-Q Plot; P-P Plot.
3.2. Procedee numerice
- Testul Kolmogorov – Smirnov
- Testul Jarque Berra

5
I3 - Ipoteza de normalitate a erorilor

3.1. Procedee grafice


A. Reprezentarea histogramei şi a curbei frecvenţelor

Se reprezintă curba frecvenţelor sau histograma reziduurilor


şi se observă dacă forma distribuţiei acestora are alură
de clopot.

**** Legea normală este definită de funcţia de densitate de


probabilitate care este reprezentată grafic prin curba densităţii de
probabilitate, curbă cu alură de clopot.

6
Histograma şi curba frecvenţelor

Histogram

Dependent Variable: greut


3,0
2,5
Frequency

2,0
1,5
1,0
0,5
0,0
Mean = -1,85E-15
-2 -1 0 1 2 Std. Dev. = 0,943
N = 10
Regression Standardized Residual

7
3.1. Procedee grafice
B. Reprezentarea diagramei Box-plot

8
3.1. Procedee grafice
C. Reprezentarea Dreaptei Henry (Q-Q PLOT)
• Cu cât distribuţia observată este mai apropiat de dreaptă (distribuţia
teoretică = distribuţia normală), cu atât distribuţia reziduurilor este
comparabilă cu o lege normală.

9
I3 - Ipoteza de normalitate a erorilor
3.2. Procedee numerice
A. Testul Kolmogorov-Smirnov-Lilliefors (KSL)
- presupune compararea frecvenţelor cumulate (calculate) cu
frecvenţele teoretice cumulate extrase din tabelul Gauss.

10
1. Ipoteze statistice:
H0: erorile urmează o lege de distribuţie normală:  i ~ N ( 0 , 2 )
H1: distribuţia erorilor nu urmează o lege normală

2. Regula de decizie:
- valoarea probabilităţii asociate statisticii test calculate (Sig.) se
compară cu (0,05): 
- dacă Sig.<0,05, atunci se respinge ipoteza de normalitate a
erorilor.

3. Decizia:
• Deoarece Sig. = 0,000 < 0,05  se respinge ipoteza nulă  erorile
nu urmează o lege de repartiție normală.

11
I3 - Ipoteza de normalitate a erorilor
3.2. Procedee numerice
B. Testul Jarque-Bera
- se bazează pe verificarea simultană a proprietăţilor de
asimetrie şi boltire a seriei reziduurilor.
- Pentru o distribuţie normală, valoarea coeficientului de
asimetrie Fisher (sw) este zero, iar valoarea coeficientului de
boltire Fisher (k) este zero.
3
- coeficientul de asimetrie (Skewness): sw 
3
4
- coeficientul de boltire (Kurtosis): k  2  3
2

13
1. Ipoteze statistice:
H0: erorile urmează o lege de distribuţie normală
H1: distribuţia erorilor nu urmează o lege normală

2. Calculul statisticii test:


Statistica test JB se calculează după relaţia:
n  2 k2 
JB    sw  
6  4

unde:
• sw este coeficientul de asimetrie (Skewness)
• k este coeficientul de boltire (Kurtosis)

14
3. Regula de decizie:
Statistica JB urmează o lege Hi pătrat  ,2
2

Dacă valoarea calculată a statisticii test JBcalc > 2 ; 2 atunci se respinge
ipoteza H0, cu un risc α.

4. Valoarea teoretică se citește din Tabelul repartiției Hi pătrat în


funcție de riscul α și 2 grade de libertate.

2 , 2  5.991

15
5. Valoarea calculată:
n  2 k2 
JB    sw  
6  4

JBcalc 
406 
 0.468 
2  0.752
2

  24.38
6  
4 

6. Decizia:
JBcalc  2 ,2 : se respinge H 0  erorile nu urmeaza o lege normala
16
I4. Ipoteza de necorelare (independenţă) a
erorilor
1. Noţiuni

• Autocorelarea sau corelaţia serială


- presupune existenţa unei autocorelări între erorile εi,
altfel spus: cov(εi, εj) ≠ 0 sau M(εi * εj ) ≠ 0.

• Coeficientul de autocorelaţie
- coeficientul de autocorelaţie între erorile εi şi εi-1 ale
unui model de regresie se calculează după relaţia:
cov(  i , i 1 ) cov(  i , i 1 )
 
 i i 1 2
17
I4. Ipoteza de necorelare sau de
independenţă a erorilor ( cov(εi, εi)=0)
- Coeficientul ρ este un coeficient de autocorelaţie de
ordinul 1.
- coeficientul de autocorelaţie de ordinul k este
coeficientul de corelaţie calculat între termenii εi şi εi-k ,
după relaţia:
cov( i ,  i k ) cov( i ,  i k )
 
 i i  k 2

18
I4. Ipoteza de necorelare (independenţă) a erorilor

• Funcția de autocorelație
- este definită de valorile coeficienţilor de autocorelare de
ordinul k.
2. Sursa autocorelării erorilor:
• neincluderea în modelul de regresie a uneia sau mai multor
variabile explicative importante;
• modelul de regresie nu este corect specificat.

3. Testarea autocorelării erorilor


A. Testul Runs
B. Testul Durbin-Watson
19
I4. Ipoteza de necorelare (independenţă) a
erorilor
A. Testul Runs
- se bazează pe ideea că valorile variabilei reziduale se constituie în
secvenţe sau seturi de valori pozitive sau negative numite runs (notate k),
care se succed într-o anumită ordine sau aleator.
- ipoteza de bază a acestui test este aceea că, în cazul lipsei autocorelării
erorilor, succesiunea acestor seturi este aleatoare sau numărul acestora
este distribuit normal.

20
Pentru două variabile, X şi Y, se cunosc următoarele valori
xi, yi şi ei (erorile estimate ale modelului de regresie liniară
simplă):
Nr. Nr. crt.
crt. xi yi ei xi yi ei
1 1 20 -3,07508 17 23 48 3,40994
2 2 21 -3,05303 18 25 49 2,45403
3 3 22 -3,03099 19 27 50 1,49813
4 4 24 -2,00894 20 29 52 1,54222
5 5 25 -1,98689 21 30 54 2,56427
6 7 27 -1,94280 22 32 55 1,60836
7 8 29 -,92075 23 35 57 ,67450
8 9 30 -,89871 24 37 58 -,28141
9 10 32 ,12334 25 39 59 -1,23732
10 12 35 1,16743 26 40 61 -,21527
11 13 37 2,18948 27 43 62 -2,14913
12 15 39 2,23357 28 45 63 -3,10504
13 17 40 1,27766 29 47 66 -2,06094
14 19 43 2,32176 30 50 70 -,99481
15 20 45 3,34380 31 52 71 -1,95071
16 22 47 3,38790 32 55 75 -,88457 23
I4. Ipoteza de necorelare (independenţă) a
erorilor
- În funcţie de semnul valorilor erorilor ei se pot identifica următoarele
seturi sau runs:
(----…-----)(+++…+++)((----…-----)
- primele 8 valori ale erorilor ei sunt negative,
- următoarele 15 valori sunt pozitive ,
- ultimele 9 valori sunt negative.

• Numărul de seturi de valori sau runs formate este k=3

• Numărul total de valori pozitive ale erorilor ei este n1=15


• Numărul total de valori negative este n2=17

24
I4. Ipoteza de necorelare (independenţă) a
erorilor
A. Testul Runs
1. Ipoteze statistice:
H0: k este distribuit normal (erorile nu sunt autocorelate)
cov(εi, εj)=0
H1: k nu este distribuit normal (erorile sunt autocorelate)
cov(εi, εj) ≠ 0

20
I4. Ipoteza de necorelare (independenţă) a erorilor

A. Testul Runs
2. Calculul statisticii test
- se foloseşte statistica t Student, calculată după relaţia:
k  M (k )
t calc 
sk
- k este numărul de runs caracterizat prin:
n1n2
M (k )  2 1
n1  n2

2n1n2  n1  n2
s  2n1n2
2

(n1  n2 ) 2 (n1  n2  1)
k

21
A. Testul Runs

- n1 este numărul de valori pozitive ale erorilor ei


- n2 este numărul de valori negative ale erorilor ei
cu n1 + n2 = n .
2 ˆ
s k este o valoare calculată la nivelul eşantionului a estimatorului k
2

3. Regula de decizie:
- dacă |tcalc| tα/2,n-2 sau k  M (k )  1,96  sk  , atunci se
acceptă ipoteza H0.

22
1. Ipoteze statistice
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate

2. Calculul statisticii test:


k  M (k )
tcalc   4,85
sk
unde:
n1n2 15  17
M (k )  2 1  2   1  16,94
n1  n2 15  17
2n1n2  n1  n2 2  15  17  15  17
s  2n1n2
2
 2  15  17   7,6796
(n1  n2 ) 2 (n1  n2  1) (15  17) 2  (15  17  1)
k

sk  7,6796  2,7712

25
3. Decizia:
|tcalc |=4,85 > ttab=1,96 : se respinge ipoteza H0, deci
erorile sunt autocorelate între ele.

OBS:
Numărul de seturi k nu este acoperit de intervalul de
încredere, ceea ce arată că se respinge ipoteza H0.
(16,94  1,96  2,7712)  (11,51 ; 22,37)

26
Testul Runs în SPSS

Runs Test 2
1. Ipoteze statistice
Unstandardiz
H0: erorile nu sunt autocorelate ed Residual
H1: erorile sunt autocorelate Test Valuea ,0000000
Cases < Test Value 17
Cases >= Test Value 15
Total Cases 32
Number of Runs 3
Z -4,849
Asy mp. Sig. (2-tailed) ,000
a. Mean

Decizia:
Deoarece Sig. = 0,000 < 0,05  se respinge ipoteza H0, deci erorile sunt
autocorelate.
27
I4. Ipoteza de necorelare (independenţă) a erorilor

B. Testul Durbin-Watson
1. Ipoteze statistice:
H0: erorile nu sunt autocorelate ( = 0)
H1: erorile sunt autocorelate (  0 )

2. Calculul statisticii test:

 i i1
(ˆ ˆ ) 2

DW  d  i 2

i

ˆ 2

i 1

28
Deoarece:  i   i 1  ui

Statistica DW se mai poate scrie astfel:

 ˆ 2
 2 ˆiˆi 1   ˆi21   ˆiˆi 1 
 2 1  i 2   2(1  ˆ )
i
DW  d  i i i

 ˆi
i
2



i
ˆi 

unde
ρ – coeficientul de autocorelație,  1  ˆ  1

29
Interpretare
DW  d  2(1  ˆ )

Deoarece  1  
ˆ  1 , valorile DW sunt date de intervalul 0  d  4

• Dacă ˆ  1  d  0  există autocorelare pozitivă maximă a erorilor;

• Dacă ˆ  1  d  4  există autocorelare negativă maximă a erorilor;

• Dacă ˆ  0  d  2  nu există autocorelare.

30
3. Regula de decizie:

• Valorile teoretice ale statisticii DW sunt calculate şi tabelate în


funcţie de:
– pragul de semnificaţie (α),
– volumul eşantionului (n)
– numărul parametrilor modelului de regresie (k).

• În tabele se determină două valori critice, notate cu dL (limita


inferioară) şi dU (limita superioară).

31
În funcţie de aceste valori critice se determină următoarele intervale,
care permit luarea deciziei de respingere sau acceptare a ipotezei nule:

Dacă (0<dcalc<dL)  se respinge ipoteza H0, erorile înregistrează o


autocorelare pozitivă;

Dacă (dL<dcalc<dU) şi (4-du<dcalc<4-dL) sunt regiuni de nedeterminare, nu


se poate decide asupra existenţei autocorelării erorilor;

Dacă (du<dcalc<4-du)  se acceptă ipoteza Ho, erorile nu sunt


autocorelate;

Dacă (4-dL<dcalc<4)  se respinge ipoteza Ho, erorile înregistrează o


autocorelare negativă.

33
I4. Ipoteza de necorelare sau de independenţă a
erorilor: ( cov(εi, εj)=0)

Exemplul 1. Testul Durbin-Watson


În studiul legăturii dintre două variabile, X şi Y, observate pentru un
eşantion format din 25 unităţi statistice, s-a obţinut o valoare calculată a
statisticii DW egală cu dcalc =0,189. Să se testeze ipoteza de autocorelare a
erorilor (risc de 0,05).

Din tabelul Durbin Watson, pt. k=2, α=0,05 și n=25, se citesc valorile
critice: dL=1,288; dU=1,454.

Decizia:
Deoarece 0<(dcalc=0,189)<(dL=1,288), se respinge ipoteza H0, deci erorile
sunt autocorelate pozitiv între ele.

34
Exemplul 2 Testul Durbin-Watson

Pentru un eșantion de 5 unități, pentru studiul legăturii liniare dintre două


variabile, X şi Y, se cunosc datele:
Model Summaryb

Adjusted St d. Error of Durbin-


Model R R Square R Square the Estimate Wat son dcalc=1,429
1 ,985a ,970 ,960 2,41523 1,429
a. Predictors: (Constant), X
b. Dependent Variable: Y

Din tabelul Durbin Watson, pt. k=2, α=0,05 și n=5, se citesc valorile critice:
dL=0,610; dU=1,400.

Decizia:
Deoarece (du=1,400)<(dcalc=1,429)<(4-dU=2,6), se acceptă ipoteza H0, deci
erorile nu sunt autocorelate.

35
I5. Ipoteze asupra variabilelor independente

Ipotezele asupra variabilelor independente dintr-un model de


regresie sunt:
• Ipoteza de necoliniaritate a variabilelor independente
• Variabilele independente sunt nestochastice sau deterministe.
• Variabilele independente şi variabila eroare sunt necorelate, cov (Xi,
εi)=0.
- această ipoteză este îndeplinită dacă variabilele independente sunt
nestochastice.

36
I5. Ipoteza de necoliniaritate a variabilelor
independente

1. Definire
• Multicoliniaritatea poate fi definită ca o legătură liniară funcţională
existentă între două sau mai multe variabile independente ale unui
model de regresie de forma:

YX1 ,Xp  0  1  X1   2  X 2     p  X p  

37
I5. Ipoteza de necoliniaritate a variabilelor
independente

Multicoliniaritate perfectă
- apare atunci când între variabilelele independente X1, X2, ..., Xp există o
legătură liniară perfectă, funcţională.
- Această legătură poate fi exprimată printr-o relaţie de forma:

1  X 1  2  X 2     p  X p  0

unde: λi (i=1, ..., p) sunt valori constante care nu sunt toate, în mod simultan,
nule.

38
I5. Ipoteza de necoliniaritate a variabilelor
independente
Multicoliniaritatea imperfectă
- Poate fi definită ca o relaţie liniară puternică existentă între două sau mai
multe variabile independente.
- Considerând cazul existenţei a două variabile independente, X1 şi X2,
relaţia dintre aceste variabile poate fi exprimată astfel:
X 1   0   1  X 2  vi
• unde: α0 şi α1 sunt valori constante.
vi reprezintă componenta aleatoare sau termenul eroare.

- Această relaţie arată faptul că variabila X1 nu este explicată doar


de variaţia variabilei X2, ci şi de variaţii aleatoare, definite prin
termenul eroare, vi.
39
I5. Ipoteza de necoliniaritate a variabilelor
independente
2. Testarea multicoliniarităţii
Testarea multicoliniarităţii variabilelor independente se
poate realiza prin:
2.1. Procedee grafice: Scatter plot
2.2. Procedee numerice
A. Matricea corelațiilor
B. VIF
C. TOL

40
2. Testarea multicoliniarităţii
2.1. Procedee grafice: Scatter plot
20,00
20,00

15,00
15,00

X2
10,00
X2

10,00

5,00
5,00

0,00 R Sq Linear = 0,902


R Sq Linear = 1
0,00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
0,00 2,00 4,00 6,00 8,00 10,00
X1
X1

Figura 1. Reprezentarea grafică a Figura 2. Reprezentarea grafică a


multicoliniarităţii perfecte dintre două multicoliniarităţii imperfecte dintre două
variabile independente, X1 şi X2 variabile independente, X1 şi X2

41
2. Testarea multicoliniarităţii
2.2. Procedee numerice
A. Matricea corelaţiilor
Valori ridicate ale coeficienţilor de corelaţie, mai mari de 0,8, arată
existenţa multicoliniarităţii puternice între variabilele independente.
Correlati ons

X1 X2 X3
X1 Pearson Correlation 1 ,161 -,213
Sig. (2-tailed) ,566 ,446
N 15 15 15
X2 Pearson Correlation ,161 1 -,494
Sig. (2-tailed) ,566 ,061
N 15 15 15
X3 Pearson Correlation -,213 -,494 1
Sig. (2-tailed) ,446 ,061
N 15 15 15

42
2. Testarea multicoliniarităţii
2.2. Procedee numerice
B. VIF - Factorul varianţei crescute (variance-inflated factor)
1
VIF j 
1  R 2j
2
• unde: R j este raportul de determinaţie multiplă dintre variabila
Xi şi celelalte variabile independente.

Interpretare:
• Dacă legăturile dintre variabilele independente sunt puternice,
atunci R2 se apropie de 1, iar raportul VIF este infinit.
• Dacă între variabilele independente nu există corelaţie (R2=0),
valoarea raportului VIF este egală cu 1.
• În practică, o valoare VIF>10 indică prezenţa coliniarităţii.
43
2. Testarea multicoliniarităţii
2.2. Procedee numerice
C. TOL – Toleranța
Se calculează după relaţia: TOL=1/VIF
TOL – este reciproca lui VIF

Deci, TOL j  1  R 2j
Interpretare:
- Dacă valoarea TOL=1, atunci nu există coliniaritate;
- Dacă valoarea TOL=0, atunci există coliniaritate perfectă.
Regula empirică:
• Dacă VIF este 10 sau mai mare (sau TOL este 0,10 sau mai mică) atunci
problemă de multicoliniaritate (pentru R2 > sau = 0,9).
• Altă regulă:
• Dacă VIF > 2,5 și TOL < 0,40 atunci este o problemă de multicoliniaritate
(pentru R2 > 0,6).
44
În urma analizei legăturilor dintre variabilele independente ale unui model de
regresie, s-au obţinut următoarele rezultate:

Coefficientsa

Unstandardized Standardized
Coeff icients Coeff icients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 65,705 27,731 2,369 ,037
X1 48,979 10,658 ,581 4,596 ,001 ,950 1,052
X2 59,654 23,625 ,359 2,525 ,028 ,753 1,328
X3 -1,838 ,814 -,324 -2,258 ,045 ,738 1,355
a. Dependent Variable: Y

Deoarece VIF < 10 și TOL > 0,10, putem afirma că variabilele


independente nu sunt coliniare.

45
Recapitulare
1. Pentru ce poate fi utilizat testul Fisher ?
• Verificarea ipotezei de homoscedasticitate
• Verificarea semnificaţiei raportului de corelaţie
• Verificarea ipotezei de multicoliniaritate a variabilelor independente
• Verificarea corectitudinii modelului de regresie ales

2. Ce se înţelege prin autocorelare?


• Variabilele independente Xi din model sunt corelate între ele
• Erorile de modelare nu sunt independente
• Erorile de modelare sunt corelate cu una sau mai multe variabile
independente

44
3. În urma modelării Acceleraţiei autoturismelor în funcţie de Puterea
motorului a rezultat o eroare de modelare pentru care s-au obţinut următorii
indicatori statistici descriptivi:

Pe baza datelor din tabel alegeţi afirmaţiile adevărate:


• media nu diferă semnificativ de zero
• distribuţia erorilor nu este normală
• distribuţia seriei este autocorelată

45
4. În urma modelării Salariului în funcţie de Vechime, pentru verificarea
ipotezelor de regresie s-a obtinut rezultatul de mai jos.

Coeffici entsa

Unstandardized Standardized
Coef f icients Coef f icients
Model B Std. Error Beta t Sig.
1 (Constant) 65.656 1.429 45.931 .000
Vechime -2.034 .126 -.418 -16.126 .000
a. Dependent Variable: Erorile in v aloare absoluta

Pentru un risc asumat de 5%, care din urmatoarele afirmatii sunt


adevarate?
• Erorile sunt homoscedastice
• Variatia erorii de modelare este influentata semnificativ de variatia
variabilei Vechime
• Variantele erorii de modelare sunt egale si constante
• Modelul este heteroscedastic

46

S-ar putea să vă placă și