Documente Academic
Documente Profesional
Documente Cultură
- Curs 11-
Ipoteze statistice:
I3 - Ipoteza de normalitate a erorilor
I4 - Ipoteza de necorelare sau de independenţă a erorilor
I5 - Ipoteza de necoliniaritate a variabilelor independente
1
I3 - Ipoteza de normalitate a erorilor
1. Formularea problemei
- erorile εi urmează o lege normală de medie 0 şi
varianţă σ2:
i ~ N ( 0 , 2 )
3
I3 - Ipoteza de normalitate a erorilor
• Dacă i ~ N ( 0 , 2 ), atunci estimatorii parametrilor modelului de
regresie urmează, de asemenea, o lege normală:
ˆi ~ N ( i , 2ˆ )
i
4
I3 - Ipoteza de normalitate a erorilor
5
I3 - Ipoteza de normalitate a erorilor
6
Histograma şi curba frecvenţelor
Histogram
2,0
1,5
1,0
0,5
0,0
Mean = -1,85E-15
-2 -1 0 1 2 Std. Dev. = 0,943
N = 10
Regression Standardized Residual
7
3.1. Procedee grafice
B. Reprezentarea diagramei Box-plot
8
3.1. Procedee grafice
C. Reprezentarea Dreaptei Henry (Q-Q PLOT)
• Cu cât distribuţia observată este mai apropiat de dreaptă (distribuţia
teoretică = distribuţia normală), cu atât distribuţia reziduurilor este
comparabilă cu o lege normală.
9
I3 - Ipoteza de normalitate a erorilor
3.2. Procedee numerice
A. Testul Kolmogorov-Smirnov-Lilliefors (KSL)
- presupune compararea frecvenţelor cumulate (calculate) cu
frecvenţele teoretice cumulate extrase din tabelul Gauss.
10
1. Ipoteze statistice:
H0: erorile urmează o lege de distribuţie normală: i ~ N ( 0 , 2 )
H1: distribuţia erorilor nu urmează o lege normală
2. Regula de decizie:
- valoarea probabilităţii asociate statisticii test calculate (Sig.) se
compară cu (0,05):
- dacă Sig.<0,05, atunci se respinge ipoteza de normalitate a
erorilor.
3. Decizia:
• Deoarece Sig. = 0,000 < 0,05 se respinge ipoteza nulă erorile
nu urmează o lege de repartiție normală.
11
I3 - Ipoteza de normalitate a erorilor
3.2. Procedee numerice
B. Testul Jarque-Bera
- se bazează pe verificarea simultană a proprietăţilor de
asimetrie şi boltire a seriei reziduurilor.
- Pentru o distribuţie normală, valoarea coeficientului de
asimetrie Fisher (sw) este zero, iar valoarea coeficientului de
boltire Fisher (k) este zero.
3
- coeficientul de asimetrie (Skewness): sw
3
4
- coeficientul de boltire (Kurtosis): k 2 3
2
13
1. Ipoteze statistice:
H0: erorile urmează o lege de distribuţie normală
H1: distribuţia erorilor nu urmează o lege normală
unde:
• sw este coeficientul de asimetrie (Skewness)
• k este coeficientul de boltire (Kurtosis)
14
3. Regula de decizie:
Statistica JB urmează o lege Hi pătrat ,2
2
Dacă valoarea calculată a statisticii test JBcalc > 2 ; 2 atunci se respinge
ipoteza H0, cu un risc α.
2 , 2 5.991
15
5. Valoarea calculată:
n 2 k2
JB sw
6 4
JBcalc
406
0.468
2 0.752
2
24.38
6
4
6. Decizia:
JBcalc 2 ,2 : se respinge H 0 erorile nu urmeaza o lege normala
16
I4. Ipoteza de necorelare (independenţă) a
erorilor
1. Noţiuni
• Coeficientul de autocorelaţie
- coeficientul de autocorelaţie între erorile εi şi εi-1 ale
unui model de regresie se calculează după relaţia:
cov( i , i 1 ) cov( i , i 1 )
i i 1 2
17
I4. Ipoteza de necorelare sau de
independenţă a erorilor ( cov(εi, εi)=0)
- Coeficientul ρ este un coeficient de autocorelaţie de
ordinul 1.
- coeficientul de autocorelaţie de ordinul k este
coeficientul de corelaţie calculat între termenii εi şi εi-k ,
după relaţia:
cov( i , i k ) cov( i , i k )
i i k 2
18
I4. Ipoteza de necorelare (independenţă) a erorilor
• Funcția de autocorelație
- este definită de valorile coeficienţilor de autocorelare de
ordinul k.
2. Sursa autocorelării erorilor:
• neincluderea în modelul de regresie a uneia sau mai multor
variabile explicative importante;
• modelul de regresie nu este corect specificat.
20
Pentru două variabile, X şi Y, se cunosc următoarele valori
xi, yi şi ei (erorile estimate ale modelului de regresie liniară
simplă):
Nr. Nr. crt.
crt. xi yi ei xi yi ei
1 1 20 -3,07508 17 23 48 3,40994
2 2 21 -3,05303 18 25 49 2,45403
3 3 22 -3,03099 19 27 50 1,49813
4 4 24 -2,00894 20 29 52 1,54222
5 5 25 -1,98689 21 30 54 2,56427
6 7 27 -1,94280 22 32 55 1,60836
7 8 29 -,92075 23 35 57 ,67450
8 9 30 -,89871 24 37 58 -,28141
9 10 32 ,12334 25 39 59 -1,23732
10 12 35 1,16743 26 40 61 -,21527
11 13 37 2,18948 27 43 62 -2,14913
12 15 39 2,23357 28 45 63 -3,10504
13 17 40 1,27766 29 47 66 -2,06094
14 19 43 2,32176 30 50 70 -,99481
15 20 45 3,34380 31 52 71 -1,95071
16 22 47 3,38790 32 55 75 -,88457 23
I4. Ipoteza de necorelare (independenţă) a
erorilor
- În funcţie de semnul valorilor erorilor ei se pot identifica următoarele
seturi sau runs:
(----…-----)(+++…+++)((----…-----)
- primele 8 valori ale erorilor ei sunt negative,
- următoarele 15 valori sunt pozitive ,
- ultimele 9 valori sunt negative.
24
I4. Ipoteza de necorelare (independenţă) a
erorilor
A. Testul Runs
1. Ipoteze statistice:
H0: k este distribuit normal (erorile nu sunt autocorelate)
cov(εi, εj)=0
H1: k nu este distribuit normal (erorile sunt autocorelate)
cov(εi, εj) ≠ 0
20
I4. Ipoteza de necorelare (independenţă) a erorilor
A. Testul Runs
2. Calculul statisticii test
- se foloseşte statistica t Student, calculată după relaţia:
k M (k )
t calc
sk
- k este numărul de runs caracterizat prin:
n1n2
M (k ) 2 1
n1 n2
2n1n2 n1 n2
s 2n1n2
2
(n1 n2 ) 2 (n1 n2 1)
k
21
A. Testul Runs
3. Regula de decizie:
- dacă |tcalc| tα/2,n-2 sau k M (k ) 1,96 sk , atunci se
acceptă ipoteza H0.
22
1. Ipoteze statistice
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate
sk 7,6796 2,7712
25
3. Decizia:
|tcalc |=4,85 > ttab=1,96 : se respinge ipoteza H0, deci
erorile sunt autocorelate între ele.
OBS:
Numărul de seturi k nu este acoperit de intervalul de
încredere, ceea ce arată că se respinge ipoteza H0.
(16,94 1,96 2,7712) (11,51 ; 22,37)
26
Testul Runs în SPSS
Runs Test 2
1. Ipoteze statistice
Unstandardiz
H0: erorile nu sunt autocorelate ed Residual
H1: erorile sunt autocorelate Test Valuea ,0000000
Cases < Test Value 17
Cases >= Test Value 15
Total Cases 32
Number of Runs 3
Z -4,849
Asy mp. Sig. (2-tailed) ,000
a. Mean
Decizia:
Deoarece Sig. = 0,000 < 0,05 se respinge ipoteza H0, deci erorile sunt
autocorelate.
27
I4. Ipoteza de necorelare (independenţă) a erorilor
B. Testul Durbin-Watson
1. Ipoteze statistice:
H0: erorile nu sunt autocorelate ( = 0)
H1: erorile sunt autocorelate ( 0 )
i i1
(ˆ ˆ ) 2
DW d i 2
i
ˆ 2
i 1
28
Deoarece: i i 1 ui
ˆ 2
2 ˆiˆi 1 ˆi21 ˆiˆi 1
2 1 i 2 2(1 ˆ )
i
DW d i i i
ˆi
i
2
i
ˆi
unde
ρ – coeficientul de autocorelație, 1 ˆ 1
29
Interpretare
DW d 2(1 ˆ )
Deoarece 1
ˆ 1 , valorile DW sunt date de intervalul 0 d 4
30
3. Regula de decizie:
31
În funcţie de aceste valori critice se determină următoarele intervale,
care permit luarea deciziei de respingere sau acceptare a ipotezei nule:
33
I4. Ipoteza de necorelare sau de independenţă a
erorilor: ( cov(εi, εj)=0)
Din tabelul Durbin Watson, pt. k=2, α=0,05 și n=25, se citesc valorile
critice: dL=1,288; dU=1,454.
Decizia:
Deoarece 0<(dcalc=0,189)<(dL=1,288), se respinge ipoteza H0, deci erorile
sunt autocorelate pozitiv între ele.
34
Exemplul 2 Testul Durbin-Watson
Din tabelul Durbin Watson, pt. k=2, α=0,05 și n=5, se citesc valorile critice:
dL=0,610; dU=1,400.
Decizia:
Deoarece (du=1,400)<(dcalc=1,429)<(4-dU=2,6), se acceptă ipoteza H0, deci
erorile nu sunt autocorelate.
35
I5. Ipoteze asupra variabilelor independente
36
I5. Ipoteza de necoliniaritate a variabilelor
independente
1. Definire
• Multicoliniaritatea poate fi definită ca o legătură liniară funcţională
existentă între două sau mai multe variabile independente ale unui
model de regresie de forma:
YX1 ,Xp 0 1 X1 2 X 2 p X p
37
I5. Ipoteza de necoliniaritate a variabilelor
independente
Multicoliniaritate perfectă
- apare atunci când între variabilelele independente X1, X2, ..., Xp există o
legătură liniară perfectă, funcţională.
- Această legătură poate fi exprimată printr-o relaţie de forma:
1 X 1 2 X 2 p X p 0
unde: λi (i=1, ..., p) sunt valori constante care nu sunt toate, în mod simultan,
nule.
38
I5. Ipoteza de necoliniaritate a variabilelor
independente
Multicoliniaritatea imperfectă
- Poate fi definită ca o relaţie liniară puternică existentă între două sau mai
multe variabile independente.
- Considerând cazul existenţei a două variabile independente, X1 şi X2,
relaţia dintre aceste variabile poate fi exprimată astfel:
X 1 0 1 X 2 vi
• unde: α0 şi α1 sunt valori constante.
vi reprezintă componenta aleatoare sau termenul eroare.
40
2. Testarea multicoliniarităţii
2.1. Procedee grafice: Scatter plot
20,00
20,00
15,00
15,00
X2
10,00
X2
10,00
5,00
5,00
41
2. Testarea multicoliniarităţii
2.2. Procedee numerice
A. Matricea corelaţiilor
Valori ridicate ale coeficienţilor de corelaţie, mai mari de 0,8, arată
existenţa multicoliniarităţii puternice între variabilele independente.
Correlati ons
X1 X2 X3
X1 Pearson Correlation 1 ,161 -,213
Sig. (2-tailed) ,566 ,446
N 15 15 15
X2 Pearson Correlation ,161 1 -,494
Sig. (2-tailed) ,566 ,061
N 15 15 15
X3 Pearson Correlation -,213 -,494 1
Sig. (2-tailed) ,446 ,061
N 15 15 15
42
2. Testarea multicoliniarităţii
2.2. Procedee numerice
B. VIF - Factorul varianţei crescute (variance-inflated factor)
1
VIF j
1 R 2j
2
• unde: R j este raportul de determinaţie multiplă dintre variabila
Xi şi celelalte variabile independente.
Interpretare:
• Dacă legăturile dintre variabilele independente sunt puternice,
atunci R2 se apropie de 1, iar raportul VIF este infinit.
• Dacă între variabilele independente nu există corelaţie (R2=0),
valoarea raportului VIF este egală cu 1.
• În practică, o valoare VIF>10 indică prezenţa coliniarităţii.
43
2. Testarea multicoliniarităţii
2.2. Procedee numerice
C. TOL – Toleranța
Se calculează după relaţia: TOL=1/VIF
TOL – este reciproca lui VIF
Deci, TOL j 1 R 2j
Interpretare:
- Dacă valoarea TOL=1, atunci nu există coliniaritate;
- Dacă valoarea TOL=0, atunci există coliniaritate perfectă.
Regula empirică:
• Dacă VIF este 10 sau mai mare (sau TOL este 0,10 sau mai mică) atunci
problemă de multicoliniaritate (pentru R2 > sau = 0,9).
• Altă regulă:
• Dacă VIF > 2,5 și TOL < 0,40 atunci este o problemă de multicoliniaritate
(pentru R2 > 0,6).
44
În urma analizei legăturilor dintre variabilele independente ale unui model de
regresie, s-au obţinut următoarele rezultate:
Coefficientsa
Unstandardized Standardized
Coeff icients Coeff icients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 65,705 27,731 2,369 ,037
X1 48,979 10,658 ,581 4,596 ,001 ,950 1,052
X2 59,654 23,625 ,359 2,525 ,028 ,753 1,328
X3 -1,838 ,814 -,324 -2,258 ,045 ,738 1,355
a. Dependent Variable: Y
45
Recapitulare
1. Pentru ce poate fi utilizat testul Fisher ?
• Verificarea ipotezei de homoscedasticitate
• Verificarea semnificaţiei raportului de corelaţie
• Verificarea ipotezei de multicoliniaritate a variabilelor independente
• Verificarea corectitudinii modelului de regresie ales
44
3. În urma modelării Acceleraţiei autoturismelor în funcţie de Puterea
motorului a rezultat o eroare de modelare pentru care s-au obţinut următorii
indicatori statistici descriptivi:
45
4. În urma modelării Salariului în funcţie de Vechime, pentru verificarea
ipotezelor de regresie s-a obtinut rezultatul de mai jos.
Coeffici entsa
Unstandardized Standardized
Coef f icients Coef f icients
Model B Std. Error Beta t Sig.
1 (Constant) 65.656 1.429 45.931 .000
Vechime -2.034 .126 -.418 -16.126 .000
a. Dependent Variable: Erorile in v aloare absoluta
46