Sunteți pe pagina 1din 14

Ipotezele asupra componentei aleatoare (erorilor)

1. Media erorilor este nulă

Ipoteze:
H0: M(εi)=0

H1: M(εi)≠0
M ( ei )
tcalc =
sM̂ ( e )
din tabelul “one-sample statistics” (mean si std. error mean)
sau pe baza de sig din tabelul “one-sample test”
• dacă această ipoteză este încălcată, atunci se modifică proprietăţile estimatorilor parametrilor
modelului de regresie (parametrii sunt estimaţi deplasat sau cu o eroare sistematică).
 Modelul iniţial se corectează cu ajutorul estimaţiei erorilor calculate la nivelul eşantionului.
 Modelul corectat este de forma:

y*i = b0 + bi xi + ui
unde:
y*i = yi - M ( e i )
2. Erorile modelului sunt homoscedastice

Ipoteze
H0: V(εi)=σ2 (erori homoscedastice) / ipoteza de homoscedasticitate

H1: V(εi)≠σ2 (erori heteroscedastice)/ ipoteza de heteroscedasticitate

• ipoteza de homoscedasticitate presupune ca varianţa erorilor să fie constantă: V(εi)=σ2


• această ipoteză presupune o varianţă constantă şi egală a erorilor la nivelul distribuţiilor condiţionate

de forma
Y X =xi

• efectele incalcarii ipotezei de homoscedasticitate: pierderea eficienţei estimatorilor parametrilor


modelului de regresie (estimează parametrul cu o varianţă mai mare).

Corectarea heteroscedasticităţii

Dacă se cunosc parametrii


s i
2

Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:


yi = b0 + b1 xi + e i
1
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila si

yi b0 x e
= + b1 i + i
Noul model de regresie (corectat) se obţine astfel: i s si si si
Estimarea parametrilor acestui model se realizează pe baza MCMMP ponderată (method of weighted
least squares)

1
3. Erorile urmează o lege de distribuție normală

Ipoteze
H0:  i ~ N (0,  2 ) (Ipoteza de normalitate)

H1: 𝜀𝑖 ! ∼ 𝑁(0, 𝜎 2 ) ( distribuția erorilor nu urmează o lege normal)

Efectele încălcării acestei ipoteze


- ipoteza de normalitate a erorilor este importantă pentru stabilirea proprietăților estimatorilor
parametrilor modelului de regresie.
- dacă e i ~ N ( 0 ,s ) , atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o
2

bˆi ~ N ( b i , s b2ˆ )
lege normală: i

- dacă ipoteza de normalitate este încălcată, proprietăţile estimatorilor construiţi pe baza metodei celor
mai mici pătrate au doar proprietăţi asimptotice, adică necesită eşantioane sau seturi mari de date.

4. Erorile nu sunt autocorelate (erorile sunt independente)

Ipoteze
H0: cov(εi, εi)=0 sau ( = 0) (Nu exista autocorelare a erorilor) (erorile sunt independente)

H1: cov(εi, εi)≠0 sau ( ≠ 0)

Ipoteza de necoliniaritate a variabilelor independente

Ipoteza de necoliniaritate presupune că între variabilele independente ale unui model de regresie linear
multiplu nu există o legătură de tip liniar.

Probleme:

- identificarea gradului de coliniaritate

- stabilirea cauzelor încălcării ipotezei

- stabilirea efectelor coliniarităţii

- testarea ipotezei de coliniaritate şi

- corectarea modelului în cazul existenţei acesteia.

Ipoteza lipsei de coliniaritate a variabilelor independente

Grade de coliniaritate:

- Coliniaritate perfectă dacă există p constante , nu toate nule,

l1 X 1 + l2 X 2 + ... + l p X p = 0

2
- respectiv coliniaritate neperfectă dacă are loc relaţia:
l1 X 1 + l2 X 2 + ... + l p X p + u = 0
unde u este o variabilă aleatoare care respectă ipotezele modelului clasic de regresie.

Cauzele încălcării necoliniarităţii:


- Tipul de model utilizat;
- Variabilele alese pentru a realiza modelarea etc.
- Efectele coliniarităţii:
- Varianţa estimatorilor parametrilor de regresie creşte, deci estimatorii nu vor mai fi eficienţi.
- Dacă există coliniaritate perfectă, varianţa estimatorilor este infinită, iar parametrii nu pot f estimaţi.
- Dacă există coliniaritate imperfectă, atunci varianţele estimatorilor parametrilor vor fi mari

Identificarea coliniarităţii
- Testarea coeficienţilor de regresie în cazul unui model cu un coeficient de determinaţie ridicat (de obicei
peste 0.8).
• Dacă coeficienţii de regresie sunt nesemnificativ diferiţi de zero, atunci ipoteza de necoliniaritate
este încălcată.
- Testarea coeficienţilor de corelaţie bivariaţi pentru variabilele independente din modelul de regresie
• Dacă aceşti coeficienţi au valori ridicate (de regulă, peste 0.8), atunci există posibilitatea coliniarităţii
între variabilele independente.
- Estimarea şi testarea parametrilor modelelor de regresie auxiliară dintre variabilele independente .
• Ipoteza de necoliniaritate este încălcată dacă aceşti coeficienţi de regresie sunt semnificativ diferiţi
de zero.
- Detectare a coliniarităţii pe baza a doi indicatori (aplicaţi în SPSS):
• Tolerance (TOL)
• VIF (Variance Inflation Factor).

Corectarea coliniarităţii

- Eliminarea din model a variabilei care induce coliniaritatea


- Construirea unui model de regresie cu variabile transformare folosind diverse funcţii sau operatori
(decalaj, diferenţă etc.)

3
Exemplu

Pentru un esantion de masini se considera legatura dintre variabilele Consum si Puterea motorului.

Model Summaryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 .771a .595 .594 4.974 .964
a. Predictors: (Constant), Horsepower
b. Dependent Variable: Miles per Gallon

Coeffi cientsa

Unstandardized St andardiz ed
Coeffic ient s Coeffic ient s
Model B St d. Error Beta t Sig.
1 (Const ant) 39.855 .730 54.578 .000
Horsepower -.157 .007 -.771 -23.931 .000
a. Dependent Variable: Miles per Gallon

ANOV Ab

Sum of
Model Squares df Mean S quare F Sig.
1 Regres sion 14169. 756 1 14169. 756 572.709 .000a
Residual 9649.237 390 24.742
Total 23818. 993 391
a. Predic tors: (Constant), Hors epower
b. Dependent Variable: Miles per Gallon

Se cere:

1. Să se scrie ecuaţia estimată a modelului.


2. Să se verifice dacă influenţa variabilei independente asupra variabilei dependente este semnificativă.
3. Să se verifice dacă parametrii modelului de regresie sunt semnificativi.
4. Să se verifice dacă media erorilor este diferită semnificativ de zero, considerând un risc de 5%.
5. Să se verifice homoscedasticitatea erorilor folosind coeficientul Spearman si Breusch-Pagan-Godfrey
6. Să se verifice homoscedasticitatea erorilor folosind procedeul Glejser.

7. Să se verifice dacă erorile sunt normal distribuite, folosind curba frecvenţelor.


8. Să se verifice dacă erorile sunt normal distribuite, folosind procedeele QQ plot şi PP plot.
9. Să se verifice normalitatea erorilor folosind testul KS.
10. Să se verifice normalitatea erorilor folosind testul Jarque-Bera.

11. Să se verifice independenta erorilor folosind testul Runs


12. Să se verifice independenta erorilor folosind testul Durbin-Watson

Testarea mediei erorilor in raport cu zero

One-Sam ple Test

Test Value = 0
95% Confidenc e
Int erval of t he
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Unstandardized Residual .000 391 1.000 .00000000 -.4932982 .4932982

4
One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
Unstandardized Res idual 15 ,0000000 73271,63549 18918,65

Residuals Statistics a

Minimum Maximum Mean Std. Deviation N


Predicted Value 58508,12 6084511 1582428 1957596,554 15
Residual -98125,2 131202,7 ,00000 73271,63549 15
Std. Predicted Value -,778 2,300 ,000 1,000 15
Std. Residual -1,290 1,725 ,000 ,964 15
a. Dependent Variable: salariu

Verificarea homoscedasticităţii

Testul Glejser

 are la bază un model de regresie între variabila reziduală estimată şi variabila independentă.

Etapele testării:

1. Se estimează modelul de regresie de forma: Y = b 0 + b1 × X + e

2. Se calculează erorile estimate ei.

3. Se construieşte un model de regresie pe baza erorilor estimate în valoare absolută

e i = a0 + a1 × xi + ui
4. Se testează (Sig sau t calc din tabel) parametrii acestui model: dacă parametrul α1 este semnificativ,
atunci modelul iniţial este heteroscedastic.
H0: α1 = 0 (parametrul nu este semificativ statistic – modelul este homoscedastic)
H1: α1≠ 0 (parametrul este semificativ statistic – modelul este heterocedastic – trebuie corectat)

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .160a .026 .023 3.07770
a. Predictors: (Constant), Horsepower

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regres sion 96.886 1 96.886 10.228 .001a
Residual 3694.184 390 9.472
Total 3791.070 391
a. Predic tors: (Constant), Hors epower
b. Dependent Variable: modul_err

Coeffi cientsa

Unstandardized St andardiz ed
Coeffic ient s Coeffic ient s
Model B St d. Error Beta t Sig.
1 (Const ant) 5.223 .452 11.559 .000
Horsepower -.013 .004 -.160 -3. 198 .001
a. Dependent Variable: modul_err

5
Testul Breusch-Pagan-Godfrey

- Plecand de la ipoteza ca exista o legatura multipla liniara intre variabila Y si variabilele X1 si X2


descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea
urmatoarilor pasi:

- estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2

- pe baza modelului estimat se obtin valorile erorii de modelare;

- construirea modelului auxiliar de regresie:

- ei2=α0 +α1X1+ α2X2+u

- se estimeaza raportul de determinatie a modelului auxiliar (Rα2).

- Pe baza acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o valoare teoretica
χ2α, k-1, unde k reprezinta numarul parametrilor din modelul auxiliar;

- prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/ respinge ipoteza de
homoscedasticitate a erorilor:

- χ2 < χ2α, k-1=> Nu Respingem H0

χ2 ≥ χ2α, k-1=> Respingem H0

6
Verificarea normalităţii erorilor

Verificarea normalităţii erorilor


- legea normală este definită de funcţia de densitate de probabilitate care este reprezentată grafic prin
curba densităţii de probabilitate, curbă cu alură de clopot.
Procedee grafice
- Histograma (curba frecvenţei);
- Box-Plot.
Reprezentarea histogramei şi a curbei frecvenţelor
- se reprezintă curba frecvenţei sau histograma reziduurilor şi se observă dacă forma distribuţiei
acestora are alură de clopot.

7
Histograma şi curba frecvenţelor

50

40
Frequency

30

20

10

Mean = 3.6082248E-16
Std. Dev. = 4.96773143
N = 392
0
-20.00000 -10.00000 0.00000 10.00000 20.00000

Unstandardized Residual

Diagrama PP-Plot Diagrama QQ-Plot

Normal P-P Plot of Unstandardized Residual Normal Q-Q Plot of Unstandardized Residual

1.0 15

10
0.8
Expected Normal Value
Expected Cum Prob

0.6

0.4

-5

0.2
-10

0.0 -15
0.0 0.2 0.4 0.6 0.8 1.0 -20 -10 0 10 20

Observed Cum Prob Observed Value

Testul Kolmogorov Smirnov-Lilliefors (KSL)

- presupune compararea frecvenţelor cumulate (calculate) cu frecvenţele teoretice cumulate extrase din
tabelul Gauss.

- valoarea probabilităţii asociate statisticii test calculate (Sig.) se compară cu α (0,05): dacă Sig.<0,05, atunci se
respinge ipoteza de normalitate a erorilor.

8
One-Sample Kolmogorov-Smirnov Test

Unstandardiz
ed Res idual
Statistics N 392
Normal Parameters a,b Mean .0000000
Unstandardized Residual Std. Deviation 4.96773143
N Valid 392 Most Extreme Absolute .058
Differences Positive .058
Missing 14
Negative -.034
Sk ewness .411
Kolmogorov-Smirnov Z 1.146
St d. Error of Skewness .123 As ymp. Sig. (2-tailed) .144
Kurtos is .450 a. Test distribution is Normal.
St d. Error of Kurtos is .246 b. Calculated from data.

Testul Jarque-Bera.

- se bazează pe verificarea simultană a proprietăţilor de asimetrie şi boltire ale seriei reziduurilor.


Pentru o distribuţie normală, valoarea coeficientului de asimetrie Fisher (sw) este zero, iar valoarea
coeficientului de boltire Fisher (k) este zero.

n é 2 k2 ù
JB = × ê sw + ú
6 ë 4û
unde:

µ3
sw =
sw este coeficientul de asimetrie (Skewness): s3

µ4
k= -3
k este coeficientul de boltire (Kurtosis): µ22

Regula de decizie:

JBcalc < χ2α, 2=> Nu Respingem H0

JBcalc ≥ χ2α, 2=> Respingem H0

Valorile pentru calcul le luam din tabelul Statistics.

sau se mai pot da si de forma tabelului de mai jos: (tabelul de mai jos nu are legatura cu exemplul
nostru)

9
Verificarea autocorelării erorilor (Necorelarea erorilor)

Testul Runs

Calculul statisticii test

k - M (k )
t calc =
- se foloseşte statistica t Student, calculată după relaţia: sk unde: k este numărul de runs
nn
M( k ) = 2 1 2 +1
caracterizat prin: n1 + n2

2n1n2 - n1 - n2
sk2 = 2n1n2
(n1 + n2 ) 2 (n1 + n2 - 1) unde:

- n1 este numărul de valori pozitive ale erorilor ei ;

- n2 este numărul de valori negative ale erorilor ei, cu n1 + n2 = n .

- s2k este o valoare calculată la nivelul eşantionului a estimatorului


sˆ k2

Regula de decizie:

- dacă |tcalc| £ ta/2,n-2 sau k Î [M (k ) ± 1,96 × s k ] , atunci nu se repinge ipoteza H0.

Runs Test

Unstandardiz
ed Res idual
Test V aluea -.31137
Cases < Test V alue 195
Cases >= Test Value 197
Total Cases 392
Number of Runs 106
Z -9. 204
As ymp. Sig. (2-tailed) .000
a. Median

Testul Durbin-Watson

Calculul statisticii test (dcalc):

å (eˆ -eˆ i i -1 )2
DW = d = i =2

å eˆ i =1
i
2

Întrucât
e i = re i -1 + ui statistica DW se mai poate scrie astfel:
å eˆ i
2
- 2å eˆ i eˆ i -1 + å eˆ i2-1 å eˆ - å eˆ eˆ
i
2
i i -1
æ å eˆ i eˆ i -1 ö
ç ÷
d= i i i
@2 i i
= 2ç 1 - i 2 ÷ = 2( 1 - rˆ )
å eˆi
i
2
å eˆ i
i
2
ç
è
å
i
eˆ i ÷
ø

10
Deoarece
- 1 £ rˆ £ 1, valorile statisticii DW sunt date de intervalul: 0 £ d £ 4

- Dacă rˆ = 1 Þ d = 0 , atunci există autocorelare pozitivă maximă a erorilor;

- Dacă rˆ = -1 Þ d = 4 , atunci există autocorelare negativă maximă a erorilor;

Dacă r = 0 Þ d = 2 , atunci nu există autocorelare.


-
ˆ

Regula de decizie

Valorile teoretice ale statisticii DW sunt calculate şi tabelate în funcţie de pragul de semnificaţie, de
volumul eşantionului şi de numărul de parametri ai modelului.

În tabele se determină două valori critice, notate cu d L (limita inferioară) şi dU (limita superioară).

În funcţie de aceste valori critice se determină următoarele intervale, care permit luarea deciziei de
respingere sau acceptare a ipotezei nule:

• (0<dcalc<dL) se respinge ipoteza Ho, erorile înregistrează o autocorelare pozitivă;


• (dL<dcalc<dU) şi (4-du<dcalc< 4-dL) sunt regiuni de nedeterminare, nu se poate decide asupra existenţei
autocorelării erorilor;
• (du <dcalc< 4- du) se acceptă ipoteza Ho, erorile nu sunt autocorelate;
• (4-dL <dcalc< 4) se respinge ipoteza Ho, erorile înregistrează o autocorelare negativă.

Se cunoaste:

https://www.real-statistics.com/statistics-tables/durbin-watson-table/

DW = 0,964 (primul tabel model summary)

dl=1.758 (tabel)

du=1.779 (tabel)

Testarea ipotezei de necoliniaritate


VIF
Indicatorul VIF se defineşte prin relaţia:
1
VIF j =
( 1 - R 2j )

R 2j
• este raportul de determinaţie din modelul de regresie auxiliar, construit pe baza variabilelor
independente, în care variabila j este considerată variabila dependentă, iar celelalte variabile
factoriale sunt considerate variabile independente.

11
• Lipsa coliniarităţii dă o valoare VIF = 1
• Existenţa coliniarităţii determină o valoare mare a indicatorului, condiţia limită fiind în cazul unei
coliniarităţi perfecte

R 2j = 1 Þ VIF ® ¥
• În practică, se consideră că o valoare VIF>10 indică prezenţa coliniarităţii.
TOL
Indicatorul Tolerance

• Se determină ca inversul valorii indicatorului VIF, după

1
TOL j = = ( 1 - R 2j )
VIF j

• Dacă TOL = 1, nu există coliniaritate, iar

• dacă TOL = 0 suntem în situaţia extremă, de coliniaritate perfectă.

1. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie, s-au
obţinut următoarele rezultate:
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 65,705 27,731 2,369 ,037
X1 48,979 10,658 ,581 4,596 ,001 ,950 1,052
X2 59,654 23,625 ,359 2,525 ,028 ,753 1,328
X3 -1,838 ,814 -,324 -2,258 ,045 ,738 1,355
a. Dependent Variable: Y

Pentru exemplul dat, se poate considera că există coliniaritate între variabilele independente?

2. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie, s-au
obţinut următoarele rezultate:

Pentru exemplul dat, se poate considera că există coliniaritate între variabilele independente?

3. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie, s-au
obţinut următoarele rezultate:
Pentru exemplul dat, se poate considera că există coliniaritate între variabilele independente?
12
Coefficie ntsa

Uns tandardized Standardized


Coefficients Coefficients Collinearity St atistic s
Model B Std. Error Bet a t Sig. Toleranc e VIF
1 (Constant) 208.654 12. 503 16. 689 .000
Gross domest ic
-.001 .000 -.128 -2.002 .049 .349 2.864
product / capit a
Population inc rease
-6.059 1.993 -.178 -3.040 .003 .422 2.372
(% per y ear))
People who read (% ) -1.345 .100 -.803 -13.420 .000 .402 2.489
Daily calorie intake -.016 .004 -.235 -3.684 .000 .354 2.829
a. Dependent Variable: Infant mortality (deaths per 1000 live births)

4. Sa se verifice daca exista autocarelarea intre erori folosind testul RUNS si DW.

Runs Test 2

Uns tandardiz
ed Residual
Tes t Valuea ,0000000
Cas es < Test V alue 17
Cas es >= Test V alue 15
Total Cas es 32
Num ber of Runs 3
Z -4,849
Asy mp. S ig. (2-tailed) ,000
a. Mean

5. Sa se verifice daca exista autocarelarea intre erori folosind testul DW.

Model Summ aryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 a
,985 ,970 ,960 2,41523 1,429
a. Predictors: (Constant), X
b. Dependent Variable: Y

6. Sa se verifice normalitatea erorilor

13
7.

14

S-ar putea să vă placă și