Sunteți pe pagina 1din 22

ECONOMETRIE

CURS 12

IAŞI
- 2012 -
IPOTEZEALE MODELULUI DE REGRESIE ŞI PROBLEME ALE
ÎNCĂLCĂRII LOR

Ipoteze asupra componentei aleatoare:


1. Media variabilei reziduale este nulă
2. Homoscedasticitatea
3. Normalitatea erorilor
4. Autocorelarea erorilor

Ipoteze asupra componentei deterministe:


1. Coliniaritatea
Testarea ipotezei de
homoscedasticitate
Testarea homoscedaticitatii se poate face cu
ajutorul testelor:
 pentru modele simple:
 Testul Glejer
 Testul corelaţiei neparametrice dintre valoarea absolută a
erorilor estimate şi variabila independentă (Spearman)
 Testul Goldfeld-Quandt
pentru modele multiple:
 Testul Breusch-Pagan-Godfrey
 Testul White
Testul Breusch-Pagan-Godfrey
Plecand de la ipoteza ca exista o legatura multipla liniara intre variabila Y
si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea
homoscedasticitatii presupune parcurgerea urmatoarilor pasi:
 estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2
 pe baza modelului estimat se obtin valorile erorii de modelare;
 construirea modelului auxiliar de regresie:

 ei2=α0 +α1X1+ α2X2+u


 se estimeaza raportul de determinatie a modelului auxiliar (Rα2). Pe baza
acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o
valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul
auxiliar;
 prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/
respinge ipoteza de homoscedasticitate a erorilor:

 χ2 < χ2α, k-1=>AH0 respectiv χ2 ≥χ2α, k-1=>RH0


Estimarea parametrilor modelului de baza
SAL – salariul curent anual ($) ->Y
SAL0 – salariul anual la angajare ($) -> X1

ED – nivelul educatie (ani de scoala)-> X2

Forma modelului liniar multiplu de estimat:


SAL = β0+ β1*SAL0 + β2*ED+ε

Modelul estimat:
SAL = -7808.71415718 +1.67263052172*SAL0 +
1020.3901421*ED+ε
 Heteroskedasticity Test: Breusch-Pagan-Godfrey

 F-statistic 27.28751     Prob. F(2,471) 0.0000
 Obs*R-squared 49.21954     Prob. Chi-Square(2) 0.0000
 Scaled explained SS 245.2163     Prob. Chi-Square(2) 0.0000

 Test Equation:
 Dependent Variable: ε^2
 Method: Least Squares
 Date: 01/15/13 Time: 20:38
 Sample: 1 474
 Included observations: 474

 Var. Coefficient Std. Error t-Statistic P
 β0 -1.31E+08 40991028-3.2033800.0015
 SAL0 6150.668 1375.365 4.472026 0.0000
 ED 6452228 3752366 1.719509 0.0862

 R-sq. 0.103839     Mean dependent var 60401068
 Adjusted R-sq. 0.100033     S.D. dependent var 1.92E+08
 S.E. of reg. 1.82E+08     Akaike info criterion 40.88563
 Sum sq. resid 1.56E+19     Schwarz criterion 40.91197
 Log likelihood -9686.895     Hannan-Quinn criter. 40.89599
 F-statistic 27.28751     Durbin-Watson stat 1.796592
 Prob(F-statistic) 0.000000
Testul White
Testul White urmeaza acelasi algoritm ca
in cazul testului Breusch-Pagan-Godfrey,
singura diferenta consta in faptul ca se
utilizeaza o alta forma mult mai complexa a
modelului auxiliar:

ei2=α0 +α1X1+ α2X2+α3X1X2+ α4X1 2+ α5X2 2+u

Calculul statisticii χ2 si luarea deciziei se


realizeaza ca in cazul testului precedent.
Heteroskedasticity Test: White
F-statistic
11.97360     Prob. F(5,468) 0.0000
Obs*R-sq. 53.75859     Prob. Chi-Square(5) 0.0000
Scaled expl. SS 267.8303     Prob. Chi-Square(5) 0.0000

Test Equation:
Dependent Variable: ε^2
Method: Least Squares
Date: 01/15/13 Time: 23:19
Sample: 1 474
Included observations: 474

VariableCoefficient Std. Error t-StatisticProb.  
β -2.13E+08 1.67E+08 -1.275593 0.2027
0
SAL 13826.12 9771.187 1.414989 0.1577
0
SAL ^2 -0.138886 0.082003 -1.693663 0.0910
0
SAL *ED 72.27410 765.1561 0.094457 0.9248
0
ED 9214356. 26870194 0.342921 0.7318
ED^2 -291287.7 1381016. -0.210923 0.8330

R-sq. 0.113415     Mean dependent va 60401068
Adj R-sq 0.103943     S.D. dependent var 1.92E+08
S.E. of reg 1.82E+08     Akaike info criterion 40.88755
Sum sq. res 1.55E+19     Schwarz criterion 40.94022
Log likelihood -9684.348     Hannan-Quinn criter 40.90826
F-statistic 11.97360     Durbin-Watson stat 1.799331
Prob(F-statistic) 0.000000
TESTAREA COLINIARITĂŢII (1)
 Ipoteza de necoliniaritate presupune că între variabilele independente
ale unui model de regresie nu există o legătură de tip liniar
 Probleme:
- identificarea gradului de coliniaritate,
- stabilirea cauzelor încălcării ipotezei,
- stabilirea efectelor coliniarităţii,
- testarea ipotezei de coliniaritate şi
-- corectarea modelului în cazul existenţei acesteia.
Grade de coliniaritate:
1. Coliniaritate perfectă dacă există p constante , nu toate nule,
 1 X 1  2 X 2  ...   p X p  0
2. Coliniaritate imperfectă dacă are loc relaţia:
1 X 1  2 X 2  ...   p X p  u  0
unde u este o variabilă aleatoare care respectă ipotezele modelului
clasic de regresie.
TESTAREA COLINIARITĂŢII (2)
Identificarea coliniarităţii
 Testarea coeficienţilor de regresie în cazul unui model cu un coeficient
de determinaţie ridicat (de obicei peste 0.8).
 Dacă coeficienţii de regresie sunt nesemnificativ diferiţi de zero, atunci
ipoteza de necoliniaritate este încălcată.
 Testarea coeficienţilor de corelaţie bivariaţi pentru variabilele
independente din modelul de regresie
 Dacă aceşti coeficienţi au valori ridicate (de regulă, peste 0.8), atunci
există posibilitatea coliniarităţii între variabilele independente.
 Estimarea şi testarea parametrilor modelelor de regresie auxiliară
dintre variabilele independente .
 Ipoteza de necoliniaritate este încălcată dacă aceşti coeficienţi de
regresie sunt semnificativ diferiţi de zero.
 Detectare a coliniarităţii pe baza a doi indicatori (utilizati în SPSS):
- Tolerance
- VIF (Variance Inflation Factor).
TESTAREA COLINIARITĂŢII (3)
Figura 1. Reprezentarea grafică a coliniarităţii
perfecte dintre două variabile independente, X1 şi X2

20,00

15,00
X2

10,00

5,00

R Sq Linea r = 1
0,00

0,00 2,00 4,00 6,00 8,00 10,00

X1
TESTAREA COLINIARITĂŢII (4)

Figura 2. Reprezentarea grafică a coliniarităţii imperfecte


dintre două variabile independente, X1 şi X2
20,00

15,00
X2

10,00

5,00

0,00 R Sq Line a r = 0,902

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00

X1
TESTAREA COLINIARITĂŢII (5)
Matricea corelaţiilor - arată valoarea coeficienţilor de
corelaţie dintre variabile, considerate două câte două.
Valori ridicate ale coeficienţilor de corelaţie, mai mari de
0.8, arată existenţa coliniarităţii puternice între variabilele
independente.
Exemplu: Correlations

X1 X2 X3
X1 Pearson Correlation 1 ,161 -,213
Sig. (2-tailed) ,566 ,446
N 15 15 15
X2 Pearson Correlation ,161 1 -,494
Sig. (2-tailed) ,566 ,061
N 15 15 15
X3 Pearson Correlation -,213 -,494 1
Sig. (2-tailed) ,446 ,061
N 15 15 15
TESTAREA COLINIARITĂŢII (6)
 Indicatorul Tolerance se defineşte prin relaţia:


TOL j  1  R 2j 
R 2j este
 raportul de determinaţie din modelul de regresie
auxiliar, construit pe baza variabilelor independente, în
care variabila j este considerată variabila dependentă,
iar celelalte variabile factoriale sunt considerate
variabile independente.

 Dacă TOL = 1, nu există coliniaritate, iar dacă TOL = 0 suntem în situaţia extremă,
de coliniaritate perfectă.
TESTAREA COLINIARITĂŢII (6)
 Indicatorul VIF (Variation Inflation Factor) se defineşte prin relaţia:

1
VIF j 
(1  R 2j )

 Lipsa coliniarităţii dă o valoare VIF = 1


 Existenţa coliniarităţii determină o valoare mare a indicatorului, în cazul unei
coliniarităţi perfecte avem relaţia

R 2j  1,  VIF  
 În practică, se consideră că o valoare VIF>10 (dupa alti autori VIF>5) indică
prezenţa coliniarităţii.
TESTAREA COLINIARITĂŢII (9)
Exemplu: În urma analizei legăturilor dintre variabilele
independente ale unui model de regresie, s-au obţinut următoarele
rezultate:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 5.787 1.773 3.263 .001
Highest Year of
2.459 .104 .558 23.623 .000 .904 1.106
School Completed
Number of Children -.059 .190 -.008 -.309 .757 .835 1.198
Age of Respondent .115 .018 .154 6.263 .000 .831 1.203
a. Dependent Variable: R's Occupational Prestige Score (1980)
Exemple
 Pentru ecuaţia Y = α0 + α1D1 + α2D2 sunt
valabile următoarele afirmaţii:
 a) este ecuaţia corespunzatoare unui model
ANOVA
 b) este ecuatia corespunzătoare unui model
ANCOVA
 c) D1 şi D2 sunt variabile distribuite normal
 d) D1 şi D2 pot apare ca urmare a construirii
unui model de regresie între Y şi o variabilă
nominală cu trei categorii
 Testul Fisher poate fi utilizat pentru:
 Verificarea ipotezei de homoscedasticitate
 verificarea semnificaţiei raportului de corelaţie
 verificarea ipotezei de multicoliniaritate a variabilelor independente
 verificarea corectitudinii modelului de regresie ales

 Prin autocorelare înţelegem că


 variabilele independente Xi din model sunt corelate între ele
 erorile de modelare nu sunt independente
 erorile de modelare sunt corelate cu una sau mai multe variabile
independente
O agenţie imobiliară efectuează un studiu privind influenţa pe care o are
Suprafaţa apartamentelor (X) şi a Vechimea apartamentelor (Apartamente noi,
Apartamente vechi (D1) şi Apartamente foarte vechi (D2)) asupra Preţul de
vânzare a apartamentelor.

 Rezultatele modelării sunt prezentate în tabelul de mai


sus. Se poate considera că:
 modelul prezentat este un model de tip ANCOVA
 modelul prezentat este un model de tip ANOVA
 apartamentele vechi nu determină diferenţe semnificative de preţ faţă de
apartamentele noi
 Apartamentele vechi costa mai mult cu 8326.245 lei decat cele foarte vechi
Pentru un eşantion de 20 de angajaţi ai unei firme s-au înregistrat vechimea la locul
actual de muncă (ani), sexul persoanei şi venitul familiei angajatului (mil.). În urma
modelării celor trei variabile a rezultat tabelul de mai jos. Pe care dintre următoarele
afirmaţii le consideraţi ca fiind corecte?

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 6.335 .325 19.473 .000
sexul persoanei -.493 .198 -.025 -2.489 .013
venitul familiei .072 .001 .579 56.829 .000
a. Dependent Variable: Vechimea la locul actual de munca

 Vechimea angajaţilor de sex masculin este mai mare, în


medie, decât cea a angajaţilor de sex feminin cu 0,493 ani
 Vechimea medie a angajaţilor de sex feminin este de 6,335
ani, in conditiile unui venit nul
 Între vechimea angajaţilor şi venitul familiei acestora există o
legătură directă
În urma modelării Acceleraţiei autoturismelor în funcţie de Puterea motorului printr-un
model compus a rezultat o eroare de modelare pentru care am obţinut următorii indicatori
statistici descriptivi:
Statistics

Unstandardized Residual
N Valid 1415
Missing 102
Mean -.0030732
Std. Error of Mean .29692224
Std. Deviation 11.16917
Skewness .005
Std. Error of Skewness .065
Kurtosis -.248
Std. Error of Kurtosis .130

 Pe baza datelor din tabel alegeţi afirmaţiile


adevărate:
 media nu diferă semnificativ de zero
 distribuţia erorilor nu este normală
 distribuţia seriei este autocorelată
În urma modelării Salariului în funcţie de Vechime, pentru verificarea ipotezelor
de regresie s-a obtinut rezultatul de mai jos. Pentru un risc asumat de 5%, care
dintre urmatoarele afirmatii sunt adevarate?
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 65.656 1.429 45.931 .000
Vechime -2.034 .126 -.418 -16.126 .000
a. Dependent Variable: Erorile in valoare absoluta

 Erorile sunt homoscedastice


 Variatia erorii de modelare este influentata semnificativ de
variatia variabilei Vechime
 Variantele erorii de modelare sunt egale si constante
 Modelul este heteroscedastic

S-ar putea să vă placă și