Sunteți pe pagina 1din 31

VERIFICAREA IPOTEZELOR MODELULUI DE REGRESIE

Modelarea econometrică se realizează în anumite condiţii sau cu respectarea unui set de


restricţii care se numesc ipoteze ale modelului de regresie.
Calitatea estimării parametrilor modelului de regresie depinde de îndeplinirea a două clase
de ipoteze:

I. ipoteze asupra componentei aleatoare sau asupra variabilei eroare:


- 𝑴(𝜺𝒊)=𝟎, media erorilor este nulă;
- 𝑽(𝜺𝒊)=𝝈𝟐, ipoteza de homoscedasticitate;
- 𝜺𝒊~𝑵(𝟎,𝝈𝟐), ipoteza de normalitate;
- 𝒄𝒐𝒗(𝜺𝒊,𝜺𝒋)=𝟎, ipoteza de necorelare sau de independenţă a erorilor.

II. ipoteze asupra componentei deterministe sau asupra variabilelor independente:


- variabilele independente sunt non-aleatoare, deterministe;
- variabilele independente şi variabila eroare sunt necorelate, 𝒄𝒐𝒗(𝑿𝒋,𝜺)=𝟎;
- variabilele independente sunt necoliniare (cazul regresiei liniare multiple)

!!! Nerespectarea acestor ipoteze:


- determină modificarea proprietăţilor estimatorilor parametrilor modelului de regresie;
- ridică probleme importante în realizarea demersului cercetării econometrice.

I. Ipoteze asupra componentei aleatoare (erorilor)

1. Media erorilor este nulă:

a. Definire: M(εi)=0

Potrivit acestei ipoteze, restricţia modelării econometrice este ca toţi ceilalţi factori neincluşi
în model şi reprezentaţi de variabila reziduală, precum şi erorile determinate de metoda statistică
să nu afecteze sistematic media variabilei dependente 𝑌.
Ipoteza 𝑴(𝜺𝒊)=𝟎 este echivalentă cu condiţia: 𝑀(𝑌/𝑋)=𝛽0+𝛽1𝑋.

b. Efectele încălcării ipotezei


Dacă această ipoteză este încălcată, atunci se modifică proprietăţile estimatorilor parametrilor
modelului de regresie. Există două situaţii: când media variabilei reziduale este constantă şi când
aceasta nu este constantă.
- 𝑴(𝜺𝒊)=𝝁=𝒄𝒔𝒕 - parametrul 𝛽0 este estimat deplasat.
- 𝑴(𝜺𝒊)=𝝁𝒊 - parametrul 𝛽1 este estimat deplasat.
În concluzie, dacă ipoteza 𝑴(𝜺𝒊)=𝟎 este încălcată, estimarea parametrilor modelului se
realizează cu o eroare sistematică. Mai exact, este vorba de o deplasare de care suferă fie
estimarea parametrului 𝛽1, fie estimarea parametrului 𝛽0.

c. Testarea ipotezei

 Formularea ipotezelor
H0: M(εi)=0 (media erorilor este nulă; erorile nu afecteaza sistematic media variabilei dependente
Y)

H1: M(εi)≠0 (media erorilor este diferită semnificativ de zero; erorile afectează sistematic media
variabilei dependente 𝑌)

^
M ( εi )−M ( εi )
 Alegerea testului: t=
√ V^ ( M^ ( εi ))
 Valoarea teoretică a testului: tα/2,n-1

M (ei) M (ei )
 Calculul statisticii test: t calc= =
s /√ n s ^M (ε)
 Regula de decizie:
În funcţie de statistica 𝑡:

- dacă |𝑡𝑐𝑎𝑙𝑐|≤𝑡𝛼2⁄;𝑛−1, atunci nu se respinge (se acceptă) ipoteza nulă (𝐻0)


- dacă |𝑡𝑐𝑎𝑙𝑐|>𝑡𝛼2⁄;𝑛−1, atunci se respinge ipoteza nulă (𝐻0), cu o probabilitate de (1−𝛼)

În funcţie de 𝑆𝑖𝑔 (probabilitatea asociată statisticii test):


- dacă 𝑆𝑖𝑔≥𝛼, atunci se acceptă ipoteza nulă (𝐻0)
- dacă 𝑆𝑖𝑔<𝛼, atunci se respinge ipoteza nulă (𝐻0)
 Decizie si interpretare

Ex. 1: Pentru un esantion de masini se considera legatura dintre variabilele Consum si


Puterea motorului

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 39.855 .730 54.578 .000
Horsepower -.157 .007 -.771 -23.931 .000
a. Dependent Variable: Miles per Gallon
Se cere:

a. Să se scrie ecuaţia estimată a modelului.


b. Să se verifice dacă parametrii modelului de regresie sunt semnificativi statistic.
c. Să se verifice dacă media erorilor este diferită semnificativ de zero, considerând un risc
de 5%.

Testarea mediei erorilor in raport cu zero

One-Sample Test
Test Value = 0
95% Confidence Interval
Mean of the Difference
t df Sig. (2-tailed) Difference Lower Upper
Unstandardized Residual .000 391 (n- 1.000 .00000000 -.4932982 .4932982
(tcalc) 1) (sig)

One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
Unstandardized Residual 392 .0000000 4.96773143 .25090833

Residuals Statisticsa
Minimum Maximum Mean Std. Deviation N
Predicted Value 3.64 32.61 23.45 6.020 392
Residual -16.212 16.980 .000 4.968 392
Std. Predicted Value -3.290 1.523 .000 1.000 392
Std. Residual -3.259 3.414 .000 .999 392
a. Dependent Variable: Miles per Gallon

Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
Unstandardized Residual 392 -16.21164 16.97969 .0000000 4.96773143
Valid N (listwise) 392
EX.2. Pentru erorile estimate în procesul de modelare a timpului de accelerare a unui vehicul de
la 0 la 60 m/h (secunde) (engl. Time to Accelerate from 0 to 60 mph (sec) și puterea motorului
(horsepower), s-au obținut rezultatele de mai jos:

Residuals Statisticsa
Minimum Maximum Mean Std. Deviation N
Predicted Value 9.04 18.49 15.47 1.980 400
Residual -7.576 7.594 .000 2.012 400
Std. Predicted Value -3.249 1.527 .000 1.000 400
Std. Residual -3.761 3.770 .000 .999 400
a. Dependent Variable: Time to Accelerate from 0 to 60 mph (sec)

Considerăm un risc de 0,05. Ce ipoteză poate fi testată pe baza informațiilor din tabelul anterior?
Testați ipoteza și interpretați rezultatele obținute.

2. Homoscedasticitatea erorilor: V(εi)=σ2

a. Definire
2
- ipoteza de homoscedasticitate presupune ca varianţa erorilor să fie constantă: V ( ε i ) =σ
- această ipoteză presupune o varianţă constantă a erorilor la nivelul distribuţiilor
condiţionate de forma Y |X =xi

b. Efectele încălcării ipotezei

Dacă ipoteza de homoscedaticitate este încălcată, modelul de regresie se numește


heteroscedastic. Încălcarea aceste ipoteze semnifică pierderea eficienţei estimatorilor
parametrilor modelului de regresie (estimează parametrul cu o varianţă mai mare).

c. Testarea ipotezei

c.1. Procedee grafice: reprezentarea distribuţiei erorilor şi aprecierea varianţei acesteia (Scatter
plot)
c.2. Testul Glejser (cazul regresiei liniare simple):

Acest test are la bază un model ed regresie între variabila reziduală estimată și variabila
independentă. Presupune testarea semnificaţiei parametrului 𝛼1 din modelul de regresie estimat
construit pe baza variabilei reziduale în valoare absolută (|𝑒i|) ca variabilă dependentă şi variabila
independentă (𝑋):

|𝑒𝑖 | = 𝛼0 + 𝛼1𝑥𝑖 + 𝑢𝑖

 Etapele testării:
1. Se estimează modelul de regresie de forma: Y = β0 + β 1 ⋅ X +ε
2. Se calculează erorile ei.
3. Se construieşte un model de regresie pe baza erorilor estimate în valoare absolută şi
variabila independentă: |ε i|=α 0 +α 1 ⋅ x i +ui
4. Se testează α 1
Dacă α 1este semnificativ diferit de zero există legătură între erorile în valoare
absolute şi variabila independenta. Prin urmare modelul este heteroscedastic.
Dacă α 1nu este semnificativ diferit de zero nu există legătură între erorile, în
valoare absolută, şi variabila independenta. Prin urmare modelul este homoscedastic.

Ex. 1: Pentru un esantion de masini se considera legatura dintre Consum (Miles per galon) si
Puterea motorului (horsepower). Rezultatele obtinute sunt prezentate mai jos:

Model Summaryb
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .771 a
.595 .594 4.974
a. Predictors: (Constant), Horsepower
b. Dependent Variable: Miles per Gallon

ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 14169.756 1 14169.756 572.709 .000b
Residual 9649.237 390 24.742
Total 23818.993 391
a. Dependent Variable: Miles per Gallon
b. Predictors: (Constant), Horsepower

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 39.855 .730 54.578 .000
Horsepower -.157 .007 -.771 -23.931 .000
a. Dependent Variable: Miles per Gallon

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 5.223 .452 11.559 .000
Horsepower -.013 .004 -.160 -3.198 .001
a. Dependent Variable: erori_absolute

Consideram un risc de 0,05. Ce ipoteză a modelului de regresie poate fi testata pe baza


rezultatelor obtinute? Testați ipoteza și interpretați rezultatele obținute.

Ex.2: Pentru un esantion de masini se considera legatura dintre timpul de accelerare a unui
vehicul de la 0 la 60 m/h (engl. Time to Accelerate from 0 to 60 mph (sec) și puterea motorului
(horsepower). Rezultatele obtinute sunt prezentate mai jos:

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 20.855 .292 71.347 .000
Horsepower -.051 .003 -.701 -19.632 .000
a. Dependent Variable: Time to Accelerate from 0 to 60 mph (sec)

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2.281 .182 12.538 .000
Horsepower -.007 .002 -.210 -4.280 .000
a. Dependent Variable: erori_absolute

Se cere:

a. Să se scrie ecuaţia estimată a modelului.


b. Să se verifice dacă parametrii modelului de regresie sunt semnificativi statistic.
c. Să se verifice homoscedasticitatea erorilor folosind procedeul Glejser.

VERIFICAREA HOMOSCEDASTICITATII – MODELE MULTIPLE - TESTUL BREUSCH-


PAGAN-GODFREY

Se parcurg următoarele etape:


- Se estimează modelul de regresie multiplă: Y=β0+β1X1+β2X2+ε
- Se determină erorile pe baza modelului de regresie estimat anterior.
- Se estimează modelul auxiliar de forma: ei2=α0 +α1X1+ α2X2+u
- se estimeaza raportul de determinatie a modelului auxiliar (Rα2). Pe baza acestuia se
caluleaza valoarea statisticii χ2 = n*Rα2 care va fi comparata cu o valoare teoretica χ2α, k-1,
unde k reprezinta numarul parametrilor din modelul auxiliar;
- prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/ respinge
ipoteza de homoscedasticitate a erorilor: χ2 < χ2α, k-1=>AH0 respectiv χ2 ≥χ2α, k-1=>RH0

Ex 1: În studiul legăturii dintre valoarea salariului lunar (sute lei), a numărului total de ani de
şcoală (ani) şi a experientei anterioare (luni) pentru un eşantion de salariaţi, s-au obţinut
următoarele rezultate:
Dependent Variable: SALARY
Method: Least Squares
Sample: 1 474
Included observations: 474

Variable Coefficient Std. Error t-Statistic Prob.  

C -20978.30 3087.258 -6.795126 0.0000


EDUC 4020.343 210.6499 19.08543 0.0000
PREVEXP 12.07129 5.810445 2.077516 0.0383

R-squared 0.441456    Mean dependent var 34419.57


Adjusted R-squared 0.439085    S.D. dependent var 17075.66
S.E. of regression 12788.69    Akaike info criterion 21.75682
Sum squared resid 7.70E+10    Schwarz criterion 21.78316
Log likelihood -5153.366    Hannan-Quinn criter. 21.76718
F-statistic 186.1322    Durbin-Watson stat 1.870366
Prob(F-statistic) 0.000000

Heteroskedasticity Test: Breusch-Pagan-Godfrey

F-statistic 19.97695     Prob. F(2,471) 0.0000


Obs*R-squared 37.06429     Prob. Chi-Square(2) 0.0000
Scaled explained SS 136.7705     Prob. Chi-Square(2) 0.0000 Se cere sa se verifice daca
ipoteza de
Test Equation:
Dependent Variable: RESID^2 homoscedasticitate este
Method: Least Squares respectata.
Sample: 1 474

Variable Coefficient Std. Error t-Statistic Prob.  

C -4.78E+08 1.03E+08 -4.623465 0.0000


EDUC 43359663 7048864. 6.151298 0.0000
PREVEXP 575454.4 194431.8 2.959672 0.0032

R-squared 0.078195     Mean dependent var 1.63E+08


Adjusted R-squared 0.074280     S.D. dependent var 4.45E+08 Ex. 2: Pentru erorile
S.E. of regression 4.28E+08     Akaike info criterion 42.59318
Sum squared resid 8.63E+19     Schwarz criterion 42.61952
estimate în procesul de
Log likelihood -10091.58     Hannan-Quinn criter. 42.60354 modelare a salariului în
F-statistic 19.97695     Durbin-Watson stat 2.071801 funcție de nivelul de
Prob(F-statistic) 0.000000 educație și experiență s-au
obținut rezultatele de mai
jos.
Consideram un risc de 0,05. Ce ipoteză a modelului de regresie este testată? Ce test este utilizat?
Interpretați rezultatele obținute.

3. Ipoteza de normalitate a erorilor: ε i N (0 , σ 2)

a. Definirea ipotezei
Erorile 𝜀𝑖 urmează o lege normală de medie 0 şi varianţă σ 2: 𝜀𝑖~𝑁(0, σ 2 ¿

b. Efectele încălcării ipotezei


Ipoteza de normalitate a erorilor este importantă pentru stabilirea proprietăţilor estimatorilor
parametrilor modelului de regresie:
- dacă 𝜀𝑖~𝑁(0, σ 2), atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o
β ̂ j ~ N ( β j , σ ^β );
lege normală: ^
2
j

- dacă ipoteza de normalitate este încălcată, atunci estimatorii construiţi pe baza metodei celor mai
mici pătrate nu urmează o lege de repartiţie normală, având doar proprietăţi asimptotice, adică
necesită eşantioane sau seturi mari de date.

c. Testarea ipotezei
c.1. Procedee grafice: histograma si curba frecventelor , box-plot, Q-Q plot, P-P plot
o Histograma şi curba frecvenţelor
o Diagrama PP-Plot
o Diagrama QQ-Plot

c.2. Procedee numerice


 Testul Kolmogorov-Smirnov

1. Formularea ipotezelor:
𝐻0: 𝜀𝑖~𝑁(0,𝜎2) (ipoteza de normalitate: erorile urmează o lege de repartiţie normală sau erorile
sunt normal distribuite)
𝐻1:𝜀𝑖~𝑁(0,𝜎2) (erorile nu urmează o lege de repartiţie normală sau erorile nu sunt normal
distribuite)
2. Alegerea pragului de semnificaţie: 𝛼=0,05
3. Regula de decizie:
În funcţie de 𝑆𝑖𝑔 (probabilitatea asociată statisticii test):
- dacă 𝑆𝑖𝑔≥𝛼 atunci nu se respinge (se acceptă) ipoteza nulă (𝐻0)
- dacă 𝑆𝑖𝑔<𝛼, atunci se respinge ipoteza nulă (𝐻0)

 Testul Jarque-Bera - se bazează pe verificarea simultană a proprietăţilor de asimetrie


şi boltire ale seriei reziduurilor. Pentru o distribuţie normală, valoarea coeficientului de
asimetrie Fisher (sw) este zero, iar valoarea coeficientului de boltire Fisher (k) este zero.

1. Formularea ipotezelor:
𝐻0: 𝜀𝑖~𝑁(0,𝜎2) (ipoteza de normalitate: erorile urmează o lege de repartiţie normală sau
erorile sunt normal distribuite)
𝐻1:𝜀𝑖~𝑁(0,𝜎2) (erorile nu urmează o lege de repartiţie normală sau erorile nu sunt normal
distribuite)

2. Alegerea pragului de semnificaţie: 𝛼=0,05


2 2 2
3. Citirea valorii teoretice a statisticii test: χ teoretic = χ α , 2= χ 0.05,2 =5.991

[ ]
2
n 2 k
4. Calcularea statisticii test: JB= ⋅ s w +
6 4
- unde 𝑠𝑤 este estimaţia coeficientul de asimetrie 𝑆𝑤 şi 𝑘 este estimaţia coeficientul de
boltire 𝐾.

5. Regula de decizie:
În funcţie de valoarea calculată a statisticii 𝐽𝐵:
2
- dacă 𝐽𝐵𝑐𝑎𝑙𝑐≤ χ α , 2, atunci se acceptă ipoteza nulă (𝐻0);
2
- dacă 𝐽𝐵𝑐𝑎𝑙𝑐> χ α , 2, atunci se respinge ipoteza nulă (𝐻0), cu o probabilitate de (1−𝛼).

6. Decizie

Exemplu: Pentru un esantion de masini se considera legatura dintre variabilele Consum si Puterea
motorului. Rezultatele obtinute sunt prezentate in tabelele de mai jos:

Diagrama PP-Plot Diagrama QQ-Plot


Normal P-P Plot of Unstandardized Residual Normal Q-Q Plot of Unstandardized Residual

1.0 15

10
0.8

5
Expected Normal Value
Expected Cum Prob

0.6

0.4
-5

0.2
-10

0.0 -15
0.0 0.2 0.4 0.6 0.8 1.0 -20 -10 0 10 20

Observed Cum Prob Observed Value

Histograma şi curba frecvenţelor

50

40
F re q u e n c y

30
10

Mean = 3.6082248E-16
Std. Dev. = 4.96773143
N = 392
0
-20.00000 -10.00000 0.00000 10.00000 20.00000

Unstandardized Residual

One-Sample Kolmogorov-Smirnov Test


Unstandardized
Residual
N 392
Normal Parametersa,b Mean .0000000
Std. Deviation 4.96773143
Most Extreme Differences Absolute .058
Positive .058
Negative -.034
Test Statistic .058
Asymp. Sig. (2-tailed) .003c
a. Test distribution is Normal.
b. Calculated from data.
c. Lilliefors Significance Correction.

 Testul Jarque-Bera

Statistics

Unstandardized Residual
N Valid 392
Missing 14
Skewness .411
Std. Error of Skewness .123
Kurtosis .450
Std. Error of Kurtosis .246

2. Pentru un esantion de masini se considera legatura dintre timpul de accelerare a unui vehicul
de la 0 la 60 m/h (engl. Time to Accelerate from 0 to 60 mph (sec) și puterea motorului
(horsepower). Rezultatele obtinute sunt prezentate mai jos:
One-Sample Kolmogorov-Smirnov Test
Unstandardized
Residual
N 398
Normal Parameters a,b
Mean .0000000
Std. Deviation 2.50088800
Most Extreme Differences Absolute .050
Positive .050
Negative -.036
Test Statistic .050
Asymp. Sig. (2-tailed) .018c
a. Test distribution is Normal.
b. Calculated from data.
c. Lilliefors Significance Correction.

Statistics
Unstandardized Residual
N Valid 398
Missing 8
Skewness .461
Std. Error of Skewness .122
Kurtosis .392
Std. Error of Kurtosis .244
4. Ipoteza de necorelare sau de independenţă a erorilor: cov(εi, εj)=0

a. Definirea ipotezei
Ipoteza de necorelare sau de independenţă a erorilor se referă la lipsa une corelaţii între
variabilele reziduale sau la faptul că eroarea asociată unei valori a variabilei dependente nu este
influenţată de eroarea asociată altei valori a variabilei dependente.
În condiţiile în care ipoteza de independenţă a erorilor nu este verificată, modelul de regresie
înregistrează o autocorelare a erorilor sau o corelaţie serială.
Autocorelarea sau corelaţia serială presupune existenţa unei autocorelări între erorile 𝜀𝑖, altfel
spus: 𝑐𝑜𝑣(𝜀𝑖,𝜀𝑗)≠0.

Autocorelarea erorilor poate fi cauzată de:


- neincluderea în modelul de regresie a uneia sau a mai multor variabile explicative importante;
- modelul de regresie nu este corect specificat;

b. Efectele încălcării ipotezei


În condiţiile existenţei autocorelării erorilor, este afectată calitatea estimaţiilor obţinute
prin metoda celor mai mici pătrate (pentru parametrul 𝛽0, se obţine un estimator
neeficient)

c. Testarea ipotezei
H0: cov(εi, εi)=0 sau (r = 0)
H1: cov(εi, εi)≠0 sau (r ≠ 0)

c.1. Procedee grafice


c.2. Procedee numerice
 Testul Durbin-Watson
1. Formularea ipotezelor:
H0: erorile nu sunt autocorelate ( = 0)
H1: erorile sunt autocorelate (  0 )

2. Alegerea pragului de semnificaţie: 𝛼

3. Alegerea statisticii test: 𝐷𝑊=𝑑=2(1−𝜌̂)~𝐷𝑊(𝑑𝐿,𝑑𝑈)

* 𝑑𝐿 = limita inferioara
* 𝑑U = limita superioara

Întrucât (−1≤𝜌̂≤1), valorile 𝐷𝑊 sunt date de intervalul (0≤𝑑≤4):


- dacă 𝜌̂=1⇒𝑑=0, există autocorelare pozitivă maximă a erorilor;
- dacă 𝜌̂=−1⇒𝑑=4, există autocorelare negativă maximă a erorilor;
- dacă 𝜌̂=0⇒𝑑=2, nu există autocorelare sau erorile nu sunt autocorelate.
4. Citirea valorii teoretice a statisticii test:

Se citesc valorile din tabela Durbin-Watson pentru 𝑑𝐿 ş𝑖 𝑑𝑈, ţinând cont de numărul de
parametrii din model, de volumul eşantionului 𝑛 şi de riscul asumat 𝛼.

5. Regula de decizie
În funcţie de aceste valori critice se determină următoarele intervale, care permit luarea deciziei
de respingere sau acceptare a ipotezei nule:

- dacă (0<𝑑𝑐𝑎𝑙𝑐<𝑑𝐿), se respinge ipoteza nulă (𝐻0), erorile înregistrează autocorelare pozitivă;
- dacă (4−𝑑𝐿<𝑑𝑐𝑎𝑙𝑐<4), se respinge ipoteza nulă (𝐻0), erorile înregistrează autocorelare
negativă;
- (𝑑𝐿<𝑑𝑐𝑎𝑙𝑐<𝑑𝑈) şi (4−𝑑𝑈<𝑑𝑐𝑎𝑙𝑐<4−𝑑𝐿) sunt regiuni de nedeterminare, nu se poate decide
asupra existenţei autocorelării erorilor;
- dacă (𝑑𝑈<𝑑𝑐𝑎𝑙𝑐<4−𝑑𝑈), se acceptă ipoteza nulă (𝐻0), erorile nu sunt autocorelate sau nu
există autocorelare a erorilor.
 Testul RUNS - se bazează pe ideea că valorile variabilei reziduale se constituie în
secvenţe sau seturi de valori pozitive sau negative numite runs, care se succed într-o
anumită ordine sau aleator.

1. Formularea ipotezelor
H0: k este distribuit normal (nu există autocorelare a erorilor; erorile nu sunt autocorelate)
H1: k nu este distribuit normal (ipoteza este încălcată; erorile sunt autocorelate)

2. Calculul statisticii test


- se foloseşte statistica t Student, calculată după relaţia:
k −M (k )
t calc=
sk

unde: k este numărul de runs caracterizat prin:


n1 n2
M (k )=2 +1
n1 +n2

2 2 n1 n2−n1−n2
sk =2n 1 n2
¿¿
 n1 este numărul de valori pozitive ale erorilor ei ;
 n2 este numărul de valori negative ale erorilor ei,
cu n1 + n2 = n .

 s2k este o valoare calculată la nivelul eşantionului a estimatorului σ^ 2k

3. Regula de decizie:

- dacă |tcalc| ≤ ta/2,n-2 sau sau sig >𝛼 sau k ∈ [ M (k )± 1,96 ⋅ s k ] , atunci se

acceptă ipoteza H0.

Exemplu: Pentru un esantion de masini se considera legatura dintre variabilele Consum si


Puterea motorului. rezultatele sunt prezentate in tabelele de mai jos:

Model Summaryb
Adjusted R Std. Error of Durbin-
Model R R Square Square the Estimate Watson
1 .771 a
.595 .594 4.974 .964
a. Predictors: (Constant), Horsepower
b. Dependent Variable: Miles per Gallon
Runs Test

Unstandardiz
ed Residual
Test Valuea -.31137
Cases < Test Value 195
Cases >= Test Value 197
Total Cases 392
Number of Runs 106
Z -9.204
Asymp. Sig. (2-tailed) .000
a. Median

Consideram un risc de 0,05. Ce ipoteză a modelului de regresie este testată? Ce teste sunt
utilizate? Interpretați rezultatele obținute.

2. Pentru un esantion de masini se considera legatura dintre timpul de accelerare a unui vehicul
de la 0 la 60 m/h (engl. Time to Accelerate from 0 to 60 mph (sec) și puterea motorului
(horsepower). Rezultatele obtinute sunt prezentate mai jos:

Model Summaryb
Adjusted R Std. Error of the
Model R R Square Square Estimate Durbin-Watson
1 .701a
.492 .491 2.014 1.521
a. Predictors: (Constant), Horsepower
b. Dependent Variable: Time to Accelerate from 0 to 60 mph (sec)

Runs Test
Unstandardized
Residual
Test Value a
-.14663
Cases < Test Value 198
Cases >= Test Value 202
Total Cases 398
Number of Runs 158
Z -4.304
Asymp. Sig. (2-tailed) .000
a. Median
Consideram un risc de 0,05. Ce ipoteză a modelului de regresie este testată? Ce teste sunt
utilizate? Interpretați rezultatele obținute.
II. Ipoteze asupra variabilelor independente
1. Variabilele independente sunt nestochastice sau deterministe.
2. Variabilele independente şi variabila eroare sunt necorelate, cov (Xi,εi)=0.
- această ipoteză este îndeplinită dacă variabilele independente sunt nestochastice.
3. Ipoteza de necoliniaritate a variabilelor independente

IPOTEZA DE NECOLINIARITATE A VARIABILELOR INDEPENDENTE


 Definire
 Tipuri de coliniaritate
 Testarea coliniarității
a. Procedee grafice: Scatter plot
b. Procedee numerice
- un prim indiciu pentru existenţa coliniarităţii poate fi următorul: dacă între variabilele
independente există o legătură de tip liniar, cel mai probabil, coeficientul de determinaţie
pentru acest model va avea o valoare ridicată, însă testul Student pentru fiecare parametru
al variabilelor coliniare nu va fi semnificativ statistic. În consecinţă, se poate testa
coliniaritatea prin testarea coeficienţilor de regresie, iar indiciul este existenţa unui
coeficient de determinaţie mare. În condiţiile în care parametrii modelului de regresie
sunt nesemnificativi, se poate decide că modelul admite fenomenul de coliniaritate.
- o altă metodă de testare a coliniarităţii este testarea parametrilor modelelor de regresie
auxiliară construite ca modele de regresie liniară doar pe baza variabilelor independente.
Dacă parametrii acestor modele sunt semnificativi, atunci variabilele independente sunt
coliniare.
- pe baza modelelor de regresie auxiliare, se pot construi doi indicatori cu ajutorul cărora
se poate detecta existenţa coliniarităţii: Tolerance şi VIF (Variance Inflation Factor).

1. Factorul varianței crescute (Variance-inflated factor-VIF)

1
VI F j=
1−R 2j
 Unde R2j este raportul de determinaţie din modelul de regresie auxiliar, respectiv dintre
variabila Xj şi celelalte variabile independente.
Interpretare:
2
VIF=1=> lipsa coliniarității și se realizează dacă R j =0
2
R j =1=> intre variabilele independente => există o coliniaritate perfectă=> VIF este infinit

!VIF are o valoarea ridicată (VIF>10) => variabilele independente sunt coliniare
2. Toleranţa (Tolerance)
1
TOL=
VI F j
=1- R2j
Interpretare:
TOL=1 => nu există coliniaritate
TOL=0=> există coliniaritate perfectă
! existența coliniarității este sugerată de valorile mici la indicatorului TOL.

EXERCIȚII:

1. Rezultatele modelării econometrice pentru variabilele PIB pe locuitor(euro), Rata de


natalitate (născuți la 1000 de locuitori), Rata de mortalitate (decedați la 1000 de locuitori)
și Gradul de urbanizare (procentul personaelor din mediul urban ) sunt prezentate în
tabelul de mai jos:

Coefficientsa
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 78.774 6,430 12.252 .000
PIB/locuitor .001 .000 .383 4.357 .000 .586 1.707
Rata de natalitate -.503 .183 -.256 -2.743 .007 .501 1.995
Rata de mortalitate -1.837 .408 -.323 -4.504 .000 .851 1.175

Se cere:
a. să se testeze ipoteza de necoliniaritate a variabilelor independente, utilizând
indicatorul VIF
b. să se testeze ipoteza de necoliniaritate a variabilelor independente, utilizând
indicatorul TOL
c. Să se calculeze raportul de determinatie pentru modelul auxiliar corespunzator
variabilei Rata de mortalitate
2. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie,
s-au obţinut următoarele rezultate:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 65,705 27,731 2,369 ,037
X1 48,979 10,658 ,581 4,596 ,001 ,950 1,052
X2 59,654 23,625 ,359 2,525 ,028 ,753 1,328
X3 -1,838 ,814 -,324 -2,258 ,045 ,738 1,355
a. Dependent Variable: Y

Pentru exemplul dat, se poate considera că există coliniaritate între variabilele independente?

3. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie,
s-au obţinut următoarele rezultate:

Pentru exemplul dat, se poate considera că există coliniaritate între variabilele independente?

4. În vederea testării coliniarităţii dintre variabilele independente ale unui model de regresie,
s-au obţinut următoarele rezultate:
a. Pentru exemplul dat, se poate considera că există coliniaritate între variabilele
independente?
b. Estimati valorile coeficientilor de determinatie din modelul auxiliar corespunzator
fiecarei variable independente.
GRILE:

1. În urma modelării relației dintre două variabile printr-un model liniar rezultă o eroare de
modelare pentru care s-au calculat următorii indicatori statistici:

Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
Unstandardized Residual 474 -21567.42256 79042.95061 .0000000 12819.9663973
0
Valid N (listwise) 474

Pe baza datelor de mai sus, pentru o probabilitate de 0,90, se poate considera că:

a. erorile sunt homoscedastice


b. media erorilor nu diferă semnificativ de zero
c. erorile sunt normal repartizate
d. erorile sunt corelate

2. Pentru erorile estimate ale unui model de regresie, s-au obținut rezultatele de mai jos:
Runs Test
Unstandardized
Residual
Test Value a
-288.49547
Cases < Test Value 3
Cases >= Test Value 3
Total Cases 6
Number of Runs 2
Z -1.369
Asymp. Sig. (2-tailed) .171
a. Median

Cu o probabilitate de 0.95, se poate considera că erorile:

a. nu sunt corelate
b. se respect ipoteza de necoliniaritate
c. sunt corelate
d. sunt homoscedastice

3. Pentru erorile estimate ale unui model de regresie s-a obținut următoarea reprezentare
grafică:

Se poate considera că:


a. Erorile sunt normal distribuite
b. Nu se poate preciza nimic despre distribuția eorilor
c. 𝜀𝑖~𝑁(0,𝜎2)
d. 𝜀𝑖~𝑁(0,𝜎2)

4. Cu privire la erorile unui model de regresie liniară simplă s-au obținut următoarele rezultate:

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) .280 .067 4.206 .000
Household income in .017 .001 .473 15.652 .000
thousands
a. Dependent Variable: erori_valori_absolute

Pe baza rezultatelor de mai sus, pentru o probabilitate de 0,95, se poate considera că:
a. Media erorilor este semnificativ diferită de 0.
b. Modelul initial este homoscedastic
c. V (εi )≠ σ2
d. M(εi)=0
5.  Pentru erorile estimate ale unui model de regresie s-au obținut următoarele rezultate:

Statistics
Unstandardized Residual
N Valid 1000
Missing 0
Skewness 1.216
Std. Error of Skewness .077
Kurtosis 2.255
Std. Error of Kurtosis .155
Minimum -84.81886
Maximum 155.04145

Pe baza rezultatelor de mai sus, se poate considera că:


a. Erorile sunt normal distribuite
b. Erorile nu sunt normal distribuite
c. Erorile sunt autocorelate
d. Erorile nu sunt autocorelate

6. În urma modelării legăturii dintre două variabile, pentru erorile estimate, s-au obținut
următoarele rezultate:

Statistics
Unstandardized Residual
N Valid 474
Missing 0
Mean .0000
Std. Error of Mean 588.840
Std. Deviation 12819.966
Variance 164351538.428
Skewness 1.764
Std. Error of Skewness .112
Kurtosis 5.798
Std. Error of Kurtosis .224

Considerând un risc de 1%, se poate considera că:


a. erorile sunt heteroscedastice
b. media erorilor diferă semnificativ de zero
c. erorile sunt homoscedastice
d. ipoteza cu privire la media erorilor este îndeplinită

7. În studiul legăturii dintre Presiunea arterială (mm/hg) și Vârsta (ani), s-au obținut
următoarele rezultate:

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 58.706 6.452 9.098 .000
age in years 1.463 .102 .979 14.300 .000
a. Dependent Variable: Systolic blood presure (mm hg)

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -1.034E-14 6.452 .000 1.000
age in years .003 .102 .000 .000 1.000
a. Dependent Variable: error_abs

Conform tabelelor de mai sus se poate considera că:

a. V (εi )≠ σ2
b. Ecuația modelului auxiliar este: |ei| = 58.706 +1.463X
c. M(εi)≠0
d. Modelul inițial este homoscedastic

8. Pentru erorile estimate ale unui model de regresie liniară multiplă, obținute pe baza unui
eșantion de n=474 observații, s-a obținut valoarea calculată a testului Durbin-Watson
egală cu 1,870. Pentru un risc de 0,05 și un număr de parametri estimați ai modelului de
k=3, se poate considera că erorile sunt:

a. autocorelate pozitiv
b. autocorelate negativ
c. necorelate
d. nu se poate preciza dacă există autocorelare sau nu
9. În urma analizei coliniarităţii pentru un model de regresie multiplă s-au obţinut
rezultatele din tabelul de mai jos:
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1(Constant) 32.773 5.417 6.050 .000
Daily calorie intake .012 .002 .615 5.598 .000 .436 2.295
Gross domestic .000 .000 .213 1.939 .056 .436 2.295
product / capita
a. Dependent Variable: Average female life expectancy

Pe baza datelor din tabelul de mai sus, se poate afirma că:

a. variabilele independente sunt coliniare


b. raportul de determinaţie pentru modelul de regresie auxiliar (Rj=2) este 2,295
c. raportul de determinaţie pentru modelul de regresie auxiliar (Rj=2) este 0,436
d. raportul de determinaţie pentru modelul de regresie auxiliar (Rj=2) este 0,564

10. Pentru erorile estimate ale unui model de regresie s-a obținut următoarea reprezentare
grafică:
Se poate considera că:
a. Distribuția erorilor este normal distribuită
b. Nu se poate preciza nimic despre distribuția erorilor
c. Nu se poate testa normalitatea erorilor cu ajutorul histogramei
d. Distribuția erorilor nu urmează o lege de repartiție normală

11. Se estimează un model de regresie având ca variabilă dependentă salariul curent anual și
ca variabile independente salariul anual la angajare și nivelul de educație. În demersul
verificării ipotezelor asupra acestui model de regresie, se estimează un model de regresie
auxiliar și se obțin rezultatele din tabelul de mai jos:

Pentru un risc asumat de 0,05, se poate afirma că:


a. erorile au media egală cu zero
b. erorile sunt heteroscedastice
c. erorile sun corelate
d. erorile sunt homoscedastice
12. Cu privire la erorile unui model de regresie liniară simplă s-au obținut următoarele rezultate:

One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
Unstandardized Residual 109 .0000000 .95585683 .09155448

Pentru exemplul dat, pentru un risc de 1%, se poate considera că:


a. se acceptă ipoteza: H0: M(εi)=0
b. se respinge ipoteza: H0: M(εi)=0
c. media erorilor este egală cu 0,0915
d. volumul eșantionului este egal cu 110

13. În urma analizei coliniarității variabilelor independente ale unui model de regresie s-au
obținut următoarele rezultate:

Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
(Constant) -27886.290 5529.479 -5.043 .000
Nivel educatie 4004.576 210.628 .677 19.013 .000 .934 1.071
Luni de la angajare 87.951 58.441 .052 1.505 .133 .998 1.002
Experienta anterioara 11.936 5.803 .073 2.057 .040 .936 1.068

Pe baza datelor din tabelul de mai sus se poate afirma că:

a. există coliniaritate între variabilele independente


b. variabilele independente sunt necorelate
c. variabila Experiența anterioară introduce fenomenul de coliniaritate
d. variabilele independente sunt necoliniare

14. În urma modelării Salariului curent printr-un model liniar multiplu pe baza unui număr
de n=474 de înregistrări s-au obţinut următoarele informaţii:

Model Summaryb
Adjusted R Std. Error of the
Model R R Square Square Estimate Durbin-Watson
1 .666 a
.444 .441 $12,771.556 1.879
a. Predictors: (Constant), Months since Hire, Previous Experience (months), Educational
Level (years)
b. Dependent Variable: Current Salary

Se poate considera că:


a. Valoarea testului Durbin-Watson nu ne permite luarea unei decizii asupra
autocorelării erorilor
b. Erorile de modelare sunt autocorelate
c. Există autocorelare maximă negativă
d. Erorile de modelare nu sunt autocorelate

15.  În urma analizei erorilor de estimare ale unui model de regresie liniară simplă, s-au
obținut rezultatele de mai jos:

One-Sample Kolmogorov-Smirnov Test


Unstandardized
Residual
N 5000
Normal Parametersa,b Mean .0000000
Std. Deviation 42.62125710
Most Extreme Differences Absolute .256
Positive .256
Negative -.179
Test Statistic .256
Asymp. Sig. (2-tailed) .000c

b. Calculated from data.

Se poate considera că:


a. Erorile sunt autocorelate, cu un risc de 5%
b. Erorile nu sunt normal distribuite, cu un risc de 5%
c. Erorile sunt heteroscedastice
d. rrorile nu sunt autocorelate, cu o încredere de 1%

S-ar putea să vă placă și