Sunteți pe pagina 1din 35

Se cunosc următoarele date cu privire la consumul de produse bio (mii lei) (Y), veni

Să se verifice ipotezele clasice ale modelui de regresie.

Y X1 X2
Consumul de produse Venitul familiei Numărul de
Nr.crt.
bio al familiei (mii lei) (mii lei) copii
1 5.30 14 3
2 2.90 7 0
3 2.70 5 1
4 2.90 11 1
5 3.00 5 2
6 3.60 8 2
7 2.80 8 1
8 6.70 16 4
9 4.40 10 2
10 1.80 4 0
11 4.20 14 0
12 3.70 6 4
13 3.80 14 1
14 3.40 4 2
15 4.80 12 2
Total 56,0 138 25
io (mii lei) (Y), venitul familiei ( mii lei) (X1) și numărul de copii (X2)
IPOTEZA I:

DATELE NU SUNT AFECTATE DE ERORI DE MĂSURĂ

(REGULA CELOR 3 SIGMA)

REZOLVARE EXCEL (ETAPE):

1. Calculăm cu ajutorul funcției Descriptive statistics media (mean) și


abaterea standard (standard deviation) pentru toate variabilele numerice:
Y, X1, X2…
2. Calculăm cele două limite: medie-3abateri standard și medie +3abateri
standard pentru toate variabilele numerice: Y, X1, X2…
3. Verificăm cu ajutorul valorilor min și max, dacă datele pentru toate
variabilele numerice: Y, X1, X2…se încadrează între limitele calculate la
pasul 2.

Y X1 X2
Consumul de
Venitul familiei
Nr.crt. produse bio al Numărul de copii
(mii lei)
familiei (mii lei)
1 5.30 14 3
2 2.90 7 0
3 2.70 5 1
4 2.90 11 1
5 3.00 5 2
6 3.60 8 2
7 2.80 8 1
8 6.70 16 4
9 4.40 10 2
10 1.80 4 0
11 4.20 14 0
12 3.70 6 4
13 3.80 14 1
14 3.40 4 2
15 4.80 12 2
Lim min
ĂSURĂ (mean- Lim max
3*standard (mean+3*standar
deviation) d deviation)
y 0.08 7.39
x1 -3.08 21.48
media (mean) și
abilele numerice: x2 -2.21 5.54

medie +3abateri
Consumul de produse bio al familiei (mii lei) Venitul familiei (mii lei)
tele pentru toate
mitele calculate la Mean 3.73333333333333 Mean
Standard Error 0.314667877318091 Standard Error
Median 3.6 Median
Mode 2.9 Mode
Standard Deviation 1.21870344843941 Standard Deviation

Sample Variance 1.4852380952381 Sample Variance


Kurtosis 1.31992921612594 Kurtosis
Skewness 0.948592924959998 Skewness
Range 4.9 Range
Minimum 1.8 Minimum
Maximum 6.7 Maximum
Sum 56 Sum
Count 15 Count
Obs. Datele nu sunt afectate de erori de masura.

Numărul de copii

9.2 Mean 1.666667


1.0564991605 Standard Er 0.333333
8 Median 2
14 Mode 2
4.091803654 Standard D 1.290994

16.742857143 Sample Var 1.666667


-1.4092677931 Kurtosis -0.349451
0.2384881489 Skewness 0.493699
12 Range 4
4 Minimum 0
16 Maximum 4
138 Sum 25
15 Count 15
IPOTEZA II:

VARIABILELE EXOGENE Xj SUNT INDEPENDENTE ÎNTRE ELE

(ÎN CAZ CONTRAR EXISTĂ MULTICOLINIARITATE)

 CRITERIUL KLEIN (ETAPE EXCEL):

1. Rulăm modelul de regresie inițial între variabila dependentă Y și variabilele


independente X1, X2.....și reținem coeficientul de determinare R2.
2. Calculăm coeficientul de corelație liniară Pearson (r) pentru variabilele
independente X1,X2...., cu funcțiile CORREL sau CORRELATION din
Excel.
3. Dacă R2<r variabilele X1 și X2 sunt coliniare (A se vedea în suportul de
curs consecințele și remediile pentru multicoliniaritate).

 CRITERIUL FACTORULUI DE INFLAȚIE (ETAPE EXCEL):

1. Se rulează modele de regresie numai cu variabilele independente X1, X2...și


se reține coeficientul de determinare R2.
2. Se calculează factorul de inflație după formula: FIj=1/(1-R2j)
3. Dacă FI este mai mare decât 4 există multicoliniaritate. Dacă este mai mare
decât 10, multicoliniaritatea este severă (A se vedea în suportul de curs
consecințele și remediile pentru multicoliniaritate).
ÎNTRE ELE

TATE) Y X1 X2
Consumul
de produse Venitul
Numărul
Nr.crt. bio al familiei (mii
Y și variabilele de copii
familiei (mii lei)
are R2. lei) 4.5

entru variabilele 4
1 5.30 14 3
RELATION din
2 2.90 7 0 3.5

a în suportul de
3 2.70 5 1 3

4 2.90 11 1 2.5

X2
2
APE EXCEL):
5 3.00 5 2 1.5

1
dente X1, X2...și
0.5
6 3.60 8 2
0
7 2.80 8 1 2 4 6
că este mai mare 8 6.70 16 4
suportul de curs 9 4.40 10 2
10 1.80 4 0
11 4.20 14 0 rx1,x2
12 3.70 6 4
13 3.80 14 1
14 3.40 4 2

15 4.80 12 2
CRITERIUL KLEIN

Corelograma
4.5

3.5

2.5
X2

1.5

0.5

0
2 4 6 8 10 12 14 16 18

X1

0.21635 SUMMARY OUTPUT

Regression Statistics
Multiple 0.93654

R Square 0.8771 R2 0.8771 rx1,x2


Adjusted0.85662
Standard 0.46148
Observat 15

ANOVA
df SS MS F Significance F
Regressi 2 18.2378 9.11891 42.8199 3E-06
Residual 12 2.55552 0.21296
Total 14 20.7933

Coefficients
Standard Error
t Stat P-valueLower 95%
Upper 95%
Intercept 1.07116 0.31847 3.36342 0.00564 0.37727 1.76506
Venitul f 0.1995 0.03087 6.46199 3E-05 0.13223 0.26677
Numărul 0.49606 0.09785 5.06945 0.00028 0.28286 0.70926
CRITERIUL FACT

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.21635

R Square 0.04681
Adjusted R Squar -0.0265
Standard Error 4.1457
Observations 15

ANOVA
df
Regression 1
Residual 13
Total 14
Obs. Factorii
X1 si X2 sunt
independenti.
Nu apare
multicoliniarita
0.21635 R2>rx1,x2 tea.
Coefficients
Intercept 8.05714
Numărul de copii 0.68571
Lower 95,0%
Upper 95,0%
0.37727 1.76506
0.13223 0.26677
0.28286 0.70926
CRITERIUL FACTORULUI DE INFLAȚIE

Obs. Factorii X1 si X2 sunt


independenti. Nu apare
FI 1.0491 FI<4 multicoliniaritatea.

SS MS F Significance F
10.9714 10.9714 0.63836 0.43866
223.429 17.1868
234.4

Standard Error
t Stat P-valueLower 95% Upper 95% Lower 95,0%
Upper 95,0%
1.78657 4.50984 0.00059 4.19749 11.916795329755 4.19749 11.9168
0.85824 0.79898 0.43866 -1.1684 2.53983136002016 -1.1684 2.53983
IPOTEZA III:
VARIABILA REZIDUALĂ ESTE HOMOSCEDASTICĂ - DE MEDIE
NULĂ ȘI DISPERSIE CONSTANTĂ ȘI INDEPENDENTĂ DE X
(ÎN CAZ CONTRAR EXISTĂ HETEROSCEDASTICITATE)

TESTUL WHITE (ETAPE EXCEL):

1. Rulăm modelul de regresie inițial între variabila dependentă Y și


variabilele independente X1, X2.....și reținem SERIA
REZIDUURILOR.
2. Rulăm un nou model de regresie în care variabila dependentă Y devine
seria reziduurilor ridicată la pătrat (ei2), iar variabilele independente vor
fi: x1, x2, x12, x22, x1*x2…
3. Aplicăm testul F, iar dacă acest din urmă model este invalid înseamnă
că variabilele independente nu influențează seria reziduurilor, deci
ERORILE SUNT HOMOSCEDASTICE. În caz contrar acestea sunt
heteroscedastice (A se vedea în suportul de curs consecințele și remediile
pentru heteroscedasticitate).

Suplimentar, se poate calcula testul LM=n*R 2

Dacă LM<χ2(0,05, v), ERORILE SUNT HOMOSCEDASTICE, unde v=numărul


de variabile independente.
TESTUL WHITE
Ă - DE MEDIE Y X1 X2
ENTĂ DE X Consumul de
ICITATE) Venitul
produse bio Numărul de
Nr.crt. familiei (mii
al familiei copii
lei)
(mii lei)

1 5.30 14 3
ependentă Y și
2 2.90 7 0
nem SERIA
3 2.70 5 1
4 2.90 11 1
ndentă Y devine 5 3.00 5 2
ndependente vor 6 3.60 8 2
7 2.80 8 1
nvalid înseamnă 8 6.70 16 4
ziduurilor, deci 9 4.40 10 2
trar acestea sunt 10 1.80 4 0
nțele și remediile 11 4.20 14 0
12 3.70 6 4
13 3.80 14 1
14 3.40 4 2
nde v=numărul 15 4.80 12 2

Corelograma
0.8

0.6

0.4
Observation
0.2

0
2 4 6 8 10 12 14 16 18
ei

-0.2

-0.4

-0.6

-0.8

-1

X1
-0.2

-0.4

-0.6

-0.8

-1

X1
L WHITE

SUMMARY OUTPUT

Regression Statistics
Multiple 0.9365357812
R Square0.8770992695
Adjusted0.8566158144
Standard0.4614755191
Observat 15

ANOVA
df SS MS F Significance F
Regressi 2 18.2378 9.11891 42.8199 3E-06
Residual 12 2.55552 0.21296
Total 14 20.7933

Coefficients
Standard Error
t Stat P-valueLower 95%
Upper 95%
Lower 95,0%
Upper 95,0%
Intercept1.0711611253 0.31847 3.36342 0.00564 0.37727 1.76506 0.37727 1.76506
Venitul f0.1995012788 0.03087 6.46199 3E-05 0.13223 0.26677 0.13223 0.26677
Numărul 0.496056266 0.09785 5.06945 0.00028 0.28286 0.70926 0.28286 0.70926

RESIDUAL OUTPUT
Y
redictedObservation
Consumul de produse bioResidualsei^2
al familiei (mii lei)
X1 X2 X1^2 X2^2 X1*X2
1 5.3523478261 -0.0523 0.00274 14 3 196 9 42
2 2.4676700767 0.43233 0.18691 7 0 49 0 0
3 2.5647237852 0.13528 0.0183 5 1 25 1 5
4 3.7617314578 -0.8617 0.74258 11 1 121 1 11
5 3.0607800512 -0.0608 0.00369 5 2 25 4 10
6 3.6592838875 -0.0593 0.00351 8 2 64 4 16
7 3.1632276215 -0.3632 0.13193 8 1 64 1 8
8 6.2474066496 0.45259 0.20484 16 4 256 16 64
9 4.058286445 0.34171 0.11677 10 2 100 4 20

4 0
10 1.8691662404 -0.0692 0.00478 16 0 0

14 0

11 3.8641790281 0.33582 0.11278 196 0 0


12 4.2523938619 -0.5524 0.30514 6 4 36 16 24
13 4.3602352941 -0.5602 0.31386 14 1 196 1 14
14 2.8612787724 0.53872 0.29022 4 2 16 4 8
15 4.4572890026 0.34271 0.11745 12 2 144 4 24
pper 95,0%

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.36132
R Square 0.13055 LM 1.9582424
Adjusted R Squar -0.3525 χ2critic (0,05;5) 11.070498
Standard Error 0.22558
Observations 15

ANOVA

df SS MS F

Regression 5 0.06877 0.01375307506 0.2702731


Residual 9 0.45797 0.05088584262
Total 14 0.52674

Coefficients
Standard Error t Stat P-value
Intercept -0.1696 0.42575 -0.39836968752 0.699643
X1 0.06143 0.10614 0.57875895181 0.5769468
X2 0.0288 0.18252 0.15777767551 0.8781152
X1^2 -0.002 0.00589 -0.33516231928 0.7451825
X2^2 0.01409 0.03797 0.37107894814 0.7191632
X1*X2 -0.0083 0.01146 -0.72431290475 0.4872744
LM<χ2cri
Acceptam H0. Model invalid. ERORI HOMOSCEDASTICE.
H0: Model invalid, toti
coeficientii de regresie sunt 0.
Significance F=p-value ERORI HOMOSCEDASTICE.

H1: Model valid, cel putin un


coeficient de regresie este diferit
0. ERORI
0.91823642 HETEROSCEDASTICE.
p-value>0,05. Acceptam H0. Model invalid. ERORI HOMOSCEDASTICE

Lower 95%Upper 95% Lower 95,0% Upper 95,0%


-1.1327069 0.7935 -1.13270694488315 0.7935
-0.1786728 0.30153 -0.178672831863071 0.30153
-0.3840933 0.44169 -0.384093257851618 0.44169
-0.0153069 0.01136 -0.015306928842784 0.01136
-0.0718014 0.09998 -0.07180142863666 0.09998
-0.0342349 0.01763 -0.034234895055176 0.01763
EDASTICE.
ORI HOMOSCEDASTICE.
IPOTEZA IV:

NEAUTOCORELAREA ERORILOR

(ÎN CAZ CONTRAR EXISTĂ AUTOCORELARE)

TESTUL DURBIN-WATSON (ETAPE EXCEL):

1. Rulăm modelul de regresie inițial între variabila dependen


variabilele independente X1, X2.....și reținem
REZIDUURILOR.
2. Calculăm statistica Durbin-Watson (d)
n

 (eˆ t  eˆt 1 ) 2
d  t 2
n , d=2(1-r(1)), r(1)=coeficient de autocore
 eˆ
t 1
2
t

ordin 1.
3. Valoarea calculată se compară cu 2 valori tabelate (preluate din
Durbin-Watson): d1 și d2 (în funcție de α=0,05; numărul de v
independente și volumul eșantionului).

0<d<d1 d1≤d≤d2 d2<d<4-d2 4-d2≤d≤4-d1 4-d1


Autocorelare Indecizie Neautocorelare Indecizie Autoc
pozitivă (erori neg
independente)

Obs.1: Testul Durbin-Watson se aplică seriilor cronologice.


Obs.2: O valoare apropiată de 2 semnifică neautocorelarea erorilor
contrar acestea sunt autocorelate (A se vedea în suportul de curs consec
remediile autocorelării erorilor).
et
LOR Consum
ul de
Venitul Număru
ORELARE) produse
Nr.crt. familiei l de
bio al
EXCEL): (mii lei) copii
familiei
(mii lei) Residuals et-1
ariabila dependentă Y și
și reținem SERIA IAN 5.30 14 3 -0.052348
FEB 2.90 7 0 0.43233 -0.052348
MAR 2.70 5 1 0.135276 0.43233
APR 2.90 11 1 -0.861731 0.135276
MAI 3.00 5 2 -0.06078 -0.861731
cient de autocorelație de IUN 3.60 8 2 -0.059284 -0.06078
IUL 2.80 8 1 -0.363228 -0.059284
AUG 6.70 16 4 0.452593 -0.363228
SEPT 4.40 10 2 0.341714 0.452593
elate (preluate din tabelul OCT 1.80 4 0 -0.069166 0.341714
05; numărul de variabile NOV 4.20 14 0 0.335821 -0.069166
DEC 3.70 6 4 -0.552394 0.335821
IAN 3.80 14 1 -0.560235 -0.552394
≤d≤4-d1 4-d1<d<4
FEB 3.40 4 2 0.538721 -0.560235
decizie Autocorelare
negativă MAR 4.80 12 2 0.342711 0.538721
0.342711

Cu funcția r= -0.0208 d=
ogice. Cu formulăr= -0.0207
orelarea erorilor. În caz 0 0
ul de curs consecințele și d1 0.946
d2 1.543
4-d2 2.457
4-d1 3.054
4 4
DURBIN-WATSON

Corelograma
0.8
0.6
0.4
et 2 (et-et-1)2 et*et-1 0.2
0
0.00274

ei
-0.21.00 2.00 3.00 4.00 5.00 6.00
0.18691 0.23491 -0.0226 -0.4
0.0183 0.08824 0.05848 -0.6
0.74258 0.99402 -0.1166 -0.8
0.00369 0.64152 0.05238 -1
Yi
0.00351 2E-06 0.0036
0.13193 0.09238 0.02153
0.20484 0.66556 -0.1644
0.11677 0.01229 0.15466
0.00478 0.16882 -0.0236
0.11278 0.16401 -0.0232
0.30514 0.78893 -0.1855
0.31386 6E-05 0.30947
0.29022 1.20771 -0.3018
0.11745 0.03842 0.18463
2.55552 5.09689 -0.053

1.99447 2.04156 d este cuprins între 1,543 (d2) și 2,457 (4-d2), ceea ce semnifică neautocorel
ma

5.00 6.00 7.00

nifică neautocorelare a erorilor.


IPOTEZA V:

NORMALITATEA ERORILOR

(ÎN CAZ CONTRAR ERORILE NU SUNT NORMAL DISTRIBUITE)

TESTUL JARQUE-BERRA (ETAPE EXCEL):

1. Rulăm modelul de regresie inițial între variabila dependentă Y și


variabilele independente X1, X2.....și reținem SERIA
REZIDUURILOR.
2. Calculăm cu ajutorul funcției Descriptive statistics asimetria (skewness)
și boltirea (kurtosis).
3. Calculăm statistica Jarque-Berra:
 S2 K2 
JB  n    
 6 24 
 n=volumul eșantionului
 S=asimetria (skewness)
 K=boltirea (kurtosis)

4. Dacă JB<χ(0,05, 2), ERORILE SUNT NORMAL DISTRIBUITE.


Consumul de
Venitul
produse bio
TRIBUITE) Nr.crt. familiei Numărul de copii
al familiei
(mii lei)
(mii lei)
Predicted Consumul de produse bio al familiei (m
1 5.30 14 3 5.35235
ependentă Y și
2 2.90 7 0 2.46767
nem SERIA
3 2.70 5 1 2.56472
4 2.90 11 1 3.76173
etria (skewness)
5 3.00 5 2 3.06078
6 3.60 8 2 3.65928
7 2.80 8 1 3.16323
8 6.70 16 4 6.24741
9 4.40 10 2 4.05829
10 1.80 4 0 1.86917
11 4.20 14 0 3.86418
12 3.70 6 4 4.25239
13 3.80 14 1 4.36024
14 3.40 4 2 2.86128
BUITE.
15 4.80 12 2 4.45729
JARQUE-BERRA

Residualsei^2 Residuals JB
-0.0523 0.00274 χ2(0,05;2)
0.43233 0.18691 Mean 3E-16
0.13528 0.0183 Standard Error 0.11031
-0.8617 0.74258 Median -0.0523
-0.0608 0.00369 Mode #N/A
-0.0593 0.00351 Standard Deviation 0.42724
-0.3632 0.13193 Sample Variance 0.18254
0.45259 0.20484 Kurtosis -0.5961
0.34171 0.11677 Skewness -0.6159
-0.0692 0.00478 Range 1.40045
0.33582 0.11278 Minimum -0.8617
-0.5524 0.30514 Maximum 0.53872
-0.5602 0.31386 Sum 4E-15
0.53872 0.29022 Count 15
0.34271 0.11745
SSE 2.55552
se 0.46148 Corelograma
tcritic 2.16037 0.8

se*tcritic0.99696 0.6

0.4

0.2

0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
ei

-0.2

-0.4

-0.6

-0.8

-1

Yestimat
-1

Yestimat
1.17033 H0: Erori normal distribuite
5.99146 H1:Erori nu sunt normal distribuite

JB<χ2 Acceptăm H0. Erori normal distribuite.

5 5.5 6 6.5

S-ar putea să vă placă și