Curs 4+5

ECONOMETRIE
TESTAREA VALIDITĂȚII MODELULUI DE REGRESIE

LINIARĂ LA UN PRAG DE SEMNIFICAŢIE DE 5%
Situația economică
O firmă vrea să găsească o legătură între valoarea prejudiciului
provocat de secetă și distanța dintre parcele şi cea mai
apropiată staţie de pompare a apei. Pentru aceasta, realizează
un studiu, într-o anumită regiune, luând în considerare 15
parcele. Sunt înregistrate date referitoare la valoarea
prejudiciului şi distanţa dintre parcela şi cea mai apropiată staţie
de pompare a apei:
Nr. Distanta fata de statia de Valoarea prejudiciului (mii
crt. pompare (zeci km) Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Variabilele modelului
Variabilele sunt:
x – variabila care arată distanţa dintre parcela şi cea mai apropiată
staţie de pompare a apei, exprimată în zeci de km
(variabila independentă sau variabila explicativă sau variabila
exogenă)
y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila
endogenă)
Corelograma
Corelograma
50.0000
45.0000
40.0000
35.0000
30.0000
25.0000
20.0000
15.0000
10.0000
5.0000
0.0000
0.0000 1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000
Stabilirea legăturii dintre variabile
Corelograma sugerează că există legătură directă şi
liniară între cele două variabile. Există o funcţie f astfel
încât variabila x explică variabila y prin funcţia f, y=f(x), o
funcție liniară f=ax+b.
Modelul liniar de regresie este y= ax+b+ε.
Calculăm estimatorii â și
Nr. crt. x y
xt-xmediu yt-ymediu (xt-xmediu)(yt-ymediu) (xt-xmediu)^2
1 3,4000 26,2000 0,1200 -0,2133 -0,0256 0,0144
2 1,8000 17,8000 -1,4800 -8,6133 12,74773333 2,1904
3 4,6000 31,3000 1,3200 4,8867 6,4504 1,7424
4 2,3000 23,1000 -0,9800 -3,3133 3,247066667 0,9604
5 3,1000 27,5000 -0,1800 1,0867 -0,1956 0,0324
6 5,5000 36,0000 2,2200 9,5867 21,2824 4,9284
7 0,7000 14,1000 -2,5800 -12,3133 31,7684 6,6564
8 3,0000 22,3000 -0,2800 -4,1133 1,151733333 0,0784
9 2,6000 19,6000 -0,6800 -6,8133 4,633066667 0,4624
10 4,3000 31,3000 1,0200 4,8867 4,9844 1,0404
11 2,1000 24,0000 -1,1800 -2,4133 2,847733333 1,3924
12 1,1000 17,3000 -2,1800 -9,1133 19,86706667 4,7524
13 6,1000 43,2000 2,8200 16,7867 47,3384 7,9524
14 4,8000 36,4000 1,5200 9,9867 15,17973333 2,3104
15 3,8000 26,1000 0,5200 -0,3133 -0,162933333 0,2704
TOTAL 49,2000 396,2000 171,114 34,7840
MEDIE 3,2800 26,4133
Ecuația de regresie
Interpretare rezultate
Interpretarea valorilor coeficienţilor
a arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă
distanţa dintre parcelă şi staţia de pompare creşte cu o unitate, adică 10 km (b
arata cu cat se modifica, in medie, nivelul variabilei dependente, daca nivelul
variabilei independente creste cu o unitate);
b arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă
parcela ar fi lângă staţia de pompare (a arata nivelul mediu al variabilei
dependente, daca nivelul variabilei independente ar fi egal cu 0; a nu are
intotdeauna interpretare economică).
Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele
, două ipoteze:
H0: modelul de regresie nu este valid statistic, cu alternativa
H1: modelul de regresie este valid statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:
SSR
MSR k
F  ~ Fisherk ,n k 1
MSE SSE
n  k 1
Unde:
MSR=media pătratelor datorate regresiei
MSE=media pătratelor datorate reziduurilor
SSR=suma pătratelor datorate regresiei
SSE=suma pătratelor datorate reziduurilor
k=numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem
un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă)
n=numărul de observații
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului.
Dacă nu se specifică, vom considera în general că α=0,05 (sau α·100=5%),
iar 1-α=0,95 (sau (1-α)·100=95%).
Pentru calculul statisticii folosim tabelul ANOVA:
F22';kMSR
SSE
SST
SSR
MSE
MSR
F SSR
,n k 22SSE
s

222
yey1//ey
x/ x
ssFecalcMSE nnk2k  1
y/ x n nsk  1 22 2

  ekyˆyiii  yyyˆ i  
ii11

Grade de Media pătratelor
libertate (MS- Mean of
Sursa Suma pătratelor Valoarea
variaţiei (SS-Sum of Squares)
(df - Squares)
statisticii F
Fcritic
degrees of Dispersiile
freedom) corectate
SSR MSR
MSR  F
MSE
F ';k ,nk 1
Datorată
SSR  2y / x  k
regresiei k sau sau
 
n 2
(Regression)   yˆ i  y 2y / x s y2 / x
i 1 s 2y / x  Fcalc 
k se2
SSE
MSE 
SSE  2e  n  k 1
Reziduală sau
n n–k–1
(Residual)    yi  yˆ i  2
2e
i 1 s e2 
n  k 1
SST  2y 
Totală n–1
 
n 2
  yi  y
i 1
eeSSE ,396

yyyiy
y ,xiy2ˆi,20
SST
SSRˆ15
xy1515
yiiˆii i
2 y10 222 ˆ
22779
y
y  2 4,9193  xi
y /

  
e 
ˆiiyii  e396
y i0
 69
911,751
iiii1111841 ,52
76
ANOVA
Significance
df SS MS F F
Regression 1,0000 841,7664 841,7664 156,8862 0,000000012
Residual 13,0000 69,7510 5,3655
Total 14,0000 911,5173
Calcul F critic
Fcritic
F0,05;1,13  4,667
În EXCEL, formula de calcul este =F.INV.RT(0,05;1;13)

Cum
Fcalc  156,89  4,667  Fcritic
respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid

statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
Măsurarea intensității legăturii dintre cele două
variabile folosind coeficientul liniar de corelaţie
Pearson
n n
 x  x  y
i i  y x y i i  n x  y
rxy  i 1
 i 1

n n
 n
2  n
2

 ix  x 2
 
 iy  y 2
  xi  n  x     yi  n  y 
2 2
i 1 i 1  i 1   i 1 
 n   n   n 
n    xi yi     xi     yi 
  i 1   i 1   i 1 
 n 2  n 2   n 2  n 2 
n xi    xi    n yi    yi  
 i 1  i 1    i 1  i 1  
15 1470,65  49,2  396,2

rxy   0,96098   1;1
2 2
15 196,16  49,2  15 11376 ,48  396,2
Măsurarea intensității legăturii dintre cele două variabile
folosind coeficientul liniar de corelaţie Pearson
Regression Statistics
Valoarea coeficientului de
Multiple R 0,96098 corelaţie Pearson,
R Square 0,92348 pozitivă şi foarte
apropiată de +1, arată că
Adjusted R Square 0,91759 între cele două variabile
Standard Error 2,31635 există o legătura liniară
directă şi puternică.
Observations 15
Raportul de corelație
Raportul de corelaţie, testarea validității acestuia şi interpretarea rezultatul obţinut.
SSR 2y / x 841,76
R    0,96098  0;1
SST 2y 911,52
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea
H0: Raportul de corelaţie este nesemnificativ statistic
(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem

ipoteza nulă H0 şi concluzionăm că raportul de corelaţie
este semnificativ diferit de zero, adică variabila X
(distanţa) are o influenţă semnificativă asupra variabilei
Y (prejudiciul).
Observatțe: Pentru modelul de regresie liniara simpla,
între raportul de corelație R si coeficientul de corelație liniara Pearson rxy
există următoarea relație
 R, daca b  0
rxy   .
  R , daca b  0
Coeficientul de determinaţie
2
SSR  y/ x 841,76
R2   2   0,9235
SST y 911,52
2 2 2
sau R  0,96098  0,9235 şi arată că 92,35% (adică R %) din variaţia totală a prejudiciului cauzat de
incendii este explicată de variaţia variabilei independente (distanţa între locul parcelei şi staţia de
pompare).
Intervalul de încredere
Intervalul de încredere (1-α)·100% = 95% pentru parametrul a al modelului linear de regresie
determinat pe baza eşantionului observat, este: [4,0709; 5,7678]

Deci intervalul [4,07; 5,76] acoperă valoarea adevărată a parametrului a cu probabilitatea 0,95.
Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte
cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul a nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru a ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de încredere (1-α)·100% = 95% pentru parametrul b al modelului linear de regresie
determinat pe baza eşantionului observat, este: [7,2096; 13,3463 ]

Deci intervalul [7,21; 13,34] acoperă valoarea adevărată a parametrului b cu probabilitatea 0,95,
adică intervalul de valori [7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat, dacă
parcela este chiar lângă staţia de pompare a apei.
Cum intervalul de încredere 95% determinat pentru parametrul b nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru b ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Significance F
Nivelul de semnificatie observat sau calculat (Significance F), este cel mai mic nivel fixat de semnificatie al
testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru care ipoteza nula “H0 :
modelul de regresie nu este valid statistic” poate fi respinsa.
Daca α=0,05 este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
• dacă Significance F >α, atunci nu exista suficiente motive sa respingen ipoteza nula H0, adica acceptam
H0, rezultatul nu este semnificativ statistic, adica modelul de regresie nu este valid statistic;
• dacă Significance F <α, atunci se repinge ipoteza nula H0 si, prin urmare, se accepta ipoteza alternativa
H1, adica rezultatul este semnificativ statistic, ceea ce inseamna ca modelul de regresie este valid statistic sau
este corect specificat.
In cazul nostru, nivelul de semnificatie al testului este α=0,05, iar Significance F = 0,000000012, deci
Significance F <α, prin urmare respingem H0 si acceptam H1 ca modelul de regresie este valid sau semnificativ
statistic.
P value
P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului pentru care ipoteza nula H0 poate fi respinsă.
Daca α=0,05 este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
• dacă P value >α, atunci nu există suficiente motive să respingen ipoteza nulă H0, adică
acceptam H0, rezultatul nu este semnificativ statistic, adică modelul de regresie nu este valid
statistic;
• dacă P value <α, atunci se repinge ipoteza nula H0 și, prin urmare, se acceptă ipoteza
alternativă H1, adică rezultatul este semnificativ statistic, ceea ce înseamnă că modelul de
regresie este valid statistic sau este corect specificat.
P value
Pentru parametrul a, P Value=0,000000012, deci este ma mic decât α, prin urmare respingen
ipoteza nula H0 și acceptam ipoteza alternativă H1 , adică parametrul b este semnificativ
statistic.
Pentru parametrul b, P Value= 0,000006586, deci este ma mic decât α, prin urmare respingen
ipoteza nula H0 și acceptam ipoteza alternativă H1 , adică parametrul b este semnificativ
statistic.
Studiul reziduurilor
RESIDUAL OUTPUT Pentru fiecare observaţie (linie din tabelul de date
Observation Predicted Y Residuals Standard Residuals iniţial) se afişează:
1 27,0037 -0,8037 -0,3600
2 19,1327 -1,3327 -0,5971 Observation – numărul de ordine al observaţiei.
3 32,9068 -1,6068 -0,7199
4 21,5924 1,5076 0,6754 Predicted y – valoarea y prognozată pentru
5 25,5279 1,9721 0,8835
6 37,3342 -1,3342 -0,5978
observaţia respectivă; se obţine înlocuind valorile X
7 13,7215 0,3785 0,1696 ale observaţiei în modelul estimat.
8 25,0359 -2,7359 -1,2257
9 23,0682 -3,4682 -1,5538 Residuals – valoarea erorii de predicţie (diferenţa
10 31,4311 -0,1311 -0,0587
11 20,6085 3,3915 1,5194
dintre valoarea observată şi valoarea prognozată).
12 15,6892 1,6108 0,7217
13 40,2858 2,9142 1,3056 Standard Reziduals – valoarea standardizată a erorii.
14 33,8907 2,5093 1,1242 Este obţinută prin împărţirea reziduului la abaterea
15 28,9714 -2,8714 -1,2864
0,0000
standard a reziduurilor (rezultatul nu este susţinut
absolut riguros de teorie).

Curs 4+5

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 4+5

Încărcat de

Drepturi de autor:

Formate disponibile

ECONOMETRIE

TESTAREA VALIDITĂȚII MODELULUI DE REGRESIE

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

Validitatea modelului de regresie

În EXCEL, formula de calcul este =F.INV.RT(0,05;1;13)

respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid

15 1470,65  49,2  396,2

Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem

determinat pe baza eşantionului observat, este: [4,0709; 5,7678]

determinat pe baza eşantionului observat, este: [7,2096; 13,3463 ]

S-ar putea să vă placă și