Sunteți pe pagina 1din 32

ECONOMETRIE

TESTAREA VALIDITĂȚII MODELULUI DE REGRESIE


LINIARĂ LA UN PRAG DE SEMNIFICAŢIE DE 5%
Situația economică
O firmă vrea să găsească o legătură între valoarea prejudiciului
provocat de secetă și distanța dintre parcele şi cea mai
apropiată staţie de pompare a apei. Pentru aceasta, realizează
un studiu, într-o anumită regiune, luând în considerare 15
parcele. Sunt înregistrate date referitoare la valoarea
prejudiciului şi distanţa dintre parcela şi cea mai apropiată staţie
de pompare a apei:
Nr. Distanta fata de statia de Valoarea prejudiciului (mii
crt. pompare (zeci km) Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Variabilele modelului
Variabilele sunt:
x – variabila care arată distanţa dintre parcela şi cea mai apropiată
staţie de pompare a apei, exprimată în zeci de km
(variabila independentă sau variabila explicativă sau variabila
exogenă)
y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila
endogenă)
Corelograma
Corelograma
50.0000

45.0000

40.0000

35.0000

30.0000

25.0000

20.0000

15.0000

10.0000

5.0000

0.0000
0.0000 1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000
Stabilirea legăturii dintre variabile
Corelograma sugerează că există legătură directă şi
liniară între cele două variabile. Există o funcţie f astfel
încât variabila x explică variabila y prin funcţia f, y=f(x), o
funcție liniară f=ax+b.
Modelul liniar de regresie este y= ax+b+ε.
Calculăm estimatorii â și
Nr. crt. x y
xt-xmediu yt-ymediu (xt-xmediu)(yt-ymediu) (xt-xmediu)^2
1 3,4000 26,2000 0,1200 -0,2133 -0,0256 0,0144
2 1,8000 17,8000 -1,4800 -8,6133 12,74773333 2,1904
3 4,6000 31,3000 1,3200 4,8867 6,4504 1,7424
4 2,3000 23,1000 -0,9800 -3,3133 3,247066667 0,9604
5 3,1000 27,5000 -0,1800 1,0867 -0,1956 0,0324
6 5,5000 36,0000 2,2200 9,5867 21,2824 4,9284
7 0,7000 14,1000 -2,5800 -12,3133 31,7684 6,6564
8 3,0000 22,3000 -0,2800 -4,1133 1,151733333 0,0784
9 2,6000 19,6000 -0,6800 -6,8133 4,633066667 0,4624
10 4,3000 31,3000 1,0200 4,8867 4,9844 1,0404
11 2,1000 24,0000 -1,1800 -2,4133 2,847733333 1,3924
12 1,1000 17,3000 -2,1800 -9,1133 19,86706667 4,7524
13 6,1000 43,2000 2,8200 16,7867 47,3384 7,9524
14 4,8000 36,4000 1,5200 9,9867 15,17973333 2,3104
15 3,8000 26,1000 0,5200 -0,3133 -0,162933333 0,2704
TOTAL 49,2000 396,2000    171,114 34,7840
MEDIE 3,2800 26,4133
Ecuația de regresie
Interpretare rezultate
Interpretarea valorilor coeficienţilor
a arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă
distanţa dintre parcelă şi staţia de pompare creşte cu o unitate, adică 10 km (b
arata cu cat se modifica, in medie, nivelul variabilei dependente, daca nivelul
variabilei independente creste cu o unitate);
b arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă
parcela ar fi lângă staţia de pompare (a arata nivelul mediu al variabilei
dependente, daca nivelul variabilei independente ar fi egal cu 0; a nu are
intotdeauna interpretare economică).
Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele
, două ipoteze:
H0: modelul de regresie nu este valid statistic, cu alternativa
H1: modelul de regresie este valid statistic.

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

SSR
MSR k
F  ~ Fisherk ,n k 1
MSE SSE
n  k 1
Validitatea modelului de regresie
Unde:
MSR=media pătratelor datorate regresiei
MSE=media pătratelor datorate reziduurilor
SSR=suma pătratelor datorate regresiei
SSE=suma pătratelor datorate reziduurilor
k=numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem
un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă)
n=numărul de observații
Validitatea modelului de regresie
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului.
Dacă nu se specifică, vom considera în general că α=0,05 (sau α·100=5%),
iar 1-α=0,95 (sau (1-α)·100=95%).
Pentru calculul statisticii folosim tabelul ANOVA:
F22';kMSR
SSE
SST
SSR
MSE
MSR
F SSR
,n k 22SSE
s

222
yey1//ey
x/ x
ssFecalcMSE nnk2k  1
y/ x n nsk  1 22 2

  ekyˆyiii  yyyˆ i  
ii11

Validitatea modelului de regresie


Grade de Media pătratelor
libertate (MS- Mean of
Sursa Suma pătratelor Valoarea
variaţiei (SS-Sum of Squares)
(df - Squares)
statisticii F
Fcritic
degrees of Dispersiile
freedom) corectate
SSR MSR
MSR  F
MSE
F ';k ,nk 1
Datorată
SSR  2y / x  k
regresiei k sau sau
 
n 2
(Regression)   yˆ i  y 2y / x s y2 / x
i 1 s 2y / x  Fcalc 
k se2
SSE
MSE 
SSE  2e  n  k 1
Reziduală sau
n n–k–1
(Residual)    yi  yˆ i  2
2e
i 1 s e2 
n  k 1
SST  2y 
Totală n–1
 
n 2
  yi  y
i 1
Validitatea modelului de regresie
eeSSE ,396

yyyiy
y ,xiy2ˆi,20
SST
SSRˆ15
xy1515
yiiˆii i
2 y10 222 ˆ
22779
y
y  2 4,9193  xi
y /

  
e 
ˆiiyii  e396
y i0
 69
911,751
iiii1111841 ,52
76
Validitatea modelului de regresie
Validitatea modelului de regresie
ANOVA
Significance
  df SS MS F F
Regression 1,0000 841,7664 841,7664 156,8862 0,000000012
Residual 13,0000 69,7510 5,3655
Total 14,0000 911,5173     
Calcul F critic

Fcritic
F0,05;1,13  4,667

În EXCEL, formula de calcul este =F.INV.RT(0,05;1;13)


Validitatea modelului de regresie
Cum
Fcalc  156,89  4,667  Fcritic

respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid


statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
Măsurarea intensității legăturii dintre cele două
variabile folosind coeficientul liniar de corelaţie
Pearson
n n

 x  x  y
i i  y x y i i  n x  y
rxy  i 1
 i 1

n n
 n
2  n
2

 ix  x 2
 
 iy  y 2
  xi  n  x     yi  n  y 
2 2

i 1 i 1  i 1   i 1 
 n   n   n 
n    xi yi     xi     yi 
  i 1   i 1   i 1 
 n 2  n 2   n 2  n 2 
n xi    xi    n yi    yi  
 i 1  i 1    i 1  i 1  

15 1470,65  49,2  396,2


rxy   0,96098   1;1
2 2
15 196,16  49,2  15 11376 ,48  396,2
Măsurarea intensității legăturii dintre cele două variabile
folosind coeficientul liniar de corelaţie Pearson
Regression Statistics
Valoarea coeficientului de
Multiple R 0,96098 corelaţie Pearson,
R Square 0,92348 pozitivă şi foarte
apropiată de +1, arată că
Adjusted R Square 0,91759 între cele două variabile
Standard Error 2,31635 există o legătura liniară
directă şi puternică.
Observations 15
Raportul de corelație
Raportul de corelaţie, testarea validității acestuia şi interpretarea rezultatul obţinut.
SSR 2y / x 841,76
R    0,96098  0;1
SST 2y 911,52
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea
H0: Raportul de corelaţie este nesemnificativ statistic
(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
Raportul de corelație

Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem


ipoteza nulă H0 şi concluzionăm că raportul de corelaţie
este semnificativ diferit de zero, adică variabila X
(distanţa) are o influenţă semnificativă asupra variabilei
Y (prejudiciul).
Raportul de corelație
Observatțe: Pentru modelul de regresie liniara simpla,
între raportul de corelație R si coeficientul de corelație liniara Pearson rxy
există următoarea relație
 R, daca b  0
rxy   .
  R , daca b  0
Coeficientul de determinaţie
2
SSR  y/ x 841,76
R2   2   0,9235
SST y 911,52
2 2 2
sau R  0,96098  0,9235 şi arată că 92,35% (adică R %) din variaţia totală a prejudiciului cauzat de

incendii este explicată de variaţia variabilei independente (distanţa între locul parcelei şi staţia de
pompare).
Intervalul de încredere
Intervalul de încredere (1-α)·100% = 95% pentru parametrul a al modelului linear de regresie

determinat pe baza eşantionului observat, este: [4,0709; 5,7678]


Intervalul de încredere
Deci intervalul [4,07; 5,76] acoperă valoarea adevărată a parametrului a cu probabilitatea 0,95.
Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte
cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul a nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru a ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de încredere
Intervalul de încredere (1-α)·100% = 95% pentru parametrul b al modelului linear de regresie

determinat pe baza eşantionului observat, este: [7,2096; 13,3463 ]


Intervalul de încredere
Deci intervalul [7,21; 13,34] acoperă valoarea adevărată a parametrului b cu probabilitatea 0,95,
adică intervalul de valori [7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat, dacă
parcela este chiar lângă staţia de pompare a apei.
Cum intervalul de încredere 95% determinat pentru parametrul b nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru b ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Significance F
Nivelul de semnificatie observat sau calculat (Significance F), este cel mai mic nivel fixat de semnificatie al
testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru care ipoteza nula “H0 :
modelul de regresie nu este valid statistic” poate fi respinsa.
Daca α=0,05 este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
• dacă Significance F >α, atunci nu exista suficiente motive sa respingen ipoteza nula H0, adica acceptam
H0, rezultatul nu este semnificativ statistic, adica modelul de regresie nu este valid statistic;
• dacă Significance F <α, atunci se repinge ipoteza nula H0 si, prin urmare, se accepta ipoteza alternativa
H1, adica rezultatul este semnificativ statistic, ceea ce inseamna ca modelul de regresie este valid statistic sau
este corect specificat.

In cazul nostru, nivelul de semnificatie al testului este α=0,05, iar Significance F = 0,000000012, deci
Significance F <α, prin urmare respingem H0 si acceptam H1 ca modelul de regresie este valid sau semnificativ
statistic.
P value
P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului pentru care ipoteza nula H0 poate fi respinsă.
Daca α=0,05 este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
• dacă P value >α, atunci nu există suficiente motive să respingen ipoteza nulă H0, adică
acceptam H0, rezultatul nu este semnificativ statistic, adică modelul de regresie nu este valid
statistic;
• dacă P value <α, atunci se repinge ipoteza nula H0 și, prin urmare, se acceptă ipoteza
alternativă H1, adică rezultatul este semnificativ statistic, ceea ce înseamnă că modelul de
regresie este valid statistic sau este corect specificat.
P value
Pentru parametrul a, P Value=0,000000012, deci este ma mic decât α, prin urmare respingen
ipoteza nula H0 și acceptam ipoteza alternativă H1 , adică parametrul b este semnificativ
statistic.

Pentru parametrul b, P Value= 0,000006586, deci este ma mic decât α, prin urmare respingen
ipoteza nula H0 și acceptam ipoteza alternativă H1 , adică parametrul b este semnificativ
statistic.
Studiul reziduurilor
RESIDUAL OUTPUT Pentru fiecare observaţie (linie din tabelul de date
Observation Predicted Y Residuals Standard Residuals iniţial) se afişează:
1 27,0037 -0,8037 -0,3600
2 19,1327 -1,3327 -0,5971 Observation – numărul de ordine al observaţiei.
3 32,9068 -1,6068 -0,7199
4 21,5924 1,5076 0,6754 Predicted y – valoarea y prognozată pentru
5 25,5279 1,9721 0,8835
6 37,3342 -1,3342 -0,5978
observaţia respectivă; se obţine înlocuind valorile X
7 13,7215 0,3785 0,1696 ale observaţiei în modelul estimat.
8 25,0359 -2,7359 -1,2257
9 23,0682 -3,4682 -1,5538 Residuals – valoarea erorii de predicţie (diferenţa
10 31,4311 -0,1311 -0,0587
11 20,6085 3,3915 1,5194
dintre valoarea observată şi valoarea prognozată).
12 15,6892 1,6108 0,7217
13 40,2858 2,9142 1,3056 Standard Reziduals – valoarea standardizată a erorii.
14 33,8907 2,5093 1,1242 Este obţinută prin împărţirea reziduului la abaterea
15 28,9714 -2,8714 -1,2864
0,0000
standard a reziduurilor (rezultatul nu este susţinut
absolut riguros de teorie).

S-ar putea să vă placă și