Sunteți pe pagina 1din 7

REGRESIA LINIARĂ SIMPLĂ

Problemă rezolvată

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi
distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-
o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la
valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri (zeci km). In
urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:

Regression Statistics
Multiple R 0,9609
R Square …
Adjusted R Square …
Standard Error …
Observations …

ANOVA
df SS MS F Significance F
Regression … … … … 0,000000012
Residual … 69,7509 …
Total … …

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept … 1,4202 7,2365 0,000007 … …
Distanta
(zeci km) … 0,3927 … 0,000000012 … 5,7678

a) Determinaţi modelul de regresie liniara in esantion si interpretaţi valorile estimatorilor parametrilor


modelului;
b) Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie (α) de 5% (pentru o probabilitate
de 95%, pentru care Fcritic=4,67);
c) Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de semnificaţie de
5% (tcritic=2,16);
d) Determinaţi intervalele de încredere 95% pentru parametrii modelului; interpretati rezultatele.
e) Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
f) Măsuraţi intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie; testaţi semnificaţia
statistică a indicatorului.
g) Identificaţi matricea de corelaţie. Interpretaţi valoarea indicatorului utilizat şi testaţi semnificaţia acestuia.
h) Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de
kilometri.

Rezolvare:

a) Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci
de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
n = 15
k = 1 (numărul de variabile independente)
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y  f  X  , o funcţie liniară
f  x    0   1  x . Modelul liniar de regresie la nivelul populatiei totale este y i   0  1 xi   i .

 0 ,  1 reprezinta parametrii modelului (primul se numeste “interceptie” sau termenul liber si reprezinta
punctual de intersectie al dreptei de regresie cu axa OY.; al doilea este panta dreptei de regresie).
Modelul liniar de regresie la nivelul esantionului este y i  b0  b1 xi  ei .
b0 ,b1 sunt estimatorii parametrilor  0 ,  1 .
Ecuaţia de regresie liniară este:

yˆ i  b0  b1  xi
Trebuie identificate valorile celor doi estimatori.
Notăm indicatorii daţi în tabelele iniţiale:

Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = ……... coeficientul de determinaţie
coeficientul de determinaţie
Adjusted R Square = ……... ajustat
Standard Error Se= MSE = … abaterea standard a erorilor
Observations n = 15 volumul eşantionului

ANOVA
df SS MS F Significance F
Regression k=1 SSR = ……..… MSR = …….. Fcalc = …….. 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = …..…
Total n-1 = 14 SST = ………..

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = ……… 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = ……… U(β0) = ………
Distanta sb1 =
(zeci km) b1 = ……… 0,3927 tcalc(β1) = ……… 0,000000012 L(β1) = ……… U(β1) = 5,7678

În Tabelul 3:

b0 b0
t calc  ; 7,2365   b0  7,23651,4202  10,2779
sb0 1,4202

U 1   b1  t crit  sb1  5,7678  b1  2,16  0,3927  b1  4,9193

Prin urmare dreapta de regresie este de ecuaţie yˆ i  10,2779  4,9193 xi , i  1,15


iar ŷi reprezinta valorile ajustate ale observaţiilor yi , i  1,15 , determinate prin modelul de regresie.

Interpretarea valorilor coeficienţilor


 b1 arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de pompieri
creşte cu o unitate, adică cu 10 km. In plus, pt. ca b1>0, rezulta ca legatura dintre cele două variabile este
directa. Daca b1 ar fi fost negativ (b1<0), legatura era inversă.
 b0 arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia
de pompieri (adica daca distanta ar fi 0 km.).

Coefficients
Intercept b0 = 10,2779
Distanta (zeci km) b1 = 4,9193

b) Testarea validităţii modelului de regresie:


Ipotezele sunt:

Pentru testarea validităţii modelului se formulează cele două ipoteze:


H0: MSR = MSE (modelul de regresie nu este valid)
H1: MSR > MSE (modelul de regresie este valid)
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este Statistica F.

Pentru calculul statisticii Fcalc folosim tabelul ANOVA:

ANOVA
df
(Numărul de MS F
grade de SS (Dispersie (Valoarea calculată a
libertate) (Varianţa) corectată) testului F) Significance F
Regression k=1 SSR = ……….. MSR = ………… Fcalc = ………….. 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = …………
Total n-1 = 14 SST = ………..

Relatiile de calcul sunt:

R = 0,9609 → R2 = 0,9234= → 0,9234= → SST = 911,5173


SSR = SST – SSE = 911,5173 - 69,7509 = 841,7664

SSR 841,7664
MSR    841,7664 (dispersia corectata de regresie)
k 1
k reprezintă numărul de variabile independente (k = 1, deoarece există o singură variabilă independentă, şi
anume Distanţa până la staţia de pompieri).
SSE 69,7509
MSE    5,3654 (dispersia corectata reziduala sau a erorilor)
n  k 1 13
MSR 841,7664
Fcalc    156,8861 (Valoarea calculată a testului F)
MSE 5,3654
Regula de decizie: dacă Fcalc  Fcritic  Fcrit , adică Fcalc se găseşte în regiunea critică, atunci respingem
H0 şi acceptăm H1, adică modelul de regresie este valid statistic. (unde Fcrit este valoarea critica a testului F)

Cum Fcalc  156,89  4,667  Fcritic sau Significance F < 0.05 (F


critic se determina cu functia Excel
FINV(0.05;1;13)) respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic (modelul
este semnificativ statistic sau modelul este corect specificat).
Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia:
100-SignificanceF%=99,999….>95%.
Tabelul ANOVA completat este:

ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173

c) Testarea semnificatiei parametrului  0 (parametrul intercepţie) al modelului de regresie

H0:  0 =0 (parametrul  0 nu este semnificativ statistic)


H1:  0 ≠0 (parametrul  0 este semnificativ statistic, adică semnificativ diferit de 0)
b0 10,2779
t calc    7,2365. (t se gaseste in coloana „t Stat” din tabelul nr. 3. obtinut in
sb0 1,4202 calc

Excel)
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul  0 este semnificativ statistic (tcritic =2,16 este
dat in textul problemei).

In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 şi concluzionăm ca  0 este semnificativ
statistic.
Probabilitatea maxima pt. care putem sustine ca  0 este semnificativ statistic se determina cu relatia:
100-p-value(α )%=99,999….>95%.

Testarea semnificaţiei parametrului 1 al modelului linear de regresie

H0: 1 =0 (parametrul 1 nu este semnificativ statistic)


H1: 1 ≠0 (parametrul 1 este semnificativ statistic, adică semnificativ diferit de 0)
b 4,9193
t calc  1   12,525 , (t se gaseste in coloana „t Stat” din tabelul nr. 3. obtinut in
sb1 0,3927 calc

Excel).
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul 1 este semnificativ statistic (tcritic =2,16 este
dat in textul problemei).

In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 şi concluzionăm ca 1 este semnificativ
statistic.
Probabilitatea maxima pt. care putem sustine ca 1 este semnificativ statistic se determina cu relatia:
100-p-value(β )%=99,999….>95%.
d)
Intervalele de încredere ale parametrilor modelului:

Intervalul de încredere garantata cu probabilitatea: (1-α)·100% = 95% pentru parametrul  0 al


modelului linear de regresie, determinat pe baza eşantionului observat, este:
b0  tcrit  sb0  0  b0  tcrit  sb0
  ,
limita inferioara a intervalului limita superioara a intervalului
de incredere de incredere
al parametrul ui 0 al parametrul ui 0
L ( 0 ) U ( 0 )
unde Sb0 este eroarea standard a estimatorului b0.
În cazul nostru, b0=10,2779, Sb0=1,4202, α=0,05 (nivelul de semnificatie), t crit  2,16 , deci intervalul
[7,2096; 13,3462] acoperă valoarea adevărată a parametrului  0 cu probabilitatea 0,95 (95%), adică intervalul
de valori [7,2096; 13,3462] mii Eur acoperă nivelul mediu al prejudiciului provocat de incendiu, dacă acesta se
produce chiar lângă staţia de pompieri.
Interpretare: dacă incendiul se produce lângă staţia de pompieri, valoarea medie a prejudiciului este
între 7,2096 şi 13,3462 mii EUR.
Cum ambele limite ale intervalului de încredere pentru parametrul  0 sunt pozitive, intervalul nu
include şi valoarea 0, atunci putem spune ca parametrul  0 este semnificativ diferit de 0 sau este semnificativ
statistic.
Dacă însă, intervalul de încredere pentru  0 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α)·100% = 95% pentru parametrul 1 al modelului linear de regresie,


determinat pe baza eşantionului observat, este:
b1  tcrit  sb1  1  b1  tcrit  sb1
  ,
limita inferioara a intervalului limita superioara a intervalului
de incredere de incredere
al parametrul ui 1 al parametrul ui 1
L ( 1 ) U ( 1 )
unde Sb1 este eroarea standard a estimatorului b1.

În cazul nostru, b1=4,9193, sb1=0,3927, α=0,05, t crit  2,16 , deci intervalul [4,0708; 5,7678] acoperă
valoarea adevărată a parametrului 1 cu probabilitatea 0,95 (95%). Cu alte cuvinte, dacă distanţa creşte cu o
unitate (1 zeci km = 10 km), nivelul prejudiciului creşte în medie cu o valoare cuprinsă între 4,0708 şi 5,7678
mii Eur, cu o probabilitate de 0,95 (95%).
Cum ambele limite ale intervalului de încredere pentru parametrul 1 au acelaşi semn (sunt pozitive) ,
intervalul nu include valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ
statistic.
Dacă însă, intervalul de încredere pentru 1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Tabelul 3 devine:

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = 7,2096 U(β0) = 13,3462
Distanta sb1 =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 L(β1) = 4,0708 U(β1) = 5,7678

e) Coeficientul de determinaţie este R 2  0,9235 sau R 2  0,960982  0,9235 şi arată că 92,35%


2
(adică R %) din variaţia totală a prejudiciului cauzat de incendii este explicată de variaţia variabilei
independente (distanţa între locul incendiului şi staţia de pompieri) sau „este explicată de modelul de
regresie). Indicatorul se gaseste in primul tabel Excel, sub denumirea de „R Square”.
Restul până la 100% (adică 7,65%) arată cât la sută din variaţia totală a prejudiciului cauzat de incendii este
explicată de variaţia altor factori de influenţă, în afară de distanţa între locul incendiului şi staţia de pompieri
sau „cât la sută .... nu este explicată de modelul de regresie).

f) Intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie.


R  0,9609
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”.
Legatura este puternica deoarece R are o valoare apropiata de 1.
Testarea semnificaţiei Raportului de corelaţie:

Se formulează ipotezele:
H0: R = 0 (R nu este semnificativ statistic)
H1: R > 0 (R este semnificativ statistic)

Unde R reprezintă raportul de corelaţie în populaţia totală, iar R este raportul de corelaţie în eşantion.

Se foloseşte testul F:

(vezi tabel ANOVA), cum Fcalc > Fcrit rezulta ca respingem H0, acceptam H1, indicatorul este semnificativ
statistic.

g) Matricea de corelaţie are următoarea formă:

Distanţa (X) Valoarea prejudiciului (Y)


Distanţa (X) 1
Valoarea prejudiciului (Y) rxy 1

unde rxy reprezintă coeficientul de corelaţie liniară Pearson în eşantion. În cazul legăturii liniare, raportul de
corelatie este egal cu coeficientul de corelatie liniara Pearson (în expresie absolută), adică
R  rxy
Cum R = 0,96 şi b1>0 rezultă că rxy = 0,96, indicând o legătură direct şi puternică între variabile.

Correlation Matrix
Distanţa (X) Valoarea prejudiciului (Y)
Distanţa (X) 1
Valoarea prejudiciului (Y) 0,96 1

Testarea semnificaţiei coeficientului de corelaţie liniară:

Se formulează ipotezele:

H0: ρ = 0 (ρ nu este semnificativ statistic)


H1: ρ ≠ 0 (ρ este semnificativ statistic)

unde ρ este coeficientul de corelaţie liniară în populaţia totală.


Se foloseşte testul t:

(vezi tcalc(β1) = 12,525 din tabelul 3 Excel); cum tcalc > tcrit rezulta ca respingem H0, acceptam H1, indicatorul este
semnificativ statistic.

g). În modelul de regresie liniară yˆ i  b0  b1  xi  10,2779  4,9193 xi , i  1,15 înlocuim pe xi cu


valoarea de 6,5, obţinându-se valoarea corespunzătoare a lui Y:
yˆ i  10,2779  4,9193 6,5  42,25
zeci mii euro.

Tabelele completate:

Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = 0,9234 coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error Se= MSE = 2,3163 abaterea standard a erorilor
Observations n = 15 volumul eşantionului

ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = 7,2096 U(β0) = 13,3462
Distanta sb1 =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 L(β1) = 4,0708 U(β1) = 5,7678