Sunteți pe pagina 1din 7

Problema rezolvata - regresia liniar simpl

O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul
unei locuine i distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta,
realizeaz un studiu, ntr-o anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt
nregistrate date referitoare la valoarea prejudiciului i distana dintre incendiu i cea mai apropiat
staie de pompieri:

1.
2.
3.
4.
5.
6.
7.
8.

Nr. crt.

Distanta fata de statia de pompieri (zeci km)

Valoarea prejudiciului (mii Euro)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3,4
1,8
4,6
2,3
3,1
5,5
0,7
3,0
2,6
4,3
2,1
1,1
6,1
4,8
3,8

26,2
17,8
31,3
23,1
27,5
36,0
14,1
22,3
19,6
31,3
24,0
17,3
43,2
36,4
26,1

Cerintele sunt:
Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este
variabila explicativ i care este variabila explicat;
Pe baza datelor din eantion, determinai estimatiile coeficienilor modelului de regresie adecvat
analizei dependenei dintre cele dou variabile i interpretai valorile obinute;
Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;
Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie
Pearson;
Calculai raportul de corelaie i interpretai rezultatul obinut;
Calculati coeficientul de determinaie i interpretai rezultatul obinut;
Determinai si interpretati intervalele de ncredere 95% pentru parametrii modelului;
Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5
zeci de kilometri.

Rezolvai problema n Excel


REZOLVARE
1. Variabilele sunt:
X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat
n zeci de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)

1. Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este
variabila explicativ i care este variabila explicat
Corelograma
Sintaxa Excel:

Insert
Chart
XY(Scatter)

Corelograma sugereaz c exist legtur direct i liniar ntre cele dou variabile.
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f, Y f X , o funcie
liniar f x 0 1 X .
Modelul liniar de regresie este Y 0 1 X .
n Excel, exist modulul Data Analysis, opiunea Regression.
Astfel, ntr-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, n cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis i apoi Regression, dac se
lucreaz n Excel 2007. Dac avei la dispoziie Excel 2003, alegei din meniul principal Tools, apoi Data
Analysis i apoi Regression.

n fereastra care va apare, trebuie:


- s alegei care este irul de valori corespunztoare variabilei dependente Y (Input Y Range) i care este irul de
valori corespunztoare variabilei independente X (Input X Range),
- s specificai nivelul de ncredere al testului, de obicei 95%,
- s precizai celula din foaia de lucru ncepnd cu care se vor afia rezultatele, adic outputul (Output Range),
- s bifai opiunea Residuals i, opional, Line Fit Plots.

Output-ul este prezentat n tabelele urmtoare:

SUMMARY OUTPUT
Regression Statistics
0,96098 = R
Multiple R
0,92348 = R2
R Square

= raportul de corelaie
= coeficientul de determinaie

Adjusted R Square
Standard Error
Observations

= numrul de perechi de observaii din eantion

0,91759
2,31635
15 = n

ANOVA
df
Regression
Residual
Total

SS
1
13
14

Coefficients

MS
841,766
5,365

841,766
69,751
911,52

Standard
Error

t Stat

P-value

F
156,886

Significance F
1,25E-08

Lower 95%
(Limita inferioar
a intervalului
de ncredere 95%)

Upper 95%
(Limita superioar
a intervalului
de ncredere 95%)

Intercept

10,2779=a

1,42

7,237

6,59E-06

7,21

13,34

X Variable 1

4,9193=b

0,39

12,525

1,25E-08

4,07

5,76

2. Pe baza datelor din eantion, determinai coeficienii modelului de regresie adecvat analizei
dependenei dintre cele dou variabile i interpretai valorile obinute;
Dreapta de regresie este data de ecuaia y 10,2779 4,9193 x ,
iar valorile ajustate ale observaiilor yi , i 1,15 prin regresie sunt
y i b0 b1 xi 10,2779 4,9193 xi , i 1,15 .
Interpretarea valorilor coeficienilor
b1 arat c valoarea prejudiciului crete, in medie, cu 4,9193 mii euro dac distana dintre incediu i
staia de pompieri crete cu o unitate, adic 10 km (b arata cu cat se modifica, in medie, nivelul
variabilei dependente, daca nivelul variabilei independente creste cu o unitate);
b0 arat c valoarea prejudiciului este, n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng
staia de pompieri (a arata nivelul mediu al variabilei dependente, daca nivelul variabilei independente
ar fi egal cu 0; a nu are intotdeauna interpretare economica).
3. Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;
Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru
care ipoteza nula H 0 : modelul de regresie nu este valid statistic poate fi respinsa.
Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca Significance F ,
atunci nu exista suficiente motive sa respingen ipoteza nula H 0 ,
adica acceptam H 0 , rezultatul nu este semnificativ statistic, adica
modelul de regresie nu este valid statistic;
Significan
ce
F

daca
,
atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta
ipoteza alternativa H 1 , adica rezultatul este semnificativ statistic,
ceea ce inseamna ca modelul de regresie este valid statistic sau este
corect specificat.
4

In cazul nostru, nivelul de semnificatie al testului este 0,05 , iar Significance F = 1,25E-08 =
0,0000000125, deci Significance F , prin urmare respingem H0 si acceptam H1 ca modelul de regresie
este valid sau semnificativ statistic.
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie
Pearson
rxy CORREL(vector _ X , vector _ Y ) 0,96098 1;1

Valoarea coeficientului de corelaie Pearson, pozitiv i foarte apropiat de +1, arat c ntre cele
dou variabile exist o legtura liniar direct i puternic.
In EXCEL se utilizeaza functia CORREL pentru determinarea coeficientului de corelaie Pearson.

5. Calculai raportul de corelaie i interpretai rezultatul obinut;


Raportul de corelaie

R 0,96098 0;1

Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de corelatie
liniara Pearson rxy exista urmatoarea relatie

R, daca b 0
rxy
.
R, daca b 0
6. Calculati coeficientul de determinaie i interpretai rezultatul obinut;
Coeficientul de determinaie este R 2 0,9235 sau R 2 0,96098 2 0,9235 i arat c 92,35% (adic
R2%) din variaia total a prejudiciului cauzat de incendii este explicat de variaia variabilei independente
(distana ntre locul incendiului i staia de pompieri).
7. Testatii parametrii modelului de regresie, determinai si interpretati intervalele de ncredere 95%
pentru parametrii modelului;
P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa.
Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca P value ,
atunci nu exista suficiente motive sa respingen ipoteza nula H 0 , adica
acceptam H 0 , rezultatul nu este semnificativ statistic;
daca P value ,
atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta ipoteza
alternativa H 1 , adica rezultatul este semnificativ statistic.
In cazul nostru, nivelul de semnificatie este 0,05 .
Pentru parametrul 0 , P value 6,59E 06 6,59 10 6 0,00000659 , deci P value , prin
urmare respingen ipoteza nula H 0 : 0 0 si acceptam ipoteza alternativa H 1 : 0 0 , adica parametrul 0 este
semnificativ statistic.

Pentru parametrul 1 , P value 1,25E 08 1,25 10 8 0,0000000125 , deci P value , prin


urmare, respingen ipoteza nula H 0 : 1 0 si acceptam ipoteza alternativa H 1 : 1 0 , adica parametrul panta
1 este semnificativ statistic.

Intervalul de ncredere (1-)100% = 95% pentru parametrul 0 al modelului linear de regresie


Y 0 1 X , determinat pe baza eantionului observat, este:

b0 t sb 0
;n 2
2

limita inferioara a intervalului


de incredere (1-' )100%
a parametrului 0

b0 t sb 0
;n 2
2

limita superioara a intervalului
de incredere (1- )100%
a parametrului 0

unde sb0 este eroarea standard a estimatorului b0.

t
t 0, 05 2,160 , deci intervalul [7,21;
;13
n cazul nostru, b0 =10,2779, sb0=1,42, =0,05, 2 ;n 2
2
13,34] acoper valoarea adevrat a parametrului 0 cu probabilitatea 0,95, adic intervalul de valori
[7,21; 13,34] mii Eur acoper nivelul prejudiciului provocat de incendiu, dac acesta se produce chiar
lng staia de pompieri.
Cum intervalul de ncredere 95% determinat pentru parametrul 0 nu acoper valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru 0 ar fi acoperit, adic ar fi coninut, i valoarea 0,
atunci concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de ncredere (1-)100% = 95% pentru parametrul 1 al modelului linear de regresie


Y 0 1 X , determinat pe baza eantionului observat, este:

b1 t '
sb1 1 b1 t '
sb 1
;n k 1
;n k 1
2
2


limita inferioara a intervalului
de incredere (1-)100%
a parametrului 1

limita superioara a intervalului


de incredere (1- )100%
a parametrului 1

unde sb este eroarea standard a estimatorului b.

t
t 0 , 05 2,160 , deci intervalul [4,07;
;13
n cazul nostru, b1=4,9193, sb1=0,39, =0,05, 2 ;n k 1
2
5,76] acoper valoarea adevrat a parametrului cu probabilitatea 0,95. Cu alte cuvinte, dac distana
devine mai mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul
[4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea 0, atunci
putem spune c acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru 1 ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

8. Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5
zeci de kilometri.

y i b0 b1 xi 10,2779 4,9193 6.5 42.25

RESIDUAL OUTPUT
Predicted Y

Observation

y i 10,2779 4,9193 xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Residuals

ei yi y i

27,0037
19,1327
32,9068
21,5924
25,5279
37,3342
13,7215
25,0359
23,0682
31,4311
20,6085
15,6892
40,2858
33,8907
28,9714

-0,8037
-1,3327
-1,6068
1,5076
1,9721
-1,3342
0,3785
-2,7359
-3,4682
-0,1311
3,3915
1,6108
2,9142
2,5093
-2,8714