Sunteți pe pagina 1din 7

Problema rezolvata - regresia liniară simplă

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul
unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta,
realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt
înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată
staţie de pompieri:

Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1

Cerintele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson;
5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut;
6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;
8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5
zeci de kilometri.

Rezolvaţi problema în Excel

REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)

1
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată

Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)

Corelograma

50.0

45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y

40.0
35.0

30.0

25.0
20.0

15.0
10.0

5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y  f  X  , o funcţie
liniară f x    0  1 X .
Modelul liniar de regresie este Y   0  1 X   .

În Excel, există modulul Data Analysis, opţiunea Regression.

Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se
lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data
Analysis şi apoi Regression.

2
În fereastra care va apare, trebuie:
- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de
valori corespunzătoare variabilei independente X (Input X Range),
- să specificaţi nivelul de încredere al testului, de obicei 95%,
- să precizaţi celula din foaia de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),
- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.

Output-ul este prezentat în tabelele următoare:

3
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,96098 = R = raportul de corelaţie
2
R Square 0,92348 = R = coeficientul de determinaţie
Adjusted R Square 0,91759
Standard Error 2,31635
Observations 15 = n = numărul de perechi de observaţii din eşantion

ANOVA
df SS MS F Significance F
Regression 1 841,766 841,766 156,886 1,25E-08
Residual 13 69,751 5,365
Total 14 911,52

Lower 95% Upper 95%


Standard (Limita inferioară (Limita superioară
Coefficients t Stat P-value
Error a intervalului a intervalului
de încredere 95%) de încredere 95%)

Intercept 10,2779=a 1,42 7,237 6,59E-06 7,21 13,34

X Variable 1 4,9193=b 0,39 12,525 1,25E-08 4,07 5,76

2. Pe baza datelor din eşantion, determinaţi coeficienţii modelului de regresie adecvat analizei
dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;

Dreapta de regresie este data de ecuaţia yˆ  10,2779  4,9193  x ,


iar valorile ajustate ale observaţiilor yi , i  1,15 prin regresie sunt
yˆ i  b0  b1  xi  10,2779  4,9193  xi , i  1,15 .

Interpretarea valorilor coeficienţilor


 b1 arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă distanţa dintre incediu şi
staţia de pompieri creşte cu o unitate, adică 10 km (b arata cu cat se modifica, in medie, nivelul
variabilei dependente, daca nivelul variabilei independente creste cu o unitate);
 b0 arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri (a arata nivelul mediu al variabilei dependente, daca nivelul variabilei independente
ar fi egal cu 0; a nu are intotdeauna interpretare economica).

3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;

Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru
care ipoteza nula “ H 0 : modelul de regresie nu este valid statistic” poate fi respinsa.
Daca  este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
 daca Significan ce F   , atunci nu exista suficiente motive sa respingen ipoteza nula H 0 ,
adica acceptam H 0 , rezultatul nu este semnificativ statistic, adica
modelul de regresie nu este valid statistic;
 daca Significan ce F   , atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta ipoteza
alternativa H 1 , adica rezultatul este semnificativ statistic, ceea ce

4
inseamna ca modelul de regresie este valid statistic sau este corect
specificat.

In cazul nostru, nivelul de semnificatie al testului este   0,05 , iar Significance F = 1,25E-08 =
0,0000000125, deci Significan ce F   , prin urmare respingem H0 si acceptam H1 ca modelul de
regresie este valid sau semnificativ statistic.

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson

rxy  CORREL (vector _ X , vector _ Y )  0,96098   1;1

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de +1, arată că între cele
două variabile există o legătura liniară directă şi puternică.

In EXCEL se utilizeaza functia CORREL pentru determinarea coeficientului de corelaţie Pearson.

5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut;

Raportul de corelaţie
R  0,96098  0;1
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.

Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de corelatie
liniara Pearson rxy exista urmatoarea relatie
 R, daca b  0
rxy   .
 R, daca b  0

6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;

Coeficientul de determinaţie este R 2  0,9235 sau R 2  0,96098 2  0,9235 şi arată că 92,35% (adică
R2%) din variaţia totală a prejudiciului cauzat de incendii este explicată de variaţia variabilei independente
(distanţa între locul incendiului şi staţia de pompieri).

7. Testatii parametrii modelului de regresie, determinaţi si interpretati intervalele de încredere 95%


pentru parametrii modelului;

P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa.
Daca  este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
 daca P value   , atunci nu exista suficiente motive sa respingen ipoteza nula H 0 , adica
acceptam H 0 , rezultatul nu este semnificativ statistic;
 daca P value   , atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta ipoteza
alternativa H 1 , adica rezultatul este semnificativ statistic.

In cazul nostru, nivelul de semnificatie este   0,05 .


Pentru parametrul  0 , P value  6,59E 06  6,59 10 6  0,00000659 , deci P value   , prin urmare
respingen ipoteza nula H 0 :  0  0 si acceptam ipoteza alternativa H 1 :  0  0 , adica parametrul  0 este
semnificativ statistic.
5
Pentru parametrul 1 , P value  1,25E 08  1,25 10 8  0,0000000125 , deci P value   , prin urmare,
respingen ipoteza nula H 0 : 1  0 si acceptam ipoteza alternativa H 1 : 1  0 , adica parametrul panta 1 este
semnificativ statistic.

Intervalul de încredere (1-α)·100% = 95% pentru parametrul  0 al modelului linear de regresie


Y   0  1 X   , determinat pe baza eşantionului observat, este:
b0  t   sb 0  0  b0  t   sb 0
;n  2 ;n  2 ,
 2   2 
limita inferioaraa intervalului limita superioara a intervalului
de incredere(1-' )100% de incredere(1- )100%
a parametrului  0 a parametrului  0

unde sb0 este eroarea standard a estimatorului b0.


În cazul nostru, b0 =10,2779, sb0=1,42, α=0,05, t  ;n 2  t 0,05;13  2,160 , deci intervalul [7,21; 13,34]
2 2

acoperă valoarea adevărată a parametrului  0 cu probabilitatea 0,95, adică intervalul de valori [7,21;
13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă
staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul  0 nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru  0 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α)·100% = 95% pentru parametrul β1 al modelului linear de


regresie Y   0  1 X   , determinat pe baza eşantionului observat, este:
b1  t  '  sb1  1  b1  t  '  sb 1
;n  k 1 ;n  k 1 ,
 2
   2
 
limita inferioaraa intervalului limita superioara a intervalului
de incredere(1-α)100% de incredere(1- )100%
a parametrului β1 a parametrului 1
unde sb este eroarea standard a estimatorului b.
În cazul nostru, b1=4,9193, sb1=0,39, α=0,05, t  ;nk 1  t 0,05;13  2,160 , deci intervalul [4,07; 5,76]
2 2
acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine
mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76]
mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5
zeci de kilometri.

yˆ i  b0  b1  xi  10,2779  4,9193  6.5  42.25

RESIDUAL OUTPUT

Predicted Y Residuals
Observation
yˆ i  10,2779  4,9193  xi ei  yi  yˆ i
6
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714

50
Valoarea prejudiciului, in mii Eur (variabila Y)

45 y = 4.9193x + 10.278
R2 = 0.9235
40

35

30
valorile observate yi
25 valorile estimate ale lui yi
Linear (valorile observate yi)
20

15

10

0
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)

S-ar putea să vă placă și