Documente Academic
Documente Profesional
Documente Cultură
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul
unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta,
realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt
înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată
staţie de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson;
5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut;
6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;
8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5
zeci de kilometri.
REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
1
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma
50.0
45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y
40.0
35.0
30.0
25.0
20.0
15.0
10.0
5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y f X , o funcţie
liniară f x 0 1 X .
Modelul liniar de regresie este Y 0 1 X .
Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se
lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data
Analysis şi apoi Regression.
2
În fereastra care va apare, trebuie:
- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de
valori corespunzătoare variabilei independente X (Input X Range),
- să specificaţi nivelul de încredere al testului, de obicei 95%,
- să precizaţi celula din foaia de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),
- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.
3
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaţie
R Square 0,92348 = R2 = coeficientul de determinaţie
Adjusted R Square 0,91759
Standard Error 2,31635
Observations 15 = n = numărul de perechi de observaţii din eşantion
ANOVA
df SS MS F Significance F
Regression 1 841,766 841,766 156,886 1,25E-08
Residual 13 69,751 5,365
Total 14 911,52
2. Pe baza datelor din eşantion, determinaţi coeficienţii modelului de regresie adecvat analizei
dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru
care ipoteza nula “ H 0 : modelul de regresie nu este valid statistic” poate fi respinsa.
Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca Significance F , atunci nu exista suficiente motive sa respingen ipoteza nula H 0 ,
adica acceptam H 0 , rezultatul nu este semnificativ statistic, adica
modelul de regresie nu este valid statistic;
daca Significance F , atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta
ipoteza alternativa H 1 , adica rezultatul este semnificativ statistic,
ceea ce inseamna ca modelul de regresie este valid statistic sau este
corect specificat.
4
In cazul nostru, nivelul de semnificatie al testului este 0,05 , iar Significance F = 1,25E-08 =
0,0000000125, deci Significance F , prin urmare respingem H0 si acceptam H1 ca modelul de regresie
este valid sau semnificativ statistic.
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson
Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de +1, arată că între cele
două variabile există o legătura liniară directă şi puternică.
Raportul de corelaţie
R 0,96098 0;1
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de corelatie
liniara Pearson rxy exista urmatoarea relatie
R , daca b 0
rxy
R , daca b 0 .
Coeficientul de determinaţie este R 2 0,9235 sau R 2 0,96098 2 0,9235 şi arată că 92,35% (adică
R2%) din variaţia totală a prejudiciului cauzat de incendii este explicată de variaţia variabilei independente
(distanţa între locul incendiului şi staţia de pompieri).
P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa.
Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca P value , atunci nu exista suficiente motive sa respingen ipoteza nula H 0 , adica
acceptam H 0 , rezultatul nu este semnificativ statistic;
daca P value , atunci se repinge ipoteza nula H 0 si, prin urmare, se accepta ipoteza
alternativa H 1 , adica rezultatul este semnificativ statistic.
5
Intervalul de încredere (1-α)·100% = 95% pentru parametrul 0 al modelului linear de regresie
Y 0 1 X , determinat pe baza eşantionului observat, este:
b0 t
2
;n 2
sb 0 0
lim ita in fe rioa ra a in te rv alul u i lim i
d e inc re d ere (1 -'
a p aram e trulu i
)1 0 0%
0 d
,
unde sb0 este eroarea standard a estimatorului b0.
t t 0, 05 2,160 , deci intervalul [7,21;
În cazul nostru, b0 =10,2779, sb0=1,42, α=0,05, 2 ;n 2 2
;13
13,34] acoperă valoarea adevărată a parametrului 0 cu probabilitatea 0,95, adică intervalul de valori
[7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar
lângă staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul 0 nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru 0 ar fi acoperit, adică ar fi conţinut, şi valoarea 0,
atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
,
unde sb este eroarea standard a estimatorului b.
t t 0 , 05 2,160 , deci intervalul [4,07;
În cazul nostru, b1=4,9193, sb1=0,39, α=0,05, 2 ;n k 1 2
;13
5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa
devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul
[4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5
zeci de kilometri.
RESIDUAL OUTPUT
Predicted Y Residuals
Observation yˆ i 10,2779 4,9193 xi ei yi yˆ i
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
6
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
50
Valoarea prejudiciului, in mii Eur (variabila Y)
45 y = 4.9193x + 10.278
2
R = 0.9235
40
35
30
valorile observate yi
25 valorile estimate ale lui yi
Linear (valorile observate yi)
20
15
10
0
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)