Documente Academic
Documente Profesional
Documente Cultură
O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul
unei locuine i distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta,
realizeaz un studiu, ntr-o anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt
nregistrate date referitoare la valoarea prejudiciului i distana dintre incendiu i cea mai apropiat staie
de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este variabila
explicativ i care este variabila explicat;
2. Pe baza datelor din eantion, determinai coeficienii modelului de regresie adecvat analizei dependenei
dintre cele dou variabile i interpretai valorile obinute;
3. Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson;
5. Calculai raportul de corelaie, testai semnificaia (validitatea) acestuia i interpretai rezultatul obinut;
6. Calculati coeficientul de determinaie i interpretai rezultatul obinut;
7. Testati ipotezele referitoare la semnificaia parametrilor modelului de regresie, la un nivel de
semnificaie de 5%;
8. Determinai intervalele de ncredere 95% pentru parametrii modelului;
9. Rezolvai problema n Excel;
10. Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5 zeci
de kilometri.
REZOLVARE
1. Variabilele sunt:
X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat n
zeci de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
1
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
V
a
l
o
r
i
l
e
v
a
r
i
a
b
i
l
e
i
d
e
p
e
n
d
e
n
t
e
Y
(
v
a
l
o
a
r
e
a
p
r
e
j
u
d
i
c
i
u
l
u
i
,
i
n
m
i
i
E
u
r
)
Corelograma sugereaz c exist legtur direct i liniar ntre cele dou variabile.
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f, ( ) X f Y , o funcie
liniar ( ) x x f + .
Modelul liniar de regresie este
+ + X Y
.
2. Coeficienii modelului de regresie linir simpl
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor dou variabile, X i Y, obinndu-se
astfel seria de date
( ) ( ) ( ) { }
n n
y x y x y x , ,..., , , ,
2 2 1 1
sau ( ) { } n i y x
i i
, 1 , , . Pe baza acestui eantion vom
determina estimatorii a i b ai parametrilor
'
+
+
n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
y x x b x a
y x b na
1 1
2
1
1 1
Rezolvarea sistemului folosind metoda determinanilor:
a
a si
b
b ,
unde
n
i
i
n
i
i
n
i
i
x x
x n
1
2
1
1
este determinantul matricei sistemului de ecuaii,
iar
n
i
i
n
i
i i
n
i
i
n
i
i
a
x y x
x y
1
2
1
1 1
,
n
i
i i
n
i
i
n
i
i
b
y x x
y n
1 1
1
sunt minorii corespunztori celor dou necunoscute.
2
'
,
_
,
_
,
_
,
_
,
_
,
_
,
_
,
_
,
_
,
_
,
_
2
1 1
2
1 1 1
2
1 1
2
1 1 1
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
b
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
a
x x n
y x y x n
b
x x n
y x x x y
a
Calculele intermediare sunt prezentate n tabelul de mai jos:
Valorile xi ale
variabilei X
Valorile yi ale
variabilei Y
( )
2
i
x ( )
2
i
y
i i
y x
x1=3,4 y1=26,2 (x1)
2
=11,56 (y1)
2
=686,44 x1y1=89,08
x2=1,8 y2=17,8 (x2)
2
=3,24 (y2)
2
=316,84 x2y2=32,04
x3=4,6 y3=31,3 (x3)
2
=21,16 (y3)
2
=979,69 x3y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)
2
=14,44 (y15)
2
=681,21 x15y15=99,18
2 , 49
15
1
i
i
x
15
1
2 , 396
i
i
y
15
1
2
16 , 196
i
i
x
15
1
2
48 , 11376
i
i
y 65 , 1470
15
1
i
i i
y x
Se obine:
2779 , 10
2 , 49 16 , 196 15
65 , 1470 2 , 49 16 , 196 2 , 396
2
a
a
9193 , 4
2 , 49 16 , 196 15
16 , 396 2 , 49 65 , 1470 15
2
b
b
,
prin urmare dreapta de regresie este de ecuaie
x x b a y + + 9193 , 4 2779 , 10
,
ecuaia de regresie liniar n eantion este 15 , 1 , 9193 , 4 2779 , 10 + + + + i e x e x b a y
i i i i i
,
iar valorile ajustate ale observaiilor 15 , 1 , i y
i
prin regresie sunt
15 , 1 , 9193 , 4 2779 , 10 + + i x x b a y
i i i
.
Interpretarea valorilor coeficienilor
b arat c valoarea prejudiciului crete cu 4,9193 mii euro dac distana dintre incediu i staia de
pompieri crete cu o unitate, adic 10 km
a arat c valoarea prejudiciului este, n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng
staia de pompieri.
3. Validitatea modelului de regresie
3
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H
0
: modelul de regresie este nevalid statistic,
cu alternativa
H
1
: modelul de regresie este valid statistic.
Statistica utilizat pentru a decide care dintre ipoteze se accept este:
( ) 1 , 2
2
/
2
2
/
1
k n k
e
x y
e
x y
Fisher
k n
k
s
s
F ,
unde k este numrul de variabile explicative din modelul de regresie (n cazul nostru, k=1 deoarece avem un
model de regresie liniar unifactorial sau simpl, adic cu o singur variabil explicativ).
Fie nivelul sau pragul de semnificaie al testului, iar 1- este nivelul de ncredere al testului.
Dac nu se specific, vom considera n general c =0,05 (sau 100=5%),
iar 1-=0,95 (sau (1-)100=95%).
Pentru calculul statisticii
calc
F
folosim tabelul ANOVA:
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df -
degrees of
freedom)
Media ptratelor
(MS- Mean of
Squares)
Dispersiile
corectate
Valoarea
statisticii F
F
critic
Datorat
regresiei
(Regression)
( )
n
i
i x y
y y SSR
1
2
2
/
k
k
s
x y
x y
2
/ 2
/
2
2
/
e
x y
calc
s
s
F
1 , ; ' k n k
F
Rezidual
(Residual)
( )
n
i
i i e
y y SSE
1
2
2
n k 1
1
2
2
k n
s
e
e
Total ( )
n
i
i y
y y SST
1
2
2
n 1
1
2
2
n
s
y
y
Regula de decizie: dac
1 , ; '
>
k n k critic calc
F F F
,
adic F
calc
se gsete n regiunea critic, atunci
respingem H
0
i acceptm H
1
, c modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate n tabelul urmtor:
4
i
y
i i
x y + 9193 , 4 2779 , 10
i i i
y y e y y
i
( )
2
y y
i
( )
2
i i
y y ( )
2
y y
i
26,2 27,0035 -0,80 -0,21 0,05 0,6456 0,3
17,8 19,1326 -1,33 -8,61 74,19 1,7759 53,0
31,3 32,9067 -1,61 4,89 23,88 2,5814 42,2
23,1 21,5923 1,51 -3,31 10,98 2,2732 23,2
27,5 25,5277 1,97 1,09 1,18 3,8898 0,8
36,0 37,3341 -1,33 9,59 91,90 1,7797 119,3
14,1 13,7214 0,38 -12,31 151,62 0,1433 161,1
22,3 25,0358 -2,74 -4,11 16,92 7,4846 1,9
19,6 23,0681 -3,47 -6,81 46,42 12,0276 11,2
31,3 31,4309 -0,13 4,89 23,88 0,0171 25,2
24,0 20,6084 3,39 -2,41 5,82 11,5027 33,7
17,3 15,6891 1,61 -9,11 83,05 2,5949 115,0
43,2 40,2856 2,91 16,79 281,79 8,4936 192,4
36,4 33,8905 2,51 9,99 99,73 6,2974 55,9
26,1 28,9712 -2,87 -0,31 0,10 8,2440 6,5
15
1
2 , 396
i
i
y
15
1
2 , 396
i
i
y
15
1
0
i
i
e ( )
15
1
0
i
i
y y 52 , 911
2
y
7510 , 69
2
e
756 , 841
2
/
x y
Tabelul ANOVA
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df - degrees of
freedom)
Media ptratelor
(MS - Mean of
Squares)
Valoarea statisticii F Fcritic
Datorat
regresiei
(Regression)
756 , 841
2
/
x y
k = 1 756 , 841
2
/
x y
s
89 , 156
2
2
/
e
x y
calc
s
s
F
667 , 4
13 , 1 ; 05 , 0
F
Rezidual
(Residual)
7510 , 69
2
e n k 1 = 13
365 , 5
2
e
s
Total 52 , 911
2
y
n 1 = 14 108 , 65
2
y
s
Cum
critic calc
F F > 667 , 4 89 , 156
, respingem ipoteza nul i concluzionm c modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
5
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson
( ) ( )
( ) ( )
1
1
]
1
,
_
1
1
]
1
,
_
,
_
,
_
,
_
,
_
,
_
n
i
n
i
i i
n
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
xy
y y n x x n
y x y x n
y n y x n x
y x n y x
y y x x
y y x x
r
1
2
1
2
1
2
1
2
1 1 1
2
1
2 2
1
2
1
1
2
1
2
1
96098 , 0
2 , 396 48 , 11376 15 2 , 49 16 , 196 15
2 , 396 2 , 49 65 , 1470 15
2 2
xy
r
Valoarea coeficientului de corelaie Pearson, pozitiv i foarte apropiat de 1, arat c ntre cele dou
variabile exist o legtura liniar direct i puternic.
5. Calculai raportul de corelaie, testai validitatea acestuia i interpretai rezultatul obinut.
96098 , 0
52 , 911
756 , 841
2
2
/
y
x y
SST
SSR
R
Testarea validitii sau semnificaiei raportului de corelaie const n testarea
H
0
: Raportul de corelaie este nesemnificativ statistic
(variabila X nu are influen semnificativ asupra lui Y)
cu alternativa
H
1
: Raportul de corelaie este semnificativ statistic
(semnificativ diferit de 0, adic variabila X are influen semnificativ asupra lui Y).
Statistica testului este ( ) 1 ,
2
2
1
1
k n k
Fisher
k n
R
k
R
F
.
Valoarea calculat a statisticii testului este
89 , 156
1 1 15
96098 , 0 1
1
96098 , 0
2
2
F
,
acceai valoare ca la testarea validitii modelului de regresie folosind ANOVA.
Daca testearea se realizeaza la un prag de semnificaie =0,05, atunci
67 , 4
13 , 1 ; 05 , 0 1 , ; '
F F F
k n k critic
.
Comparm F
calc
=156,89 > 4,67=F
critic
, respingem ipoteza nul H
0
i concluzionm c raportul de
corelaie este semnificativ diferit de zero, adic variabila X (distana) are o influen semnificativ asupra
variabilei Y (prejudiciul).
6. Coeficientul de determinaie este
9235 , 0
52 , 911
756 , 841
2
2
/
2
y
x y
SST
SSR
R
6
sau
9235 , 0 96098 , 0
2 2
R
i arat c 92,35% (adic R
2
%
) din variaia total a prejudiciului cauzat de
incendii este explicat de variaia variabilei independente (distana ntre locul incendiului i staia de
pompieri).
7. Testarea semnificatiei parametrului al modelului linear de regresie + + X Y
:
H
0
: =0 (parametrul este nesemnificativ statistic)
H
1
: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)
Statistica testului este
) 1 (
k n
a
Student
s
a
t
,
unde
( ) ( )
,
_
,
_
+
n
i
i
e
n
i
i
e a
x x
x
n
s
x x
x
n
s s
1
2
2
1
2
2
2
1 1
este abaterea standard (eroarea standard)
a estimatorului a,
2
e
s
este disperia reziduala, iar
2
e e
s s
este abaterea standard rezidual (eroarea
standard rezidual sau a erorilor)
.
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
a a
calc
s
a
s
a
t
0
, deci
237 , 7
42 , 1
2779 , 10
a
calc
s
a
t
, cu s
a
=1,42.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este
,
_
,
_
,
_
,
_
; ; ; ,
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t R
k n k n
c
.
Cum
771 , 1
13 ;
2
05 , 0
1 ;
2
'
t t
k n
k n
b
Student
s
b
t
,
unde
( )
( )
n
i
i
e
n
i
i
e b
x x
s
x x
s s
1
2
1
2
2
1
este abaterea standard (eroarea standard) a estimatorului b,
2
e
s este disperia rezidual, iar
2
e e
s s este abaterea standard rezidual (eroarea standard rezidual)
.
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
b b
calc
s
b
s
b
t
0
, deci
56 , 12
39 , 0
9193 , 4
b
calc
s
b
t
, cu s
b
=0,39.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este
7
,
_
,
_
,
_
,
_
; ; ; ,
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t R
k n k n
c
.
Cum
771 , 1
13 ;
2
05 , 0
1 ;
2
'
t t
k n
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'
+
a
k n
a
k n
s t a s t a
,
unde s
a
este eroarea standard a estimatorului a.
n cazul nostru, a=10,2779, s
a
=1,42, =0,05,
771 , 1
13 ;
2
05 , 0
1 ;
2
'
t t
k n
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'
+
b
k n
b
k n
s t b s t b
,
unde s
b
este eroarea standard a estimatorului b.
n cazul nostru, b=4,9193, s
b
=0,39, =0,05,
771 , 1
13 ;
2
05 , 0
1 ;
2
'
t t
k n