Sunteți pe pagina 1din 11

Problema pentru regresia liniar simpl

O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul
unei locuine i distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta,
realizeaz un studiu, ntr-o anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt
nregistrate date referitoare la valoarea prejudiciului i distana dintre incendiu i cea mai apropiat staie
de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este variabila
explicativ i care este variabila explicat;
2. Pe baza datelor din eantion, determinai coeficienii modelului de regresie adecvat analizei dependenei
dintre cele dou variabile i interpretai valorile obinute;
3. Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson;
5. Calculai raportul de corelaie, testai semnificaia (validitatea) acestuia i interpretai rezultatul obinut;
6. Calculati coeficientul de determinaie i interpretai rezultatul obinut;
7. Testati ipotezele referitoare la semnificaia parametrilor modelului de regresie, la un nivel de
semnificaie de 5%;
8. Determinai intervalele de ncredere 95% pentru parametrii modelului;
9. Rezolvai problema n Excel;
10. Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5 zeci
de kilometri.
REZOLVARE
1. Variabilele sunt:
X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat n
zeci de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
1
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
V
a
l
o
r
i
l
e

v
a
r
i
a
b
i
l
e
i

d
e
p
e
n
d
e
n
t
e

Y
(
v
a
l
o
a
r
e
a

p
r
e
j
u
d
i
c
i
u
l
u
i
,

i
n

m
i
i

E
u
r
)
Corelograma sugereaz c exist legtur direct i liniar ntre cele dou variabile.
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f, ( ) X f Y , o funcie
liniar ( ) x x f + .
Modelul liniar de regresie este
+ + X Y
.
2. Coeficienii modelului de regresie linir simpl
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor dou variabile, X i Y, obinndu-se
astfel seria de date
( ) ( ) ( ) { }
n n
y x y x y x , ,..., , , ,
2 2 1 1
sau ( ) { } n i y x
i i
, 1 , , . Pe baza acestui eantion vom
determina estimatorii a i b ai parametrilor

ai modelului de regresie. Estimatorii a i b reprezint


soluia sistemului ecuaiilor normale:

'

+
+




n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
y x x b x a
y x b na
1 1
2
1
1 1
Rezolvarea sistemului folosind metoda determinanilor:

a
a si

b
b ,
unde


n
i
i
n
i
i
n
i
i
x x
x n
1
2
1
1
este determinantul matricei sistemului de ecuaii,
iar





n
i
i
n
i
i i
n
i
i
n
i
i
a
x y x
x y
1
2
1
1 1
,


n
i
i i
n
i
i
n
i
i
b
y x x
y n
1 1
1
sunt minorii corespunztori celor dou necunoscute.
2

'

,
_


,
_

,
_


,
_


,
_

,
_


,
_

,
_


,
_


,
_


,
_









2
1 1
2
1 1 1
2
1 1
2
1 1 1
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
b
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
a
x x n
y x y x n
b
x x n
y x x x y
a
Calculele intermediare sunt prezentate n tabelul de mai jos:
Valorile xi ale
variabilei X
Valorile yi ale
variabilei Y
( )
2
i
x ( )
2
i
y
i i
y x
x1=3,4 y1=26,2 (x1)
2
=11,56 (y1)
2
=686,44 x1y1=89,08
x2=1,8 y2=17,8 (x2)
2
=3,24 (y2)
2
=316,84 x2y2=32,04
x3=4,6 y3=31,3 (x3)
2
=21,16 (y3)
2
=979,69 x3y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)
2
=14,44 (y15)
2
=681,21 x15y15=99,18
2 , 49
15
1

i
i
x

15
1
2 , 396
i
i
y

15
1
2
16 , 196
i
i
x

15
1
2
48 , 11376
i
i
y 65 , 1470
15
1

i
i i
y x
Se obine:
2779 , 10
2 , 49 16 , 196 15
65 , 1470 2 , 49 16 , 196 2 , 396
2


a
a
9193 , 4
2 , 49 16 , 196 15
16 , 396 2 , 49 65 , 1470 15
2


b
b
,
prin urmare dreapta de regresie este de ecuaie
x x b a y + + 9193 , 4 2779 , 10
,
ecuaia de regresie liniar n eantion este 15 , 1 , 9193 , 4 2779 , 10 + + + + i e x e x b a y
i i i i i
,
iar valorile ajustate ale observaiilor 15 , 1 , i y
i
prin regresie sunt
15 , 1 , 9193 , 4 2779 , 10 + + i x x b a y
i i i
.
Interpretarea valorilor coeficienilor
b arat c valoarea prejudiciului crete cu 4,9193 mii euro dac distana dintre incediu i staia de
pompieri crete cu o unitate, adic 10 km
a arat c valoarea prejudiciului este, n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng
staia de pompieri.
3. Validitatea modelului de regresie
3
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H
0
: modelul de regresie este nevalid statistic,
cu alternativa
H
1
: modelul de regresie este valid statistic.
Statistica utilizat pentru a decide care dintre ipoteze se accept este:
( ) 1 , 2
2
/
2
2
/
1


k n k
e
x y
e
x y
Fisher
k n
k
s
s
F ,
unde k este numrul de variabile explicative din modelul de regresie (n cazul nostru, k=1 deoarece avem un
model de regresie liniar unifactorial sau simpl, adic cu o singur variabil explicativ).
Fie nivelul sau pragul de semnificaie al testului, iar 1- este nivelul de ncredere al testului.
Dac nu se specific, vom considera n general c =0,05 (sau 100=5%),
iar 1-=0,95 (sau (1-)100=95%).
Pentru calculul statisticii
calc
F
folosim tabelul ANOVA:
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df -
degrees of
freedom)
Media ptratelor
(MS- Mean of
Squares)
Dispersiile
corectate
Valoarea
statisticii F
F
critic
Datorat
regresiei
(Regression)
( )


n
i
i x y
y y SSR
1
2
2
/

k
k
s
x y
x y
2
/ 2
/

2
2
/
e
x y
calc
s
s
F
1 , ; ' k n k
F

Rezidual
(Residual)
( )


n
i
i i e
y y SSE
1
2
2

n k 1
1
2
2

k n
s
e
e
Total ( )


n
i
i y
y y SST
1
2
2
n 1
1
2
2

n
s
y
y
Regula de decizie: dac
1 , ; '
>
k n k critic calc
F F F

,
adic F
calc
se gsete n regiunea critic, atunci
respingem H
0
i acceptm H
1
, c modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate n tabelul urmtor:
4
i
y
i i
x y + 9193 , 4 2779 , 10
i i i
y y e y y
i
( )
2
y y
i
( )
2

i i
y y ( )
2
y y
i

26,2 27,0035 -0,80 -0,21 0,05 0,6456 0,3
17,8 19,1326 -1,33 -8,61 74,19 1,7759 53,0
31,3 32,9067 -1,61 4,89 23,88 2,5814 42,2
23,1 21,5923 1,51 -3,31 10,98 2,2732 23,2
27,5 25,5277 1,97 1,09 1,18 3,8898 0,8
36,0 37,3341 -1,33 9,59 91,90 1,7797 119,3
14,1 13,7214 0,38 -12,31 151,62 0,1433 161,1
22,3 25,0358 -2,74 -4,11 16,92 7,4846 1,9
19,6 23,0681 -3,47 -6,81 46,42 12,0276 11,2
31,3 31,4309 -0,13 4,89 23,88 0,0171 25,2
24,0 20,6084 3,39 -2,41 5,82 11,5027 33,7
17,3 15,6891 1,61 -9,11 83,05 2,5949 115,0
43,2 40,2856 2,91 16,79 281,79 8,4936 192,4
36,4 33,8905 2,51 9,99 99,73 6,2974 55,9
26,1 28,9712 -2,87 -0,31 0,10 8,2440 6,5

15
1
2 , 396
i
i
y

15
1
2 , 396
i
i
y

15
1
0
i
i
e ( )


15
1
0
i
i
y y 52 , 911
2

y
7510 , 69
2

e
756 , 841
2
/

x y
Tabelul ANOVA
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df - degrees of
freedom)
Media ptratelor
(MS - Mean of
Squares)
Valoarea statisticii F Fcritic
Datorat
regresiei
(Regression)
756 , 841
2
/

x y
k = 1 756 , 841
2
/

x y
s
89 , 156
2
2
/

e
x y
calc
s
s
F
667 , 4
13 , 1 ; 05 , 0
F
Rezidual
(Residual)
7510 , 69
2

e n k 1 = 13
365 , 5
2

e
s
Total 52 , 911
2

y
n 1 = 14 108 , 65
2

y
s
Cum
critic calc
F F > 667 , 4 89 , 156
, respingem ipoteza nul i concluzionm c modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
5
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson
( ) ( )
( ) ( )
1
1
]
1

,
_


1
1
]
1

,
_

,
_


,
_


,
_

,
_


,
_

n
i
n
i
i i
n
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
xy
y y n x x n
y x y x n
y n y x n x
y x n y x
y y x x
y y x x
r
1
2
1
2
1
2
1
2
1 1 1
2
1
2 2
1
2
1
1
2
1
2
1
96098 , 0
2 , 396 48 , 11376 15 2 , 49 16 , 196 15
2 , 396 2 , 49 65 , 1470 15
2 2


xy
r
Valoarea coeficientului de corelaie Pearson, pozitiv i foarte apropiat de 1, arat c ntre cele dou
variabile exist o legtura liniar direct i puternic.
5. Calculai raportul de corelaie, testai validitatea acestuia i interpretai rezultatul obinut.
96098 , 0
52 , 911
756 , 841
2
2
/


y
x y
SST
SSR
R
Testarea validitii sau semnificaiei raportului de corelaie const n testarea
H
0
: Raportul de corelaie este nesemnificativ statistic
(variabila X nu are influen semnificativ asupra lui Y)
cu alternativa
H
1
: Raportul de corelaie este semnificativ statistic
(semnificativ diferit de 0, adic variabila X are influen semnificativ asupra lui Y).
Statistica testului este ( ) 1 ,
2
2
1
1

k n k
Fisher
k n
R
k
R
F
.
Valoarea calculat a statisticii testului este
89 , 156
1 1 15
96098 , 0 1
1
96098 , 0
2
2

F
,
acceai valoare ca la testarea validitii modelului de regresie folosind ANOVA.
Daca testearea se realizeaza la un prag de semnificaie =0,05, atunci
67 , 4
13 , 1 ; 05 , 0 1 , ; '


F F F
k n k critic
.
Comparm F
calc
=156,89 > 4,67=F
critic
, respingem ipoteza nul H
0
i concluzionm c raportul de
corelaie este semnificativ diferit de zero, adic variabila X (distana) are o influen semnificativ asupra
variabilei Y (prejudiciul).
6. Coeficientul de determinaie este
9235 , 0
52 , 911
756 , 841
2
2
/
2


y
x y
SST
SSR
R
6
sau
9235 , 0 96098 , 0
2 2
R
i arat c 92,35% (adic R
2
%
) din variaia total a prejudiciului cauzat de
incendii este explicat de variaia variabilei independente (distana ntre locul incendiului i staia de
pompieri).
7. Testarea semnificatiei parametrului al modelului linear de regresie + + X Y
:
H
0
: =0 (parametrul este nesemnificativ statistic)
H
1
: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)
Statistica testului este
) 1 (

k n
a
Student
s
a
t

,
unde
( ) ( )

,
_

,
_

+


n
i
i
e
n
i
i
e a
x x
x
n
s
x x
x
n
s s
1
2
2
1
2
2
2
1 1
este abaterea standard (eroarea standard)
a estimatorului a,
2
e
s
este disperia reziduala, iar
2
e e
s s
este abaterea standard rezidual (eroarea
standard rezidual sau a erorilor)
.
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
a a
calc
s
a
s
a
t

0
, deci
237 , 7
42 , 1
2779 , 10

a
calc
s
a
t
, cu s
a
=1,42.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este

,
_

,
_

,
_

,
_



; ; ; ,
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t R
k n k n
c
.
Cum
771 , 1
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, atunci ( ) ( ) ; 771 , 1 771 , 1 ; 237 , 7


c calc
R t
, deci respingen H
0
i
concluzionm ca este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip
(s respingem H
0
cnd aceasta este adevrat).
Observaie: Valoarea
1 ;
2
'
k n
t

, care se citete din tabelul cu cuantilele repartiiei Student, se mai


noteaz cu t
critic.
Testarea semnificaiei parametrului al modelului linear de regresie + + X Y
:
H
0
: =0 (parametrul este nesemnificativ statistic)
H
1
: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)
Statistica testului este
) 1 (

k n
b
Student
s
b
t

,
unde
( )
( )


n
i
i
e
n
i
i
e b
x x
s
x x
s s
1
2
1
2
2
1
este abaterea standard (eroarea standard) a estimatorului b,
2
e
s este disperia rezidual, iar
2
e e
s s este abaterea standard rezidual (eroarea standard rezidual)
.
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
b b
calc
s
b
s
b
t

0
, deci
56 , 12
39 , 0
9193 , 4

b
calc
s
b
t
, cu s
b
=0,39.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este
7

,
_

,
_

,
_

,
_



; ; ; ,
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t R
k n k n
c
.
Cum
771 , 1
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, atunci ( ) ( ) ; 771 , 1 771 , 1 ; 56 , 12


c calc
R t
, deci respingen H
0
i
concluzionm ca este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip
(s respingem H
0
cnd aceasta este adevrat).
8. Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de regresie
+ + X Y
, determinat pe baza eantionului observat, este:


ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'


+
a
k n
a
k n
s t a s t a
,
unde s
a
este eroarea standard a estimatorului a.
n cazul nostru, a=10,2779, s
a
=1,42, =0,05,
771 , 1
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, deci intervalul [7,2; 13,3]


acoper valoarea adevrat a parametrului cu probabilitatea 0,95, adic intervalul de valori [7,2; 13,3] mii
Eur acoper nivelul prejudiciului provocat de incendiu, dac acesta se produce chiar lng staia de
pompieri.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de regresie
+ + X Y
, determinat pe baza eantionului observat, este:



ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'


+
b
k n
b
k n
s t b s t b
,
unde s
b
este eroarea standard a estimatorului b.
n cazul nostru, b=4,9193, s
b
=0,39, =0,05,
771 , 1
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, deci intervalul [4,07; 5,76]


acoper valoarea adevrat a parametrului cu probabilitatea 0,95. Cu alte cuvinte, dac distana devine
mai mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul [4,07; 5,76]
mii Eur, cu o probabilitate de 0,95.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea 0, atunci
putem spune c acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9. Rezolvarea in Excel:
n Excel, exist modulul Data Analysis, opiunea Regression care furnizeaz ntr-un output specific
toate aceste calcule prezentate pn acum.
Astfel, ntr-o foaie de lucru, se introduce setul de date { (x
1
,y
1
), (x
2
,y
2
),...., (x
n
,y
n
) }, n cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis i apoi Regression, dac se
8
lucreaz n Excel 2007. Dac avei la dispoziie Excel 2003, alegei din meniul principal Tools, apoi Data
Analysis i apoi Regression.
n fereastra care va apare, trebuie:
- s alegei care este irul de valori corespunztoare variabilei dependente Y (Input Y Range) i care este irul de
valori corespunztoare variabilei independente X (Input X Range),
- s specificai nivelulde ncredere al testului, de obicei 95%,
- s precizai celula din foaia de lucru de la care se vor afia rezultatele, adic outputul (Output Range),
9
- s bifai opiunea Residuals i, opional, Line Fit Plots.
Output-ul este prezentat n tabelul urmtor:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaie
R Square 0,92348 = R
2
= coeficientul de determinaie
Adjusted R Square 0,91759
Standard Error 2,31635 = s
e
= eroarea standard sau abaterea standard a erorilor
Observations 15 = n = numrul de perechi de observaii din eantion
ANOVA
df SS MS F Significance F
Regression
1 = k
2
/ x y
SSR
841,766

2
/ x y
s
841,766

calc
F
156,886 1,2478E-08
Residual
13 = n-k-1
2
e
SSE 69,751
2
e
s 5,365
Total
14 = n-1
2
y
SST
911,52
Coefficients
Standar
d Error
t Stat P-value
Lower 95%
(Limita inferioar a
intervalului de ncredere
95%)
Upper 95%
(Limita superioar a
intervalului ncredere
95%)
Intercept 10,2779=a 1,42=s
a
7,237=
a
calc
s
a
t
6,59E-06
7,210=
a
k n
s t a
1 ;
2
05 , 0
13,346=
a
k n
s t a +
1 ;
2
05 , 0
X Variable 1 4,9193=b 0,39=s
b
12,525=
b
calc
s
b
t
1,25E-08
4,071=
b
k n
s t b
1 ;
2
05 , 0
5,768=
b
k n
s t b +
1 ;
2
05 , 0
10
RESIDUAL OUTPUT
Observation
Predicted Y
i i
x y + 9193 , 4 2779 , 10
Residuals
i i i
y y e
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
11