Sunteți pe pagina 1din 7

Problema rezolvata - regresia liniară simplă

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai
apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date
referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri:

Nr. crt. X sau xi Y sau yi


Valoarea prejudiciului (mii Euro)
Distanta fata de statia de pompieri (zeci km)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1

Cerintele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile, stabilind care este variabila independentă (explicativă) şi care este variabila
dependentă (explicată);
2. Pe baza datelor din eşantion, determinaţi parametrii modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile
obţinute;
3. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson;

REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
1
Graficul seriei de date (Corelograma)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y = f ( X ) , o funcţie liniară f ( xi ) = a  xi + b .
Modelul liniar de regresie este yi = axi + b +  i .

2. Parametrii modelului de regresie liniră simplă


Pentru fiecare dintre cele n =15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-se astfel seria de date (x1 , y1 ), (x2 , y2 ),..., (xn , yn ) sau
(x , y ), i = 1, n. Pe baza acestui eşantion vom determina parametrii a şi b ai modelului de regresie.
i i

yi = axi + b +  i   i = yi − axi − b, i = 1, n .
Fiind o funcţie liniară în raport cu cei doi parametri, a şi b, pentru estimarea acestora se utilizează metoda celor mai mici pătrate (MCMMP). Se pune condiţia ca
valoarea expresiei  ei2 = minim sau  ( yi − axi − b) = F (a, b) = minim . Parametrii a şi b reprezintă soluţia sistemului ecuaţiilor normale (sistemul lui Gauss) dat
2

i i

 F (a, b)  n n n

 = 0  a  x 2
i + b  x i =  xi y i
de:  a  i =1
 n i =1 i =1

 F (a, b) = 0
n
a x + nb =
 b 
 i =1 i 
i =1
yi

2
Calculele intermediare sunt prezentate în tabelul de mai jos:
Valorile xi ale variabilei X Valorile yi ale variabilei Y (xi )2 xi  y i
x1=3,4 y1=26,2 (x1)2=11,56 x1·y1=89,08
x2=1,8 y2=17,8 (x2)2=3,24 x2·y2=32,04
x3=4,6 y3=31,3 (x3)2=21,16 x3·y3=143,98
2,3 23,1 5,29 53,13
3,1 27,5 9,61 85,25
5,5 36,0 30,25 198
0,7 14,1 0,49 9,87
3,0 22,3 9,00 66,9
2,6 19,6 6,76 50,96
4,3 31,3 18,49 134,59
2,1 24,0 4,41 50,4
1,1 17,3 1,21 19,03
6,1 43,2 37,21 263,52
4,8 36,4 23,04 174,72
x15=3,8 y15=26,1 (x15)2=14,44 x15·y15=99,18
15 15 15 15

 xi = 49,2
i =1
 yi = 396,2
i =1
 xi2 = 196,16
i =1
x y
i =1
i i = 1470,65

196,16a + 49, 2b = 1470, 65


Se obţine sistemul: 
49, 2a + 15b = 396, 2

 a 15 1470, 65 − 49, 2  396,16


a= = = 4,9193 ,
 15 196,16 − 49, 22

b 396, 2 196,16 − 49, 2 1470, 65


b= = = 10, 2779
 15 196,16 − 49, 22
Ecuaţia de regresie liniară în eşantion este yi = a  xi + b + ei = 4,9193x + 10, 2779 + ei , i = 1,15 , iar valorile ajustate ale observaţiilor yi , i = 1,15 prin regresie
sunt
f ( xi ) = a  xi + b = 4,9193x + 10, 2779, i = 1,15 .

3
Interpretarea valorilor coeficienţilor
▪ a arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de pompieri creşte cu o unitate, adică 10 km (a arata cu
cat se modifica, in medie, nivelul variabilei dependente, daca nivelul variabilei independente creste cu o unitate);
▪ b arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de pompieri (b arata nivelul mediu al variabilei
dependente, daca nivelul variabilei independente ar fi egal cu 0; b nu are intotdeauna interpretare economica).

3. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson
n

 ( x − E ( x) )( y − E ( y) )
i i
171,11
rxy = i =1
= = 0,96098   −1,1
n n
34, 78  911,52
 ( xi − E ( x) )  ( y − E ( y) )
2 2
 i
i =1 i =1

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de +1, arată că între cele două variabile există o legătura liniară directă şi puternică.
Calculele intermediare sunt prezentate în tabelul următor:
Nr. xi yi ei = yi − f ( xi ) xi2 xi yi (x
i
− E ( x) ) (y
i
− E ( y) ) (x
i
− E ( x) ) ( yi − E ( y ) )
(x
i
− E ( x) )
2
(y
i
− E ( y) )
2

crt.
1 3,4 26,2 -0,80 11,56 89,08 0,12 -0,21 -0,03 0,01 0,04
2 1,8 17,8 -1,33 3,24 32,04 -1,48 -8,61 12,74 2,19 74,13
3 4,6 31,3 -1,61 21,16 143,98 1,32 4,89 6,45 1,74 23,91
4 2,3 23,1 1,51 5,29 53,13 -0,98 -3,31 3,24 0,96 10,96
5 3,1 27,5 1,97 9,61 85,25 -0,18 1,09 -0,20 0,03 1,19
6 5,5 36,0 -1,33 30,25 198 2,22 9,59 21,29 4,93 91,97
7 0,7 14,1 0,38 0,49 9,87 -2,58 -12,31 31,76 6,66 151,54
8 3,0 22,3 -2,74 9 66,9 -0,28 -4,11 1,15 0,08 16,89
9 2,6 19,6 -3,47 6,76 50,96 -0,68 -6,81 4,63 0,46 46,38
10 4,3 31,3 -0,13 18,49 134,59 1,02 4,89 4,99 1,04 23,91
11 2,1 24,0 3,39 4,41 50,4 -1,18 -2,41 2,84 1,39 5,81
12 1,1 17,3 1,6 1,21 19,03 -2,18 -9,11 19,86 4,75 82,99
13 6,1 43,2 2,91 37,21 263,52 2,82 16,79 47,35 7,95 281,90
14 4,8 36,4 2,51 23,04 174,72 1,52 9,99 15,18 2,31 99,80
15 3,8 26,1 -2,87 14,44 99,18 0,52 -0,31 -0,16 0,27 0,10
15
49,2
396,2 e i =1
i =0
196,16 1470,6 0 0,05 171,11 34,78 911,52

4
2. Să se determine modelul ce aproximează volumul de desfacere a unor mărfuri pe o perioadă de 11 luni pornind de la următoarele date:
Luna Vol. de desf. Mărfuri
xi yi
1 15236
2 20806
3 24769
4 28979
5 33678
6 36789
7 41278
8 43439
9 45654
10 48976
11 51256

Pe baza modelului parabolic aproximat să se previzioneze volumul de desfacere a mărfii pe următoarea lună a anului.

Rezolvare:
Graficul seriei de date (Corelograma)

5
Ecuația modelului parabolic de regresie este: yi = axi2 + bxi + c +  i , f ( xi ) = axi2 + bxi + c   i = yi − axi2 − bxi − c, i = 1, n .
Fiind o funcţie neliniară în raport cu cei trei parametri, a, b şi c, pentru estimarea acestora se utilizează metoda celor mai mici pătrate (MCMMP). Se pune condiţia
ca valoarea expresiei:

e  ( y − ax − b)
2
2
i = minim sau i i = F (a, b, c) = minim .
i i

 F (a, b, c)  n 4 n n n

 = 0  a  xi + b  xi
3
+ c  x i
2
=  xi2 yi
a  i =1 i =1 i =1 i =1


Parametrii a, b şi c reprezintă soluţia sistemului ecuaţiilor normale (sistemul lui Gauss) dat de:  F ( a , b , c )  n n n n
= 0  a  xi3 + b xi2 + c  xi =  xi yi
 b  i =1 i =1 i =1 i =1
 F (a, b, c)  n 2 n n
 c
=0 a  xi + b xi + nc =  yi
  i =1 i =1 i =1

Calculele intermediare sunt prezentate în tabelul de mai jos:

xi yi x i2 xi3 x i4 xi yi x i2 yi
1 15236 1 1 1 15236 15236
2 20806 4 8 16 41612 83224
3 24769 9 27 81 74307 222921
4 28979 16 64 256 115916 463664
5 33678 25 125 625 168390 841950
6 36789 36 216 1296 220734 1324404
7 41278 49 343 2401 288946 2022622
8 43439 64 512 4096 347512 2780096
9 45654 81 729 6561 410886 3697974
10 48976 100 1000 10000 489760 4897600
11 51256 121 1331 14641 563816 6201976
 66 390860 506 4356 256036 2737115 22551667

256036a + 4356b + 506c = 22551667


Se obţine sistemul: 4356a + 506b + 66c = 2737115 Sistemul se rezolvă regula lui Cramer sau Sarrus.
506a + 66b + 11c = 390860

6
256036 4356 506 22551667 4356 506 256036 22551667 506 256036 4356 22551667
 = 4356 506 66 = ... ,  a = 2737115 506 66 = ... , b = 4356 2737115 66 = ... ,  c = 4356 506 2737115 = ...
506 66 11 390860 66 11 506 390860 11 506 66 390860

a b c
a= = 153, 09 , b= = 5400,3 c= = 10173
  , 
Ecuația modelului parabolic de regresie este: yi = 153, 09 xi2 + 5400,3xi + 10173 +  i , iar funcția care previzionează volumul de desfacere a mărfii pe următoarea lună

a anului este f ( xi ) = 153, 09 xi + 5400,3xi + 10173 .


2

f (12) = 153, 09 122 + 5400,3 12 + 10173 = 97021,56  Volumul de desfacere a mărfii în luna a 12-a a anului este 97021,56.

S-ar putea să vă placă și