Sunteți pe pagina 1din 7

Aplicatie rezolvata

Regresia liniara unifactoriala

În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii
de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client
şi numărul de poliţe încheiate într-o săptămână. Dacă xi (variabila cauza, independenta, exogena)
reprezintă timpul mediu, iar yi (variabila efect, dependenta, endogena) reprezintă numărul de
poliţe, avem datele sistematizate astfel:
xi yi
25 10
23 11
30 14
25 12
20 8
33 18
18 9
21 10
22 10
30 15
26 11
26 15
27 12
29 14
20 11
Se cere:
a) Sa se determine coeficientii modelului de regresie
b) să se determine erorile reziduale;
c) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat;
d) efectuaţi o previzionare punctuală a numărului de poliţe încheiate de un agent care
petrece în medie 24 de minute cu un potenţial client.
Rezolvare:
a) Pentru a determina forma modelului de regresie se va construi corelograma:
Scara de reprezentare: 1 cm pe OY = 5 poliţe, 1 cm pe OX = 2 minute

Ecuatia de regresie : ŷ i = a 0 + a1 x i

Coeficientii a0 şi a1 se determină cu ajutorul metodei celor mai mici pătrate:

 (y i − ŷ i )2 min   (y i − a 0 − a1x i )2 min 


i i

 n n
 0
na + a 1  x i =  yi
 i =1 i =1
 n n n
n = 15
a  x + a  x 2 =  x y
 0 i =1 i 1
i =1
i
i =1
i i

Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
xi yi x i2 x i yi y i2 (y i − y)2
25 10 625 250 100 4
23 11 529 253 121 1
30 14 900 420 196 4
25 12 625 300 144 0
20 8 400 160 64 16
33 18 1089 594 324 36
18 9 324 162 81 9
21 10 441 210 100 4
22 10 484 220 100 4
30 15 900 450 225 9
26 11 676 286 121 1
26 15 676 390 225 9
27 12 729 324 144 0
29 14 841 406 196 4
20 11 400 220 121 1
 xi =  yi =  x i2 =  x i yi =  y i2 = 102
375 180 9639 4645 2262

15a 0 + a1  375 = 180 a 0 = −1,73


  
a 0  375 + a1  9639 = 4645 a1 = 0,5492
Deci:
ŷ i = −1,73 + 0,5492  x i

b) Erorile reziduale sunt u i = y i − ŷ i şi sunt prezentate în tabelul de mai jos:


ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70

c) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară:
n n n
n xi yi −  xi   yi
ry / x = i =1 i =1 i =1
=
 n 2  n    n 2  n 2 
2

n xi −   xi   n yi −   yi  
 i =1  i =1    i =1  i =1  
15  4645 − 375 180
= 0,88  0 → 1
 
15  9639 − 3752 15  2262 − 1802 
Interpretare: Rezultă că între cele două variabile există o legătură directă foarte puternică.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:

 (ŷ i − y )
n 2

R = i =1 = 0,88
 (y i − y )
n 2

i =1

Interpretare: Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă


între cele două variabile.

e) ŷ n +1 = −1,73 + 0,5492  24 = 11,45 ~ 12 poliţe (aceasta este estimarea punctuală).


Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selectează din meniul principal opţiunea Data, apoi Data Analysis, apoi Regression şi se
deschide următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R Square 0.763923
Standard Error 1.311483
Observations 15.000000

ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000

Coefficients Standard t Stat P-value Lower Upper


Error 95% 95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619

RESIDUAL OUTPUT

Observation Predicted Y Residuals


1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212

Explicitarea datelor din tabelele de mai sus:

SUMMARY OUTPUT
Regression Statistics
Tabel 1.

n n
Multiple R
 ( yˆi − y ) (y − yˆi )
2 2
i
Raportul de corelatie (R)
0.883621 Ry / x = i =1
n
= 1− i =1
n

(y − y) (y − y)
Apartine intervalului [0,1] 2 2
i i
Ne arata intensitatea i =1 i =1

R Square
Coeficientul (gradul) de
 (ŷ i − y )
n 2
determinaţie 2y / x
0.780786 2e
Ne arata cat la suta din R2 = = 1− = i=1
 (y i − y )
variatia lui Y se datoreaza 2y 2y n 2

lui X i =1
Adjusted R Square
Valoarea ajustată a 2u / n − k − 1
0.763923 2
coeficientului de R = 1−
determinaţie 2y / n − 1

Standard Error n

Abaterea medie pătratică a  (y i − ŷ i )2


1.311483 2u i =1
su = =
erorilor în eşantion n−2 n−2
Observations
Numărul observaţiilor (n) 15
Volumul esantionului

Tabel 2.ANOVA _NU ne intereseaza la Statistica


(se studiaza la Econometrie)
MS =SS/df
df (media
Sursa SS (varianţa)
(grade de pătratelor) F Significance F
variaţiei (suma pătratelor)
libertate) (dispersia
corectată)

( )2 =
Regression n
(variaţia SSR= 2x =  ŷ i − y 2x
1 (k) s 2x = = Testul F=46.302727 0.000013< 0.05
datorată i =1 k 2 2 (resping H0 – model
regresiei) 79.640152 79.640152 F= s / s
x u valid)
2u
n s 2u =
Residual
2
13 (n-k-1) SSE=  u =  (y i − ŷ i ) 2
n − k −1
(variaţia i =1 =
reziduală) = 22.359848 1.719988

( )2
n
2
SST=  y =  yi − y 2y
Total 14 (n-1) i=1 s 2y =
(variaţia = 102.000000 n −1
totală) SST=SSR + SSE
Tabel 3
Standard
Error
Coefficients
(Abaterea t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
medie
pătratică)
Limita inf. a Limita sup. a
intervalului intervalului de
de încredere încredere
Intercept
0.412843
(termenul a0= -1.731061 s a0 =2.046120 t a0 = -0.846021 > 0,05
-6.151434 2.689313
liber)
Timpul
a1 = 0.549242>0 0.000013
mediu
directia legaturii s a1 =0.080716 t a1 = 6.804611 < 0,05
0.374866 0.723619
(variabila x)

Tabel 4. RESIDUAL OUTPUT


Predicted ŷ i Residuals
Observation
Numărul de poliţe(variabila y) y i − yˆ i
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretarea rezultatelor din tabelul 1:

▪ R = 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un


potenţial client există o legătură puternică. Directia legaturii se ia din semnul lui a1
(tabelul 3)

▪ R2 = 0.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de
timpul mediu petrecut de un agent cu un potenţial client.

▪ Abaterea medie pătratică a erorilor s u = 1.311483. În cazul în care acest indicator este
zero înseamnă că toate punctele sunt pe dreapta de regresie.

Interpretarea rezultatelor din tabelul ANOVA (nu ne intereseaza la Statistica):

În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F =
46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05)
atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.

Interpretarea rezultatelor din tabelul 3:

▪ Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este
punctul în care variabila explicativă (factorială) este 0. Deci numărul de poliţe încheiate,
dacă timpul petrecut este 0 (NU are semnificatie economica)
▪ Coeficientul a1 este 0.549242>0(legatura directa), ceea ce însemnă că la creşterea timpului
petrecut cu un minut, numărul de poliţe încheiate va creşte cu 0,549242.

Tabelul 4 se refera la erori (reziduri):


Predicted y reprezinta valorile ajustate ale lui y, valori care rezulta prin inlocuirea valorilor lui x
in ecuatia de regresie.
Residuals sunt erorile adica diferenta dintre valorile reale alei lui y si valorile ajustate. Suma
erorilor este intotddeauna 0.

S-ar putea să vă placă și