Documente Academic
Documente Profesional
Documente Cultură
În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii de
asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client şi numărul de
poliţe încheiate într-o săptămână. Dacă X reprezintă timpul mediu, iar Y reprezintă numărul de poliţe, avem
datele sistematizate astfel:
Se cere:
a) să se estimeze parametrii modelului liniar de regresie;
b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie = 5%;
c) să se determine erorile reziduale;
d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie = 5%;
e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat şi testaţi
semnificaţia acestuia pentru un nivel de încredere de 0,5%;
f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de poliţe încheiate de un
agent care petrece în medie 24 de minute cu un potenţial client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
20
18
16
Numărul de poliţe
14
12
10
6
16 18 20 22 24 26 28 30 32 34
Timpul mediu, (min)
a) yˆ i a0 a1 xi
Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
y i ŷ i 2 min y i a 0 a1x i 2 min
i i
n n
na 0 a 1 x i y i
i 1 i 1
n n n
n 15
a x a x 2 x y
i 1
0 i 1
i 1
i
i 1
i i
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile intermediare:
xi yi x i2 x i yi ŷ i y i2 y i y2 x i x 2
25 10 625 250 12 100 4 0
23 11 529 253 10.9 121 1 4
30 14 900 420 14.7 196 4 25
25 12 625 300 12.0 144 0 0
20 8 400 160 9.3 64 16 25
33 18 1089 594 16.4 324 36 64
18 9 324 162 8.2 81 9 49
21 10 441 210 9.8 100 4 16
22 10 484 220 10.4 100 4 9
30 15 900 450 14.7 225 9 25
26 11 676 286 12.5 121 1 1
26 15 676 390 12.5 225 9 1
27 12 729 324 13.1 144 0 4
29 14 841 406 14.2 196 4 16
20 11 400 220 9.3 121 1 25
20
Y = 0,5492x - 1,7311
18 R² = 0,7808
Numărul de poliţe
16
14
12
10
6
16 18 20 22 24 26 28 30 32 34
Timpul mediu, (min)
b) Testarea semnificaţiei parametrilor modelului:
Ecuaţia de regresie la nivelul colectivităţii generale este:
y i 0 1 x i u i
iar la nivelul eşantionului este:
y i a 0 a1 x i u i
Testarea semnificaţiei parametrului 1:
1) se stabileşte ipoteza nulă:
H0 : 1 = 0
2) se stabileşte ipoteza alternativă:
H1 : 1 0, adică 1 este semnificativ diferit de zero, adică 1 este semnificativ statistic.
3) se calculează testul statistic:
deoarece n = 15 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t:
a 1 a 1 0 a 1 0,5492
t 1 6,8
s a1 s a1 s a1 0,08
s 2u 1,7199
s a2 0,0064
x i x
i 2 264
i
y i ŷ i 2
22,35
s 2u i 1,7199
n k 1 15 2
k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k = 1).
15
xi
375
x i 1 25
15 15
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este:
t0,05/2; 13 = t0,025; 13 = 1,35
1 2
1,71
x 1 25
s a2 s 2u 4,186
0 n x x 2
i
15 264
i
t calc 0,84 t / 2;n 2 1,35 se acceptă ipoteza nulă, adică parametrul a0 nu este
semnificativ statistic.
ŷ i y
2
79,64
s 2x i 79,64
k 1
y i ŷ i 2
22,35
s 2u i 1,71
n k 1 15 2
15
yi
i 1 180
y
12
15 15
Fcalc F;n k 1 F0,05;1,13 4,67
Deoarece Fcalc Ftab modelul este valid.
e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară:
n x i yi x i yi
r
n x i2 x i 2
n y i2 y i 2
15 4645 375 180
0,88 1 0
15 9639 375 15 2262 180
2 2
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie:
- se stabileşte ipoteza nulă: H0: nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H1: este semnificativ statistic;
- se calculează testul t:
r r n 2 0,88 13
t 6,75
sr 1 r2 1 0,882
yˆ
n
2
i y
i 1
R 0,88
y
n
2
i y
i 1
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă între cele două
variabile.
Testarea raportului de corelaţie se face cu testul F:
R2 n k 1 0,78 13
F 46,09
1 R 2 k 1 0,78 1
Cum:
Fcalc F0,05; 1; 13 4,67
R este semnificativ statistic.
f)
ŷ n 1 1,73 0,5492 24 11,45 ~ 12 poliţe (aceasta este estimarea punctuală).
Pentru estimarea pe interval de încredere vom avea:
1 2
xn1 x 1 (24 25) 2
s 1 1,711 1,82
2 2
2
s yˆ n 1
n xi x
u
15 264
i
s ŷ 1,35
n 1
10,1775 y n 1 13,8225
10 y n 1 14
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R 0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015 46.30272 0.000013
2 7
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.00000
0
RESIDUAL OUTPUT
SUMMARY OUTPUT
Regression Statistics
n n
ŷ i y 2 y i ŷ i 2
Multiple R i 1
0.883621 Ry , x 1 i1
Raportul de corelatie (R) n n
y i y 2
y i y 2
i 1 i 1
ŷ i y
n 2
R Square 2y / x 2e
Coeficientul (gradul ) de 0.780786 R2 1 i1
y i y
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a
0.763923 2 2u / n k 1
coeficientului de R 1
determinaţie 2y / n 1
Standard Error n
Tabel 2.
ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor)
(grade de F Significance F
variaţiei (suma pătratelor) (dispersia
libertate)
corectată)
2 =
Regression n Testul 0.000013<
(variaţia SSR= 2x ŷ i y 2
1 (k) s 2x x = F=46.302727 0.05
datorată i 1 k 2 2 (resping H0 –
regresiei) 79.640152 79.640152 F= s x / s u model valid)
n
SSE= 2u y i ŷ i 2 2u
Residual 13 (n-k-1) s 2u =
(variaţia i 1 n k 1
reziduală) = 22.359848 1.719988
2
n
Total
2
SST= y yi y 2y
(variaţia
14 (n-1)
i 1 s 2y
n 1
totală) = 102.000000
SST=SSR + SSE
Tabel 3
Standard
Error
Coefficients
(Abaterea t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
medie
patratică)
Limita inf. a Limita sup. a
intervalului intervalului
de încredere de încredere
Intercept
(termenul a0= -1.731061 s a0 t a0 = -0.846021
0.412843
-6.151434 2.689313
=2.046120 > 0,05
liber)
Timpul
a1 = 0.549242 s a1 t a1 = 6.804611
0.000013
0.374866 0.723619
mediu =0.080716 < 0,05
Tabel 4.
RESIDUAL OUTPUT
Predicted ŷ i Residuals
Observation
Numărul de poliţe yi yˆ i
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Se cere:
a) să se specifice modelul econometric ce descrie legătura dintre cele două variabile;
b) să se estimeze parametrii modelului;
c) să se verifice ipotezele metodei celor mai mici pătrate;
d) să se verifice semnificaţia parametrilor modelului de regresie pentru = 0,1;
e) să se testeze validitatea modelului de regresie;
f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze semnificaţia indicatorilor
utilizaţi;
g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie plătite dacă venitul
este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de gospodării prin
corelogramă sau diagrama norului de puncte:
220
170
Taxele (euro) y
120
70
20
10 20 30 40 50 60 70 80
Venitul (mii euro) x
Din grafic se poate observa că distribuţia punctelor (xi, yi) poate fi aproximată cu o dreaptă, deci
modelul econometric care descrie legătura dintre cele două variabile este un model liniar:
y 0 1 x u
0, 1 – parametrii modelului;
1 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.
b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici pătrate:
y i a 0 a1 x i u i 1,20
ŷ i a 0 a1 x i
a1
xi x i yi
733,1 68864
2,2997
n xi 20 733,1
xi x i2 733,1 31991,53
a 0 y a1 x 6,4201
200
y = 2,2997x - 6,4201
180 R² = 0,8431
160
140
Taxele (euro) y
120
100
80
Taxele (euro) y
60
Predicted Taxele (euro) y
40
20
0
10 20 30 40 50 60 70 80
Venitul (mii euro) x
x i x
n 2
5119,74
s x i1 15,99
n 20
y i y
n 2
32116,44
s y i 1 40,07
n 20
n 20
xi xi
733,1
x i 1 i1 36,655
n 20 20
20
yi
1557,5
y i 1 77,875
20 20
36,655 3 15,99 x i 36,655 3 15,99
11,315 x i 84,625 (adevărat)
77,875 3 40,07 y i 77,875 3 40,07
42,335 y i 201,085 (adevărat)
Ipoteza poate fi acceptată fără nici un dubiu.
c2) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale este constantă şi
independentă de variabila factorială (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).
Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezintă valorile
variabilei reziduale u.
Va trebui să calculăm valorile variabilei reziduale: u i y i ŷ i
Rezultatele sunt prezentate în tabelul de mai jos:
variabila reziduală
10
0
0 10 20 30 40 50 60 70 80
-10
-20
-30
-40
Venitul (mii euro) x
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că variabila factorială
şi cea reziduală sunt independente.
c3) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafică (corelograma);
- testul Durbin-Warson.
Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile variabilei rezultative
yi, iar pe axa OY valorile variabilei reziduale:
40,0
30,0
20,0
variabila reziduală
10,0
0,0
0 50 100 150 200
-10,0
-20,0
-30,0
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă de dinţi de
fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabileşte ipoteza nulă:
H0: variabila reziduală nu este autocorelată.
- se stabileşte ipoteza alternativă:
H1: variabila reziduală este autocorelată.
- se calculează testul Durbin-Watson:
n
u i u i1 2
7508,87
d calc i 1 1,48
n 5040,26
u i2
i 1
Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul tabel:
ui u i1 u i u i1 2 u i2
1,18 - - 1,38
-19,32 1,18 420,19 373,21
-14,32 -19,32 25,04 204,94
19,43 -14,32 1138,90 377,43
3,79 19,43 244,71 14,34
-11,07 3,79 220,80 122,53
0,77 -11,07 140,30 0,60
8,82 0,77 64,86 77,86
-2,17 8,82 120,79 4,71
-10,86 -2,17 75,47 117,88
17,03 -10,86 777,77 289,97
24,68 17,03 58,47 608,95
8,93 24,68 248,14 79,70
3,58 8,93 28,63 12,81
6,94 3,58 11,29 48,16
-10,86 6,94 317,00 118,04
-8,96 -10,86 3,62 80,25
-29,47 -8,96 420,66 868,48
-22,07 -29,47 54,81 486,93
33,94 -22,07 3137,41 1152,10
7508,87 5040,26
- se compară dcalc cu cele două valori d1 şi d2 din tabelul testului Durbin-Watson pentru pragul de
semnificaţie = 0,05 pentru numărul variabilelor exogene k = 1 şi pentru n = 20:
d1 = 1,20 d2 = 1,41
d 2 d calc 4 d 2
1,41 1,48 2,59 erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul de
autocorelaţie de ordinul I:
n
u i u i1
709,41
r1 i 1 0,14
n 5040,26
u i2
i 1
Deoarece r1 este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt autocorelate, adică
sunt independente.
10,0
0,0
0,0 30,0 60,0 90,0 120,0 150,0 180,0
-10,0
Y
-20,0
-30,0
Se observă că valorile reziduale ui se înscriu în banda construită, deci putem accepta ipoteza de
normalitate a erorilor pentru un prag de semnificaţie de = 0,05.
x i2
31991,53
s a2 s 2u i
280,01 1449,68
x i x
0 2 5119,75
i
y i ŷ i 2
5040,26
s 2u i 280,01
n2 18
- se compară tcalc cu t/2; n-2 = t0,05; 15 = 2,101
Deoarece t calc t 0,05;18 este foarte probabil ca estimatorul a0 să provină dintr-o colectivitate cu 0
= 0 deci 0 nu este diferit semnificativ de zero.
Testarea semnificaţiei parametrului 1:
- se stabileşte ipoteza nulă: H0: 1 = 0
- se stabileşte ipoteza alternativă: H1: 1 0
- se calculează testul t:
a 2,2997
t 1 9,99
s a1 0,23
s 2u 280,01
s a2 0,05
x i x
1 20 2 5119,75
i 1
- se compară tcalc cu t/2; n-2 = t0,05; 18 = 2,101
Deoarece t calc t 0,05;18 apreciem că parametrul 1 este semnificativ statistic.
Intervalul de încredere pentru parametrul 1 este:
a1 t / 2;n 2 s a1 1 a1 t / 2;n 2 s a1
2,2997 2,101 0,23 1 2,2997 2,101 0,23
1,81647 1 2,78293
e) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă: H0: modelul nu este valid.
- se stabileşte ipoteza alternativă: H1: modelul este valid;
- se calculează testul F:
s 2 27076,18
F x 96,69
s 2u 280,01
ŷ i y
20 2
27076,18
s 2x i 1 27076,18
k 1
- se compară Fcalc cu F; k; = F0,1; 1; 18 = 8,28
n-k-1
Fcalc 96,69 F0,1;1;18 se respinge ipoteza nulă şi se acceptă alternativa, deci modelul este
valid.
Deoarece ry/x = 0,918 1, apreciem că între cele două variabile există o legătură liniară, directă,
foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
- se stabileşte ipoteza nulă: H0: = 0 ( nu este semnificativ statistic);
- se stabileşte ipoteza alternativă: H1: 0 ( este semnificativ statistic);
- coeficientul de corelaţie la nivelul colectivităţii generale
- se calculează testul t:
r n2 0,918 18
t calc 9,82
1 r2 1 0,9182
- se compară t calc cu t ;n 2 t 0,1; 18 2,878
Deoarece t calc t 0,1; 18 respingem ipoteza nulă şi acceptăm alternativa, deci coeficientul de corelaţie
este semnificativ statistic.
Raportul de corelaţie R:
y i ŷ i 2
5040,26
R 1 i 1 1 0,918
y i y
2 32116,44
i 1
Deoarece R = ry/x, apreciem că între cele două variabile există, într-adevăr, o legătură liniară.
Testarea semnificaţiei raportului de corelaţie:
- se stabileşte ipoteza nulă: H0: R nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H1: R este semnificativ statistic;
- se calculează testul F:
n k 1 R 2 18 0,9182
Fcalc
94,5
k 1 R 2 1 1 0,9182
- se compară Fcalc cu F;k;n k 1 F0,1;1;18 8,28
Deoarece Fcalc F0,1; 1; 18 se respinge ipoteza nulă şi se acceptă alternativa, deci raportul de corelaţie
este semnificativ statistic.
g)
ŷ n 1 6,4201 2,2997 40 85,5679euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea:
s 2ŷ
s 2u 1 n 1
1 x
2
x
280,011
1 (40 36,655) 2
294,59
n n 2
n 1
xi x
20 5119 ,75
i 1
Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la nivelul populaţiei
este:
41,77 (euro) y n 1 129,36 (euro)
Regression Statistics
Multiple R 0.918184588
R Square 0.843062937
Adjusted R Square 0.834344212
Standard Error 16.73363108
Observations 20
ANOVA
df SS MS F Significance F
Regression 1 27076.17814 27076.18 96.69566 1.15588E-08
Residual 18 5040.259363 280.0144
Total 19 32116.4375
RESIDUAL OUTPUT
Regression Statistics
n n
ŷ i y 2 y i ŷ i 2
i 1
1 i1
Multiple R
0.918184588 Ry , x
Raportul de corelaţie (R) n n
y i y 2 y i y 2
i 1 i 1
ŷ i y
n 2
R Square 2y / x 2e
Coeficientul (gradul ) de 0.843062937 R2 1 i 1
y i y
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a 2 2u / n k 1
coeficientului de
0.834344212 R 1
determinaţie 2y / n 1
n
y i ŷ i 2
Standard Error
Abaterea medie pătratică a 16.73363108 2u i 1
erorilor în eşantion su
n2 n2
Observations
20
Numărul observaţiilor (n)
Tabel 2.
ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor) Significance
(grade de F
variaţiei (suma pătratelor) (dispersia F
libertate)
corectată)
=
Regression n 2 2x Testul 1.15588E-
(variaţia SSR= 2x yˆ i y s x2 = F=96.69566 08< 0.05
1 (k) i 1 k
datorată 2 2 (resping H0 –
27076.17814 27076.18 F= s x / s u
regresiei) model valid)
2u
yi yˆ i = su2
n
Residual SSE= 2u
2
=
(variaţia 18 (n-k-1) i 1 n k 1
reziduală) 5040.259363 280.0144
n 1
32116.4375 y
totală)
SST=SSR + SSE
Tabel 3.
Standard Error
Coefficients
(Abaterea medie t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
patratică)
Limita inf. a Limita sup. a
intervalului de intervalului de
încredere încredere
Intercept
(termenul
a0= s a0 = t a0 = 0.501209>0,05 -26.07086914 13.23058
-6.42014248 9.353374888 -0.6864
liber)
Venitul
a1 = s a1 = t a1 = 1.16E-08<0,05 1.808356955 2.791023
2.299690151 0.233865325 9.833395
Tabel 4.
RESIDUAL OUTPUT
Predicted ŷ i Residuals
Observation
taxe plătite yi yˆ i
1 33,82 1,18
2 79,82 -19,32
3 102,82 -14,32
4 51,07 19,43
5 121,21 3,79
6 74,07 -11,07
7 29,23 0,77
8 21,18 8,82
9 67,17 -2,17
10 90,86 -10,86
11 57,97 17,03
12 45,32 24,68
13 51,07 8,93
14 61,42 3,58
15 143,06 6,94
16 110,86 -10,86
17 83,96 -8,96
18 69,47 -29,47
19 97,07 -22,07
20 166,06 33,94