Documente Academic
Documente Profesional
Documente Cultură
Probleme Regresie Signed
Probleme Regresie Signed
n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei companii de
asigurri de via i anume: timpul mediu, n minute, petrecut de un agent cu un potenial client i numrul de
polie ncheiate ntr-o sptmn. Dac X reprezint timpul mediu, iar Y reprezint numrul de polie, avem
datele sistematizate astfel:
Timpul mediu,
(min) X
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
Numrul de polie
Y
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
Se cere:
a) s se estimeze parametrii modelului liniar de regresie;
b) s se testeze semnificaia parametrilor modelului pentru un prag de semnificaie = 5%;
c) s se determine erorile reziduale;
d) s se testeze validitatea modelului de regresie pentru un nivel de semnificaie = 5%;
e) msurai intensitatea legturii dintre cele dou variabile folosind un indicator adecvat i testai
semnificaia acestuia pentru un nivel de ncredere de 0,5%;
f) efectuai o previzionare punctual i pe interval de ncredere a numrului de polie ncheiate de un
agent care petrece n medie 24 de minute cu un potenial client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
20
Numrul de polie
18
16
14
12
10
8
6
16
18
20
22
24
26
28
Timpul mediu, (min)
30
32
34
a)
y i a0 a1 xi
Parametrii a i b se determin cu ajutorul metodei celor mai mici ptrate:
y i y i 2
min
y i a 0 a1x i 2
min
n
n
na 0 a 1 x i y i
i 1
i 1
n
n
n
a x a x 2 x y
0
i
1
i i
i
i 1
i 1
i 1
n 15
Pentru a rezolva sistemul vom folosi urmtorul tabel n care sunt prezentate valorile intermediare:
xi
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
xi
x i2
yi
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
y i
250
253
420
300
160
594
162
210
220
450
286
390
324
406
220
12
10.9
14.7
12.0
9.3
16.4
8.2
9.8
10.4
14.7
12.5
12.5
13.1
14.2
9.3
x i yi
y i
180
625
529
900
625
400
1089
324
441
484
900
676
676
729
841
400
yi
375
x i yi
x i2
180
9639
4645
y i y2 x i x 2
y i2
100
121
196
144
64
324
81
100
100
225
121
225
144
196
121
y i2
4
1
4
0
16
36
9
4
4
9
1
9
0
4
1
102
0
4
25
0
25
64
49
16
9
25
1
1
4
16
25
264
2262
a 0 1,73
a 1 0,5492
Deci:
y i 1,73 0,5492 x i
20
Y = 0,5492x - 1,73
R = 0,7808
Numrul de polie
18
16
14
12
10
8
6
16
18
20
22
24
26
28
Timpul mediu, (min)
30
32
34
6,8
s a1
s a1
s a1
0,08
s a2
i
s 2u
x i x
1,7199
0,0064
264
y i y i 2
s 2u i
n k 1
22,35
1,7199
15 2
xi
375
x i 1
25
15
15
0,84
s a0
s a0
s a 0 2,096
2
1
x
1
25
1,71
s a2 s 2u
4,186
2
0
n x x
15 264
i
semnificativ statistic.
c) Erorile reziduale sunt u i y i y i i sunt prezentate n tabelul de mai jos:
ui
-20,62
-14,99
9,90
-27,57
27,22
-0,91
-19,95
18,38
-17,48
16,58
-5,09
7,37
5,42
5,03
16,70
1) se stabilete ipoteza nul: H0: mprtierea valorilor y t datorate factorului nu difer semnificativ de
mprtierea acelorai valori datorate ntmplrii, deci modelul nu este valid.
2) se stabilete ipoteza alternativ: H1: modelul este valid;
3) se calculeaz testul F:
s 2 79,64
F x
46,3
1,71
s 2u
y i y
s 2x i
y i y i 2
s 2u i
79,64
79,64
1
n k 1
22,35
1,71
15 2
15
yi
180
12
15
15
Fcalc F;n k 1 F0,05;1,13 4,67
i 1
n x
n x i yi x i yi
2
i
x i 2 n y i2 y i 2
15 4645 375 180
0,88 1 0
Rezult c ntre cele dou variabile exist o legtur direct foarte puternic.
Testarea semnificaiei coeficientului de corelaie:
- se stabilete ipoteza nul: H0: nu este semnificativ statistic;
- se stabilete ipoteza alternativ: H1: este semnificativ statistic;
- se calculeaz testul t:
t
r r n 2 0,88 13
6,75
2
2
sr
1 r
1 0,88
y
n
i 1
n
y
i 1
0,88
Deoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct ntre cele dou
variabile.
Testarea raportului de corelaie se face cu testul F:
F
Cum:
R2
1 R
n k 1
0,78 13
46,09
k
1 0,78 1
2
y n 1
s y
n 1
2
1
1 (24 25) 2
xn1 x
s 1
1
,
71
1
1,82
2
264
15
n xi x
i
2
u
1,35
10,1775 y n 1 13,8225
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.883621
R Square
0.780786
Adjusted R
0.763923
Square
Standard Error
1.311483
Observations
15.000000
ANOVA
Regression
Residual
Total
Intercept
X Variable 1
df
SS
MS
F
Significance F
1.000000 79.640152 79.64015 46.30272 0.000013
2
7
13.000000 22.359848 1.719988
14.000000 102.00000
0
Coefficient Standard
t Stat P-value Lower Upper
s
Error
95%
95%
-1.731061 2.046120 -0.846021 0.412843 -6.151434 2.68931
3
0.549242 0.080716 6.804611 0.000013 0.374866 0.72361
9
RESIDUAL OUTPUT
Observation Predicted Y
1.000000 12.000000
2.000000 10.901515
3.000000 14.746212
4.000000 12.000000
5.000000 9.253788
6.000000 16.393939
7.000000 8.155303
8.000000 9.803030
9.000000 10.352273
10.000000 14.746212
11.000000 12.549242
12.000000 12.549242
13.000000 13.098485
14.000000 14.196970
15.000000 9.253788
Residuals
-2.000000
0.098485
-0.746212
0.000000
-1.253788
1.606061
0.844697
0.196970
-0.352273
0.253788
-1.549242
2.450758
-1.098485
-0.196970
1.746212
Regression Statistics
n
Multiple R
Raportul de corelatie (R)
y i y 2
0.883621
Ry , x
i 1
n
y i y
i 1
y i y i 2
1 i1
n
y i y 2
i 1
y i y
n
R Square
Coeficientul (gradul ) de
determinaie
R2
0.780786
2y / x
2y
2e
2y
i1
y i y
n
i 1
Adjusted R Square
Valoarea ajustat a
coeficientului de
determinaie
0.763923
Standard Error
Abaterea medie ptratic a
erorilor n eantion
1.311483
Observations
Numrul observaiilor (n)
15
2u / n k 1
R 1
2y / n 1
n
su
2u
n2
y i y i 2
i 1
n2
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
Regression
(variaia
1 (k)
datorat
regresiei)
MS =SS/df
(media ptratelor)
(dispersia
corectat)
SS (variana)
(suma ptratelor)
n
SSR= 2x y i y
i 1
2 =
79.640152
s 2x
Total
(variaia
total)
s 2u
i 1
= 22.359848
SST= 2y
14 (n-1)
F= s x / s u
79.640152
SSE= 2u y i y i 2
13 (n-k-1)
Significance F
Testul
F=46.302727
2
x =
k
Residual
(variaia
rezidual)
0.000013<
0.05
(resping H0
model valid)
2u
=
n k 1
1.719988
n
yi y
i 1
= 102.000000
SST=SSR + SSE
s 2y
2y
n 1
Tabel 3
Coefficients
(Coeficieni)
Standard
Error
(Abaterea
medie
patratic)
t Stat
P-value
Lower 95%
Upper 95%
a0 = -1.731061
Timpul
mediu
a1 = 0.549242
s a0
=2.046120
s a1
=0.080716
t a0 = -0.846021
0.412843
> 0,05
-6.151434
2.689313
t a1 = 6.804611
0.000013
< 0,05
0.374866
0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation
1
2
3
4
Predicted y i
Numrul de polie
338.5796
371.2542
376.1748
332.8525
Residuals
yi y i
-14.9986
-27.5722
-0.9108
18.3895
5
6
7
8
9
10
11
12
13
14
15
311.8281
310.6962
325.9235
287.8659
310.9763
382.3073
336.2188
369.2938
338.7504
367.2528
346.0917
16.5889
7.3728
5.0355
-20.6299
9.9067
27.2277
-19.9568
-17.4878
-5.0954
5.4262
16.7043
Problema 2
2. n tabelul urmtor avem informaii privind veniturile obinute de 20 de gospodrii selectate aleator i
taxele pltite de ctre aceste gospodrii:
Venitul
(mii euro)
x
17,5
37,5
47,5
25,0
55,5
35,0
15,5
12,0
32,0
42,3
Taxele
(euro)
y
35,0
60,5
88,5
70,5
125,0
63,0
30,0
30,0
65,0
80,0
Venitul
(mii euro)
x
28,0
22,5
25,0
29,5
65,0
51,0
39,3
33,0
45,0
75,0
Taxele
(euro)
y
75,0
70,0
60,0
65,0
150,0
100,0
75,0
40,0
75,0
200,0
Se cere:
a) s se specifice modelul econometric ce descrie legtura dintre cele dou variabile;
b) s se estimeze parametrii modelului;
c) s se verifice ipotezele metodei celor mai mici ptrate;
d) s se verifice semnificaia parametrilor modelului de regresie pentru = 0,1;
e) s se testeze validitatea modelului de regresie;
f) s se testeze intensitatea legturii dintre cele dou variabile i s se testeze semnificaia indicatorilor
utilizai;
g) s se estimeze punctual i pe interval de ncredere nivelul taxelor care trebuie pltite dac venitul
este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legtura dintre nivelul taxelor i venit pentru cele 20 de gospodrii prin
corelogram sau diagrama norului de puncte:
220
Taxele (euro) y
170
120
70
20
10
20
30
40
50
Venitul (mii euro) x
60
70
80
Din grafic se poate observa c distribuia punctelor (xi, yi) poate fi aproximat cu o dreapt, deci
modelul econometric care descrie legtura dintre cele dou variabile este un model liniar:
y 0 1 x u
0, 1 parametrii modelului;
1 0 (panta dreptei) deoarece legtura dintre cele dou variabile este direct.
b) Pentru estimarea parametrilor modelului de regresie utilizm metoda celor mai mici ptrate:
y i a 0 a1 x i u
i 1,20
y i a 0 a1 x i
y i y i 2 min
y i a 0 a1x i 2
min
a 0 6,4201
a 1 2,2997
xi
n
xi
yi
x i yi
xi
x i2
20
1557,5
733,1 68864
20
2,2997
733,1
733,1 31991,53
a 0 y a1 x 6,4201
200
y = 2,2997x - 6,4201
R = 0,8431
180
Taxele (euro) y
160
140
120
100
80
Taxele (euro) y
60
40
20
0
10
20
30
40
50
Venitul (mii euro) x
unde:
x i x
n
s x i1
5119,74
15,99
20
60
70
80
y i y
n
s y i 1
n
xi
x i 1
n
32116,44
40,07
20
20
xi
733,1
i1
36,655
20
20
20
yi
1557,5
y i 1
77,875
20
20
36,655 3 15,99 x i 36,655 3 15,99
11,315 x i 84,625 (adevrat)
77,875 3 40,07 y i 77,875 3 40,07
42,335 y i 201,085 (adevrat)
c2) Variabila aleatoare (rezidual) u este medie nul i dispersia variabilei reziduale este constant i
independent de variabila factorial (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificat cu metoda grafic (corelograma).
Se reprezint grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezint valorile
variabilei reziduale u.
Va trebui s calculm valorile variabilei reziduale: u i y i y i
Rezultatele sunt prezentate n tabelul de mai jos:
variabila
rezidual u i
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
Venitul (mii
euro) x
17,5
37,5
47,5
25
55,5
35
15,5
12
32
42,3
28
22,5
25
29,5
65
51
39,3
33
45
75
40
variabila rezidual
30
20
10
0
-10
10
20
30
40
50
60
70
80
-20
-30
-40
Deoarece graficul punctelor prezint o evoluie oscilant putem accepta ipoteza c variabila factorial
i cea rezidual sunt independente.
c3) Valorile variabilei reziduale nu sunt autocorelate, adic sunt independente ntre ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafic (corelograma);
- testul Durbin-Warson.
Prin metoda grafic se construiete corelograma trecndu-se pe axa OX valorile variabilei rezultative
yi, iar pe axa OY valorile variabilei reziduale:
40,0
variabila rezidual
30,0
20,0
10,0
0,0
-10,0
50
100
150
200
-20,0
-30,0
-40,0
Taxele (euro) y
Distribuia erorilor este oscilant, adic nu avem alternativ sistematic sub form de dini de
fierstru, deci putem accepta ipoteza c erorile sunt independente, adic nu sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabilete ipoteza nul:
H0: variabila rezidual nu este autocorelat.
- se stabilete ipoteza alternativ:
H1: variabila rezidual este autocorelat.
- se calculeaz testul Durbin-Watson:
u i u i1 2
d calc i 1
u i2
7508,87
1,48
5040,26
i 1
Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul tabel:
ui
u i1
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
u i u i1 2
420,19
25,04
1138,90
244,71
220,80
140,30
64,86
120,79
75,47
777,77
58,47
248,14
28,63
11,29
317,00
3,62
420,66
54,81
3137,41
7508,87
u i2
1,38
373,21
204,94
377,43
14,34
122,53
0,60
77,86
4,71
117,88
289,97
608,95
79,70
12,81
48,16
118,04
80,25
868,48
486,93
1152,10
5040,26
- se compar d calc cu cele dou valori d 1 i d2 din tabelul testului Durbin-Watson pentru pragul de
semnificaie = 0,05 pentru numrul variabilelor exogene k = 1 i pentru n = 20:
d1 = 1,20
d2 = 1,41
d 2 d calc 4 d 2
u i u i1
r1 i 1
u i2
709,41
0,14
5040,26
i 1
Deoarece r1 este apropiat de 0 putem aprecia c valorile variabilei reziduale nu sunt autocorelate, adic
sunt independente.
c4) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa aceast ipotez se folosete metoda grafic (corelograma). Pe axa OX se reprezint
valorile ajustate y i , iar pe axa OY se reprezint valorile variabilei reziduale:
40,0
+ t0,05; 18su
30,0
variabila rezidual
20,0
10,0
0,0
-10,0
0,0
30,0
60,0
90,0
120,0
150,0
180,0
-20,0
-30,0
- t0,05; 18su
-40,0
Se observ c valorile reziduale ui se nscriu n banda construit, deci putem accepta ipoteza de
normalitate a erorilor pentru un prag de semnificaie de = 0,05.
d) Testarea semnificaiei parametrilor modelului
Testarea semnificaiei parametrului 0:
- se stabilete ipoteza nul:
H0: 0 = 0
- se stabilete ipoteza alternativ:
H1: 0 0
- se calculeaz testul t:
t
a 0 6,4201
0,15
s a0
41,82
s a2 s 2u
0
x i2
i
x i x
280,01
31991,53
1449,68
5119,75
y i y i 2
s 2u i
n2
5040,26
280,01
18
s a2
1
s 2u
x i x
20
280,01
0,05
5119,75
i 1
y i y
20
s 2x i 1
27076,18
27076,18
1
- se compar F calc cu F; k;
Fcalc 96,69 F0,1;1;18
= F0,1; 1; 18 = 8,28
se respinge ipoteza nul i se accept alternativa, deci modelul este
n-k-1
valid.
f) Intensitatea legturii dintre cele dou variabile se apreciaz cu ajutorul:
- coeficientului de corelaie;
- raportului de corelaie.
Coeficientul de corelaie:
n x i yi x i yi
ry / x
2
2
n x 2 x i n y 2 y i
i
i i i
i
0,918
Deoarece ry/x = 0,918 1, apreciem c ntre cele dou variabile exist o legtur liniar, direct,
foarte puternic.
Testarea semnificaiei coeficientului de corelaie pentru colectivitatea general:
- se stabilete ipoteza nul: H0: = 0 ( nu este semnificativ statistic);
- se stabilete ipoteza alternativ: H1: 0 ( este semnificativ statistic);
- coeficientul de corelaie la nivelul colectivitii generale
- se calculeaz testul t:
t calc
r n2
0,918 18
9,82
1 0,9182
- se compar t calc cu t ;n 2 t 0,1; 18 2,878
Deoarece t calc t 0,1; 18 respingem ipoteza nul i acceptm alternativa, deci coeficientul de corelaie
1 r2
y i y i 2
R 1 i 1
y i y
5040,26
0,918
32116,44
i 1
- se calculeaz testul F:
Fcalc
n k 1 R 2
18 0,9182
94,5
k
1 R 2 1 1 0,9182
s 2y
x
x
1
1 (40 36,655) 2
s 2u 1 n 1
280,011
294,59
n n
20
5119,75
2
xi x
i 1
n 1
Deci, intervalul de ncredere pentru taxele pltite pentru un venit de 40 mii euro la nivelul populaiei
este:
41,77 (euro) y n 1 129,36 (euro)
apoi Regression i se va
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.918184588
R Square
0.843062937
Adjusted R Square
0.834344212
Standard Error
16.73363108
Observations
20
ANOVA
Regression
Residual
Total
Intercept
X Variable 1 (Venitul)
df
1
18
19
SS
27076.17814
5040.259363
32116.4375
RESIDUAL OUTPUT
Observation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Predicted Y
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
Residuals
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
MS
F
27076.18 96.69566
280.0144
t Stat
-0.6864
9.8334
P-value
0.501209
1.16E-08
Significance F
1.15588E-08
Lower 95%
-26.0708
1.80836
Upper 95%
13.23058
2.791023
y i y 2
Multiple R
Raportul de corelaie (R)
i 1
n
0.918184588 Ry , x
y i y 2
y i y i 2
1 i1
n
y i y 2
i 1
i 1
y i y
n
R Square
Coeficientul (gradul ) de
determinaie
R2
0.843062937
2y / x
2e
2y
2y
i 1
y i y
n
i 1
Adjusted R Square
Valoarea ajustat a
coeficientului de
determinaie
R 1
0.834344212
2u / n k 1
2y / n 1
n
Standard Error
Abaterea medie ptratic a
erorilor n eantion
16.73363108
Observations
Numrul observaiilor (n)
20
su
y i y i 2
2u
n2
i 1
n2
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
Regression
(variaia
datorat
regresiei)
1 (k)
Residual
(variaia
rezidual)
Total
(variaia
total)
SS (variana)
(suma ptratelor)
n
SSR= 2x y i y
i 1
=
2
27076.17814
18 (n-k-1)
SSE= 2u
yi y i
n
i 1
19 (n-1)
2x
=
k
su2
32116.4375
SST=SSR + SSE
Significance
F
F
Testul
F=96.69566
2
F= s x / s u
1.15588E08< 0.05
(resping H0
model valid)
2u
=
n k 1
280.0144
yi y =
i 1
s x2
27076.18
5040.259363
SST= 2y
MS =SS/df
(media ptratelor)
(dispersia
corectat)
s
2
y
2y
n 1
Tabel 3.
Coefficients
(Coeficieni)
Intercept
(termenul
liber)
a0 =
-6.42014248
Venitul
a1 =
2.299690151
Standard Error
(Abaterea medie
patratic)
s a0
t Stat
t a0 =
9.353374888
-0.6864
s a1 =
t a1 =
0.233865325
9.833395
P-value
Lower 95%
Upper 95%
Limita inf. a
intervalului de
ncredere
Limita sup. a
intervalului de
ncredere
0.501209>0,05
-26.07086914
13.23058
1.16E-08<0,05
1.808356955
2.791023
Tabel 4.
RESIDUAL OUTPUT
Observation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Predicted y i
taxe pltite
Residuals
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
yi y i