WWW - Aseonline.ro Probleme Rezolvate REGRESIE

1.
n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei

companii de asigurri de via i anume: timpul mediu, n minute, petrecut de un agent cu
un potenial client i numrul de polie ncheiate ntr-o sptmn. Dac X reprezint
timpul mediu, iar Y reprezint numrul de polie, avem datele sistematizate astfel:
X Y
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
Se cere:
a) s se estimeze parametrii modelului liniar de regresie;
b) s se testeze semnificaia parametrilor modelului pentru un prag de semnificaie
= 5%;
c) s se determine erorile reziduale;
d) s se testeze validitatea modelului de regresie pentru un nivel de semnificaie
= 5%;
e) msurai intensitatea legturii dintre cele dou variabile folosind un indicator
adecvat i testai semnificaia acestuia pentru un nivel de ncredere de 0,5%;
f) efectuai o previzionare punctual i pe interval de ncredere a numrului de
polie ncheiate de un agent care petrece n medie 24 de minute cu un potenial
client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
6
8
10
12
14
16
16 18 20 22 24 26 28 30 32 34
OY
timpul mediu
OX
numar polite
1 cm OY = 5 polie
1 cm OX = 2 minute
a)
i 1 0
i
x a a y +
Parametrii a i b se determin cu ajutorul metodei celor mai mici ptrate:
( ) ( )

min x a a y min y y
i
2
i 1 0 i
i
2
i i
'
+
+

n
1 i
i i
n
1 i
2
i
1
n
1 i
i 0
n
1 i
i
n
1 i
i 1 0
y x x a x a
y x a na
15 n
Pentru a rezolva sistemul vom folosi urmtorul tabel n care sunt prezentate valorile
intermediare:
i
x
i
y
2
i
x
i i
y x
2
i
y
( )
2
i
y y ( )
2
i
x x
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
625
529
900
625
400
1089
324
441
484
900
676
676
729
841
400
250
253
420
300
160
594
162
210
220
450
286
390
324
406
220
100
121
196
144
64
324
81
100
100
225
121
225
144
196
121
4
1
4
0
16
36
9
4
4
9
1
9
0
4
1
0
4
25
0
25
64
49
16
9
25
1
1
4
16
25
375
x
i

180
y
i

9639
x
2
i

4645
y x
i i

2262
y
2
i

102 264
'
+
+
4645 9639 a 375 a
180 375 a a 15
1 0
1 0

'

5492 , 0 a
73 , 1 a
1
0
Deci:
i
i
x 5492 , 0 73 , 1 y +
b) Testarea semnificaiei parametrilor modelului:
Ecuaia de regresie la nivelul colectivitii generale este:
i
i 1 0
i
u x y + +
iar la nivelul eantionului este:
i
i 1 0
i
u x a a y + +
Testarea semnificaiei parametrului
1
:
1) se stabilete ipoteza nul:
H
0
:
1
= 0
2) se stabilete ipoteza alternativ:
H
1
:
1
0, adic
1
este semnificativ diferit de zero, adic
1
este
semnificativ statistic.
3) se calculeaz testul statistic:
deoarece n = 15 < 30 avem eantion de volum redus i pentru testare vom utiliza
testul t:
8 , 6
08 , 0
5492 , 0
s
a
s
0 a
s
a
t
1 1 1
a
1
a
1
a
1 1

( )
0064 , 0
264
7199 , 1
x x
s
s
i
2
i
2
u 2
a
i

( )
7199 , 1
2 15
35 , 22
1 k n
y y
s
i
2
i i
2
u

k reprezint numrul variabilelor factoriale (n cazul modelului unifactorial k

= 1).
25
15
375
15
x
x
15
1 i
i

Pentru un prag de semnificaie de 5% valoarea tabelat a testului este:

t
0,05/2; 13
= t
0,025; 13
= 1,35
0
:
1) se stabilete ipoteza nul: H
0
:
0
= 0;
2) se stabilete ipoteza alternativ: H
1
:
0
0;
3) se calculeaz testul statistic:
84 , 0
096 , 2
73 , 1
s
a
s
0 a
s
a
t
0 0 0
a
0
a
0
a
1 0

( )
186 , 4
264
25
15
1
71 , 1
x x
x
n
1
s s
i
2
i
2
2
u
2
a
0

1
]
1
+
1
1
1
1
]
1
35 , 1 t 84 , 0 t
2 n ; 2 / calc
>
se accept ipoteza nul, adic
parametrul a
0
nu este semnificativ statistic.
c) Erorile reziduale sunt
i i i
y y u
i sunt prezentate n tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validitii modelului de regresie:
1) se stabilete ipoteza nul: H
0
: mprtierea valorilor
t
y
datorate factorului nu
difer semnificativ de mprtierea acelorai valori datorate ntmplrii, deci modelul nu
este valid.
2) se stabilete ipoteza alternativ: H
1
: modelul este valid;
3) se calculeaz testul F:
3 , 46
71 , 1
64 , 79
s
s
F
2
u
2
x

( )
64 , 79
1
64 , 79
k
y y
s
i
2
i
2
x

( )
71 , 1
2 15
35 , 22
1 k n
y y
s
i
2
i i
2
u

12
15
180
15
y
y
15
1 i
i

67 , 4 F F F
13 , 1 ; 05 , 0 1 k n ; calc

Deoarece F
calc
> F
tab
modelul este valid.
e) Intensitatea legturii dintre cele dou variabile se face cu coeficientul de
corelaie liniar:
( ) [ ] ( ) [ ]
[ ][ ]
0 1 88 , 0
180 2262 15 375 9639 15
180 375 4645 15
y y n x x n
y x y x n
r
2 2
2
i
2
i
2
i
2
i
i i i i
>

Rezult c ntre cele dou variabile exist o legtur direct foarte puternic.
Testarea semnificaiei coeficientului de corelaie:
- se stabilete ipoteza nul: H
0
: nu este semnificativ statistic;
- se stabilete ipoteza alternativ: H
1
: este semnificativ statistic;
- se calculeaz testul t:
75 , 6
88 , 0 1
13 88 , 0
r 1
2 n r
s
r
t
2 2
r

16 , 2 t t t
13 ; 05 , 0 1 k n ; calc
>

Coeficientul de corelaie este semnificativ statistic.
Msurarea intensitii legturii cu raportul de corelaie R:
( )
( )
88 , 0
y y
y y
R
n
1 i
2
i
n
1 i
2
i
Deoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct

ntre cele dou variabile.
Testarea raportului de corelaie se face cu testul F:
09 , 46
1
13
78 , 0 1
78 , 0
k
1 k n
R 1
R
F
2
2

Cum:
67 , 4 F F
13 ; 1 ; 05 , 0 calc
>

R este semnificativ statistic.
f)
12 ~ 45 , 11 24 5492 , 0 73 , 1 y
1 n
+
+
polie (aceasta este estimarea
punctual).
Pentru estimarea pe interval de ncredere vom avea:
1 n 1 n
y 1 k n ; 2 / 1 n 1 n y 1 k n ; 2 / 1 n
s t y y s t y
+ +
+
+ + +
35 , 1 t 12 y 35 , 1 t 12
13 ; 025 , 0 1 n 13 ; 025 , 0
+
+
( )
( )
82 , 1
264
) 25 24 (
15
1
1 71 , 1
x x
x x
n
1
1 s s
2
i
2
i
2
1 n 2
u
2
y
1 n

1
1
]
1

+ +
1
1
1
1
]
1
+ +
+
+

35 , 1 s
1 n
y

+
8225 , 13 y 1775 , 10
1 n

+
Intervalul de ncredere pentru numrul de polie ncheiate este:
14 y 10
1 n

+
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi
Regression i se deschide urmtoarea fereastr:
i se obin urmtoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
Square
0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015
2
46.30272
7
0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.00000
0
Coefficient
s
Standard
Error
t Stat P-value Lower
95%
Upper
95%
Intercept -1.731061 2.046120-0.846021 0.412843-6.151434 2.68931
3
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.72361
9
RESIDUAL OUTPUT
Observation Predicted
Y
Residuals
1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Multiple R
Raportul de corelatie (R)
0.883621
( )
( )
( )
( )
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
y y
1
y y
y y
x , Ry
R Square
Coeficientul (gradul ) de
determinaie
0.780786
( )
( )
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y y
1 R
Adjusted R Square
Valoarea ajustat a
coeficientului de
determinaie
0.763923
1 n /
1 k n /
1 R
2
y
2
u
2

Standard Error
Abaterea medie ptratic a
erorilor n eantion
1.311483
( )
2 n
y y
2 n
s
n
1 i
2
i i
2
u
u
Observations
Numrul observaiilor (n)
15
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
SS (variana)
(suma ptratelor)
MS =SS/df
(media ptratelor)
(dispersia
corectat)
F Significance F
Regression
(variaia
datorat
regresiei)
1 (k)
SSR=
( )

n
1 i
2
i
2
x
y y
=
79.640152
k
s
2
x 2
x

=
79.640152
Testul
F=46.302727
F=
2
x
s /
2
u
s
0.000013<
0.05
(resping H0
model valid)
Residual
(variaia
rezidual)
13 (n-k-1)
SSE=
( )

n
1 i
2
i i
2
u
y y =
22.359848
1 k n
s
2
u 2
u

=
1.719988
Total
(variaia
total)
14 (n-1)
SST=
( )

n
1 i
2
i
2
y
y y =
102.000000
SST=SSR + SSE

1 n
s
2
y
2
y

Tabel 3

Coefficients
(Coeficieni)
Standard
Error
(Abaterea
medie
patratic)
t Stat P-value Lower 95% Upper 95%
Limita inf.
a
intervalului
de ncredere
Limita sup. a
intervalului
de ncredere
Intercept
(termenul
liber)
a0= -1.731061
0
a
s

=2.046120
0
a
t
=
-0.846021
0.412843
> 0,05
-6.151434 2.689313
Timpul
mediu
a1 = 0.549242
1
a
s

=0.080716
1 a
t
= 6.804611
0.000013
< 0,05
0.374866 0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i
y
Numrul de polie
Residuals
i i
y y
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
R= 0.883621 arat c ntre numrul de polie ncheiate i timpul mediu petrecut
cu un potenial client exist o legtur puternic.
R
2
=0.780786 arat c 78% din variaia numrului de polie ncheiate este
explicat de timpul mediu petrecut de un agent cu un potenial client.
Abaterea medie patratica a erorilor u
s
= 1.311483. n cazul n care acest
indicator este zero nseamn c toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct
F=46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid i poate fi utilizat pentru
analiza dependenei dintre cele dou variabile.
Interpretarea rezultatelor din tabelul 4:
Intercept este termenul liber, deci coeficientul a
0
este -1.731061. Termenul liber
este punctul n care variabila explicativ (factorial) este 0. Deci numrul de
polie ncheiate, dac timpul petrecut este 0. Deoarece
0
a
t
= -0.846021iar pragul
de semnificaie P-value este 0.412843>0,05 nseamn c acest coeficient este
nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere
(-6.151434

0
2.689313) pentru acest parametru este negativ, iar limita
superioar este pozitiv arat c parametrul din colectivitatea general este
aproximativ zero.
Coeficientul a
1
este 0.549242, ceea ce nsemn c la creterea timpului petrecut cu
un minut, numrul de polie ncheiate va crete cu 0,549242. Deoarece
1 a
t
=
6.804611 iar pragul de semnificaie P-value este 0.000013<0,05 nseamn c
acest coeficient este semnificativ. Intervalul de ncredere pentru acest parametru
este 0.374866

1
0.723619.
2. n tabelul urmtor avem informaii privind veniturile obinute de 20 de
gospodrii selectate aleator i taxele pltite de ctre aceste gospodrii:
Venitul
(mii euro)
x
Taxele
(euro)
y
Venitul
(mii euro)
x
Taxele
(euro)
y
17,5
37,5
47,5
25,0
55,5
35,0
15,5
12,0
32,0
42,3
35,0
60,5
88,5
70,5
125,0
63,0
30,0
30,0
65,0
80,0
28,0
22,5
25,0
29,5
65,0
51,0
39,3
33,0
45,0
75,0
75,0
70,0
60,0
65,0
150,0
100,0
75,0
40,0
75,0
200,0
Se cere:
a) s se specifice modelul econometric ce descrie legtura dintre cele dou
variabile;
b) s se estimeze parametrii modelului;
c) s se verifice ipotezele metodei celor mai mici ptrate;
d) s se verifice semnificaia parametrilor modelului de regresie pentru = 0,1;
e) s se testeze validitatea modelului de regresie;
f) s se testeze intensitatea legturii dintre cele dou variabile i s se testeze
semnificaia indicatorilor utilizai;
g) s se estimeze punctual i pe interval de ncredere nivelul taxelor care trebuie
pltite dac venitul este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legtura dintre nivelul taxelor i venit pentru cele 20 de
gospodrii prin corelogram sau diagrama norului de puncte:
0
20
40
60
80
100
120
140
160
180
200
220
0 10 20 30 40 50 60 70 80
OY
xi
OX
yi
1 cm OX = 10 mii euro ; 1 cm OY = 20 euro
Din grafic se poate observa c distribuia punctelor (x
i
, y
i
) poate fi aproximat cu o
dreapt, deci modelul econometric care descrie legtura dintre cele dou variabile este un
model liniar:
u x y
1 0
+ +
0, 1 parametrii modelului;
1
> 0 (panta dreptei) deoarece legtura dintre cele dou variabile este direct.
b) Pentru estimarea parametrilor modelului de regresie utilizm metoda celor mai
mici ptrate:
20 , 1 i u x a a y
i 1 0
i
+ +
i 1 0
i
x a a y +
( ) ( )

min x a a y min y y
i
2
i 1 0 i
i
2
i i
'
+
+
68864 53 , 31991 a 1 , 733 a
5 , 1557 a 1 , 733 a 20
1 0
1 0

'

2997 , 2 a
4201 , 6 a
1
0
Deci, modelul este:
i
i
x 2997 , 2 4201 , 6 y +
2997 , 2
53 , 31991 1 , 733
1 , 733 20
68864 1 , 733
5 , 1557 20
x x
x n
y x x
y n
a
2
i
i
i
i i i
i
1

4201 , 6 x a y a
1 0

c) Ipotezele metodei celor mai mici ptrate:
c
1
) Variabilele observate nu sunt afectate de erori de msur.
Aceast ipotez se poate verifica cu ajutorul urmtoarelor relaii:
x i x
s 3 x x s 3 x + < <
y i y
s 3 y y s 3 y + < <
unde:
( )
99 , 15
20
74 , 5119
n
x x
s
n
1 i
2
i
x

( )
07 , 40
20
44 , 32116
n
y y
s
n
1 i
2
i
y

655 , 36
20
1 , 733
20
x
n
x
x
20
1 i
i
n
1 i
i

875 , 77
20
5 , 1557
20
y
y
20
1 i
i

99 , 15 3 655 , 36 x 99 , 15 3 655 , 36
i
+ < <
625 , 84 x 315 , 11
i
< <
(adevrat)
07 , 40 3 875 , 77 y 07 , 40 3 875 , 77
i
+ < <
085 , 201 y 335 , 42
i
< <
(adevrat)
Ipoteza poate fi acceptat fr nici un dubiu.
c
2
) Variabila aleatoare (rezidual) u este medie nul i dispersia variabilei reziduale
este constant i independent de variabila factorial (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificat cu metoda grafic (corelograma).
Se reprezint grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se
reprezint valorile variabilei reziduale u.
Va trebui s calculm valorile variabilei reziduale:
i i i
y y u
Rezultatele sunt prezentate n tabelul de mai jos:
i
y
i
u
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80
OY
xi
OX
ui
Deoarece graficul punctelor prezint o evoluie oscilant putem accepta ipoteza c
variabila factorial i cea rezidual sunt independente.
c
3
) Valorile variabilei reziduale nu sunt autocorelate, adic sunt independente ntre
ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafic (corelograma);
- testul Durbin-Warson.
Prin metoda grafic se construiete corelograma trecndu-se pe axa OX valorile
variabilei rezultative y
i
, iar pe axa OY valorile variabilei reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
yi
OX
ui
Distribuia erorilor este oscilant, adic nu avem alternativ sistematic sub form
de dini de fierstru, deci putem accepta ipoteza c erorile sunt independente, adic nu
sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabilete ipoteza nul:
H
0
: variabila rezidual nu este autocorelat.
- se stabilete ipoteza alternativ:
H
1
: variabila rezidual este autocorelat.
- se calculeaz testul Durbin-Watson:
( )
48 , 1
26 , 5040
87 , 7508
u
u u
d
n
1 i
2
i
n
1 i
2
1 i i
calc

Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul

tabel:
i
u
1 i
u

( )
2
1 i i
u u

2
i
u
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
-
420,19
25,04
1138,90
244,71
220,80
140,30
64,86
120,79
75,47
777,77
58,47
248,14
28,63
11,29
317,00
3,62
420,66
54,81
3137,41
1,38
373,21
204,94
377,43
14,34
122,53
0,60
77,86
4,71
117,88
289,97
608,95
79,70
12,81
48,16
118,04
80,25
868,48
486,93
1152,10
7508,87 5040,26
- se compar d
calc
cu cele dou valori d
1
i d
2
din tabelul testului Durbin-Watson
pentru pragul de semnificaie = 0,05 pentru numrul variabilelor exogene k = 1 i
pentru n = 20:
d1 = 1,20 d2 = 1,41
2 calc 2
d 4 d d < <
59 , 2 48 , 1 41 , 1 < <
erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat i
coeficientul de autocorelaie de ordinul I:
14 , 0
26 , 5040
41 , 709
u
u u
r
n
1 i
2
i
n
1 i
1 i i
1

Deoarece r
1
este apropiat de 0 putem aprecia c valorile variabilei reziduale nu sunt
autocorelate, adic sunt independente.
c
4
) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa aceast ipotez se folosete metoda grafic (corelograma). Pe axa OX
se reprezint valorile ajustate
i
y
, iar pe axa OY se reprezint valorile variabilei
reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
OX
ui
Se observ c valorile reziduale u
i
se nscriu n banda construit, deci putem
accepta ipoteza de normalitate a erorilor pentru un prag de semnificaie de = 0,05.
d) Testarea semnificaiei parametrilor modelului
0
:
- se stabilete ipoteza nul:
H
0
:
0
= 0
- se stabilete ipoteza alternativ:
H
1
:
0
0
15 , 0
82 , 41
4201 , 6
s
a
t
0
a
0

( )
68 , 1449
75 , 5119
53 , 31991
01 , 280
x x
x
s s
i
2
i
i
2
i
2
u
2
a
0

( )
01 , 280
18
26 , 5040
2 n
y y
s
i
2
i i
2
u

- se compar t
calc
cu t
/2; n-2
= t
0,05; 15
= 2,101
Deoarece 18 ; 05 , 0 calc
t t <
este foarte probabil ca estimatorul a
0
s provin dintr-o
colectivitate cu
0
= 0 deci
0
nu este diferit semnificativ de zero.
1
:
0
:
1
= 0
+ t
0,05; 18 su
- t
0,05; 18 su
i
y
1
:
1
0
99 , 9
23 , 0
2997 , 2
s
a
t
1
a
1

( )
05 , 0
75 , 5119
01 , 280
x x
s
s
20
1 i
2
i
2
u 2
a
1

- se compar t
calc
cu t
/2; n-2
= t
0,05; 18
= 2,101
t t >
apreciem c parametrul
1
este semnificativ statistic.
Intervalul de ncredere pentru parametrul
1
este:
1 1
a 2 n ; 2 / 1 1 a 2 n ; 2 / 1
s t a s t a +

23 , 0 101 , 2 2997 , 2 23 , 0 101 , 2 2997 , 2
1
+
78293 , 2 81647 , 1
1

e) Testarea validitii modelului de regresie:
0
: modelul nu este valid.
1
: modelul este valid;
- se calculeaz testul F:
69 , 96
01 , 280
18 , 27076
s
s
F
2
u
2
x

( )
18 , 27076
1
18 , 27076
k
y y
s
20
1 i
2
i
2
x

- se compar F
calc
cu F
; k; n-k-1
= F
0,1; 1; 18
= 8,28
18 ; 1 ; 1 , 0 calc
F 69 , 96 F >
se respinge ipoteza nul i se accept alternativa,
deci modelul este valid.

f) Intensitatea legturii dintre cele dou variabile se apreciaz cu ajutorul:
- coeficientului de corelaie;
- raportului de corelaie.
Coeficientul de corelaie:
918 , 0
y y n x x n
y x y x n
r
2
i
i
i
2
i
2
i
i
i
2
i
i
i
i
i
i
i i
x / y

1
1
]
1
,
_
1
1
]
1
,
_

Deoarece r
y/x
= 0,918 1, apreciem c ntre cele dou variabile exist o legtur
liniar, direct, foarte puternic.
Testarea semnificaiei coeficientului de corelaie pentru colectivitatea general:
0
: = 0 ( nu este semnificativ statistic);
1
: 0 ( este semnificativ statistic);
- coeficientul de corelaie la nivelul colectivitii generale
82 , 9
918 , 0 1
18 918 , 0
r 1
2 n r
t
2 2
calc

- se compar
calc
t
cu
878 , 2 t t
18 ; 1 , 0 2 n ;

t t >
respingem ipoteza nul i acceptm alternativa, deci
coeficientul de corelaie este semnificativ statistic.
Raportul de corelaie R:
( )
( )
918 , 0
44 , 32116
26 , 5040
1
y y
y y
1 R
1 i
2
i
1 i
2
i i

Deoarece R = r
y/x
, apreciem c ntre cele dou variabile exist, ntr-adevr,
o legtur liniar.
Testarea semnificaiei raportului de corelaie:
0
: R nu este semnificativ statistic;
1
: R este semnificativ statistic;
- se calculeaz testul F:
5 , 94
918 , 0 1
918 , 0
1
18
R 1
R
k
1 k n
F
2
2
2
2
calc

- se compar
calc
F
cu
28 , 8 F F
18 ; 1 ; 1 , 0 1 k n ; k ;

Deoarece 18 ; 1 ; 1 , 0 calc
F F >
se respinge ipoteza nul i se accept alternativa,
deci raportul de corelaie este semnificativ statistic.
g)
5679 , 85 40 2997 , 2 4201 , 6 y
1 n
+
+
euro (estimarea punctual)
Pentru estimarea pe interval de ncredere vom avea:
1 n 1 n
y 1 k n ; 2 / 1 n 1 n y 1 k n ; 2 / 1 n
s t y y s t y
+ +
+
+ + +
16 , 17 t 5679 , 85 y 16 , 17 t 5679 , 85
552 , 2 18 ; 025 , 0 1 n 552 , 2 18 ; 025 , 0
+
+
( )
( )
59 , 294
75 , 5119
) 655 , 36 40 (
20
1
1 01 , 280
x x
x x
n
1
1 s s
2
n
1 i
2
i
2
1 n 2
u
2
y
1 n

1
1
]
1

+ +
1
1
1
1
1
]
1
+ +
+
+

Deci, intervalul de ncredere pentru taxele pltite pentru un venit de 40 mii euro la
nivelul populaiei este:
) euro ( 36 , 129 y ) euro ( 77 , 41
1 n

+
Rezolvarea problemei cu ajutorul programului informati c EXCEL :
Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi
Regression i se va deschide urmtoarea fereastr:
i se obin urmtoarele rezultate
SUMMARY OUTPUT
Multiple R
0.9181845
88
R Square
0.8430629
37
Adjusted R
Square
0.8343442
12
Standard
Error
16.733631
08
Observations 20
ANOVA

df SS MS F
Significanc
e F
Regression 127076.17814
27076.1
8 96.69566
1.15588E-
08
Residual 185040.259363
280.014
4
Total 19 32116.4375

Coefficient
s
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept -9.353374888 -0.6864 0.501209 - 13.23058
6.4201424
8
26.070869
14
X Variable 1
(Venitul)
2.2996901
510.233865325
9.83339
5 1.16E-08
1.8083569
55 2.791023
RESIDUAL OUTPUT
Observation
Predicted
Y Residuals
1
33.824435
16 1.17556484
2
79.818238
18
-
19.31823818
3
102.81513
97
-
14.31513969
4
51.072111
2919.42788871
5
121.21266
093.787339107
6
74.069012
8 -11.0690128
7
29.225054
860.774945141
8
21.176139
338.823860669
9
67.169942
35
-
2.169942348
10
90.856750
9 -10.8567509
11
57.971181
7417.02881826
12
45.322885
9124.67711409
13
51.072111
298.927888708
14
61.420716
973.579283029
15
143.05971
736.940282674
16
110.86405
52
-
10.86405521
17
83.957680
45
-
8.957680449
18
69.469632
5 -29.4696325
19
97.065914
31
-
22.06591431
20
166.05661
8833.94338117
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Multiple R
Raportul de corelaie
(R)
0.91818458
8
( )
( )
( )
( )
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
y y
1
y y
y y
x , Ry
R Square
Coeficientul (gradul ) de
determinaie
0.84306293
7
( )
( )
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y y
1 R
Adjusted R Square
Valoarea ajustat a
coeficientului de
determinaie
0.83434421
2
1 n /
1 k n /
1 R
2
y
2
u
2

Standard Error
Abaterea medie
ptratic a erorilor n
eantion
16.7336310
8
( )
2 n
y y
2 n
s
n
1 i
2
i i
2
u
u
Observations
Numrul observaiilor
(n)
20
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
SS (variana)
(suma ptratelor)
MS =SS/df
(media ptratelor)
(dispersia
corectat)
F
Significance
F
Regression
(variaia
datorat
regresiei)
1 (k)
SSR= ( )
n
i
i x
y y
1
2
2
=
27076.17814
k
s
x
x
2
2

=
27076.18
Testul
F=96.69566
F=
2
x
s /
2
u
s
1.15588E-
08< 0.05
(resping H0
model
valid)
Residual
(variaia
rezidual)
18 (n-k-1)
SSE= ( )
n
i
i i u
y y
1
2 2
= 5040.259363
1
2
2

k n
s
u
u
=
280.0144
Total
(variaia
total)
19 (n-1)
SST= ( )
n
1 i
2
i
2
y
y y =
32116.4375
SST=SSR + SSE
1
2
2
n
s
y
y

Tabel 3.
Coefficients
(Coeficieni)
Standard Error
(Abaterea medie
patratic)
t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului de
ncredere
Limita sup.
a
intervalului
de ncredere
Intercept
(termenul
liber)
a0=
-6.42014248
0
a
s
=
9.353374888
0
a
t
=
-0.6864
0.501209>0,05 -26.07086914 13.23058
Venitul
a1 =
2.299690151
1
a
s
=
0.233865325
1 a
t
=
9.833395
1.16E-08<0,05 1.808356955 2.791023
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i
y
taxe pltite
Residuals
i i
y y
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
R= 0.918184588 arat c ntre impozitele pltite i venitul anual, exist o legtur
puternic.
R
2
=0.843062937 arat c 84% din variaia impozitelor este explicat de venit
Abaterea medie patratica a erorilor u
s
= 16.73363108. n cazul n care acest
indicator este zero nseamn c toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct
F=96.69566, iar Significance F (pragul de semnificaie) este 1.15588E-08 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid i poate fi utilizat pentru
analiza dependenei dintre cele dou variabile.
Interpretarea rezultatelor din tabelul 4:
Intercept este termenul liber, deci coeficientul a
0
este -6.42014248. Termenul
liber este punctul n care variabila explicativ (factorial) este 0. Deci impozitele
care ar trebui pltite, dac nu s-ar obine nici un venit. Deoarece
0
a
t
= -0.6864 iar
pragul de semnificaie P-value este 0.501209>0,05 nseamn c acest coeficient
este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere
(-26.07086914

0
13.23058) pentru acest parametru este negativ, iar limita
superioar este pozitiv arat c parametrul din colectivitatea general este
aproximativ zero.
Coeficientul a
1
este 2.299690151, ceea ce nsemn c la creterea venitului cu o mie euro,
taxele vor crete cu 2,299690151 euro. Deoarece
1 a
t
= 9.833395 iar pragul de
semnificaie P-value este 1.16E-08<0,05 nseamn c acest coeficient este semnificativ.
Intervalul de ncredere pentru acest parametru este 1.808356955

1
2.791023

WWW - Aseonline.ro Probleme Rezolvate REGRESIE

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

WWW - Aseonline.ro Probleme Rezolvate REGRESIE

Încărcat de

Drepturi de autor:

Formate disponibile

1.

n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei

k reprezint numrul variabilelor factoriale (n cazul modelului unifactorial k

Pentru un prag de semnificaie de 5% valoarea tabelat a testului este:

Deoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct

Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul

S-ar putea să vă placă și