P. 1
Www.aseonline.ro Probleme Rezolvate REGRESIE

Www.aseonline.ro Probleme Rezolvate REGRESIE

|Views: 518|Likes:
Published by Antonescu Ioana

More info:

Published by: Antonescu Ioana on Jan 16, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

05/30/2014

pdf

text

original

1.

În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei
companii de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu
un potenţial client şi numărul de poliţe încheiate într-o săptămână. Dacă X reprezintă
timpul mediu, iar Y reprezintă numărul de poliţe, avem datele sistematizate astfel:
X Y
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
Se cere:
a) să se estimeze parametrii modelului liniar de regresie;
b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie
α = 5%;
c) să se determine erorile reziduale;
d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie α
= 5%;
e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator
adecvat şi testaţi semnificaţia acestuia pentru un nivel de încredere de 0,5%;
f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de
poliţe încheiate de un agent care petrece în medie 24 de minute cu un potenţial
client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
6
8
10
12
14
16
16 18 20 22 24 26 28 30 32 34
OY
timpul mediu
OX
numar polite
1 cm OY = 5 poliţe
1 cm OX = 2 minute
a)
i 1 0
i
x a a yˆ + ·
Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
¹
¹
¹
¹
'
¹
· +
· +
∑ ∑ ∑
∑ ∑
· · ·
· ·
n
1 i
i i
n
1 i
2
i
1
n
1 i
i 0
n
1 i
i
n
1 i
i 1 0
y x x a x a
y x a na
15 n ·
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile
intermediare:
i
x
i
y
2
i
x
i i
y x
2
i
y
( )
2
i
y y − ( )
2
i
x x −
25
23
30
25
20
33
18
21
22
30
26
26
27
29
20
10
11
14
12
8
18
9
10
10
15
11
15
12
14
11
625
529
900
625
400
1089
324
441
484
900
676
676
729
841
400
250
253
420
300
160
594
162
210
220
450
286
390
324
406
220
100
121
196
144
64
324
81
100
100
225
121
225
144
196
121
4
1
4
0
16
36
9
4
4
9
1
9
0
4
1
0
4
25
0
25
64
49
16
9
25
1
1
4
16
25
375
x
i
·

180
y
i
·

9639
x
2
i
·

4645
y x
i i
·

2262
y
2
i
·

102 264
¹
'
¹
· ⋅ + ⋅
· ⋅ +
4645 9639 a 375 a
180 375 a a 15
1 0
1 0

¹
'
¹
·
− ·
5492 , 0 a
73 , 1 a
1
0
Deci:
i
i
x 5492 , 0 73 , 1 yˆ ⋅ + − ·
b) Testarea semnificaţiei parametrilor modelului:
Ecuaţia de regresie la nivelul colectivităţii generale este:
i
i 1 0
i
u x y + α + α ·
iar la nivelul eşantionului este:
i
i 1 0
i
u x a a y + + ·
Testarea semnificaţiei parametrului α
1
:
1) se stabileşte ipoteza nulă:
H
0
: α
1
= 0
2) se stabileşte ipoteza alternativă:
H
1
: α
1
≠ 0, adică α
1
este semnificativ diferit de zero, adică α
1
este
semnificativ statistic.
3) se calculează testul statistic:
deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza
testul t:
8 , 6
08 , 0
5492 , 0
s
a
s
0 a
s
a
t
1 1 1
a
1
a
1
a
1 1
· · ·

·
α −
·
( )
0064 , 0
264
7199 , 1
x x
s
s
i
2
i
2
u 2
a
i
· ·

·

( )
7199 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k
= 1).
25
15
375
15
x
x
15
1 i
i
· · ·

·
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este:
t
0,05/2; 13
= t
0,025; 13
= 1,35
Testarea semnificaţiei parametrului α
0
:
1) se stabileşte ipoteza nulă: H
0
: α
0
= 0;
2) se stabileşte ipoteza alternativă: H
1
: α
0
≠ 0;
3) se calculează testul statistic:
84 , 0
096 , 2
73 , 1
s
a
s
0 a
s
a
t
0 0 0
a
0
a
0
a
1 0
− ·

· ·

·
α −
·
( )
186 , 4
264
25
15
1
71 , 1
x x
x
n
1
s s
i
2
i
2
2
u
2
a
0
·
1
]
1

¸

+ ·
1
1
1
1
]
1

¸


+ ·

35 , 1 t 84 , 0 t
2 n ; 2 / calc
− · − > − ·
− α ⇒ se acceptă ipoteza nulă, adică
parametrul a
0
nu este semnificativ statistic.
c) Erorile reziduale sunt
i i i
yˆ y u − ·
şi sunt prezentate în tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validităţii modelului de regresie:
1) se stabileşte ipoteza nulă: H
0
: împrăştierea valorilor
t

datorate factorului nu
diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu
este valid.
2) se stabileşte ipoteza alternativă: H
1
: modelul este valid;
3) se calculează testul F:
3 , 46
71 , 1
64 , 79
s
s
F
2
u
2
x
· · ·
( )
64 , 79
1
64 , 79
k
y yˆ
s
i
2
i
2
x
· ·

·

( )
71 , 1
2 15
35 , 22
1 k n
yˆ y
s
i
2
i i
2
u
·

·
− −

·

12
15
180
15
y
y
15
1 i
i
· · ·

·
67 , 4 F F F
13 , 1 ; 05 , 0 1 k n ; calc
· · ·
− − α
Deoarece F
calc
> F
tab
⇒ modelul este valid.
e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de
corelaţie liniară:
( ) [ ] ( ) [ ]
[ ][ ]
0 1 88 , 0
180 2262 15 375 9639 15
180 375 4645 15
y y n x x n
y x y x n
r
2 2
2
i
2
i
2
i
2
i
i i i i
> → ·
− ⋅ − ⋅
⋅ − ⋅
·
·
− −
⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: ρ nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: ρ este semnificativ statistic;
- se calculează testul t:
75 , 6
88 , 0 1
13 88 , 0
r 1
2 n r
s
r
t
2 2
r
·


·


· ·
16 , 2 t t t
13 ; 05 , 0 1 k n ; calc
· · >
− − α ⇒
Coeficientul de corelaţie este semnificativ statistic.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
( )
( )
88 , 0
y y
y yˆ
R
n
1 i
2
i
n
1 i
2
i
·


·


·
·
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă
între cele două variabile.
Testarea raportului de corelaţie se face cu testul F:
09 , 46
1
13
78 , 0 1
78 , 0
k
1 k n
R 1
R
F
2
2
· ⋅

·
− −


·
Cum:
67 , 4 F F
13 ; 1 ; 05 , 0 calc
· >

R este semnificativ statistic.
f)
12 ~ 45 , 11 24 5492 , 0 73 , 1 yˆ
1 n
· ⋅ + − ·
+
poliţe (aceasta este estimarea
punctuală).
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
35 , 1 t 12 y 35 , 1 t 12
13 ; 025 , 0 1 n 13 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
+
( )
( )
82 , 1
264
) 25 24 (
15
1
1 71 , 1
x x
x x
n
1
1 s s
2
i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
]
1

¸



+ + ·

+
+

35 , 1 s
1 n

·
+
8225 , 13 y 1775 , 10
1 n
≤ ≤
+
Intervalul de încredere pentru numărul de poliţe încheiate este:
14 y 10
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se deschide următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
Square
0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015
2
46.30272
7
0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.00000
0
Coefficient
s
Standard
Error
t Stat P-value Lower
95%
Upper
95%
Intercept -1.731061 2.046120-0.846021 0.412843-6.151434 2.68931
3
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.72361
9
RESIDUAL OUTPUT
Observation Predicted
Y
Residuals
1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelatie (R)
0.883621
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.780786
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.763923
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie pătratică a
erorilor în eşantion
1.311483
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor (n)
15
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F Significance F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR=
( )

·
− · ∆
n
1 i
2
i
2
x
y yˆ
=
79.640152
k
s
2
x 2
x

·
=
79.640152
Testul
F=46.302727
F=
2
x
s /
2
u
s
0.000013<
0.05
(resping H0 –
model valid)
Residual
(variaţia
reziduală)
13 (n-k-1)
SSE=
( )

·
− · ∆
n
1 i
2
i i
2
u
yˆ y =
22.359848
1 k n
s
2
u 2
u
− −

·
=
1.719988
Total
(variaţia
totală)
14 (n-1)
SST=
( )

·
− · ∆
n
1 i
2
i
2
y
y y =
102.000000
SST=SSR + SSE

1 n
s
2
y
2
y


·

Tabel 3

Coefficients
(Coeficienţi)
Standard
Error
(Abaterea
medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf.
a
intervalului
de încredere
Limita sup. a
intervalului
de încredere
Intercept
(termenul
liber)
a0= -1.731061
0
a
s

=2.046120
0
a
t
=
-0.846021
0.412843
> 0,05
-6.151434 2.689313
Timpul
mediu
a1 = 0.549242
1
a
s

=0.080716
1 a
t
= 6.804611
0.000013
< 0,05
0.374866 0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

Numărul de poliţe
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut
cu un potenţial client există o legătură puternică.
 R
2
=0.780786 arată că 78% din variaţia numărului de poliţe încheiate este
explicată de timpul mediu petrecut de un agent cu un potenţial client.
 Abaterea medie patratica a erorilor u
s
= 1.311483. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -1.731061. Termenul liber
este punctul în care variabila explicativă (factorială) este 0. Deci numărul de
poliţe încheiate, dacă timpul petrecut este 0. Deoarece
0
a
t
= -0.846021iar pragul
de semnificaţie P-value este 0.412843>0,05 înseamnă că acest coeficient este
nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-6.151434 ≤ ≤
α
0
2.689313) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
 Coeficientul a
1
este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu
un minut, numărul de poliţe încheiate va creşte cu 0,549242. Deoarece
1 a
t
=
6.804611 iar pragul de semnificaţie P-value este 0.000013<0,05 înseamnă că
acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru
este 0.374866
≤ ≤
1
α
0.723619.
2. În tabelul următor avem informaţii privind veniturile obţinute de 20 de
gospodării selectate aleator şi taxele plătite de către aceste gospodării:
Venitul
(mii euro)
x
Taxele
(euro)
y
Venitul
(mii euro)
x
Taxele
(euro)
y
17,5
37,5
47,5
25,0
55,5
35,0
15,5
12,0
32,0
42,3
35,0
60,5
88,5
70,5
125,0
63,0
30,0
30,0
65,0
80,0
28,0
22,5
25,0
29,5
65,0
51,0
39,3
33,0
45,0
75,0
75,0
70,0
60,0
65,0
150,0
100,0
75,0
40,0
75,0
200,0
Se cere:
a) să se specifice modelul econometric ce descrie legătura dintre cele două
variabile;
b) să se estimeze parametrii modelului;
c) să se verifice ipotezele metodei celor mai mici pătrate;
d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0,1;
e) să se testeze validitatea modelului de regresie;
f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze
semnificaţia indicatorilor utilizaţi;
g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie
plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de
gospodării prin corelogramă sau diagrama norului de puncte:
0
20
40
60
80
100
120
140
160
180
200
220
0 10 20 30 40 50 60 70 80
OY
xi
OX
yi
1 cm OX = 10 mii euro ; 1 cm OY = 20 euro
Din grafic se poate observa că distribuţia punctelor (x
i
, y
i
) poate fi aproximată cu o
dreaptă, deci modelul econometric care descrie legătura dintre cele două variabile este un
model liniar:
u x y
1 0
+ α + α ·
α 0, α 1 – parametrii modelului;
α
1
> 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.
b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai
mici pătrate:
20 , 1 i u x a a y
i 1 0
i
· + + ·
i 1 0
i
x a a yˆ + ·
( ) ( ) ⇔ − − ⇔ −
∑ ∑
min x a a y min yˆ y
i
2
i 1 0 i
i
2
i i
¹
'
¹
· ⋅ + ⋅
· +
68864 53 , 31991 a 1 , 733 a
5 , 1557 a 1 , 733 a 20
1 0
1 0

¹
'
¹
·
− ·
2997 , 2 a
4201 , 6 a
1
0
Deci, modelul este:
i
i
x 2997 , 2 4201 , 6 yˆ + − ·
2997 , 2
53 , 31991 1 , 733
1 , 733 20
68864 1 , 733
5 , 1557 20
x x
x n
y x x
y n
a
2
i
i
i
i i i
i
1
· · ·
∑ ∑

∑ ∑

4201 , 6 x a y a
1 0
− · ⋅ − ·
c) Ipotezele metodei celor mai mici pătrate:
c
1
) Variabilele observate nu sunt afectate de erori de măsură.
Această ipoteză se poate verifica cu ajutorul următoarelor relaţii:
x i x
s 3 x x s 3 x + < < −
y i y
s 3 y y s 3 y + < < −
unde:
( )
99 , 15
20
74 , 5119
n
x x
s
n
1 i
2
i
x
· ·

·

·
( )
07 , 40
20
44 , 32116
n
y y
s
n
1 i
2
i
y
· ·

·

·
655 , 36
20
1 , 733
20
x
n
x
x
20
1 i
i
n
1 i
i
· · · ·
∑ ∑
· ·
875 , 77
20
5 , 1557
20
y
y
20
1 i
i
· · ·

·
99 , 15 3 655 , 36 x 99 , 15 3 655 , 36
i
⋅ + < < ⋅ −
625 , 84 x 315 , 11
i
< < −
(adevărat)
07 , 40 3 875 , 77 y 07 , 40 3 875 , 77
i
⋅ + < < ⋅ −
085 , 201 y 335 , 42
i
< < −
(adevărat)
Ipoteza poate fi acceptată fără nici un dubiu.
c
2
) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale
este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).
Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se
reprezintă valorile variabilei reziduale u.
Va trebui să calculăm valorile variabilei reziduale:
i i i
yˆ y u − ·
Rezultatele sunt prezentate în tabelul de mai jos:
i

i
u
33,82
79,82
102,82
51,07
121,21
74,07
29,23
21,18
67,17
90,86
57,97
45,32
51,07
61,42
143,06
110,86
83,96
69,47
97,07
166,06
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80
OY
xi
OX
ui
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că
variabila factorială şi cea reziduală sunt independente.
c
3
) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între
ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafică (corelograma);
- testul Durbin-Warson.
Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile
variabilei rezultative y
i
, iar pe axa OY valorile variabilei reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
yi
OX
ui
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă
de dinţi de fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu
sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabileşte ipoteza nulă:
H
0
: variabila reziduală nu este autocorelată.
- se stabileşte ipoteza alternativă:
H
1
: variabila reziduală este autocorelată.
- se calculează testul Durbin-Watson:
( )
48 , 1
26 , 5040
87 , 7508
u
u u
d
n
1 i
2
i
n
1 i
2
1 i i
calc
· ·

·


·
·

Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul
tabel:
i
u
1 i
u

( )
2
1 i i
u u


2
i
u
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
33,94
-
1,18
-19,32
-14,32
19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03
24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47
-22,07
-
420,19
25,04
1138,90
244,71
220,80
140,30
64,86
120,79
75,47
777,77
58,47
248,14
28,63
11,29
317,00
3,62
420,66
54,81
3137,41
1,38
373,21
204,94
377,43
14,34
122,53
0,60
77,86
4,71
117,88
289,97
608,95
79,70
12,81
48,16
118,04
80,25
868,48
486,93
1152,10
7508,87 5040,26
- se compară d
calc
cu cele două valori d
1
şi d
2
din tabelul testului Durbin-Watson
pentru pragul de semnificaţie α = 0,05 pentru numărul variabilelor exogene k = 1 şi
pentru n = 20:
d1 = 1,20 d2 = 1,41
2 calc 2
d 4 d d − < <
59 , 2 48 , 1 41 , 1 < <
⇒erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi
coeficientul de autocorelaţie de ordinul I:
14 , 0
26 , 5040
41 , 709
u
u u
r
n
1 i
2
i
n
1 i
1 i i
1
· ·

·


·
·

Deoarece r
1
este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt
autocorelate, adică sunt independente.
c
4
) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). Pe axa OX
se reprezintă valorile ajustate
i

, iar pe axa OY se reprezintă valorile variabilei
reziduale:
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
35
0 20 40 60 80 100 120 140 160 180
OY
OX
ui
Se observă că valorile reziduale u
i
se înscriu în banda construită, deci putem
accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0,05.
d) Testarea semnificaţiei parametrilor modelului
Testarea semnificaţiei parametrului α
0
:
- se stabileşte ipoteza nulă:
H
0
: α
0
= 0
- se stabileşte ipoteza alternativă:
H
1
: α
0
≠ 0
- se calculează testul t:
15 , 0
82 , 41
4201 , 6
s
a
t
0
a
0
− ·

· ·
( )
68 , 1449
75 , 5119
53 , 31991
01 , 280
x x
x
s s
i
2
i
i
2
i
2
u
2
a
0
· ⋅ ·

⋅ ·


( )
01 , 280
18
26 , 5040
2 n
yˆ y
s
i
2
i i
2
u
· ·


·

- se compară t
calc
cu t
α /2; n-2
= t
0,05; 15
= 2,101
Deoarece 18 ; 05 , 0 calc
t t <
⇒este foarte probabil ca estimatorul a
0
să provină dintr-o
colectivitate cu α
0
= 0 deci α
0
nu este diferit semnificativ de zero.
Testarea semnificaţiei parametrului α
1
:
- se stabileşte ipoteza nulă: H
0
: α
1
= 0
+ t
0,05; 18⋅ su
- t
0,05; 18⋅ su
i

- se stabileşte ipoteza alternativă: H
1
: α
1
≠ 0
- se calculează testul t:
99 , 9
23 , 0
2997 , 2
s
a
t
1
a
1
· · ·
( )
05 , 0
75 , 5119
01 , 280
x x
s
s
20
1 i
2
i
2
u 2
a
1
· ·

·

·
- se compară t
calc
cu t
α /2; n-2
= t
0,05; 18
= 2,101
Deoarece 18 ; 05 , 0 calc
t t >
⇒apreciem că parametrul α
1
este semnificativ statistic.
Intervalul de încredere pentru parametrul α
1
este:
1 1
a 2 n ; 2 / 1 1 a 2 n ; 2 / 1
s t a s t a ⋅ + ≤ α ≤ ⋅ −
− α − α
23 , 0 101 , 2 2997 , 2 23 , 0 101 , 2 2997 , 2
1
⋅ + ≤ α ≤ ⋅ −
78293 , 2 81647 , 1
1
≤ α ≤
e) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă: H
0
: modelul nu este valid.
- se stabileşte ipoteza alternativă: H
1
: modelul este valid;
- se calculează testul F:
69 , 96
01 , 280
18 , 27076
s
s
F
2
u
2
x
· · ·
( )
18 , 27076
1
18 , 27076
k
y yˆ
s
20
1 i
2
i
2
x
· ·

·

·
- se compară F
calc
cu F
α ; k; n-k-1
= F
0,1; 1; 18
= 8,28
18 ; 1 ; 1 , 0 calc
F 69 , 96 F > ·
⇒se respinge ipoteza nulă şi se acceptă alternativa,
deci modelul este valid.

f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:
- coeficientului de corelaţie;
- raportului de corelaţie.
Coeficientul de corelaţie:
918 , 0
y y n x x n
y x y x n
r
2
i
i
i
2
i
2
i
i
i
2
i
i
i
i
i
i
i i
x / y
·
1
1
]
1

¸

,
_

¸
¸

1
1
]
1

¸

,
_

¸
¸

⋅ −
·
∑ ∑ ∑ ∑
∑ ∑ ∑
Deoarece r
y/x
= 0,918 →1, apreciem că între cele două variabile există o legătură
liniară, directă, foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
- se stabileşte ipoteza nulă: H
0
: ρ = 0 (ρ nu este semnificativ statistic);
- se stabileşte ipoteza alternativă: H
1
: ρ ≠ 0 (ρ este semnificativ statistic);
ρ - coeficientul de corelaţie la nivelul colectivităţii generale
- se calculează testul t:
82 , 9
918 , 0 1
18 918 , 0
r 1
2 n r
t
2 2
calc
·


·


·
- se compară
calc
t
cu
878 , 2 t t
18 ; 1 , 0 2 n ;
· ·
− α
Deoarece 18 ; 1 , 0 calc
t t >
⇒ respingem ipoteza nulă şi acceptăm alternativa, deci
coeficientul de corelaţie este semnificativ statistic.
Raportul de corelaţie R:
( )
( )
918 , 0
44 , 32116
26 , 5040
1
y y
yˆ y
1 R
1 i
2
i
1 i
2
i i
· − ·


− ·


·
·
Deoarece R = r
y/x
, apreciem că între cele două variabile există, într-adevăr,
o legătură liniară.
Testarea semnificaţiei raportului de corelaţie:
- se stabileşte ipoteza nulă: H
0
: R nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H
1
: R este semnificativ statistic;
- se calculează testul F:
5 , 94
918 , 0 1
918 , 0
1
18
R 1
R
k
1 k n
F
2
2
2
2
calc
·

⋅ ·


− −
·
- se compară
calc
F
cu
28 , 8 F F
18 ; 1 ; 1 , 0 1 k n ; k ;
· ·
− − α
Deoarece 18 ; 1 ; 1 , 0 calc
F F >
⇒se respinge ipoteza nulă şi se acceptă alternativa,
deci raportul de corelaţie este semnificativ statistic.
g)
5679 , 85 40 2997 , 2 4201 , 6 yˆ
1 n
· ⋅ + − ·
+
euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea:
1 n 1 n
yˆ 1 k n ; 2 / 1 n 1 n yˆ 1 k n ; 2 / 1 n
s t yˆ y s t yˆ
+ +
⋅ + ≤ ≤ ⋅ −
− − α + + − − α +
16 , 17 t 5679 , 85 y 16 , 17 t 5679 , 85
552 , 2 18 ; 025 , 0 1 n 552 , 2 18 ; 025 , 0
⋅ + ≤ ≤ ⋅ −
· + ·
( )
( )
59 , 294
75 , 5119
) 655 , 36 40 (
20
1
1 01 , 280
x x
x x
n
1
1 s s
2
n
1 i
2
i
2
1 n 2
u
2

1 n
·
1
1
]
1

¸


+ + ·
1
1
1
1
1
]
1

¸



+ + ·

·
+
+

Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la
nivelul populaţiei este:
) euro ( 36 , 129 y ) euro ( 77 , 41
1 n
≤ ≤
+
Rezolvarea problemei cu ajutorul programului informati c EXCEL :
Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi
Regression şi se va deschide următoarea fereastră:
şi se obţin următoarele rezultate
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.9181845
88
R Square
0.8430629
37
Adjusted R
Square
0.8343442
12
Standard
Error
16.733631
08
Observations 20
ANOVA

df SS MS F
Significanc
e F
Regression 127076.17814
27076.1
8 96.69566
1.15588E-
08
Residual 185040.259363
280.014
4
Total 19 32116.4375

Coefficient
s
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept -9.353374888 -0.6864 0.501209 - 13.23058
6.4201424
8
26.070869
14
X Variable 1
(Venitul)
2.2996901
510.233865325
9.83339
5 1.16E-08
1.8083569
55 2.791023
RESIDUAL OUTPUT
Observation
Predicted
Y Residuals
1
33.824435
16 1.17556484
2
79.818238
18
-
19.31823818
3
102.81513
97
-
14.31513969
4
51.072111
2919.42788871
5
121.21266
093.787339107
6
74.069012
8 -11.0690128
7
29.225054
860.774945141
8
21.176139
338.823860669
9
67.169942
35
-
2.169942348
10
90.856750
9 -10.8567509
11
57.971181
7417.02881826
12
45.322885
9124.67711409
13
51.072111
298.927888708
14
61.420716
973.579283029
15
143.05971
736.940282674
16
110.86405
52
-
10.86405521
17
83.957680
45
-
8.957680449
18
69.469632
5 -29.4696325
19
97.065914
31
-
22.06591431
20
166.05661
8833.94338117
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelaţie
(R)
0.91818458
8
( )
( )
( )
( )




·
·
·
·


− ·


·
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
y y
yˆ y
1
y y
y yˆ
x , Ry
R Square
Coeficientul (gradul ) de
determinaţie
0.84306293
7
( )
( )


·
·


·


− ·


·
n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y yˆ
1 R
Adjusted R Square
Valoarea ajustată a
coeficientului de
determinaţie
0.83434421
2
1 n /
1 k n /
1 R
2
y
2
u
2
− ∆
− − ∆
− ·
Standard Error
Abaterea medie
pătratică a erorilor în
eşantion
16.7336310
8
( )
2 n
yˆ y
2 n
s
n
1 i
2
i i
2
u
u


·


·

·
Observations
Numărul observaţiilor
(n)
20
Tabel 2.
ANOVA
Sursa
variaţiei
df
(grade de
libertate)
SS (varianţa)
(suma pătratelor)
MS =SS/df
(media pătratelor)
(dispersia
corectată)
F
Significance
F
Regression
(variaţia
datorată
regresiei)
1 (k)
SSR= ( ) ∑ − · ∆
·
n
i
i x
y y
1
2
2
ˆ =
27076.17814
k
s
x
x
2
2

·
=
27076.18
Testul
F=96.69566
F=
2
x
s /
2
u
s
1.15588E-
08< 0.05
(resping H0
– model
valid)
Residual
(variaţia
reziduală)
18 (n-k-1)
SSE= ( ) ∑ − · ∆
·
n
i
i i u
y y
1
2 2
ˆ
= 5040.259363
1
2
2
− −

·
k n
s
u
u
=
280.0144
Total
(variaţia
totală)
19 (n-1)
SST= ( ) ∑ − · ∆
·
n
1 i
2
i
2
y
y y =
32116.4375
SST=SSR + SSE
1
2
2


·
n
s
y
y

Tabel 3.
Coefficients
(Coeficienţi)
Standard Error
(Abaterea medie
patratică)
t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului de
încredere
Limita sup.
a
intervalului
de încredere
Intercept
(termenul
liber)
a0=
-6.42014248
0
a
s
=
9.353374888
0
a
t
=
-0.6864
0.501209>0,05 -26.07086914 13.23058
Venitul
a1 =
2.299690151
1
a
s
=
0.233865325
1 a
t
=
9.833395
1.16E-08<0,05 1.808356955 2.791023
Tabel 4.
RESIDUAL OUTPUT
Observation
Predicted
i

taxe plătite
Residuals
i i
y y ˆ −
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT :
 R= 0.918184588 arată că între impozitele plătite şi venitul anual, există o legătură
puternică.
 R
2
=0.843062937 arată că 84% din variaţia impozitelor este explicată de venit
 Abaterea medie patratica a erorilor u
s
= 16.73363108. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât
F=96.69566, iar Significance F (pragul de semnificaţie) este 1.15588E-08 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru
analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:
 Intercept este termenul liber, deci coeficientul a
0
este -6.42014248. Termenul
liber este punctul în care variabila explicativă (factorială) este 0. Deci impozitele
care ar trebui plătite, dacă nu s-ar obţine nici un venit. Deoarece
0
a
t
= -0.6864 iar
pragul de semnificaţie P-value este 0.501209>0,05 înseamnă că acest coeficient
este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-26.07086914 ≤ ≤
α
0
13.23058) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este
aproximativ zero.
Coeficientul a
1
este 2.299690151, ceea ce însemnă că la creşterea venitului cu o mie euro,
taxele vor creşte cu 2,299690151 euro. Deoarece
1 a
t
= 9.833395 iar pragul de
semnificaţie P-value este 1.16E-08<0,05 înseamnă că acest coeficient este semnificativ.
Intervalul de încredere pentru acest parametru este 1.808356955
≤ ≤
1
α
2.791023

OY

16 14 12 10 8 6

num ar polite

OX 16 18 20 22 24 26 28 30 32 34 tim pul m ediu

1 cm OY = 5 poliţe 1 cm OX = 2 minute
ˆ y i =a 0 + a 1 x i a) Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:

∑ ( yi
i

ˆ − y i ) 2 min

∑( yi
i

− a 0 − a 1 x i ) 2 min

n n   na 0 + a 1 ∑ x i = ∑ y i  i =1 i =1 n =15  n n n 2 a ∑ x + a ∑ x = ∑ x y 1 i i i  0 i =1 i i =1 i =1  Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile intermediare:

xi

yi

2 xi

x i yi

2 yi

(y i − y )2 (x i − x ) 2
4 1 4 0 16 36 9 4 4 9 1 9 0 4 1 102 0 4 25 0 25 64 49 16 9 25 1 1 4 16 25 264

∑x i
375

25 23 30 25 20 33 18 21 22 30 26 26 27 29 20

=

∑y i
180

10 11 14 12 8 18 9 10 10 15 11 15 12 14 11

625 529 900 625 400 1089 324 441 484 900 676 676 729 841 400
=
x2 ∑i = 93 69

∑x i y i
4645

250 253 420 300 160 594 162 210 220 450 286 390 324 406 220

100 121 196 144 64 324 81 100 100 225 121 225 144 196 121
= ∑ 2 = yi
26 22

5 9 ⋅ x i 1 3 42 b) Testarea semnificaţiei parametrilor modelului: Ecuaţia de regresie la nivelul colectivităţii generale este: y i = α0 + α x i + u i 1 iar la nivelul eşantionului este: y i =a 0 + a 1 x i + u i Testarea semnificaţiei parametrului α 1: 1) se stabileşte ipoteza nulă: H0 : α 1 = 0 2) se stabileşte ipoteza alternativă: H1 : α 1 ≠ 0.5492 Deci: ˆ y i =− .35 = 1. 2) se stabileşte ipoteza alternativă: H1: α 0 ≠ 0.15a 0 + a 1 ⋅ 375 = 180  a 0 ⋅ 375 + a 1 ⋅ 9639 = 4645 a 0 = −1. 13 = 1.0064 264 s2 = i u ∑( yi ˆ − yi ) 2 = k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k = 1). adică α 1 este semnificativ diferit de zero.7199 15 − 2 ∑xi 15 Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este: t0.025.7199 = 0.8 s a1 s a1 s a1 0. 3) se calculează testul statistic: deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t: a − α1 a 1 − 0 a 1 0.7 +0. adică α 1 este semnificativ statistic.84 s a0 s a0 s a 0 2. 3) se calculează testul statistic: a − α1 a 0 − 0 a 0 − 1. 375 x = i =1 = = 25 15 15 n − k −1 22.73 t= 0 = = = = −0.35 Testarea semnificaţiei parametrului α 0: 1) se stabileşte ipoteza nulă: H0: α 0 = 0.08 2 sa = i ∑(x i i s2 u −x ) 2 = 1. 13 = t0.5492 t= 1 = = = = 6.05/2.73 ⇒  a 1 = 0.096 .

95 18.90 -27.48 16.1 6 8 2  n 1 24  6   5 x i −x ∑   i   ( ) t calc = −0.88 → 1 > 0 .91 -19. 2) se stabileşte ipoteza alternativă: H1: modelul este valid. [15 ⋅ 9639 − 375 ][15 ⋅ 2262 − 180 ] 2 15 ⋅ 4645 − 375 ⋅ 180 = 0. e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară: r= = [ n∑ x i yi − ∑ x i ⋅ ∑ yi − (∑ xi ) 2 2 n∑ x i ][ 2 n∑ yi − ( ∑ yi ) 2 2 ] = Rezultă că între cele două variabile există o legătură directă foarte puternică.n −k − = F0.n −2 = −1. ˆ c) Erorile reziduale sunt u i = y i − y i şi sunt prezentate în tabelul de mai jos: ui -20.70 d) Testarea validităţii modelului de regresie: ˆ 1) se stabileşte ipoteza nulă: H0: împrăştierea valorilor y t datorate factorului nu diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării.22 -0.7  1 + =4.13 = 4. 3) se calculează testul F: s2 79 . deci modelul nu este valid.71 15 − 2 y= i =1 ∑yi 15 = Fcalc = Fα.03 16.64 F= x = = 46 .3 2 1.64 1 n − k −1 = 22.58 -5.42 5.38 -17. adică parametrul a0 nu este semnificativ statistic.64 = 79 .62 -14.37 5.57 27.05 .35 = 1.71 su s2 = i x ˆ ∑( y i −y )2 s2 = i u 15 ∑( yi k = ˆ − yi ) 2 79 .67 1 180 = 12 15 Deoarece Fcalc > Ftab ⇒ modelul este valid.1.35 ⇒ se acceptă ipoteza nulă.84 > −t α/ 2.2 sa 0 =s 2 u   2 1  x 1 2  5  +  =1.09 7.99 9.

88.5492 ⋅ 24 = 11. 1.35   2   x n+ −x  1 1 ( 24 − 25 ) 2 1  + +  =1. Pentru estimarea pe interval de încredere vom avea: ˆ ˆ y n +1 − t α / 2.82   ⇒ n+ 1 = .78 1 Cum: Fcalc > F0.Testarea semnificaţiei coeficientului de corelaţie: .88 ⋅ 13 = = = 6. Testarea raportului de corelaţie se face cu testul F: F= R2 1−R 2 ⋅ n − k −1 0.025 .n − k −1 ⋅ s y n +1 ≤ y n +1 ≤ y n +1 + t α / 2.71  + 1 1 + 2  n 15 264    ∑ x i −x   i   s2 ˆ 1 yn + sy ˆ =s 2 u ( ( ) )   =1.73 + 0.n − k −1 ⋅ s y n +1 ˆ ˆ 12 − t 0.45 ~ 12 poliţe (aceasta este estimarea punctuală).3 1 5 10 .88 2 ⇒ Coeficientul de corelaţie este semnificativ statistic. puternică şi directă între cele două variabile.67 ⇒ R este semnificativ statistic.05 .13 ⋅1.09 k 1 − 0.025 .se calculează testul t: t= r r n −2 0.05 . f) ˆ y n +1 = −1.35 ≤ y n +1 ≤12 + t 0. .1775 ≤ y n +1 ≤13.88 Deoarece R = r = 0. apreciem că există o legătură liniară. Măsurarea intensităţii legăturii cu raportul de corelaţie R: ˆ ∑ ( y i − y) n 2 t calc > t α.se stabileşte ipoteza alternativă: H1: ρ este semnificativ statistic. 13 = 2.78 13 = ⋅ = 46 . 13 = 4.16 R = i =1 n i =1 ∑ ( y i − y) 2 = 0.se stabileşte ipoteza nulă: H0: ρ nu este semnificativ statistic.n −k −1 = t 0.8225 Intervalul de încredere pentru numărul de poliţe încheiate este: . .13 ⋅1.75 2 sr 1 −r 1 − 0.

apoi Data Analysis.640152 79.000000 102.10 ≤ y n +1 ≤ 14 Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools.763923 Square Standard Error 1.359848 1.000000 ANOVA Regression Residual Total df SS MS F Significance F 1.000000 79.000013 2 7 13.311483 Observations 15.780786 Adjusted R 0.64015 46.30272 0.883621 R Square 0. apoi Regression şi se deschide următoarea fereastră: şi se obţin următoarele rezultate: SUMMARY OUTPUT Regression Statistics Multiple R 0.719988 14.00000 .000000 22.

803030 10.393939 8.000000 10.352273 0.000000 2. x = i=1 n i =1 ˆ ∑ ( yi − y) 2 n ∑ ( yi − y) 2 ∆2 e 2 ∆y = 1 − i=1 n ˆ ∑ ( yi − yi ) 2 n i =1 ∑ ( yi − y) 2 2 R Square Coeficientul (gradul ) de determinaţie 0.000000 13.606061 0.68931 3 0.098485 -0.844697 0.000000 7.412843-6.196970 9.804611 0.746212 Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT Regression Statistics Multiple R Raportul de corelatie (R) 0.000000 -1.780786 R2 = ∆2 / x y ∆2 y = 1− = i=1 n i =1 ˆ ∑ ( yi − y) n ∑ ( yi − y) 2 .746212 12.549242 13.000000 Predicted Y 12.000000 14.846021 0.000000 5.000000 11.196970 -0.883621 Ry.000000 6.746212 0.196970 1.098485 14.000000 9.000000 8.000000 12.746212 12.450758 -1.000000 10.046120-0.253788 -1.549242 0.72361 9 Intercept X Variable 1 RESIDUAL OUTPUT Observation 1.731061 2.253788 1.000013 0.549242 12.000000 0.151434 2.000000 15.901515 14.374866 0.352273 14.000000 3.080716 6.549242 2.253788 16.155303 9.098485 -0.000000 4.253788 Residuals -2.000000 9.0 Coefficient Standard t Stat P-value Lower Upper s Error 95% 95% -1.

05 -6.05 < 0.000013 Tabel 4.549242 s a0 =2.804611 0.080716 t a1 = 6.046120 = -0.151434 0.359848 SST= n 2 ∆2 = ∑ y i − y = y 14 (n-1) i =1 102. ANOVA Sursa variaţiei df (grade de libertate) SS (varianţa) (suma pătratelor) SSR= Regression (variaţia datorată regresiei) n MS =SS/df (media pătratelor) (dispersia corectată) F Significance F 1 (k) Residual (variaţia reziduală) Total (variaţia totală) i =1 79.000000 SST=SSR + SSE ˆ ∆2 = ∑ y i − y x ( )2 = s2 = x ∆2 = x k Testul F=46.689313 0. RESIDUAL OUTPUT .640152 0.846021 t a0 0.719988 ∆2 u = n − k −1 ( ) s2 = y ∆2 y n −1 Tabel 3 Coefficients (Coeficienţi) Standard Error (Abaterea medie patratică) t Stat P-value Lower 95% Upper 95% Limita inf.Adjusted R Square Valoarea ajustată a coeficientului de determinaţie Standard Error Abaterea medie pătratică a erorilor în eşantion Observations Numărul observaţiilor (n) 0.000013< 0.763923 R 2 =1− ∆2 / n − k − 1 u ∆2 / n − 1 y 1.374866 2.412843 > 0.731061 a1 = 0.311483 su = ∆2 u n−2 = i=1 ˆ ∑ ( yi − yi ) 2 n−2 n 15 Tabel 2.05 (resping H0 – model valid) s2 u = 1.302727 F= s x / s u 2 2 79.640152 SSE= n 2 ˆ 2 13 (n-k-1) ∆ u = ∑ ( y i − y i ) = i =1 22.723619 s a1 =0. a Limita sup. a intervalului intervalului de încredere de încredere Intercept (termenul liber) Timpul mediu a0= -1.

3728 5.9235 287. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.549242.302727. Interpretarea rezultatelor din tabelul 4:  Intercept este termenul liber.3073 336.311483.7043 Interpretare rezultate din tabelul SUMMARY OUTPUT:  R= 0.4878 -5.731061.8525 311. Deoarece a0 = -0.5796 371.0355 -20.9986 -27.Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ˆ Predicted y i Numărul de poliţe 338. De altfel faptul că limita inferioară a intervalului de încredere (-6.2277 -19.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.7504 367.9763 382.9568 -17. iar limita  superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero. Întrucât F=46. iar Significance F (pragul de semnificatie) este 0. ceea ce însemnă că la creşterea timpului petrecut cu un minut.0917 Residuals ˆ yi − yi -14.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un potenţial client există o legătură puternică. Coeficientul a1 este 0.05 înseamnă că acest coeficient este nesemnificativ.2938 338.689313) pentru acest parametru este negativă.6962 325.3895 16.412843>0. Termenul liber este punctul în care variabila explicativă (factorială) este 0. dacă timpul petrecut este 0.804611 iar pragul de semnificaţie P-value este 0. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie. Deci numărul de t poliţe încheiate.8659 310.0954 5.  R2 =0.2528 346.2188 369. deci coeficientul a0 este -1. Deoarece t a1 = 6.4262 16.9067 27.846021iar pragul de semnificaţie P-value este 0.5889 7.05 înseamnă că .780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de timpul mediu petrecut de un agent cu un potenţial client.2542 376.549242.000013<0.1748 332. numărul de poliţe încheiate va creşte cu 0.151434 ≤ α 0 ≤ 2.8281 310.000013 (valoare mai mica de 0.6299 9.  Abaterea medie patratica a erorilor s u = 1.9108 18.5722 -0.

0 100.0 75.0 200.0 39. Intervalul de încredere pentru acest parametru este 0.0 55. f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze semnificaţia indicatorilor utilizaţi.0 29.3 Taxele (euro) y 35.0 40.0 45.5 47.0 70.5 88.0 51. e) să se testeze validitatea modelului de regresie.0 80. Rezolvare: a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de gospodării prin corelogramă sau diagrama norului de puncte: OY 220 200 180 160 140 120 100 80 60 40 20 0 0 yi OX 10 20 30 40 50 60 70 xi 80 1 cm OX = 10 mii euro .5 37.3 33.0 65. b) să se estimeze parametrii modelului. 1 cm OY = 20 euro .5 65.acest coeficient este semnificativ.0 30. c) să se verifice ipotezele metodei celor mai mici pătrate.0 63.0 75.0 15. g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%.5 25.0 65. În tabelul următor avem informaţii privind veniturile obţinute de 20 de gospodării selectate aleator şi taxele plătite de către aceste gospodării: Venitul (mii euro) x 17.0 22.0 32.5 70.0 60.374866 ≤ α1 ≤ 0. 2.0 42.723619.0 30.5 25.5 35.1.0 60.5 12.0 Taxele (euro) y 75.0 Se cere: a) să se specifice modelul econometric ce descrie legătura dintre cele două variabile.0 75. d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0.5 125.0 Venitul (mii euro) x 28.0 150.

deci modelul econometric care descrie legătura dintre cele două variabile este un model liniar: y =α +α x + u 0 1 α 1 > 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.44 = 40. 2 9 x i 6 21 97 n a1 = ∑xi n ∑xi ∑ yi ∑ x i yi ∑xi ∑ x i2 = 20 1557 . α 1 – parametrii modelului.74 = 15. 4 0 +2.1 733. Această ipoteză se poate verifica cu ajutorul următoarelor relaţii: x − 3s x < x i < x + 3s x y − 3s y < y i < y + 3s y unde: s x = i =1 n ∑ (x i n −x )2 2 n = 5119 .1 31991 .5 = 77 . ∑( ) ⇔ ∑( yi i − a 0 − a 1 x i ) 2 min ⇔ 20a 0 + 733.5 a 0 = −6.875 20 .1 = 36 .53 = 68864 Deci.5 733.Din grafic se poate observa că distribuţia punctelor (xi. yi) poate fi aproximată cu o dreaptă. modelul este: ˆ y i =− .20 ˆ y i =a 0 + a 1 x i ˆ y i − y i 2 min i α 0.2997 a 0 = y − a 1 ⋅ x = −6.1 + a 1 ⋅ 31991.99 20 32116 .4201 ⇔   a 1 = 2. b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici pătrate: y i =a 0 +a1 x i + u i =1.655 20 s y = i =1 ∑ ( y i − y) n = i =1 20 = 20 = x = i =1 n 20 ∑x i ∑yi n ∑x i = y = i =1 20 1557 .53 = 2.1 68864 20 733.1a 1 = 1557.2997 a 0 ⋅ 733.07 20 733 .4201 c) Ipotezele metodei celor mai mici pătrate: c1) Variabilele observate nu sunt afectate de erori de măsură.

32 51.17 -10.42 143.32 19.82 51.99 −11.86 83.82 -2.79 -11.47 97.07 < y i < 77 .07 61.99 < x i < 36 .18 67.94 -10.82 79.07 29.655 + 3 ⋅ 15.625 (adevărat) 77 .03 24.36 .335 < y i < 201 .32 -14.07 33.97 45.07 − 42 .47 -22.07 166.94 . Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).68 8. Se reprezintă grafic pe axa OX valorile variabilei factoriale x.875 − 3 ⋅ 40 . iar pe axa OY se reprezintă valorile variabilei reziduale u. c2) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate).655 − 3 ⋅ 15 .18 -19.085 (adevărat) Ipoteza poate fi acceptată fără nici un dubiu.315 < x i < 84 .93 3.96 -29.23 21.82 102.07 0. ˆ Va trebui să calculăm valorile variabilei reziduale: u i = y i − y i Rezultatele sunt prezentate în tabelul de mai jos: ˆ yi 33.17 90.06 ui 1.86 57.21 74.58 6.86 -8.86 17.875 + 3 ⋅ 40 .77 8.43 3.06 110.96 69.07 121.

metoda grafică (corelograma).se stabileşte ipoteza nulă: H0: variabila reziduală nu este autocorelată.OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui OX 20 40 60 80 xi Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că variabila factorială şi cea reziduală sunt independente. adică sunt independente între ele: Verificarea acestei ipoteze se poate face prin: . .testul Durbin-Warson. Testarea ipotezei cu ajutorul testului Durbin-Watson: . adică nu avem alternativă sistematică sub formă de dinţi de fierăstrău. adică nu sunt autocorelate. Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile variabilei rezultative yi. c3) Valorile variabilei reziduale nu sunt autocorelate. deci putem accepta ipoteza că erorile sunt independente. .se stabileşte ipoteza alternativă: . iar pe axa OY valorile variabilei reziduale: OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui OX 20 40 60 80 100 120 140 160 180 yi Distribuţia erorilor este oscilantă.

16 118.32 -14.14 28.96 -29.41 <1.86 4.86 17.87 2 ui 1.93 3.71 117.86 17.29 317.81 3137.63 11.77 8.93 1152.32 -14.04 80.79 75.26 .30 64.32 19.32 19.19 25.59 ∑ u i ⋅ u i −1 i =1 n ∑ u i2 n = 709 .86 -8.68 8.80 140.38 373.77 58.82 -2.H1: variabila reziduală este autocorelată.07 33.26 . .05 pentru numărul variabilelor exogene k = 1 şi pentru n = 20: d1 = 1.62 420.07 0.00 3.21 204.77 8.86 -8.07 0.48 486.81 48.58 6.58 6.18 -19.03 24.87 = 1.88 289.41 = 0.97 608.79 -11.07 1.95 79.25 868.96 -29.48 5040 .86 120.43 14.14 5040 .17 -10.82 -2.20 d2 = 1.17 -10.68 8.53 0.71 220.60 77.34 122.43 3.47 777.94 377.41 7508.26 ( u i − u i−1 ) 2 420.94 -10.70 12.se compară dcalc cu cele două valori d1 şi d2 din tabelul testului Durbin-Watson pentru pragul de semnificaţie α = 0.03 24.41 d 2 < d calc < 4 − d 2 ⇒ erorile sunt independente.10 5040.93 3.04 1138.47 -22.79 -11.43 3.48 < 2.47 248.47 -22.66 54.18 -19.94 1.se calculează testul Durbin-Watson: d calc = i =1 ∑(ui n n − u i −1 ) 2 = Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul tabel: ui u i− 1 i =1 ∑ u i2 7508 .90 244. Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul de autocorelaţie de ordinul I: r1 = i =1 1.94 -10.

15 s a0 41.26 = 280 .01 ⋅ 31991 .05.05 . 18⋅ su Se observă că valorile reziduale ui se înscriu în banda construită. c4) Valorile variabilei reziduale sunt normal distribuite: Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). n-2 = t0.05. d) Testarea semnificaţiei parametrilor modelului Testarea semnificaţiei parametrului α 0: .75 s2 = i u ∑( yi ˆ − yi ) 2 = n −2 5040 .se stabileşte ipoteza alternativă: H1: α 0 ≠ 0 .01 18 . Testarea semnificaţiei parametrului α 1: .82 2 sa 0 =s 2 u ⋅ ∑x i2 ∑(x i i i −x ) 2 = 280 . adică sunt independente.05. iar pe axa OY se reprezintă valorile variabilei reziduale: OY 35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30 ui + t0.se compară tcalc cu tα /2. deci putem accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0. 15 = 2. Pe axa OX ˆ se reprezintă valorile ajustate y i .t0. 18⋅ su OX 20 40 60 80 100 120 140 160 ˆ yi 180 .Deoarece r1 este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt autocorelate.4201 t= 0 = = −0.05.101 Deoarece t calc < t 0.68 5119 .18 ⇒ este foarte probabil ca estimatorul a0 să provină dintr-o colectivitate cu α 0 = 0 deci α 0 nu este diferit semnificativ de zero.se calculează testul t: a − 6.53 =1449 .se stabileşte ipoteza nulă: H0: α 0 = 0 .se stabileşte ipoteza nulă: H0: α 1 = 0 .

28 Fcalc =96 .1.se compară Fcalc cu Fα .05.05 5119 .n − 2 ⋅ s a1 ≤ α 1 ≤ a 1 + t α / 2. Coeficientul de corelaţie: n ∑x i y i − ∑x i ⋅ ∑y i ry / x = i i i 2       n ∑x 2 −  ∑x i  n ∑y 2 −  ∑y i   i        i i  i   i  i    2  = 0.1.01 = 0. f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul: . directă.918 → 1.se stabileşte ipoteza alternativă: H1: α 1 ≠ 0 .coeficientul de corelaţie la nivelul colectivităţii generale . 1.se stabileşte ipoteza nulă: H0: modelul nu este valid.23 2 sa = 1 i =1 ∑( x i 20 s2 u −x )2 = 280 .18 = 27076 .918 Deoarece ry/x = 0. foarte puternică.01 su s 2 = i =1 x ˆ ∑(yi 20 −y )2 = k 27076 . ρ .1.101 ⋅ 0.05. n-2 = t0.se calculează testul t: a 2. .18 F= x = = 96 .69 2 280 .18 ⇒ apreciem că parametrul α 1 este semnificativ statistic. . . apreciem că între cele două variabile există o legătură liniară.81647 ≤ α1 ≤ 2.coeficientului de corelaţie.2997 t= 1 = = 9.raportului de corelaţie. Intervalul de încredere pentru parametrul α 1 este: a 1 − t α / 2.23 ≤ α1 ≤ 2.se compară tcalc cu tα /2. .se calculează testul F: s2 27076 .2997 + 2.69 > F0. 18 = 8.78293 e) Testarea validităţii modelului de regresie: .18 ⇒ se respinge ipoteza nulă şi se acceptă alternativa. deci modelul este valid.101 Deoarece t calc > t 0.23 1.101 ⋅ 0.18 1 . n-k-1 = F0.se calculează testul t: .2997 − 2. Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală: . 18 = 2.se stabileşte ipoteza nulă: H0: ρ = 0 (ρ nu este semnificativ statistic).75 .n − 2 ⋅ s a1 2. k..99 s a1 0.se stabileşte ipoteza alternativă: H1: modelul este valid.se stabileşte ipoteza alternativă: H1: ρ ≠ 0 (ρ este semnificativ statistic).

n − k −1 ⋅ s y n +1 ˆ ˆ 85 .1.t calc = r n −2 1 −r 2 = 0.n − k −1 ⋅ s y n +1 ≤ y n +1 ≤ y n +1 + t α / 2.5679 euro (estimarea punctuală) Pentru estimarea pe interval de încredere vom avea: ˆ ˆ y n +1 − t α / 2.44 Deoarece R = ry/x. Testarea semnificaţiei raportului de corelaţie: .918 32116 . 18 = 2.1. o legătură liniară.se calculează testul F: n − k −1 R2 18 0.552 ⋅17 .5679 + t 0.1.16    2   x 1 −x  ( 40 − 36 .se compară Fcalc cu Fα.1.918 2 1−R2 1 .se stabileşte ipoteza nulă: H0: R nu este semnificativ statistic.59 u n n 20 5119 . g) ˆ y n +1 = −6.1.5 k 1 1 − 0.552 ⋅17 .se stabileşte ipoteza alternativă: H1: R este semnificativ statistic.918 ⋅ 18 1 − 0.n −k − = F0.k .878 Deoarece t calc > t 0.2997 ⋅ 40 = 85 . deci coeficientul de corelaţie este semnificativ statistic.se compară t calc cu t α. 18 ⇒ respingem ipoteza nulă şi acceptăm alternativa. 18 ⇒ se respinge ipoteza nulă Deoarece Fcalc = într-adevăr. şi se acceptă alternativa. apoi Data Analysis.82 .28 Fcalc > F0.n −2 = t 0.4201 + 2.75 2       ∑ xi −x    i= 1   s2 ˆ y ( n+ 1 ( ) ) Deci. 1.01  + 1 +  = 294 .36 (euro ) Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools. apoi Regression şi se va deschide următoarea fereastră: . .918 2 = 9.025 . deci raportul de corelaţie este semnificativ statistic. intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la nivelul populaţiei este: 41.16 ≤ y n +1 ≤ 85 .918 2 ⋅ = ⋅ = 94 . Raportul de corelaţie R: R = 1 − i =1 ∑ ( yi i =1 ˆ − yi ) 2 −y ∑ (yi )2 = 1− 5040 .5679 − t 0.26 = 0.18 =2.18 =2.025 .655 ) 2  1 1 =s 2  + + n + 1 = 280 .18 =8.77 (euro ) ≤ y n +1 ≤129 . . apreciem că între cele două variabile există.

014 185040.15588E127076.733631 Error 08 Observations 20 ANOVA df Regression Residual Total Significanc eF 27076.353374888 -0.259363 4 19 32116.4375 SS MS F Lower 95% Upper 95% .şi se obţin următoarele rezultate SUMMARY OUTPUT Regression Statistics 0.8343442 Square 12 Standard 16.1 1.17814 8 96.501209 .13.23058 Intercept Coefficient Standard s Error t Stat P-value -9.9181845 Multiple R 88 0.69566 08 280.8430629 R Square 37 Adjusted R 0.6864 0.

8083569 (Venitul) 510.072111 2919.957680449 69.791023 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Predicted Y Residuals 33.169942 35 2.05971 736.856750 9 -10.070869 8 14 X Variable 1 2.469632 5 -29.420716 973.322885 9124.069012 8 -11.21266 093.4696325 .957680 45 8.824435 16 1.225054 860.86405 52 10.17556484 79.81513 97 14.971181 7417.823860669 67.4201424 26.83339 1.02881826 45.8567509 57.2996901 9.0690128 29.818238 18 19.31823818 102.940282674 110.6.233865325 5 1.42788871 121.579283029 143.67711409 51.176139 338.16E-08 55 2.072111 298.787339107 74.169942348 90.927888708 61.31513969 51.86405521 83.774945141 21.

94338117 Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT Regression Statistics Multiple R Raportul de corelaţie (R) 0.05661 8833. ANOVA Sursa variaţiei Regression (variaţia datorată regresiei) Residual (variaţia reziduală) df (grade de libertate) SS (varianţa) (suma pătratelor) SSR= ∆ 2 x R2 = ∆2 / x y ∆2 y = i=1 n i =1 ˆ ∑ ( y i − y) ∑ ( y i − y) 2 0.17814 SSE= ∆ 2 u 27076.05 (resping H0 – model valid) 1 (k) ˆ = ∑ yi − y i =1 n n ( ) 2 = ∆2 s = x k 2 x = Testul F=96.18 2 2 su = 18 (n-k-1) ˆ = ∑ ( yi − yi ) i =1 = 5040.0144 ∆2u n − k −1 . x = 8 i =1 n i =1 n n ˆ ∑ ( yi − y) 2 ∑ ( yi − y) 2 =1− ∆2 e 2 ∆y = 1 − i=1 n ˆ ∑ ( yi − yi ) 2 i =1 n ∑ ( yi − y) 2 2 R Square 0.69566 F= s x / s u 2 2 27076.15588E08< 0.91818458 Ry.84306293 Coeficientul (gradul ) de 7 determinaţie Adjusted R Square Valoarea ajustată a coeficientului de determinaţie Standard Error Abaterea medie pătratică a erorilor în eşantion Observations Numărul observaţiilor (n) Tabel 2.19 20 97.7336310 8 20 R 2 =1− ∆2 / n − k − 1 u ∆2 / n − 1 y n su = ∆2 u n−2 = i=1 ˆ ∑ ( yi − yi ) 2 n−2 MS =SS/df (media pătratelor) (dispersia corectată) F Significance F 1.065914 31 22.83434421 2 16.259363 = 280.06591431 166.

8525 5 311.4878 -5.1748 4 332. Limita inf.7043 Interpretare rezultate din tabelul SUMMARY OUTPUT:  R= 0.Total (variaţia totală) 19 (n-1) 2 SST= ∆ y i =1 32116.9067 27.16E-08<0.2542 3 376.9986 -27.  R2=0.07086914 1. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie.4262 16.2277 -19.69566.0954 5. există o legătură puternică.05 -26.6864 t a0 0.6962 7 325.5722 -0.2938 13 338.9108 18.3073 11 336.6299 9. Întrucât F=96.501209>0.299690151 = 9.05 0.9568 -17.7504 14 367.9763 10 382.0917 Residuals ˆ yi − yi -14.42014248 a1 = 2. iar Significance F (pragul de semnificaţie) este 1.0355 -20.791023 a1 = = 1.233865325 9.8281 6 310.8659 9 310.3728 5.15588E-08 (valoare mai .9235 8 287.73363108.833395 s a1 t Tabel 4. Standard Error Coefficients (Abaterea medie (Coeficienţi) patratică) t Stat P-value Lower 95% Upper 95% Limita sup.5796 2 371.3895 16.4375 SST=SSR + SSE = ∑ yi − y n ( ) 2 = s = 2 y ∆2y n −1 Tabel 3.5889 7.23058 2.2528 15 346.843062937 arată că 84% din variaţia impozitelor este explicată de venit  Abaterea medie patratica a erorilor s u = 16.918184588 arată că între impozitele plătite şi venitul anual. a a intervalului de intervalului încredere de încredere Intercept (termenul liber) Venitul a0= -6.808356955 13. RESIDUAL OUTPUT ˆ Predicted y i Observation taxe plătite 1 338.353374888 s a0 = -0. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.2188 12 369.

deci coeficientul a0 este -6. Deoarece a = -0.299690151.07086914 ≤ α 0 ≤ 13.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile. Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber.mica de 0. dacă nu s-ar obţine nici un venit.05 înseamnă că acest coeficient este nesemnificativ.808356955 ≤ α1 ≤ 2. taxele vor creşte cu 2. Deci impozitele t care ar trebui plătite. Deoarece t a1 = 9.833395 iar pragul de semnificaţie P-value este 1.42014248. De altfel faptul că limita inferioară a intervalului de încredere 0  (-26. Intervalul de încredere pentru acest parametru este 1.23058) pentru acest parametru este negativă.299690151 euro.501209>0.791023 .16E-08<0. iar limita superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero. ceea ce însemnă că la creşterea venitului cu o mie euro.05 înseamnă că acest coeficient este semnificativ. Termenul liber este punctul în care variabila explicativă (factorială) este 0. Coeficientul a1 este 2.6864 iar pragul de semnificaţie P-value este 0.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->