Probleme Regresie 2015

1.
În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii de
asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client şi numărul de
poliţe încheiate într-o săptămână. Dacă X reprezintă timpul mediu, iar Y reprezintă numărul de poliţe, avem
datele sistematizate astfel:
Timpul mediu, Numărul de poliţe

(min) X Y
25 10
23 11
30 14
25 12
20 8
33 18
18 9
21 10
22 10
30 15
26 11
26 15
27 12
29 14
20 11
Se cere:
a) să se estimeze parametrii modelului liniar de regresie;
b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie  = 5%;
c) să se determine erorile reziduale;
d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie  = 5%;
e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat şi testaţi
semnificaţia acestuia pentru un nivel de încredere de 0,5%;
f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de poliţe încheiate de un
agent care petrece în medie 24 de minute cu un potenţial client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
20
18
16
Numărul de poliţe
14
12
10
6
16 18 20 22 24 26 28 30 32 34
Timpul mediu, (min)
a) yˆ i  a0  a1 xi
Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
 y i  ŷ i 2 min   y i  a 0  a1x i 2 min 
i i
 n n
na 0  a 1  x i   y i
 i 1 i 1
 n n n
n  15
a  x  a  x 2   x y
 i 1
0 i 1
i 1
i
i 1
i i
Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile intermediare:
xi yi x i2 x i yi ŷ i y i2 y i  y2 x i  x 2
25 10 625 250 12 100 4 0
23 11 529 253 10.9 121 1 4
30 14 900 420 14.7 196 4 25
25 12 625 300 12.0 144 0 0
20 8 400 160 9.3 64 16 25
33 18 1089 594 16.4 324 36 64
18 9 324 162 8.2 81 9 49
21 10 441 210 9.8 100 4 16
22 10 484 220 10.4 100 4 9
30 15 900 450 14.7 225 9 25
26 11 676 286 12.5 121 1 1
26 15 676 390 12.5 225 9 1
27 12 729 324 13.1 144 0 4
29 14 841 406 14.2 196 4 16
20 11 400 220 9.3 121 1 25
 xi   yi   x i2   x i yi  ŷi   y i2  102 264

375 180 9639 4645 180 2262
15a 0  a 1  375  180 a0  1,7311

  
a 0  375  a 1  9639  4645 a1  0,5492
Deci:
yˆ i  1,7311  0,5492  xi
20
Y = 0,5492x - 1,7311
18 R² = 0,7808
Numărul de poliţe
16
14
12
10
6
16 18 20 22 24 26 28 30 32 34
Timpul mediu, (min)
b) Testarea semnificaţiei parametrilor modelului:
Ecuaţia de regresie la nivelul colectivităţii generale este:
y i   0  1 x i  u i
iar la nivelul eşantionului este:
y i  a 0  a1 x i  u i
Testarea semnificaţiei parametrului 1:
1) se stabileşte ipoteza nulă:
H0 : 1 = 0
2) se stabileşte ipoteza alternativă:
H1 : 1  0, adică 1 este semnificativ diferit de zero, adică 1 este semnificativ statistic.
3) se calculează testul statistic:
deoarece n = 15  30 avem eşantion de volum redus şi pentru testare vom utiliza testul t:
a  1 a 1  0 a 1 0,5492
t 1     6,8
s a1 s a1 s a1 0,08
s 2u 1,7199
s a2    0,0064
 x i  x 
i 2 264
i
 y i  ŷ i 2
22,35
s 2u  i   1,7199
n  k 1 15  2
k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k = 1).
15
 xi
375
x  i 1   25
15 15
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este:
t0,05/2; 13 = t0,025; 13 = 1,35

1) se stabileşte ipoteza nulă: H0: 0 = 0;
2) se stabileşte ipoteza alternativă: H1: 0  0;
3) se calculează testul statistic:
a  1 a 0  0 a 0  1,73
t 0     0,84
s a0 s a0 s a 0 2,096
 
1 2 
  1,71 
x 1 25 
s a2  s 2u     4,186
0 n  x  x 2 
 i 


15 264
i
t calc  0,84  t  / 2;n 2  1,35  se acceptă ipoteza nulă, adică parametrul a0 nu este
semnificativ statistic.
c) Erorile reziduale sunt u i  y i  ŷ i şi sunt prezentate în tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03

-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validităţii modelului de regresie:
1) se stabileşte ipoteza nulă: H0: împrăştierea valorilor ŷ t datorate factorului nu diferă semnificativ de
împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu este valid.
2) se stabileşte ipoteza alternativă: H1: modelul este valid;
3) se calculează testul F:
s 2 79,64
F x   46,3
s 2u 1,71
 ŷ i  y 
2
79,64
s 2x  i   79,64
k 1
 y i  ŷ i 2
22,35
s 2u  i   1,71
n  k 1 15  2
15
 yi
i 1 180
y 
 12
15 15
Fcalc  F;n k 1  F0,05;1,13  4,67
Deoarece Fcalc  Ftab  modelul este valid.
e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară:
n x i yi   x i   yi
r 
n  x i2   x i  2

n  y i2   y i  2

15  4645  375  180
  0,88  1  0
15  9639  375 15  2262  180 
2 2
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie:
- se stabileşte ipoteza nulă: H0:  nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H1:  este semnificativ statistic;
- se calculează testul t:
r r n  2 0,88  13
t    6,75
sr 1 r2 1  0,882
t calc  t ;n k 1  t 0,05; 13  2,16 

Coeficientul de corelaţie este semnificativ statistic.
Măsurarea intensităţii legăturii cu raportul de corelaţie R:
 yˆ 
n
2
i y
i 1
R  0,88
 y 
n
2
i y
i 1
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă între cele două
variabile.
Testarea raportului de corelaţie se face cu testul F:
R2 n  k 1 0,78 13
F     46,09
1 R 2 k 1  0,78 1
Cum:
Fcalc  F0,05; 1; 13  4,67 
R este semnificativ statistic.
f)
ŷ n 1  1,73  0,5492 24  11,45 ~ 12 poliţe (aceasta este estimarea punctuală).
Pentru estimarea pe interval de încredere vom avea:
ŷ n 1  t  / 2;n k 1  s ŷn 1  y n 1  ŷ n 1  t  / 2;n k 1  s ŷn 1
12  t 0,025;13  1,35  y n 1  12  t 0,025;13  1,35
 
 1 2
xn1  x    1 (24  25) 2 
 s 1    1,711     1,82 
2 2
2
 
s yˆ n 1
 n  xi  x 
u
 15 264 
 i 
s ŷ  1,35
n 1
10,1775 y n 1  13,8225
Intervalul de încredere pentru numărul de poliţe încheiate este:
10  y n 1  14
Rezolvarea problemei cu ajutorul programului informatic EXCEL:

Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi Regression şi se deschide
următoarea fereastră:
şi se obţin următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R 0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015 46.30272 0.000013
2 7
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.00000
0
Coefficient Standard t Stat P-value Lower Upper

s Error 95% 95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.68931
3
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.72361
9
RESIDUAL OUTPUT
Observation Predicted Y Residuals

1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485
3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788
6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970
9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242
12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970
15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
n n
 ŷ i  y 2  y i  ŷ i 2
Multiple R i 1
0.883621 Ry , x   1  i1
Raportul de corelatie (R) n n
 y i  y  2
 y i  y 2
i 1 i 1
 ŷ i  y 
n 2
R Square 2y / x 2e
Coeficientul (gradul ) de 0.780786 R2   1  i1
 y i  y 
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a
0.763923 2 2u / n  k  1
coeficientului de R  1
determinaţie 2y / n  1
Standard Error n
Abaterea medie pătratică a  y i  ŷ i 2

1.311483 2u i 1
su  
erorilor în eşantion n2 n2
Observations
15
Numărul observaţiilor (n)
Tabel 2.
ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor)
(grade de F Significance F
variaţiei (suma pătratelor) (dispersia
libertate)
corectată)
 2 =
Regression n Testul 0.000013<
(variaţia SSR= 2x   ŷ i  y 2
1 (k) s 2x  x = F=46.302727 0.05
datorată i 1 k 2 2 (resping H0 –
regresiei) 79.640152 79.640152 F= s x / s u model valid)
n
SSE= 2u   y i  ŷ i 2 2u
Residual 13 (n-k-1) s 2u  =
(variaţia i 1 n  k 1
reziduală) = 22.359848 1.719988
 2
n
Total
2
SST=  y   yi  y 2y
(variaţia
14 (n-1)
i 1 s 2y 
n 1
totală) = 102.000000
SST=SSR + SSE
Tabel 3
Standard
Error
Coefficients
(Abaterea t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
medie
patratică)
Limita inf. a Limita sup. a
intervalului intervalului
de încredere de încredere
Intercept
(termenul a0= -1.731061 s a0 t a0 = -0.846021
0.412843
-6.151434 2.689313
=2.046120 > 0,05
liber)
Timpul
a1 = 0.549242 s a1 t a1 = 6.804611
0.000013
0.374866 0.723619
mediu =0.080716 < 0,05
Tabel 4.
RESIDUAL OUTPUT
Predicted ŷ i Residuals
Observation
Numărul de poliţe yi  yˆ i
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT:

 R= 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un potenţial client
există o legătură puternică.
 R2 =0.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de timpul mediu
petrecut de un agent cu un potenţial client.
 Abaterea medie patratica a erorilor s u = 1.311483. În cazul în care acest indicator este zero
înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA:

În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=46.302727, iar
Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05) atunci modelul de regresie
construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 3:

 Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este punctul în care
variabila explicativă (factorială) este 0. Deci numărul de poliţe încheiate, dacă timpul petrecut este 0.
Deoarece t a = -0.846021iar pragul de semnificaţie P-value este 0.412843>0,05 înseamnă că acest
0
coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere

(-6.151434   0  2.689313) pentru acest parametru este negativă, iar limita superioară este pozitivă
arată că parametrul din colectivitatea generală este aproximativ zero.
 Coeficientul a1 este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu un minut, numărul
de poliţe încheiate va creşte cu 0,549242. Deoarece t a1 = 6.804611 iar pragul de semnificaţie P-value
este 0.000013<0,05 înseamnă că acest coeficient este semnificativ. Intervalul de încredere pentru
acest parametru este 0.374866  1  0.723619.
Problema 2
2. În tabelul următor avem informaţii privind veniturile obţinute de 20 de gospodării selectate aleator şi
taxele plătite de către aceste gospodării:
Venitul Taxele Venitul Taxele

(mii euro) (euro) (mii euro) (euro)
x y x y
17,5 35,0 28,0 75,0
37,5 60,5 22,5 70,0
47,5 88,5 25,0 60,0
25,0 70,5 29,5 65,0
55,5 125,0 65,0 150,0
35,0 63,0 51,0 100,0
15,5 30,0 39,3 75,0
12,0 30,0 33,0 40,0
32,0 65,0 45,0 75,0
42,3 80,0 75,0 200,0
Se cere:
a) să se specifice modelul econometric ce descrie legătura dintre cele două variabile;
b) să se estimeze parametrii modelului;
c) să se verifice ipotezele metodei celor mai mici pătrate;
d) să se verifice semnificaţia parametrilor modelului de regresie pentru  = 0,1;
e) să se testeze validitatea modelului de regresie;
f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze semnificaţia indicatorilor
utilizaţi;
g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie plătite dacă venitul
este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de gospodării prin
corelogramă sau diagrama norului de puncte:
220
170
Taxele (euro) y
120
70
20
10 20 30 40 50 60 70 80
Venitul (mii euro) x
Din grafic se poate observa că distribuţia punctelor (xi, yi) poate fi aproximată cu o dreaptă, deci
modelul econometric care descrie legătura dintre cele două variabile este un model liniar:
y   0  1 x  u
0, 1 – parametrii modelului;
1  0 (panta dreptei) deoarece legătura dintre cele două variabile este directă.
b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici pătrate:
y i  a 0  a1 x i  u i  1,20
ŷ i  a 0  a1 x i
 y i  ŷ i 2 min   y i  a 0  a1x i 2 min 

i i
20a 0  733,1a 1  1557,5 a  6,4201
   0
a 0  733,1  a 1  31991,53  68864 a 1  2,2997
Deci, modelul este:
ŷ i  6,4201 2,2997x i
n  yi 20 1557,5
a1 
 xi  x i yi 
733,1 68864
 2,2997
n  xi 20 733,1
 xi  x i2 733,1 31991,53
a 0  y  a1  x  6,4201
200
y = 2,2997x - 6,4201
180 R² = 0,8431
160
140
Taxele (euro) y
120
100
80
Taxele (euro) y
60
Predicted Taxele (euro) y
40
20
0
10 20 30 40 50 60 70 80
c) Ipotezele metodei celor mai mici pătrate:

c1) Variabilele observate nu sunt afectate de erori de măsură.
Această ipoteză se poate verifica cu ajutorul următoarelor relaţii:
x  3s x  x i  x  3s x
y  3s y  y i  y  3s y
unde:
 x i  x 
n 2
5119,74
s x  i1   15,99
n 20
 y i  y 
n 2
32116,44
s y  i 1   40,07
n 20
n 20
 xi  xi
733,1
x  i 1  i1   36,655
n 20 20
20
 yi
1557,5
y  i 1   77,875
20 20
36,655  3  15,99  x i  36,655  3  15,99
 11,315  x i  84,625 (adevărat)
77,875  3  40,07  y i  77,875  3  40,07
 42,335  y i  201,085 (adevărat)
Ipoteza poate fi acceptată fără nici un dubiu.
c2) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale este constantă şi
independentă de variabila factorială (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma).
Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezintă valorile
variabilei reziduale u.
Va trebui să calculăm valorile variabilei reziduale: u i  y i  ŷ i
Rezultatele sunt prezentate în tabelul de mai jos:
variabila Venitul (mii

reziduală u i euro) x
1,18 17,5
-19,32 37,5
-14,32 47,5
19,43 25
3,79 55,5
-11,07 35
0,77 15,5
8,82 12
-2,17 32
-10,86 42,3
17,03 28
24,68 22,5
8,93 25
3,58 29,5
6,94 65
-10,86 51
-8,96 39,3
-29,47 33
-22,07 45
33,94 75
40
30
20
variabila reziduală
10
0
0 10 20 30 40 50 60 70 80
-10
-20
-30
-40
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că variabila factorială
şi cea reziduală sunt independente.
c3) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între ele:
Verificarea acestei ipoteze se poate face prin:
- metoda grafică (corelograma);
- testul Durbin-Warson.
Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile variabilei rezultative
yi, iar pe axa OY valorile variabilei reziduale:
40,0
30,0
20,0
variabila reziduală
10,0
0,0
0 50 100 150 200
-10,0
-20,0
-30,0
-40,0 Taxele (euro) y
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă de dinţi de
fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu sunt autocorelate.
Testarea ipotezei cu ajutorul testului Durbin-Watson:
- se stabileşte ipoteza nulă:
H0: variabila reziduală nu este autocorelată.
- se stabileşte ipoteza alternativă:
H1: variabila reziduală este autocorelată.
- se calculează testul Durbin-Watson:
n
 u i  u i1 2
7508,87
d calc  i 1   1,48
n 5040,26
 u i2
i 1
Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul tabel:
ui u i1 u i  u i1 2 u i2
1,18 - - 1,38
-19,32 1,18 420,19 373,21
-14,32 -19,32 25,04 204,94
19,43 -14,32 1138,90 377,43
3,79 19,43 244,71 14,34
-11,07 3,79 220,80 122,53
0,77 -11,07 140,30 0,60
8,82 0,77 64,86 77,86
-2,17 8,82 120,79 4,71
-10,86 -2,17 75,47 117,88
17,03 -10,86 777,77 289,97
24,68 17,03 58,47 608,95
8,93 24,68 248,14 79,70
3,58 8,93 28,63 12,81
6,94 3,58 11,29 48,16
-10,86 6,94 317,00 118,04
-8,96 -10,86 3,62 80,25
-29,47 -8,96 420,66 868,48
-22,07 -29,47 54,81 486,93
33,94 -22,07 3137,41 1152,10
7508,87 5040,26
- se compară dcalc cu cele două valori d1 şi d2 din tabelul testului Durbin-Watson pentru pragul de
semnificaţie  = 0,05 pentru numărul variabilelor exogene k = 1 şi pentru n = 20:
d1 = 1,20 d2 = 1,41
d 2  d calc  4  d 2
1,41  1,48  2,59  erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul de
autocorelaţie de ordinul I:
n
 u i  u i1
709,41
r1  i 1   0,14
n 5040,26
 u i2
i 1
Deoarece r1 este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt autocorelate, adică
sunt independente.
c4) Valorile variabilei reziduale sunt normal distribuite:

Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). Pe axa OX se reprezintă
valorile ajustate ŷ i , iar pe axa OY se reprezintă valorile variabilei reziduale:
40,0 + t0,05; 18su
30,0
variabila reziduală 20,0
10,0
0,0
0,0 30,0 60,0 90,0 120,0 150,0 180,0
-10,0
Y
-20,0
-30,0
-40,0 - t0,05; 18su
Se observă că valorile reziduale ui se înscriu în banda construită, deci putem accepta ipoteza de
normalitate a erorilor pentru un prag de semnificaţie de  = 0,05.
d) Testarea semnificaţiei parametrilor modelului

- se stabileşte ipoteza nulă:
H0: 0 = 0
- se stabileşte ipoteza alternativă:
H1: 0  0
a 0  6,4201
t   0,15
s a0 41,82
 x i2
31991,53
s a2  s 2u  i
 280,01   1449,68
 x i  x 
0 2 5119,75
i
 y i  ŷ i 2
5040,26
s 2u  i   280,01
n2 18
- se compară tcalc cu t/2; n-2 = t0,05; 15 = 2,101
Deoarece t calc  t 0,05;18  este foarte probabil ca estimatorul a0 să provină dintr-o colectivitate cu 0
= 0 deci 0 nu este diferit semnificativ de zero.
- se stabileşte ipoteza nulă: H0: 1 = 0
- se stabileşte ipoteza alternativă: H1: 1  0
a 2,2997
t 1   9,99
s a1 0,23
s 2u 280,01
s a2    0,05
 x i  x 
1 20 2 5119,75
i 1
- se compară tcalc cu t/2; n-2 = t0,05; 18 = 2,101
Deoarece t calc  t 0,05;18  apreciem că parametrul 1 este semnificativ statistic.
Intervalul de încredere pentru parametrul 1 este:
a1  t  / 2;n 2  s a1  1  a1  t  / 2;n 2  s a1
2,2997  2,101 0,23  1  2,2997  2,101 0,23
1,81647 1  2,78293
e) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă: H0: modelul nu este valid.
- se stabileşte ipoteza alternativă: H1: modelul este valid;
- se calculează testul F:
s 2 27076,18
F x   96,69
s 2u 280,01
 ŷ i  y 
20 2
27076,18
s 2x  i 1   27076,18
k 1
- se compară Fcalc cu F; k; = F0,1; 1; 18 = 8,28
n-k-1
Fcalc  96,69  F0,1;1;18  se respinge ipoteza nulă şi se acceptă alternativa, deci modelul este
valid.
f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:

- coeficientului de corelaţie;
- raportului de corelaţie.
Coeficientul de corelaţie:
n x i yi   x i   yi
ry / x  i i i
 0,918
   
2
  
2
n  x 2    x i   n  y 2    y i  
 i i  i  

i 
 i
 
 
  i
Deoarece ry/x = 0,918  1, apreciem că între cele două variabile există o legătură liniară, directă,
foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
- se stabileşte ipoteza nulă: H0:  = 0 ( nu este semnificativ statistic);
- se stabileşte ipoteza alternativă: H1:   0 ( este semnificativ statistic);
 - coeficientul de corelaţie la nivelul colectivităţii generale
r n2 0,918  18
t calc    9,82
1 r2 1  0,9182
- se compară t calc cu t ;n 2  t 0,1; 18  2,878
Deoarece t calc  t 0,1; 18  respingem ipoteza nulă şi acceptăm alternativa, deci coeficientul de corelaţie
este semnificativ statistic.
Raportul de corelaţie R:
 y i  ŷ i 2
5040,26
R  1  i 1  1  0,918
 y i  y 
2 32116,44
i 1
Deoarece R = ry/x, apreciem că între cele două variabile există, într-adevăr, o legătură liniară.
Testarea semnificaţiei raportului de corelaţie:
- se stabileşte ipoteza nulă: H0: R nu este semnificativ statistic;
- se stabileşte ipoteza alternativă: H1: R este semnificativ statistic;
- se calculează testul F:
n  k 1 R 2 18 0,9182
Fcalc 
    94,5
k 1  R 2 1 1  0,9182
- se compară Fcalc cu F;k;n k 1  F0,1;1;18  8,28
Deoarece Fcalc  F0,1; 1; 18  se respinge ipoteza nulă şi se acceptă alternativa, deci raportul de corelaţie
este semnificativ statistic.
g)
ŷ n 1  6,4201 2,2997 40  85,5679euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea:
ŷ n 1  t  / 2;n k 1  s ŷn 1  y n 1  ŷ n 1  t  / 2;n k 1  s ŷn 1

85,5679  t 0,025;182,552  17,16  y n 1  85,5679  t 0,025;182,552  17,16
 
s 2ŷ


 s 2u 1   n 1
1 x
2
x   
 280,011 
1 (40  36,655) 2 
   294,59
 n n 2
n 1
 
 xi  x   
 20 5119 ,75 
 i 1 
Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la nivelul populaţiei
este:
41,77 (euro)  y n 1  129,36 (euro)
Rezolvarea problemei cu ajutorul programului informatic EXCEL:

Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi Regression şi se va
deschide următoarea fereastră:
şi se obţin următoarele rezultate:

SUMMARY OUTPUT
Multiple R 0.918184588
R Square 0.843062937
Adjusted R Square 0.834344212
Standard Error 16.73363108
Observations 20
ANOVA
df SS MS F Significance F
Regression 1 27076.17814 27076.18 96.69566 1.15588E-08
Residual 18 5040.259363 280.0144
Total 19 32116.4375
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept -6.4201 9.3533 -0.6864 0.501209 -26.0708 13.23058
X Variable 1 (Venitul) 2.2996 0.2338 9.8334 1.16E-08 1.80836 2.791023
RESIDUAL OUTPUT
Observation Predicted Y Residuals

1 33,82 1,18
2 79,82 -19,32
3 102,82 -14,32
4 51,07 19,43
5 121,21 3,79
6 74,07 -11,07
7 29,23 0,77
8 21,18 8,82
9 67,17 -2,17
10 90,86 -10,86
11 57,97 17,03
12 45,32 24,68
13 51,07 8,93
14 61,42 3,58
15 143,06 6,94
16 110,86 -10,86
17 83,96 -8,96
18 69,47 -29,47
19 97,07 -22,07
20 166,06 33,94
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
n n
 ŷ i  y 2  y i  ŷ i 2
i 1
 1  i1
Multiple R
0.918184588 Ry , x 
Raportul de corelaţie (R) n n
 y i  y 2  y i  y 2
i 1 i 1
 ŷ i  y 
n 2
R Square 2y / x 2e
Coeficientul (gradul ) de 0.843062937 R2  1  i 1
 y i  y 
determinaţie 2y 2y n 2
i 1
Adjusted R Square
Valoarea ajustată a 2 2u / n  k  1
coeficientului de
0.834344212 R  1
determinaţie 2y / n  1
n
 y i  ŷ i 2
Standard Error
Abaterea medie pătratică a 16.73363108 2u i 1
erorilor în eşantion su  
n2 n2
Observations
20
Numărul observaţiilor (n)
Tabel 2.
ANOVA
MS =SS/df
df
Sursa SS (varianţa) (media pătratelor) Significance
(grade de F
variaţiei (suma pătratelor) (dispersia F
libertate)
corectată)
 =
Regression n 2 2x Testul 1.15588E-
(variaţia SSR= 2x   yˆ i  y s x2  = F=96.69566 08< 0.05
1 (k) i 1 k
datorată 2 2 (resping H0 –
27076.17814 27076.18 F= s x / s u
regresiei) model valid)
2u
   yi  yˆ i  = su2 
n
Residual SSE= 2u
2
=
(variaţia 18 (n-k-1) i 1 n  k 1
reziduală) 5040.259363 280.0144
Total SST= 2y

n

  yi  y = 
2
2y
(variaţia 19 (n-1) i 1
s 
2
n 1
32116.4375 y
totală)
SST=SSR + SSE
Tabel 3.
Standard Error
Coefficients
(Abaterea medie t Stat P-value Lower 95% Upper 95%
(Coeficienţi)
patratică)
Limita inf. a Limita sup. a
intervalului de intervalului de
încredere încredere
Intercept
(termenul
a0= s a0 = t a0 = 0.501209>0,05 -26.07086914 13.23058
-6.42014248 9.353374888 -0.6864
liber)
Venitul
a1 = s a1 = t a1 = 1.16E-08<0,05 1.808356955 2.791023
2.299690151 0.233865325 9.833395
Tabel 4.
RESIDUAL OUTPUT
Predicted ŷ i Residuals
Observation
taxe plătite yi  yˆ i
1 33,82 1,18
2 79,82 -19,32
3 102,82 -14,32
4 51,07 19,43
5 121,21 3,79
6 74,07 -11,07
7 29,23 0,77
8 21,18 8,82
9 67,17 -2,17
10 90,86 -10,86
11 57,97 17,03
12 45,32 24,68
13 51,07 8,93
14 61,42 3,58
15 143,06 6,94
16 110,86 -10,86
17 83,96 -8,96
18 69,47 -29,47
19 97,07 -22,07
20 166,06 33,94
Interpretare rezultate din tabelul SUMMARY OUTPUT:

 R= 0.918184588 arată că între impozitele plătite şi venitul anual, există o legătură puternică.
 R2=0.843062937 arată că 84% din variaţia impozitelor este explicată de venit
 Abaterea medie patratica a erorilor s u = 16.73363108. În cazul în care acest indicator este zero înseamnă că
toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA:

În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=96.69566, iar Significance
F (pragul de semnificaţie) este 1.15588E-08 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid
şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4:

 Intercept este termenul liber, deci coeficientul a0 este -6.42014248. Termenul liber este punctul în care
variabila explicativă (factorială) este 0. Deci impozitele care ar trebui plătite, dacă nu s-ar obţine nici un venit.
Deoarece t a = -0.6864 iar pragul de semnificaţie P-value este 0.501209>0,05 înseamnă că acest coeficient
0
este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere (-26.07086914   0 

13.23058) pentru acest parametru este negativă, iar limita superioară este pozitivă arată că parametrul din
colectivitatea generală este aproximativ zero.
Coeficientul a1 este 2.299690151, ceea ce însemnă că la creşterea venitului cu o mie euro, taxele vor creşte cu
2,299690151 euro. Deoarece t a1 = 9.833395 iar pragul de semnificaţie P-value este 1.16E-08<0,05 înseamnă că acest
coeficient este semnificativ. Intervalul de încredere pentru acest parametru este 1.808356955  1  2.791023

Probleme Regresie 2015

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Probleme Regresie 2015

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Timpul mediu, Numărul de poliţe

 xi   yi   x i2   x i yi  ŷi   y i2  102 264

15a 0  a 1  375  180 a0  1,7311

Testarea semnificaţiei parametrului 0:

c) Erorile reziduale sunt u i  y i  ŷ i şi sunt prezentate în tabelul de mai jos:

ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03

t calc  t ;n k 1  t 0,05; 13  2,16 

ŷ n 1  t  / 2;n k 1  s ŷn 1  y n 1  ŷ n 1  t  / 2;n k 1  s ŷn 1

12  t 0,025;13  1,35  y n 1  12  t 0,025;13  1,35

Intervalul de încredere pentru numărul de poliţe încheiate este:

Rezolvarea problemei cu ajutorul programului informatic EXCEL:

Coefficient Standard t Stat P-value Lower Upper

Observation Predicted Y Residuals

Explicitarea datelor din tabelele de mai sus:

Abaterea medie pătratică a  y i  ŷ i 2

Interpretare rezultate din tabelul SUMMARY OUTPUT:

Interpretare rezultate din tabelul ANOVA:

Interpretarea rezultatelor din tabelul 3:

coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere

Venitul Taxele Venitul Taxele

 y i  ŷ i 2 min   y i  a 0  a1x i 2 min 

c) Ipotezele metodei celor mai mici pătrate:

variabila Venitul (mii

-40,0 Taxele (euro) y

c4) Valorile variabilei reziduale sunt normal distribuite:

variabila reziduală 20,0

-40,0 - t0,05; 18su

d) Testarea semnificaţiei parametrilor modelului

f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:

ŷ n 1  t  / 2;n k 1  s ŷn 1  y n 1  ŷ n 1  t  / 2;n k 1  s ŷn 1

Rezolvarea problemei cu ajutorul programului informatic EXCEL:

şi se obţin următoarele rezultate:

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Observation Predicted Y Residuals

Total SST= 2y

Interpretare rezultate din tabelul SUMMARY OUTPUT:

Interpretare rezultate din tabelul ANOVA:

Interpretarea rezultatelor din tabelul 4:

este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere (-26.07086914   0 

S-ar putea să vă placă și