Documente Academic
Documente Profesional
Documente Cultură
Un analist dorete s studieze legtura dintre cheltuielile pentru promovarea produselor i nivelul
vnzrilor realizate. n acest scop el sistematizeaz date pentru 15 mrfuri alimentare privind
cheltuielile lunare cu promovarea produsului (mii lei) i ncasrile lunare realizate (mii lei):
Cheltuieli promovare
(mii lei)
20,0
14,8
20,5
12,5
18,0
14,3
24,9
16,5
24,3
20,2
22,0
19,0
12,3
14,0
16,7
Nr. crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
ncasri lunare
(mii lei)
2190
1900
1990
1210
1500
1980
3340
1880
3100
2130
2880
3120
1860
1730
1740
3400
3000
2600
2200
1800
1400
1000
10
12
14
16
18
20
22
24
26
Analiznd corelograma remarcm c ntre cele dou variabile exist o legtur liniar direct ce
poate fi descris printr-o ecuaie de forma:
yi = a + bxi + ei
b) Determinam modelul de regresie liniara in esantion.
Calculele necesre estimrii parametrilor ecuaiei de regresie sunt redate n tabelul urmtor:
Tabelul 4.2
Nr.
crt.
Chelt. ncas.
(X)
(Y)
x2
y2
xy
)
y
)
y y
)
( y y )2
y y
( y y )2
xy
y2
x2
(X)
(Y)
crt.
1
12,30 1860 151,29 3459600 22878
2
12,50 1210 156,25 1464100 15125
3
14,00 1730 196,00 2992900 24220
4
14,30 1980 204,49 3920400 28314
5
14,80 1900 219,04 3610000 28120
6
16,50 1880 272,25 3534400 31020
7
16,70 1740 278,89 3027600 29058
8
18,00 1500 324,00 2250000 27000
9
19,00 3120 361,00 9734400 59280
10 20,00 2190 400,00 4796100 43800
11 20,20 2130 408,04 4536900 43026
12 20,50 1990 420,25 3960100 40795
13 22,00 2880 484,00 8294400 63360
14 24,30 3100 590,49 9610000 75330
15 24,90 3340 620,01 11155600 83166
Total 270,00 32550 5086,00 76346500 614492
)
y
)
y y
)
( y y )2
y y
( y y )2
1448,83
1474,14
1663,90
1701,85
1765,11
1980,18
2005,48
2169,94
2296,45
2422,96
2448,26
2486,22
2675,98
2966,95
3042,86
32549,10
411,17
-264,14
66,10
278,15
134,89
-100,18
-265,48
-669,94
823,55
-232,96
-318,26
-496,22
204,02
133,05
297,14
0,90
169058,30
69767,30
4369,21
77365,75
18195,85
10035,03
70478,04
448819,60
678234,60
54270,36
101290,70
246229,33
41624,16
17701,50
88292,77
2095732,52
-310
-960
-440
-190
-270
-290
-430
-670
950
20
-40
-180
710
930
1170
0
96100
921600
193600
36100
72900
84100
184900
448900
902500
400
1600
32400
504100
864900
1368900
5713000
270a
+
5086b
= 614492
i rezult:
a = -107,24 i b = 126,51
Ecuaia de regresie este:
)
yi = 107 ,24 + 126,51xi
Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaie:
15 614492 270 32550
r=
Suma ptratelor
(SS-Sum of Squares)
Datorat
regresiei
2y / x =3617268
Rezidual
2e =2095732
n k 1=152=13
2y =5713000
n 1=15-1= 14
Total
Grade de
libertate
(df- degree of
freedom)
k=1
Media ptratelor
(MS- Mean of
Squares)
s y2 / x =3617268
se2 =161210,2
Tabelul 4.4
Testul Fisher
(testul F)
Fcalc =
3617268 =22,438
161210 ,2
R = 1
2095732 ,52
= 0 ,6332 = 0 ,796 ,ceea ce ne arat o legtur destul de puternic ntre
5713000
variabile.
F=
n k 1 R2
= 22 ,438
k
1 R2
t calc =
b b b 0
=
, statistic ce urmeaz o distribuie t cu (n 2) grade de libertate.
sb
sb
t calc >t/2;13 vom concluziona c este foarte improbabil ca estimatorul b s provin dintr-o populaie cu
=0 ( adic este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general, este:
t calc =
a a a 0
=
.
sa
sa
t calc <t/2;13 vom concluziona c este foarte probabil ca estimatorul a s provin dintr-o populaie cu
=0 ( adic nu este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul este dat de:
yi = 10,8 + 3,7 xi
(x
(y
x ) = 26,86
y ) 2 = 163,39
x = 2,3
163,39
= 3,69.
12
t0,025;12 = 2,179
a) Intervalul de ncredere pentru cheltuielile unei zile n care sunt 6 camere ocupate este:
33 2,179 3,69 1 +
1 (6 2,3) 2
,
+
14
26.86
33 2,179 3,69
1 (6 2,3) 2
+
,
14
26.86
Problema 3
Pentru un magazin de mobil s-au cules date privind numrul de spoturi publicitare difuzate i
numrul vizitatorilor (mii pers.) timp de 14 zile.:
Ziua
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Se cere:
a) reprezentai grafic datele; Comentai graficul.
b) pe baza datelor de la nivelul eantionului, determinai ecuaia de regresie care modeleaz legtura
dintre cele dou variabile i calculai numrul zilnic previzionat de vizitatori;
c) verificai dac modelul de regresie identificat este valid statistic;
Rezolvare:
a) Notm cu X variabila factorial, independent nr.spoturi publicitare i cu Y variabila
dependent nr.vizitatori.
Pentru a identifica existena, forma i sensul legturii dintre variabilele analizate construim
corelograma (figura 4.10).
70
60
nr.vizitatori
50
40
30
20
10
0
0
10
12
14
nr.spoturi
na + b xi =
yi
2
a xi + b xi =
xi yi
Tabelul 4.5
xi
xi2
yi
xiyi
yi2
y i = 2,2858
( y i y )2
( yi yi )2
+ 5,0753 xi
7
5
1
8
10
2
6
7
9
3
12
8
4
11
17,53
18,82
6,96
8,34
63,39
19,68
5,12
14,54
8,78
42,40
0,66
34,67
54,96
9,69
3,29
69,52
820,19
47,44
290,31
555,25
10,64
3,29
143,12
341,82
739,24
47,44
179,91
489,01
0,13
2,70
31,84
1,84
11,27
21,56
0,41
0,13
5,56
13,27
28,70
1,84
6,98
18,98
xi yi xi2 xi yi yi2
504
305,53
3740,47
145,21
=763
294
160
10
320
610
16
210
238
405
33
768
296
120
605
37,81
27,66
7,36
42,89
53,04
12,44
32,74
37,81
47,96
17,51
63,19
42,89
22,59
58,11
=504
49
25
1
64
100
4
36
49
81
9
144
64
16
121
1764
1024
100
1600
3721
64
1225
1156
2025
121
4096
1369
900
3025
=93
42
32
10
40
61
8
35
34
45
11
64
37
30
55
(x
=4085
=22190
14 a + 93b = 504
14 763 (93 )2
2033
14 763 (93 )2
Se completeaz tabelul:
Surs
variaiei
Suma ptratelor
(SS-Sum of
Squares)
Datorat
regresiei
2y / x =3740,465
Rezidual
2e =305,535
n k 1=14 2=12
2y =4046,000
n 1=15-1= 13
Total
Grade de
libertate
(df- degree of
freedom)
k=1
Media ptratelor
(MS- Mean of
Squares)
s y2 / x =3740,465
se2 =25,461
Testul Fisher
(testul F)
Fcalc =
yi = a + bxi + ei
Pentru testarea semnificaiei parametrilor modelului de regresie liniar i estimarea lor pe
intervalele de ncredere se procedeaz astfel:
1) pentru parametrul
Ipotezele testate sunt:
H0 : = 0 (b = = 0),
H1 : 0.
Deoarece volumul eantionului este mic (n<30), vom utiliza testul t:
t calc =
b b b 0
, statistic ce urmeaz o distribuie t cu (n 2) grade de libertate.
=
sb
sb
se
Unde sb =
(x
x)
5,046
145,21
= 0,4187
i =1
Iar s e =
2
e
=
n2
(y
y i )
i =1
n2
305,53
= 5,046
12
tcalc >t/2;13 vom concluziona c este foarte improbabil ca estimatorul b s provin dintr-o populaie cu
=0 ( adic este semnificativ diferit de zero), deci parametrul este semnificativ statistic.
Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general, este:
H1 : 0
Statistica t este:
t calc =
a a a 0
=
.
sa
sa
n
2
i
i =1
Unde s a = se
= 5,046
n ( xi x ) 2
763
= 3,0912
14 145,21
i =1
t calc <t/2;13 vom concluziona c este foarte probabil ca estimatorul a s provin dintr-o populaie cu
=0 ( adic nu este semnificativ diferit de zero).
e) Pentru a msura intensitatea legturii dintre cele dou variabile se va calcula mai nti
coeficientul de corelaie liniar:
r=
xi yi xi yi
=
n x 2 ( x )2 n y 2 ( y )2
i i i
i
n
10318
b
n
yi2
( yi )
10318
= 0 ,9615
10731
Acest indicator ne arat o legtur direct i foarte puternic (r este pozitiv i apropiat de
valoarea unitar).
Pentru testarea semnificaiei coeficientului de corelaie liniar simpl, se procedeaz astfel:
Ipotezele testate sunt:
H0 : = 0 ( nu este semnificativ statistic)
t calc =
r r n 2 0,9615 12
=
=
= 12,12 .
sr
1 r2
1 0,9615 2
Un alt indicator utilizat att n cazul legturilor liniare, ct i al celor neliniare este raportul de
corelaie R:
R = Ry / x = 1
( y y )
(y y )
i
= 1
305,53
= 0,9615
4046
yi = 504 = 36
n
14
mii pers.
Ry/x = ry/x = 0,9615, deci exist o legtur liniar, puternic i direct ntre cele dou variabile.
F=
n k 1 R2
= 146,9
k
1 R2
explicat de variabila X.
g) Dac numrul spoturilor publicitare difuzate va fi de 15, atunci numrul previzionat al
vizitatorilor pe baza acestei ecuaii de regresie este:
y / x =15 = 2 ,2858 + 5 ,0753 15 78 mii pers. (estimare punctual)
2
1 (15 6,64) 2
1 ( x x)
= 39,534 .
s(2y n +1,i ) = s(2y n +1 yn +1,i ) = se2 1 + + n n+1
= 25,461 1+ +
n
14
145,21
2
( xi x)
i =1
y n +1,i t / 2,n 2 s e 1 +
1 ( x n +1 x ) 2
+ n
, adic (64,71; 92,11) mii persoane.
n
2
( xi x)
i =1
h) Suntem n cazul determinrii intervalului de ncredere pentru media de rspuns, cnd xn+1
x . Pentru aceasta se determin y n +1 = y + b( x n +1 x) = 36 + 5,0753 (8 - 6,64) = 42,9
s(2y n +1 )
( x x) 2
2 1
= se
+ n n +1
n
2
xi x
i =1
2
= 25,461 1 + (8 6,64)
14
145,21
= 2,14
)
)
x x
1
+ n n +1
n
xi x
y n +1 t / 2, n 2 s e
2
2
i =1
Se poate utiliza, ns, pentru rezolvarea problemei i un pachet informatic specializat, n cazul
nostru EXCEL. n urma selectrii, din meniul principal, a opiunilor
<Tools>+<Data
Regression
Residual
Total
Intercept
Nr. spoturi
1
12
13
Coefficients
2,2858
5,0753
SS
3740,465
305,535
4046,000
Standard Error
3,0912
0,4187
MS
3740,465
25,461
F
146,908
Significance F
0,0000000433
t Stat
0,7394
12,1206
P-value
0,4738580696
0,0000000433
Lower
95%
-4,4495
4,1629
Upper
95%
9,0210
5,9876
Problema 4. Un vnztor de automobile second hand ar dori s tie dac preul de vnzare al
acestora la licitaie depinde de numrul de kilometri parcuri de automobilul respectiv. Pentru aceasta
el selecteaz 50 de automobile cu o vechime de 3 ani, aceeai marc i aceleai faciliti. Pentru
fiecare main a nregistrat preul de vnzare la licitaie i numrul de kilometri de la bordul
autoturismului.
a)
Vnztorul ar dori s tie care este dependena dintre preul de vnzare i numrul de
kilometri parcuri.
b)
c)
Nr.Km
5318
5061
5008
5795
5784
5359
5235
5845
5536
5401
Preul
32359
43533
32744
34470
37720
41350
24469
35781
48613
24188
Nr.Km
5595
5330
5806
5805
5317
5316
5870
5504
5333
5705
Preul
38775
45563
28676
38231
36683
32517
39050
45251
34384
38383
Nr.Km
5150
5249
5775
5327
5192
5544
5054
5115
5410
5529
Preul
32161
26561
33533
41849
36668
37495
25629
40099
31014
42233
Nr.Km
5507
5873
5303
5237
5383
5286
5827
5483
5440
5215
Preul
37407
34356
30599
42485
38430
40452
26030
46296
34844
27379
Nr.Km
5105
5685
5788
5208
5168
5128
5750
4965
5238
5763
Rezolvare:
a) Pentru determinarea dependenei ntre cele dou variabile se face un grafic pentru determinarea
tipului legturii.
6000
5800
Pre
5600
5400
5200
5000
4800
0
10000
20000
30000
40000
50000
60000
Figura 4.12
1. Introducei datele astfel: n celula A1 tastai Nr.Km. iar n B1 Preul. n prima coloan,
ncepnd din A2 se vor introduce numrul de kilometri parcuri, iar pe coloana a doua,
ncepnd din B2 se vor introduce preurile.
2. Apsi Tools-Data Analysis i Regression.
3. La Input Y Range selectai B1:B51. La Input X Range selectai A1:A51. Selectai Labels.
4. Dac dorii s calculai valorile reziduale ( y i y i ), selectai Residuals. Apsi OK.
Se obin rezultatele:
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.808922
R Square
0.654355
Adjusted R Square
0.647154
Standard Error
157.8984
Observations
50
ANOVA
Df
Regression
Residual
Total
1
48
49
Coefficients
Intercept
Nr.Km.
SS
2265584
1196732
3462316
Standard
Error
6598.34
124.3322
-0.03224
0.003382
MS
2265584
24931.91
t Stat
53.07024
-9.53262
F
90.87089
P-value
Significance F
1.19E-12
2.78E-44
1.19E-12
6348.353
-0.03904
6848.326
-0.02544
Este calculat eroarea standard, Standard Error, egal cu 157,9. n cazul n care aceast
valoare este zero, nseamn c toate punctele observate se afl pe dreapta de regresie. Deci, bine este
ca aceast valoare s fie ct mai apropiat de zero. Ce nseamn mai apropiat de zero este greu de
spus folosind doar eroarea standard. De aceea se calculeaz mrimi derivate din aceasta pentru a spune
ct de apropiate sunt punctele de dreapta de regresie.
Pentru a putea spune n ce msur modelul liniar de regresie explic dependena dintre
variabile se calculeaz coeficientul de determinaie, R-square care n cazul nostru este 0,6544. Deci
65,44% din variaia preului este explicat de variaia numrului de kilometri parcuri de automobil.
2
RESIDUAL OUTPUT
Observation
1
2
3
4
.....
Predicted Price
Residuals
5392.879821
-74.8798
5155.257064
-94.2571
5120.597029
-112.597
5603.29042
191.7096
Acest tabel se interpreteaz similar cu tabelul 3 din SUMMARY OUTPUT obinut prin EXCEL.
5. Apsi Continue. Apsi Whole model R.
Se obine:
Acest tabel se interpreteaz similar cu tabelul 1 din SUMMARY OUTPUT obinut prin EXCEL.
Dac se dorete calculul valorilor reziduale i al celor previzionate se parcurg paii:
6. Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.
Se obine:
n coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimai:
sa = 124,33 i sb = 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea
semnificaiei estimatorilor. Acestea sunt calculate n coloana tStat, ta = 53,07 i tb = - 9,53. Deoarece
valorile p asociate sunt foarte apropiate de zero (n coloana P-value), se poate spune c estimatorii
sunt semnificativi.
Lower 95% i Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienilor estimai.
Interpretarea rezultatelor prezente n tabelul ANOVA.
1
2
3
4
.....
Acest tabel se interpreteaz similar cu tabelul 3 din SUMMARY OUTPUT obinut prin EXCEL.
Dac se dorete calculul valorilor reziduale i al celor previzionate se parcurg paii:
Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.
Se obine:
preul observat;
preul previzionat;
eroarea standard;
1
-0.808922247
Pre
Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,809. Deoarece acesta
este negativ i apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.
Rezolvare folosind STATISTICA:
1.
2.
3.
4.
Se obin rezultatele:
Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,81. Deoarece
acesta este negativ i apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.