Sunteți pe pagina 1din 7

1.

Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi
numărul vizitatorilor (mii pers.) timp de 14 zile.:
Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.)
1 7 42
2 5 32
3 1 10
4 8 40
5 10 61
6 2 8
7 6 35
8 7 34
9 9 45
10 3 11
11 12 64
12 8 37
13 4 30
14 11 55
Se cere:
a) reprezentaţi grafic datele; Comentaţi graficul.
b) pe baza datelor de la nivelul eşantionului, determinaţi ecuaţia de regresie care modelează legătura
dintre cele două variabile şi calculaţi numărul zilnic previzionat de vizitatori;
c) verificaţi dacă modelul de regresie identificat este valid statistic;
d) testaţi semnificaţia statistică a parametrilor modelului, determinând şi intervalele de încredere
pentru aceştia;
e) măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul coeficientului şi a raportului de
corelaţie; testaţi semnificaţia indicatorilor utilizaţi;
f) în ce măsură variaţia numărului de vizitatori este determinată de numărul spoturilor publicitare, pe
baza modelului de regresie determinat?
g) previzionaţi numărul vizitatorilor aşteptaţi într-o zi, în ipoteza că se vor difuza 15 spoturi în acea zi.
h) previzionaţi numărul mediu zilnic de vizitatori, în ipoteza că se vor difuza 8 spoturi publicitare în
medie pe zi.

Rezolvare:
a) Notăm cu X variabila factorială, independentă „nr.spoturi publicitare” şi cu Y variabila
dependentă „nr.vizitatori”.
Pentru a identifica existenţa, forma şi sensul legăturii dintre variabilele analizate construim
corelograma (figura 4.10).

1
70

60

50

nr.vizitatori
40

30

20

10

0
0 2 4 6 8 10 12 14

nr.spoturi

Figura 4.10 Corelograma (diagrama de împrăştiere)

Se observă că legătura dintre variabile este directă şi liniară (întrucât dreapta de regresie are
pantă pozitivă), iar ecuaţia de regresie va avea forma:
ŷi  a  bxi

b) Pentru a determina estimatorii a şi b, rezolvăm sistemul de ecuaţii normale, folosind datele


din tabelul de lucru 4.5:

 
na  b xi  yi


   2
a xi  b xi  xi yi
n=14 (numărul observaţiilor)
Tabelul 4.5
xi yi xi
2
xiyi y i
2
yˆ i  2,2858  yi  ŷi  2  yˆ i  y  2 x i x  2

 5,0753 xi
7 42 49 294 1764 37,81 17,53 3,29 0,13
5 32 25 160 1024 27,66 18,82 69,52 2,70
1 10 1 10 100 7,36 6,96 820,19 31,84
8 40 64 320 1600 42,89 8,34 47,44 1,84
10 61 100 610 3721 53,04 63,39 290,31 11,27
2 8 4 16 64 12,44 19,68 555,25 21,56
6 35 36 210 1225 32,74 5,12 10,64 0,41
7 34 49 238 1156 37,81 14,54 3,29 0,13
9 45 81 405 2025 47,96 8,78 143,12 5,56
3 11 9 33 121 17,51 42,40 341,82 13,27
12 64 144 768 4096 63,19 0,66 739,24 28,70
8 37 64 296 1369 42,89 34,67 47,44 1,84
4 30 16 120 900 22,59 54,96 179,91 6,98
11 55 121 605 3025 58,11 9,69 489,01 18,98
 xi  yi  xi2  xi yi  yi2 504 305,53 3740,47 145,21
=93 =504 =763 =4085 =22190

2
14 a  93b  504

93a  763b  4085
 504  763  93  4085 4647
a a    2 ,2858
 14  763   93 2 2033
 14  4085  93  504 10318
b b    5 ,0753
 14  763   93 2 2033

Ecuaţia de regresie este:


ŷi  2 ,2858  5 ,0753 xi
c) Testarea validităţii modelului de regresie determinat.
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: model nevalid statistic, cu alternativa
H1: model valid statistic
Se completează tabelul:
Sursă Suma pătratelor Grade de Media pătratelor Testul Fisher
variaţiei (SS-Sum of libertate (MS- Mean of (testul F)
Squares) (df- degree of Squares)
freedom)
Datorată 2y / x =3740,465 s y2 / x =3740,465 3740,465
regresiei k=1 Fcalc  =146,90
25,461
8
Reziduală 2e =305,535 n – k – 1=14
-2=12 se2 =25,461
Totală 2y =4046,000 n – 1=15-1= 13

Valoarea teoretică pentru un prag de semnificaţie = 0,05 şi 1, respectiv 12 grade de libertate,

preluată din tabelul repartiţiei Fisher este F ;k ;n k 1 =4,75.

Întrucât Fcalc> F ;k ;n k 1 se respinge H0, adică se concluzionează că modelul este valid.


Calculele intermediare se găsesc în tabelul 4.5.

d) Ecuaţia de regresie liniară la nivelul colectivităţii generale se scrie:


yi =  + xi + i,
iar la nivelul eşantionului:
yi = a + bxi + ei
Pentru testarea semnificaţiei parametrilor modelului de regresie liniară şi estimarea lor pe
intervalele de încredere se procedează astfel:
1) pentru parametrul 
Ipotezele testate sunt:

3
H0 :  = 0 (b =  = 0),
H1 :   0.

Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t:


b  b b  0
t calc   , statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.
sb sb

se 5,046
sb    0,4187
Unde n
145,21
 (x
i 1
i  x) 2

Iar  2  y i  yˆ i 
2

305,53
se  
e i 1
  5,046
n2 n2 12
Se obţine tcalc  12,1206

Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este t /2;13 = 2,179 . Deoarece t calc
>t/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu =0
( adică  este semnificativ diferit de zero), deci parametrul  este semnificativ statistic.
Intervalul de încredere pentru parametrul  , coeficientul de regresie din colectivitatea generală,
este:
b  t / 2 ,n  2  s b    b  t / 2 ,n  2  s b , adică 4,1629    5,9876

2) pentru parametrul a
Ipotezele testate sunt:
H0 :  = 0,
H1 :   0
Statistica t este:
a  a a  0
t calc   .
sa sa
n

x 2
i
763
Unde s a  s e i 1
 5,046   3,0912
n
14  145,21
n ( xi  x ) 2
i 1

Se obţine t calc = 0,7394

4
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este t /2;13 = 2,179 . Deoarece t calc
<t/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu =0
( adică  nu este semnificativ diferit de zero).
Intervalul de încredere pentru parametrul  este dat de:
a  t / 2 ,n 2  s a    a  t / 2 ,n2  sa , adică -4,4495    9,0210.

Un argument suplimentar pentru concluzia că parametrul  este nesemnificativ statistic este acela că
intervalul de încredere include şi valoarea zero.
e) Pentru a măsura intensitatea legăturii dintre cele două variabile se va calcula mai întâi
coeficientul de corelaţie liniară:

r
 xi yi   xi  yi
n

b

n
  i
x 2
   2 

 i    i  i 
x n y 2
 y  2
 n  yi2 

  yi  2 
10318 10318
   0 ,9615

2033 14  22190  504 2
 10731

Acest indicator ne arată o legătură directă şi foarte puternică (r este pozitiv şi apropiat de
valoarea unitară).
Pentru testarea semnificaţiei coeficientului de corelaţie liniară simplă, se procedează astfel:
Ipotezele testate sunt:
H0 :  = 0 (  nu este semnificativ statistic)
H1:   0 (  este semnificativ statistic).
Statistica t este:
r r n2 0,9615  12
t calc     12,12 .
sr 1 r 2
1  0,9615 2

Cum valoarea tabelară a testului t, pentru un prag de semnificaţie de 5% şi 12 grade de

libertate este 2,179 rezultă că tcalc > t ;n  2 , deci coeficientul de corelaţie este semnificativ statistic
Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de
corelaţie R:

  y  yˆ 
2
i i 305,53
R  Ry / x  1  1  0,9615
  y  y
2
4046
i

Calculele necesăre determinării raportului de corelaţie sunt redate în 4.5

y
 yi  504  36 mii pers.
n 14
Ry/x = ry/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.
Testarea semnificaţiei raportului de corelaţie se face cu testul F:
n  k 1 R2
F   146,9
k 1 R2
5
Valoarea teoretică pentru un prag de semnificaţie = 0,05 şi 1, respectiv 12 grade de

libertate, preluată din tabelul repartiţiei Fisher este F ;k ;n k 1 =4,75.

Întrucât Fcalc> F ;k ;n k 1 se respinge H0, adică se concluzionează că R este semnificativ


statistic.
f) Pentru a determina în ce măsură variaţia numărului de vizitatori este explicată de influenţa
numărului de spoturi publicitare difuzate zilnic, se calculează coeficientul de determinaţie:
R y2 / x  0 ,9615 2  0 ,9245 său 92,45% arată că aproximativ 92% din variaţia variabilei Y este

explicată de variabila X.
g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al
vizitatorilor pe baza acestei ecuaţii de regresie este:
ŷ / x 15  2 ,2858  5 ,0753  15  78 mii pers. (estimare punctuală)

Pentru estimarea pe interval de încredere, trebuie să determinăm dispersia diferenţei


yˆ n 1  y n 1,i , adică dispersia erorii de previzionare. Dispersia în eşantion este:

 
 
1  1  ( x n 1  x)   25,461 1  1  (15  6,64) 
2 2
s 2
 yˆ n 1, i  s
2
 yˆ n 1  y n 1, i   s2
   39,534 .
e n n  14 145,21
 



i 1
( x i  x) 2 

Intervalul de încredere este:

1 ( x n 1  x) 2
yˆ n 1,i  t / 2,n 2 s e 1  
n n , adică (64,71; 92,11) mii persoane.
 i( x  x
i 1
) 2

h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când x n+1 

x . Pentru aceasta se determină yˆ n 1  y  b( x n 1  x )  36  5,0753   8 - 6,64  42,9

ˆ n 1 este:
iar estimatorul dispersiei pentru y
 
 
1 ( x  x) 2   25,461   1  (8  6,64) 
2
s 2yˆ n 1   s e2   n n 1  14   2,14
n 
  xi  x
2
    145,21 
 i 1 
Intervalul de încredere pentru media de răspuns este:

yˆ n 1  t / 2,n 2 s e
1 
x x
 n n 1
 2

 
n , adică (39,71; 46,08) mii persoane
 xi  x
2

i 1

6
Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul
nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor <Tools>+<Data
Analysis>+<Regression>, s-au obţinut următoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,961501303
R Square 0,924484756
Adjusted R
Square 0,918191819
Standard Error 5,045911528
Observations 14

ANOVA
df SS MS F Significance F
Regression 1 3740,465 3740,465 146,908 0,0000000433
Residual 12 305,535 25,461
Total 13 4046,000

Lower Upper
Coefficients Standard Error t Stat P-value 95% 95%
Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210
Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876

S-ar putea să vă placă și