Sunteți pe pagina 1din 21

ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)

Analiza dispersional, cunoscut i sub numele de analiz de varian (ANOVA), a fost


introdus de statisticianul R.A. Fisher i permite compararea mediilor a dou sau mai multe
colectiviti de date cantitative.
Modelul de analiz dispersional nu i propune s expliciteze relaia dintre variabile, ci i
propune ca pentru fiecare nivel al factorului/factorilor cauzali s analizeze populaia distinct asociat i
eventualele diferene ce apar ntre populaii, adic s studieze efectul variabilei/variabilelor
independente asupra celei dependente.
Analiza dispersional se poate face dup un model unifactorial, dup modele bi- sau
multifactoriale. n cazul modelului unifactorial populaiile se pot clasifica utiliznd un singur criteriu,
numit factor. Fiecare populaie este numit un nivel al factorului (sunt r niveluri).

3.1 Modelul de analiz dispersional unifactorial


n modelul de analiz dispersional unifactorial se testeaz ipoteza nul: mediile din populaii
sunt egale
H0: y1 = y2 = ... = yr,
cu ipoteza alternativ: cel puin dou medii din populaie nu sunt egale
H1 : yi yi,

(i j)

y
y1=y2=

yr

y2

=yr

y1

x1

x2 ...... xr x

a) medii de grup egale;

x1

x2

..... xr x

b) mediile de grup inegale


Figura 3.1

Se testeaz, cu alte cuvinte, dac diferenele dintre mediile de grup din eantion sunt prea
mari pentru a fi atribuite doar ntmplrii. Dac rezultatul testului indic faptul c mediile sunt
semnificativ diferite, se concluzioneaz c factorul X are un impact asupra variabilei Y.
Testul statistic este dezvoltat n concordan cu urmtorul raionament. Dac ipoteza nul este
adevrat, mediile celor r populaii ar trebui s fie, toate, egale. Ne ateptm atunci ca mediile celor r
eantioane s fie aproximativ egale. Dac ipoteza alternativ este adevrat, exist diferene mari ntre
unele medii ale eantioanelor.
Setul de date pentru analiza dispersional unifactorial const n valorile variabilei Y pentru cele r
grupe independente. Volumele grupelor pot fi diferite n1 n2 ... nr (tabelul 3.1):
Tabelul 3.1 Sistematizarea datelor pentru ANOVA
Grupe dup factorul cauz
Gr. 2
... .
y21
.....
y22
.....
.
.
.....
y 2n

Gr. 1
y11
y12
.
.
y 1n
1

Media
Vol. grup

y1
n1

.....
.....

y2
n2

Gr.r
yr1
yr2
y rn r
yr
nr

Presupunerile sub care se aplic testul F n analiza dispersional unifactorial ofer un cadru
solid pentru inferena statistic pe baza datelor observate, anume:
- cele r grupe din eantion sunt extrase aleator i independent din cele r grupe ale colectivitii
generale;
- fiecare grup din colectivitatea general are o distribuie normal, iar abaterile medii ptratice sunt
egale 1 = 2 = ... = r .
Testul statistic F pentru analiza dispersional unifactorial este raportul indicatorilor de
variabilitate pentru cele dou surse de variaie: variabilitatea dintre grupe mprit la variabilitatea din
interiorul grupelor. El poate fi interpretat ca msurnd de cte ori este mai mare variabilitatea mediilor
de grup comparativ cu ce ne-am fi ateptat dac ele erau doar aleator diferite. Pentru testarea ipotezei
nule, vom estima mediile de grup i media total din colectivitatea general pe baza datelor din
eantion.
ni

yi =

y
j =1

ni
r

y=

ij

i = 1,r

ni

yij
i =1 j =1

y n
i

i =1

, n = ni .
i =1

Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial, este
suma ptratelor abaterilor mediilor de grup de la media general:
r

S1 = y i y ni .
i =1

Din relaie rezult c, dac y1 = y 2 = ... = y r = y atunci S1 = 0.

Variana din interiorul grupelor, numit i variana rezidual, este suma ptratelor abaterilor valorilor
individuale de la mediile de grup:
ni

).

S 2 = yij y i

i =1 j =1

mprtierea total a valorilor individuale fa de media general y este dat de variana total:
r

ni

S = yij y .
2

i =1 j =1

Raionamentul analizei dispersionale se bazeaz pe partiionarea sumei ptratelor abaterilor:

(y y) = (y y) n + (y y ) S = S + S
r

ni

i=1 j =1

ij

i=1

ni

i=1 j =1

ij

Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta pe fiecare la gradele de
libertate, transformnd astfel suma de ptrate n media ptratele abaterilor.
Pentru variana factorial S1, numrul gradelor de libertate este r-1 i acest lucru nseamn c
msurm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media total a fost
estimat.
Pentru variana rezidual (din interiorul grupelor) S2, numrul gradelor de libertate este nr; acest
lucru nseamn c msurm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate,
deoarece au fost estimate mediile celor r grupe.
Obinem astfel dispersia factorial corectat:

(y

s12 =

S1
=
r 1

i =1

y ni

r 1

i dispersia corectat rezidual:

(y
r

s 22 =

S2
=
nr

ni

i =1 j =1

ij

yi

nr

Statistica F pentru analiza dispersional unifactorial are forma:

F=

s12
var iabilitatea dintre grupe
=
,
s 22 variabilitatea din interiorul grupelor

cu gradele de libertate (r 1) la numrtor i (n r) la numitor.


Testul statistic F se realizeaz comparnd valoarea calculat a statisticii F cu valoarea critic
(tabelat) F pentru (r1) i (nr) grade de libertate i probabilitatea 100 (1-)% de garantare a
rezultatelor aleas. Rezultatul este semnificativ dac:
F> F, (r- 1),(n- r) ,
deoarece acest lucru indic diferene mai mari ntre mediile grupelor dect cele datorate ntmplrii.
Regiunea critic este dat deci de valorile lui F pentru care F > F,r-1,n-r . Altfel spus, dac valoarea F este
mai mic dect valoarea critic F, atunci se pot face urmtoarele afirmaii echivalente:
- acceptm ipoteza nul, H0;
- nu acceptm ipoteza alternativ H1;
- mediile grupelor nu sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor pot fi datorate doar ntmplrii;
- rezultatul nu este semnificativ statistic.
Dac valoarea F este mai mare dect valoarea critic F, atunci:
- acceptm ipoteza alternativ, H1;
- respingem ipoteza nul, H0;
- mediile grupelor sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor nu sunt datorate doar ntmplrii;
- rezultatul este semnificativ statistic.

3.2 Modelul de analiz dispersional bifactorial

n modelul de analiz dispersional bifactorial se identific doi factori de influen, iar


variabilitatea caracteristicii rezultative poate s fie pus:
- pe seama influenei primului factor (cu I niveluri);
- pe seama influenei celui de-al doilea factor (cu J niveluri);
- pe seama interaciunii celor doi factori;
- pe seama ntmplrii (factorului rezidual).
n acest caz, o valoare nregistrat pentru variabila efect Y, la grupa i ( i = 1, I ) a primului factor i
grupa j ( j = 1, J ) a celui de-al doilea factor este yijk, (cu k = 1, K numrul de observaii din fiecare
celul considerat pentru nivelul i al primului factor i nivelul j al celui de-al doilea factor), iar
rezultatele analizei pot fi prezentate astfel (tabelul 3.2).

Grade de
libertate

Sursa variaiei

S1 = JK x i .. x

I1

Primul factor

i =1

S 2 = IK x . j . x

J1

Al doilea factor

j =1

Interaciunea
celor doi
factori

(I-1)(J-1)

Rezidual

IJ(K-1)

Tabelul 3.2 Analiza dispersional bifactorial


Dispersia corectat
Statistica F
(media ptratelor)

Variana
(suma ptratelor)

S 4 = xijk x ij .

i =1 j =1 k =1
I

Total

S = xijk x

IJK1

F=

s12
s42

S
s = 2
J 1

F=

s22
s42

2
2

S3 = K xij. xi.. x. j. + x
i=1 j=1

S1
I 1

s12 =

S3
s =
(I 1)(J 1)
2
3

s 42 =

s 32
F= 2
s4

S4
IJ (K 1)

i =1 j =1 k =1

unde:
media celulei este:
K

x ij. =

ijk

k =1

media grupei i ( i = 1, I ) pentru primul factor este:


J

ijk

xi.. =

j=1 k=1

JK

media grupei j ( j = 1, J ) pentru al doilea factor este:


I

x.j. =

ijk

i=1 k=1

IK

media total este:


I

x=

xijk
i=1 j=1 k=1

IJK

xi..
i=1

. j.

j=1

Testul F de analiz dispersional necesit ndeplinirea unor condiii suplimentare: variabila


studiat este normal distribuit n cele r grupe i dispersiile sunt egale. Aceste condiii pot fi uor
verificate construind histogramele pentru fiecare din cele r eantioane.

Testul F se realizeaz, apoi, prin compararea valorilor calculate cu valorile critice, similar cu
analiza dispersional unifactorial.
Trebuie subliniat, nc o dat, c modelele de analiz dispersional nu explic relaia dintre
variabile, ci verific doar msura n care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum i msura n care aceste variaii sunt sau nu dependente de factorul/factorii de
grupare. Prin urmare, metoda analizei dispersionale poate fi utilizat att naintea, ct i dup aplicarea
metodelor corelaiei i regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dac nu chiar
imposibil s culegem date despre fiecare unitate statistic din populaia general (total). n aceste
condiii utilizm, n general, date provenite din eantioane, pentru a studia aceste legturi. Este firesc
atunci ca, dup aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaii de
dependen ntre variabile, s testm ipoteza statistic privitoare la semnificaia acestei dependene.
Pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se nregistreaz o distribuie
de valori ale factorului efect, distribuie pe care o putem caracteriza prin nivelul mediu. Dac aceste
medii ale variabilei efect, calculate pentru fiecare nivel al factorului cauz sunt egale (sau foarte puin
diferite) concluzia imediat este c variabila independent nu influeneaz variabila dependent.
Aspectul graficului este, aadar, al unui nor de puncte paralele cu axa OX. Cu ct variabila cauz
influeneaz mai mult variaia variabilei efect, cu att mediile de grup vor fi mai diferite ntre ele, ca
nivel. n interiorul celor r grupe dup factorul cauz (X), valorile variabilei efect (Y) vor varia datorit
diferenelor individuale inerente n populaia statistic, dar ntre cele r grupe, mediile vor varia
datorit influenei variabilei cauz.
Analiza dispersional va urmri, deci, s testeze semnificaia diferenei dintre mediile de grup n
populaia general (estimate prin mediile de grup din eantion).
S mai notm c, n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri ale unei
variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar
(nominal) este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza
se poate extinde.
Testul F se poate utiliza i pentru testarea validitii modelului de regresie (a se vedea capitolul 4).

3.3 ntrebri teoretice i probleme rezolvate


1. Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer
tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un
numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la

angajarea iniial a unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate
dup mrime, iar datele nregistrate sunt:
Mrimea firmelor
Mici
Medii
Mari

Numr de sptmni de la angajare pn la prima promovare


30; 26; 30; 32; 38; 24; 32; 28;
34; 32; 25; 36; 33
47; 41; 43; 48; 40; 49; 40.

Se cere s se determine, folosind testul F de analiz dispersional, dac variaia timpului scurs pn la
prima promovare este influenat semnificativ de mrimea firmei?
Rezolvare:
Notm cu X caracteristica mrimea firmelor factorul de grupare i cu Y caracteristica
numr de sptmni de la angajare pn la prima promovare.
Se formuleaz urmtoarele ipoteze:
H0: 1 = 2 = 3
H1: i j , i j
Unde i reprezint timpul mediu de promovare pentru firma din grupa i, la nivelul
colectivitii generale.
Calculm, la nivelul eantionului, mediile pentru fiecare grup i ( yi ), cu i = 1,3 , unde i
reprezint grupa (mrimea firmei):
8

y1 =

y
j =1

1j

n1

30 + 26 + 30 + 38 + 32 + 24 + 32 + 28
= 30,00 sptmni;
8

34 + 32 + 25 + 36 + 33
= 32 sptmni;
5

47 + 41 + 43 + 48 + 40 + 49 + 40
= 44 sptmni.
7

y
j =1

y2 =

2j

n2

y
j =1

y3 =

n3

3j

Numrul mediu de sptmni pentru ntreaga colectivitate de 20 de firme poate fi calculat ca


medie a mediilor pariale:

y=

y n
n
i

30 8 + 32 5 + 44 7
= 35,4 sptmni.
20

Determinm dispersia fiecrei grupe i ( si2 ):

(y
8

s =
2
1

y1

1j

j =1

2
2
2
2
(
26 30 ) + (32 30 ) + (38 30 )
=

n1

(24 30)2 + (32 30)2 + (28 30)2


8

(y
5

s22 =

j =1

2j

y2

n2

(y
j =1

3j

128
= 16
8

s 32 =

y3

(34 32)2 + (25 32)2 + (36 32)2 + (33 32)2


5

70
= 14
5

n3

(47 44)2 + (41 44)2 + (43 44)2


7

2
2
2
(
48 44 ) + 2(40 44 ) + (49 44 )
+

92
= 13,14
7

Variana sistematic va fi:


r

S1 = y i y ni =(30 35,4) 8 + (32 35,4) 5 +


2

i =1

+ (44 35,4) 7 = 808,8


2

Variana rezidual este:


r

ni

S 2 = y ij y i
i =1 j =1

) = s
2

i =1

2
i

ni = 128 + 70 + 92 = 290

Dispersia corectat sistematic este:

s12 =

S1
808,8
=
= 404,4
2
r 1

Dispersia corectat rezidual este:

s 22 =

S2
290
=
= 17,06
n r 17

Testul F:

s12 404,4
F= 2 =
= 23,7
s 2 17,06
Ftabelar=Fcritic=F,r-1,n-r=F0,05;2;17=3,59
Cum Fcalculat>Fcritic, rezult c se respinge ipoteza nul, acceptndu-se ca adevrat ipoteza
alternativ. Timpul mediu de promovare pe fiecare tip de firm difer semnificativ, n consecin se
poate afirma, cu o probabilitate de 95% c mrimea firmei influeneaz semnificativ variaia timpului
de promovare a tinerilor.

11. n vederea fundamentrii deciziei de nlocuire a unor utilaje din dotarea unei fabrici,
managerul acesteia solicit o analiz a vechimii utilajelor i a costului de ntreinere anual al acestora.
Astfel cele 110 utilaje din dotarea fabricii sunt grupate dup vechime (ani) i dup costul de ntreinere
(mii lei):
57

Vechime
(ani)
Mic (<5 ani)
Medie (5-10 ani)
Mare (>10 ani)
Total

Costul de ntreinere (mii lei)


79
9 11
11 13

10
10

8
15
2
25

5
20
25
50

Total

7
18
52

23
42
45
110

Se cere s se determine dac influena vechimii asupra variaiei costului de ntreinere este
semnificativ, utiliznd testul F de analiz dispersional.
Rezolvare:
Notm cu X caracteristica vechime factorul de grupare i cu Y caracteristica costul de
ntreinere.
n vederea calculrii indicatorilor necesari determinrii statisticii F datele vor fi sistematizate
pentru fiecare categorie de vechime conform tabelelor de mai jos.
i = 1 (grupa vechime mic).
Cost de ntreinere
(mii RON)
57
79
9 11
11-13
Total

y1 =

yj

yjn1j

y j y1

(y j y1 )2 n1 j

10
8
5

6
8
10
12
-

60
64
50

-1,56
0,44
2,44

24,336
1,549
29,768

23

174

55,653

(y y ) n
n
2

y n
n
j

n1j

1j

1j

174
= 7 ,56 mii RON ;
23

s12 =

1j

1j

55,653
= 2 ,42
23

i = 2 (grupa vechime medie).


Cost de ntreinere
(mii RON)
57
79
9 11
11-13
Total

y2

y n
=
n
j

n2j

yj

yjn2j

15
20
7
42

6
8
10
12
-

120
200
84
404

y j y2

(y j y 2 )2 n2 j

-1,62
0,38
2,38
-

39,366
2,888
39,6508
81,9048

(y y ) n
n
2

2j

2j

404
2
=
= 9 ,62 mii RON ; s 2 =
42

i = 3 (grupa vechime mare)

2j

2j

81,9048
= 1,95
42

Cost de ntreinere
(mii RON)
57
79
9 11
11-13
Total

y3

y n
=
n
j

n3j

yj

yjn3j

y j y3

(y j y 3 )2 n3 j

2
25
18
45

6
8
10
12
-

16
250
216
482

-2,7
-0,7
1,3
-

14,58
12,25
30,42
57,25

(y y ) n
n
2

3j

3j

482
2
=
= 10,7 mii RON ; s3 =
45

3j

3j

57 ,25
= 1,27
45

Media dispersiilor grupelor va fi:


Variana rezidual este:
r

ni

S 2 = yij y i
i =1 j =1

) = s
r

i =1

2
i

ni = 2 ,42 23 + 1,95 42 + 1,27 45 = 194 ,7

Costul mediu de ntreinere pentru ntreaga colectivitate de 110 de utilaje poate fi calculat ca
medie a mediilor pariale:

y=

y n
n

i i
i

7 ,56 23 + 9,62 42 + 10,7 45


= 9,64 mii RON.
110

Variana sistematic va fi:


r

S1 = y i y ni =(7 ,56 9,64) 23 + (9,62 9 ,64) 42 + (10,7 9,64) 45 = 150,15


2

i =1

Dispersia corectat sistematic este:

S1 150,15
=
= 75,075
r 1
2

s12 =

Dispersia corectat rezidual este:

S2
194,7
=
= 1,82
n r 107

s22 =
Testul F:

F=

s12 75,075
=
= 41,25
s 22
1,82

Ftabelar=Fcritic=F;,r-1,n-r=F0,05;2;107=3,07
Cum Fcalculat>Fcritic, rezult c se respinge ipoteza nul, acceptndu-se ca adevrat ipoteza
alternativ. n consecin se poate afirma, cu o probabilitate de 95% c vechimea utilajelor
influeneaz semnificativ variaia costului de ntreinere.

10

3.

Se cunosc datele:

Grupe de salariai dup durata


medie a zilei de lucru (ore)
7 7,2
7,2 7,4
7,4 7,6
7,6 7,8
7,8 i peste
Total

Salariul mediu
(unit. monetare)
9,2
10,4
11,6
11,8
12,0
-

Nr. de salariai

100
120
180
140
130
670

Coeficientul de variaie pe
grup (%)
6,52
10,58
12,07
10,17
7,50
-

S se arate dac durata medie a zilei de lucru influeneaz semnificativ variaia salariului, folosind
testul F de analiz dispersional
Rezolvare:
Se noteaz cu X - durata zilei de lucru (factorul de grupare), respectiv cu Y - salariul
Din vi =

s yi
yi

s yi =

100 se determin abaterile medii ptratice pe grupe:

vi y i
100

Grupe de salariai dup durata


medie a zilei de lucru (ore)
7 7,2
7,2 7,4
7,4 7,6
7,6 7,8
7,8 i peste
Total

s yi

s 2y

s 2y ni
i

0,6
1,1
1,4
1,2
0,9
-

0,36
1,21
1,96
1,44
0,81
-

36
145,2
352,8
201,6
105,3
840,9

Media dispersiilor de grup este:


2

s =

s 2y n i
i

ni

840,9
= 1,255
670

Pentru determinarea dispersiei dintre grupe, calculm:

y=

y i ni 7468
=
= 11,15 u.m.;
670
ni

Dispersia dintre grupe:

(y y ) n
=
n
2

637 ,27
= 0 ,951 ;
670

Variana total este:

S = y j y = S1 + S 2 = 1478 ,1
2

Variana factorial:

11

y i ni
920
1248
2088
1652
1560
7468

(y i y )2 ni
380,25
67,50
36,45
59,15
93,92
637,27

)2

S1 = y i y ni = 2 n = 637,2 ;

Variana rezidual:

S 2 = y j y i

)2 = s 2 n = 840,9 ;

Dispersiile corectate vor fi:

s12 =

S1
637,2
=
= 159,3 ;
r 1
4

s 22 =

S2
840,9
=
= 1,265 ;
nr
665

s 2 159,3
Fcalc = 1 =
= 125,9 > Ftab = F =0,05;4;665 = 2,45 .
s 22 1,265

Cum Fcalc > Ftab , rezult c influena duratei medii a zilei de lucru asupra salariului este semnificativ.
4.

Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou

produs are urmtoarele avantaje fa de vechiul produs: este mai practic de utilizat, are o calitate cel
puin la fel de bun i cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje s-i axeze strategia de marketing, directorul
acestui departament a realizat un studiu n trei orae. n oraul A campania de publicitate s-a axat pe
uurina de utilizare a noului produs. n oraul B campania de publicitate s-a axat pe calitatea noului
produs. n oraul C campania de publicitate s-a axat pe preul mai mic al noului produs. n toate cele 3
orae s-a nregistrat numrul de buci vndute n 20 de sptmni.
Directorul de marketing ar dori s tie dac exist diferene semnificative ntre numrul de buci
vndute, n medie pe sptmn, n cele trei orae dup terminarea campaniei de publicitate.
Uurina
folosirii:

529
498

658
663

793
604

514
495

663
485

719
557

711
353

606
557

461
542

529
614

Calitate:

804
492

630
719

774
787

717
699

679
572

604
523

620
584

697
634

706
580

615
624

Pre:

672
691

531
733

443
698

596
776

602
561

502
572

659
469

689
581

675
679

512
532

Identificarea metodei: Datele sunt cantitative i problema revine la a compara mediile celor trei
populaii. Ipotezele ce trebuie testate sunt: H0: 1 = 2 = 3 cu alternativa H1: cel puin dou medii sunt
diferite.
Pentru aceasta se aplic o analiz de varian cu un singur factor.
Rezolvare folosind EXCEL:
1. Introducei datele astfel:

n A1 tastai Uurina folosirii, n B1 tastai Calitate, n C1 tastai Pre

12

datele se introduc pe coloane.

2. Apsai Tools-Data Analysis i ANOVA: Single Factor.


3. La Input Range selectai datele (sau scriei A1:C21). Selectai Labels in First Row.
4. Specificai Grouped by Columns. Apsai OK.
Se obin rezultatele:
Anova: Single Factor

SUMMARY
Groups
Uurina folosirii
Calitate
Pre

Count
20
20
20

Sum
11551
13060
12173

ANOVA
Source of Variation
Between Groups
Within Groups

SS
57512.23
506983.5

df
2
57

Total

564495.7

59

Average
577.55
653
608.65

MS
28756.12
8894.447

Variance
10775
7238.11
8670.24

F
3.233

P-value
0.047

F crit
3.159

n tabelul SUMMARY sunt trecute datele referitoare la cele trei populaii:


-

numrul de uniti din fiecare populaie: 20 de sptmni

numrul total de buci vndute n aceast perioad pentru fiecare populaie

numrul mediu de buci vndute n fiecare sptmn pentru fiecare populaie

dispersia populaiilor

Din aceste date observm c cea mai mare vnzare medie a fost n Oraul B n care publicitatea a
avut ca argument principal calitatea superioar a noului produs.
Cea mai mic medie i cea mai mare dispersie (mprtiere a datelor) s-a nregistrat n Oraul A
unde publicitatea a pus accent pe uurina folosirii noului produs.
n tabelul ANOVA este calculat Statistica F = 3,233 cu o valoare p egal cu 0,047 (pragul de
semnificaie). Aceast valoare p ne permite s spunem c cel puin dou medii difer semnificativ (cu
o probabilitate de 95%), ceea ce nsemn c tactica aleas pentru promovarea produsului influeneaz
valoarea vnzrilor.
Rezolvare folosind STATISTICA:
1. Creai un fiier cu dou variabile i 60 de cazuri folosind New File.
n acest fiier, pe prima coloan introducei valoarea vnzrilor astfel: valorile pentru Uurina
folosirii, apoi pentru Calitate i ultimele pentru Pre. Pe a doua coloan se introduc coduri

13

pentru cele trei categorii de date: pentru primele 20 de uniti se introduce valoarea 1, pentru
urmtoarele 20 valoarea 2 i pentru ultimele 20 valoarea 3.
2. Selectai

modulul

ANOVA/MANOVA.

Se

va

deschide

fereastr

General

ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables selectai variabila a 2-a
(codurile) iar la Dependent Variable selectai prima variabil (valoarea vnzrilor). Apsai
OK.
4. Apsai pe butonul Codes for between-groups factors. Apsai ALL i OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects va fi calculat statistica F i valoarea p.

Statistica F este 3,233 cu o valoare p egal cu 0,047.


Aceast valoare p ne permite s spunem c cel puin dou medii difer, ceea ce nsemn c tactica
aleas pentru promovarea produsului influeneaz valoarea vnzrilor.
Dac dorim n plus informaii referitoare la medii i dispersii pe grupuri, n fereastra ANOVA
Results se apas butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apas butonul
Means & no. of cases for each group iar pentru calculul abaterilor standard se apas butonul
Standard deviations for each group.
Tot n aceast fereastr este posibil i selectarea anumitor opiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.
5.

Managerul unui post de radio local de muzic hard rock, dorete s tie dac asculttorii

postului su de radio ascult muzic mai mult n unele zile ale sptmnii dect n altele. Deoarece
marea majoritate a asculttorilor postului su de radio sunt tineri, a organizat un sondaj printre acetia.
Au fost selectai 20 de tineri i au fost rugai s noteze zilnic cte minute ascult postul de radio, ntr-o
sptmn.
Exist vreo diferen semnificativ ntre zilele sptmnii privind numrul de minute n care
tinerii ascult postul de radio?
1.
2.
3.
4.
5.
6.

Luni
65
90
30
72
70
90

Mari
40
85
30
52
88
51

Miercuri
32
75
20
66
47
103

Joi
48
90
25
100
73
41

14

Vineri
60
78
30
77
78
57

Smbt
75
120
60
66
67
69

Duminic
110
100
70
94
78
87

7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

43
88
96
60
75
74
49
76
66
30
53
76
59
40

72
89
60
92
79
46
92
98
64
53
90
68
51
30

66
82
80
72
79
72
64
96
57
85
47
78
94
45

39
95
106
45
78
46
69
77
55
53
111
74
103
40

57
68
57
72
91
74
62
61
29
103
102
63
94
46

90
105
81
77
60
55
87
84
72
111
76
68
85
60

73
125
80
90
112
84
81
82
60
55
91
99
83
64

Identificarea metodei: Datele sunt cantitative i problema revine la a compara cele 7 populaii:
numrul de minute n care tinerii ascult postul de radio n fiecare zi a sptmnii.
Ipotezele ce trebuie testate sunt: H0: 1 = 2 =...= 7 cu alternativa H1: cel puin dou medii sunt
diferite. Populaiile sunt dependente deoarece sunt ntrebai 20 de tineri despre numrul de minute n
care ascult postul de radio dar pe zile ale sptmnii. Aceste medii pe zilele sptmnii sunt
comparate.
Pentru aceasta se aplic o analiz de varian cu doi factori fr interaciune.
Rezolvare folosind EXCEL:
1. Introducei datele ca n tabelul de mai sus ncepnd din celula A1.
2. Apsai Tools-Data Analysis i ANOVA: Two-Factor Without Replication.
3. La Input Range selectai datele (sau scriei B2:H21). Apsai OK.
Se obin rezultatele:
ANOVA
Source of Variation
Rows
Columns
Error

SS
24872.82
7107.671
32958.33

df
19
6
114

Total

64938.82

139

MS
1309.096
1184.612
289.1081

F
4.528
4.097

P-value
1.58E-07
0.0009

F crit
1.678
2.179

n plus la rezultate mai sunt afiate i informaii referitoare la linii i coloane: numrul de
observaii, numrul de minute ascultate n total, media i variana (dispersia).
Valoarea statisticii F referitoare la testarea mediilor pe zile ale sptmnii, adic pe coloane,
este 4,097 cu o valoare p de 0,0009. Deoarece valoarea p este foarte apropiat de zero se poate spune
tinerii nu ascult acelai numr de minute postul de radio n fiecare zi a sptmnii.
Din tabelul urmtor (SUMMARY) se poate observa c tinerii ascult mai mult postul de radio
smbta i duminica dect n restul sptmnii (mediile sunt mult mai mari ca n restul sptmnii).

15

SUMMARY
Column 1
Column 2
Column 3
Column 4
Column 5
Column 6
Column 7

Count
20
20
20
20
20
20
20

Sum
1302
1330
1360
1368
1359
1568
1718

Average
65.1
66.5
68
68.4
67.95
78.4
85.9

Variance
381.9895
476.4737
461.6842
684.4632
416.05
310.2526
312.8316

n tabelul ANOVA mai este calculat i valoarea statisticii F referitoare la diferena ntre
tineri. Statistica F este 4,53 cu o valoare p foarte apropiat de zero ceea ce nseamn c exist diferene
semnificative i ntre tineri.
Rezolvare folosind STATISTICA:
1. Creai un fiier cu 7 variabile i 20 de cazuri folosind New File i introducei datele ca n
tabelul din enunul problemei: pe prima coloan datele referitoare la ziua de luni, n coloana a
doua datele referitoare la ziua de mari i aa mai departe.
2. Selectai

modulul

ANOVA/MANOVA.

Se

va

deschide

fereastr

General

ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables nu selectai nimic iar la
Dependent Variable selectai toate cele 7 variabile. Apsai OK.
4. Apsai pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastai 7 iar la Factor Name, tot pe prima linie tastai zi. Apsai OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects va fi calculat statistica F i valoarea p.
Se obin rezultatele:

Valoarea statisticii F este 4,097 cu o valoare p de 0,000925. Deoarece valoarea p este foarte
apropiat de zero se poate spune tinerii nu ascult acelai numr de minute postul de radio n fiecare zi
a sptmnii.
Dac dorim n plus informaii referitoare la medii, dispersii pe grupuri n fereastra ANOVA
Results se apas butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apas butonul

16

Means & no. of cases for each group iar pentru calculul abaterilor standard se apas butonul
Standard deviations for each group.
Tot n aceast fereastr este posibil i selectarea anumitor opiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.
6.

n problema 4, considerm c pe lng tipurile diferite de marketing avem i 2 posibiliti

de publicitate: prin ziare i televiziune. De ceea experimentul s-a repetat n urmtorul fel. S-au selectat
6 orae. n oraul A s-a fcut publicitate prin televiziune, strategia de marketing fiind: uurina
folosirii noului produs. n oraul B publicitatea s-a fcut prin ziare, strategia de marketing rmnnd
aceeai. n oraele C i D strategia de marketing a fost calitatea superioar a noului produs, n C
publicitatea fiind fcut prin televiziune iar n D prin ziare. n oraele E i F strategia de marketig a
fost preul sczut al noului produs, n E publicitatea fiind fcut prin televiziune, iar n F prin ziare.
Vnzrile au fost nregistrate pe parcursul a 10 sptmni.
Ce se poate spune despre strategia de marketing i modul de publicitate: influeneaz sau nu
vnzrile?
Oraul A
491
712
558
447
479
624
546
444
582
672

Oraul B
464
559
759
557
528
670
534
657
557
474

Oraul C
677
627
590
632
683
760
690
548
579
644

Oraul D
689
650
704
652
576
836
628
798
497
841

Oraul E
575
614
706
484
478
650
583
536
579
795

Oraul F
803
584
525
498
812
565
708
546
616
587

Rezolvare:
Identificarea metodei: Observm c avem 6 tratamente. Fiecare tratament este definit prin
intermediul a doi factori. Primul factor este strategia de marketing cu 3 nivele i al doilea este modul
de publicitate cu 2 nivele. Deoarece cei doi factori pot interaciona ntre ei se va aplica o analiz de
varian cu doi factori cu interaciune ntre acetia.
Rezolvare folosind EXCEL:
1. Introducei datele ca n tabelul 5.20, ncepnd din celula A1.
2. Apsai Tools-Data Analysis i ANOVA: Two-Factor With Replication.
3. La Input Range selectai datele (sau scriei A1:D21).
4. La Rows per sample tastai numrul de observaii pentru fiecare tratament (10). Apsai OK.

Nivel 1

Nivel 1
491

Nivel 2
677

17

Nivel 3
575

Nivel 2

712
558
447
479
624
546
444
582
672
464
559
759
557
528
670
534
657
557
474

627
590
632
683
760
690
548
579
644
689
650
704
652
576
836
628
798
497
841

614
706
484
478
650
583
536
579
795
803
584
525
498
812
565
708
546
616
587

Se obin rezultatele:
ANOVA
Source
of SS
Variation
Sample
13172.017
Columns
98838.633
Interaction 1609.633
Within
501136.7
Total

614756.98

df

MS

P-value

F crit

1
2
2
54

13172.017
49419.317
804.817
9280.309

1.419
5.325
0.087

0.239
0.008
0.917

4.019
3.168
3.168

59

n tabelul ANOVA sunt calculate statisticile F i valorile p pentru influena factorului 1 strategie
de marketing la Columns, pentru influena factorului 2 modalitate de publicitate la Sample i
pentru interaciunea dintre cei doi factori la Interaction.
Astfel:
- Statistica F pentru strategia de marketing este 5,325 cu o valoare p de 0,008, deci acest factor
influenez valoarea vnzrilor;
- Statistica F pentru modalitatea de publicitate este 1,419 cu o valoare p de 0,239, deci acest
factor nu influenez semnificativ valoarea vnzrilor;
- Statistica F pentru interaciunea dintre cei doi factori este 0,087 cu o valoare p de 0,917, deci
interaciunea dintre cei doi factori nu influeneaz semnificativ valoarea vnzrilor.
Rezolvare folosind STATISTICA:
1. Creai un fiier cu 4 variabile i 20 de cazuri (File/New data) Introducei datele astfel: primele
3 variabile sunt coloanele Nivel 1, Nivel 2, Nivel 3 din tabelul 5.20; variabila a 4-a are n
primele 10 de rnduri, 1 (nivelul 1 pentru factorul 2) i n urmtoarele 10 rnduri, 2 (nivelul 2
al factorului 2)

18

2. Selectai

modulul

ANOVA/MANOVA.

Se

va

deschide

fereastra

General

ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables selectai variabila a 4-a iar
la Dependent Variable selectai primele 3 variabile. Apsai OK.
4. Apsai pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastai 3 iar la Factor Name, tot pe prima linie tastai factor 1. Apsai OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects vor fi calculate statisticile F i valoarile p asociate.
Se obin rezultatele:

Sunt calculate statisticile F i valorile p pentru influena factorului 1 strategie de marketing la


Effect 2, pentru influena factorului 2 modalitate de publicitate la Effect 1 i pentru interaciunea
dintre cei doi factori la Effect 12.
Astfel:
- Statistica F pentru strategia de marketing este 5,278 cu o valoare p de 0,0097, deci acest factor
influenez valoarea vnzrilor;
- Statistica F pentru modalitatea de publicitate este 1,44 cu o valoare p de 0,245, deci acest factor
nu influenez semnificativ valoarea vnzrilor;
- Statistica F pentru interaciunea dintre cei doi factori este 0,086 cu o valoare p de 0,918, deci
interaciunea dintre cei doi factori nu influenez semnificativ valoarea vnzrilor.
Se observ ca aceste valori difer puin de cele obinute prin Excel. Diferenele provin din
rotunjirile fcute de calculator.

19

3.4 ntrebri teoretice i probleme propuse spre rezolvare


1. Pentru a ntocmi o situaie asupra cheltuielilor efectuate de ceteni cu ntreinerea
apartamentelor n luna decembrie a anului 2005, se nregistreaz numrul de camere i cheltuielile cu
ntreinerea pentru 250 de apartamente. Datele grupate se prezint astfel:
Grupe de apartamente
dup nr. camerelor
Garsoniere
2 camere
3 camere
4 i peste 4 camere
Total

120-170
35
10
10
55

Cheltuieli de ntreinere (RON)


170-220
220-270
10
5
50
30
10
40
5
5
75
80

270-320
10
15
15
40

Total
50
100
75
25
250

S se arate dac influena numrului de camere asupra variaiei cheltuielilor de ntreinere este
semnificativ, folosind testul F de analiz dispersional, pentru o probabilitate de 99%.
2. O mare companie productoare de cosmetice deine n Bucureti 100 de magazine de desfacere
a produselor sale. Despre zona de amplasare a acestor magazine i despre valoarea medie a vnzrilor
zilnice (mii RON) se cunosc datele:
Zona de
amplasare
Central
Sud-vest
Sud-est
Nord-vest
Nord-est

Numr de
magazine
35
20
15
10
20

Valoarea medie a vnzrilor


zilnice (mii RON/magazin)
20
12
10
5
13

Coeficientul de variaie
a vnzrilor (%)
6,0
12,5
13,0
20,0
12,3

S se arate dac zona de amplasare a magazinelor influeneaz semnificativ variaia valorii vnzrilor,
pentru o probabilitate de 95%, folosind testul F de analiz dispersional.
3. Pentru 20 de magazine situate n zona central, semicentrala i periferic a unui ora, se cunosc
valorile vnzrilor (mil. RON):
Zona
Central
Semicentrala
Periferic

Valoarea vnzrilor (mil. RON)


27; 22; 21; 20; 28; 29; 22; 20; 16
15; 20; 23; 23; 25
9; 15; 13; 18; 12; 10

Nr. magazine
9
5
6

S se determine daca zona de amplasare a magazinelor a influentat semnificativ variaia vnzrilor,


folosind testul F de analiza dispersionala (ANOVA); (nivel de semnificatie =0,05).
4. O mare agenie de nchiriat automobile hotrte s-i vnd automobilele dup utilizarea
acestora timp de un an. Managerul firmei presupune c distana parcurs de maini influeneaz costul
de ntreinere al autovehiculelor i deci preul de vnzare al acestora. Pentru a verifica aceast
presupunere, se nregistreaz, pentru un numr de 200 de maini, distana parcurs n ultimul an (n
mii km) i costul de ntreinere al acestora (n uniti monetare). Se alctuiesc patru grupe, dup
distana parcurs: sub 40 mii km, 40-60 mii km, 60-80 mii km., 80 i peste 80 mii km.

20

Grupe dup
distana parcurs
20 40
40 60

Cost de ntreinere (unit. monetare)


57
79
9 11
11 13
18
28
14
10%
25%
35%
30%

Total

60
100%

tiind c:
pentru grupa a 3-a (60 80 mii km) s-au nregistrat date pentru 40 de autovehicule, costul mediu
de ntreinere este de 10,4 u.m., cu un coeficient de variaie de 11,538%, iar
pentru grupa a 4-a, ce cuprinde 10% din autovehicule, cheltuielile totale de ntreinere au fost de
264 u.m., iar abaterea standard de 0,98 u.m.,
Se cere s se aplice testul F de analiz dispersional pentru a verifica dac distana parcurs a avut
o influen semnificativ asupra costului de ntreinere
5. Pentru 300 de angajai se cunosc: vechimea i nivelul salariului:
Grupe de angajai dup
vechime (ani)
0-10
10-20
20-30
30-40

Nr. angajai (pers)


80
130
70
20

Salariul mediu lunar


(sute RON/pers.)
8
12
14
20

Dispersia salariului
2,5
7,2
8,0
4,0

a) S se determine salariul mediu lunar al unui angajat, pe total;


b) S se determine daca vechimea a influentat semnificativ variaia salariului, folosind testul F de
analiza dispersionala (ANOVA); (nivel de semnificatie =0,05).
6. Pentru dou centre comerciale cu 12, respectiv 10 magazine, se cunosc datele:
Centrul
comercial
A
B

Nr. magazine
12
10

Valoarea medie a vnzrilor pe un


magazin (mil. RON)
18
27

Dispersia vnzrilor
10,24
20,25

S se determine dac centrul comercial n care sunt amplasate magazinele a influenat semnificativ
variaia vnzrilor, folosind testul F de analiza dispersionala (ANOVA); (probabilitatea de garantare a
rezultatelor de 95%).
7. Cnd se recomand utilizarea metodei de analiz dispersional?
8. Care sunt tipurile de varian utilizate n ANOVA i ce reprezint ele?
9. Ce sunt dispersiile corectate?
10. Cum se stabilete regiunea critic pentru testul F?

21

S-ar putea să vă placă și