Sunteți pe pagina 1din 21

ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)

Analiza dispersional, cunoscut i sub numele de analiz de varian (ANOVA), a fost


introdus de statisticianul R.A. Fisher i permite compararea mediilor a dou sau mai multe
colectiviti de date cantitative.
Modelul de analiz dispersional nu i propune s expliciteze relaia dintre variabile, ci i
propune ca pentru fiecare nivel al factorului/factorilor cauzali s analizeze populaia distinct asociat i
eventualele diferene ce apar ntre populaii, adic s studieze efectul variabilei/variabilelor
independente asupra celei dependente.
Analiza dispersional se poate face dup un model unifactorial, dup modele bi- sau
multifactoriale. n cazul modelului unifactorial populaiile se pot clasifica utiliznd un singur criteriu,
numit factor. Fiecare populaie este numit un nivel al factorului (sunt r niveluri).

3.1 Modelul de analiz dispersional unifactorial

n modelul de analiz dispersional unifactorial se testeaz ipoteza nul: mediile din populaii
sunt egale
H
0
:
y1
=
y2
= ... =
yr
,

cu ipoteza alternativ: cel puin dou medii din populaie nu sunt egale
H
1
:
yi

yi
, (i j)


o
y
x
o
y
x
x
1
x
1
x
2
x
2
...... x
r
..... x
r
y =y = =y
1 2 r
y
1
y
2
y
r
a) medii de grup egale; b) mediile de grup inegale

Figura 3.1
1
Se testeaz, cu alte cuvinte, dac diferenele dintre mediile de grup din eantion sunt prea
mari pentru a fi atribuite doar ntmplrii. Dac rezultatul testului indic faptul c mediile sunt
semnificativ diferite, se concluzioneaz c factorul X are un impact asupra variabilei Y.
Testul statistic este dezvoltat n concordan cu urmtorul raionament. Dac ipoteza nul este
adevrat, mediile celor r populaii ar trebui s fie, toate, egale. Ne ateptm atunci ca mediile celor r
eantioane s fie aproximativ egale. Dac ipoteza alternativ este adevrat, exist diferene mari ntre
unele medii ale eantioanelor.
Setul de date pentru analiza dispersional unifactorial const n valorile variabilei Y pentru cele r
grupe independente. Volumele grupelor pot fi diferite n
1
n
2
... n
r
(tabelul 3.1):
Tabelul 3.1 Sistematizarea datelor pentru ANOVA
Grupe dup factorul cauz
Gr. 1 Gr. 2 . . . . Gr.r
y
11
y
21
. . . . . y
r1
y
12
y
22
. . . . . y
r2
. .
. .
1
n 1
y . . . . .
2
n 2
y
r
rn
y

Media

Vol. grup
1
y
2
y . . . . .
r
y
n
1
n
2
. . . . . n
r
Presupunerile sub care se aplic testul F n analiza dispersional unifactorial ofer un cadru
solid pentru inferena statistic pe baza datelor observate, anume:
- cele r grupe din eantion sunt extrase aleator i independent din cele r grupe ale colectivitii
generale;
- fiecare grup din colectivitatea general are o distribuie normal, iar abaterile medii ptratice sunt
egale
r
... = = =
2 1
.
Testul statistic F pentru analiza dispersional unifactorial este raportul indicatorilor de
variabilitate pentru cele dou surse de variaie: variabilitatea dintre grupe mprit la variabilitatea din
interiorul grupelor. El poate fi interpretat ca msurnd de cte ori este mai mare variabilitatea mediilor
de grup comparativ cu ce ne-am fi ateptat dac ele erau doar aleator diferite. Pentru testarea ipotezei
nule, vom estima mediile de grup i media total din colectivitatea general pe baza datelor din
eantion.
,r i ,
n
y
y
i
n
j
ij
i
i
1
1
= =

=

n
n y
n
y
y
r
i
i i
r
i
n
j
ij
i

=
= =
= =
1
1 1
, .

=
=
r
i
i
n n
1
2
Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial, este
suma ptratelor abaterilor mediilor de grup de la media general:
( )

=
=
r
i
i i
n y y S
1
2
1
.
Din relaie rezult c, dac y y ... y y
r
= = = =
2 1
atunci S
1
= 0.
Variana din interiorul grupelor, numit i variana rezidual, este suma ptratelor abaterilor valorilor
individuale de la mediile de grup:
(

= =
=
r
i
n
j
i ij
i
y y S
1 1
2
2
) .
mprtierea total a valorilor individuale fa de media general y este dat de variana total:
(

= =
=
r
i
n
j
ij
i
y y S
1 1
2
) .
Raionamentul analizei dispersionale se bazeaz pe partiionarea sumei ptratelor abaterilor:
( ) ( ) + =

= = =
i
r
i
i
r
i
ni
j
ij
n y y y y
1
2
1 1
2
( )
2 1
1 1
2
S S S y y
r
i
ni
j
i ij
+ =

= =

Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta pe fiecare la gradele de
libertate, transformnd astfel suma de ptrate n media ptratele abaterilor.
Pentru variana factorial S
1
, numrul gradelor de libertate este r-1 i acest lucru nseamn c
msurm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media total a fost
estimat.
Pentru variana rezidual (din interiorul grupelor) S
2
, numrul gradelor de libertate este nr; acest
lucru nseamn c msurm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate,
deoarece au fost estimate mediile celor r grupe.
Obinem astfel dispersia factorial corectat:
( )
1 1
1
2
1 2
1

=

=
r
n y y
r
S
s
r
i
i i


i dispersia corectat rezidual:

( )
r n
y y
r n
S
s
r
i
ni
j
i ij

=

= = 1 1
2
2 2
2
.

Statistica F pentru analiza dispersional unifactorial are forma:
3
grupelor interiorul din atea variabilit
grupe dintre a iabilitate var
s
s
F
2
2
2
1
= = ,

cu gradele de libertate (r 1) la numrtor i (n r) la numitor.
Testul statistic F se realizeaz comparnd valoarea calculat a statisticii F cu valoarea critic
(tabelat) F

pentru (r1) i (nr) grade de libertate i probabilitatea 100 (1-)% de garantare a


rezultatelor aleas. Rezultatul este semnificativ dac:
F> F
, (r- 1),(n- r)
,
deoarece acest lucru indic diferene mai mari ntre mediile grupelor dect cele datorate ntmplrii.
Regiunea critic este dat deci de valorile lui F pentru care F > F
,r-1,n-r
. Altfel spus, dac valoarea F este
mai mic dect valoarea critic F

, atunci se pot face urmtoarele afirmaii echivalente:


- acceptm ipoteza nul, H
0
;
- nu acceptm ipoteza alternativ H
1
;
- mediile grupelor nu sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor pot fi datorate doar ntmplrii;
- rezultatul nu este semnificativ statistic.
Dac valoarea F

este mai mare dect valoarea critic F

, atunci:
- acceptm ipoteza alternativ, H
1
;
- respingem ipoteza nul, H
0
;
- mediile grupelor sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor nu sunt datorate doar ntmplrii;
- rezultatul este semnificativ statistic.

3.2 Modelul de analiz dispersional bifactorial

n modelul de analiz dispersional bifactorial se identific doi factori de influen, iar
variabilitatea caracteristicii rezultative poate s fie pus:
- pe seama influenei primului factor (cu I niveluri);
- pe seama influenei celui de-al doilea factor (cu J niveluri);
- pe seama interaciunii celor doi factori;
- pe seama ntmplrii (factorului rezidual).
n acest caz, o valoare nregistrat pentru variabila efect Y, la grupa i ( I , 1 i = ) a primului factor i
grupa j ( J , 1 j = ) a celui de-al doilea factor este y
ijk
, (cu k = K , 1 numrul de observaii din fiecare
celul considerat pentru nivelul i al primului factor i nivelul j al celui de-al doilea factor), iar
rezultatele analizei pot fi prezentate astfel (tabelul 3.2).

4
Tabelul 3.2 Analiza dispersional bifactorial
Sursa variaiei
Grade de
libertate
Variana
(suma ptratelor)
Dispersia corectat
(media ptratelor)
Statistica F
Primul factor
I 1

( )

=
=
I
i
.. i x x JK S
1
2
1

1
1 2
1

=
I
S
s
2
4
2
1
s
s
F =
Al doilea factor
J 1

( )

=
=
J
j
. j . x x IK S
1
2
2

1
2 2
2

=
J
S
s
2
4
2
2
s
s
F =
Interaciunea
celor doi
factori
(I-1)(J-1) ( )

= =
+ =
I
i
J
j
. j . .. i
. ij
x x x x K S
1 1
2
3

( )( ) 1 1
3 2
3

=
J I
S
s

2
4
2
3
s
s
F =
Rezidual IJ(K-1)
( )

= = =
=
I
i
J
j
K
k
. ij
ijk
x x S
1 1 1
2
4

( ) 1
4 2
4

=
K IJ
S
s
Total IJK1
( )

= = =
=
I
i
J
j
K
k
ijk
x x S
1 1 1
2


unde:
media celulei este:
K
x
x
K
k
ijk
. ij

=
=
1
;

media grupei i ( I , 1 i = ) pentru primul factor este:
JK
x
x
J
1 j
K
1 k
ijk
.. i

= =
=
;

media grupei j ( J , 1 j = ) pentru al doilea factor este:
IK
x
x
I
1 i
K
1 k
ijk
. j .

= =
=
;

media total este:
J
x
I
x
IJK
x
x
J
1 j
. j .
I
1 i
.. i
I
1 i
J
1 j
K
1 k
ijk

=
=
= = =
= = =
.

Testul F de analiz dispersional necesit ndeplinirea unor condiii suplimentare: variabila
studiat este normal distribuit n cele r grupe i dispersiile sunt egale. Aceste condiii pot fi uor
verificate construind histogramele pentru fiecare din cele r eantioane.
5

Testul F se realizeaz, apoi, prin compararea valorilor calculate cu valorile critice, similar cu
analiza dispersional unifactorial.
Trebuie subliniat, nc o dat, c modelele de analiz dispersional nu explic relaia dintre
variabile, ci verific doar msura n care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum i msura n care aceste variaii sunt sau nu dependente de factorul/factorii de
grupare. Prin urmare, metoda analizei dispersionale poate fi utilizat att naintea, ct i dup aplicarea
metodelor corelaiei i regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dac nu chiar
imposibil s culegem date despre fiecare unitate statistic din populaia general (total). n aceste
condiii utilizm, n general, date provenite din eantioane, pentru a studia aceste legturi. Este firesc
atunci ca, dup aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaii de
dependen ntre variabile, s testm ipoteza statistic privitoare la semnificaia acestei dependene.
Pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se nregistreaz o distribuie
de valori ale factorului efect, distribuie pe care o putem caracteriza prin nivelul mediu. Dac aceste
medii ale variabilei efect, calculate pentru fiecare nivel al factorului cauz sunt egale (sau foarte puin
diferite) concluzia imediat este c variabila independent nu influeneaz variabila dependent.
Aspectul graficului este, aadar, al unui nor de puncte paralele cu axa OX. Cu ct variabila cauz
influeneaz mai mult variaia variabilei efect, cu att mediile de grup vor fi mai diferite ntre ele, ca
nivel. n interiorul celor r grupe dup factorul cauz (X), valorile variabilei efect (Y) vor varia datorit
diferenelor individuale inerente n populaia statistic, dar ntre cele r grupe, mediile vor varia
datorit influenei variabilei cauz.
Analiza dispersional va urmri, deci, s testeze semnificaia diferenei dintre mediile de grup n
populaia general (estimate prin mediile de grup din eantion).
S mai notm c, n general, n analiza dispersional, nivelurile x
1
, x
2
, ..., x
r
sunt niveluri ale unei
variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar
(nominal) este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza
se poate extinde.
Testul F se poate utiliza i pentru testarea validitii modelului de regresie (a se vedea capitolul 4).


3.3 ntrebri teoretice i probleme rezolvate

1. Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer
tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un
numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la
6
angajarea iniial a unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate
dup mrime, iar datele nregistrate sunt:
Mrimea firmelor Numr de sptmni de la angajare pn la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere s se determine, folosind testul F de analiz dispersional, dac variaia timpului scurs pn la
prima promovare este influenat semnificativ de mrimea firmei?
Rezolvare:
Notm cu X caracteristica mrimea firmelor factorul de grupare i cu Y caracteristica
numr de sptmni de la angajare pn la prima promovare.
Se formuleaz urmtoarele ipoteze:
H
0
:
3 2 1
= =
H
1
: ,
j i
j i
Unde
i
reprezint timpul mediu de promovare pentru firma din grupa i, la nivelul
colectivitii generale.
Calculm, la nivelul eantionului, mediile pentru fiecare grup i (
i
y ), cu 3 , 1 i = , unde i
reprezint grupa (mrimea firmei):
00 , 30
8
28 32 24 32 38 30 26 30
1
8
1
1
1
=
+ + + + + + +
= =

=
n
y
y
j
j
sptmni;
32
5
33 36 25 32 34
2
5
1
2
2
=
+ + + +
= =

=
n
y
y
j
j
sptmni;

44
7
40 49 40 48 43 41 47
3
7
1
3
3
=
+ + + + + +
= =

=
n
y
y
j
j
sptmni.
Numrul mediu de sptmni pentru ntreaga colectivitate de 20 de firme poate fi calculat ca
medie a mediilor pariale:
4 , 35
20
7 44 5 32 8 30
=
+ +
= =

i
i i
n
n y
y sptmni.
Determinm dispersia fiecrei grupe i ( ):
2
i
s
7
( )
( ) ( ) ( )
( ) ( ) ( )
16
8
128
8
30 28 30 32 30 24
8
30 38 30 32 30 26
2 2 2
2 2 2
1
8
1
2
1 1
2
1
= =
+ +
+
+
+ +
=

=

=
n
y y
s
j
j

( )
( ) ( ) ( ) ( )
14
5
70
5
32 33 32 36 32 25 32 34
2 2 2 2
2
5
1
2
2 2
2
2
= =
+ + +
=

=
n
y y
s
j
j

( )
( ) ( ) ( )
( ) ( ) ( )
14 , 13
7
92
7
44 49 44 40 2 44 48
7
44 43 44 41 44 47
2 2 2
2 2 2
3
7
1
2
3 3
2
3
= =
+ +
+
+
+ +
=

=

=
n
y y
s
j
j

Variana sistematic va fi:
( ) ( ) ( )
( ) 8 , 808 7 4 , 35 44
5 4 , 35 32 8 4 , 35 30
2
2 2
1
2
1
= +
+ + = =

=
r
i
i i
n y y S

Variana rezidual este:
( ) 290 92 70 128
1
2
2
1 1
2
= + + = = =

= = =
r
i
i i
r
i
ni
j
i ij
n s y y S

Dispersia corectat sistematic este:
4 , 404
2
8 , 808
1
1 2
1
= =

=
r
S
s
Dispersia corectat rezidual este:
06 , 17
17
290
2 2
2
= =

=
r n
S
s

Testul F:
7 , 23
06 , 17
4 , 404
2
2
2
1
= = =
s
s
F
F
tabelar
=F
critic
=F
,r-1,n-r
=F
0,05;2;17
=3,59
Cum F
calculat
>F
critic
, rezult c se respinge ipoteza nul, acceptndu-se ca adevrat ipoteza
alternativ. Timpul mediu de promovare pe fiecare tip de firm difer semnificativ, n consecin se
poate afirma, cu o probabilitate de 95% c mrimea firmei influeneaz semnificativ variaia timpului
de promovare a tinerilor.
8

11. n vederea fundamentrii deciziei de nlocuire a unor utilaje din dotarea unei fabrici,
managerul acesteia solicit o analiz a vechimii utilajelor i a costului de ntreinere anual al acestora.
Astfel cele 110 utilaje din dotarea fabricii sunt grupate dup vechime (ani) i dup costul de ntreinere
(mii lei):
Costul de ntreinere (mii lei)
Vechime
(ani)
5 7 7 9 9 11 11 13 Total
Mic (<5 ani) 10 8 5 - 23
Medie (5-10 ani) - 15 20 7 42
Mare (>10 ani) - 2 25 18 45
Total 10 25 50 52 110
Se cere s se determine dac influena vechimii asupra variaiei costului de ntreinere este
semnificativ, utiliznd testul F de analiz dispersional.
Rezolvare:
Notm cu X caracteristica vechime factorul de grupare i cu Y caracteristica costul de
ntreinere.
n vederea calculrii indicatorilor necesari determinrii statisticii F datele vor fi sistematizate
pentru fiecare categorie de vechime conform tabelelor de mai jos.
i = 1 (grupa vechime mic).
Cost de ntreinere
(mii RON)
n
1j
y
j
y
j
n
1j
1 j
y y
( )
j 1
2
1 j
n y y
5 7 10 6 60 -1,56 24,336
7 9 8 8 64 0,44 1,549
9 11 5 10 50 2,44 29,768
11-13 12
Total 23 - 174 - 55,653

( )
42 2
23
653 55
1
1
2
1 2
1
,
,
n
n y y
s
j
j j
= =

RON mii 56 7
23
174
1
1
1
,
n
n y
y
j
j j
= = =

;
i = 2 (grupa vechime medie).

Cost de ntreinere
(mii RON)
n
2j
y
j
y
j
n
2j
2 j
y y
( )
j 2
2
2 j
n y y
5 7 - 6 -
7 9 15 8 120 -1,62 39,366
9 11 20 10 200 0,38 2,888
11-13 7 12 84 2,38 39,6508
Total 42 - 404 - 81,9048
( )
95 1
42
9048 81
2
2
2
2 2
2
,
,
n
n y y
s
j
j j
= =

RON mii 62 9
42
404
2
2
2
,
n
n y
y
j
j j
= = =

;
i = 3 (grupa vechime mare)
9
Cost de ntreinere
(mii RON)
n
3j
y
j
y
j
n
3j
3 j
y y
( )
j 3
2
3 j
n y y
5 7 - 6
7 9 2 8 16 -2,7 14,58
9 11 25 10 250 -0,7 12,25
11-13 18 12 216 1,3 30,42
Total 45 - 482 - 57,25
RON mii 7 10
45
482
3
3
3
,
n
n y
y
j
j j
= = =

( )
27 1
45
25 57
3
3
2
3 2
3
,
,
n
n y y
s
j
j j
= =

;
Media dispersiilor grupelor va fi:
Variana rezidual este:
( ) 7 194 45 27 1 42 95 1 23 42 2
1
2
2
1 1
2
, , , , n s y y S
r
i
i i
r
i
ni
j
i ij
= + + = = =

= = =


Costul mediu de ntreinere pentru ntreaga colectivitate de 110 de utilaje poate fi calculat ca
medie a mediilor pariale:
RON. mii 64 9
110
45 7 10 42 62 9 23 56 7
,
, , ,
n
n y
y
i
i i
=
+ +
= =


Variana sistematic va fi:
( ) ( ) ( ) ( ) 15 150 45 64 9 7 10 42 64 9 62 9 23 64 9 56 7
2 2 2
1
2
1
, , , , , , , n y y S
r
i
i i
= + + = =

=


Dispersia corectat sistematic este:
075 75
2
15 150
1
1 2
1
,
,
r
S
s = =

=
Dispersia corectat rezidual este:
82 1
107
7 194
2 2
2
,
,
r n
S
s = =

=
Testul F:
25 41
82 1
075 75
2
2
2
1
,
,
,
s
s
F = = =
F
tabelar
=F
critic
=F
;,r-1,n-r
=F
0,05;2;107
=3,07
Cum F
calculat
>F
critic
, rezult c se respinge ipoteza nul, acceptndu-se ca adevrat ipoteza
alternativ. n consecin se poate afirma, cu o probabilitate de 95% c vechimea utilajelor
influeneaz semnificativ variaia costului de ntreinere.



10
3. Se cunosc datele:
Grupe de salariai dup durata
medie a zilei de lucru (ore)
Nr. de salariai
Salariul mediu
(unit. monetare)
Coeficientul de variaie pe
grup (%)
7 7,2 100 9,2 6,52
7,2 7,4 120 10,4 10,58
7,4 7,6 180 11,6 12,07
7,6 7,8 140 11,8 10,17
7,8 i peste 130 12,0 7,50
Total 670 - -
S se arate dac durata medie a zilei de lucru influeneaz semnificativ variaia salariului, folosind
testul F de analiz dispersional

Rezolvare:
Se noteaz cu X - durata zilei de lucru (factorul de grupare), respectiv cu Y - salariul
Din 100
i
y
i
y
s
v
i
= se determin abaterile medii ptratice pe grupe:

100
i i
y
y v
s
i

=

Grupe de salariai dup durata
medie a zilei de lucru (ore)
i
y
s
2
i
y
s
i
y
n s
i
2

i i
n y ( )
i i
n y y
2

7 7,2 0,6 0,36 36 920 380,25
7,2 7,4 1,1 1,21 145,2 1248 67,50
7,4 7,6 1,4 1,96 352,8 2088 36,45
7,6 7,8 1,2 1,44 201,6 1652 59,15
7,8 i peste 0,9 0,81 105,3 1560 93,92
Total - - 840,9 7468 637,27

Media dispersiilor de grup este:
255 , 1
670
9 , 840
2
2
= = =

i
i
y
n
n s
s
i

Pentru determinarea dispersiei dintre grupe, calculm:
15 , 11
670
7468
= = =

i
i i
n
n y
y u.m.;
Dispersia dintre grupe:

( )
951 0
670
27 637
2
2
,
,
n
n y y
i
i i
= =

;
Variana total este:
( ) 1 1478
2 1
2
, S S y y S
j
= + = =


Variana factorial:
11
( ) 2 , 637
2
2
1
= = =

n n y y S
i i
;
Variana rezidual:
( ) 9 , 840
2 2
2
= = =

n s y y S
i j
;

Dispersiile corectate vor fi:
3 , 159
4
2 , 637
1
1 2
1
= =

=
r
S
s ;
265 , 1
665
9 , 840
2 2
2
= =

=
r n
S
s ;
45 , 2 9 , 125
265 , 1
3 , 159
665 ; 4 ; 05 , 0
2
2
2
1
= = > = = =
=
F F
s
s
F
tab calc
.
Cum F
calc
> F
tab
, rezult c influena duratei medii a zilei de lucru asupra salariului este semnificativ.

4. Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou
produs are urmtoarele avantaje fa de vechiul produs: este mai practic de utilizat, are o calitate cel
puin la fel de bun i cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje s-i axeze strategia de marketing, directorul
acestui departament a realizat un studiu n trei orae. n oraul A campania de publicitate s-a axat pe
uurina de utilizare a noului produs. n oraul B campania de publicitate s-a axat pe calitatea noului
produs. n oraul C campania de publicitate s-a axat pe preul mai mic al noului produs. n toate cele 3
orae s-a nregistrat numrul de buci vndute n 20 de sptmni.
Directorul de marketing ar dori s tie dac exist diferene semnificative ntre numrul de buci
vndute, n medie pe sptmn, n cele trei orae dup terminarea campaniei de publicitate.
529 658 793 514 663 719 711 606 461 529 Uurina
folosirii: 498 663 604 495 485 557 353 557 542 614

804 630 774 717 679 604 620 697 706 615
Calitate:
492 719 787 699 572 523 584 634 580 624

672 531 443 596 602 502 659 689 675 512
Pre:
691 733 698 776 561 572 469 581 679 532

Identificarea metodei: Datele sunt cantitative i problema revine la a compara mediile celor trei
populaii. Ipotezele ce trebuie testate sunt: H
0
:
1
=
2
=
3
cu alternativa H
1
: cel puin dou medii sunt
diferite.
Pentru aceasta se aplic o analiz de varian cu un singur factor.
Rezolvare folosind EXCEL:
1. Introducei datele astfel:
- n A1 tastai Uurina folosirii, n B1 tastai Calitate, n C1 tastai Pre
12
- datele se introduc pe coloane.
2. Apsai Tools-Data Analysis i ANOVA: Single Factor.
3. La Input Range selectai datele (sau scriei A1:C21). Selectai Labels in First Row.
4. Specificai Grouped by Columns. Apsai OK.

Se obin rezultatele:
Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Uurina folosirii 20 11551 577.55 10775
Calitate 20 13060 653 7238.11
Pre 20 12173 608.65 8670.24

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512.23 2 28756.12 3.233 0.047 3.159
Within Groups 506983.5 57 8894.447

Total 564495.7 59

n tabelul SUMMARY sunt trecute datele referitoare la cele trei populaii:
- numrul de uniti din fiecare populaie: 20 de sptmni
- numrul total de buci vndute n aceast perioad pentru fiecare populaie
- numrul mediu de buci vndute n fiecare sptmn pentru fiecare populaie
- dispersia populaiilor
Din aceste date observm c cea mai mare vnzare medie a fost n Oraul B n care publicitatea a
avut ca argument principal calitatea superioar a noului produs.
Cea mai mic medie i cea mai mare dispersie (mprtiere a datelor) s-a nregistrat n Oraul A
unde publicitatea a pus accent pe uurina folosirii noului produs.

n tabelul ANOVA este calculat Statistica F = 3,233 cu o valoare p egal cu 0,047 (pragul de
semnificaie). Aceast valoare p ne permite s spunem c cel puin dou medii difer semnificativ (cu
o probabilitate de 95%), ceea ce nsemn c tactica aleas pentru promovarea produsului influeneaz
valoarea vnzrilor.

Rezolvare folosind STATISTICA:
1. Creai un fiier cu dou variabile i 60 de cazuri folosind New File.
n acest fiier, pe prima coloan introducei valoarea vnzrilor astfel: valorile pentru Uurina
folosirii, apoi pentru Calitate i ultimele pentru Pre. Pe a doua coloan se introduc coduri
13
pentru cele trei categorii de date: pentru primele 20 de uniti se introduce valoarea 1, pentru
urmtoarele 20 valoarea 2 i pentru ultimele 20 valoarea 3.
2. Selectai modulul ANOVA/MANOVA. Se va deschide o fereastr General
ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables selectai variabila a 2-a
(codurile) iar la Dependent Variable selectai prima variabil (valoarea vnzrilor). Apsai
OK.
4. Apsai pe butonul Codes for between-groups factors. Apsai ALL i OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects va fi calculat statistica F i valoarea p.


Statistica F este 3,233 cu o valoare p egal cu 0,047.
Aceast valoare p ne permite s spunem c cel puin dou medii difer, ceea ce nsemn c tactica
aleas pentru promovarea produsului influeneaz valoarea vnzrilor.
Dac dorim n plus informaii referitoare la medii i dispersii pe grupuri, n fereastra ANOVA
Results se apas butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apas butonul
Means & no. of cases for each group iar pentru calculul abaterilor standard se apas butonul
Standard deviations for each group.
Tot n aceast fereastr este posibil i selectarea anumitor opiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.

5. Managerul unui post de radio local de muzic hard rock, dorete s tie dac asculttorii
postului su de radio ascult muzic mai mult n unele zile ale sptmnii dect n altele. Deoarece
marea majoritate a asculttorilor postului su de radio sunt tineri, a organizat un sondaj printre acetia.
Au fost selectai 20 de tineri i au fost rugai s noteze zilnic cte minute ascult postul de radio, ntr-o
sptmn.
Exist vreo diferen semnificativ ntre zilele sptmnii privind numrul de minute n care
tinerii ascult postul de radio?
Luni Mari Miercuri Joi Vineri Smbt Duminic
1. 65 40 32 48 60 75 110
2. 90 85 75 90 78 120 100
3. 30 30 20 25 30 60 70
4. 72 52 66 100 77 66 94
5. 70 88 47 73 78 67 78
6. 90 51 103 41 57 69 87
14
7. 43 72 66 39 57 90 73
8. 88 89 82 95 68 105 125
9. 96 60 80 106 57 81 80
10. 60 92 72 45 72 77 90
11. 75 79 79 78 91 60 112
12. 74 46 72 46 74 55 84
13. 49 92 64 69 62 87 81
14. 76 98 96 77 61 84 82
15. 66 64 57 55 29 72 60
16. 30 53 85 53 103 111 55
17. 53 90 47 111 102 76 91
18. 76 68 78 74 63 68 99
19. 59 51 94 103 94 85 83
20. 40 30 45 40 46 60 64

Identificarea metodei: Datele sunt cantitative i problema revine la a compara cele 7 populaii:
numrul de minute n care tinerii ascult postul de radio n fiecare zi a sptmnii.
Ipotezele ce trebuie testate sunt: H
0
:
1
=
2
=...=
7
cu alternativa H
1
: cel puin dou medii sunt
diferite. Populaiile sunt dependente deoarece sunt ntrebai 20 de tineri despre numrul de minute n
care ascult postul de radio dar pe zile ale sptmnii. Aceste medii pe zilele sptmnii sunt
comparate.
Pentru aceasta se aplic o analiz de varian cu doi factori fr interaciune.

Rezolvare folosind EXCEL:
1. Introducei datele ca n tabelul de mai sus ncepnd din celula A1.
2. Apsai Tools-Data Analysis i ANOVA: Two-Factor Without Replication.
3. La Input Range selectai datele (sau scriei B2:H21). Apsai OK.

Se obin rezultatele:
ANOVA
Source of Variation SS df MS F P-value F crit
Rows 24872.82 19 1309.096 4.528 1.58E-07 1.678
Columns 7107.671 6 1184.612 4.097 0.0009 2.179
Error 32958.33 114 289.1081

Total 64938.82 139

n plus la rezultate mai sunt afiate i informaii referitoare la linii i coloane: numrul de
observaii, numrul de minute ascultate n total, media i variana (dispersia).
Valoarea statisticii F referitoare la testarea mediilor pe zile ale sptmnii, adic pe coloane,
este 4,097 cu o valoare p de 0,0009. Deoarece valoarea p este foarte apropiat de zero se poate spune
tinerii nu ascult acelai numr de minute postul de radio n fiecare zi a sptmnii.
Din tabelul urmtor (SUMMARY) se poate observa c tinerii ascult mai mult postul de radio
smbta i duminica dect n restul sptmnii (mediile sunt mult mai mari ca n restul sptmnii).
15


SUMMARY Count Sum Average Variance
Column 1 20 1302 65.1 381.9895
Column 2 20 1330 66.5 476.4737
Column 3 20 1360 68 461.6842
Column 4 20 1368 68.4 684.4632
Column 5 20 1359 67.95 416.05
Column 6 20 1568 78.4 310.2526
Column 7 20 1718 85.9 312.8316

n tabelul ANOVA mai este calculat i valoarea statisticii F referitoare la diferena ntre
tineri. Statistica F este 4,53 cu o valoare p foarte apropiat de zero ceea ce nseamn c exist diferene
semnificative i ntre tineri.

Rezolvare folosind STATISTICA:
1. Creai un fiier cu 7 variabile i 20 de cazuri folosind New File i introducei datele ca n
tabelul din enunul problemei: pe prima coloan datele referitoare la ziua de luni, n coloana a
doua datele referitoare la ziua de mari i aa mai departe.
2. Selectai modulul ANOVA/MANOVA. Se va deschide o fereastr General
ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables nu selectai nimic iar la
Dependent Variable selectai toate cele 7 variabile. Apsai OK.
4. Apsai pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastai 7 iar la Factor Name, tot pe prima linie tastai zi. Apsai OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects va fi calculat statistica F i valoarea p.

Se obin rezultatele:

Valoarea statisticii F este 4,097 cu o valoare p de 0,000925. Deoarece valoarea p este foarte
apropiat de zero se poate spune tinerii nu ascult acelai numr de minute postul de radio n fiecare zi
a sptmnii.

Dac dorim n plus informaii referitoare la medii, dispersii pe grupuri n fereastra ANOVA
Results se apas butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apas butonul
16
Means & no. of cases for each group iar pentru calculul abaterilor standard se apas butonul
Standard deviations for each group.
Tot n aceast fereastr este posibil i selectarea anumitor opiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.

6. n problema 4, considerm c pe lng tipurile diferite de marketing avem i 2 posibiliti
de publicitate: prin ziare i televiziune. De ceea experimentul s-a repetat n urmtorul fel. S-au selectat
6 orae. n oraul A s-a fcut publicitate prin televiziune, strategia de marketing fiind: uurina
folosirii noului produs. n oraul B publicitatea s-a fcut prin ziare, strategia de marketing rmnnd
aceeai. n oraele C i D strategia de marketing a fost calitatea superioar a noului produs, n C
publicitatea fiind fcut prin televiziune iar n D prin ziare. n oraele E i F strategia de marketig a
fost preul sczut al noului produs, n E publicitatea fiind fcut prin televiziune, iar n F prin ziare.
Vnzrile au fost nregistrate pe parcursul a 10 sptmni.
Ce se poate spune despre strategia de marketing i modul de publicitate: influeneaz sau nu
vnzrile?
Oraul A Oraul B Oraul C Oraul D Oraul E Oraul F
491 464 677 689 575 803
712 559 627 650 614 584
558 759 590 704 706 525
447 557 632 652 484 498
479 528 683 576 478 812
624 670 760 836 650 565
546 534 690 628 583 708
444 657 548 798 536 546
582 557 579 497 579 616
672 474 644 841 795 587

Rezolvare:
Identificarea metodei: Observm c avem 6 tratamente. Fiecare tratament este definit prin
intermediul a doi factori. Primul factor este strategia de marketing cu 3 nivele i al doilea este modul
de publicitate cu 2 nivele. Deoarece cei doi factori pot interaciona ntre ei se va aplica o analiz de
varian cu doi factori cu interaciune ntre acetia.

Rezolvare folosind EXCEL:
1. Introducei datele ca n tabelul 5.20, ncepnd din celula A1.
2. Apsai Tools-Data Analysis i ANOVA: Two-Factor With Replication.
3. La Input Range selectai datele (sau scriei A1:D21).
4. La Rows per sample tastai numrul de observaii pentru fiecare tratament (10). Apsai OK.

Nivel 1 Nivel 2 Nivel 3
Nivel 1 491 677 575
17
712 627 614
558 590 706
447 632 484
479 683 478
624 760 650
546 690 583
444 548 536
582 579 579
672 644 795
Nivel 2 464 689 803
559 650 584
759 704 525
557 652 498
528 576 812
670 836 565
534 628 708
657 798 546
557 497 616
474 841 587

Se obin rezultatele:
ANOVA
Source of
Variation
SS df MS F P-value F crit
Sample 13172.017 1 13172.017 1.419 0.239 4.019
Columns 98838.633 2 49419.317 5.325 0.008 3.168
Interaction 1609.633 2 804.817 0.087 0.917 3.168
Within 501136.7 54 9280.309

Total 614756.98 59

n tabelul ANOVA sunt calculate statisticile F i valorile p pentru influena factorului 1 strategie
de marketing la Columns, pentru influena factorului 2 modalitate de publicitate la Sample i
pentru interaciunea dintre cei doi factori la Interaction.
Astfel:
- Statistica F pentru strategia de marketing este 5,325 cu o valoare p de 0,008, deci acest factor
influenez valoarea vnzrilor;
- Statistica F pentru modalitatea de publicitate este 1,419 cu o valoare p de 0,239, deci acest
factor nu influenez semnificativ valoarea vnzrilor;
- Statistica F pentru interaciunea dintre cei doi factori este 0,087 cu o valoare p de 0,917, deci
interaciunea dintre cei doi factori nu influeneaz semnificativ valoarea vnzrilor.

Rezolvare folosind STATISTICA:
1. Creai un fiier cu 4 variabile i 20 de cazuri (File/New data) Introducei datele astfel: primele
3 variabile sunt coloanele Nivel 1, Nivel 2, Nivel 3 din tabelul 5.20; variabila a 4-a are n
primele 10 de rnduri, 1 (nivelul 1 pentru factorul 2) i n urmtoarele 10 rnduri, 2 (nivelul 2
al factorului 2)
18
2. Selectai modulul ANOVA/MANOVA. Se va deschide fereastra General
ANOVA/MANOVA.
3. n aceast fereastr apsai Variables. La Independent Variables selectai variabila a 4-a iar
la Dependent Variable selectai primele 3 variabile. Apsai OK.
4. Apsai pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastai 3 iar la Factor Name, tot pe prima linie tastai factor 1. Apsai OK.
5. Apsai OK. Se va deschide o fereastr ANOVA Results.
6. Dac apsai pe butonul All Effects vor fi calculate statisticile F i valoarile p asociate.

Se obin rezultatele:

Sunt calculate statisticile F i valorile p pentru influena factorului 1 strategie de marketing la
Effect 2, pentru influena factorului 2 modalitate de publicitate la Effect 1 i pentru interaciunea
dintre cei doi factori la Effect 12.
Astfel:
- Statistica F pentru strategia de marketing este 5,278 cu o valoare p de 0,0097, deci acest factor
influenez valoarea vnzrilor;
- Statistica F pentru modalitatea de publicitate este 1,44 cu o valoare p de 0,245, deci acest factor
nu influenez semnificativ valoarea vnzrilor;
- Statistica F pentru interaciunea dintre cei doi factori este 0,086 cu o valoare p de 0,918, deci
interaciunea dintre cei doi factori nu influenez semnificativ valoarea vnzrilor.

Se observ ca aceste valori difer puin de cele obinute prin Excel. Diferenele provin din
rotunjirile fcute de calculator.
19
3.4 ntrebri teoretice i probleme propuse spre rezolvare

1. Pentru a ntocmi o situaie asupra cheltuielilor efectuate de ceteni cu ntreinerea
apartamentelor n luna decembrie a anului 2005, se nregistreaz numrul de camere i cheltuielile cu
ntreinerea pentru 250 de apartamente. Datele grupate se prezint astfel:
Cheltuieli de ntreinere (RON) Grupe de apartamente
dup nr. camerelor 120-170 170-220 220-270 270-320
Total
Garsoniere 35 10 5 - 50
2 camere 10 50 30 10 100
3 camere 10 10 40 15 75
4 i peste 4 camere - 5 5 15 25
Total 55 75 80 40 250
S se arate dac influena numrului de camere asupra variaiei cheltuielilor de ntreinere este
semnificativ, folosind testul F de analiz dispersional, pentru o probabilitate de 99%.

2. O mare companie productoare de cosmetice deine n Bucureti 100 de magazine de desfacere
a produselor sale. Despre zona de amplasare a acestor magazine i despre valoarea medie a vnzrilor
zilnice (mii RON) se cunosc datele:
Zona de
amplasare
Numr de
magazine
Valoarea medie a vnzrilor
zilnice (mii RON/magazin)
Coeficientul de variaie
a vnzrilor (%)
Central 35 20 6,0
Sud-vest 20 12 12,5
Sud-est 15 10 13,0
Nord-vest 10 5 20,0
Nord-est 20 13 12,3
S se arate dac zona de amplasare a magazinelor influeneaz semnificativ variaia valorii vnzrilor,
pentru o probabilitate de 95%, folosind testul F de analiz dispersional.

3. Pentru 20 de magazine situate n zona central, semicentrala i periferic a unui ora, se cunosc
valorile vnzrilor (mil. RON):
Zona Valoarea vnzrilor (mil. RON) Nr. magazine
Central 27; 22; 21; 20; 28; 29; 22; 20; 16 9
Semicentrala 15; 20; 23; 23; 25 5
Periferic 9; 15; 13; 18; 12; 10 6
S se determine daca zona de amplasare a magazinelor a influentat semnificativ variaia vnzrilor,
folosind testul F de analiza dispersionala (ANOVA); (nivel de semnificatie =0,05).

4. O mare agenie de nchiriat automobile hotrte s-i vnd automobilele dup utilizarea
acestora timp de un an. Managerul firmei presupune c distana parcurs de maini influeneaz costul
de ntreinere al autovehiculelor i deci preul de vnzare al acestora. Pentru a verifica aceast
presupunere, se nregistreaz, pentru un numr de 200 de maini, distana parcurs n ultimul an (n
mii km) i costul de ntreinere al acestora (n uniti monetare). Se alctuiesc patru grupe, dup
distana parcurs: sub 40 mii km, 40-60 mii km, 60-80 mii km., 80 i peste 80 mii km.
20

Cost de ntreinere (unit. monetare) Total Grupe dup
distana parcurs 5 7 7 9 9 11 11 13
20 40 18 28 14 - 60
40 60 10% 25% 35% 30% 100%

tiind c:
pentru grupa a 3-a (60 80 mii km) s-au nregistrat date pentru 40 de autovehicule, costul mediu
de ntreinere este de 10,4 u.m., cu un coeficient de variaie de 11,538%, iar
pentru grupa a 4-a, ce cuprinde 10% din autovehicule, cheltuielile totale de ntreinere au fost de
264 u.m., iar abaterea standard de 0,98 u.m.,
Se cere s se aplice testul F de analiz dispersional pentru a verifica dac distana parcurs a avut
o influen semnificativ asupra costului de ntreinere

5. Pentru 300 de angajai se cunosc: vechimea i nivelul salariului:
Grupe de angajai dup
vechime (ani)
Nr. angajai (pers)
Salariul mediu lunar
(sute RON/pers.)
Dispersia salariului
0-10 80 8 2,5
10-20 130 12 7,2
20-30 70 14 8,0
30-40 20 20 4,0
a) S se determine salariul mediu lunar al unui angajat, pe total;
b) S se determine daca vechimea a influentat semnificativ variaia salariului, folosind testul F de
analiza dispersionala (ANOVA); (nivel de semnificatie =0,05).

6. Pentru dou centre comerciale cu 12, respectiv 10 magazine, se cunosc datele:
Centrul
comercial
Nr. magazine
Valoarea medie a vnzrilor pe un
magazin (mil. RON)
Dispersia vnzrilor
A 12 18 10,24
B 10 27 20,25
S se determine dac centrul comercial n care sunt amplasate magazinele a influenat semnificativ
variaia vnzrilor, folosind testul F de analiza dispersionala (ANOVA); (probabilitatea de garantare a
rezultatelor de 95%).
7. Cnd se recomand utilizarea metodei de analiz dispersional?
8. Care sunt tipurile de varian utilizate n ANOVA i ce reprezint ele?
9. Ce sunt dispersiile corectate?
10. Cum se stabilete regiunea critic pentru testul F?



21

S-ar putea să vă placă și