Sunteți pe pagina 1din 14

UNITATEA DE NVARE 6

ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)


Analiza dispersional (analiz de varian) (ANOVA), a fost introdus de statisticianul Irving
Fisher.Modelul de analiz dispersional i propune ca pentru fiecare nivel al factorului/factorilor cauzali
s analizeze populaia distinct asociat i eventualele diferene ce apar ntre populaii: s studieze efectul
variabilei/variabilelor independente asupra celei dependente.
Analiza dispersional se poate face dup un model unifactorial, dup modele bi sau multifactoriale.
Analiza dispersional, cunoscut i sub numele de analiz de varian (ANOVA), a fost introdus de
statisticianul R.A. Fisher. Modelul de analiz dispersional nu i propune s expliciteze relaia dintre
variabile, ci i propune ca pentru fiecare nivel al factorului/factorilor cauzali s analizeze populaia distinct
asociat i eventualele diferene ce apar ntre populaii, adic s studieze efectul variabilei/variabilelor
independente asupra celei dependente.
Analiza dispersional se poate face dup un model unifactorial, dup modele bi- sau multifactoriale.
n modelul de analiz dispersional unifactorial se testeaz ipoteza nul:
H0: y1 = y2 = ... = yr,
cu ipoteza alternativ cel puin dou medii din populaie nu sunt egale:
H1 : yi yi,

(i j)

Se testeaz, cu alte cuvinte, dac diferenele dintre mediile de grup din eantion sunt prea mari
pentru a fi atribuite doar ntmplrii. Dac rezultatul testului indic faptul c mediile sunt semnificativ
diferite, se concluzioneaz c factorul X are un impact asupra variabilei Y. Setul de date pentru analiza
dispersional unifactorial const n valorile variabilei Y pentru cele r grupe independente. Volumele grupelor
pot fi diferite n1 n2 ... nr (tabel 1):
Grupe dup factorul cauz
Gr. 1

Gr. 2

y11
y12
.

Presupunerile sub care se aplic testul F n

... .

Gr.r

y21

.....

yr1

analiza dispersional unifactorial ofer un

y22

.....

yr2

cadru solid pentru inferena statistic pe baza

datelor observate, anume:

y 1n

y 2n

y rn

.....

- cele r grupe din eantion sunt extrase


aleator i indepen-dent din cele r grupe ale

Media
Vol. grup

y1
n1

y2
n2

.....
.....

yr
nr

colectivitii generale;
- fiecare grup din colectivitatea general

are o distribuie normal, iar abaterile medii ptratice sunt egale S1 = S2 = ..... = Sr.
Testul statistic F pentru analiza dispersional unifactorial este raportul indicatorilor de variabilitate
pentru cele dou surse de variaie: variabilitatea dintre grupe mprit la variabilitatea din interiorul
grupelor. El poate fi interpretat ca msurnd de cte ori este mai mare variabilitatea mediilor de grup
comparativ cu ce ne-am fi ateptat dac ele erau doar aleator diferite. Pentru testarea ipotezei nule, vom
estima mediile de grup i media total din colectivitatea general pe baza datelor din eantion.
ni

ij

j=1

yi =

ni

ni

y
y=

i = 1, r

i =1

j =1

y n

ij

i =1

n = ni .
i =1

Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial, este suma
ptratelor abaterilor mediilor de grup de la media general:
r

S1 = y i y n i ,
i =1

iar variana din interiorul grupelor, numit i variana rezidual, este suma ptratelor abaterilor valorilor
individuale de la mediile de grup:
r

ni

i =1

j=1

S 2 = y ij y i .

mprtierea total a valorilor individuale fa de media general y este dat de variana total:
r

ni

S = y ij y
i =1

j=1

Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta pe fiecare la gradele de
libertate, transformnd astfel suma de ptrate n media ptratele abaterilor.
Pentru variana factorial S1, numrul gradelor de libertate este r-1 i acest lucru nseamn c
msurm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media total a fost estimat.
Pentru variana rezidual (din interiorul grupelor) S2, numrul gradelor de libertate este nr; acest
lucru nseamn c msurm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate, deoarece
au fost estimate mediile celor r grupe.
Obinem astfel dispersia factorial corectat:

S
s12 = 1 =
r 1

(y

y ni

i =1

r 1

i dispersia corectat rezidual:


r

S
s 22 = 2 =
nr

ni

(y
i =1

ij

yi

j =1

nr

Statistica F pentru analiza dispersional unifactorial are forma:


F=

s12
var iabilitatea dintre grupe
=
,cu gradele de libertate (r 1) la numrtor i (n r) la
2
s 2 variabilitatea din interiorul grupelor

numitor.
Testul statistic F se realizeaz comparnd valoarea calculat a statisticii F cu valoarea critic (tabelat)
F pentru (r1) i (nr) grade de libertate i probabilitatea 100 (1-)% de garantare a rezultatelor aleas.
Rezultatul este semnificativ dac:
F> F(r- 1),(n- r),,
deoarece acest lucru indic diferene mai mari ntre mediile grupelor dect cele datorate ntmplrii.
Altfel spus, dac valoarea F este mai mic dect valoarea critic F, atunci se pot face urm-toarele
afirmaii echivalente:
- acceptm ipoteza nul, H0;
- nu acceptm ipoteza alternativ H1;
- mediile grupelor nu sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor pot fi datorate doar ntmplrii;
- rezultatul nu este semnificativ statistic.
Dac valoarea F este mai mare dect valoarea critic F, atunci:
- acceptm ipoteza alternativ, H1;
- respingem ipoteza nul, H0;
- mediile grupelor sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor nu sunt dato-rate doar ntmplrii;
- rezultatul este semnificativ statistic.

Sursa

Gradele

variaiei

libertate

de

Variana

Dispersia

(suma

corectat

ptratelor)

(media

Statistica F

ptratelor)
0

Factorul X

r1

Rezidual

nr

F=

Total

n1

S=S +S
1

n modelul de analiz dispersional bifactorial se identific doi factori de influen, iar variabilitatea
caracteristicii rezultative poate s fie pus:
- pe seama influenei primului factor (cu I niveluri);
- pe seama influenei celui de-al doilea factor (cu J niveluri);
- pe seama interaciunii celor doi factori;
- pe seama ntmplrii (factorului rezidual).
n acest caz, o valoare nregistrat pentru variabila efect Y, la grupa i ( i = 1, I ) a primului factor i grupa j (
j = 1, J ) a celui de-al doilea factor este yijk, (cu k = 1, K numrul de observaii din fiecare celul

considerat pentru nivelul i al primului factor i nivelul j al celui de-al doilea factor), iar rezultatele
analizei pot fi prezentate astfel (tabelul nr. 2)

Analiza dispersional bifactorial


Dispersia

Sursa

Grade de Variana

variaiei

libertate

(suma ptratelor)

Primul

I1

Al

ptratelor)

S 2 = IK x . j. x

factor

4
S1
I 1

F=

s12
s 24

S2
J 1

F=

s 22
s 24

s 32 =

S3
(I 1)(J 1)

F=

s 32
s 24

s 24 =

S4
IJ(K 1)

s12 =

i =1

doilea J 1

(media Statisica F

S1 = JK x i .. x

factor

corectat

2
2

j=1

Interaciune
a celor doi (I-1)(J-1)

i =1

j =1

S 3 = K x ij. x i .. x . j. + x

factori
I

Rezidual

i =1
I

Total

S 4 = x ijk x ij.

IJ(K-1)

i =1

j=1 k =1
J

S = x ijk x

IJK1

j=1 k =1

unde:
media celulei este:
K

x =

ijk

k =1

ij .

media grupei i ( i = 1, I ) pentru primul factor este:


J

ijk

j=1 k =1

x i .. =

JK

media grupei j ( j = 1, J ) pentru al doilea factor este:


I

x
x . j. =

ijk

i =1 k =1

IK

media total este:


I

x
x=

i =1

j=1 k =1

IJK

x i..

ijk

i =1

j=1

. j.

Testul F se realizeaz, apoi, prin compararea valorilor calculate cu valorile critice, similar cu analiza
dispersional unifactorial.
Trebuie subliniat, nc o dat, c modelele de analiz dispersional nu explic relaia dintre
variabile, ci verific doar msura n care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum i msura n care aceste variaii sunt sau nu dependente de factorul/factorii de grupare.
Prin urmare, metoda analizei dispersionale poate fi utilizat att naintea, ct i dup aplicarea metodelor
corelaiei i regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dac nu chiar
imposibil s culegem date despre fiecare unitate statistic din populaia general (total). n aceste
condiii utilizm, n general, date provenite din eantioane, pentru a studia aceste legturi. Este firesc
atunci ca, dup aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaii de
dependen ntre variabile, s testm ipoteza statistic privitoare la semnificaia acestei dependene.
Pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se nregistreaz o distribuie de
valori ale factorului efect, distribuie pe care o putem caracteriza prin nivelul mediu. Dac aceste medii
ale variabilei efect, calculate pentru fiecare nivel al factorului cauz sunt egale (sau foarte puin diferite)
concluzia imediat este c variabila independent nu influeneaz variabila dependent. Aspectul
graficului este, aadar, al unui nor de puncte paralele cu axa OX. Cu ct variabila cauz influeneaz mai
mult variaia variabilei efect, cu att mediile de grup vor fi mai diferite ntre ele, ca nivel. n interiorul
celor r grupe dup factorul cauz (X), valorile variabilei efect (Y) vor varia datorit diferenelor
individuale inerente n populaia statistic, dar ntre cele r grupe, mediile vor varia datorit influenei
variabilei cauz.
Analiza dispersional va urmri, deci, s testeze semnifi-caia diferenei dintre mediile de grup n
populaia general (estimate prin mediile de grup din eantion).
S mai notm c, n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri ale unei
variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar
(nominal) este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza se
poate extinde.
Pentru testarea validitii modelului de regresie, testul F poate fi utilizat pentru a compara dispersia
explicat de model cu dispersia rezidual:

( y y ) : ( y y )
=
2

Fk , n k 1

n k 1

s y2 / x
s e2

(unde

reprezint

( y y ) 2
(n 2) .
( y y ) 2

independente). n cazul regresiei simple liniare: F1,n 2 =

numrul

variabilelor

Exemplu
Pentru regiunile Romniei s-au cules i sistematizat date privind rata ocuprii (%). Folosind analiza
dispersional s se stabileasc dac exist diferene semnificative ntre regiuni.
Nr.
judee
(ni)

Rata medie a
ocuprii
(%)

Abaterea
medie
ptratic (si)

Dispersia

NE

47.77

4.89

23.91

119.55

SE

41.24

5.68

32.26

161.3

40.68

6.57

43.16

258.96

SV

41.9

3.31

10.96

43.84

42.71

6.18

38.19

114.57

NV

46.32

5.84

34.11

170.55

42.08

2.32

5.38

26.9

Buc

41.59

5.62

31.58

31.58

Total

42

43.16

5.41 = s

29.27 = s

Regiunea

S 2 = 927.25

38.97
= 1.42
27.27
F0.05;7;34 = 2.40
F=

S1 = 272.82
S = 29.27 * 41 = 1200.07

F < F0.05;7;34 H 0

Exemplu:

= *(n-1)

927.25

927.25
= 27.27
42 8
272.82
s12 =
= 38.97
8 1
1200.07
s2 =
= 29.27
42 1
s22 =

Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer tinerilor
angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un numr de
20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la angajarea iniial a
unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate dup mrime, iar datele
nregistrate sunt:

Mrimea firmelor
Mici
Medii
Mari

Numr de sptmni de la angajare pn la prima promovare


30; 26; 30; 32; 38; 24; 32; 28;
34; 32; 25; 36; 33
47; 41; 43; 48; 40; 49; 40.

Se cere s se determine, folosind testul F de analiz dispersional, dac variaia timpului scurs
pn la prima promovare este influenat semnificativ de mrimea firmei? (nivel de semnificatie 5%)
Rezolvare:
o

Populatia statistica este multimea companiilor producatoare de tehnologie de varf.

Unitatea statistica este o companie (firma).

Caracteristicile urmarite sunt:

- variabila ce arata marimea unei firme;


- variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii si
firme mari:
aceste categorii ale variabilei X vor determina impartirea populatiei statistice
in r =3 grupe si anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.

si
Y

- variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a


unui salariat al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.

Fie Y1 ~ N 1 , 12

variabila ce arata durata de timp, in saptamani, de la angajare la prima

promovare a unui salariat al unei firme mici Grupa 1, unde 1 este media variabilei la nivelul
intregii grupe.
Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru care se
inregistreaza valorile variabilei Y1:

{ y 1,1 = 30 , y 1, 2 = 26 , y 1, 3 = 30 , y 1, 4 = 32 ,
y 1, 5 = 38 , y1, 6 = 24 , y 1, 7 = 32 , y 1, 8 = y1, n1 = 28 }

Media de selectie de grupa este y1 =

iar dispersia de selectie de grupa este

Fie Y2 ~ N 2 , 22

y1,1 + y1, 2 + ... + y1,n1


n1
s12

240
= 30 saptamani,
8

(y1,1 y1 )2 + (y1,2 y1 )2 + ... + (y1,n

y1

)2

n1 1

= 18,2857

variabila ce arata durata de timp, in saptamani, de la angajare la prima

promovare pentru un salariat al unei firme mijlocii Grupa 2, unde 2 este media variabilei la
nivelul intregii grupe.
Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2 = 5 firme pentru
care se inregistreaza valorile variabilei Y2:

{ y 2 ,1 = 34 , y 2 , 2 = 32 , y 2 , 3 = 25 , y 2 , 4 = 36 , y 2 , 5 = y 2 , n2 = 33} .
Media de selectie de grupa este y 2 =

iar dispersia de selectie de grupa este

2
Fie Y3 ~ N 3 , 3

y 2,1 + y 2, 2 + ... + y 2,n2


n2
s 22

160
= 32 saptamani,
5

(y 2,1 y 2 )2 + (y 2,2 y 2 )2 + ... + (y 2,n

y2

)2

n2 1

= 17,5 .

variabila ce arata durata de timp, in saptamani, de la angajare la prima

promovarepentru un salariat al unei firme mari Grupa 3, unde 3 este media variabilei la nivelul
intregii grupe.
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru care
se inregistreaza valorile variabilei Y3:

{ y3,1 = 47, y3, 2 = 41, y3,3 = 43, y3, 4 = 48, y3,5 = 40, y3,6 = 49, y3,7 = y3,n2 = 40 } .
Media de selectie de grupa este y 3 =
iar

s32

dispersia

y 3,1 + y 3, 2 + ... + y 3,n3


n3

de

308
= 44 saptamani,
7

selectie

(y3,1 y3 )2 + (y3,2 y3 )2 + ... + (y3,n

n3 1

y3

de

grupa

= 15,3333 .

o Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 = 20 firme este


y n + y 2 n2 + y3 n3 30 8 + 32 5 + 44 7
y= 1 1
=
n1 + n2 + n3
20

este

y = 35,4 saptamani.

Ipotezele statistice sunt:

H 0 : 1 = 2 = 3 (factorul de grupare marimea companiei nu influenteaza


semnificativ variatia duratei de timp pana la prima promovare
a unui salariat)

H 1 : k , l {1,2,3}, k l astfel incat k l (cel putin doua medii sunt semnificativ


diferite, adica factorul de grupare marimea companiei influenteaza semnificativ
variatia duratei de timp pana la prima promovare a unui salariat)

Statistica testului este

SSB
MSB
F=
= r 1 Fisher(r 1=2, n r =17 ) .
MSW SSW
nr
o

Pe baza datelor de selectie calculam:

Variatia dintre grupe


2

SSB = ( y1 y ) n1 + ( y 2 y ) n 2 + ( y3 y ) n3 =
2

= (30 35,4 ) 8 + (32 35,4 ) 5 + (44 35,4 ) 7


SSB = 808,8

Variatia din interiorul grupelor

SSW = (n1 1) s12 + (n2 1) s 22 + (n3 1) s32


= (8 1) 18,2857 + (5 1) 17,5 + (7 1) 15,3333

SSW = 290

Variatia totala

SST = SSB + SSW


= 808,8 + 290
SST = 1098,8

Dispersia factoriala corectata (cu gradele de libertate r 1 = 2 )

MSB =

SSB 808,8
=
r 1
2

MSB = 404,4

Dispersia reziduala corectata (cu gradele de libertate n r = 17 )

MSW =

SSW 290
=
nr
17

MSW = 17,0588

Valoarea calculata a statisticii testului este

Fcalc =

MSB
404,4
=
MSW 17,0588

Fcalc = 23,7062
o

Nivelul de semnificatie al testului este = 0,05 ,


iar valoarea critica a testului este Fcritic = F ; r 1, n r = F0,05; 2,17 = 3,59 ,
deci regiunea critica este Rc = (Fcritic ;+ ) = (3,59; + ) .

Cum Fcalc > Fcritic Fcalc Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1,
concluzionand ca la un nivel de semnificatie de 5% si pe baza acestor date de selectie, marimea
companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare pentru un
salariat.

o Calculele pot fi organizate in urmatorul tabel ANOVA


Source
of variation
(Sursa variatiei)

SS
(sum
of squares
(suma
patratelor)

df degrees
of freedom
(gradele de
libertate)

Between groups
(Factorul
de grupare X)

SSB = 404,4

r-1 = 3

Within Groups
(Reziduala)

SSW = 290

n-r = 17

SST=SSB+SSW
= 1098,8

n-1 = 19

Total

MS mean of
sum
of squares
(dispersiile
corectate)
SSB
MSB =
r 1
= 404,4
SSW
MSW =
nr
=17,0588

Problema poate fi rezolvata in Excel dupa cum urmeaza:

Fcritic

MSB
MSW
=23,0762

Fcritic=F0,05; 2, 17
=3,59

Fcalc =

 Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum apare in
Figura 1;
 In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Anova: Single
Factor;
 In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege Anova: Single
Factor;

Figura 1. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis.
 Fereastra de dialog este prezentata in Figura 2.

Figura 2. Fereastra de dialog pentru Anova: Single Factor.


 Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma prelucrarii datelor
din fiecare grupa, iar cel de-al doilea este tabelul ANOVA.
Anova: Single Factor
SUMMARY
Groups
Grupa
(firme mici)

Grupa
(firme mijlocii)

Grupa
(firme mari)

ANOVA
Source of
Variation
Between Groups
Within Groups
Total

Count ( ni )

Sum

8 = n1

240 =

Variance ( si )

30 = y1

18.2857 = s12

32 = y 2

17.5 = s 22

44 = y 3

15.3333 = s32

y1 j
j =1

Average ( yi )

160
5 = n2

= y2 j
j =1

7 = n3

308 =

SS
808.8=SSB
290=SSW

df
MS
F
2=r-1
404.4=MSB 23.7062=Fcalc
17=n-r 17.0588=MSW

1098.8=SST

y3 j
j =1

P-value
1.21E-05

F crit
3.59

19=n-1

Observatii:
In Excel 2007, submeniul Data Analysis se instaleaza astfel:
-

intr-o foie obisnuita de lucru, dati click pe Office Button (cerculetul stanga sus)

click pe Excel Options

apoi click pe Add Ins

selectati cu un singur click Analisys Toolpack din partea deapta a ferestrei de la Add Ins si apoi
click GO

apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar
apoi click pe OK

se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Data.

In Excel 2003, submeniul Data Analysis se instaleaza astfel:

intr-o foie obisnuita de lucru, din meniul principal Tools, alegeti Add Ins

apare o fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi
click pe OK

se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Tools.

S-ar putea să vă placă și