Documente Academic
Documente Profesional
Documente Cultură
(i j)
Se testeaz, cu alte cuvinte, dac diferenele dintre mediile de grup din eantion sunt prea mari
pentru a fi atribuite doar ntmplrii. Dac rezultatul testului indic faptul c mediile sunt semnificativ
diferite, se concluzioneaz c factorul X are un impact asupra variabilei Y. Setul de date pentru analiza
dispersional unifactorial const n valorile variabilei Y pentru cele r grupe independente. Volumele grupelor
pot fi diferite n1 n2 ... nr (tabel 1):
Grupe dup factorul cauz
Gr. 1
Gr. 2
y11
y12
.
... .
Gr.r
y21
.....
yr1
y22
.....
yr2
y 1n
y 2n
y rn
.....
Media
Vol. grup
y1
n1
y2
n2
.....
.....
yr
nr
colectivitii generale;
- fiecare grup din colectivitatea general
are o distribuie normal, iar abaterile medii ptratice sunt egale S1 = S2 = ..... = Sr.
Testul statistic F pentru analiza dispersional unifactorial este raportul indicatorilor de variabilitate
pentru cele dou surse de variaie: variabilitatea dintre grupe mprit la variabilitatea din interiorul
grupelor. El poate fi interpretat ca msurnd de cte ori este mai mare variabilitatea mediilor de grup
comparativ cu ce ne-am fi ateptat dac ele erau doar aleator diferite. Pentru testarea ipotezei nule, vom
estima mediile de grup i media total din colectivitatea general pe baza datelor din eantion.
ni
ij
j=1
yi =
ni
ni
y
y=
i = 1, r
i =1
j =1
y n
ij
i =1
n = ni .
i =1
Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial, este suma
ptratelor abaterilor mediilor de grup de la media general:
r
S1 = y i y n i ,
i =1
iar variana din interiorul grupelor, numit i variana rezidual, este suma ptratelor abaterilor valorilor
individuale de la mediile de grup:
r
ni
i =1
j=1
S 2 = y ij y i .
mprtierea total a valorilor individuale fa de media general y este dat de variana total:
r
ni
S = y ij y
i =1
j=1
Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta pe fiecare la gradele de
libertate, transformnd astfel suma de ptrate n media ptratele abaterilor.
Pentru variana factorial S1, numrul gradelor de libertate este r-1 i acest lucru nseamn c
msurm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media total a fost estimat.
Pentru variana rezidual (din interiorul grupelor) S2, numrul gradelor de libertate este nr; acest
lucru nseamn c msurm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate, deoarece
au fost estimate mediile celor r grupe.
Obinem astfel dispersia factorial corectat:
S
s12 = 1 =
r 1
(y
y ni
i =1
r 1
S
s 22 = 2 =
nr
ni
(y
i =1
ij
yi
j =1
nr
s12
var iabilitatea dintre grupe
=
,cu gradele de libertate (r 1) la numrtor i (n r) la
2
s 2 variabilitatea din interiorul grupelor
numitor.
Testul statistic F se realizeaz comparnd valoarea calculat a statisticii F cu valoarea critic (tabelat)
F pentru (r1) i (nr) grade de libertate i probabilitatea 100 (1-)% de garantare a rezultatelor aleas.
Rezultatul este semnificativ dac:
F> F(r- 1),(n- r),,
deoarece acest lucru indic diferene mai mari ntre mediile grupelor dect cele datorate ntmplrii.
Altfel spus, dac valoarea F este mai mic dect valoarea critic F, atunci se pot face urm-toarele
afirmaii echivalente:
- acceptm ipoteza nul, H0;
- nu acceptm ipoteza alternativ H1;
- mediile grupelor nu sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor pot fi datorate doar ntmplrii;
- rezultatul nu este semnificativ statistic.
Dac valoarea F este mai mare dect valoarea critic F, atunci:
- acceptm ipoteza alternativ, H1;
- respingem ipoteza nul, H0;
- mediile grupelor sunt semnificativ diferite una fa de alta;
- diferenele observate ntre mediile grupelor nu sunt dato-rate doar ntmplrii;
- rezultatul este semnificativ statistic.
Sursa
Gradele
variaiei
libertate
de
Variana
Dispersia
(suma
corectat
ptratelor)
(media
Statistica F
ptratelor)
0
Factorul X
r1
Rezidual
nr
F=
Total
n1
S=S +S
1
n modelul de analiz dispersional bifactorial se identific doi factori de influen, iar variabilitatea
caracteristicii rezultative poate s fie pus:
- pe seama influenei primului factor (cu I niveluri);
- pe seama influenei celui de-al doilea factor (cu J niveluri);
- pe seama interaciunii celor doi factori;
- pe seama ntmplrii (factorului rezidual).
n acest caz, o valoare nregistrat pentru variabila efect Y, la grupa i ( i = 1, I ) a primului factor i grupa j (
j = 1, J ) a celui de-al doilea factor este yijk, (cu k = 1, K numrul de observaii din fiecare celul
considerat pentru nivelul i al primului factor i nivelul j al celui de-al doilea factor), iar rezultatele
analizei pot fi prezentate astfel (tabelul nr. 2)
Sursa
Grade de Variana
variaiei
libertate
(suma ptratelor)
Primul
I1
Al
ptratelor)
S 2 = IK x . j. x
factor
4
S1
I 1
F=
s12
s 24
S2
J 1
F=
s 22
s 24
s 32 =
S3
(I 1)(J 1)
F=
s 32
s 24
s 24 =
S4
IJ(K 1)
s12 =
i =1
doilea J 1
(media Statisica F
S1 = JK x i .. x
factor
corectat
2
2
j=1
Interaciune
a celor doi (I-1)(J-1)
i =1
j =1
S 3 = K x ij. x i .. x . j. + x
factori
I
Rezidual
i =1
I
Total
S 4 = x ijk x ij.
IJ(K-1)
i =1
j=1 k =1
J
S = x ijk x
IJK1
j=1 k =1
unde:
media celulei este:
K
x =
ijk
k =1
ij .
ijk
j=1 k =1
x i .. =
JK
x
x . j. =
ijk
i =1 k =1
IK
x
x=
i =1
j=1 k =1
IJK
x i..
ijk
i =1
j=1
. j.
Testul F se realizeaz, apoi, prin compararea valorilor calculate cu valorile critice, similar cu analiza
dispersional unifactorial.
Trebuie subliniat, nc o dat, c modelele de analiz dispersional nu explic relaia dintre
variabile, ci verific doar msura n care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum i msura n care aceste variaii sunt sau nu dependente de factorul/factorii de grupare.
Prin urmare, metoda analizei dispersionale poate fi utilizat att naintea, ct i dup aplicarea metodelor
corelaiei i regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dac nu chiar
imposibil s culegem date despre fiecare unitate statistic din populaia general (total). n aceste
condiii utilizm, n general, date provenite din eantioane, pentru a studia aceste legturi. Este firesc
atunci ca, dup aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaii de
dependen ntre variabile, s testm ipoteza statistic privitoare la semnificaia acestei dependene.
Pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se nregistreaz o distribuie de
valori ale factorului efect, distribuie pe care o putem caracteriza prin nivelul mediu. Dac aceste medii
ale variabilei efect, calculate pentru fiecare nivel al factorului cauz sunt egale (sau foarte puin diferite)
concluzia imediat este c variabila independent nu influeneaz variabila dependent. Aspectul
graficului este, aadar, al unui nor de puncte paralele cu axa OX. Cu ct variabila cauz influeneaz mai
mult variaia variabilei efect, cu att mediile de grup vor fi mai diferite ntre ele, ca nivel. n interiorul
celor r grupe dup factorul cauz (X), valorile variabilei efect (Y) vor varia datorit diferenelor
individuale inerente n populaia statistic, dar ntre cele r grupe, mediile vor varia datorit influenei
variabilei cauz.
Analiza dispersional va urmri, deci, s testeze semnifi-caia diferenei dintre mediile de grup n
populaia general (estimate prin mediile de grup din eantion).
S mai notm c, n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri ale unei
variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar
(nominal) este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza se
poate extinde.
Pentru testarea validitii modelului de regresie, testul F poate fi utilizat pentru a compara dispersia
explicat de model cu dispersia rezidual:
( y y ) : ( y y )
=
2
Fk , n k 1
n k 1
s y2 / x
s e2
(unde
reprezint
( y y ) 2
(n 2) .
( y y ) 2
numrul
variabilelor
Exemplu
Pentru regiunile Romniei s-au cules i sistematizat date privind rata ocuprii (%). Folosind analiza
dispersional s se stabileasc dac exist diferene semnificative ntre regiuni.
Nr.
judee
(ni)
Rata medie a
ocuprii
(%)
Abaterea
medie
ptratic (si)
Dispersia
NE
47.77
4.89
23.91
119.55
SE
41.24
5.68
32.26
161.3
40.68
6.57
43.16
258.96
SV
41.9
3.31
10.96
43.84
42.71
6.18
38.19
114.57
NV
46.32
5.84
34.11
170.55
42.08
2.32
5.38
26.9
Buc
41.59
5.62
31.58
31.58
Total
42
43.16
5.41 = s
29.27 = s
Regiunea
S 2 = 927.25
38.97
= 1.42
27.27
F0.05;7;34 = 2.40
F=
S1 = 272.82
S = 29.27 * 41 = 1200.07
F < F0.05;7;34 H 0
Exemplu:
= *(n-1)
927.25
927.25
= 27.27
42 8
272.82
s12 =
= 38.97
8 1
1200.07
s2 =
= 29.27
42 1
s22 =
Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer tinerilor
angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un numr de
20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la angajarea iniial a
unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate dup mrime, iar datele
nregistrate sunt:
Mrimea firmelor
Mici
Medii
Mari
Se cere s se determine, folosind testul F de analiz dispersional, dac variaia timpului scurs
pn la prima promovare este influenat semnificativ de mrimea firmei? (nivel de semnificatie 5%)
Rezolvare:
o
si
Y
Fie Y1 ~ N 1 , 12
promovare a unui salariat al unei firme mici Grupa 1, unde 1 este media variabilei la nivelul
intregii grupe.
Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru care se
inregistreaza valorile variabilei Y1:
{ y 1,1 = 30 , y 1, 2 = 26 , y 1, 3 = 30 , y 1, 4 = 32 ,
y 1, 5 = 38 , y1, 6 = 24 , y 1, 7 = 32 , y 1, 8 = y1, n1 = 28 }
Fie Y2 ~ N 2 , 22
240
= 30 saptamani,
8
y1
)2
n1 1
= 18,2857
promovare pentru un salariat al unei firme mijlocii Grupa 2, unde 2 este media variabilei la
nivelul intregii grupe.
Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2 = 5 firme pentru
care se inregistreaza valorile variabilei Y2:
{ y 2 ,1 = 34 , y 2 , 2 = 32 , y 2 , 3 = 25 , y 2 , 4 = 36 , y 2 , 5 = y 2 , n2 = 33} .
Media de selectie de grupa este y 2 =
2
Fie Y3 ~ N 3 , 3
160
= 32 saptamani,
5
y2
)2
n2 1
= 17,5 .
promovarepentru un salariat al unei firme mari Grupa 3, unde 3 este media variabilei la nivelul
intregii grupe.
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru care
se inregistreaza valorile variabilei Y3:
{ y3,1 = 47, y3, 2 = 41, y3,3 = 43, y3, 4 = 48, y3,5 = 40, y3,6 = 49, y3,7 = y3,n2 = 40 } .
Media de selectie de grupa este y 3 =
iar
s32
dispersia
de
308
= 44 saptamani,
7
selectie
n3 1
y3
de
grupa
= 15,3333 .
este
y = 35,4 saptamani.
SSB
MSB
F=
= r 1 Fisher(r 1=2, n r =17 ) .
MSW SSW
nr
o
SSB = ( y1 y ) n1 + ( y 2 y ) n 2 + ( y3 y ) n3 =
2
SSW = 290
Variatia totala
MSB =
SSB 808,8
=
r 1
2
MSB = 404,4
MSW =
SSW 290
=
nr
17
MSW = 17,0588
Fcalc =
MSB
404,4
=
MSW 17,0588
Fcalc = 23,7062
o
Cum Fcalc > Fcritic Fcalc Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1,
concluzionand ca la un nivel de semnificatie de 5% si pe baza acestor date de selectie, marimea
companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare pentru un
salariat.
SS
(sum
of squares
(suma
patratelor)
df degrees
of freedom
(gradele de
libertate)
Between groups
(Factorul
de grupare X)
SSB = 404,4
r-1 = 3
Within Groups
(Reziduala)
SSW = 290
n-r = 17
SST=SSB+SSW
= 1098,8
n-1 = 19
Total
MS mean of
sum
of squares
(dispersiile
corectate)
SSB
MSB =
r 1
= 404,4
SSW
MSW =
nr
=17,0588
Fcritic
MSB
MSW
=23,0762
Fcritic=F0,05; 2, 17
=3,59
Fcalc =
Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum apare in
Figura 1;
In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Anova: Single
Factor;
In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege Anova: Single
Factor;
Figura 1. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis.
Fereastra de dialog este prezentata in Figura 2.
Grupa
(firme mijlocii)
Grupa
(firme mari)
ANOVA
Source of
Variation
Between Groups
Within Groups
Total
Count ( ni )
Sum
8 = n1
240 =
Variance ( si )
30 = y1
18.2857 = s12
32 = y 2
17.5 = s 22
44 = y 3
15.3333 = s32
y1 j
j =1
Average ( yi )
160
5 = n2
= y2 j
j =1
7 = n3
308 =
SS
808.8=SSB
290=SSW
df
MS
F
2=r-1
404.4=MSB 23.7062=Fcalc
17=n-r 17.0588=MSW
1098.8=SST
y3 j
j =1
P-value
1.21E-05
F crit
3.59
19=n-1
Observatii:
In Excel 2007, submeniul Data Analysis se instaleaza astfel:
-
intr-o foie obisnuita de lucru, dati click pe Office Button (cerculetul stanga sus)
selectati cu un singur click Analisys Toolpack din partea deapta a ferestrei de la Add Ins si apoi
click GO
apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar
apoi click pe OK
se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Data.
intr-o foie obisnuita de lucru, din meniul principal Tools, alegeti Add Ins
apare o fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi
click pe OK
se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Tools.