Sunteți pe pagina 1din 56

ANOVA

ANALYSIS OF VARIANCE
ANOVA
A fost inventat n 1920 de ctre R.A.
Fischer, care a vrut s vad diferenele
semnificative dintre diferitele tipuri de plante.

Din 1970 este cea mai folosit metod
statistic n studii de psihologie.

Aplicaiile snt dintre cele mai variate:
psihologie, biologie, sociologie, economie.
ANOVA versus Testul t
Testul t permite compararea mediilor a dou
populaii, pentru a vedea dac exist o diferen
semnificativ ntre valorile acestora

Ideea de baz a ANOVA este aceeai ca i a
testului t, doar c n acest caz putem compara
mediile mai multor populaii statistice

n fapt, prin ANOVA putem cuantifica impactul
unuia sau mai multor factori de influen asupra
unei variabile de interes.



Exemplu: Vrem s determinm cum se poate mbunti
productivitatea funcionarilor potali

Lum n considerare 4 tipuri de factori:
Sistemul de stimulente bazat pe calificative acordate de
superiori
Recunoatere din partea superiorilor
Sisitemul de calificative plus recunoatere din partea
superiorilor
Reineri salariale n caz de abateri de la disciplina
muncii
Testul t nu poate testa simultan diferenele dintre
productivitatea muncii n fiecare din grupurile
create conform acestor criterii.

Putem efectua testul t comparnd productivitile
medii dou cte dou: teste.




2
4
6 C =
TERMINOLOGIE
Variabila dependenta ( variabla raspuns )
variabila studiata
Variabila independenta/explicativa (factor)
o variabila care influenteaza variabila dependenta
Nivelul factorului (tratament)
o valoare particulara a factorului
Variatia reziduala
influente aleatoare asupra variabilei dependente
TERMINOLOGIE
Exemplu
Determinam cum recolta este influentata de tipul
de ingrasamint folosit. Un fermier foloseste 3 tipuri
de ingrasamint notate A,B and C
Variabila raspuns - productia
factorul - tipul de ingrasamint
tratamentul - ingrasamintul A, B and C
TERMINOLOGIE
Exemplu 2
Analizam cum pretul actiunilor este
determinat de rata dobinzii pe care o ofera.
Studiem obligatiuni care platesc rate de
6%, 8%,10%
Variabila raspuns - pretul actiunii
factorul - rata dobinzii
tratamentul - 6%,8% sau10%
MODELE ANOVA
In functie de numarul de factori
one-factor ANOVA models
multi-factors ANOVA models
In functie de nivelele factorilor
fixed effect models
random effect models
mixed effect models
ANOVA unifactorial
One Way ANOVA(One Factor ANOVA)
O singur variabil independent X, ale crei
valori pot fi mprite n mai multe grupuri:
X
1
,...,X
k
.
Vrem s vedem dac exist o diferen
semnificativ ntre valorile variabilei
dependente Y n interiorul grupurilor create
dup variabila de grupare X.
Practic, observaiile snt valorile lui Y n
interiorul celor k grupuri create dup valorile
lui X.

Tabelul de intrare pentru ANOVA

























Valorile
variabilei
independente
Numrul de
observaii din
fiecare grup
Valorile observate
pentru variabila
dependent Y, n
fiecare grup

Populaia
Media de
selecie

1
X


1
n


11
y


12
y




1
1n
y


2
1 1 1
( , ) Y N o

1
1
1
1
1
n
i
i
y
y
n
=
=



2
X


2
n


21
y


22
y




2
2n
y


2
2 2 2
( , ) Y N o

2
2
1
2
2
n
i
i
y
y
n
=
=


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

k
X


k
n


1 k
y


2 k
y




k
kn
y


2
( , )
k k k
Y N o

1
k
n
ki
i
k
k
y
y
n
=
=


Volumul
eantionului
1 2
...
k
n n n n = + + +


Ipoteze in ANOVA
Media total a populaiei va fi estimat prin media total a
eantionului:


Setul de ipoteze

Dac ipoteza nul este acceptat, atunci putem concluziona
c factorul de grupare nu are o influen semnficativ
asupra variabilei de interes.
Ideea de baz n testarea ipotezelor ANOVA este regula de
adunare a dispersiilor, descompunerea dispersiei totale n
dispersia dintre grupe(factorul sistematic) i dispersia din
interiorul grupelor(factorul aleator).










1 1
1
k
k
n
k
n
ij
i i
i j
i i
y
y n
y
n n
= =
=
= =


0 1 2
0
: ...
: (cel puin dou medii snt neegale)
k
A
H
H non H
= = =

Tabelul de analiz a varianei



ANOVA Table

Source of
Variance


SS

df

MS

F
Between Groups

(Factorul
sistematic)



2
1
( )
k
i i
i
SST n y y
=
=




k-1

1
SST
MST
k
=


MST
MSE

Within Groups

(Factorul
aleator)



2
1 1
( )
i
n
k
ij i
i j
SSE y y
= =
=




n-k

SSE
MSE
n k
=





Total



2
1 1
( )
i
n
k
total ij
i j
SS y y
= =
=




n-1

Testul F(Fischer)
Decizia se ia pe baza testului F: se compar valoarea
statisticii F calculat n tabelul ANOVA cu valoarea critic,
corespunztoare cuantilei repartiiei F cu (k-1,n-k) grade de
libertate.
Dac atunci respingem ipoteza nul,
deci putem afirma, cu probabilitatea , c factorul de
grupare are o influen semnificativ asupra variabilei de
interes.
Valoarea critic n EXCEL:












; 1;
( , 1, )
k n k
F FINV k n k
o
o

=
1 o
; 1; k n k
F F
o
>
Comparaii multiple Procedura Tukey-Kramer

Dac n urma ANOVA a rezultat c exist o
diferen semnificativ ntre valorile variabilei de
interes n cele k grupuri, pasul urmtor este acela
de a realiza o procedur de comparaii multiple
pentru a determina care grupuri snt diferite.

Procedura Tukey-Kramer procedur post-hoc

Procedura Tukey-Kramer
Se calculeaz diferenele pentru toate
cele perechi de medii.

Se determin distana critic dup formula



unde Q
U
este cuantila superioar a distribuiei
studentizate a distanei (Studentized range
distribution) cu k grade de libertate la numrtor
i n-k grade de libertate la numitor.



,
i j
y y i j =
2
( 1)
2
k
k k
C

=
1 1
2
U
i j
MSE
DC Q
n n
| |
= +
|
|
\ .
Procedura Tukey-Kramer
Se compar distanele calculate cu
valoarea critic DC definit anterior

Dac exist i,j a.. atunci mediile
snt semnificativ diferite.


,
i j
y y i j =
i j
y y DC >
,
i j
y y
Valorile critice ale distribuiei distanei
pentru
0.05(5%) o =
Distribuia studentizat a distanei
Exemplu
Managerul unui lan de magazine vrea s determine dac
locul unde este amplasat un produs pe raft are o influen
semnificativ asupra valorii vnzrilor. Snt considerate trei
posibile amplasri pe raft: zona 1(nivelul de sus), zona
2(nivelul median) i zona 3(nivelul de jos).

Este selectat aleator un eantion de 18 magazine, 6 care
au produsul n zona 1, 6 n zona 2 i 6 n zona 3.

Dup o lun, a fost ntregistrat valoarea vnzrilor
produsului(n mii dolari) pentru fiecare magazin.



Cum realizm ANOVA folosind EXCEL
1. Introducem datele n Excel
Cum realizm ANOVA folosind EXCEL
2. Apelm procedura ANOVA folosind: Tools >
Data Analysis > ANOVA: Single Factor
Cum realizm ANOVA folosind EXCEL
3. Selectm zona de date i eventual schimbm
pragul de semnificaie i OK.
Cum realizm ANOVA folosind EXCEL
4. Excel Output
Concluzii
Putem afirma, cu probabilitatea 95%, c locul unde
este amplasat produsul pe raft influeneaz
semnificativ valoarea vnzrilor.

Mai mult, comparnd vnzrile medii pentru fiecare
locaie, putem afirm c valoarea medie a vnzrilor
pentru produsele amplasate n zona de sus a raftului
este semnificativ mai mare dect valoarea medie a
vnzrilor din celelalte zone.

n consecin, decizia pe care ar trebui s o ia
managerul respectiv este de a plasa produsul n zona
de sus a raftului.

Foarte important!!!
Atunci cnd realizm comparaii ntre mediile
unor populaii folosind ANOVA trebuie s fie
ndeplinite n mod necesar trei condiii:

Independena i caracterul aleator al
alegerii eantioanelor
Normalitatea eantioanele din fiecare
grup snt extrase din populaii normale
Omogenitatea varianei dispersiile
celor k grupuri snt presupuse a fi egale
ANOVA blocuri randomizate
(ANOVA unifactorial cu observaii repetate)
Testul F pentru blocuri randomizate
Ca i n ANOVA simpl, testm independena
mediilor unor populaii, pentru diferite nivele ale
variabilei factoriale....
...dar vrem s controlm i variaia datorat unui
factor secundar
Nivelele pentru cel de-al doilea factor snt numite
blocuri
Ipoteze: r = numrul de linii, c = numrul de
coloane
1. Normalitatea
Populatiile snt distribuite normal
2. Omogenitatea varianiei
Populaiile au dispersii egale
3. Independena erorilor
Eantioanele snt selectate aleator i
independent

Ipoteze
Descompunerea variaiei totale
Variaia dintre
grupuri
Variaia total
Variaia aleatoare
Variaia dintre
blocuri
SSE
SSA
+
SSBL +
SST=
Sum of Squares for Blocking
Where:
c = number of groups
r = number of blocks
Y
i.
= mean of all values in block i
= grand mean (mean of all data values)
Y
r
2
i.
i 1
SSBL c (Y Y)
=
=

SST = SSA + SSBL + SSE


Partitioning the Variation
Total variation can now be split into three
parts:
SST and SSA are
computed as they were
in One-Way ANOVA
SST = SSA + SSBL + SSE
SSE = SST (SSA + SSBL)
Mean Squares
1 c
SSA
groups among square Mean MSA

= =
1 r
SSBL
blocking square Mean MSBL

= =
) 1 )( 1 (
= =
c r
SSE
MSE error square Mean
Randomized Block ANOVA Table
Source of
Variation
df SS MS
Among
Blocks
SSBL MSBL
Error
(r1)(c-1) SSE MSE
Total rc - 1 SST
r - 1
MSBL
MSE
F ratio
c = number of populations rc = sum of the sample sizes from all populations
r = number of blocks df = degrees of freedom
Among
Treatments
SSA c - 1 MSA
MSA
MSE
Blocking Test
Blocking test: df
1
= r 1
df
2
= (r 1)(c 1)
MSBL
MSE
... : H
3. 2. 1. 0
= = =
equal are means block all Not : H
1
F =
Reject H
0
if F > F
U

Main Factor test: df
1
= c 1
df
2
= (r 1)(c 1)
MSA
MSE
c
. .3 .2 .1 0
... : H = = = =
equal are means population all Not : H
1
F =
Reject H
0
if F > F
U

Main Factor Test
The Tukey Procedure
To test which population means are
significantly different
e.g.:
1
=
2

3
Done after rejection of equal means in
randomized block ANOVA design
Allows pair-wise comparisons
Compare absolute mean differences with
critical range
x

=

1 2 3
etc...
x x
x x
x x
.3 .2
.3 .1
.2 .1

The Tukey Procedure


(continued)
r
MSE
Range Critical
u
Q =
If the absolute mean difference
is greater than the critical range
then there is a significant
difference between that pair of
means at the chosen level of
significance.
Compare:
? Range Critical x x Is
.j' .j
>
Exemplu
6 experi n gastronomie trebuie s evalueze 4
restaurante n privina calitii serviciilor
Experii aloc fiecrui restaurant un punctaj de
la 1 la 100
Se poate afirma c exist o diferen
semnificativ ntre cele patru restaurante n
ceea ce privete punctajele acordate?
Exist vreo diferen n ceea ce privete
modalitatea de punctare a celor 6 experi?
Cum realizm ANOVA folosind EXCEL
1. Introducem datele n Excel
Cum realizm ANOVA folosind EXCEL
2. Apelm procedura ANOVA folosind: Tools > Data
Analysis > ANOVA: Two Factor Without Replication
Cum realizm ANOVA folosind EXCEL
3. Excel Output
Concluzii
Putem afirma, cu probabilitatea 95%, c
exist o diferen semnificativ ntre
cele 4 restaurante n ceea ce privete
punctajele acordate de cei 6 experi

Mai mult, exist o diferen
semnificativ ntre punctajele medii
acordate, i.e. unii experi acord n
general pucntaje mai mari dect ceilali

Factorial Design:
Two-Way ANOVA
Examines the effect of
Two factors of interest on the dependent
variable
e.g., Percent carbonation and line speed on
soft drink bottling process
Interaction between the different levels
of these two factors
e.g., Does the effect of one particular
carbonation level depend on which level the
line speed is set?
Two-Way ANOVA
Assumptions

Populations are normally
distributed
Populations have equal variances
Independent random samples are
drawn
Two-Way ANOVA
Sources of Variation
Two Factors of interest: A and B
r = number of levels of factor A
c = number of levels of factor B
n = number of replications for each cell
n = total number of observations in all cells
(n = rcn)
X
ijk
= value of the k
th
observation of level i of
factor A and level j of factor B
Two-Way ANOVA
Sources of Variation
SST
Total Variation

SSA
Factor A Variation
SSB
Factor B Variation
SSAB
Variation due to interaction
between A and B
SSE
Random variation (Error)
Degrees of
Freedom:
r 1
c 1
(r 1)(c 1)
rc(n 1)
n - 1
SST = SSA + SSB + SSAB + SSE
(continued)
Two Factor ANOVA Equations

= =
'
=
=
r
1 i
c
1 j
n
1 k
2
ijk
) X X ( SST
2
r
1 i
.. i
) X X ( n c SSA
'
=

=
2
c
1 j
. j .
) X X ( n r SSB
'
=

=
Total Variation:
Factor A Variation:
Factor B Variation:
Two Factor ANOVA Equations
2
r
1 i
c
1 j
.j. i.. ij.
) X X X X ( n SSAB +
'
=

= =

= =
'
=
=
r
1 i
c
1 j
n
1 k
2
. ij
ijk
) X X ( SSE
Interaction Variation:
Sum of Squares Error:
(continued)
Two Factor ANOVA Equations
where:
Mean Grand
n rc
X
X
r
1 i
c
1 j
n
1 k
ijk
=
'
=

= =
'
=
r) ..., 2, 1, (i A factor of level i of Mean
n c
X
X
th
c
1 j
n
1 k
ijk
.. i = =
'
=

=
'
=
c) ..., 2, 1, (j B factor of level j of Mean
n r
X
X
th
r
1 i
n
1 k
ijk
. j . = =
'
=

=
'
=
ij cell of Mean
n
X
X
n
1 k
ijk
. ij
=
'
=

'
=
r = number of levels of factor A
c = number of levels of factor B
n = number of replications in each cell
(continued)
Mean Square Calculations
1 r
SSA
A factor square Mean MSA

= =
1 c
SSB
B factor square Mean MSB

= =
) 1 c )( 1 r (
SSAB
n interactio square Mean MSAB

= =
) 1 ' n ( rc
SSE
error square Mean MSE

= =
Two-Way ANOVA:
The F Test Statistic
F Test for Factor B Effect
F Test for Interaction Effect
H
0
:
1..
=
2..
=
3..
=

H
1
: Not all
i..
are equal
H
0
: the interaction of A and B is
equal to zero
H
1
: interaction of A and B is not
zero
F Test for Factor A Effect
H
0
:
.1.
=
.2.
=
.3.
=

H
1
: Not all
.j.
are equal
Reject H
0

if F > F
U
MSE
MSA
F =
MSE
MSB
F =
MSE
MSAB
F =
Reject H
0

if F > F
U
Reject H
0

if F > F
U
Two-Way ANOVA
Summary Table
Source of
Variation
Sum of
Square
s
Degrees of
Freedom
Mean
Squares
F
Statisti
c
Factor A SSA r 1
MSA
= SSA

/(r 1)
MSA
MSE
Factor B SSB c 1
MSB
= SSB

/(c 1)
MSB
MSE
AB
(Interaction
)
SSAB
(r 1)(c
1)
MSAB
= SSAB

/ (r 1)(c 1)
MSAB
MSE
Error SSE rc(n 1)
MSE =
SSE/rc(n 1)
Total SST n 1
Features of Two-Way ANOVA
F Test
Degrees of freedom always add up
n-1 = rc(n-1) + (r-1) + (c-1) + (r-1)(c-1)
Total = error + factor A + factor B + interaction
The denominator of the F Test is always the same but
the numerator is different
The sums of squares always add up
SST = SSE + SSA + SSB + SSAB
Total = error + factor A + factor B + interaction
Examples:
Interaction vs. No Interaction
No interaction:
Factor B Level 1
Factor B Level 3
Factor B Level 2
Factor A Levels
Factor B Level 1
Factor B Level 3
Factor B Level 2
Factor A Levels
M
e
a
n

R
e
s
p
o
n
s
e

M
e
a
n

R
e
s
p
o
n
s
e

Interaction is
present:
Multiple Comparisons:
The Tukey Procedure
Unless there is a significant interaction,
you can determine the levels that are
significantly different using the Tukey
procedure

Consider all absolute mean differences
and compare to the calculated critical
range

Example: Absolute differences
for factor A, assuming three factors:

3.. 2..
3.. 1..
2.. 1..
X X
X X
X X

Multiple Comparisons:
The Tukey Procedure
Critical Range for Factor A:



(where Q
u
is from Table E.10 with r and rc(n1) d.f.)

Critical Range for Factor B:


(where Q
u
is from Table E.10 with c and rc(n1) d.f.)
n' c
MSE
Range Critical
U
Q =
n' r
MSE
Range Critical
U
Q =

S-ar putea să vă placă și