Sunteți pe pagina 1din 45

ANOVA

ANALYSIS OF VARIANCE
ANOVA
A fost propusa n 1920 de ctre R.A. Fischer,
care a vrut s vad daca exista diferene
semnificative intre productia diferitelor soiuri
de plante.

Din 1970 este cea mai folosit metod
statistic n studii de psihologie.

Aplicaiile snt dintre cele mai variate:
psihologie, biologie, sociologie, economie.
ANOVA versus Testul t
Testul t permite compararea mediilor a dou
populaii, pentru a vedea dac exist o diferen
semnificativ ntre valorile acestora

Ideea de baz a ANOVA este aceeai ca i a
testului t, doar c n acest caz putem compara
mediile mai multor populaii statistice

n fapt, prin ANOVA putem cuantifica impactul
unuia sau mai multor factori de influen asupra
unei variabile de interes.



Exemplu: Vrem s determinm cum se poate mbunti
productivitatea funcionarilor potali

Lum n considerare 4 tipuri de factori:
Sistemul de stimulente bazat pe calificative acordate de
superiori
Recunoatere din partea superiorilor
Sisitemul de calificative plus recunoatere din partea
superiorilor
Reineri salariale n caz de abateri de la disciplina
muncii
Testul t nu poate testa simultan diferenele dintre
productivitatea muncii n fiecare din grupurile
create conform acestor criterii.

Putem efectua testul t comparnd productivitile
medii dou cte dou: teste.




2
4
6 C =
TERMINOLOGIE
Variabila dependenta ( variabla raspuns )
variabila studiata
Variabila independenta/explicativa (factor)
o variabila care influenteaza variabila dependenta
Nivelul factorului (tratament)
o valoare particulara a factorului
Variatia reziduala
influente aleatoare asupra variabilei dependente
TERMINOLOGIE
Exemplu
Determinam cum recolta este influentata de tipul
de ingrasamint folosit. Un fermier foloseste 3 tipuri
de ingrasamint notate A,B and C
Variabila raspuns - productia
factorul - tipul de ingrasamint
tratamentul - ingrasamintul A, B and C
TERMINOLOGIE
Exemplu 2
Analizam cum pretul actiunilor este
determinat de rata dobinzii pe care o ofera.
Studiem obligatiuni care platesc rate de
6%, 8%,10%
Variabila raspuns - pretul actiunii
factorul - rata dobinzii
tratamentul - 6%,8% sau10%
MODELE ANOVA
In functie de numarul de factori
one-factor ANOVA models
multi-factors ANOVA models
In functie de nivelele factorilor
fixed effect models
random effect models
mixed effect models
ANOVA unifactorial
One Way ANOVA(One Factor ANOVA)
O singur variabil independent X, ale crei
valori pot fi mprite n mai multe grupuri:
X
1
,...,X
k
.
Vrem s vedem dac exist o diferen
semnificativ ntre valorile variabilei
dependente Y n interiorul grupurilor create
dup variabila de grupare X.
Practic, observaiile snt valorile lui Y n
interiorul celor k grupuri create dup valorile
lui X.

Tabelul de intrare pentru ANOVA

























Valorile
variabilei
independente
Numrul de
observaii din
fiecare grup
Valorile observate
pentru variabila
dependent Y, n
fiecare grup

Populaia
Media de
selecie

1
X


1
n


11
y


12
y




1
1n
y


2
1 1 1
( , ) Y N o

1
1
1
1
1
n
i
i
y
y
n
=
=



2
X


2
n


21
y


22
y




2
2n
y


2
2 2 2
( , ) Y N o

2
2
1
2
2
n
i
i
y
y
n
=
=


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

k
X


k
n


1 k
y


2 k
y




k
kn
y


2
( , )
k k k
Y N o

1
k
n
ki
i
k
k
y
y
n
=
=


Volumul
eantionului
1 2
...
k
n n n n = + + +


Ipoteze in ANOVA
Media total a populaiei va fi estimat prin media total a
eantionului:


Setul de ipoteze

Dac ipoteza nul este acceptat, atunci putem concluziona
c factorul de grupare nu are o influen semnficativ
asupra variabilei de interes.
Ideea de baz n testarea ipotezelor ANOVA este regula de
adunare a dispersiilor, descompunerea dispersiei totale n
dispersia dintre grupe(factorul sistematic) i dispersia din
interiorul grupelor(factorul aleator).










1 1
1
k
k
n
k
n
ij
i i
i j
i i
y
y n
y
n n
= =
=
= =


0 1 2
0
: ...
: (cel puin dou medii snt neegale)
k
A
H
H non H
= = =

Tabelul de analiz a varianei



ANOVA Table

Source of
Variance


SS

df

MS

F
Between Groups

(Factorul
sistematic)



2
1
( )
k
i i
i
SST n y y
=
=




k-1

1
SST
MST
k
=


MST
MSE

Within Groups

(Factorul
aleator)



2
1 1
( )
i
n
k
ij i
i j
SSE y y
= =
=




n-k

SSE
MSE
n k
=





Total



2
1 1
( )
i
n
k
total ij
i j
SS y y
= =
=




n-1

Testul F(Fischer)
Decizia se ia pe baza testului F: se compar valoarea
statisticii F calculat n tabelul ANOVA cu valoarea critic,
corespunztoare cuantilei repartiiei F cu (k-1,n-k) grade de
libertate.
Dac atunci respingem ipoteza nul,
deci putem afirma, cu probabilitatea , c factorul de
grupare are o influen semnificativ asupra variabilei de
interes.
Valoarea critic n EXCEL:












; 1;
( , 1, )
k n k
F FINV k n k
o
o

=
1 o
; 1; k n k
F F
o
>
Exemplu 1
Managerul unui lan de magazine vrea s determine dac
locul unde este amplasat un produs pe raft are o influen
semnificativ asupra valorii vnzrilor. Snt considerate trei
posibile amplasri pe raft: zona 1(nivelul de sus), zona
2(nivelul median) i zona 3(nivelul de jos).

Este selectat aleator un eantion de 18 magazine, 6 care
au produsul n zona 1, 6 n zona 2 i 6 n zona 3.

Dup o lun, a fost ntregistrat valoarea vnzrilor
produsului(n mii dolari) pentru fiecare magazin.



Cum realizm ANOVA folosind EXCEL
1. Introducem datele n Excel
Cum realizm ANOVA folosind EXCEL
2. Apelm procedura ANOVA folosind: Tools >
Data Analysis > ANOVA: Single Factor
Cum realizm ANOVA folosind EXCEL
3. Selectm zona de date i eventual schimbm
pragul de semnificaie i OK.
Cum realizm ANOVA folosind EXCEL
4. Excel Output
Concluzii
Putem afirma, cu probabilitatea 95%, c locul unde
este amplasat produsul pe raft influeneaz
semnificativ valoarea vnzrilor.

Mai mult, comparnd vnzrile medii pentru fiecare
locaie, putem afirm c valoarea medie a vnzrilor
pentru produsele amplasate n zona de sus a raftului
este semnificativ mai mare dect valoarea medie a
vnzrilor din celelalte zone.

n consecin, decizia pe care ar trebui s o ia
managerul respectiv este de a plasa produsul n zona
de sus a raftului.

Foarte important!!!
Atunci cnd realizm comparaii ntre mediile
unor populaii folosind ANOVA trebuie s fie
ndeplinite n mod necesar trei condiii:

Independena i caracterul aleator al
alegerii eantioanelor
Normalitatea eantioanele din fiecare
grup snt extrase din populaii normale
Omogenitatea varianei dispersiile
celor k grupuri snt presupuse a fi egale
Exemplul 2

Studiem cum tipul de reclama care promoveaza un
nou produs influenteaza vinzarile
Se considera trei tipuri de reclama
Fiecare tip de reclama se foloseste intr-un oras
Se inregistreaza vinzarile saptaminale

Convnce Quality Price
529 804 672
658 630 531
793 774 443
514 717 596
663 679 602
719 604 502
711 620 659
606 697 689
461 706 675
529 615 512
498 492 691
663 719 733
604 787 698
495 699 776
485 572 561
557 523 572
353 584 469
557 634 581
542 580 679
614 624 532
H
0
:
1
=
2
=
3
H
1
: cel putin doua medii
difera
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Convnce 20 11551 577.55 10774.997
Quality 20 13060 653 7238.1053
Price 20 12173 608.65 8670.2395
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512.233 2 28756.117 3.2330414 0.046773 3.1588456
Within Groups 506983.5 57 8894.4474
Total 564495.73 59
ANOVA TABLE
H
o
:
1
=
2
=
3
H
1
: cel putin doua medii difera


Test statistic F= MST / MSE= 3.23








15 . 3 : . .
57 , 2 , 05 . 1
~ = >
, ,
F F F R R
k n k o
Deoarece 3.23 > 3.15, respingem H
o
in
favoarea lui H
1
; cel putin o medie difera
fata de celelalte
F TEST
ANOVA blocuri randomizate
(ANOVA unifactorial cu observaii repetate)
Testul F pentru blocuri randomizate
Ca i n ANOVA simpl, testm independena
mediilor unor populaii, pentru diferite nivele ale
variabilei factoriale....
...dar vrem s controlm i variaia datorat unui
factor secundar
Nivelele pentru cel de-al doilea factor snt numite
blocuri
Ipoteze: r = numrul de linii, c = numrul de
coloane
1. Normalitatea
Populatiile snt distribuite normal
2. Omogenitatea varianiei
Populaiile au dispersii egale
3. Independena erorilor
Eantioanele snt selectate aleator i
independent

Ipoteze
Media patratelor
1 c
SSA
grupe intre patratelor Media MSA

= =
1 r
SSBL
blocurilor patratelor Media MSBL

= =
) 1 )( 1 (
erorii patratelor Media

= =
c r
SSE
MSE
Randomized Block ANOVA Table
Source of
Variation
df SS MS
Among
Blocks
SSBL MSBL
Error
(r1)(c-1) SSE MSE
Total rc - 1 SST
r - 1
MSBL
MSE
F ratio
c = number of populations rc = sum of the sample sizes from all populations
r = number of blocks df = degrees of freedom
Among
Treatments
SSA c - 1 MSA
MSA
MSE
Testarea semnificatiei blocurilor
Gradele de libertate
df
1
= r 1
df
2
= (r 1)(c 1)
MSBL
MSE
... : H
3. 2. 1. 0
= = =
egale sunt toate nu blocurilor mediile : H
1
F =
Respingem H
0

daca F > F
U

df
1
= c 1
df
2
= (r 1)(c 1)
MSA
MSE
c
. .3 .2 .1 0
... : H = = = =
egale sunt grupelor mediile Nu toate : H
1
F =
Respingem H
0

daca F > F
U

Testarea factorului principal
Exemplu
6 experi n gastronomie trebuie s evalueze 4
restaurante n privina calitii serviciilor
Experii aloc fiecrui restaurant un punctaj de
la 1 la 100
Se poate afirma c exist o diferen
semnificativ ntre cele patru restaurante n
ceea ce privete punctajele acordate?
Exist vreo diferen n ceea ce privete
modalitatea de punctare a celor 6 experi?
Cum realizm ANOVA folosind EXCEL
1. Introducem datele n Excel
Cum realizm ANOVA folosind EXCEL
2. Apelm procedura ANOVA folosind: Tools > Data
Analysis > ANOVA: Two Factor Without Replication
Cum realizm ANOVA folosind EXCEL
3. Excel Output
Exemplu 2
Consideram :
Efectul strategiei de marketing
Emphasis on convenience
Emphasis on quality
Emphasis on price
Efectul media asupra vinzarilor.
Advertise on TV
Advertise in newspapers
City 1
sales
City3
sales
City 5
sales
City 2
sales
City 4
sales
City 6
sales
TV
Newspapers
Convenience Quality Price
Factor A: Marketing strategy
Factor B:
Advertising media
Sunt diferente cauzate de strategii ?
Testam daca vinzarile determinate de Convenience, Quality,
and Price difera semnificativ una de alta.
Factor A: Marketing strategy
Factor B:
Advertising media
Factor A: Marketing strategy
Factor B:
Advertising media
Factor A: Marketing strategy
Factor B:
Advertising media
City 1
sales
City 3
sales
City 5
sales
City 2
sales
City 4
sales
City 6
sales
TV
Newspapers
Convenience Quality Price
Factor A: Marketing strategy
Factor B:
Advertising media
Sunt diferente determinate de locul
unde se publica reclama?
Testam daca vinzarile determinate de reclama TV,
and Newspapers difera semnificativ
City 1
sales
City 5
sales
City 2
sales
City 4
sales
City 6
sales
TV
Newspapers
Convenience Quality Price
Factor A: Marketing strategy
Factor B:
Advertising media
Sunt diferente cauzate de interactiunea dintre cei 2 factori ?
Testam daca media vinzarilor din anumite celulu difera fata de nivelul
asteptat
City 3
sales
Suma patratelor

=
=
a
1 i
2
i
) x ] A [ x ( rb ) A ( SS
} ) x x ( ) x x ( ) x x {( rb
2
price
2
quality
2
. conv
+ +

=
=
b
1 j
2
j
) x ] B [ x ( ra ) B ( SS
} ) x x ( ) x x {( ra
2
Newspaper
2
TV
+

= =
+ =
b
1 j
2
j i ij
a
1 i
) x ] B [ x ] A [ x ] AB [ x ( r ) AB ( SS

=
=
b
1 j
2
ij ijk
) ] AB [ x x ( ) E ( SS
Testul F
F=
MS(A)
MSE
F=
MS(B)
MSE
Rejection region: F > F
o,a-1 ,n-ab
F > F
o, b-1, n-b

F=
MS(AB)
MSE
Rejection region: F > F
o(,a-1)(b-1),n-ab

SS(A)/(a-1)
SS(B)/(b-1)
SS(AB)/(a-1)(b-1)
SSE/(n-ab)

Testam daca sunt diferente semnificative
intre media vinzarilo determinata de
strategiile de marketing
H
0
:
conv.
=
quality
=
price

H
1
: Cel putin 2 medii difera

F = MS(Marketing strategy)/MSE = 5.33
(see computer printout next.)
F
critical
= F
o,a-1,n-ab
= F
.05,3-1,60-(3)(2)
= about 3.15

Pt 5% nivel de semnificatie : exista
diferente intre nivelul vinzarilor determinate
de strategiile de marketing.

Testam existenta diferentelor in vinzari
determinata de cele doua cai de reclama
H
0
:
TV.
=
Nespaper

H
1
: cele doua medii difera

F = MS(Media)/MSE = 1.42 (see computer
printout next.)
F
critical
= F
o,a-1,n-ab
= F
.05,2-1,60-(3)(2)
= about 4.00

Pt. 5% nivel de semnificatie nu putem
spune ca cele doua cai de realizare a
reclamei det. vinzari diferite.

Testam interactiunea dintre factorul A a
si B
H
0
:
TV*conv.
=
TV*quality
==
newsp.*price


H
1
:cel putin doua medii difera

F = MS(Marketing*Media)/MSE = .09
(see computer printout next.)
F
critical
= F
o,(a-1)(b-1),n-ab
= F
.05,(3-1)(2-1),60-(3)(2)
= about
3.15

Pt. 5% nivel de semnificatie nu putem
spune ca interactiunea dintre determina
diferente intre volumul vinzarilor.
Convenience Quality Price
TV 491 677 575
TV 712 627 614
TV 558 590 706
TV 447 632 484
TV 479 683 478
TV 624 760 650
TV 546 690 583
TV 444 548 536
TV 582 579 579
TV 672 644 795
Newspaper 464 689 803
Newspaper 559 650 584
Newspaper 759 704 525
Newspaper 557 652 498
Newspaper 528 576 812
Newspaper 670 836 565
Newspaper 534 628 708
Newspaper 657 798 546
Newspaper 557 497 616
Newspaper 474 841 587
Factor A = Marketing strategies
Factor B = Advertising media
ANOVA
Source of Variation SS df MS F P-value F crit
Sample 13172.02 1 13172.02 1.419351 0.23872 4.01954
Columns 98838.63 2 49419.32 5.32518 0.007748 3.168246
Interaction 1609.633 2 804.8167 0.086723 0.917058 3.168246
Within 501136.7 54 9280.309
Total 614757 59

S-ar putea să vă placă și