Sunteți pe pagina 1din 8

Curs ANOVA Single Factor

Analiza variabilităţii într-o colectivitate împărţită pe grupe


(regula de compunere a variabilităţii în utilizarea datelor bivariate)

Analiza variabilităţii într-o colectivitate împărţită pe grupe se realizează


prin intermediul metodei analizei dispersionale ANOVA.
Metoda studiază efectul variabilei independente asupra celei
dependente, altfel spus, măsura în care variaţia caracteristicii rezultative
este dependentă sau nu de factorul (factorii) de grupare. Ea are la bază
metoda grupării, prin intermediul ei separându-se influenţa factorilor
esenţiali (determinanţi) de influenţa factorilor consideraţi întâmplători
(aleatori) asupra caracteristicii “efect”.

Aplicație
Despre 21 Agenţii de turism se cunosc datele privind numărul de bilete
vândute și zona de amplasare a fiecăreia
Nr. crt.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Ag.T
Nr. bilete
20 24 26 25 23 24 28 28 30 26 28 28 25 24 27 25 25 20 26 25 80
vândute
Zona P S C S P S C C C P C S S P C C C P C S C

Luând în considerare seria simplă cu nr. impar termeni, privind nr.


biletelor vândute de 21 agenţii de turism, calculele indicatorilor tendinţei
centrale şi de variaţie au condus la următoarele rezultate:
- Nr. mediu de bilete vândute: x̄=27 . 95 b.v/agenţie
2
- Dispersia: s =148. 35
- Abaterea standard: s=12 .18 b.v
- Coeficientul de variaţie: v=43 .58 % care arată că:
 seria privind numărul mediu de bilete vândute nu este omogenă,
 media (nr. mediu de bilete vândute) nu este o valoare reprezentativă
În acest context, o analiză mai concludentă a seriei se poate realiza prin
combinarea celor două variabile: număr bilete vândute cu zona de
amplasare a agenţiilor (se utilizează datele bivariate).

1
Astfel, se analizează dacă zona de amplasare influenţează
semnificativ vânzarea de bilete (se aplică funcţia “Anova Single
Factor”)
În acest sens, se grupează agenţiile de turism combinat după zona de
amplasare şi după nr biletelor vândute astfel:

Zon
a Nr. bilete vândute Nr. Agenții Turism
2 2
C 26 28 8 30 28 27 5 25 26 80 10
2
S 24 25 4 28 25 25 6
2
P 20 23 6 24 20 5

Utilizarea funcţiei ANOVA: Single Factor (analiză de varianţă cu un


singur factor) din EXCEL, necesită parcurgerea următoarelor etape (vezi
Excel):
1- se introduc datele cu zonele în capul de tabel, pe linii începând cu F2,
F3, F4, până la P2, L3, K4 (se introduce numai partea colorată cu
galben);
2- se selectează toate datele din coloane, inclusive capul de tabel (prima
coloană cu zonele: C,S,P), de la F2 la P4;
3- din meniu se selectează:
Data --Data Analysis – ANOVA: Single Factor
4- în fereastra deschisă:
 la Input Range se selectează toate datele de la F2 la P4 (inclusiv
zonele): $F$2:$P$4
 se activează Labels in First
 se specific Grouped by Rows
 se activează Output Range şi se selectează o căsuţă în care se
doreşte să se poziţioneze rezultatele ($S$1)
 OK

2
Rezultate:

Anova: Single Factor


SUMMARY
Groups Count Sum Average Variance
C 10 323 32,3 283,34
S 6 151 25,17 2,17
P 5 113 22,6 6,8
ANOVA
Source of
Variation SS df MS F P-value F crit
Between
378,82 2 189,41 1,32 0,29 3,55
Groups
Within
2588,13 18 143,79
Groups
Total 2966,95 20

Rezultate cu notații
Anova: Single Factor
SUMMARY
Average
Count (media grupei) Variance
Sum (dispersia / grupa)
(Nr Ag.Turism) (Nr mediu b.v/grupă)
(suma biletelor 2
Groups
ni vândute/grupă) ȳ i si
(zonă)
2
C
10
nC 323
32,30
ȳ C 283,34
sC
2
S
6
nS 151
25,17
ȳ S 2,17
sS
2
P 5
nP 113 22,60
ȳ P 6,80
sP

Source of Variation SS df MS F P-value F crit


Between Groups SSB 378,82 2 189,41 1,32 0,29 3,55
Within Groups SSW 2588,13 18 143,79
Total SST 2966,95 20
3
SST = SSB + SSW

Zon Nr. Agenții


a Nr. bilete vândute Turism
2 2 2 2 2 2 2 2 8
C 6 8 8 30 8 7 5 5 6 0 10 nc
2 2 2 28=yij=y 2 2
S 4 5 4 24 5 5 6 ns
2 2 2 2
P 0 3 6 24 0 5 np

Notaţii:

i = rândurile = numărul grupelor = r (3 grupe: C,S,P): i<1,3


n = volumul eşantionului = 21 agenţii de turism grupate: n i – nc, ns, np
j = coloanele – subgrupele nr biletelor vândute

Rezultatul = f (factorul de influenţă, împărţit pe grupe) + alţi factori


Nr. Bilete vândute = f (zona de amplasare, împărţită pe cele trei grupe: C, S, P) + alţi
factori
Analiza se bazează pe ideea că, variaţia totală la nivelul eşantionului este egală cu
suma dintre variaţia stabilită între grupe şi variaţia manifestată în interiorul grupelor.

Variaţia Variaţia Variaţia


= +
TOTALĂ dintre grupe din interiorul grupelor

⇓ ⇓ ⇓
Varianţa Varianţa Varianţa
TOTALĂ = dintre grupe + din interiorul grupelor
(Between Groups) (Within Groups)
(SST) (SSB) (SSW)
Influenţa Influenţa Influenţa
4
altor factori
tuturor factorilor Factorului de grupare
(întâmplători, aleatori)

Identitatea fundamentală a metodei de analiză este regula de compunere a variabilităţii


(rezolvată prin metoda ANOVA), este:

SST =SSB+ SSW


1
SST =SSB+SSW /⋅
SST
SSB SSW
1= +
SST SST
2 2
1=R +K
SSB
R2 =
 Coeficientul de determinaţie, SST
El indică ponderea de influenţă a factorului în variaţia rezultatului (Atenție!!!...
Rezultatul este un coeficient dar, se interpretează sub forma procentuală)

2
Factorul NU influenţează semnificativ rezultatul
R <50 %
Coeficientul de determinaţie NU este semnificativ statistic

2
Factorul influenţează semnificativ rezultatul
R >50 %
Coeficientul de determinaţie este semnificativ statistic

SSW
K 2=
 Coeficientul de nedeterminaţie, SST
Acesta indică ponderea de influenţă a celorlalţi factori în variaţia rezultatului.

5
Rezolvarea aplicaţiei
Întrebarea este:
Varianta 1: zona de amplasare influențează semnificativ nr biletelor vândute?
Varianta 2: Nr. biletelor vândute este influențat semnificativ de zona de amplasare?

Zon
a Nr. bilete vândute Nr. Agenții Turism
2 2
C 26 28 8 30 28 27 5 25 26 80 10 nc
2
S 24 25 4 28 25 25 6 ns
2
P 20 23 6 24 20 5 np

SST =SSB+ SSW


dintre grupe (Between Groups)
Varianţa
r
SSB=∑ ( ȳi − ȳ )2⋅ni =???????
i=1

ȳ i este media fiecărei grupe, reprezentată de ȳ C , ȳ S , ȳ P (Average --- vezi rezultate tabel
SUMMARY)

26+28+28+30+28+27+25+25+26+80 323
ȳ C = = =32 ,3 bilete/agentie
10 10
6
24 +25+24 +28+25+25 151
ȳ S = = =25 ,17 bilete /agentie
6 6
20+23+26+24 +20 113
ȳ P = = =22, 6 bilete /agentie
5 5
x̄= ȳ este media generală a eşantionului format din cele 20 agenţii de turism (n = 20 agenţii
turism), care se determină ca medie aritmetică ponderată a mediilor fiecărei grupe:
r
∑ ȳ i⋅ni ȳ C nC + ȳ S n S + ȳ P n P 32 , 3⋅10+25 , 17⋅6+ 22, 6⋅5
ȳ= i =1r = = =29 , 35 bilete / agentie
nC +nS +n P 10+6+ 5
∑ ni
i =1
r
SSB=∑ ( ȳi − ȳ )2⋅ni =( ȳ C − ȳ ) 2 nC + ( ȳ S − ȳ )2 n S + ( ȳ P − ȳ )2 n P
i =1
2 2 2
SSB=( 32 ,3−29 , 35 ) ⋅10+ ( 25 ,17−29 , 35 ) ⋅6 + ( 22 ,60−29 ,35 ) ⋅5≃378 , 82 vezi
rezultate tabel ANOVA

Varianţa din interiorul grupelor (Within Groups)


r

SSW = s2i ⋅( n i−1 )=??????????
i =1
2
si 2 2 2
este dispersia fiecărei grupe, reprezentată de s C , s S , s P (Variance --- vezi rezultate tabel
SUMMARY)
2 2 2 2
2 (26−32 ,3 ) +(28−32 , 3) +(28−32 , 3 ) +.. .+(80−32 ,3 )
sC= ≃283 , 34
10−1
2 2 2 2
2 (24−25 , 17 ) +(25−25 , 17) +(24−25 , 17 ) +.. . .+(25−25 ,17 )
sS= ≃2 , 17
6−1
2 2 2
2 (20−22 , 6 ) +(23−22 ,6 ) +. . ..+(20−22 , 6 )
s P= ≃6,8
5−1
r
SSW =∑ s2i ⋅( n i−1 )=s 2C ( nC −1 ) + s 2S ( nS −1 ) + s 2P ( n P −1 )
i=1

7
2 2 2
SSW =sC ( nC −1 ) + s S ( n S −1 ) +s P ( nP −1 )=283 , 34 ( 10−1 )+ 2, 17 ( 6−1 )+6,8 (5−1 )≃2588 , 13 vezi
rezultate tabel ANOVA

Varianţa TOTALĂ (SST)


SST =SSB+ SSW
SST =378 ,82+2588 ,13=2966 ,95 vezi rezultate tabel ANOVA

Influența factorului principal împărțit pe grupe (Zona de amplasare cu grupele: C, S, P) asupra


numărului de bilete vândute se stabilește prin determinarea coeficientului de determinaţie:

SSB 378 ,82


R2 = = =0 ,1277
SST 2966 , 95 , ceea ce înseamnă că, 12,77% reprezintă influenţa zonei de
amplasare în variaţia vânzării de bilete. Fiind mai mic de 50% se precizează că, acest coeficient de
determinaţie calculat NU este semnificativ statistic
Rezultă că alți factori influenează semnificativ vânzarea de bilete
Pentru a stabili cu cât influențează alți factori vânzarea de bilete se calculează coeficientul de
nedeterminaţie în unul din cele două moduri:

2 2
1=R +K
2 2
K =1−R
2
K =1−0,1277=0 ,8723
Sau

SSW 2588 , 13
K 2= = =0 ,8723
SST 2966 , 96
Interpretare: 87,23% este influenţa altor factori în variația vânzării de bilete

S-ar putea să vă placă și