Sunteți pe pagina 1din 16

ELEMENTE DE ANALIZĂ DISPERSIONALĂ

(ANOVA)

1
ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)

 Analiza dispersională (analiză de varianţă) (ANOVA), a fost


introdusă de statisticianul Irving Fisher.

 Modelul de analiză dispersională îşi propune ca pentru fiecare


nivel al factorului/factorilor cauzali să analizeze populaţia
distinctă asociată şi eventualele diferenţe ce apar între
populaţii: să studieze efectul variabilei/variabilelor
independente asupra celei dependente.

 Analiza dispersională se poate face după un model


unifactorial, după modele bi sau multifactoriale.

2
Analiză dispersională unifactorială

 În modelul de analiză dispersională unifactorială se testează


ipoteza nulă:
H0: y1 = y2 = ... = yr,
 cu ipoteza alternativă cel puţin două medii din populaţie nu sunt
egale:
H1 : yi  yj, (i  j)
 Dacă rezultatul testului indică faptul că mediile sunt
semnificativ diferite, se concluzionează că factorul X are un
impact asupra variabilei Y.
 Setul de date pentru analiza dispersională unifactorială constă
în valorile variabilei Y pentru cele r grupe independente.
 Volumele grupelor pot fi diferite n1  n2  ...  nr
3
Analiză dispersională unifactorială

 Sistematizarea datelor pentru ANOVA

Grupe după factorul cauză

Gr. 1 Gr. 2 ... . Gr.r

y11 y21 … yr1


y12 y22 … yr2
. .
y.
1n1
y.2n2 ..... y rn r

Media y1 y2 ..... yr
Vol. grupă n1 n2 . . . .. nr

4
Analiză dispersională unifactorială
 Presupunerile sub care se aplică testul F în analiza dispersională
unifactorială:
 cele r grupe din eşantion sunt extrase aleator şi independent din
cele r grupe ale colectivităţii generale;
 fiecare grupă din colectivitatea generală are o distribuţie normală,
iar abaterile medii pătratice sunt egale σ1 = σ2 = ..... = σr.
 Testul statistic F pentru analiza dispersională unifactorială este raportul
indicatorilor de variabilitate pentru cele două surse de variaţie:
 variabilitatea dintre grupe
 variabilitatea din interiorul grupelor.
 Dacă ipoteza nulă este adevărată, mediile celor r populaţii ar trebui să
fie, toate, egale. Ne aşteptăm atunci ca mediile celor r eşantioane să
fie aproximativ egale.
 Dacă ipoteza alternativă este adevărată, există diferenţe mari între
unele medii ale eşantioanelor.

5
Analiză dispersională unifactorială

a) b)
a) medii de grupă egale; b) mediile de grupă inegale

6
Analiză dispersională unifactorială

 pe baza datelor din eşantion calculăm:


ni

y
j 1
ij

yi  , i  1, r
ni
r ni r
 y
i 1 j 1
ij yn i i
y  i 1
n n
r
n   ni
i 1

7
Analiză dispersională unifactorială
 Varianţa dintre grupe, dată de influenţa factorului cauzal,
numită şi varianţa factorială, este suma pătratelor abaterilor
mediilor de grupă de la media generală:
r
SSB    yi  y   ni
2

i 1
 Dacă y 1  y 2  ...  y r atunci: SSB = 0.
 Varianţa din interiorul grupelor (varianţa reziduală), este
suma pătratelor abaterilor valorilor individuale de la mediile de
r ni
grupă: SSW  y  y 2
 ij i
i 1 j 1

 Împrăştierea totală a valorilor individuale faţă de media


generală (varianţa totală): r ni
SST   yij  y 
2

i 1 j 1

8
Analiză dispersională unifactorială
 Raţionamentul analizei dispersionale se bazează pe
partiţionarea sumei pătratelor abaterilor:
r ni r r ni

 y  y     yi  y   ni   yij  yi 
2 2 2
ij
i 1 j 1 i 1 i 1 j 1

sau SST = SSB + SSW.


 Pentru a face comparabile aceste măsuri ale variabilităţii, le
vom raporta pe fiecare la gradele de libertate => media
pătratelor abaterilor.
 Pentru varianţa factorială SSB, numărul gradelor de libertate
este r-1; măsurăm variabilitatea a r medii, se pierde un grad
de libertate, deoarece media totală a fost estimată.
 Pentru varianţa reziduală (din interiorul grupelor) SSW,
numărul gradelor de libertate este n–r; măsurăm
variabilitatea tuturor celor n valori, dar pierdem r grade de
libertate.
9
Analiză dispersională unifactorială

 Obţinem astfel:
 dispersia factorială corectată:
r

 iy  y 2
 ni
2 SSB
s 
1  i 1

r 1 r 1

 dispersia reziduală corectată:


r ni

SSW
 y
i 1 j 1
ij  yi 
2

s22  
nr nr

10
Analiză dispersională unifactorială
 Statistica testului pentru analiza dispersională
unifactorială este:
SSB
r  1 s12 variabilitatea dintre grupe
F  2   Fisherr 1,n  r 
SSW s 2 variabilitatea din interiorul grupelor
nr
care urmeaza o repartitie Fisher cu perechea de grade
de libertate (r–1,n–r) provenind de la numărător,
repectiv de la numitor.
 Regiunea critică este dată de :
F> F ;r-1,n-r (Fcritic)

 acest lucru indică diferenţe mai mari între mediile


grupelor decât cele datorate întâmplării.

11
Analiză dispersională unifactorială
 Dacă valoarea Fcalc este mai mică decât valoarea critică Fα;r-
1,n-r atunci :
 acceptăm ipoteza nulă, H0;
 nu acceptăm ipoteza alternativă H1;
 mediile grupelor nu sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor pot fi datorate doar
întâmplării;
 rezultatul nu este semnificativ statistic.
 Dacă valoarea Fcalc este mai mare decât valoarea critică Fα;r-
1,n-r atunci:
 acceptăm ipoteza alternativă, H1;
 respingem ipoteza nulă, H0;
 mediile grupelor sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor nu sunt datorate doar
întâmplării;
 rezultatul este semnificativ statistic.

12
Analiză dispersională unifactorială

Calculul statisticii F
pentru analiza dispersională unifactorială
Sursa variaţiei Gradele de Varianţa Dispersia Statistica F
libertate (suma pătratelor) corectată
(media
pătratelor)
Factorul X (Between Groups) r–1 SSB s12
s12
F
s22 s22
Reziduală (Within Groups) n–r SSW
2 2
Totală n–1 SST = SSB + SSW s2  s1  s2 –

13
Concluzii
 modelele de analiză dispersională nu explică relaţia dintre
variabile
 verifică doar măsura în care valorile reale ale unei
caracteristici se abat de la valorile teoretice, precum şi
măsura în care aceste variaţii sunt sau nu dependente de
factorul/factorii de grupare.
 metoda analizei dispersionale poate fi utilizată atât
înaintea, cât şi după aplicarea metodelor corelaţiei şi
regresiei statistice.
 Testul F se poate utiliza şi pentru testarea validităţii
modelului de regresie.
 în general, în analiza dispersională, nivelurile x1, x2, ..., xr
sunt niveluri ale unei variabile categoriale (numite şi
tratamente), dar, cum ceea ce este valabil pentru o scală
inferioară (nominală) este valabil şi pentru orice altă scală
superioară (ordinală, de intervale, de rapoarte), analiza se
poate extinde.

14
Exemplu
 Pentru regiunile României s-au cules şi sistematizat date privind rata ocupării
(%). Folosind analiza dispersională să se stabilească dacă există diferenţe
semnificative între regiuni.
Regiunea Nr. Rata medie a ocupării Abaterea Dispersia
judeţe medie
(ni)
xi pătratică (si) s 2 S 2  si2 (ni  1)
i
(%)
NE 6 47.77 4.89 23.91 119.55
SE 6 41.24 5.68 32.26 161.3
S 7 40.68 6.57 43.16 258.96
SV 5 41.9 3.31 10.96 43.84
V 4 42.71 6.18 38.19 114.57
NV 6 46.32 5.84 34.11 170.55
C 6 42.08 2.32 5.38 26.9
Buc 2 41.59 5.62 31.58 31.58
Total 42 43.16 5.41 = s 29.27 = s2  927.25
15
Exemplu
2 927.25
s  2  27.27
S 2  927.25 42  8
S1  272.82 272.82
s12   38.97
8 1
S  29.27 * 41  1200.07
1200.07
s2   29.27
42  1

38.97
F  1.42
27.27
F0.05;7;34  2.40
F  F0.05;7;34  H 0
16

S-ar putea să vă placă și