Sunteți pe pagina 1din 16

ELEMENTE DE ANALIZĂ

DISPERSIONALĂ (ANOVA)
Analiză dispersională unifactorială
 Analiza dispersională, numită și analiza de varianță
(ANOVA) a fost introdusă de R.A.Fisher permite
compararea mediilor a două sau mai multe colectivități
cantitative

 ANOVA studiază efectul variabilei/variabilelor


independente asupra celei dependente

 ANOVA unifactorială populațiile se pot clasifica utilizînd un


singur criteriu , numit factor
Analiză dispersională unifactorială
Valorile Volumul
caracteristici Variantele sau valorile caracteristicii Y grupelor
i de grupare y1 y2 … yj … Yn (ni)
X
x1 n11 n12 ... n1j … n1n n1.
x2 n21 n22 … n2j … n2n n2.
... ... ... … ... … ... ...
xi ni1 ni2 … nij … nin ni.
... ... ... … ... … ... ...
xr nr1 nr2 … nrj … nrn nr.
Total n.1 n.2 … n.j … n.n

3
Analiză dispersională unifactorială

 unde:x = variabila independentă, explicativă, care influențează distribuția unităților


statistice pe valori ale variabilei y; este considerată de tip „cauză” deși nu este cauza
apariției valorilor y; x poate fi variabilă calitativă sau cantitativă;

 y = variabila dependentă, explicată de x, denumită și variabilă efect. Legatura nu


este cauzala, nu este de natură cauză-efect. Variabila y este întotdeauna variabilă
cantitativă.

 În colectivitățile împărțite pe grupe se pot calcula indicatori medii şi de variație atât


pe fiecare grupă în parte cât şi pe total.
 Ipoteza inițială este că mediile de grupă sunt similare, și nu diferă semnificativ de la
o grupă după x la altă grupă după x, adica =y1=…= y2 = y . In y 0 caz gruparea
k acest
datelor dupa variabila x nu a avut sens. Dacă cel puțin două medii de grupă ale
variabilei y sunt semnificativ diferite de la o grupă x la altă grupă dupa x, atunci
gruparea după variabila x a creat diferențe semnifictive între mediile de grupă ale
variabilei y și x.

4
Analiză dispersională unifactorială
 În modelul de analiză dispersională unifactorială se
testează ipoteza nulă:
H0: y1 = y2 = ... = yr, (mediile din populații sunt egale)

 cu ipoteza alternativă cel puţin două medii din populaţie nu


sunt egale:
H1 : yi  yj, (i  j)
 Dacă rezultatul testului indică faptul că mediile sunt
semnificativ diferite, se concluzionează că factorul X are un
impact asupra variabilei Y.
 Setul de date pentru analiza dispersională unifactorială constă
în valorile variabilei Y pentru cele r grupe independente .
Analiză dispersională unifactorială
 Volumele grupelor pot fi diferite n1  n2  ...  nr
 În concluzie prin analiza ANOVA se testează dacă
diferențele dintre mediile de grupă din eșantion sunt prea
mari pentru afi atribuite doar întâmplării.

 Dacă ipoteza nulă este adevărată mediile celor r populații


ar trebui să fie, toate egale.

 Dacă ipoteza alternativă este adevărată , există diferențe


semnificative între unele medii ale eșantioanelor
Analiză dispersională unifactorială
 Presupunerile care se fac pentru aplicarea testului FISHER
în analiza dispersională unifactorială sunt:
 Cele r grupe din eșantion sunt extrase aleator și
independent din cele r grupe ale colectivității generale,
 Fiecare grupă din colectivitatea generală are o distribuție
normală , iar abaterile medii pătratice sunt egale
 1   2  ...   r
 Pentru testarea ipotezei nule vom estima mediile de grupă
și media totală din colectivitatea generală pe baza datelor
din eșantion
Analiză dispersională unifactorială

a) b)
a) medii de grupă egale; b) mediile de grupă inegale

8
Analiză dispersională unifactorială
 În concluzie, pe baza datelor din eşantion pentru testarea
ipotezei nule se determină: n i

 A. Mediile de grupă: 
j 1
yij
yi  , i  1, r
ni
 Media totală pe baza datelor eșantion:
r ni r
 y
i 1 j 1
ij  y i ni
n   ni
r

y  i 1
i 1
n n
Dispersiile de grupă : 2

  y  yi 
 r ni

ij
i 1 j 1
S i2 
ni  1
Analiză dispersională unifactorială
 B Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi
varianţa factorială, este suma pătratelor abaterilor mediilor de grupă de

 y 
r
la media generală: 2
S1  i  y ni  SSB
i 1
 Dacă y 1  y 2  ...  y r atunci: SSB= 0
 Varianţa din interiorul grupelor (varianţa reziduală), este suma
pătratelor abaterilor valorilor individuale de la mediile de grupă:

  y 
r ni r

S
2
S2  ij  yi  i
2
* ni  SSW
i 1 j 1 i 1

Variația explicată de alți factori inafara de x


 Împrăştierea totală a valorilor individuale faţă de media generală
y  y 2  SST
n
(varianţa totală): r i

S  
i 1 j 1
ij

 Sau SST = SSB + SSW.


Analiză dispersională unifactorială
 Raţionamentul analizei dispersionale se bazează pe
partiţionarea sumei pătratelor abaterilor:
SST  SSW  SSB
 Pentru a face comparabile aceste măsuri ale variabilităţii, le
vom împărți pe fiecare la gradele de libertate
 Pentru varianţa factorială S1, numărul gradelor de libertate
este r-1; măsurăm variabilitatea a r medii, se pierde un grad
de libertate, deoarece media totală a fost estimată.
 Pentru varianţa reziduală (din interiorul grupelor) S2, numărul
gradelor de libertate este n–r; măsurăm variabilitatea tuturor
celor n valori, dar pierdem r grade de libertate, deoarece au
fost estimate mediile celor r grupe.
Analiză dispersională unifactorială
 Obţinem astfel următoarele categorii de dispersii:
 dispersia factorială corectată:

 y 
r
2
i  y ni
S1 SSB
s  MSB 
2
1  i 1

r 1 r 1 r 1
 dispersia corectată reziduală:

 y 
r ni
2
ij  yi
S2 i 1 j 1 SSW
s  MSW 
2
2  
nr nr nr
Analiză dispersională unifactorială
 Statistica F pentru analiza dispersională unifactorială are forma:
s12 MSB var iabilitate a dintre grupe
Fcalc  2  
s2 MSW variabilitatea din interiorul grupelor
cu gradele de libertate (r – 1) la numărător şi (n – r) la numitor.
 Regiunea critică este dată de :
Fcalc> Ftabelar
 acest lucru indică diferenţe mai mari între mediile grupelor decât cele
datorate întâmplării; sew respinge ipoteza H0; rezultatul este
semnificativ statistic
 Daca F < Fcritic atunci nu avem destule dovezi statistice pentru a putea
respinge ipoteza nula; mediile grupelor nu sunt semnificativ diferite una
fata de alta; rezultatul nu este semnificativ statistic.
Analiză dispersională unifactorială
Calculul statisticii F
pentru analiza dispersională unifactorială
Sursa variaţiei Gradele Varianţa Dispersia corectată Statistica
Datorata de (suma pătratelor) (media pătratelor) F
libertate
0 1 2 3 4

Factorul X - r–1 S1= SSB


s12
principal de s12
grupare n–r F
S2 = SSW s22
s22
Altor factori
s2  s1  s2
2 2
(intamplatori,
aleatori)
Totală n–1 S = S 1 + S2 –

SST=SSW+SSB
Analiză dispersională unifactorială
 Dacă valoarea Fcalc este mai mică decât valoarea tabelara Ftab,
atunci :
 acceptăm ipoteza nulă, H ;
0

 nu acceptăm ipoteza alternativă H1;


 mediile grupelor nu sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor pot fi datorate doar

întâmplării;
 rezultatul nu este semnificativ statistic.

 Dacă valoarea Fcalc este mai mare decât valoarea tabelara Ftab, atunci:
 acceptăm ipoteza alternativă, H ;
1

 respingem ipoteza nulă, H0;


 mediile grupelor sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor nu sunt datorate doar
întâmplării;
 rezultatul este semnificativ statistic.
Concluzii

 modelele de analiză dispersională nu explică relaţia dintre variabile


 verifică doar măsura în care valorile reale ale unei caracteristici se
abat de la valorile teoretice, precum şi măsura în care aceste variaţii
sunt sau nu dependente de factorul/factorii de grupare.
 metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi
după aplicarea metodelor corelaţiei şi regresiei statistice.
 Testul F se poate utiliza şi pentru testarea validităţii modelului de
regresie.
 în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt
niveluri ale unei variabile categoriale (numite şi tratamente), dar,
cum ceea ce este valabil pentru o scală inferioară (nominală) este
valabil şi pentru orice altă scală superioară (ordinală, de intervale,
de rapoarte), analiza se poate extinde.
 Metoda se poate adapta prin inlocuirea mediilor de grupa cu valorile
variabilei y ,y=f(x)+alti factori

16

S-ar putea să vă placă și