Documente Academic
Documente Profesional
Documente Cultură
ANOVA
conf. dr. Paul Teodor Hărăguș
paul.haragus@ubbcluj.ro
ANOVA (analiza varianței)
H0: mA=mB=mC
SPtotal = (X – mediatotală)2.
Acest indicator, SPtotal este egal cu suma dintre Suma Pătratelor din
interiorul grupurilor (SPdin), adică suma pătratelor abaterii valorilor în
jurul mediei propriului grup (numit Mean Square Error) şi Suma
Pătratelor dintre grupuri (SPdintre) adică suma pătratelor abaterilor
medii ale grupurilor în jurul mediei grupului mare.
• Dar cele două sume ale pătratelor abaterilor nu sunt direct comparabile,
deoarece SPdin se calculează pe N cazuri şi k medii ale grupurilor (în exemplul
nostru doar 15 cazuri şi 3 medii ale grupurilor)
• în cazul eşantioanelor mari putem avea mii de indivizi) iar SPdintre este calculat
doar prin k grupuri, aşa că pentru a putea compara cele două sume ale pătratelor
mai trebuie să facem anumite operaţii asupra lor: le vom diviza pe fiecare cu
gradele de libertate (df) asociate, în modul următor: pe SPdintre cu k-1, pe SPdin cu
N – k iar pe SPtotal cu N – 1. Pentru exemplul nostru:
Suma pătratelor df Media pătratelor
Sintaxa:
ONEWAY
educ BY wrkstat
/STATISTICS DESCRIPTIVES EFFECTS HOMOGENEITY BROWNFORSYTHE WELCH
/MISSING ANALYSIS
/POSTHOC = BTUKEY ALPHA(.05).
Sum of
Squares df Mean Square F Sig.
Between
Groups 2057,695 7 293,956
ONEWAY
ONEWAY /VARIABLES= educ BY wrkstat /STATISTICS=DESCRIPTIVES HOMOGENEITY .
Descriptives
of Homogeneity of Variances
ANOVA
N Mean Std. Deviation Std. Error Lower Upper Bound Minimum Maximum
Bound
Working fulltime 747 14.04 2.70 .10 13.84 14.23 0 20
Working parttime 160 12.98 2.93 .23 12.52 13.44 2 19
Temp not working 32 13.41 2.14 .38 12.64 14.18 9 17
Unempl, laid off 50 11.94 2.40 .34 11.26 12.62 8 18
Highest Year of School
Other
Highest 34 10.62
Year of School Completed 3.04 .52 5.10 9.56 711.68 1488 4 .000 16
Total 1496 13.04 3.07 .08 12.88 13.19 0 20
DAR:
?? Între care medii??
Comparări Post Hoc. Găsirea seturilor omogene
În PSPP 1.4:
În JASP 0.14
Cum interpretăm tabelul?
• Metoda Tukey HSD (Tukey’s honest significant difference test)
aşează în prima coloană grupurile în ordine crescătoare, coloana a
doua conţine frecvenţele din interiorul fiecărui grup iar următoarele
coloane valorile mediilor.
• Numărul acestor coloane ce apar în tabel (în cazul de faţă patru)
ne arată că metoda Tukey a identificat 4 grupuri mari omogene ce
conţin diferitele statute ocupaţionale.
• Dacă modificăm pe alpha (gradul de semnificaţie) şi alegem valori
mai mici, de exemplu 0.001, numărul grupurilor se reduce la 3.
• Observăm că aceleaşi statute se regăsesc în două grupuri diferite:
putem afirma despre acestea că sunt tranzitorii, fac trecerea de la
un grup la altul.
• De exemplu, grupul 4 (cu valorile cele mai mari ale anilor de
educaţie) este format din cei ce studiază;
Atunci când variabila dependentă este de tip ordinal (scale Likert etc.)
se folosesc teste non-parametrice, de tip Kruskal-Wallace.
Omogenitatea varianței.
Levene
Statistic df1 df2 Sig.
• Un alt test ce poate fi folosit este testul Welch, mai ales atunci când
varianțele şi mărimea grupurilor sunt inegale. Atât Welch cât şi Brown-
Forsythe se pot alege din căsuța de dialog Options în SPSS.
• Mai jos avem tabelul pe care îl afișează programul în Output atunci când
alegem aceste teste.
• Observăm că nivelul de semnificație extrem de mare (p < 0.001) rămâne
neschimbat, așadar concluzia noastră („există diferențe semnificative
între mediile subgrupurilor”) rămâne valabilă.
Robust Tests of Equality of Means
Highest Year of School Completed
Statisti
c df1 df2 Sig.
Welch
34,809 7 185,624 ,000
Brown-Forsythe
38,857 7 494,582 ,000
• Distribuţia variabilei dependente trebuie să fie normală în fiecare categorie
a variabilei independente. Totuşi, ANOVA este considerată robustă chiar şi
dacă această cerinţă este încălcată.
• Putem testa asumpţia de normalitate folosindu-ne de opţiunea Boxplot din
SPSS, ce produce un grafic în care variabila dependentă apare pe axa Y
grupată în k grupe.
Comanda Boxplot:
EXAMINE
VARIABLES=educ BY wrkstat
/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL
/MISSING=REPORT.
948 174
20
930
1.198 1.500
922 199
10
725 1.426
766 466
708
38 25 625
5
1.082
472
689 1.336
626 651
406 702
0
Întrebarea de cercetare
Cercetătorul este interesant de întrebarea: există diferențe
între nivelul de educație al persoanelor cu statul
ocupațional diferit?
Ipoteza nulă
În ANOVA ipoteza nula testată prezice că mediile variabilei
dependente (anii de educație), calculate pentru fiecare
categorie dată de variabila independentă (statut
ocupațional) nu sunt diferite semnificativ.
Cerințe:
1. Formulați ipoteza de cercetare și ipoteza nulă. Stabiliți care este variabila
dependentă și care este variabila independentă.
2. Descrieți distribuția variabilei dependente în fiecare categorie.
3. Contruiți un grafic Boxplot și studiați dacă deviază de la asumpția de normalitate.
Există cazuri de “outliers” sau de valori extreme?
4. Faceți o analiză ANOVA și intepretați următoarele rezultate: F, pragul de
semnificație, SS (sum of squares), df, mean square.
5. Asumptia de omogenitate a variantei este indeplinita?
6. Contruiți un test Tukey. Câte grupuri pot fi identificate?
7. Concluzia finală: se susține ipoteza de cercetare?
8. De ce? Explicați în termeni sociologici concluziile voastre.
În programul SPSS deschideţi fişierul world95.sav. Baza de date conţine informaţii (date
statistice) referitoare la 109 ţări din lume, cu date din jurul anului 1990. Conform UNDP
nutriţia (calories) (văzută ca şi numărul mediu de calorii consumate zilnic) este un
indicator care indică nivelul de sănătate.
Ne interesează dacă consumul zilnic de calorii este influenţat de regiunea economică şi/sau
geografică (Region). Un indicator care surprinde aceste aspecte este Region (OECD,
Africa, Europa de Est etc.). Folosindu-vă de ANOVA studiaţi această problemă. Verificaţi
asumpţia de omogenitate a varianţelor, şi interpretaţi rezultatul.
Cerințe:
1. Formulați ipoteza de cercetare și ipoteza nulă. Stabiliți care este variabila dependentă și
care este variabila independentă.
2. Descrieți distribuția variabilei dependente în fiecare categorie (regiune).
3. Contruiți un grafic Boxplot și studiați dacă variabila dependentă deviază de la asumpția de
normalitate. Există cazuri de “outliers” sau de valori extreme? Care sunt acestea?
4. Faceți o analiză ANOVA și intepretați rezultatele din tabel: valoarea coeficientului F, pragul
de semnificație, suma pătratelor dintre mediile grupurilor, suma pătratelor din interiorul
grupurilor, suma pătratelor totale SS (sum of squares), gradele de libertate (df).
5. Contruiți un test Tukey’s. Câte grupuri pot fi identificate? Cum interpretaţi situaţia.
6. Concluzia finală: se susține ipoteza de cercetare?
7. De ce? Explicați în termeni sociologici concluziile voastre.
Bibliografie