Sunteți pe pagina 1din 69

Analiza varianţei

ANOVA
conf. dr. Paul Teodor Hărăguș
paul.haragus@ubbcluj.ro
ANOVA (analiza varianței)

Vom porni de la un exerciţiu clasic (testarea diferențelor dintre medii).


Exercițiul: numărul de copii (în SUA) diferă în funcţie de rasă.

Îi aducem o modificare: în loc de cele 2 rase (albi și negri) vom lua în


considerare şi a treia variantă (other).
Ce metodă vom folosi pentru a afla dacă numărul mediu de copii diferă
semnificativ în funcţie de rasă?
O primă soluţie ar fi să folosim testul t (testul Student) în trei paşi succesivi (vom
vedea dacă diferenţa numărului mediu de copii între „albi” şi „negri”, „negri” şi
„ceilalţi”, „ceilalţi” şi „negri” este semnificativă).
Testul t ne spune că noi vom testa probabilitatea unei valori t pentru
un anumit număr de grade de libertate şi o valoare
predeterminată α (nivelul de semnificaţie).
În mod tradiţional valoarea t are asociată o probabilitate de 0.05 sau
mai mică. Astfel, noi vom respinge ipoteza nulă şi vom afirma că
diferenţa între cele două medii semnificativă (acceptăm că putem
greşi în 5 sau mai puţine cazuri din 100).
Ce se întâmplă dacă noi vom folosi testul t de trei ori, şi fiecare din
rezultate ne va spune că diferenţa este semnificativă pentru p 
0.05? (Obs.: pentru exemplul dat acest lucru nu se întâmplă!)

H0: mA=mB=mC

Daca am folosi testul t am avea de testat 3 ipoteze nule:


H0 mA=mB
H0 mA=mC
H0 mB=mC
Șansa de a respinge în mod greșit ipoteza nulă (erori de tipul I) este 5
din 100 sau mai mică? Răspunsul este: din contră, această şansă
crește!
Cu cât mărim numărul de teste (t) cu atât mărim riscul de a face erori
de gradul I (respingerea greşită a ipotezei nule).
În statistică această problemă se numeşte creşterea lui alpha (the
inflation of alpha).
Formula după care se calculează această eroare este:
E(I)=1- (1- α)c

• unde E(I) este probabilitatea de a face erori de tipul I, α este nivelul


de semnificaţie, iar c este numărul de comparări ce l-am făcut.

Pentru problema noastră α este 0,05 iar c = 3 de unde rezultă că


eroarea E(I) este egală cu 0.1426, adică 14 din 100 => în nici un
caz nu vom folosi testul t pentru a testa dacă diferența între mediile
a 3 sau mai multe grupuri este semnificativă statistic.
Dacă avem doar 2 comparații: (A-B; B-C) atunci E(I) ajunge
la aproape 10%, iar pentru 6 comparații E(I) se apropie de
50%.

Pentru astfel de probleme există diferite metode de analiză,


printre care și ANOVA.
ANOVA se concentrează pe analiza semnificației diferențelor între mediile
grupurilor unui eșantion (testul F). Răspunsul la această problemă depinde de
mai mulți factori:

1. diferența de mărime a mediilor grupurilor (variabilitatea lor).


2. mărimea fiecărui grup: cu cât grupurile conțin mai mulți indivizi, cu atât șansa
ca o diferență (chiar mică între medii) să fie semnificativă crește.
3. varianța variabilei dependente în fiecare grup – diferențele dintre mediile
grupurilor au o semnificație statistică mai ridicată atunci când diferențele din
interiorul grupurilor sunt mai mici (populația din interiorul grupurilor este mai
omogenă).
Analiza varianței (ANOVA)
• Analiza varianţei (ANOVA, de la ANalysis Of VAriance) determină dacă
diferenţele între medii sunt semnificative şi în acelaşi timp previne
creşterea lui α.
• ANOVA este folosită pentru a descoperi efectele principale şi efectele de
interacţiune ale unei variabile categoriale (denumită factor) asupra unei
variabile dependente de tip (cel puţin) interval.
• După cum îi spune şi numele, ANOVA are în centrul ei analiza varianţei
(unul din indicatorii variabilităţii), şi se reduce practic la a folosi un
indicator statistic cunoscut în acest moment: suma pătratelor abaterilor
(cunoscut din calculul abaterii standard).
Tipuri de analize asemănătoare:

• MANOVA (MULTIVARIATE ANALISYS OF VARIANCE)


• ANCOVA (ANALISYS OF COVARIANCE)
• MANCOVA (MULTIVARIATE ANALISYS OF
COVARIANCE)
• GLM (General Linear Model ANOVA FACTORIAL)
Să luăm un exemplu: avem trei sub-eşantioane diferite de indivizi: A, B, C,
indivizii din aceste grupuri având diferite vârste.
Ne interesează dacă media vârstelor pentru fiecare grup este diferită semnificativ,
statistic, de exemplu pentru p  0.05.
Vom raţiona construind ipoteza nulă (asemănător modului în care s-a făcut în
capitolul dedicat testului t): între mediile grupurilor nu există diferenţe
semnificative.
H0: mA=mB=mC
Dacă ipoteza nulă este respinsă atunci vom concluziona că cel puţin una din
medii este diferită de celelalte.

Atragem atenţia că folosind doar ANOVA nu vom descoperi şi care sunt


acestea. (suplimentar va trebui să facem alte teste – e.g. comparări post-hoc)
Grupuri: A B C
Vârstele indivizilor: 16 20 18
15 19 19
17 21 18
15 16 23
20 18 18
Total indivizi (k) 5 5 5
Suma vârstelor în grup 83 94 96
Media vârstelor în grupuri 16,6 18,8 19,2

Media totală 18,2


Pentru a merge mai departe trebuie să ne aducem aminte de
formulele abaterii standard – din care reţinem doar
numitorul.

Astfel Suma Pătratelor abaterilor totale (notat de acum cu


SPtotal) este:

SPtotal = (X – mediatotală)2.
Acest indicator, SPtotal este egal cu suma dintre Suma Pătratelor din
interiorul grupurilor (SPdin), adică suma pătratelor abaterii valorilor în
jurul mediei propriului grup (numit Mean Square Error) şi Suma
Pătratelor dintre grupuri (SPdintre) adică suma pătratelor abaterilor
medii ale grupurilor în jurul mediei grupului mare.

• SPdin = Σ(X - mediagrup)2 iar

• SPdintre = Σ kgrup(mediagrup – mediatotală)2

unde X sunt valorile variabilei iar k este frecvenţa indivizilor din


interiorul fiecărui grup.
Pentru exemplul nostru vom avea:

X-mediaA X- mediaB X- mediaC


-0,6 1,2 -1,2
-1,6 0,2 -0,2
0,4 2,2 -1,2
-1,6 -2,8 3,8
3,4 -0,8 -1,2
Unde mediaA reprezintă media grupului A, etc. ridicând la pătrat valorile obţinem:

(X-mediaA)2 (X- mediaB)2 (X- mediaC)2

0,36 1,44 1,44


2,56 0,04 0,04
0,16 4,84 1,44
2,56 7,84 14,44
11,56 0,64 1,44
Suma
pătratelor
(din) = 17,2 14,8 18,8
Astfel vom avea:

SPdin = 17,2 + 14,8 + 18,8 = 50,8

iar din tabelul 1 înlocuim valorile în formula SPdintre şi vom


avea:

SPdintre = 5*(16,6-18,2)2 + 5*(18,8-18,2)2 + 5*(19,2-18,2)2 =


19,6

iar SPtotal = SPdin + SPdintre = 50,8 + 19,6 = 70,4.


• Analiza varianţei compară variaţia dintre grupuri cu variaţia din interiorul
grupurilor. Dacă variaţia din interiorul grupurilor este mult mai mare decât variaţia
dintre grupuri atunci diferenţa aparentă dintre grupuri poate fi cauzată de
către variaţia din interiorul grupurilor şi nu există suficiente motive pentru a
afirma că diferenţele dintre grupuri sunt semnificative.

• Dar cele două sume ale pătratelor abaterilor nu sunt direct comparabile,
deoarece SPdin se calculează pe N cazuri şi k medii ale grupurilor (în exemplul
nostru doar 15 cazuri şi 3 medii ale grupurilor)
• în cazul eşantioanelor mari putem avea mii de indivizi) iar SPdintre este calculat
doar prin k grupuri, aşa că pentru a putea compara cele două sume ale pătratelor
mai trebuie să facem anumite operaţii asupra lor: le vom diviza pe fiecare cu
gradele de libertate (df) asociate, în modul următor: pe SPdintre cu k-1, pe SPdin cu
N – k iar pe SPtotal cu N – 1. Pentru exemplul nostru:
Suma pătratelor df Media pătratelor

SPdintre 19,6 2 9,8


(k-1)
SPdin 50,8 12 4,2333
(N-k)
SPtotal 70,4 14 5,0285
(N-1)
După ce avem calculate noile valori ale Sumelor Pătratelor (coloana a
4-a din tabel) vom calcula valoarea F:

F = (media SPdintre) / (media SPdin)

Pentru exemplul nostru valoarea F este egală cu 2,315 – mai mică


decât valoarea ce corespunde unui prag de semnificaţie de 0,05.
În acest caz nu vom putea respinge ipoteza nulă („diferenţele între
medii nu sunt semnificative”) şi vom concluziona că în cazul celor 3
grupuri nu există diferenţe semnificative statistic.
Folosirea SPSS în analiza ANOVA.

Sintaxa:
ONEWAY
educ BY wrkstat
/STATISTICS DESCRIPTIVES EFFECTS HOMOGENEITY BROWNFORSYTHE WELCH
/MISSING ANALYSIS
/POSTHOC = BTUKEY ALPHA(.05).

Pentru a exemplifica folosirea analizei ANOVA în programul SPSS vom deschide


fişierul „GSS93subset.sav”.

H: Ne interesează dacă media numărului de ani de şcoală (variabila educ: „Highest


Year of School Completed”) diferă semnificativ în funcţie de statutul ocupaţional
(variabila wrkstat: „Labor Force Status”).
H0: Nu există diferențe semnificative între media anilor de şcoală ai indivizilor cu
diferite statute ocupaționale
Vom alege procedura SPSS din opţiunea Analyze – Compare
Means – One way ANOVA. Variabila dependentă este
educaţia (educ) iar variabila independentă, factorul, este
wrkstat.
La Options vom bifa căsuţa Descriptives pentru a vedea
principalii indicatori descriptivi ai variabilei educaţie pe
subgrupuri, în funcţie de statutul ocupaţional: frecvenţa
indivizilor, media, abaterea standard, eroarea standard,
minimul şi maximul, intervalul de încredere pentru medie
(vezi tabelul următor).
Std.
Std. Erro 95% Confidence
N Mean Deviation r Interval for Mean Minim Maxim
Descriptives
Highest Year of
School Completed Lower Upper
Bound Bound
Working fulltime 747 14,04 2,701 ,099 13,84 14,23 0 20
Working parttime 160 12,98 2,928 ,231 12,52 13,44 2 19
Temp not working 32 13,41 2,138 ,378 12,64 14,18 9 17
Unempl, laid off 50 11,94 2,402 ,340 11,26 12,62 8 18
Retired 231 11,44 3,598 ,237 10,98 11,91 0 20
School 42 14,07 2,473 ,382 13,30 14,84 10 20
Keeping house 200 11,60 2,566 ,181 11,24 11,96 4 20
Other 34 10,62 3,035 ,521 9,56 11,68 4 16
Total
1496 13,04 3,074 ,079 12,88 13,19 0 20
ANOVA
Highest Year of School Completed

Sum of
Squares df Mean Square F Sig.
Between
Groups 2057,695 7 293,956

Within 36,239 ,000


Groups 12070,209 1488 8,112

Total 14127,904 1495


• În prima coloană sunt afişaţi, în ordine: SP dintre, SPdin şi SPtotal iar în
coloana a doua valorile ce le corespund.
• A treia coloană conţine gradele de libertate asociate (df) cu care
valorile din coloana a doua vor fi divizate.
• Rezultatul acestor operaţii îl vom vedea în coloana a patra, cu care în
cele din urmă va fi calculat indicatorul F: 36,239 ce este semnificativ
pentru p < 0.001.
• Putem astfel să respingem ipoteza nulă şi să concluzionăm că mediile
anilor de studiu sunt diferite în funcţie de statutul ocupaţional al
persoanei.
Folosirea PSPP în analiza ANOVA.

ONEWAY
ONEWAY /VARIABLES= educ BY wrkstat /STATISTICS=DESCRIPTIVES HOMOGENEITY .
Descriptives
of Homogeneity of Variances
ANOVA
N Mean Std. Deviation Std. Error Lower Upper Bound Minimum Maximum
Bound
Working fulltime 747 14.04 2.70 .10 13.84 14.23 0 20
Working parttime 160 12.98 2.93 .23 12.52 13.44 2 19
Temp not working 32 13.41 2.14 .38 12.64 14.18 9 17
Unempl, laid off 50 11.94 2.40 .34 11.26 12.62 8 18
Highest Year of School

Retired 231 11.44 3.60 .24 10.98 11.91 0 20


School 42 14.07 2.47 .38 13.30 14.84 10 20
Keeping house 200 11.60 2.57 .18 11.24 11.96 4 20
Levene Statistic df1 df2 Sig.
Completed

Other
Highest 34 10.62
Year of School Completed 3.04 .52 5.10 9.56 711.68 1488 4 .000 16
Total 1496 13.04 3.07 .08 12.88 13.19 0 20

Sum of Squares df Mean Square F Sig.


Highest Year of Between Groups 2057.69 7 293.96 36.24 .000
School Completed Within Groups 12070.21 1488 8.11
Total 14127.90 1495
Folosirea JASP în analiza ANOVA.
“Comparări neplanificate”
• Aceste operațiuni (comparări) au loc după ce datele au fost analizate.
• Nu sunt precizate la începutul unei cercetări.
• Sunt de preferat testelor t multiple, care ar duce la inflaţia lui alpha.

• Ce ştim până acum: am respins H0: există diferenţe între medii.

DAR:
?? Între care medii??
Comparări Post Hoc. Găsirea seturilor omogene

• ANOVA ne arată că între cele 8 medii ale grupurilor pe care le avem


există diferenţe semnificative dar nu ne poate spune şi care sunt
acele medii şi grupurile ce le corespund. Pentru a rezolva această
problemă, SPSS-ul pune la dispoziţia cercetătorului 14 teste diferite.
• Ne vom opri atenţia asupra unui singur test, Tukey pe care îl vom
găsi în căsuţa de dialog a ANOVA la Post Hoc ... (Post Hoc Multiple
Comparison).
• Pentru exemplul nostru, dacă bifăm şi în dreptul opţiunii Tukey, în
output-ul SPSS vom primi următorul rezultat (aici putem alege
nivelul de semnificaţie pe care îl dorim, în mod tradiţional acesta
este 0.05):
Highest Year of School Completed Tukey HSD (în SPSS)

Subset for alpha = .05

Labor Force Status N 1 2 3 4


Other 34 10,62
Retired 231 11,44
Keeping house 200 11,60 11,60
Unempl, laid off 50 11,94 11,94 11,94
Working parttime 160 12,98 12,98 12,98
Temp not working 32 13,41 13,41
Working fulltime 747 14,04
School 42 14,07
Sig. ,134 ,100 ,063 ,354

a Uses Harmonic Mean Sample Size = 65,904.


b The group sizes are unequal. The harmonic mean of the group sizes is used.
Type I error levels are not guaranteed.
Comparări Post
Hoc. Găsirea
seturilor
omogene

În PSPP 1.4:
În JASP 0.14
Cum interpretăm tabelul?
• Metoda Tukey HSD (Tukey’s honest significant difference test)
aşează în prima coloană grupurile în ordine crescătoare, coloana a
doua conţine frecvenţele din interiorul fiecărui grup iar următoarele
coloane valorile mediilor.
• Numărul acestor coloane ce apar în tabel (în cazul de faţă patru)
ne arată că metoda Tukey a identificat 4 grupuri mari omogene ce
conţin diferitele statute ocupaţionale.
• Dacă modificăm pe alpha (gradul de semnificaţie) şi alegem valori
mai mici, de exemplu 0.001, numărul grupurilor se reduce la 3.
• Observăm că aceleaşi statute se regăsesc în două grupuri diferite:
putem afirma despre acestea că sunt tranzitorii, fac trecerea de la
un grup la altul.
• De exemplu, grupul 4 (cu valorile cele mai mari ale anilor de
educaţie) este format din cei ce studiază;

• Bănuim că în marea majoritate aceştia sunt tineri – şi astfel putem


observa efectul altei variabile, vârsta, pentru că cei în vârstă se
regăsesc în grupul de pensionari, cu mai puţini ani de educaţie (aici
putem vorbi despre efect de cohortă, de generaţie: cu timpul, anii de
educaţie obligatorii sau medii cresc în societăţile dezvoltate).
• Celor care sunt în școală li se alătură în acest grup cei ce muncesc – aici
trebuie să atragem atenția că la Descriptives putem vedea că minimul de ani de
educație pentru aceștia este 0, așa că trebuie să avem grijă când afirmăm că „în
SUA, statutul de angajat presupune mulți ani de educație” pentru că afirmația nu
este adevărată: există diferite tipuri de locuri de muncă, atât cele ce necesită
specializare și mulți ani de educaţie cât şi foarte multe locuri de muncă
necalificate (low-value added jobs).
• Următorul grup, cel al persoanelor care temporar nu muncesc („Temp not
working”) este un grup tranzitoriu și poate fi inclus în grupul 4 sau grupul 3 (de
preferat să îl considerăm în grupul 4, explicația o vom vedea mai jos, în Grafic,
când vom aplica un Boxplot pentru variabilele noastre).
Asumpţiile ANOVA

• ANOVA este un test parametric, aşa că trebuie folosită doar când:

1. scorurile fiecărui eşantion sunt extrase dintr-o populaţie cu o


distribuție normală a variabilei dependente.
2. eşantioanele au varianţă egală
3. avem variabile de nivel interval.

Atunci când variabila dependentă este de tip ordinal (scale Likert etc.)
se folosesc teste non-parametrice, de tip Kruskal-Wallace.
Omogenitatea varianței.

• Variabila dependentă trebuie să aibă aceeaşi varianţă în fiecare dintre categoriile


variabilei independente.
• Totuşi, ANOVA este o metodă robustă care rămâne valabilă chiar şi atunci când
această cerinţă este încălcată.
• Putem folosi ANOVA atunci când diferenţele între valorile varianţei (cea mai mică
şi cea mai mare valoare a varianţelor din grupurile noastre) nu depăşeşte
raportul 1:4. Încălcarea acestor reguli poate face ca indicatorul F să fii supra sau
sub-estimat.
• Pentru a testa omogenitatea varianţei se poate folosi Testul Levene
(căsuţa de dialog ANOVA – Options – Homogeneity of variance
test).
• Testul Levene este calculat de SPSS pentru a verifica asumpţia că
fiecare grup (categorie) are aceeaşi varianţă.
• Dacă testul Levene este semnificativ (cel puţin) pentru nivelul 0.05,
cercetătorul respinge ipoteza nulă care afirmă că grupurile au
varianţa egală.
• Pentru exemplul nostru, Output-ul afişează următorul tabel:
Test of Homogeneity of Variances
Highest Year of School Completed

Levene
Statistic df1 df2 Sig.

5,105 7 1488 ,000

Vedem că testul Levene este semnificativ pentru p<0,001 deci va trebui să


respingem ipoteza nulă şi să afirmăm că varianţele nu sunt egale.
În această situaţie trebuie să folosim alte teste pe care le avem la dispoziţie.
• Când asumpția varianţelor egale este încălcată, putem folosi testul
Brown-Forsythe (mult mai robust decât ANOVA) şi care trebuie folosit
când grupurile sunt inegale (aşa cum este cazul nostru, după cum se
observă din tabelul Descriptives). Acest test nu face asumpţii asupra
egalităţii varianţelor.

• Un alt test ce poate fi folosit este testul Welch, mai ales atunci când
varianțele şi mărimea grupurilor sunt inegale. Atât Welch cât şi Brown-
Forsythe se pot alege din căsuța de dialog Options în SPSS.
• Mai jos avem tabelul pe care îl afișează programul în Output atunci când
alegem aceste teste.
• Observăm că nivelul de semnificație extrem de mare (p < 0.001) rămâne
neschimbat, așadar concluzia noastră („există diferențe semnificative
între mediile subgrupurilor”) rămâne valabilă.
Robust Tests of Equality of Means
Highest Year of School Completed

Statisti
c df1 df2 Sig.
Welch
34,809 7 185,624 ,000
Brown-Forsythe
38,857 7 494,582 ,000
• Distribuţia variabilei dependente trebuie să fie normală în fiecare categorie
a variabilei independente. Totuşi, ANOVA este considerată robustă chiar şi
dacă această cerinţă este încălcată.
• Putem testa asumpţia de normalitate folosindu-ne de opţiunea Boxplot din
SPSS, ce produce un grafic în care variabila dependentă apare pe axa Y
grupată în k grupe.
Comanda Boxplot:
EXAMINE
VARIABLES=educ BY wrkstat
/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL
/MISSING=REPORT.
948 174
20
930
1.198 1.500
922 199

Highest Year of School Completed


15

10

725 1.426
766 466
708
38 25 625
5
1.082
472
689 1.336
626 651
406 702
0

Working Working Temp not Unempl, Retired School Keeping Other


fulltime parttime working laid off house
Labor Force Status
În JASP 0.14
Interpretarea Boxplot:

• Dreptunghiurile ne arată împrăştierea valorilor în fiecare grupă:


linia de sus ne arată unde vine percentila 75%, linia de jos ne
arată unde vine percentila 25%, iar linia mai groasă ne arată
unde se aşează mediana (percentila 50%).
• Dacă marea parte a dreptunghiului este aşezată deasupra sau
dedesubtul medianei atunci avem de-a face cu o distribuţie
alungită şi nu cu una normală.
• Pentru exemplul nostru avem graficul de mai sus, ce ne ajută şi
să grupăm categoriile omogene (metoda Tukey).
Interpretarea Boxplot:
Boxplot pentru o distributie normala
Comparând distribuții:
Situație ipotetică 1:
Situație ipotetică 2:
Rezumat

Metoda este similară testului t: testează dacă diferențele între


mediile unor grupuri sunt semnificative.

Restricția care se aplică testului t – de a folosi doar 2 grupuri – nu


se aplică și în cazul ANOVA.

Condiții: grupurile trebuie să fie independente unele de celelalte


(independent t test)

Pentru un design cu măsurari repetate (design ) trebuie folosit GLM


(General Linear Model).
Rezumat

Întrebarea de cercetare
Cercetătorul este interesant de întrebarea: există diferențe
între nivelul de educație al persoanelor cu statul
ocupațional diferit?
Ipoteza nulă
În ANOVA ipoteza nula testată prezice că mediile variabilei
dependente (anii de educație), calculate pentru fiecare
categorie dată de variabila independentă (statut
ocupațional) nu sunt diferite semnificativ.

Adică media1=media2=media3=... =mediak


Rezumat
Metoda este o metodă de analiză a varianței ce există între grupuri.
Totuși, varianța dintre grupuri poate fi înțeleasă doar dacă ne raportăm
și la varianța din interiorul grupurilor.

Această metodă calculează un indicator, denumit F

(varianța dintre grupuri)


F= (varianța din interiorul grupurilor)

Legătura între testul t și testul F


Testul t este o formă specială a testului F:
F = (t)2
Temă
În programul SPSS deschideţi fişierul GSS93subset.sav. Efectuaţi o ANOVA în care
variabila dependentă să fie sibs („Number of Brothers and Sisters”) iar factorul să
fie marital („Statutul marital”). Pentru teste PostHoc alegeti metoda Tukey pentru
aflarea grupurilor omogene, verificaţi asumpţia de omogenitate şi interpretaţi
rezultatul.

Cerințe:
1. Formulați ipoteza de cercetare și ipoteza nulă. Stabiliți care este variabila
dependentă și care este variabila independentă.
2. Descrieți distribuția variabilei dependente în fiecare categorie.
3. Contruiți un grafic Boxplot și studiați dacă deviază de la asumpția de normalitate.
Există cazuri de “outliers” sau de valori extreme?
4. Faceți o analiză ANOVA și intepretați următoarele rezultate: F, pragul de
semnificație, SS (sum of squares), df, mean square.
5. Asumptia de omogenitate a variantei este indeplinita?
6. Contruiți un test Tukey. Câte grupuri pot fi identificate?
7. Concluzia finală: se susține ipoteza de cercetare?
8. De ce? Explicați în termeni sociologici concluziile voastre.
În programul SPSS deschideţi fişierul world95.sav. Baza de date conţine informaţii (date
statistice) referitoare la 109 ţări din lume, cu date din jurul anului 1990. Conform UNDP
nutriţia (calories) (văzută ca şi numărul mediu de calorii consumate zilnic) este un
indicator care indică nivelul de sănătate.
Ne interesează dacă consumul zilnic de calorii este influenţat de regiunea economică şi/sau
geografică (Region). Un indicator care surprinde aceste aspecte este Region (OECD,
Africa, Europa de Est etc.). Folosindu-vă de ANOVA studiaţi această problemă. Verificaţi
asumpţia de omogenitate a varianţelor, şi interpretaţi rezultatul.

Cerințe:
1. Formulați ipoteza de cercetare și ipoteza nulă. Stabiliți care este variabila dependentă și
care este variabila independentă.
2. Descrieți distribuția variabilei dependente în fiecare categorie (regiune).
3. Contruiți un grafic Boxplot și studiați dacă variabila dependentă deviază de la asumpția de
normalitate. Există cazuri de “outliers” sau de valori extreme? Care sunt acestea?
4. Faceți o analiză ANOVA și intepretați rezultatele din tabel: valoarea coeficientului F, pragul
de semnificație, suma pătratelor dintre mediile grupurilor, suma pătratelor din interiorul
grupurilor, suma pătratelor totale SS (sum of squares), gradele de libertate (df).
5. Contruiți un test Tukey’s. Câte grupuri pot fi identificate? Cum interpretaţi situaţia.
6. Concluzia finală: se susține ipoteza de cercetare?
7. De ce? Explicați în termeni sociologici concluziile voastre.
Bibliografie

• Rotariu, Traian, Bădescu Gabriel, Culic, Irina, Mezei,


Elemer şi Mureşan, Cornelia (1999). Metode statistice
aplicate în ştiinţele sociale. Iași: Polirom.
• Kerr, AW., Hall, HK., Kozub, SA. (2002). Doing statistics
with SPSS. London: Sage.

S-ar putea să vă placă și