Sunteți pe pagina 1din 23

CURS ECONOMETRIE

Unitatea de învăţare : 5
ANALIZA DISPERSIONALĂ - ANOVA

Cuprins:

1. Ce am învăţat în Unitatea de învăţare 4


2. Obiectivele Unităţii de învăţare 5
3. Concepte generale în analiza dispersională
4. Modele de analiza dispersională
5. Utilizarea modelelor de analiză dispersională unifactorială sub SPSS
6. Răspunsuri şi comentarii la testele de autoevaluare
7. Bibliografia Unităţii de învăţare 5
8. Lucrare de verificare

1. Ce am învăţat în Unitatea de învăţare 4

Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum redus
Ipotezele statistice: H0: (μ1- μ2) = D
- test bilateral: H1: (μ1- μ2) ≠ D
- test unilateral stânga: H1: (μ1- μ2) < D
- test unilateral dreapta: H1: (μ1- μ2) > D

Testul statistic: t
x 1

 x2  D
dacă dispersiile celor două populații sunt egale
1 1
sc2   
 n1 n2 

( x1  x2 )  D
sau t , dacă dispersiile celor două populații sunt diferite
s12 s22

n1 n2

Regiunea critică Rc:


- pentru test bilateral: t< - t α/2;df sau t > t α/2;df
- pentru test unilateral stânga: t < –tα;df
- pentru test unilateral dreapta: t > tα;df

1
Testarea ipotezei privind dispersia unei populaţii
Ipotezele statistice: H0 : 12 /  22  1

- test bilateral: H 0 :  12 /  22  1

- test unilateral stânga: H 0 :  12 /  22  1

- test unilateral dreapta: H 0 :  12 /  22  1

s12
Testul statistic: F 2
s2
Regiunea critică Rc:
- pentru test bilateral: F  F / 2,n 1,n 1 sau
1 2
F  F1 / 2,n 1,n 1
1 2

- pentru test unilateral stânga: F  F ,n 1,n 1


1 2

- pentru test unilateral dreapta: F  F1 ,n 1,n 11 2

Testarea ipotezei privind raportul dintre două dispersii.


Ipotezele statistice: H 0 :  2   02

- test bilateral: H 0 :  2   02

- test unilateral stânga: H 0 :  2   02

- test unilateral dreapta: H 0 :  2   02

(n  1) s 2
Testul statistic: 2 
2
Regiunea critică Rc:
- pentru test bilateral:  2  12 / 2,n1 sau  2  2 / 2,n1

- pentru test unilateral stânga:  2  12 ,n1

- pentru test unilateral dreapta:  2  2,n1

2. Obiectivele Unităţii de învăţare 5

După studiul acestei unităţi de învăţare vei avea cunostinţe despre:


1. Tehnici de studiere a efectului variabilei/variabilelor independente asupra celei
dependente;
2. Particularități ale aplicării ANOVA în funcție de tipul de eșantion;
3. Cum să utilizezi software-ul statistic SPSS pentru ANOVA.

2
3. Concepte generale în analiza dispersională

Analiza dispersională, cunoscută şi sub numele de analiză de varianţă (ANOVA –


Analysis Of Variance), a fost introdusă de matematicianul R.A. Fisher. Pornind de la
observaţiile acumulate pe parcursul mai multor ani de experienţe agrotehnice, acesta a
fundamentat o serie de principii şi metode de programare şi dirijare a experimentelor precum
şi de interpretare statistică a rezultatelor. Rezultatele acestei cercetării au fost sintetizate în
două lucrări de referinţă chiar şi astăzi: „Statistical Methods for Research Workers” - 1925 şi
„The Design of Experiments” – 1935.
Demersul ştiinţific al acestuia a pornit de la compararea producţiilor medii ale unor
suprafeţe de teren cultivate cu diferite soiuri de cereale sau plante tehnice. Aceste suprafeţe
erau supuse unor tratamente diferenţiate (de exemplu: adâncimea arăturii, cantitatea şi
periodicitatea irigărilor sau a îngrăşămintelor folosite).
Metodele puse la punct de Fisher s-au concretizat ulterior în modele experimentale ce
şi-au găsit utilitatea în diverse domenii ca:

☺ Exemplu
- industrie: testarea unor prototipuri sau tehnologii), comerţ (impactul unor campanii
publicitare;

- medicină:fundamentarea diagnosticului şi estimarea efectului tratamentelor aplicate;

- mediu: impactul asupra mediului a factorilor poluanţi sau al tehnologiilor de depoluare;

- agricultură: efectul diferitelor proceduri de tratare/cultivare a solurilor asupra producţiei


medii obţinute sau în procesul de obţinere a soiurilor superioare.

„În general, se consideră că experimentul este acea metodă de cercetare prin care
variaţia (modificarea) uneia sau mai multor variabile explicative (independente) este
controlată sau „manipulată” de cercetător, măsurându-se apoi efectul acesteia asupra
variabilei (variabilelor) rezultative (efect)”1.
Pornind de la această definiţie, vom căuta să explicităm termenii utilizaţi.

1
Isaic-Maniu Al., Mitruţ C., Voineagu V. , Statistica pentru managementul afacerilor,
Editura Economică 1999, pg. 214

3
Variabile rezultative. Sunt variabile dependente a căror transformare este măsurată în
cadrul experimentului. Deoarece esenţa metodei de analiză dispersională constă în
compararea mediilor, este obligatoriu ca acestea să fie variabile cantitative.
Variabile explicative. Sunt variabile independente care constituie factorii cauzali, ce
produc modificări asupra variabilei dependente explicative. Acestea pot fi:
 cantitative (temperatură, valori ale unor analize medicale obţinute din laborator,
umiditate, etc.);
 calitative (sex, mediu de provenienţă, studii, tip de sol, etc.).
Considerând experimentul ca un sistem, variabilele independente se pot clasifica
astfel:
 endogene (variabile controlate / manipulate în cadrul experimentului);
 exogene (din afara sistemului analizat, care nu sunt supuse experimentării şi a căror
influenţă poate interfera cu cea a variabilelor rezultative ducând la reducerea
performanţelor de fidelitate a modelului experimental.
În funcţie de condiţiile de desfăşurare a experimentului putem întâlni următoarele
situaţii:
 Experimentul are loc într-un sistem închis. Experimentatorul poate menţine la un
nivel constant toate variabilele exogene. O astfel de situaţie poate fi uşor reprodusă în
domeniul tehnic (fizică, chimie etc.).
 Experimentul are loc într-un sistem deschis. În cazul proceselor din sfera economică
sau socială controlul efectiv al variabilelor exogene este imposibil de realizat. În
consecinţă, în această situaţie se va efectua un control de natură statistică, prin
aplicarea unui procedeu de selecţie aleator, pentru a forma eşantioanele supuse
experimentului.
După scopul urmărit, se disting următoarele tipuri de experimente:
 Preliminare. Se urmăreşte testarea unui număr mare de factori (tratamente) pentru a
avea informaţii în vederea proiectării cercetărilor ulterioare;
 Critice. Se compară rezultatele diferitelor tratamente pentru a le putea identifica pe
cele care au o influenţă semnificativă;
 Demonstrative. Se testează unul sau mai multe tratamente în raport cu un etalon fixat
anterior.
După numărul variabilelor explicative, experimentele pot fi unifactoriale sau
multifactoriale.

4
În figura 1 este prezentată schema decizională de alegere a modelului de analiză
dispersională în funcţie de numărul variabilelor factoriale şi modul în care au fost selectate
eşantioanele.

Figura 1: Schemă decizională pentru alegerea modelului de analiză dispersională

O variabilă factorială Mai multe variabile factoriale

DA DA NU
Există
NU
covarianţă* ? Există
covarianţă* ?

Eşantioane
independente
?

DA NU

Modelul Modelul Modelul Modelul Modelul


ANCOVA One Way Repeated Factorial Factorial
ANOVA Measures ANCOVA ANOVA
ANOVA
* o variabilă nominală ce influenţează variabila dependentă
Folosind schema de mai sus, vom trata doar Modelul one Way ANOVA si Repeated
Measures ANOVA, celelalte presupunând cunoștințe avansate de statistică.

4. Modele de analiza dispersionala

A) Modele de analiză unifactorială, One-Way ANOVA


Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina două
sau mai multe eşantioane independente pentru a determina dacă mediile populaţiilor din care
provin ar putea fi egale, putându-se pune astfel în evidenţă influenţa factorului considerat sau
a tratamentului efectuat.
Practic, populaţiile se pot clasifica utilizând un singur criteriu, numit factor
(tratament) după cum se poate observa în figura nr. 2. Fiecare populaţie este determinată de
un nivel al factorului (sunt k niveluri).

5
Figura 2 :Constituirea grupelor după nivelele factorului

Populaţiile grupate după nivelul factorului


(tratamentului)
Eşantioanele selectate grupate
după nivelul factorului
Nivel 1 (tratamentului)
X 1 ,  12

x1 , S12
.................................

Nivel
k
X k ,  k2 x k , S 2k

Construim ipoteza nulă şi ipoteza alternativă:


H0: X1  X 2  ......  X i  .........  X k pentru i=1,…,k

H1: există i  j astfel încât X i  X j

Fiecare observaţie individuală, considerată ca sumă a trei componente separate, poate


fi descrisă în termenii modelului 1, schițat în cele ce urmează.
În concordanţă cu acest model, fiecare observaţie (xij) asociată tratamentului j este
suma componentelor: media populaţiei pentru toate tratamentele, efectul tratamentului j şi
eroarea de eşantionare. În acest context, ipotezele pot fi reformulate astfel:
H0: i=0 pentru orice i=1,…,k
H1: i0 pentru cel puţin unul dintre i=1,…,k.
Dacă efectul fiecărui tratament i pentru orice i=1,…,k este nul, media fiecărei
populaţii X i este egală cu media totală.

6
Model 1

Observaţia Efectul
individuală j tratamentului i
pentru
tratamentul i
Eroarea asociată
xij  X   i   ij procesului de
selecţie
Media populaţiei pentru toate
tratamentele

Utilizarea testului parametric ANOVA pleacă de la următoarele premize:


 Eşantioanele au fost selectate independent;
 Variabila independentă este calitativă;
 Dispersiile populaţiilor sunt egale (  12   22  ...   k2 );
 Reziduurile (diferenţa dintre observaţiile empirice şi cele aşteptate conform
modelului) sunt normal distribuite.
Aceste condiţii (în special cea privind egalitatea dispersiilor) sunt foarte importante.
Dacă nu sunt îndeplinite, se va utiliza testul neparametric Kruskal-Wallis pentru a compara
tendinţa centrală a două sau mai multe eşantioane independente.
În realitate, ANOVA este un procedeu robust, adică neafectat major de neîndeplinirea
unei condiţii, cu excepţia celei cu privire egalitatea dispersiilor.
Pentru efectuarea testului este necesară calcularea variaţiei pe surse de provenienţă
astfel:

Tabel nr. 1
Grade
Tipul variaţiei Variaţia Media variaţiei
libertate
Variaţia dintre grupuri determinată k
SSB   ni. xi  x 
2 SSB
de tratament (Between Group Sum df1= k-1 MSB 
of Squares ) i 1 k 1
Variaţia din interiorul grupurilor,

 2
determinată de procesul de k ni
SSE   xij  xi
SSE
eşantionare (Sums of Squared df2= n-k MSE 
Errors sau Sum of Squares Within i 1 j 1 nk
Groups )

 2
k ni
Variaţia totală SST   xij  x n-1
(Sums of Squares Total)
i 1 j 1

Variaţia dintre grupuri (SSB) reflectă variaţia dintre mediile eşantioanelor şi media
generală. Variaţia reziduală (SSE) se calculează pornind de la abaterile valorilor observate şi

7
mediile fiecărui grup. Pentru ca cele două tipuri de variaţie să fie comparabile în vederea
realizării testului statistic, este necesară corectarea acestora cu numărul corespunzător de
grade de libertate.

Testul statistic este dat de relaţia: F  MSB MSE .

Testul se realizează unilateral dreapta şi pentru un anumit nivel de siguranţă  se


respinge ipoteza nulă, dacă valoarea calculată F este mai mare decât cea teoretică,
corespunzătoare nivelului de semnificaţie ales şi numărului de grade de libertate df1 şi df2.
Ţinând cont de ipoteza egalităţii dispersiilor populaţiilor, intervalul de încredere
pentru estimarea mediilor eşantioanelor este dat de relaţia:

xi  t S p 
ni , unde Sp= MSE estimaţia abaterii standard în populaţii;

ni= numărul de elemente ce formează eşantionul i;


xi = media eşantionului j;

t= valoarea distribuţiei t corespunzătoare nivelului de semnificaţie ales şi numărului de grade


de libertate asociat variaţiei din interiorul grupurilor.
În cazul în care se compară mediile din două eşantioane testul ANOVA unifactorială
şi testul Student realizat pe baza dispersiei estimate sunt echivalente. Ambele testează ipoteza
egalităţii mediilor a două populaţii pe baza datelor din două eşantioane independente şi
pornesc de la premiza egalităţii varianţelor celor două populaţii, utilizând o estimaţie a
acesteia.

B) Modelul de analiză dispersională unifactorială realizat pe eşantioane dependente


(Repeated Measures ANOVA)

Metoda se bazează pe modelul de analiză a variaţiei cu măsurători repetate. În această


situaţie, fiecare unitate este studiată pentru fiecare tratament aplicat. Unităţile formează
blocuri şi pentru fiecare unitate dintr-un bloc se produc măsurători la aplicarea fiecărui
tratament.
Modelele cu măsurători repetate sunt frecvent utilizate în cercetarea fenomenelor
economico- sociale când se obţin informaţii repetate de la acelaşi eşantion numit panel.
Avantajele modelelor cu măsurători repetate:
 Variabilitatea inter unităţi este exclusă din variaţia reziduală, ceea ce face mai uşoară
compararea tratamentelor;
 Fiecare unitate serveşte pentru propriul control;

8
 Reducerea costurilor. Odată făcute cheltuielile necesare eşantionării acestea nu se vor
mai efectua pentru cercetările ulterioare realizate pe baza aceluiaşi eşantion.
Dezavantajele modelelor cu măsurători repetate:
 Există o perioadă de aşteptate între tratamente, care poate determina apariţia
fenomenelor:
− de acumulare (în cazul tratamentelor chimice ale solurilor în agricultură);
− de învăţare (în cercetările sociale indivizii dobândesc anumite cunoştinţe din
cercetările anterioare);
− de imunizare sau dependenţă (în medicină)
 Există riscul ca răspunsurile să nu mai fie spontane, ele devenind rezultatul unei rutine
sau fiind condiţionate de răspunsurile anterioare la întrebările similare.
Cu toate că se pot controla şi blocurile, preocuparea principală este legată de testarea
egalităţii mediilor pentru toate tratamentele (eşantioanele). În consecinţă, formularea
ipotezelor este următoarea:
H0: X1  X 2  ......  X i  .........  X k pentru i=1,…,k;

H1: există i  j astfel încât X i  X j

Datele pot fi sistematizate într-un tabel de forma următoare:

Observaţiile Tratamente (eşantioane)


Media pentru fiecare observaţie
(unităţile sau blocurile) 1 2 ……………………………..k
1 x11 x12 …………………………….x1k x 1obs
2 x21 x22 …………………………….x2k x 2obs
…. …………………………………………. …
b xb1 xb2 …………………………….xbk x bobs
Media pentru fiecare tratament x1 x 2 ……………………………. x k

Ca şi în cazul ANOVA unifactorială, fiecare observaţie individuală este considerată ca


sumă a unor componente separate ce poate fi descrisă în termenii modelului 2, mai jos schițat.

9
Model 2

Observaţia Efectul tratamentului i Efectul blocului


individuală (unităţii) j
din blocul j

xij  X   i   j   ij
pentru
tratamentul i

Media populaţiei pentru Eroarea asociată


toate tratamentele procesului de selecţie

În acest model fiecare valoare xij asociată blocului i şi tratamentului j este suma
următoarelor elemente: media populaţiei pentru toate tratamentele (eşantioanele), efectul
tratamentului j (j), efectul blocului i (i) şi eroarea de eşantionare (ij). În acest context
ipotezele pot fi reformulate astfel:
H0: i=0 pentru orice i=1,…,k
H1: i0 pentru cel puţin unul dintre i=1,…,k.
Dacă efectul fiecărui tratament i pentru orice i=1,…,k este nul, media fiecărei
populaţii X i este egală cu media totală.
În cazul acestei metode există o singură observaţie xij pentru fiecare combinaţie bloc-
tratament. Se poate considera că fiecare dintre aceste combinaţii reprezintă un eşantion format
dintr-o singură unitate.
Utilizarea metodei blocurilor randomizate pleacă de la următoarele premize:
 Variabila independentă este nominală;
 Eşantioanele sunt dependente (datele sunt culese în urma unui plan de măsurători
repetate);
 Variabila dependentă este măsurată pe scala cardinală sau proporţională;
 Pentru fiecare tratament variabila dependentă urmează o distribuţie normală sau
aproximativ normală;
 Dispersiile valorilor xij sunt egale pentru fiecare tratament j=1,…,k. Aceasta este
prezumţia de sfericitate şi este echivalenta cu cea de omogenitate a dispersiilor
pentru modelul ANOVA. Verificarea acesteia se realizează prin testul Mauchly;
 Nu există o interacţiune între blocuri şi tratamente. Conform metodei blocurilor
randomizate prezenta unei interacţiuni ar fi atunci când efectul tratamentului depinde
de blocul unde urmează să fie administrat.
Pentru efectuarea testului este necesară calcularea tipuri de variaţie prezentate în tabelul
2.

10
Tabel nr. 2

Sursa variaţiei Variaţia Grade libertate Media variaţiei

k
SSB  b xi  x 
2
Tratamentele k-1 MSB  SSB k  1
i 1

 
b
SSBl  k  x obs
2
Blocurile (unităţile) j x b-1 MSBl  SSBl b  1
j 1
Procesul de eşantionare SSE=SST-SSB-SSBl (k-1)(b-1) MSE  SSE (k - 1)(b - 1)

 2
k b
Variaţia totală SST   xij  x kb-1
i 1 j 1

MSB
Testul statistic este dat de relaţia: F 
MSE
Ca şi în cazul testului ANOVA unifactorial, MSB reprezintă variaţia dintre mediile
tratamentelor (eşantioanelor), iar MSE reprezintă variaţia din interiorul eşantioanelor. Este un
test unilateral dreapta, iar valoarea calculată se compară cu valoarea critică pentru un nivel de
semnificaţie dat () şi numărul de grade de libertate df1=k-1 şi df2=(k-1)(b-1). Dacă valoarea
calculată este mai mare decât valoarea critică, se respinge H0 şi se acceptă H1.

5. Utilizarea modelelor de analiza dispersionala unifactoriala sub SPSS

Primul pas în efectuarea unui test statistic pentru compararea mediilor a două grupuri
îl reprezintă alegerea opţiunii potrivite în funcţie de modul în care au fost selectate
eşantioanele.

A) Eşantioane independente. One-Way ANOVA


Dacă avem două sau mai multe eşantioane independente vom alege metoda adecvată
din submeniul de comparare a mediilor urmând următoarea cale: Analyze/Compare Means/
One-Way ANOVA. După selectarea testului se deschide fereastra de definire a acestuia
(figura nr. 3) care ne permite în zona Dependent List selectarea variabilei/variabilelor pentru
care se doreşte efectuarea testului.
În fereastra Factor se trece variabila în funcţie de care se formează grupurile pentru
care dorim să testăm semnificaţia diferenţelor.

11
În situaţia în care se vor trece mai multe variabile dependente se va returna pentru
fiecare din ele un tabel cu rezultatele aplicării testului ANOVA. Fiecare variabilă din listă
trebuie să fie măsurată pe scala de interval sau proporţională, trebuie să urmeze o repartiţie
normală sau aproximativ normală. Condiţia de normalitate a distribuţiei este foarte
important să fie respectată doar in cazul eşantioanelor de volum redus.
Înainte de efectuarea testului este obligatorie verificarea respectării prezumţiei
egalităţii varianţelor. Prin activarea butonului de comandă Options se deschide fereastra One-
Way ANOVA Options (figura 3) de unde putem activa efectuarea testării omogenităţii
varianţelor.
Figura 3: Fereastra de definire a testului One-Way ANOVA

Exemplu
: s-a selectat dintr-o bază de date variabila dependentă „nota
acordată utilităţii practice a cursurilor” şi variabila factorială „Facultatea”.
Prin butonul OK se comandă procesarea testului, obţinându-se output-urile din
tabelele 3 (rezultatele efectuării testului Levene pentru verificarea omogenităţii varianţelor) şi
4 (rezultatele testului de analiză dispersională unifactorială ANOVA).

Tabel nr. 3
Test of Homogeneity of Variances

Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor

Levene
Statistic df1 df2 Sig.
3,260 9 663 0,054

Interpretarea output-ului din tabelul 3:

12
Levene Test. Valoarea calculată a statisticii testului.
df1 Numărul de grade de libertate k-1 unde k este numărul de grupe după variabila
factor.
df2 Numărul de grade de libertate n-k unde n este numărul de unităţi observate.
Sig. Nivelul de semnificaţie. Dacă valoarea acestuia este mai mare de 0,05 se poate
accepta ipoteza egalităţii varianţelor.
În exemplul considerat se poate afirma că dispersiile grupelor sunt egale, deoarece
nivelul de semnificaţie  este 0,054.
Prezumţia de homoscedasticitate fiind respectată se poate efectua testul ANOVA.
Homoscedasticitate (Homoscedasticity)
Ipotezele acestuia sunt: La date bivariate, variabila y prezintă homoscedasticitate dacă
împrăştierea valorilor y nu depinde de x. Grafic, secţiunile
H0: X 1  X 2  ......  X j  .........  X k verticale în diagrama de împrăştiere prezintă distribuţii similare
ale norilor de puncte. Noţiunea contrară este cea de
heteroscedasticitate.
pentru i=1,…,k
H1: există i  j astfel încât X i  X j .

Rezultatele sunt prezentate în tabelul 4. Primele coloane indică tipul variaţiei, variaţia,
numărul de grade de libertate şi media variaţiei, conform relaţiilor de calcul prezentate în
tabelul nr. 1. În plus, SPSS-ul returnează şi valoarea calculată a raportului F (conform relaţiei
MSB
F ). Un nivel de semnificaţie  <0,05 duce la respingerea ipotezei nule.
MSE

Tabel nr.4

ANOVA

Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor desfasurate de-a


lungul facultatii in formarea profesionala
Sum of Mean
Squares df Square F Sig.
Between Groups 732,377 9 81,375 19,391 ,000
Within Groups 2782,276 663 4,196
Total 3514,654 672

În situaţia în care prezumţia de homoscedasticitate nu este îndeplinită, rezultatele


testului ANOVA sunt neconcludente. Pentru a nu recurge la teste neparametrice se apelează la
corecţia Welch, selectând această opţiune din fereastra de definire a testului. În urma aplicării
acestei corecţii (tabelul 5) se obţine valoarea calculată a statisticii testului, după care, se
compară valoarea teoretică a distribuţiei F pentru numărul corectat al gradelor de libertate. Şi
în acest caz, dacă nivelul de semnificaţie  este mai mic decât 0,05 se respinge ipoteza
egalităţii mediilor.

13
Tabel nr. 5

Robust Tests of Equality of Means

cuantificarea cu o nota dela 1 la 10 a utilitatii practice


a
Statistic df1 df2 Sig.
Welch 8,123 9 266,523 ,000
a. Asymptotically F distributed.

Chiar dacă în urma aplicării se respinge ipoteza egalităţii mediilor este posibil să
existe subseturi pentru care diferenţele dintre medii să nu fie semnificative. Pentru a verifica
această ipoteză, din fereastra de definire a testului (figura 3) se activează meniul Post Hoc. În
figura nr. 4 este prezentată fereastra din care se pot selecta testele pe care dorim să le utilizăm
în vederea realizării comparaţiilor multiple.

Figura 4. Alegerea testului pentru efectuarea comparaţiilor multiple

În urma efectuării testului Tukey’s s-au format 4 subseturi omogene (grupe după
variabila factorială pentru care este acceptată ipoteza egalităţii mediilor) prezentate în tabelul
6.

Tabel nr.6

14
Cuantifi cati cu o nota de la 1 la 10 uti litate a cursurilor desfasurate de-a l ungul
facultati i in forma rea profesional a
a,b
Tuk ey B
Subset for alpha = .05
Fac ultatea N 1 2 3 4
Fac ultate 1 68 4,94
Fac ultate 2 67 5,18
Fac ultate 3 67 5,87 5,87
Fac ultate 4 65 6,38 6,38
Fac ultate 5 67 6,40 6,40
Fac ultate 6 67 6,72 6,72
Fac ultate 7 62 7,08
Fac ultate 8 70 7,09
Fac ultate 9 70 8,11
Fac ultate 10 70 8,19
B) Repeated
Means Measures
for groups ANOVA s ubsets are displayed.
in homogeneous
Eşantioanedependente.

Pentru
a. Us a efectua
es Harmonic Mean o ANOVA
Sample Size =pentru
67, 214. observaţii repetate este necesar ca în momentul
b.
definiriiThe group sizes are unequal. The harmonic mean of the group s izes is used.
variabilelor din baza de date să se constituie câte o variabilă
Type I error levels are not guaranteed.
pentru fiecare set de
observaţii.
Exemplificarea utilizării SPSS-ului pentru o astfel de analiză este făcută pe un set de
date preluate dintr-un studiu ce a avut ca scop evidenţierea efectelor tratamentului prin
angioplastie asupra unui lot de 57 pacienţi. Variabila analizată este fracţia de ejecţie definită
ca un parametru obiectiv care cuantifică funcţia de pompă a inimii, valorile de referinţă fiind:
normal >55%, disfuncţie uşoară 45 –54%, disfuncţie moderată 30-44 %, disfuncţie severă <30
%. Valorile acesteia au fost înregistrate pentru cei 57 de pacienţi la trei momente de timp
(înainte de efectuarea tratamentului, la controlul de la 3 luni şi respectiv 6 luni). Înregistrările
pentru fiecare moment se vor constitui într-o variabilă din baza de date.
Pentru efectuarea analizei urmăm calea: Analyze/General Linear Model/ Repeated
Measures (se obţine fereastra dialog din figura nr. 5). Ipotezele de lucru sunt:
H0: X 1  X 2  ......  X j  .........  X k pentru j=1,…,k;

H1: există i  j astfel încât X i  X j

Definirea modelului de analiză se face în două etape:

Figura 5 Fereastra dialog -ANOVA Repeated Measures

15
Figura 6 Fereastra de definirea -ANOVA Repeated Measures

Etapa 1. Spre deosebire de modelul de analiză ANOVA One Way, variabila factorială
nu se regăseşte printre variabile din baza de date. Din acest motiv, în prima etapa se va realiza
această definire. În exemplul considerat dorim să surprindem modificările intervenite în
valorile înregistrate pentru “Fracţia de ejecţie”. În câmpul Within Subject Factor Name
trecem numele variabilei prin care dorim să realizăm acest lucru (ev_fe evoluţie fracţie de
ejecţie). Number of level se referă la momentele de observare (în cazul nostru 3: iniţial, la 3
luni şi la 6 luni de la tratament). După stabilirea acestora (nume şi nivele de observaţie)
variabila factorială poate fi adăugata în listă prin butonul Add. În acest moment devine activ
butonul Define. Prin click pe acesta se deschide fereastra de definire a modelului (figura 6) şi
se trece în etapa a doua.

Etapa 2.

16
Din lista variabilelor cuprinse în baza de date se selectează cele care conţin înregistrate
observaţiile pentru momentele definite în etapa 1. Atenţie! Numărul de variabile trebuie sa fie
egal cu numărul de niveluri definit în etapa anterioară! Prin click pe butonul OK se comandă
procesarea modelului care va avea drept rezultat outputurile din tabelele 7 şi 8.

Tabelul 7
Ma uchly's Te st of Sphericity

Measure: MEASURE_1

Eps ilon
Approx. Greenhous
Wit hin Subject s Effect Mauchly 's W Chi-Square df Sig. e-Geisser Huy nh-Feldt Lower-bound
ev_fe ,352 95, 820 2 ,020 ,772 ,776 ,700

Înainte de a interpreta rezultatele trebuie să se verifice dacă este îndeplinită prezumţia


de sfericitate. În tabelul 7 sunt prezentate rezultatele testului Mauchly.
Dacă nivelul de semnificaţie asociat acestuia este mai mare decât 0,05 atunci condiţia
de sfericitate este îndeplinită şi se poate trece mai departe la interpretarea rezultatelor
modelului analizând informaţiile afişate în outputul din tabelul 8 pe prima linie.
În situaţia în care această prezumţie nu este respectată există riscul creşterii
probabilităţii de apariţie a erorilor de tipul I, deoarece valoarea calculată a testului F este prea
mică. Altfel spus, valoarea calculată a testului F este deplasată. Există următoarele metode de
corecţie a acestei deplasări: Lower bound, Haynh-Feldt şi Greenhouse-Geisser. Principiul pe
care se bazează acestea este utilizarea unui F critic mai mare, astfel încât, probabilitatea de
apariţie a erorilor de tip I să se diminueze. Practic, fiecare metodă recalculează gradele de
libertate pornind de la o valoare specifică fiecăreia .
Dintre cele trei metode, statisticienii, consideră corecţia Greenhouse-Geisser ca fiind
cea mai bună.
În funcţie de valoarea ˆ calculată conform acestei metode se apreciază severitatea
nonsfericităţii. Se aplică următoarea regulă2:
 ˆ  0,9 . Prezumţia de sfericitate este îndeplinită. Nu este necesară aplicarea
corecţiei. Numărul de grade de libertate se vor calcula ca df1=k-1 şi df2=(k-1)(b-1)
(vezi tabelul teoretic 2).
 0,9  ˆ  0,7 . Prezumţia de sfericitate nu este satisfăcută. Se aplică corecţia
Greenhouse-Geisser.

2
A. Karpinski, http://astro.temple.edu/~andykarp/psych522524/10_Repeated1.pdf, pg. 28

17
df1= ˆa  1 şi df2= ˆa  1n  1 , unde a este numărul de momente de observare,
iar n numărul de observaţii.
  0,7  ˆ . Violarea prezumţiei de sfericitate este severă. În acest caz corecţia nu
este posibilă. Se recomandă utilizarea testelor neparametrice.

În exemplul considerat, ipoteza de sfericitate nu este îndeplinită. Deoarece


0,9  ˆ  0,7 putem aplica corecţia Greenhouse-Geisser. Pentru a interpreta rezultatele
ANOVA Repeated Measures din tabelul 8 se vor interpreta datele de pe linia corecţie
Greenhouse-Geisser. Se observă că numărul de grade de libertate este diferit faţă de situaţia în
care ar fi fost îndeplinită condiţia de sfericitate.

Tabel nr. 8
Tests of Withi n-Subjects Effe cts

Measure: MEA SURE_1


Type III S um Mean
Source of S quares df Square F Sig.
ev_fe Sphericit y Ass umed 3505,40 2,00 1752,70 81, 34 ,00
Greenhouse-Geisser 3505,40 1,14 3063,82 81, 34 ,00
Huy nh-Feldt 3505,40 1,15 3041,85 81, 34 ,00
Lower-bound 3505,40 1,00 3505,40 81, 34 ,00
Error(ev_fe) Sphericit y Ass umed 2413,26 112,00 21, 55
Greenhouse-Geisser 2413,26 64, 07 37, 67
Huy nh-Feldt 2413,26 64, 53 37, 40
Lower-bound 2413,26 56, 00 43, 09

Valoarea calculată a testului este F=81,34. Aceasta se va compara cu cea teoretică


corespunzătoare nivelului de semnificaţie ales (de obicei =0,05) şi df1=1,14 iar df2=64,07.
Valoarea teoretică va putea fi preluată fie din tabele anexă (în această situaţie este necesară
rotunjirea numărului gradelor de libertate), fie utilizând funcţia statistică EXCEL:
FINV(,df1,df2). Utilizând a doua metodă s-a obţinut valoarea critică FC=3,95. Valoarea
calculată este mai mare decât cea teoretică, ceea ce duce la respingerea ipotezei egalităţii
mediilor. În tabelul 8 nivelul de semnificaţie afişat asociat aplicării testului cu corecţia
Greenhouse-Geisser este 0,00. Se poate respinge ipoteza nulă cu o probabilitate mult mai
mare, aproape de 100%.
Concluzie: Respingerea ipotezei nule arată că, în urma aplicării tratamentului au
apărut modificări ale fracţiei de ejecţie în timp!
Exemplu

În rândul elevilor de liceu din capitală s-a realizat un sondaj pe un eşantion de 570
persoane. În urma centralizării datelor s-a obţinut repartiţia bidimensională prezentată în
tabelul de mai jos. Aplicând tehnica de analiză dispersională ANOVA să se pună în evidenţă
influenţa variabilei factoriale “Clasa” asupra 18
variabilei “nr. ore petrecute la calculator”.

Tabel de prezentare a informatiei


Calculăm tipurile de variaţie.
k
SSB   ni. xi  x  =170,78+10,11+247,95,0,11=428,98
2

i 1

19
 
k ni
SSW   x j  xi 2 nij =266,67+469,33+357,14+360=1453,14
i 1 j 1

df1=4-1=3

df2=570-4=566
428,98 3
F  MSSB = =55,57
MSSW 1453,14 566
F  0,05; df 1 3; df 2  566 =2,62

Deoarece valoarea calculată a testului este mai mare decât cea teoretică se respinge ipoteza
egalităţii mediilor.

Test de autoevaluare 1
Un grup de medici dorește să testeze care din următoarele analgezice determină un nivel
al durerii mai mic la pacienții selecționati. Pentru aceasta, au obținut următoarele date
astfel sistematizate:
Nivelul durerii
Analgezic Scorurri
Diclofenac 0, 35, 31, 29, 20, 7, 43, 16
Ibuprofen 30, 40, 27, 25, 39, 15, 30, 45
Paracetamol 16, 33, 25, 32, 21, 54, 57, 19
Asprina 55, 58, 56, 57, 53, 59, 55
Îi puteți ajuta să identifice ce analgezic este mai bun?

6. Răspunsuri şi comentarii la testele de autoevaluare

Test de autoevaluare 1

Pentru a răspunde la intrebare, utilizăm one-way ANOVA. Pentru asta încărcăm datele,
folosind 1 pentru diclofenac, 2 pentru ibuprofen, 3 pentru paracetamol si 4 pentru aspirina.
Utilizăm: Analyze: Compare Means: One-Way ANOVA ca în Figura 3.
Se obține următorul output:

Test of Homogeneity of Variances

20
Nivel_durere

Levene Statistic df1 df2 Sig.

4.837 3 28 .008

Nivelul de semnificație pentru omogenitatea dispersiilor este<0,05, așadar dispesiile


grupurilor diferă semnificativ.

ANOVA

Nivel_durere

Sum of Squares df Mean Square F Sig.

Between Groups 4956.375 3 1652.125 11.967 .000

Within Groups 3865.500 28 138.054

Total 8821.875 31

Acesta este principalul rezultat al ANOVA. Nivelul de semnificație este<0,05, așadar


am putea respinge ipoteza nulă (nu există diferență între scorurile medii ale durerii pentru cele
patru analgezice). Totuși, dispersiile fiind semnificativ diferite, acesta ar putea fi un răspuns
eronat. Pentru edificare se folosesc statisticile Welch si Brown-Forsythe.

Robust Tests of Equality of Means

Nivel_durere

Statistica df1 df2 Sig.

Welch 32.064 3 12.171 .000

Brown-Forsythe 11.967 3 18.889 .000

a. Asymptotically F distributed.

Cum nivelul de semnificație al acestora < 0.05, putem respinge ipoteza nulă, totuși nu
putem spune care analgezic face diferența.
Așadar, avem nevoie și de rezultatele testului Post Hoc.

Post Hoc Tests

Multiple Comparisons

Dependent Variable:Nivel_durere

(I) (J) 95% Confidence Interval


Medica Medica Mean Difference
ment ment (I-J) Std. Error Sig. Lower Bound Upper Bound

Tukey HSD 1 2 -8.750 5.875 .457 -24.79 7.29

21
3 -9.500 5.875 .386 -25.54 6.54

4 -33.500* 5.875 .000 -49.54 -17.46

2 1 8.750 5.875 .457 -7.29 24.79

3 -.750 5.875 .999 -16.79 15.29

4 -24.750* 5.875 .001 -40.79 -8.71

3 1 9.500 5.875 .386 -6.54 25.54

2 .750 5.875 .999 -15.29 16.79

4 -24.000* 5.875 .002 -40.04 -7.96

4 1 33.500* 5.875 .000 17.46 49.54

2 24.750* 5.875 .001 8.71 40.79

3 24.000* 5.875 .002 7.96 40.04

Games-Howell 1 2 -8.750 6.176 .513 -27.05 9.55

3 -9.500 7.548 .602 -31.45 12.45

4 -33.500* 5.194 .001 -50.55 -16.45

2 1 8.750 6.176 .513 -9.55 27.05

3 -.750 6.485 .999 -20.09 18.59

4 -24.750* 3.471 .001 -36.03 -13.47

3 1 9.500 7.548 .602 -12.45 31.45

2 .750 6.485 .999 -18.59 20.09

4
-24.000* 5.558 .014 -42.26 -5.74

4 1 33.500* 5.194 .001 16.45 50.55

2 24.750* 3.471 .001 13.47 36.03

3 24.000* 5.558 .014 5.74 42.26

*. The mean difference is significant at the 0.05 level.

Numai rezultatele testului Games-Howell pot fi considerate, intrucat testul Tuckey presupune
omogenitata dispersiei, ceea ce nu este cazul.
SPSS marcheaza cu asterix care diferente sunt semnificative.
Concluzia: analgezicul 4 – aspirina - produce rezultate semnificativ diferite față
de celelate 3 analgezice!
Așadar, există o diferență semnificativă între nivelul durerii la aspirină și
celelalte trei analgezice testate, F(3, 28)=11,97, p<0,05!

22
7. Bibliografia Unităţii de învăţare 5

 I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru


afaceri, Ed. ASE, 2007
 V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc, D.Pele – Teorie şi
practică econometricăm Ed; Meteor Press, 2007
 T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

8. Lucrare de verificare

1. Când se recomandă utilizarea ANOVA?


2. Care sunt tipurile de varianță utilizate în ANOVA și ce reprezintă ele?
3. Ce sunt dispersiile corectate?
4. Cum se stabilește regiunea critică pentru testul F?

23

S-ar putea să vă placă și