Documente Academic
Documente Profesional
Documente Cultură
Unitatea de învăţare : 5
ANALIZA DISPERSIONALĂ - ANOVA
Cuprins:
Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum redus
Ipotezele statistice: H0: (μ1- μ2) = D
- test bilateral: H1: (μ1- μ2) ≠ D
- test unilateral stânga: H1: (μ1- μ2) < D
- test unilateral dreapta: H1: (μ1- μ2) > D
Testul statistic: t
x 1
x2 D
dacă dispersiile celor două populații sunt egale
1 1
sc2
n1 n2
( x1 x2 ) D
sau t , dacă dispersiile celor două populații sunt diferite
s12 s22
n1 n2
1
Testarea ipotezei privind dispersia unei populaţii
Ipotezele statistice: H0 : 12 / 22 1
- test bilateral: H 0 : 12 / 22 1
s12
Testul statistic: F 2
s2
Regiunea critică Rc:
- pentru test bilateral: F F / 2,n 1,n 1 sau
1 2
F F1 / 2,n 1,n 1
1 2
- test bilateral: H 0 : 2 02
(n 1) s 2
Testul statistic: 2
2
Regiunea critică Rc:
- pentru test bilateral: 2 12 / 2,n1 sau 2 2 / 2,n1
2
3. Concepte generale în analiza dispersională
☺ Exemplu
- industrie: testarea unor prototipuri sau tehnologii), comerţ (impactul unor campanii
publicitare;
„În general, se consideră că experimentul este acea metodă de cercetare prin care
variaţia (modificarea) uneia sau mai multor variabile explicative (independente) este
controlată sau „manipulată” de cercetător, măsurându-se apoi efectul acesteia asupra
variabilei (variabilelor) rezultative (efect)”1.
Pornind de la această definiţie, vom căuta să explicităm termenii utilizaţi.
1
Isaic-Maniu Al., Mitruţ C., Voineagu V. , Statistica pentru managementul afacerilor,
Editura Economică 1999, pg. 214
3
Variabile rezultative. Sunt variabile dependente a căror transformare este măsurată în
cadrul experimentului. Deoarece esenţa metodei de analiză dispersională constă în
compararea mediilor, este obligatoriu ca acestea să fie variabile cantitative.
Variabile explicative. Sunt variabile independente care constituie factorii cauzali, ce
produc modificări asupra variabilei dependente explicative. Acestea pot fi:
cantitative (temperatură, valori ale unor analize medicale obţinute din laborator,
umiditate, etc.);
calitative (sex, mediu de provenienţă, studii, tip de sol, etc.).
Considerând experimentul ca un sistem, variabilele independente se pot clasifica
astfel:
endogene (variabile controlate / manipulate în cadrul experimentului);
exogene (din afara sistemului analizat, care nu sunt supuse experimentării şi a căror
influenţă poate interfera cu cea a variabilelor rezultative ducând la reducerea
performanţelor de fidelitate a modelului experimental.
În funcţie de condiţiile de desfăşurare a experimentului putem întâlni următoarele
situaţii:
Experimentul are loc într-un sistem închis. Experimentatorul poate menţine la un
nivel constant toate variabilele exogene. O astfel de situaţie poate fi uşor reprodusă în
domeniul tehnic (fizică, chimie etc.).
Experimentul are loc într-un sistem deschis. În cazul proceselor din sfera economică
sau socială controlul efectiv al variabilelor exogene este imposibil de realizat. În
consecinţă, în această situaţie se va efectua un control de natură statistică, prin
aplicarea unui procedeu de selecţie aleator, pentru a forma eşantioanele supuse
experimentului.
După scopul urmărit, se disting următoarele tipuri de experimente:
Preliminare. Se urmăreşte testarea unui număr mare de factori (tratamente) pentru a
avea informaţii în vederea proiectării cercetărilor ulterioare;
Critice. Se compară rezultatele diferitelor tratamente pentru a le putea identifica pe
cele care au o influenţă semnificativă;
Demonstrative. Se testează unul sau mai multe tratamente în raport cu un etalon fixat
anterior.
După numărul variabilelor explicative, experimentele pot fi unifactoriale sau
multifactoriale.
4
În figura 1 este prezentată schema decizională de alegere a modelului de analiză
dispersională în funcţie de numărul variabilelor factoriale şi modul în care au fost selectate
eşantioanele.
DA DA NU
Există
NU
covarianţă* ? Există
covarianţă* ?
Eşantioane
independente
?
DA NU
5
Figura 2 :Constituirea grupelor după nivelele factorului
x1 , S12
.................................
Nivel
k
X k , k2 x k , S 2k
6
Model 1
Observaţia Efectul
individuală j tratamentului i
pentru
tratamentul i
Eroarea asociată
xij X i ij procesului de
selecţie
Media populaţiei pentru toate
tratamentele
Tabel nr. 1
Grade
Tipul variaţiei Variaţia Media variaţiei
libertate
Variaţia dintre grupuri determinată k
SSB ni. xi x
2 SSB
de tratament (Between Group Sum df1= k-1 MSB
of Squares ) i 1 k 1
Variaţia din interiorul grupurilor,
2
determinată de procesul de k ni
SSE xij xi
SSE
eşantionare (Sums of Squared df2= n-k MSE
Errors sau Sum of Squares Within i 1 j 1 nk
Groups )
2
k ni
Variaţia totală SST xij x n-1
(Sums of Squares Total)
i 1 j 1
Variaţia dintre grupuri (SSB) reflectă variaţia dintre mediile eşantioanelor şi media
generală. Variaţia reziduală (SSE) se calculează pornind de la abaterile valorilor observate şi
7
mediile fiecărui grup. Pentru ca cele două tipuri de variaţie să fie comparabile în vederea
realizării testului statistic, este necesară corectarea acestora cu numărul corespunzător de
grade de libertate.
8
Reducerea costurilor. Odată făcute cheltuielile necesare eşantionării acestea nu se vor
mai efectua pentru cercetările ulterioare realizate pe baza aceluiaşi eşantion.
Dezavantajele modelelor cu măsurători repetate:
Există o perioadă de aşteptate între tratamente, care poate determina apariţia
fenomenelor:
− de acumulare (în cazul tratamentelor chimice ale solurilor în agricultură);
− de învăţare (în cercetările sociale indivizii dobândesc anumite cunoştinţe din
cercetările anterioare);
− de imunizare sau dependenţă (în medicină)
Există riscul ca răspunsurile să nu mai fie spontane, ele devenind rezultatul unei rutine
sau fiind condiţionate de răspunsurile anterioare la întrebările similare.
Cu toate că se pot controla şi blocurile, preocuparea principală este legată de testarea
egalităţii mediilor pentru toate tratamentele (eşantioanele). În consecinţă, formularea
ipotezelor este următoarea:
H0: X1 X 2 ...... X i ......... X k pentru i=1,…,k;
9
Model 2
xij X i j ij
pentru
tratamentul i
În acest model fiecare valoare xij asociată blocului i şi tratamentului j este suma
următoarelor elemente: media populaţiei pentru toate tratamentele (eşantioanele), efectul
tratamentului j (j), efectul blocului i (i) şi eroarea de eşantionare (ij). În acest context
ipotezele pot fi reformulate astfel:
H0: i=0 pentru orice i=1,…,k
H1: i0 pentru cel puţin unul dintre i=1,…,k.
Dacă efectul fiecărui tratament i pentru orice i=1,…,k este nul, media fiecărei
populaţii X i este egală cu media totală.
În cazul acestei metode există o singură observaţie xij pentru fiecare combinaţie bloc-
tratament. Se poate considera că fiecare dintre aceste combinaţii reprezintă un eşantion format
dintr-o singură unitate.
Utilizarea metodei blocurilor randomizate pleacă de la următoarele premize:
Variabila independentă este nominală;
Eşantioanele sunt dependente (datele sunt culese în urma unui plan de măsurători
repetate);
Variabila dependentă este măsurată pe scala cardinală sau proporţională;
Pentru fiecare tratament variabila dependentă urmează o distribuţie normală sau
aproximativ normală;
Dispersiile valorilor xij sunt egale pentru fiecare tratament j=1,…,k. Aceasta este
prezumţia de sfericitate şi este echivalenta cu cea de omogenitate a dispersiilor
pentru modelul ANOVA. Verificarea acesteia se realizează prin testul Mauchly;
Nu există o interacţiune între blocuri şi tratamente. Conform metodei blocurilor
randomizate prezenta unei interacţiuni ar fi atunci când efectul tratamentului depinde
de blocul unde urmează să fie administrat.
Pentru efectuarea testului este necesară calcularea tipuri de variaţie prezentate în tabelul
2.
10
Tabel nr. 2
k
SSB b xi x
2
Tratamentele k-1 MSB SSB k 1
i 1
b
SSBl k x obs
2
Blocurile (unităţile) j x b-1 MSBl SSBl b 1
j 1
Procesul de eşantionare SSE=SST-SSB-SSBl (k-1)(b-1) MSE SSE (k - 1)(b - 1)
2
k b
Variaţia totală SST xij x kb-1
i 1 j 1
MSB
Testul statistic este dat de relaţia: F
MSE
Ca şi în cazul testului ANOVA unifactorial, MSB reprezintă variaţia dintre mediile
tratamentelor (eşantioanelor), iar MSE reprezintă variaţia din interiorul eşantioanelor. Este un
test unilateral dreapta, iar valoarea calculată se compară cu valoarea critică pentru un nivel de
semnificaţie dat () şi numărul de grade de libertate df1=k-1 şi df2=(k-1)(b-1). Dacă valoarea
calculată este mai mare decât valoarea critică, se respinge H0 şi se acceptă H1.
Primul pas în efectuarea unui test statistic pentru compararea mediilor a două grupuri
îl reprezintă alegerea opţiunii potrivite în funcţie de modul în care au fost selectate
eşantioanele.
11
În situaţia în care se vor trece mai multe variabile dependente se va returna pentru
fiecare din ele un tabel cu rezultatele aplicării testului ANOVA. Fiecare variabilă din listă
trebuie să fie măsurată pe scala de interval sau proporţională, trebuie să urmeze o repartiţie
normală sau aproximativ normală. Condiţia de normalitate a distribuţiei este foarte
important să fie respectată doar in cazul eşantioanelor de volum redus.
Înainte de efectuarea testului este obligatorie verificarea respectării prezumţiei
egalităţii varianţelor. Prin activarea butonului de comandă Options se deschide fereastra One-
Way ANOVA Options (figura 3) de unde putem activa efectuarea testării omogenităţii
varianţelor.
Figura 3: Fereastra de definire a testului One-Way ANOVA
Exemplu
: s-a selectat dintr-o bază de date variabila dependentă „nota
acordată utilităţii practice a cursurilor” şi variabila factorială „Facultatea”.
Prin butonul OK se comandă procesarea testului, obţinându-se output-urile din
tabelele 3 (rezultatele efectuării testului Levene pentru verificarea omogenităţii varianţelor) şi
4 (rezultatele testului de analiză dispersională unifactorială ANOVA).
Tabel nr. 3
Test of Homogeneity of Variances
Levene
Statistic df1 df2 Sig.
3,260 9 663 0,054
12
Levene Test. Valoarea calculată a statisticii testului.
df1 Numărul de grade de libertate k-1 unde k este numărul de grupe după variabila
factor.
df2 Numărul de grade de libertate n-k unde n este numărul de unităţi observate.
Sig. Nivelul de semnificaţie. Dacă valoarea acestuia este mai mare de 0,05 se poate
accepta ipoteza egalităţii varianţelor.
În exemplul considerat se poate afirma că dispersiile grupelor sunt egale, deoarece
nivelul de semnificaţie este 0,054.
Prezumţia de homoscedasticitate fiind respectată se poate efectua testul ANOVA.
Homoscedasticitate (Homoscedasticity)
Ipotezele acestuia sunt: La date bivariate, variabila y prezintă homoscedasticitate dacă
împrăştierea valorilor y nu depinde de x. Grafic, secţiunile
H0: X 1 X 2 ...... X j ......... X k verticale în diagrama de împrăştiere prezintă distribuţii similare
ale norilor de puncte. Noţiunea contrară este cea de
heteroscedasticitate.
pentru i=1,…,k
H1: există i j astfel încât X i X j .
Rezultatele sunt prezentate în tabelul 4. Primele coloane indică tipul variaţiei, variaţia,
numărul de grade de libertate şi media variaţiei, conform relaţiilor de calcul prezentate în
tabelul nr. 1. În plus, SPSS-ul returnează şi valoarea calculată a raportului F (conform relaţiei
MSB
F ). Un nivel de semnificaţie <0,05 duce la respingerea ipotezei nule.
MSE
Tabel nr.4
ANOVA
13
Tabel nr. 5
Chiar dacă în urma aplicării se respinge ipoteza egalităţii mediilor este posibil să
existe subseturi pentru care diferenţele dintre medii să nu fie semnificative. Pentru a verifica
această ipoteză, din fereastra de definire a testului (figura 3) se activează meniul Post Hoc. În
figura nr. 4 este prezentată fereastra din care se pot selecta testele pe care dorim să le utilizăm
în vederea realizării comparaţiilor multiple.
În urma efectuării testului Tukey’s s-au format 4 subseturi omogene (grupe după
variabila factorială pentru care este acceptată ipoteza egalităţii mediilor) prezentate în tabelul
6.
Tabel nr.6
14
Cuantifi cati cu o nota de la 1 la 10 uti litate a cursurilor desfasurate de-a l ungul
facultati i in forma rea profesional a
a,b
Tuk ey B
Subset for alpha = .05
Fac ultatea N 1 2 3 4
Fac ultate 1 68 4,94
Fac ultate 2 67 5,18
Fac ultate 3 67 5,87 5,87
Fac ultate 4 65 6,38 6,38
Fac ultate 5 67 6,40 6,40
Fac ultate 6 67 6,72 6,72
Fac ultate 7 62 7,08
Fac ultate 8 70 7,09
Fac ultate 9 70 8,11
Fac ultate 10 70 8,19
B) Repeated
Means Measures
for groups ANOVA s ubsets are displayed.
in homogeneous
Eşantioanedependente.
Pentru
a. Us a efectua
es Harmonic Mean o ANOVA
Sample Size =pentru
67, 214. observaţii repetate este necesar ca în momentul
b.
definiriiThe group sizes are unequal. The harmonic mean of the group s izes is used.
variabilelor din baza de date să se constituie câte o variabilă
Type I error levels are not guaranteed.
pentru fiecare set de
observaţii.
Exemplificarea utilizării SPSS-ului pentru o astfel de analiză este făcută pe un set de
date preluate dintr-un studiu ce a avut ca scop evidenţierea efectelor tratamentului prin
angioplastie asupra unui lot de 57 pacienţi. Variabila analizată este fracţia de ejecţie definită
ca un parametru obiectiv care cuantifică funcţia de pompă a inimii, valorile de referinţă fiind:
normal >55%, disfuncţie uşoară 45 –54%, disfuncţie moderată 30-44 %, disfuncţie severă <30
%. Valorile acesteia au fost înregistrate pentru cei 57 de pacienţi la trei momente de timp
(înainte de efectuarea tratamentului, la controlul de la 3 luni şi respectiv 6 luni). Înregistrările
pentru fiecare moment se vor constitui într-o variabilă din baza de date.
Pentru efectuarea analizei urmăm calea: Analyze/General Linear Model/ Repeated
Measures (se obţine fereastra dialog din figura nr. 5). Ipotezele de lucru sunt:
H0: X 1 X 2 ...... X j ......... X k pentru j=1,…,k;
15
Figura 6 Fereastra de definirea -ANOVA Repeated Measures
Etapa 1. Spre deosebire de modelul de analiză ANOVA One Way, variabila factorială
nu se regăseşte printre variabile din baza de date. Din acest motiv, în prima etapa se va realiza
această definire. În exemplul considerat dorim să surprindem modificările intervenite în
valorile înregistrate pentru “Fracţia de ejecţie”. În câmpul Within Subject Factor Name
trecem numele variabilei prin care dorim să realizăm acest lucru (ev_fe evoluţie fracţie de
ejecţie). Number of level se referă la momentele de observare (în cazul nostru 3: iniţial, la 3
luni şi la 6 luni de la tratament). După stabilirea acestora (nume şi nivele de observaţie)
variabila factorială poate fi adăugata în listă prin butonul Add. În acest moment devine activ
butonul Define. Prin click pe acesta se deschide fereastra de definire a modelului (figura 6) şi
se trece în etapa a doua.
Etapa 2.
16
Din lista variabilelor cuprinse în baza de date se selectează cele care conţin înregistrate
observaţiile pentru momentele definite în etapa 1. Atenţie! Numărul de variabile trebuie sa fie
egal cu numărul de niveluri definit în etapa anterioară! Prin click pe butonul OK se comandă
procesarea modelului care va avea drept rezultat outputurile din tabelele 7 şi 8.
Tabelul 7
Ma uchly's Te st of Sphericity
Measure: MEASURE_1
Eps ilon
Approx. Greenhous
Wit hin Subject s Effect Mauchly 's W Chi-Square df Sig. e-Geisser Huy nh-Feldt Lower-bound
ev_fe ,352 95, 820 2 ,020 ,772 ,776 ,700
2
A. Karpinski, http://astro.temple.edu/~andykarp/psych522524/10_Repeated1.pdf, pg. 28
17
df1= ˆa 1 şi df2= ˆa 1n 1 , unde a este numărul de momente de observare,
iar n numărul de observaţii.
0,7 ˆ . Violarea prezumţiei de sfericitate este severă. În acest caz corecţia nu
este posibilă. Se recomandă utilizarea testelor neparametrice.
Tabel nr. 8
Tests of Withi n-Subjects Effe cts
În rândul elevilor de liceu din capitală s-a realizat un sondaj pe un eşantion de 570
persoane. În urma centralizării datelor s-a obţinut repartiţia bidimensională prezentată în
tabelul de mai jos. Aplicând tehnica de analiză dispersională ANOVA să se pună în evidenţă
influenţa variabilei factoriale “Clasa” asupra 18
variabilei “nr. ore petrecute la calculator”.
i 1
19
k ni
SSW x j xi 2 nij =266,67+469,33+357,14+360=1453,14
i 1 j 1
df1=4-1=3
df2=570-4=566
428,98 3
F MSSB = =55,57
MSSW 1453,14 566
F 0,05; df 1 3; df 2 566 =2,62
Deoarece valoarea calculată a testului este mai mare decât cea teoretică se respinge ipoteza
egalităţii mediilor.
Test de autoevaluare 1
Un grup de medici dorește să testeze care din următoarele analgezice determină un nivel
al durerii mai mic la pacienții selecționati. Pentru aceasta, au obținut următoarele date
astfel sistematizate:
Nivelul durerii
Analgezic Scorurri
Diclofenac 0, 35, 31, 29, 20, 7, 43, 16
Ibuprofen 30, 40, 27, 25, 39, 15, 30, 45
Paracetamol 16, 33, 25, 32, 21, 54, 57, 19
Asprina 55, 58, 56, 57, 53, 59, 55
Îi puteți ajuta să identifice ce analgezic este mai bun?
Test de autoevaluare 1
Pentru a răspunde la intrebare, utilizăm one-way ANOVA. Pentru asta încărcăm datele,
folosind 1 pentru diclofenac, 2 pentru ibuprofen, 3 pentru paracetamol si 4 pentru aspirina.
Utilizăm: Analyze: Compare Means: One-Way ANOVA ca în Figura 3.
Se obține următorul output:
20
Nivel_durere
4.837 3 28 .008
ANOVA
Nivel_durere
Total 8821.875 31
Nivel_durere
a. Asymptotically F distributed.
Cum nivelul de semnificație al acestora < 0.05, putem respinge ipoteza nulă, totuși nu
putem spune care analgezic face diferența.
Așadar, avem nevoie și de rezultatele testului Post Hoc.
Multiple Comparisons
Dependent Variable:Nivel_durere
21
3 -9.500 5.875 .386 -25.54 6.54
4
-24.000* 5.558 .014 -42.26 -5.74
Numai rezultatele testului Games-Howell pot fi considerate, intrucat testul Tuckey presupune
omogenitata dispersiei, ceea ce nu este cazul.
SPSS marcheaza cu asterix care diferente sunt semnificative.
Concluzia: analgezicul 4 – aspirina - produce rezultate semnificativ diferite față
de celelate 3 analgezice!
Așadar, există o diferență semnificativă între nivelul durerii la aspirină și
celelalte trei analgezice testate, F(3, 28)=11,97, p<0,05!
22
7. Bibliografia Unităţii de învăţare 5
8. Lucrare de verificare
23