Sunteți pe pagina 1din 15

Obiective

Pentru ora de seminar avnd ca tem ANOVA Unifactorial (One Way Analysis of Variance), pe care o voi prezenta mi propunurmtoarele obiective de atins : 70% dintre colegii mei s neleag modul de lucru al procedurii ONE WAY ANOVA (care sunt indicatorii folosii n procedur i care este semnificaia lor, care sunt opiunile disponibile i variantele de lucru ale procedurii, ce informaii furnizeaz fiecare dintre ele) ; 50% dintre colegi s tie s foloseasc procedura pe un exemplu practic, asistai de ctre mine; 30% dintre acetia s tie cum se interpreteaz datele pe care procedura le furnizeaz; 20% s poat lucra cu procedura One Way ANOVA n alte situaii dect cele din timpul leciei.

ANOVA este denumirea sub care este cunoscut procedeul de analiz dispersional (analysis of variance), adic procedeul de analiz a variaiei unei variabile n raport cu factorii care o influeneaz. Procedura este aplicabil n mai multe domenii de investigaie statistic, dintre care putem enumera: economic, social, experimental. Primele aplicaii au fost fcute n domeniul agriculturii n anul 1925 de ctre R.A.Fisher, cel care a pus bazele acestui procedeu de analiz statistic. Cu ajutorul Procedeului ANOVA se pot testa ipoteze cu privire la parametrii unui model, cum ar fi, spre exemplu, ipoteza de egalitate a mediilor mai multor eantioane, pentru a verifica dac sunt diferene semnificative ntre populaiile din care s-au extras eantioanele observate. Analiza variaiei permite, de asemenea, s se estimeze componentele dispersiei unei variabile i s se verifice semnificaia factorilor de influen asupra dispersiei. Procedeul ANOVA const n descompunerea variaiei totale a unui ansamblu de date nregistrate pentru o variabil X n componente definite dup sursa variaiei(cauzele acesteia) i compararea acestora pentru a stabili dac factorii considerai cauz au influen semnificativ asupra variabilei X.1 Condiii pentru aplicarea ANOVA unifactorial Analiza variaiei poate fi fcut n urmtoarele condiii: -eantioanele aleatoare trebuie s fie independente -distribuiile populaiilor din care se extrag eantioanele trebuie s fie normale -varianele populaiilor din care se extrag eantioanele trebuie s fie egale Ipotezele i regula de decizie pentru ANOVA unifactorial n analiza variaiei pentru un singur factor cauz se formuleaz urmtoarele ipoteze: -ipoteza nul: H 0 : 1 = 2 = 3 =..... n -ipoteza alternativ H 1 : cel puin valorile a doi parametri sunt diferite ntre ele. Pentru verificarea ipotezei H 0 , n ANOVA se folosete un test statistic numit testul F- raportul Fisher. F este calculat ca raport ntre doi estimatori ai variaiei, i

Jaba Elisabeta- Statistic, Ed. Economic, Bucureti, 2000, p. 333

anume estimatorul varianei intergrupe i estimatorul varianei intragrupe. Ipoteza nul se verific dac raportul F =1. n general valoarea raportului F este diferit de 1. Variaia intergrupe msoar variaia mediilor grupelor fa de media lor. Se noteaz V E i se calculeaz ca sum a ptratelor abaterilor mediilor grupelor fa de media lor. Variaia intragrupe este componenta eroare i msoar variaia din interiorul fiecrei grupe. Pentru a verifica cauza variaiei eantioanelor (grupelor), exprimate sintetic prin media lor, valoarea calculat a raportului F se compar cu valoarea citit din tabelul Fisher, corespunzto unui prag de semnificaie dat i numrului gradelor de libertate a varianelor comparate. Regula de decizie. Se respinge ipoteza nul dac valoarea calculat este mai mare sau egal cu valoarea tabelar pentru un risc i 1 i 2 grade de libertate :F calc >= F
tab

. n caz contrar, se admite egalitatea parametrilor, de exemplu a mediilor, adic se

consider c eantioanele comparate provin din aceeai populaie sau, altfel spus, factorul cauz nu influeneaz semnificativ variaia variabilei considerate.

ANOVA unifactorial n SPSS


n SPSS procedura One Way ANOVA ofer dou tipuri de teste pentru compararea mediilor: testele contrast i testele post-hoc. Testele Contrast au loc nainte ca experimentul s aib loc. Pentru a testa relaiile dintre medii, One Way ANOVA pune la dispoziia utilizatorilor aceste teste care pot fi liniare, ptratice, sau de alt natur polinomial de-a lungul mediilor unor grupuri ordonate. De asemenea utilizatorii pot specifica ei nii coeficienii contrastelor( relaiilor polinomiale) pentru a testa anumite relaii existente ntre medii.

Testele post-hoc sunt aplicate dup ce experimentul a avut loc. De multe ori a spune pur i simplu c rezultatele testelor ANOVA sunt sau nu semnificative poate s nu fie suficient pentru un raport, fiind necesar identificarea acelor medii care difer semnificativ de celelalte. Procedura One Way ANOVA pune la dispoziia utilizatorilor mai multe metode pentru testarea diferenelor ntre perechi de medii i 10 teste de amplitudine pentru identificarea subgrupurilor de medii care nu difer ntre ele.

Procedura One Way ANOVA


Pentru explicarea acestei proceduri am imaginat un studiu efectuat de ctre o companie productoare de igarete, care dorete s introduc pe pia o nou marc ce se adreseaz fumtorilor cu vrsta de peste 40 de ani. Pentru campania de promovare a acestei mrci de igarete productorul a dorit s afle: persoanele devin mai comode odat cu naintarea n vrst? De aceea, respondenii chestionarului au fost rugai s rspund la ntrebarea:Ce fel de persoan considerai c suntei?, alegnd una din urmtoarele variante: extrem de comod, comod, uor comod, moderat, uor activ, activi extrem de activ.

Analiza unifactorial a varianei folosind testul Levene


Analiza varianei este folosit pentru a testa dac exist vreo diferen ntre medii(vrsta medie) pentru cele apte categorii de persoane. Presupunerea pentru analiza varianei este c varianele grupurilor sunt egale. H 0 : 1 = 2 = 3 = 4 = 5 = 6 = 7 H 1 : cel puin o medie este diferit

Pentru a obine rezultatul dorit trebuie urmat urmtoarea succesiune de pai: Analyze Compare Means One Way ANOVA

-n csua Dependent List alegem variabila varsta -n csua Factor alegem variabila fire

Options... Statistics... bifm Descriptive i Homogeneity-of-variance Pentru o mai bun vizualizare a tabelului descriptives alegem din meniu opiunea Pivot Table i inversm liniile i coloanele.

Descriptives varsta respondentului N Mean Std. Deviation Std. Error 95% Lower Confidenc Bound e Interval Upper for Mean Bound Minimum Maximum extrem de comod comod 4 8 36,0000 35,7500 14,9889 11,9493 7,4944 4,2247 12,1493 25,7601 59,8507 24,00 56,00 45,7399 21,00 51,00 usor comod 10 49,2000 11,8397 3,7440 40,7304 57,6696 34,00 69,00 moderat 9 31,8889 12,3333 4,1111 22,4086 41,3691 21,00 58,00 usor activ 8 33,0000 12,9173 4,5670 22,2009 43,7991 18,00 49,00 activ 8 42,8750 17,8920 6,3258 27,9169 57,8331 22,00 76,00 foarte activ 3 27,0000 13,0000 7,5056 -5,2938 59,2938 19,00 42,00 Total 50 37,9400 14,4976 2,0503 33,8198 42,0602 18,00 76,00

Descriptives.n acest caz, pentru cele apte categorii ordonate dup gradul de comoditate, vrsta medie variaz de la o categorie la alta, evideniindu-se un maxim de 49,2 ani- vrsta medie a persoanelor uor comode i un minim de 27 ani- vrsta medie a persoanelor foarte active.

Test of Homogeneity of Variances varsta respondentului Levene Statistic df1 df2 ,416 6 43

Sig. ,864

Test of Homogeneity of Variances. Acesta este testul Levene pentru egalitatea varianelor. Statistica Levene are o valoare de 0,416 cu o valoare a lui p (Sig.)=0,864. Deci la un nivel de ncredere de 95%, ipoteza egalitii varianelor ntre cele apte categorii este acceptat.

ANOVA Sum of Squares Between 2399,956 Groups Within 7898,864 Groups Total 10298,820 df 6 43 49 Mean Square 399,993 183,695 F 2,177 Sig. ,064

ANOVA. Statistica F pentru testarea existenei diferenelor ntre medii este de 2,177 cu o valoare a lui p(Sig.) de 0,064>0,05. Deci, putem afirma c nu exist nici o diferen ntre medii.Ipoteza nul se accept.

Comparaii ntre perechi multiple Post Hoc i teste de amplitudine


Aceeai companie dorete s afle dac, pe msur ce nainteaz n vrst, oamenii cumpr mai mult din supemarketuri i hipermarketuri, pentru a ti n ce locaii trebuie s intensifice promovarea noilor igarete. H 0 :vrsta medie a cumprtorilor din cele patru locaii alese este aceeai H 1 : cel puin o medie difer de celelalte n urma testului ANOVA s-au obinut urmtorul rezultat:
ANOVA varsta respondentului Sum of Squares Between 2995,066 Groups Within 7303,754 Groups Total 10298,820 df 3 46 49 Mean Square 998,355 158,777 F 6,288 Sig. ,001

Statistica F pentru testarea diferenelor ntre medii este de 6,288 cu o valoare a lui Sig=0,001<0,05.n aceast situaie se poate respinge ipoteza nul, acceptndu-se ipoteza H 1 .Deci, exist diferene ntre mediile de vrst luate n considerare. Procedura aplicat mai sus nu precizeaz, ns, care sunt mediile care difer. Pentru a determina pentru care perechi de medii diferena este semnificativ am putea fi tentai s folosim un test t pentru fiecare dintre perechi, dar acest test este rulat pentru o singur pereche. Atunci cnd sunt testate mai multe perechi de medii, probabilitatea de a gsi o pereche semnificativ crete odat cu numrul de perechi. Pentru un nivel de

semnificativitate de 0,05% folosit pentru a vedea dac mediile A i B sunt egale, precum i pentru perechile C i D, regiunea total de acceptare este acum de 0,95*0,95=0,9025. Regiunea de acceptare devine de 90% cu o eroare de 10%(n loc de 5%). Pentru ase perechi de medii testate la un prag de semnificaie de 0,05, probabilitatea de ne nela atunci cnd oferim un rspuns nu mai este de 0,05 ci de 1-0,95 6 =0,265. Rezultatul obinut dac am folosi testul t ar fi s afirmm c exist diferene ntre medii acolo unde ele de fapt nu exist. SPSS ofer 20 de proceduri multiple de comparare care ofer protecie de la identificarea unor diferene semnificative acolo unde le nu exist. Exist dou tipuri de proceduri: cele care testeaz diferena ntre fiecare pereche de medii i cele care identific subseturi de medii omogene care nu difer ntre ele. Acestea din urm sunt numite teste multiple de amplitudine. Dou metode folosite frecvent mpreun sunt Bonferroni i Tukey. Metoda Tukey furnizeaz i subgrupurile de medii omogene. Atunci cnd numrul de comparaii este mare, procedura Tukey poate fi mei sensibil n depistarea diferenelor; atunci cnd numrul de comparaii este mic, metoda Bonferroni poate fi mai sensibil.

Metoda Bonferroni este mai uor de explicat: mparte nivelul de semnificaie la numrul de perechi testate.Pentru a testa, spre exemplu, diferenele dintre cinci perechi de medii la un prag de semnificaie de 5%, probabilitatea pentru obinuitul test t trebuie s fie mai mic de 0,05/5=0,01.Procedura Tukey se bazeaz pe o distribuie a amplitudinii Studentizat. 8

Att metoda Bonferroni ct i Tukey necesit presupunerea c varianele grupurilor sunt egale. SPSS pune la dispozitia utilizatorilor i patru metode ce permit variane inegale.Acestea sunt: Games-Howell, Tamhanes T2, Dunnetts T3 i Dunnetts C. Metoda Scheffe este vzut, n general, ca fiind prea conservatoare ntruct furnizeaz protecie pentru acele teste care folosesc orice combinaie liniar de medii, nu doar diferenele ntre perechi. Cercetrile teoretice recente i simularea Monte Carlo arat c testele Student-Newman-Keuls i Duncan nu ofer nivelul de protecie declarat, utilizarea lor nefiind recomandat. Pentru a aplica testele mai sus amintite sunt necesari urmtorii pai: n caseta de dialog One Way ANOVA se alege ca variabil dependent varsta, iar ca factor variabila aproviz(locul de unde i face subiectul cumprturile). Post Hoc... Equal Variances Assumed Bonferroni Tukey
Multiple Comparisons Dependent Variable: varsta respondentului Mean Std. Error Sig. Difference (I) locul (J) locul (I-J) unde isi unde isi face face cumparatu cumparatu rile rile Tukey chiosc supermark -4,0779 4,6899 ,820 HSD et magazin -19,4406 5,1622 ,003 de cartier hipermark -15,3636 6,7963 ,122 et supermark chiosc 4,0779 4,6899 ,820 et magazin -15,3626 4,4468 ,006 de cartier hipermark -11,2857 6,2703 ,287 et magazin chiosc 19,4406 5,1622 ,003 de cartier supermark 15,3626 4,4468 ,006 et hipermark 4,0769 6,6309 ,927 et

95% Confidence Interval Lower Upper Bound Bound

-16,5789 -33,2004 -33,4793 -8,4231 -27,2158 -27,9993 5,6807 3,5095 -13,5979

8,4231 -5,6807 2,7521 16,5789 -3,5095 5,4278 33,2004 27,2158 21,7518

hipermark chiosc 15,3636 6,7963 et supermark 11,2857 6,2703 et magazin -4,0769 6,6309 de cartier Bonferroni chiosc supermark -4,0779 4,6899 et magazin -19,4406 * 5,1622 de cartier hipermark -15,3636 6,7963 et supermark chiosc 4,0779 4,6899 et magazin -15,3626 * 4,4468 de cartier hipermark -11,2857 6,2703 et magazin chiosc 19,4406 * 5,1622 de cartier supermark 15,3626 * 4,4468 et hipermark 4,0769 6,6309 et hipermark chiosc 15,3636 6,7963 et supermark 11,2857 6,2703 et magazin -4,076 * 9 6,6309 de cartier * The mean difference is significant at the .05 level. Multiple Comparisons

,122 ,287 ,927 1,000 ,003 ,171 1,000 ,007 ,471 ,003 ,007 1,000 ,171 ,471 1,000

-2,7521 -5,4278 -21,7518 -17,0088 -33,6735 -34,1022 -8,8529 -27,6234 -28,5739 5,2076 3,1019 -14,2057 -3,3750 -6,0025 -22,3595

33,4793 27,9993 13,5979 8,8529 -5,2076 3,3750 17,0088 -3,1019 6,0025 33,6735 27,6234 22,3595 34,1022 28,5739 14,2057

Rezultatele Bonferroni. n coloana intitulat Mean Difference(I-J) diferena medie de vrst este prezentat pentru fiecare pereche de medii.n prima csu se poate observa c diferena medie de vrst ntre cei care cumpr de la chiocuri fa de cei care cumpr de la supermarketuri este de -4,0779 ani, adic persoanele care cumpr de la supermarket-uri sunt n medie cu 4,0779 ani mai n vrst dect cele care cumpr de la chiocuri. Clienii magazinelor de cartier sunt cu 19,4406 ani mai btrni dect clienii chiocurilor,etc. Diferena dintre medii pentru fiecare pereche este afiat de dou ori.Primul cmp din prima csu este perechea Chioc-Supermarket; rezultatul pentru aceeai pereche este afiat i la nceputul celei de-a doua linii,ns cu semnul schimbat. Asterixul afiat n dreptul cmpului refieritor la grupul clienilor ce cumpr din Magazin de cartier arat faptul c vrsta medie a acestui grup difer semnificativ de vrsta medie a clienilor Chiocurilor( la un prag de emnificaie de 0,05). Adic, diferena de 19,4406 ani ntre clienii celor dou locaii este semnificativ. Valoarea ajustat a lui p

10

pentru aceast diferen este afiat n coloana numit Sig. i este de 0,003. Intervalul de ncredere de 95% pentru diferena medie de vrst ntre grupurile Chioc i Magazin de cartier se ntinde de la -33,6735 pn la -5,2076. Rezultatele Tukey. Pentru aceste date, rezultatele pentru metodele Bonferroni i Tukey sunt aceleai, evideniind aceleai perechi de medii care difer semnificativ.

Homogeneous Subsets
varsta respondentului Subset for alpha = .05 locul unde isi face cumparaturile Tukey HSD chiosc supermark et hipermark et magazin de cartier Sig.

N 11 21 5 13

1 29,6364 33,7143

2 33,7143 45,0000

45,0000 49,0769

,893

,216

,893

Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 9,628. b The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed.

Acest tabel este afiat datorit faptului c metoda Tukey include i o procedur de determinare a unor amplitudini multiple (de asemenea, tabelul este afiat i pentru metodele de determinare a amplitudinilor multiple Waller-Duncan, Student-NewmanKeuls, Tukeys b, Duncan, Scheffe, Hochbergs GT2, Gabriel, R-E-G-W F i R-E-G-W Q ). Subgrupuri de medii care nu difer ntre ele sunt astfel identificate. n tabelul afiat mai sus, primul subgrup determinat de metoda Tukey are o amplitudine de dou medii( 29,6364 ani i 33,7143 ani. De aemenea i urmtoarele dou subgrupuri gsite au o amplitudine tot de dou medii( 33,7143 ani i 45 ani, respectiv 45 de ani i 49,0769 ani). Aceste proceduri se bazeaz pe un test statistic ce folosete percentilele amplitudinii Studentizate. De remarcat este faptul c grupurile sunt reordonate n funcie de mrimea mediilor.

11

Teste de contrast ntre grupuri de medii


Contrastele sunt folosite pentru a testa relaiile dintre medii. Un contrast este o combinaie liniar de medii i avnd coeficienii i : 1 1 + 2 2 +....+ k k =0, unde 1 + 2 +...+ k =0 Prin aceast procedur se pot testa: Comparaii ntre perechi.Spre exemplu, dac exist vreo diferen ntre dou medii particulare O combinaie liniar ntre medii semnificativ pentru un anumit studiu. De exemplu, ntr-un studiu menit s determine creterea n greutate(per Kilogram corp) a unor porci prin consumarea a trei tipuri de proteine, se pot contrasta mediile proteinelor de origine animal fa de cele de origine vegetal: -1*( proteine din concentrate obinute din carne) + 2*( proteine din concentrate vegetale) - 1*( proteine din concentrate obinute din oase) De observat este faptul c suma acestor coeficieni(-1, 2, -1) este 0. Sau dac avem trei grupuri studiate(T 1 , T 2 i T 3 ) i un grup de control (C), se pot contrasta cele trei grupuri studite fa de grupul de control: 1*T 1 +1* T 2 +1* T 3 -3*C Relaii liniare, ptratice sau de alt putere ntre seturi de medii ordonate. Cum se precizeaz coeficienii tentru aceste contraste? SPSS furnizeaz aceti coeficieni automat dac se alege opiunea Polynomial din caseta de dialog Contrasts . Dac dorim s punem ali coeficieni, cum ar fi (-1, 2, -1) ca n cazul tipurilor de proteine sau (1,1,1,-3) ca n exemplul celor trei grupuri studiate i a grupului de control, fiecare dintre ei poate fi trecut n partea de jos a casetei de dialog mai sus amintite.

12

SPSS presupune c primul coeficient specificat corespunde celei mai mici valori ale variabilei factor, al doilea corespunde urmtorului ca mrime... .a.m.d. ,ultimul coeficient corespunznd celei mai mari valori. Pentru cele mai mult aplicaii suma coficienilor ar trebui s fie 0. Testul statistic pentru contraste este similar unui test t pentru dou eantioane: rezultatul contrastului(relaia dintre medii, A-B) reprezint numrtorul testului statistic, iar estimarea variaiei intragrupuri reprezint o component a numitorului. Exemplu: Exist o cretere liniar a vrstei medii de-a lungul clienilor celor patru locaii? O cretere ptratic? Pentru a rspunde la aceste ntrebri sunt necesari urmtorii pai: Analyze Compare Means One Way ANOVA Dependent List: Varsta Factor: Aproviz Contrasts.... Polynomial Degree: Linear Pentru a doua ntrebare se va alege la cmpul Degree: Quadratic

13

ANOVA varsta respondentului Between (Combined Groups ) Linear Term Unweighted 1376,930 Weighted Deviation Within Groups Total 2287,869 707,197 7303,754 10298,82 0 Sum of Squares 2995,066 df 3 1 1 2 46 49 Mean Square 998,355 1376,930 2287,869 353,599 158,777 F 6,288 8,672 14,409 2,227 Sig. ,001 ,005 ,000 ,119

Anova (pentru testul liniar). Diferena fa de celelalte tabele ANOVA este apariia cmpurilor Unweighted, Weighted i Deviation. Rezultatele Unweighted sunt afiate atunci cnd mrimile grupurilor sunt inegale. Pentru Unweighted Sum of Squares, mediile grupurilor au aceeai greutate cu toate c mrimile grupurilor variaz destul de mult( este ca i cum am construi manual numrtorul testului statistic nmulind fiecare medie cu un anumit coeficient).Fiecare observaie pe un grup cu multe cazuri are mai puin greutate dect o observaie pe un grup cu puine cazuri. Pentru Weighted Sum of Squares toate observaiile au aceeai greutate.(cu toate c mediile au greuti diferite). n cazul de mai sus vom considera c fiecare medie are aceeai importan, deci vom folosi rezultatele Unweighted. Ipoteza nul este : contrastul liniar este 0, adic nu putem vorbi despre un efect liniar. Statistica F este de 8,672 cu un Sig de 0,005<0,05. Deci, respingem ipoteya nul i acceptm ipoteza H1: exist o cretere liniar a vrstei medii ntre clienii celor patru locaii.

14

ANOVA varsta respondentului Between (Combined) Groups Linear Term Unweighted Weighted Deviation Quadratic Unweighted Term Weighted Deviation Within Groups Total Sum of Squares 2995,066 1376,930 2287,869 707,197 160,071 38,555 668,642 7303,754 10298,820 df 3 1 1 2 1 1 1 46 49 Mean Square 998,355 1376,930 2287,869 353,599 160,071 38,555 668,642 158,777 F 6,288 8,672 14,409 2,227 1,008 ,243 4,211 Sig. ,001 ,005 ,000 ,119 ,321 ,625 ,046

ANOVA(rezultate liniare i ptratice). Atunci cnd sunt cerute rezultatele pentru contrastul polinomial ptratic, programul furnizeaz, pe lng acestea i rezultatele pentru contrastul liniar. Rezultatele acstui tabel sunt la fel cu rezultatele tabelului anterior, cu precizarea c s-a mai adugat un cmp pentru datele contrastului polinomial ptratic. H 0 : nu exist un contrast polinomial ptratic H 1 :exist contrastul polinomial ptratic n cmpul Quadratic Term, pe nivelul Unweighted observm o valoare a lui F de 1,008 cu un Sig de 0,321>0,05.n consecin putem accepta ipoteza H 0 ,deci nu exist un contrast polinomial ptratic ntre vrstele medii ale clienilor celor patru locaii.

15

S-ar putea să vă placă și