Sunteți pe pagina 1din 17

Cuprins

ANOVA - Analiza de varian


1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 ANOVA uni-factorial. Concepte de baz. . . . . . . . . . . . . . Funcionarea i logica analizei de varian . . . . . . . . . . . . . Calcularea varianei dintre grupuri . . . . . . . . . . . . . . . . . Calcularea varianei din interiorul grupurilor Statistica . . . . . . . . . . .

1
1 3 6 7 9 11 13 15

F.

Tabelul ANOVA. . . . . . . . . . . . . . . . . . . . .

Distribuia de eantionare

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Asumpiile analizei de varian

Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .

Capitolul 1
ANOVA - Analiza de varian

1.1

ANOVA uni-factorial. Concepte de baz.

Analiza de varian continu seria testelor de semnicaie i ntrete nelegerea analizei cauzale, facnd trecerea spre analiza de regresie. Dup cum ne reamintim, testului

este un test de semnicaie care testeaz diferena ANOVA este o generalizare a

dintre dou medii ale unor variabile metrice.

t pentru mai mult de dou medii, pentru c deseori n cercetarea social

studiem mai mult de dou grupuri n acelai timp. De subliniat este faptul c ANOVA poate s e folosit cu rezultate foarte bune i la comparaia dintre dou medii, ns testul i arat adevrata valoare la trei sau mai multe medii. Exemple de acest tip pot  multiple: - putem testa dac mai multe campanii pro-nataliste difer unele de altele sub aspectul efectelor acestora (sau n sens contrar, s vedem dac mai multe campanii diferite de prevenire a sarcinilor nedorite difer semnicativ unele de altele); unele campanii se pot orienta cu preponderen ctre spoturi TV, altele ctre distribuirea de materiale informative tiprite, altele pe consiliere direct .a.m.d. - putem deasemenea s testm dac mai multe aciuni de cretere a participrii civice difer sau nu n ce privete efectele - putem testa dac mai multe strategii locale de combatere a srciei difer sau nu ntre ele, etc.

ANOVA combin i extinde testele

t i 2 , prin testarea egalitii dintre trei sau

mai multe medii (pentru trei sau mai multe grupuri). Se testeaz aadar legtura dintre o variabil metric (pentru care se calculeaz media) i o variabil calitativ (a crei valori sau categorii sunt considerate grupuri independente). De asemenea, ANOVA face o introducere clar n analiza cauzal: cea metric. n exemplul pe care l vom expune, avem urmtoarele dou variabile: variabila cauz (independent) este cea calitativ iar variabila efect (dependent) este

ANOVA - Analiza de varian

VRST

vrsta la angajare a unei persoane (variabl raport, metric,


continu)

STRATIN

strategia de atragere a tinerilor (variabil calitativ, nominal,


cu mai multe categorii - pot exista mai multe strategii posibile)

n aceast carte, noi lum n considerare doar varianta de

ANOVA uni-factorial,

cu un singur factor (n engl. one-way ANOVA), deoarece folosim o singur variabil categorial (denumit n limba englez  factor) pentru a testa diferenele ntre mediile grupurilor denite de categoriile acesteia (denumite n englez  levels - niveluri sau  treatments - tratamente). n cazul nostru, ne raportm

doar

la strategia de atragere a tinerilor; este

important ns de tiut c vrsta la angajare a tinerilor poate  inuenat de diveri factori i c exist variante ale analizei de varian care iau n calcul mai muli asemenea factori. De pild, varianta care ia n calcul doi factori se numete

ANOVA bi-factorial

(n engl. two-way ANOVA)iar varianta care ia n

calcul mai muli factori se numete ANOVA).

ANOVA multi-factorial

(n engl. multi-way

Pentru aceast seciune, s presupunem c studiem oportunitile de acces a tinerilor pe piaa forei de munc i analizm diferite strategii folosite pentru a atrage tinerii s se angajeze. Ipoteza pe care dorim s o testm este urm-

media de vrst a persoanelor nou angajate este inuenat de strategia de atragere utilizat.
toarea: Setul de ipoteze generale pentru ANOVA este:

H0 H

A:

1 = 2 = = k
cel puin dou medii sunt diferite

Dup cum se poate observa, ipoteza de nul se refer la mediile din populaie (notate cu

).

Pentru simplicare, vom lua n considerare doar trei localiti,

care beneciaz de strategii diferite. Din ecare localitate vom extrage cte un eantion (s spunem de 10 persoane), iar ipotezele devin:

H0 H

A:

1 = 2 = 3
cel puin dou localiti au medii de vrst sunt diferite

n cuvinte, ipoteza de nul susine c nu este nici o diferen ntre rezultatele diferitelor strategii (e sunt toate strategiile foarte bune i atrag muli tineri, e sunt toate foarte slabe i nu atrag tineri) iar ipoteza alternativ susine c cel puin o strategie d rezultate mai bune dect cel puin una dintre celelalte (este posibil ca o stratege s aib un rezultat de mijloc, care nu este semnicativ diferit nici fa de strategia de succes maxim, nici fa de strategia care atrage cei mai puini tineri; diferen semnicativ n acest caz exist doar ntre prima i ultima strategie). Dup cum se poate vedea n Tabelul 1.1, primul grup (cel de control, din localitatea unde nu s-a aplicat nici o strategie) are o medie a vrstei la angajare de 27,8 ani cu o abatere standard de 3,65 ani; al doilea grup (din localitatea unde s-a aplicat prima strategie) are o medie de 23,6 ani cu o abatere standard

1.2 Funcionarea i logica analizei de varian

Tabelul 1.1: Vrstele la angajare a persoanelor n cadrul a 3 eantioane independente. Nr.crt. 1 2 3 4 5 6 7 8 9 10 Localitate 1 22 27 32 30 29 27 33 24 24 30 Localitate 2 28 22 24 18 21 26 25 20 24 28 Localitate 3 20 28 31 26 26 30 21 25 29 27

x s

27,8 3,65

23,6 3,34

26,3 3,59

de 3,34 ani iar al treilea grup o medie de 26,3 ani cu o abatere standard de 3,59 ani. La o prim vedere, toate cele trei grupuri conin tineri: exist vreo diferen semnicativ ntre cele trei medii? Cum testm, mai exact, acest lucru? n ne, dac obiectivul principal al acestei analize este de a testa diferenele dintre medii, de ce se numete 

Analiz de varian ?

1.2

Funcionarea i logica analizei de varian

Privind Tabelul 1.1, putem extrage cteva informaii interesante, care ne vor ajuta n cele ce vor urma. Avem un eantion total format din 30 de persoane, deci tioane din trei localiti diferite); avem deci: cte o abatere standard; mai avem aadar: cu

n = 30.

Acest eantion i

este format din trei grupuri independente de cte 10 persoane ecare (subean-

n1 = 10, n2 = 10
cu

n3 = 10.

Pentru ecare dintre cele trei localiti/grupuri putem calcula cte o medie i

x1 = 27, 8

s1 = 3, 65, x2 = 23, 6

s2 = 3, 34

x3 = 26, 3

cu

s3 = 3, 59. = 25, 9
precum i o abatere standard total

n acelai timp, putem calcula o medie general pentru eantionul total (pentru

toate cele 30 de observaii) x 14, 714.


Sintetiznd:

s=

n n1 n2 n3

= 30 = 10 = 10 = 10

x x1 x2 x3

= 25, 9 = 27, 8 = 23, 6 = 26, 3

s s1 s2 s3

= 14, 714 = 3, 65 = 3, 34 = 3, 59

ANOVA - Analiza de varian

Din faptul c putem calcula abaterile standard, avem un prim indiciu c exist o

variaie intern

n cadrul ecrui grup. n Figura 1.1 se pot observa cele trei

grupuri, ale cror observaii variaz n jurul mediilor reprezentate de punctele colorate n albastru. Aceast variaie poate  calculat uor,

n parte, cu binecunoscuta formul:

pentru ecare grup

(xi x)2 s2 =
i=1

n1

(1.1)

Avem aadar trei variane n interiorul grupurilor (cte o varian pentru ecare din cele trei grupuri). Apoi, pentru c exist trei medii diferite pentru ecare eantion, plus o medie general pentru toate eantioanele, se poate constata o variaie a celor trei medii de grupuri n jurul mediei generale.

Figura 1.1: Scatterplot al vrstelor la angajare pentru cele trei eantioane.

VRST

20
1

25

30

35

2 LOCALITATE

Celor trei medii le corespund punctele de culoare albastr de pe axa

0y ,

iar

media general (x

= 25, 9)

este punctul rou de pe aceeai ax. Poate  uor

observat variaia punctelor albastre n jurul punctului rou, cu alte cuvinte variaia mediilor de grupuri n jurul mediei generale. n cazul nostru, deoarece avem doar trei grupuri,

k = 3.

Adaptnd formula 1.1, obinem:

(j x)2 x s2 = x
j=1

k1

(1.2)

1.2 Funcionarea i logica analizei de varian

Dup cum ne aducem aminte de la distribuia de eantionare a mediei, deviaia standard a mediilor n jurul mediei generale este denumit Eroare Standard.

Ecuaia 1.2 indic aadar o estimare a Erorii Standard din populaie, de unde
putem extrage foarte simplu variana din populaie, deoarece: ES

= n

Ne confruntm, deci, cu dou tipuri de variaii: o variaie aia mediilor de grup n jurul mediei generale) i una sunt folosite ca estimri ale

ntre grupuri (varin interiorul grupurilor

(variaiile observaiilor n jurul ecrei medii de grup). Ambele tipuri de variaii

variaiei generale

n populaie.

IMPORTANT!
Analiza de varian se bazeaz pe comparaia dintre dou estimri ale varianei

pentru ntreaga populaie.

Logica analizei este urmtoarea: dac cele dou estimri ale varianei din populaie

sunt aproximativ egale, atunci ipoteza de nul este adevrat (n Dac ipoteza de nul nu este adevrat,

populaie, toate mediile sunt egale).

atunci cele dou estimri ale varianei vor  semnicativ diferite. Analiza de varian se efectueaz n trei pai:

Calcularea primei estimri a varianei n populaie: variana

grupurilor

dintre mediile din

Calcularea celei de a doua estimri a varianei n populaie: variana

interiorul grupurilor

Se compar cele dou estimri cu ajutorul statisticii test atunci

F.

Dac sunt

aproximativ egale (raportul dintre cele dou este aproape de valoarea 1),

nu respingem

ipoteza de nul.

Un lucru important de care trebuie s ne aducem aminte (de la msurile tendinei centrale, capitolul de descriere a variabilelor) este caracterizarea varianei; s mai examinm nc odat formula:

(xi x)2 s2 =
Avem n partea de sus o

i=1

n1
mprit la un numr de

libertat e (gl

sum de ptrate,
n

grade de

= numrul de observaii

minus 1, detalii la capitolul de care

vorbeam). Ecuaia de mai sus mai poate  scris ca:

s2 =

SP

gl

ANOVA - Analiza de varian

Dup cum tim, orice sum mprit la numrul de observaii se numete ptrate.

medie,

de unde reiese c variana nu este nimic altceva dect o medie a unei sume de

De aici i denumirile pe care le poart, n literatura de specialitate, cele dou estimri ale varianei din populaie

2 :

MPD (Media sumei Ptratelor Dintre grupuri) - variana dintre mediile


grupurilor, unde: MPD SPD

glD

MPI (Media sumei Ptratelor din Interiorul grupurilor) - variana din


interiorul grupurilor, unde: MPI

SPI

glI

IMPORTANT!
Att MPD ct i MPI reprezint estimri ale varianei n populaie, deci pot  notate amndou cu

2 .

1.3

Calcularea varianei dintre grupuri

Aplicm mai nti formula din Ecuaia 1.2:

(j x)2 x s2 = x
j=1

k1

Folosind estimarea Erorii Standard, obinem estimarea varianei din populaie: ES

= n

de unde reiese c

2 = nES

n aceast formul,

este mrimea total a eantionului.

Cum

estimarea Erorii Standard, putem nlocui pe ES

sx

este chiar

2 cu sx i obinem:

2 = ns2 x
k

n(j x)2 x 2 = MPD =


Numrul de observaii

j=1

k1

n,

ind o constant, poate sta oriunde: naintea fraciei, Exist un motiv special pentru

naintea sumei sau chiar n interiorul sumei.

1.4 Calcularea varianei din interiorul grupurilor

care

st n interiorul sumei, pentru c trebuie s lum n calcul i mrimea

grupurilor (n cazul nostru cele trei grupuri au mrime egal, ns de obicei nu este aa); distana dintre media de grup cu mrimea grupului respectiv

xj
k

i media general x va  ponderat

nj

(rezultatul nal ind exact acelai):

nj (j x)2 x
MPD

SPD

glD

j=1

k1

(1.3)

Cu alte cuvinte, grupurile mai mari vor avea o pondere mai mare (vor Se poate observa c

cntri

mai mult n calcul) dect grupurile mai mici, ceea ce este absolut normal.

numrul de grade de libertate

pentru MPD este

gl = k 1.

Efectund calculele pentru exemplul nostru:

MPD

10(27, 8 25, 9)2 + 10(23, 6 25, 9)2 + 10(26, 3 25, 9)2 31

MPD =

36, 1 + 52, 9 + 1, 6 90, 6 = 2 2

MPD = 45, 3
Spunem c variana

dintre

grupuri este egal cu 45,3.

1.4

Calcularea varianei din interiorul grupurilor

O ntrebare pertinent n acest moment este:

interiorul grupurilor ?

ce nelegem prin variana din

Avem trei grupuri, deci trei variane (cte una n interiorul

ecruia); pe care dintre cele trei o folosim? Exist dou rspunsuri posibile:

1. putem folosi oricare dintre cele trei variane, dac ele sunt egale n populaie (ceea ce ne duce spre una dintre asumpiile acestei analize, prezentat n Seciunea 1.7) 2. putem folosi o medie ponderat a tuturor celor trei variane, folosind o procedur derivat de asemenea din formula clasic a varianei.

Avnd trei grupuri, adunm trei sume de ptrate:

n1

n2

n3

(x1i x1 )2 +
MPI

(x2i x2 )2 +
i=1 i=1

(x3i x3 )2 n3 1

SPI

gl

i=1

n1 1

n2 1

ANOVA - Analiza de varian

Partea de jos a ecuaiei este egal cu grupuri). La modul general (cu

n1 +n2 +n3 3 = n3 (pierdem trei grade


grupuri) aceasta va  egal cu

de libertate pentru c avem trei puncte xe: mediile corespunztoare celor trei

n k,

iar

ecuaia poate  scris sub forma unei sume duble:

k
SPI

nj

(xji xj )2
MPI

glI

j=1 i=1

nk gl = n k .

(1.4)

Numrul de grade de libertate


nj

pentru MPI este aadar:

Ecuaia 1.4 poate  simplicat i mai mult, folosind formula varianei:

(xji xj )2 s2 = j
i=1

nj

nj 1

i=1

(xji xj )2 = (nj 1)s2 j

pentru ecare dintre cele

j = 1. . .k

grupuri, de unde:

(nj 1)s2 j
MPI

SPI

gl

j=1

nk k

(1.5)

La fel ca la MPD, avem i aici o medie ponderat a varianelor celor

grupuri

(aici ns ponderarea s-a realizat prin utilizarea gradelor de libertate ale ecrui grup): grupurile de mrime mai mare vor avea o pondere mai mare n calcul. Aplicnd Ecuaia 1.5 pentru exemplul nostru cu trei eantioane:

MPI

(10 1)3, 652 + (10 1)3, 342 + (10 1)3, 592 30 3

MPI =

119, 6 + 100, 4 + 116, 1 336, 1 = 27 27

MPI = 12, 448


Spunem c variana

n interiorul

grupurilor este egal cu 12,448.

Ecuaiile 1.3 i 1.5 sunt cele folosite pentru calcularea celor dou estimri ale
varianei n populaie, n cazul general cu

grupuri i mrimi

nk

ale grupurilor.

Formulele utilizate nu sunt foarte complicate (chiar dac aa par la prima vedere), bazndu-se exclusiv pe formula clasic a varianei. Din fericire pentru persoanele cu abiliti matematice mai sczute, ele nu trebuie calculate de mn; computerul ne va da automat rezultatele, singura noastr grij ind aceea de a le interpreta corect.

1.5 Statistica

F.

Tabelul ANOVA.

1.5
F,

Statistica

F.

Tabelul ANOVA.

Cel de-al treilea pas n efectuarea analizei de varian este calcularea statisticii test ca raport ntre cele dou estimri ale varianei n populaie: Variana dintre grupuri Variana n interiorul grupurilor

F=
sau mai simplu:

F=

MPD MPI

(1.6)

Dup cum vom vedea, exist un motiv puternic pentru faptul c MPD se a la numrtor, n partea de sus a fraciei. Multe din informaiile prezentate n continuare sunt explicate n detaliu la Capi-

tolul ?? - Regresia liniar simpl; n general, multe informaii n statistic se


bazeaz pe altele, formnd un tot unitar. Singura metod de a nelege corect toate informaiile este de a citi capitolele care fac referiri unele la altele i de a reciti un capitol cu referinele proaspt citite. S vedem ns cum interpretm raportul

F:

MPI, variana n interiorul grupuri-

lor, este un bun estimator al varianei din populaie

2 , indiferent

dac ipoteza

de nul este sau nu adevrat. Aceasta deoarece MPI se bazeaz pe variaiile din interiorul ecrui grup, care luate mpreun ofer o imagine destul de bun (o estimare destul de bun) a lui

2 .

Partea care se a sub lupa testului este ns MPD; dac ipoteza de nul este adevrat (toate mediile sunt egale) atunci i MPD va  un bun estimator a lui

2 .

n aceast situaie MPD va avea o valoare apropiat de cea a lui MPI,

iar valoarea lui

va  aproape de 1 (raportul dintre dou cantiti egale este

egal cu 1). Cu ct valoarea lui

se va apropia mai mult de 1, cu att va crete

probabilitatea de a grei respingnd ipoteza de nul. n cealalt situaie, n care ipoteza de nul nu este adevrat (adic cel puin una dintre medii este semnicativ diferit), atunci valoarea lui

se va mri

considerabil; n acelai timp, probabilitatea de a grei respingnd ipoteza de nul se va micora pe msur. Acest lucru se ntmpl deoarece diferenele dintre grupuri tind s mreasc MPD.

IMPORTANT!
Statistica

este o msur care ne arat ct de mult variaie

se datoreaz diferenelor dintre grupuri, raportat la variaia generat de selecia aleatoare a eantionului.

Pentru a nelege i mai bine aceste lucruri, vom introduce nc o sum de ptrate, ignorat pn acum: STP (Suma Total a Ptratelor); este vorba despre distana dintre toate observaiile din eantionul general n jurul mediei

generale x:
STP

=
i=1

(xi x)2

10

ANOVA - Analiza de varian

Dac mprim STP la

n1

vom obine variana pentru eantionul general, a

tuturor observaiilor. Deoarece variana este o msur a variaiei iar STP face parte din formula acesteia, rezult c STP este de asemenea o variaiei totale. Se poate arta c: STP

bun msur

= SPD + SPI

(1.7)

Cu alte cuvinte, cantitatea total de variaie este egal cu cantitatea de variaie explicat de diferenele dintre grupuri plus cantitatea de variaie rmas neexplicat (erorile aleatoare n jurul mediei); pe scurt, variaia total este egal cu variaia explicat plus variaia neexplicat, iar valoarea lui raport ntre cele dou:

se poate deni ca

F=

VE VN

(1.8)

Cu ct variaia explicat va  mai mare, cu att va scdea variaia neexplicat, iar valoarea lui mic (ceea ce nseamn c diferenele dintre grupuri sunt foarte mici), cu att va crete variaia neexplicat (datorat erorilor aleatoare) iar valoarea lui nici o diferen ntre ele, variaia explicat va  egal cu zero). Diverse programe de analiz statistic pot s difere foarte puin n modul de prezentare a rezultatelor, ns toate se vor referi la exact acelai lucru; n general, orice tabel de rezultate va conine urmtoarele lucruri: Suma

F va crete spectaculos; invers, cu ct variaia explicat va  mai F


va

tinde spre zero (la limit, cnd grupurile seamn perfect i nu exist absolut

gl
ntre grupuri n interiorul grupurilor Total k - 1 n - k n - 1

Ptratelor SPD SPI STP

Variana MPD MPI

Valoare

p
Pr(>F)

F=

MPD MPI

Evident c aceasta este o variant n limba romn a tabelului; pentru c cele mai bune programe statistice sunt n limba englez, rezultatele aate de calculator vor avea denumirile ca n urmtorul tabel: df Between Within Total k - 1 n - k n - 1 Sum of Squares SSB SSW SST Mean Square MSB MSW

F value MSB F = MSW

p
Pr(>F)

Uneori pot s apar prescurtri de genul Sum Sq sau Mean Sq, iar n loc de

se poate gsi frecvent Sig. (vom vedea semnicaia acestora n urmtoarea

seciune). Mai departe:

df  se refer la

gl

- gradele de libertate

Sum of Squares nseamn Suma Ptratelor SSB (n engl. Sum of Squares Between) este echivalent cu SPD SSW (n engl. Sum of Squares Within) este echivalent cu SPI

1.6 Distribuia de eantionare

11

SST (n engl. Sum of Squares Total) este echivalent cu STP MSB (n engl. Mean Square Between) este echivalent cu MPD MSW (n engl. Mean Square Within) este echivalent cu MPI

Efectund calculele pentru exemplul nostru, am obinut urmtorul tabel: Suma Valoare Variana 45,3 12,448

gl
ntre grupuri n interiorul grupurilor Total 2 27 29

Ptratelor 90,6 336,1 426,7

p
0,040

3,639

Se poate vedea foarte clar modul cum a fost calculat

F:

F=

45, 3 = 3, 639 12, 45

Valoarea de 3,639 (mult mai mare dect 1) ne sugereaz c ipoteza de nul este pe cale de a  respins, pentru c variaia explicat de diferenele dintre grupuri este mult mai mare dect variaia datorat erorilor aleatoare; existnd diferene majore ntre grupuri, vor exista cu siguran i diferene ntre mediile acestora. La fel ca la testele

critic. Modalitatea alternativ este de a compara valoarea lui semnicaie ales; cum

p cu pragul de p este mai mic dect = 5% (un prag generic, pentru un

2 ,

decizia se ia dup compararea acestei valori cu una

nivel de ncredere de 95%), vom respinge ipoteza de nul: cel puin una dintre strategii a dat rezultate.

1.6

Distribuia de eantionare
t
i

F
F critice cu care se compar p obinute cu pragul de

n mod similar cu testele

2 ,

analiza de varian folosete o distribuie de

eantionare numit pe scurt Distribuia valoare

F.

Modul de testare a ipotezei de nul

este de asemenea similar, prin calcularea unei valori

obinut n test, sau prin compararea valorii

semnicaie

.
este

Ca la orice distribuie de eantionare, putem distinge o prim caracteristic a distribuiei

F:

continu

(existnd o innitate de eantioane posibile), cu un

interval de valori care poate varia ntre 0 i

+.

Dup cum am mai artat, cnd eantioanele sunt perfect similare (media lor este exact aceeai) atunci MPD va  egal cu 0 iar este maxim) atunci MPI va  egal cu 0 iar mari sau egale cu zero). Tot similar cu distribuiile

va  egal de asemenea egal

cu 0; la cellalt pol, cnd eantioanele sunt total diferite (diferena dintre medii

va  egal cu

caracteristic a distribuiei este aceea c valorile lui

+.

sunt

non-negative

Astfel, o alt (mai

t i 2 , nu exist o singur distribuie F, ci o ntreag

familie de distribuii; dac ns pn acum forma distribuiilor depindea de un

12

ANOVA - Analiza de varian

singur numr de grade de libertate, la analiza de varian forma distribuiilor depinde de

o pereche

de grade de libertate.

Figura 1.2 arat trei asemenea distribuii, unde primul numr reprezint numrul de grade de libertate de la numrtor (din MPD), iar cel de al doilea numr reprezint numrul de grade de libertate de la numitor (din MPI).

Figura 1.2: Trei distribuii

F,

cu:

(11,100) grade de libertate (8,30) grade de libertate (5,10) grade de libertate

Dup cum se poate vedea toate curbele sunt mai mult sau mai puin alungite la dreapta, ecare avnd un singur mod. Acestea sunt alte dou caracteristici ale distribuiei

F:

este

unimodal

alungit la dreapta.
0y .

La numr mic al gradelor

de libertate pentru numrtor (cu alte cuvinte, pentru numr mic de grupuri), curba se apropie din ce n ce mai mult de axa vertical; spre exemplu, la o pereche (1,100) curba va  chiar lipit de axa de axa orizontal Odat cu creterea numrului de grade de libertate, cozile distribuiilor se vor apropia din ce n ce mai mult

0x,

ns nu o vor atinge dect la innit.

Forma distribuiei se modic deci odat cu creterea numrului de grade de libertate (att la numrtor ct i la numitor), ind din ce n ce mai puin alungit la dreapta. n principiu, creterea volumului total al eantionului modic distribuia pn la o form relativ apropiat de distribuia normal. Rezumnd, proprietile distribuiei

sunt urmtoarele:

1. este continu 2. este non-negativ 3. este uni-modal 4. este alungit la dreapta 5. aria de sub curb este egal cu 1

Testul

este uni-direcional,

doar

pe coada din dreapta; asta nseamn c pro-

babilitatea de eroare calculat va  reprezentat ca o arie sub curb numai n partea dreapt. Exist o singur valoare critic a lui aria de sub curb corespunztoare nivelului de semnicaie ales.

F, n dreapta creia se a

1.7 Asumpiile analizei de varian

13

Valoarea critic a lui

poate  gsit cu ajutorul tabelelor de valori care pot Exist mai multe tabele de

 gsite n anexele oricrui manual de statistic. i uneori chiar 0,1%.

valori, cte unul pentru ecare nivel de semnicaie clasic: 10%, 5%, 2,5%, 1%

Modul de citire a tabelelor este foarte simplu: a) se alege tabelul corespunztor nivelului de semnicaie ales; b) se localizeaz numrul de grade de libertate de la numrtor (k

1,

de la MPD) pe orizontal, n partea de sus a tabelului; c)

se localizeaz numrul de grade de libertate de la numitor (n linia identicate se a valoarea critic a lui

k,

de la MPI)

pe vertical, n partea din stnga a tabelului; d) la intersecia dintre coloana i

F.

Figura 1.3: Probabilitatea de eroare de tipul I, valoarea critic i valoarea calculat a lui

F,

pe o distribuie cu o pereche (2, 27) grade de libertate

Zona de respingere

Aria egal cu = 5%

Valoarea calculat a lui F = 3,639

F CR
3,39

Pentru exemplul nostru, la un nivel de semnicaie lui

= 5%,

valoarea critic a

este aproximativ egal cu 3,35.

Valoarea calculat a lui

este egal cu

3,639 i este mai mare dect valoarea critic, intrnd n zona de respingere a ipotezei de nul (colorat cu albastru).

1.7

Asumpiile analizei de varian

Pentru a putea utiliza aceast analiz, trebuie s ne asigurm c sunt ndeplinite urmtoarele condiii/asumpii: 1. Fiecare eantion este extras dintr-o populaie cu o distribuie normal. 2. Populaiile din care au fost extrase eantioanele au aceeai varian (cu alte cuvinte, toate variaz n aceeai msur). 3. Eantioanele sunt extrase n mod aleator i independent. Ca i la testele

t i 2 , prima asumpie este legat de normalitatea distribuiilor:

populaiile din care au fost extrase eantioanele trebuie s aib o distribuie normal. Aa cum se ntmpl mai ntotdeauna n practic, ns, asumpia de normalitate este rareori satisfcut (cazurile n care populaia are o distribuie perfect normal sunt foarte rare, dac nu inexistente).

14

ANOVA - Analiza de varian

Exist totui o soluie: violarea acestei asumpi poate  tolerat, dac eantionul este

sucient de mare

(deoarece n acest caz distribuia de eantionare nu mai

depinde de forma distribuiei n populaie). Pentru a verica dac distribuiile sunt normale, se construiete cte o histogram a variabilei metrice pentru ecare grup (atenie ns: sunt relevante doar pentru eantioane mari). Asumpia de baz a analizei de varian este cea a histogramele

omogenitii varianelor :

aceast a doua asumpie este cea mai dezbtut de ctre specialiti. Unii dintre ei arm c, dac varianele n populaiile din care provin eantioanele nu sunt egale, atunci ANOVA nu poate  aplicat. Alii arm c acest test este irelevant, deoarece rezultatele lui sunt foarte puternic inuenate de forma distribuiei n populaie (testarea egalitii dintre variane nu poate  realizat

dect dac

distribuiile n populaie sunt normale).

ANOVA este o analiz destul de robust, chiar i n cazul n care varianele nu sunt egale; totul este ca diferena dintre variane s nu e foarte mare (adic o varian s nu e de cteva ori mai mare dect alta). Mai mult dect att, analiza este i mai robust la nclcarea acestei asumpii dac eantioanele sunt de mrime egal (n1

= n2 = n3 ).

n concluzie, este bine s evitm aplicarea

acestei analize dac eantioanele sunt mici, au distribuii puternic deplasate de la normalitate i au variane n populaie inegale; dac eantioanele au ns mrime egal, cu distribuii moderat deplasate i variane n populaie moderat inegale, atunci putem aplica analiza cu ncredere. n ceea ce ne privete, vom proceda n mod similar cu testul

t,

unde exist o

variant de formul pentru cazul n care varianele sunt egale (este vorba de cea clasic, predenit n orice program de analiz statistic) i o alt variant de formul pentru cazul n care varianele nu sunt egale (testul Welch, care mai este denumit i testul robust al egalitii mediilor); decizia folosirii uneia sau alteia din variante se ia pe baza valorii lui omogenitii varianelor. Setul de ipoteze din acest test (pentru exemplul nostru particular cu trei eantioane) este:

din testul Levene de testare a

H0 H

A:
p

1 = 2 = 3
cel puin dou variane sunt diferite

n urma efecturii testului cu datele noastre, a fost obinut o valoare a statisticii test

= 0,108 i un

= 0,898. Dup cum se poate judeca din valoarea lui

p,

dovezile sunt zdrobitoare c varianele sunt omogene (sunt aproape 90% anse de a grei armnd contrariul), drept pentru care vom utiliza testul clasic. n ne, a treia asumpie arat c toate elementele eantioanelor trebuie extrase n mod independent, utiliznd o tehnic aleatoare. Un rol major l are metodologia utilizat n cercetare, claritatea cu care a fost fcut instructajul dinaintea cercetrii, corectitudinea cu care operatorii de teren aplic instruciunile primite etc. Cu ct controlm mai bine toate aceste detalii, cu att putem  mai siguri pe rezultatele noastre. A extrage elemente n mod independent unele de altele nseamn c ntre orice pereche de elemente din eantion nu trebuie s e nici o legtur (spre exemplu, doi respondeni s nu e rude).

1.8 Glosar de termeni

15

1.8

Glosar de termeni

Analiza de varian - ANOVA (n engl. ANalisys Of VAriance). O tehnic statistic utilizat pentru a testa egalitatea dintre trei sau mai multe medii.

Distribuia

(n engl.

F Distribution).

O familie de distribuii de eantionare

folosite pentru a testa diferenele dintre medii sau variane, a cror form depinde de doi parametri (gradele de libertate de la numrtor i de la numitor).

Grade de libertate (n engl. Degrees of freedom). Numr de observaii care


pot  alese n mod liber.

MPD - Variana dintre grupuri (n engl. MSB - Mean Square Between sau
Between Group Variance). Medie a sumei ptratelor dintre grupuri, este o estimare a varianei din populaie care calculeaz variaia mediilor de grupuri n jurul mediei generale, mprind SPD la un numr de grade de libertate.

MPI - Variana n interiorul grupurilor (n engl.

MSW - Mean Square

Within sau Within Group Variance). Medie a sumei ptratelor din interiorul grupurilor, este o estimare a varianei din populaie care calculeaz variaia din interiorul tuturor grupurilor (unde grupurile mai mari vor avea o pondere mai mare), mprind SPI la un numr de grade de libertate.

SPD - Suma Ptratelor Dintre grupuri (n engl.

SSB - Sum of Squares

Between). O msur a variaiei dintre grupuri, calculat prin nsumarea ptratelor distanelor de la ecare medie de grup la media general.

SPI - Suma Ptratelor n Interiorul grupurilor (n engl. SSW - Sum of


Squares Within). O msur a variaiei din interiorul tuturor grupurilor, calculat prin nsumarea ptratelor distanelor de la ecare observaie la media grupului de care aparine.

STP - Suma Total a Ptratelor (n engl.

SST - Sum of Squares Total).

Msur a variaiei totale, calculat ca sum dintre SPD i SPI.

Statistica

sau Raportul

(n engl.

statistic sau

ratio).

Este un

raport ntre cele dou estimri ale varianei din populaie (MPD - variaia explicat i MPI - variaia neexplicat). poate  respins. Dac cele dou estimri sunt aproximativ egale atunci raportul va  egal cu 1 iar ipoteza de nul nu

Variaie explicat (n engl.

Explained variation).

Parte a variaiei totale,

explicat de diferenele dintre grupuri.

Variaie neexplicat sau Eroare (n engl. Unexplained variation sau Error).


Parte a variaiei totale care nu poate  explicat i care se datoreaz erorilor aleatoare ale observaiilor n jurul mediilor de grup.

Variaie total (n engl. Total variation). Variaia general a tuturor observaiilor din eantion, egal cu variaia explicat plus variaia neexplicat.