Sunteți pe pagina 1din 17

Cuprins

ANOVA - Analiza de varian

1.1

ANOVA uni-factorial. Concepte de baz. . . . . . . . . . . . . .

1.2

Funcionarea i logica analizei de varian . . . . . . . . . . . . .

1.3

Calcularea varianei dintre grupuri . . . . . . . . . . . . . . . . .

1.4

Calcularea varianei din interiorul grupurilor

1.5

Statistica

F.

. . . . . . . . . . .

Tabelul ANOVA. . . . . . . . . . . . . . . . . . . . .

1.6

Distribuia de eantionare

1.7

Asumpiile analizei de varian

. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .

13

11

1.8

Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

Capitolul 1
ANOVA - Analiza de varian

1.1

ANOVA uni-factorial. Concepte de baz.

Analiza de varian continu seria testelor de semnicaie i ntrete nelegerea


analizei cauzale, facnd trecerea spre analiza de regresie.
Dup cum ne reamintim,

este un test de semnicaie care testeaz diferena

dintre dou medii ale unor variabile metrice.


testului

ANOVA este o generalizare a

t pentru mai mult de dou medii, pentru c deseori n cercetarea social

studiem mai mult de dou grupuri n acelai timp. De subliniat este faptul c
ANOVA poate s e folosit cu rezultate foarte bune i la comparaia dintre
dou medii, ns testul i arat adevrata valoare la trei sau mai multe medii.
Exemple de acest tip pot  multiple:
- putem testa dac mai multe campanii pro-nataliste difer unele de altele
sub aspectul efectelor acestora (sau n sens contrar, s vedem dac mai
multe campanii diferite de prevenire a sarcinilor nedorite difer semnicativ unele de altele); unele campanii se pot orienta cu preponderen ctre
spoturi TV, altele ctre distribuirea de materiale informative tiprite, altele pe consiliere direct .a.m.d.
- putem deasemenea s testm dac mai multe aciuni de cretere a participrii civice difer sau nu n ce privete efectele
- putem testa dac mai multe strategii locale de combatere a srciei difer
sau nu ntre ele, etc.

ANOVA combin i extinde testele

t i 2 , prin testarea egalitii dintre trei sau

mai multe medii (pentru trei sau mai multe grupuri). Se testeaz aadar legtura dintre o variabil metric (pentru care se calculeaz media) i o variabil
calitativ (a crei valori sau categorii sunt considerate grupuri independente).
De asemenea, ANOVA face o introducere clar n analiza cauzal:

variabila

cauz (independent) este cea calitativ iar variabila efect (dependent) este
cea metric.
n exemplul pe care l vom expune, avem urmtoarele dou variabile:

ANOVA - Analiza de varian

vrsta la angajare a unei persoane (variabl raport, metric,

VRST

continu)

strategia de atragere a tinerilor (variabil calitativ, nominal,

STRATIN

cu mai multe categorii - pot exista mai multe strategii posibile)

n aceast carte, noi lum n considerare doar varianta de

ANOVA uni-factorial,

cu un singur factor (n engl. one-way ANOVA), deoarece folosim o singur variabil categorial (denumit n limba englez  factor) pentru a testa diferenele
ntre mediile grupurilor denite de categoriile acesteia (denumite n englez  levels - niveluri sau  treatments - tratamente).
n cazul nostru, ne raportm

doar

la strategia de atragere a tinerilor; este

important ns de tiut c vrsta la angajare a tinerilor poate  inuenat de


diveri factori i c exist variante ale analizei de varian care iau n calcul
mai muli asemenea factori. De pild, varianta care ia n calcul doi factori se
numete

ANOVA bi-factorial

(n engl. two-way ANOVA)iar varianta care ia n

calcul mai muli factori se numete

ANOVA multi-factorial

(n engl. multi-way

ANOVA).

Pentru aceast seciune, s presupunem c studiem oportunitile de acces a


tinerilor pe piaa forei de munc i analizm diferite strategii folosite pentru
a atrage tinerii s se angajeze. Ipoteza pe care dorim s o testm este urm-

media de vrst a persoanelor nou angajate este inuenat de strategia


de atragere utilizat.
toarea:

Setul de ipoteze generale pentru ANOVA este:

H0

A:

1 = 2 = = k
cel puin dou medii sunt diferite

Dup cum se poate observa, ipoteza de nul se refer la mediile din populaie

).

(notate cu

Pentru simplicare, vom lua n considerare doar trei localiti,

care beneciaz de strategii diferite. Din ecare localitate vom extrage cte un
eantion (s spunem de 10 persoane), iar ipotezele devin:

H0

A:

1 = 2 = 3
cel puin dou localiti au medii de vrst sunt diferite

n cuvinte, ipoteza de nul susine c nu este nici o diferen ntre rezultatele


diferitelor strategii (e sunt toate strategiile foarte bune i atrag muli tineri,
e sunt toate foarte slabe i nu atrag tineri) iar ipoteza alternativ susine c
cel puin o strategie d rezultate mai bune dect cel puin una dintre celelalte
(este posibil ca o stratege s aib un rezultat de mijloc, care nu este semnicativ
diferit nici fa de strategia de succes maxim, nici fa de strategia care atrage
cei mai puini tineri; diferen semnicativ n acest caz exist doar ntre prima
i ultima strategie).
Dup cum se poate vedea n Tabelul 1.1, primul grup (cel de control, din
localitatea unde nu s-a aplicat nici o strategie) are o medie a vrstei la angajare
de 27,8 ani cu o abatere standard de 3,65 ani; al doilea grup (din localitatea
unde s-a aplicat prima strategie) are o medie de 23,6 ani cu o abatere standard

1.2 Funcionarea i logica analizei de varian

Tabelul 1.1: Vrstele la angajare a persoanelor n cadrul a 3 eantioane independente.


Nr.crt.

Localitate 1

Localitate 2

Localitate 3

22

28

20

27

22

28

32

24

31

30

18

26

29

21

26

27

26

30

33

25

21

24

20

25

24

24

29

10

30

28

27

27,8

23,6

26,3

3,65

3,34

3,59

de 3,34 ani iar al treilea grup o medie de 26,3 ani cu o abatere standard de 3,59
ani.
La o prim vedere, toate cele trei grupuri conin tineri: exist vreo diferen
semnicativ ntre cele trei medii? Cum testm, mai exact, acest lucru?
n ne, dac obiectivul principal al acestei analize este de a testa diferenele
dintre medii, de ce se numete 

1.2

Analiz de varian ?

Funcionarea i logica analizei de varian

Privind Tabelul 1.1, putem extrage cteva informaii interesante, care ne vor
ajuta n cele ce vor urma.
Avem un eantion total format din 30 de persoane, deci

n = 30.

Acest eantion

este format din trei grupuri independente de cte 10 persoane ecare (subeantioane din trei localiti diferite); avem deci:

n1 = 10, n2 = 10

n3 = 10.

Pentru ecare dintre cele trei localiti/grupuri putem calcula cte o medie i
cte o abatere standard; mai avem aadar:
cu

s2 = 3, 34

x
3 = 26, 3

cu

x
1 = 27, 8

cu

s1 = 3, 65, x
2 = 23, 6

s3 = 3, 59.

n acelai timp, putem calcula o medie general pentru eantionul total (pentru

toate cele 30 de observaii) x

= 25, 9

precum i o abatere standard total

14, 714.
Sintetiznd:

n
n1
n2
n3

= 30
= 10
= 10
= 10

x
x
1
x
2
x
3

= 25, 9
= 27, 8
= 23, 6
= 26, 3

s
s1
s2
s3

= 14, 714
= 3, 65
= 3, 34
= 3, 59

s=

ANOVA - Analiza de varian

Din faptul c putem calcula abaterile standard, avem un prim indiciu c exist
o

variaie intern

n cadrul ecrui grup. n Figura 1.1 se pot observa cele trei

grupuri, ale cror observaii variaz n jurul mediilor reprezentate de punctele


colorate n albastru. Aceast variaie poate  calculat uor,

n parte, cu binecunoscuta formul:

pentru ecare grup

n
X
(xi x
)2

s2 =

i=1

(1.1)

n1

Avem aadar trei variane n interiorul grupurilor (cte o varian pentru ecare
din cele trei grupuri).
Apoi, pentru c exist trei medii diferite pentru ecare eantion, plus o medie
general pentru toate eantioanele, se poate constata o variaie a celor trei medii
de grupuri n jurul mediei generale.

25
20

VRST

30

35

Figura 1.1: Scatterplot al vrstelor la angajare pentru cele trei eantioane.

LOCALITATE
Celor trei medii le corespund punctele de culoare albastr de pe axa

media general (x

= 25, 9)

0y ,

iar

este punctul rou de pe aceeai ax. Poate  uor

observat variaia punctelor albastre n jurul punctului rou, cu alte cuvinte


variaia mediilor de grupuri n jurul mediei generale. n cazul nostru, deoarece
avem doar trei grupuri,

k = 3.

Adaptnd formula 1.1, obinem:

k
X

s2x =

)2
(
xj x

j=1

k1

(1.2)

1.2 Funcionarea i logica analizei de varian

Dup cum ne aducem aminte de la distribuia de eantionare a mediei, deviaia


standard a mediilor n jurul mediei generale este denumit Eroare Standard.

Ecuaia 1.2 indic aadar o estimare a Erorii Standard din populaie, de unde
putem extrage foarte simplu variana din populaie, deoarece:
ES

=
n

ntre grupuri (varin interiorul grupurilor

Ne confruntm, deci, cu dou tipuri de variaii: o variaie


aia mediilor de grup n jurul mediei generale) i una

(variaiile observaiilor n jurul ecrei medii de grup). Ambele tipuri de variaii


sunt folosite ca estimri ale

variaiei generale

n populaie.

IMPORTANT!
Analiza de varian se bazeaz pe comparaia dintre dou
estimri ale varianei

pentru ntreaga populaie.

Logica analizei este urmtoarea: dac cele dou estimri ale varianei din populaie

sunt aproximativ egale, atunci ipoteza de nul este adevrat (n

populaie, toate mediile sunt egale).

Dac ipoteza de nul nu este adevrat,

atunci cele dou estimri ale varianei vor  semnicativ diferite.


Analiza de varian se efectueaz n trei pai:

dintre mediile

Calcularea primei estimri a varianei n populaie: variana

Calcularea celei de a doua estimri a varianei n populaie: variana

Se compar cele dou estimri cu ajutorul statisticii test

grupurilor

interiorul grupurilor

F.

din

Dac sunt

aproximativ egale (raportul dintre cele dou este aproape de valoarea 1),
atunci

nu respingem

ipoteza de nul.

Un lucru important de care trebuie s ne aducem aminte (de la msurile tendinei centrale, capitolul de descriere a variabilelor) este caracterizarea varianei;
s mai examinm nc odat formula:

n
X

s2 =
Avem n partea de sus o

libertat e (gl

(xi x
)2

i=1

n1

sum de ptrate,

= numrul de observaii

mprit la un numr de

vorbeam). Ecuaia de mai sus mai poate  scris ca:

s2 =

grade de

minus 1, detalii la capitolul de care

SP

gl

ANOVA - Analiza de varian

Dup cum tim, orice sum mprit la numrul de observaii se numete

medie,

de unde reiese c variana nu este nimic altceva dect o medie a unei sume de
ptrate.
De aici i denumirile pe care le poart, n literatura de specialitate, cele dou
estimri ale varianei din populaie

2 :

MPD (Media sumei Ptratelor Dintre grupuri) - variana dintre mediile


grupurilor, unde:
MPD

SPD

glD

MPI (Media sumei Ptratelor din Interiorul grupurilor) - variana din


interiorul grupurilor, unde:
MPI

SPI

glI

IMPORTANT!
Att MPD ct i MPI reprezint estimri ale varianei n
populaie, deci pot  notate amndou cu

1.3

2.

Calcularea varianei dintre grupuri

Aplicm mai nti formula din Ecuaia 1.2:

k
X

s2x =

)2
(
xj x

j=1

k1

Folosind estimarea Erorii Standard, obinem estimarea varianei din populaie:

c
ES
n aceast formul,

=
n

2 = nES

de unde reiese c

este mrimea total a eantionului.

estimarea Erorii Standard, putem nlocui pe

c
ES

Cum

sx

este chiar

2
cu sx
i obinem:

2 = ns2x
k
X

2 = MPD =
Numrul de observaii

n,

)2
n(
xj x

j=1

k1

ind o constant, poate sta oriunde: naintea fraciei,

naintea sumei sau chiar n interiorul sumei.

Exist un motiv special pentru

1.4 Calcularea varianei din interiorul grupurilor

care

st n interiorul sumei, pentru c trebuie s lum n calcul i mrimea

grupurilor (n cazul nostru cele trei grupuri au mrime egal, ns de obicei nu


este aa); distana dintre media de grup
cu mrimea grupului respectiv

nj

x
j
k
X

MPD

va  ponderat
i media general x

(rezultatul nal ind exact acelai):

SPD

glD

)2
nj (
xj x

j=1

(1.3)

k1

Cu alte cuvinte, grupurile mai mari vor avea o pondere mai mare (vor

cntri

mai mult n calcul) dect grupurile mai mici, ceea ce este absolut normal.
Se poate observa c

numrul de grade de libertate

pentru MPD este

gl = k 1.

Efectund calculele pentru exemplul nostru:

MPD

10(27, 8 25, 9)2 + 10(23, 6 25, 9)2 + 10(26, 3 25, 9)2


31

36, 1 + 52, 9 + 1, 6
90, 6
=
2
2

MPD =

MPD = 45, 3
Spunem c variana

1.4

dintre

grupuri este egal cu 45,3.

Calcularea varianei din interiorul grupurilor

O ntrebare pertinent n acest moment este:

interiorul grupurilor ?

ce nelegem prin variana din

Avem trei grupuri, deci trei variane (cte una n interiorul

ecruia); pe care dintre cele trei o folosim?


Exist dou rspunsuri posibile:

1. putem folosi oricare dintre cele trei variane, dac ele sunt egale n populaie (ceea ce ne duce spre una dintre asumpiile acestei analize, prezentat
n Seciunea 1.7)
2. putem folosi o medie ponderat a tuturor celor trei variane, folosind o
procedur derivat de asemenea din formula clasic a varianei.

Avnd trei grupuri, adunm trei sume de ptrate:

n1
n2
n3
X
X
X
(x1i x
1 )2 +
(x2i x
2 )2 +
(x3i x
3 )2
MPI

SPI

gl

i=1

i=1

n1 1

i=1

n2 1

n3 1

ANOVA - Analiza de varian

Partea de jos a ecuaiei este egal cu

n1 +n2 +n3 3 = n3 (pierdem trei grade

de libertate pentru c avem trei puncte xe: mediile corespunztoare celor trei
grupuri).

La modul general (cu

grupuri) aceasta va  egal cu

n k,

iar

ecuaia poate  scris sub forma unei sume duble:

nj
k X
X
MPI

Numrul de grade de libertate

SPI

glI

(xji x
j )2

j=1 i=1

(1.4)

nk

pentru MPI este aadar:

gl = n k .

Ecuaia 1.4 poate  simplicat i mai mult, folosind formula varianei:

nj
X

s2j =

(xji x
j )2

i=1

nj 1

pentru ecare dintre cele

nj
X
(xji x
j )2 = (nj 1)s2j

i=1

j = 1. . .k

grupuri, de unde:

k
X
MPI

SPI

gl

(nj 1)s2j

j=1

(1.5)

nk

La fel ca la MPD, avem i aici o medie ponderat a varianelor celor

grupuri

(aici ns ponderarea s-a realizat prin utilizarea gradelor de libertate ale ecrui
grup): grupurile de mrime mai mare vor avea o pondere mai mare n calcul.
Aplicnd Ecuaia 1.5 pentru exemplul nostru cu trei eantioane:

MPI

(10 1)3, 652 + (10 1)3, 342 + (10 1)3, 592


30 3

MPI =

119, 6 + 100, 4 + 116, 1


336, 1
=
27
27

MPI = 12, 448


Spunem c variana

n interiorul

grupurilor este egal cu 12,448.

Ecuaiile 1.3 i 1.5 sunt cele folosite pentru calcularea celor dou estimri ale
varianei n populaie, n cazul general cu

grupuri i mrimi

nk

ale grupurilor.

Formulele utilizate nu sunt foarte complicate (chiar dac aa par la prima


vedere), bazndu-se exclusiv pe formula clasic a varianei.

Din fericire pen-

tru persoanele cu abiliti matematice mai sczute, ele nu trebuie calculate de


mn; computerul ne va da automat rezultatele, singura noastr grij ind aceea
de a le interpreta corect.

1.5 Statistica

1.5

F.

Tabelul ANOVA.

Statistica

F.

Tabelul ANOVA.

Cel de-al treilea pas n efectuarea analizei de varian este calcularea statisticii
test

F,

ca raport ntre cele dou estimri ale varianei n populaie:

F=

Variana dintre grupuri


Variana n interiorul grupurilor

sau mai simplu:

F=

MPD

(1.6)

MPI

Dup cum vom vedea, exist un motiv puternic pentru faptul c MPD se a
la numrtor, n partea de sus a fraciei.
Multe din informaiile prezentate n continuare sunt explicate n detaliu la Capi-

tolul ?? - Regresia liniar simpl; n general, multe informaii n statistic se


bazeaz pe altele, formnd un tot unitar. Singura metod de a nelege corect
toate informaiile este de a citi capitolele care fac referiri unele la altele i de a
reciti un capitol cu referinele proaspt citite.
S vedem ns cum interpretm raportul

F:

MPI, variana n interiorul grupuri-

lor, este un bun estimator al varianei din populaie

2 , indiferent

dac ipoteza

de nul este sau nu adevrat. Aceasta deoarece MPI se bazeaz pe variaiile din
interiorul ecrui grup, care luate mpreun ofer o imagine destul de bun (o
estimare destul de bun) a lui

2 .

Partea care se a sub lupa testului este ns MPD; dac ipoteza de nul este
adevrat (toate mediile sunt egale) atunci i MPD va  un bun estimator a
lui

2 .

n aceast situaie MPD va avea o valoare apropiat de cea a lui MPI,

iar valoarea lui

va  aproape de 1 (raportul dintre dou cantiti egale este

egal cu 1). Cu ct valoarea lui

se va apropia mai mult de 1, cu att va crete

probabilitatea de a grei respingnd ipoteza de nul.


n cealalt situaie, n care ipoteza de nul nu este adevrat (adic cel puin
una dintre medii este semnicativ diferit), atunci valoarea lui

se va mri

considerabil; n acelai timp, probabilitatea de a grei respingnd ipoteza de nul


se va micora pe msur. Acest lucru se ntmpl deoarece diferenele dintre
grupuri tind s mreasc MPD.

IMPORTANT!
Statistica

este o msur care ne arat ct de mult variaie

se datoreaz diferenelor dintre grupuri, raportat la variaia


generat de selecia aleatoare a eantionului.

Pentru a nelege i mai bine aceste lucruri, vom introduce nc o sum de


ptrate, ignorat pn acum:

STP (Suma Total a Ptratelor); este vorba

despre distana dintre toate observaiile din eantionul general n jurul mediei

:
generale x
STP

n
X
)2
(xi x
i=1

10

ANOVA - Analiza de varian

Dac mprim STP la

n1

vom obine variana pentru eantionul general, a

tuturor observaiilor. Deoarece variana este o msur a variaiei iar STP face
parte din formula acesteia, rezult c STP este de asemenea o

bun msur

variaiei totale. Se poate arta c:


STP

= SPD + SPI

(1.7)

Cu alte cuvinte, cantitatea total de variaie este egal cu cantitatea de variaie


explicat de diferenele dintre grupuri plus cantitatea de variaie rmas neexplicat (erorile aleatoare n jurul mediei); pe scurt, variaia total este egal cu
variaia explicat plus variaia neexplicat, iar valoarea lui

se poate deni ca

raport ntre cele dou:

F=

VE

(1.8)

VN

Cu ct variaia explicat va  mai mare, cu att va scdea variaia neexplicat,


iar valoarea lui

F va crete spectaculos; invers, cu ct variaia explicat va  mai

mic (ceea ce nseamn c diferenele dintre grupuri sunt foarte mici), cu att
va crete variaia neexplicat (datorat erorilor aleatoare) iar valoarea lui

va

tinde spre zero (la limit, cnd grupurile seamn perfect i nu exist absolut
nici o diferen ntre ele, variaia explicat va  egal cu zero).
Diverse programe de analiz statistic pot s difere foarte puin n modul de
prezentare a rezultatelor, ns toate se vor referi la exact acelai lucru; n general,
orice tabel de rezultate va conine urmtoarele lucruri:
Suma

gl

Ptratelor

Variana

ntre grupuri

k - 1

SPD

MPD

n interiorul grupurilor

n - k

SPI

MPI

Total

n - 1

STP

Valoare

F=

MPD
MPI

Pr(>F)

Evident c aceasta este o variant n limba romn a tabelului; pentru c cele


mai bune programe statistice sunt n limba englez, rezultatele aate de calculator vor avea denumirile ca n urmtorul tabel:
df

Sum of Squares

Mean Square

Between

k - 1

SSB

MSB

Within

n - k

SSW

MSW

Total

n - 1

SST

F value
MSB
F = MSW

p
Pr(>F)

Uneori pot s apar prescurtri de genul Sum Sq sau Mean Sq, iar n loc de

se poate gsi frecvent Sig. (vom vedea semnicaia acestora n urmtoarea

seciune). Mai departe:

df  se refer la

Sum of Squares nseamn Suma Ptratelor

SSB (n engl. Sum of Squares Between) este echivalent cu SPD

SSW (n engl. Sum of Squares Within) este echivalent cu SPI

gl

- gradele de libertate

1.6 Distribuia de eantionare

11

SST (n engl. Sum of Squares Total) este echivalent cu STP

MSB (n engl. Mean Square Between) este echivalent cu MPD

MSW (n engl. Mean Square Within) este echivalent cu MPI

Efectund calculele pentru exemplul nostru, am obinut urmtorul tabel:


Suma

gl
ntre grupuri

Valoare

Ptratelor

90,6

n interiorul grupurilor

27

336,1

Total

29

426,7

Variana
45,3

p
0,040

12,448

Se poate vedea foarte clar modul cum a fost calculat

F=

3,639

F:

45, 3
= 3, 639
12, 45

Valoarea de 3,639 (mult mai mare dect 1) ne sugereaz c ipoteza de nul este
pe cale de a  respins, pentru c variaia explicat de diferenele dintre grupuri
este mult mai mare dect variaia datorat erorilor aleatoare; existnd diferene
majore ntre grupuri, vor exista cu siguran i diferene ntre mediile acestora.
La fel ca la testele

2 ,

decizia se ia dup compararea acestei valori cu una

p cu pragul de
p este mai mic dect = 5% (un prag generic, pentru un

critic. Modalitatea alternativ este de a compara valoarea lui


semnicaie ales; cum

nivel de ncredere de 95%), vom respinge ipoteza de nul: cel puin una dintre
strategii a dat rezultate.

1.6

Distribuia de eantionare

n mod similar cu testele

2 ,

analiza de varian folosete o distribuie de

eantionare numit pe scurt Distribuia

F.

Modul de testare a ipotezei de nul

este de asemenea similar, prin calcularea unei valori


valoare

F critice cu care se compar


p obinute cu pragul de

obinut n test, sau prin compararea valorii

semnicaie

Ca la orice distribuie de eantionare, putem distinge o prim caracteristic a


distribuiei

F:

este

continu

(existnd o innitate de eantioane posibile), cu un

interval de valori care poate varia ntre 0 i

+.

Dup cum am mai artat, cnd eantioanele sunt perfect similare (media lor
este exact aceeai) atunci MPD va  egal cu 0 iar

va  egal de asemenea egal

cu 0; la cellalt pol, cnd eantioanele sunt total diferite (diferena dintre medii
este maxim) atunci MPI va  egal cu 0 iar

va  egal cu

caracteristic a distribuiei este aceea c valorile lui

sunt

+.

Astfel, o alt

non-negative

(mai

mari sau egale cu zero).


Tot similar cu distribuiile

t i 2 , nu exist o singur distribuie F, ci o ntreag

familie de distribuii; dac ns pn acum forma distribuiilor depindea de un

12

ANOVA - Analiza de varian

singur numr de grade de libertate, la analiza de varian forma distribuiilor


depinde de

o pereche

de grade de libertate.

Figura 1.2 arat trei asemenea distribuii, unde primul numr reprezint numrul de grade de libertate de la numrtor (din MPD), iar cel de al doilea numr
reprezint numrul de grade de libertate de la numitor (din MPI).

Figura 1.2: Trei distribuii

F,

cu:

(11,100) grade de libertate


(8,30) grade de libertate
(5,10) grade de libertate

Dup cum se poate vedea toate curbele sunt mai mult sau mai puin alungite la
dreapta, ecare avnd un singur mod. Acestea sunt alte dou caracteristici ale
distribuiei

F:

este

unimodal

alungit la dreapta.

La numr mic al gradelor

de libertate pentru numrtor (cu alte cuvinte, pentru numr mic de grupuri),
curba se apropie din ce n ce mai mult de axa vertical; spre exemplu, la o
pereche (1,100) curba va  chiar lipit de axa

0y .

Odat cu creterea numrului

de grade de libertate, cozile distribuiilor se vor apropia din ce n ce mai mult


de axa orizontal

0x,

ns nu o vor atinge dect la innit.

Forma distribuiei se modic deci odat cu creterea numrului de grade de


libertate (att la numrtor ct i la numitor), ind din ce n ce mai puin alungit la dreapta. n principiu, creterea volumului total al eantionului modic
distribuia pn la o form relativ apropiat de distribuia normal.
Rezumnd, proprietile distribuiei

sunt urmtoarele:

1. este continu
2. este non-negativ
3. este uni-modal
4. este alungit la dreapta
5. aria de sub curb este egal cu 1

Testul

este uni-direcional,

doar

pe coada din dreapta; asta nseamn c pro-

babilitatea de eroare calculat va  reprezentat ca o arie sub curb numai n


partea dreapt. Exist o singur valoare critic a lui

F, n dreapta creia se a

aria de sub curb corespunztoare nivelului de semnicaie ales.

1.7 Asumpiile analizei de varian

Valoarea critic a lui

13

poate  gsit cu ajutorul tabelelor de valori care pot

 gsite n anexele oricrui manual de statistic.

Exist mai multe tabele de

valori, cte unul pentru ecare nivel de semnicaie clasic: 10%, 5%, 2,5%, 1%
i uneori chiar 0,1%.
Modul de citire a tabelelor este foarte simplu: a) se alege tabelul corespunztor
nivelului de semnicaie ales; b) se localizeaz numrul de grade de libertate de
la numrtor (k

1,

de la MPD) pe orizontal, n partea de sus a tabelului; c)

se localizeaz numrul de grade de libertate de la numitor (n

k,

de la MPI)

pe vertical, n partea din stnga a tabelului; d) la intersecia dintre coloana i


linia identicate se a valoarea critic a lui

F.

Figura 1.3: Probabilitatea de eroare de tipul I, valoarea critic i valoarea calculat a lui

F,

pe o distribuie cu o pereche (2, 27) grade de libertate

Zona de
respingere

Aria egal
cu = 5%

Valoarea calculat
a lui F = 3,639

FCR

Pentru exemplul nostru, la un nivel de semnicaie


lui

este aproximativ egal cu 3,35.

3,39

= 5%,

valoarea critic a

Valoarea calculat a lui

este egal cu

3,639 i este mai mare dect valoarea critic, intrnd n zona de respingere a
ipotezei de nul (colorat cu albastru).

1.7

Asumpiile analizei de varian

Pentru a putea utiliza aceast analiz, trebuie s ne asigurm c sunt ndeplinite


urmtoarele condiii/asumpii:
1. Fiecare eantion este extras dintr-o populaie cu o distribuie normal.
2. Populaiile din care au fost extrase eantioanele au aceeai varian (cu
alte cuvinte, toate variaz n aceeai msur).
3. Eantioanele sunt extrase n mod aleator i independent.
Ca i la testele

t i 2 , prima asumpie este legat de normalitatea distribuiilor:

populaiile din care au fost extrase eantioanele trebuie s aib o distribuie


normal. Aa cum se ntmpl mai ntotdeauna n practic, ns, asumpia de
normalitate este rareori satisfcut (cazurile n care populaia are o distribuie
perfect normal sunt foarte rare, dac nu inexistente).

14

ANOVA - Analiza de varian

Exist totui o soluie: violarea acestei asumpi poate  tolerat, dac eantionul
este

sucient de mare

(deoarece n acest caz distribuia de eantionare nu mai

depinde de forma distribuiei n populaie).


Pentru a verica dac distribuiile sunt normale, se construiete cte o histogram a variabilei metrice pentru ecare grup (atenie ns:

histogramele

sunt relevante doar pentru eantioane mari).


Asumpia de baz a analizei de varian este cea a

omogenitii varianelor :

aceast a doua asumpie este cea mai dezbtut de ctre specialiti. Unii dintre ei arm c, dac varianele n populaiile din care provin eantioanele nu
sunt egale, atunci ANOVA nu poate  aplicat. Alii arm c acest test este
irelevant, deoarece rezultatele lui sunt foarte puternic inuenate de forma distribuiei n populaie (testarea egalitii dintre variane nu poate  realizat

dect dac

distribuiile n populaie sunt normale).

ANOVA este o analiz destul de robust, chiar i n cazul n care varianele nu


sunt egale; totul este ca diferena dintre variane s nu e foarte mare (adic
o varian s nu e de cteva ori mai mare dect alta). Mai mult dect att,
analiza este i mai robust la nclcarea acestei asumpii dac eantioanele sunt
de mrime egal (n1

= n2 = n3 ).

n concluzie, este bine s evitm aplicarea

acestei analize dac eantioanele sunt mici, au distribuii puternic deplasate de


la normalitate i au variane n populaie inegale; dac eantioanele au ns
mrime egal, cu distribuii moderat deplasate i variane n populaie moderat
inegale, atunci putem aplica analiza cu ncredere.
n ceea ce ne privete, vom proceda n mod similar cu testul

t,

unde exist o

variant de formul pentru cazul n care varianele sunt egale (este vorba de
cea clasic, predenit n orice program de analiz statistic) i o alt variant
de formul pentru cazul n care varianele nu sunt egale (testul Welch, care
mai este denumit i testul robust al egalitii mediilor); decizia folosirii uneia
sau alteia din variante se ia pe baza valorii lui

din testul Levene de testare a

omogenitii varianelor.
Setul de ipoteze din acest test (pentru exemplul nostru particular cu trei eantioane) este:

H0

A:

1 = 2 = 3
cel puin dou variane sunt diferite

n urma efecturii testului cu datele noastre, a fost obinut o valoare a statisticii


test

= 0,108 i un

= 0,898. Dup cum se poate judeca din valoarea lui

p,

dovezile sunt zdrobitoare c varianele sunt omogene (sunt aproape 90% anse
de a grei armnd contrariul), drept pentru care vom utiliza testul clasic.
n ne, a treia asumpie arat c toate elementele eantioanelor trebuie extrase
n mod independent, utiliznd o tehnic aleatoare. Un rol major l are metodologia utilizat n cercetare, claritatea cu care a fost fcut instructajul dinaintea
cercetrii, corectitudinea cu care operatorii de teren aplic instruciunile primite
etc. Cu ct controlm mai bine toate aceste detalii, cu att putem  mai siguri
pe rezultatele noastre. A extrage elemente n mod independent unele de altele
nseamn c ntre orice pereche de elemente din eantion nu trebuie s e nici
o legtur (spre exemplu, doi respondeni s nu e rude).

1.8 Glosar de termeni

1.8

15

Glosar de termeni

Analiza de varian - ANOVA (n engl. ANalisys Of VAriance). O tehnic statistic utilizat pentru a testa egalitatea dintre trei sau mai multe
medii.

Distribuia

(n engl.

F Distribution).

O familie de distribuii de eantionare

folosite pentru a testa diferenele dintre medii sau variane, a cror form
depinde de doi parametri (gradele de libertate de la numrtor i de la
numitor).

Grade de libertate (n engl. Degrees of freedom). Numr de observaii care


pot  alese n mod liber.

MPD - Variana dintre grupuri (n engl. MSB - Mean Square Between sau
Between Group Variance). Medie a sumei ptratelor dintre grupuri, este
o estimare a varianei din populaie care calculeaz variaia mediilor de
grupuri n jurul mediei generale, mprind SPD la un numr de grade de
libertate.

MPI - Variana n interiorul grupurilor (n engl.

MSW - Mean Square

Within sau Within Group Variance). Medie a sumei ptratelor din interiorul grupurilor, este o estimare a varianei din populaie care calculeaz
variaia din interiorul tuturor grupurilor (unde grupurile mai mari vor avea
o pondere mai mare), mprind SPI la un numr de grade de libertate.

SPD - Suma Ptratelor Dintre grupuri (n engl.

SSB - Sum of Squares

Between). O msur a variaiei dintre grupuri, calculat prin nsumarea


ptratelor distanelor de la ecare medie de grup la media general.

SPI - Suma Ptratelor n Interiorul grupurilor (n engl. SSW - Sum of


Squares Within). O msur a variaiei din interiorul tuturor grupurilor,
calculat prin nsumarea ptratelor distanelor de la ecare observaie la
media grupului de care aparine.

STP - Suma Total a Ptratelor (n engl.

SST - Sum of Squares Total).

Msur a variaiei totale, calculat ca sum dintre SPD i SPI.

Statistica

sau Raportul

(n engl.

statistic sau

ratio).

Este un

raport ntre cele dou estimri ale varianei din populaie (MPD - variaia
explicat i MPI - variaia neexplicat).

Dac cele dou estimri sunt

aproximativ egale atunci raportul va  egal cu 1 iar ipoteza de nul nu


poate  respins.

Variaie explicat (n engl.

Explained variation).

Parte a variaiei totale,

explicat de diferenele dintre grupuri.

Variaie neexplicat sau Eroare (n engl. Unexplained variation sau Error).


Parte a variaiei totale care nu poate  explicat i care se datoreaz
erorilor aleatoare ale observaiilor n jurul mediilor de grup.

Variaie total (n engl. Total variation). Variaia general a tuturor observaiilor din eantion, egal cu variaia explicat plus variaia neexplicat.

S-ar putea să vă placă și

  • Comunicarea Directa Si Cea Mediata - Neagu Andreea, MRU, Anul 3, Gr2
    Comunicarea Directa Si Cea Mediata - Neagu Andreea, MRU, Anul 3, Gr2
    Document3 pagini
    Comunicarea Directa Si Cea Mediata - Neagu Andreea, MRU, Anul 3, Gr2
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Planul de Marketing 2
    Planul de Marketing 2
    Document53 pagini
    Planul de Marketing 2
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Proiect Marketing VPH Petrescu Mirela
    Proiect Marketing VPH Petrescu Mirela
    Document16 pagini
    Proiect Marketing VPH Petrescu Mirela
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Pub Final
    Pub Final
    Document9 pagini
    Pub Final
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Dosare
    Dosare
    Document9 pagini
    Dosare
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Fenomene de Devianta
    Fenomene de Devianta
    Document59 pagini
    Fenomene de Devianta
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Chelceaa
    Chelceaa
    Document4 pagini
    Chelceaa
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Stella
    Stella
    Document6 pagini
    Stella
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Dosarul Z
    Dosarul Z
    Document3 pagini
    Dosarul Z
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Proiect Marketing VPH Petrescu Mirela
    Proiect Marketing VPH Petrescu Mirela
    Document16 pagini
    Proiect Marketing VPH Petrescu Mirela
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Lege Publicitate Stradala
    Lege Publicitate Stradala
    Document15 pagini
    Lege Publicitate Stradala
    Dan George III
    Încă nu există evaluări
  • Chelceaa
    Chelceaa
    Document4 pagini
    Chelceaa
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Chestionar Elev
    Chestionar Elev
    Document2 pagini
    Chestionar Elev
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Proiect 1 Alice Manu
    Proiect 1 Alice Manu
    Document9 pagini
    Proiect 1 Alice Manu
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Dosar
    Dosar
    Document6 pagini
    Dosar
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Clasele A XII-A PROIECT
    Clasele A XII-A PROIECT
    Document12 pagini
    Clasele A XII-A PROIECT
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Dosarul Z.I.
    Dosarul Z.I.
    Document10 pagini
    Dosarul Z.I.
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Dosarul Z.I.
    Dosarul Z.I.
    Document10 pagini
    Dosarul Z.I.
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Articole Violenta in Scoli
    Articole Violenta in Scoli
    Document1 pagină
    Articole Violenta in Scoli
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Teoria Matematică A Informaţiei
    Teoria Matematică A Informaţiei
    Document2 pagini
    Teoria Matematică A Informaţiei
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Bibliografie
    Bibliografie
    Document4 pagini
    Bibliografie
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • New Microsoft Office Word Document
    New Microsoft Office Word Document
    Document1 pagină
    New Microsoft Office Word Document
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Tema Power Point
    Tema Power Point
    Document1 pagină
    Tema Power Point
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Sociologia Corpului - Lista Temelor
    Sociologia Corpului - Lista Temelor
    Document1 pagină
    Sociologia Corpului - Lista Temelor
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • E.S.+M.C.S. - Petrescu Mirela g2S2A2
    E.S.+M.C.S. - Petrescu Mirela g2S2A2
    Document7 pagini
    E.S.+M.C.S. - Petrescu Mirela g2S2A2
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Clasele A XII-A PROIECT
    Clasele A XII-A PROIECT
    Document12 pagini
    Clasele A XII-A PROIECT
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Prelegere 04
    Prelegere 04
    Document31 pagini
    Prelegere 04
    Mirela-Alexandra Petrescu
    Încă nu există evaluări
  • Plan Curs1
    Plan Curs1
    Document3 pagini
    Plan Curs1
    Ceren Ergul
    Încă nu există evaluări
  • Sem Expl 1
    Sem Expl 1
    Document22 pagini
    Sem Expl 1
    Mirela-Alexandra Petrescu
    Încă nu există evaluări