Documente Academic
Documente Profesional
Documente Cultură
1.1
1.2
1.3
1.4
1.5
Statistica
F.
. . . . . . . . . . .
Tabelul ANOVA. . . . . . . . . . . . . . . . . . . . .
1.6
Distribuia de eantionare
1.7
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
13
11
1.8
Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Capitolul 1
ANOVA - Analiza de varian
1.1
studiem mai mult de dou grupuri n acelai timp. De subliniat este faptul c
ANOVA poate s e folosit cu rezultate foarte bune i la comparaia dintre
dou medii, ns testul i arat adevrata valoare la trei sau mai multe medii.
Exemple de acest tip pot multiple:
- putem testa dac mai multe campanii pro-nataliste difer unele de altele
sub aspectul efectelor acestora (sau n sens contrar, s vedem dac mai
multe campanii diferite de prevenire a sarcinilor nedorite difer semnicativ unele de altele); unele campanii se pot orienta cu preponderen ctre
spoturi TV, altele ctre distribuirea de materiale informative tiprite, altele pe consiliere direct .a.m.d.
- putem deasemenea s testm dac mai multe aciuni de cretere a participrii civice difer sau nu n ce privete efectele
- putem testa dac mai multe strategii locale de combatere a srciei difer
sau nu ntre ele, etc.
mai multe medii (pentru trei sau mai multe grupuri). Se testeaz aadar legtura dintre o variabil metric (pentru care se calculeaz media) i o variabil
calitativ (a crei valori sau categorii sunt considerate grupuri independente).
De asemenea, ANOVA face o introducere clar n analiza cauzal:
variabila
cauz (independent) este cea calitativ iar variabila efect (dependent) este
cea metric.
n exemplul pe care l vom expune, avem urmtoarele dou variabile:
VRST
continu)
STRATIN
ANOVA uni-factorial,
cu un singur factor (n engl. one-way ANOVA), deoarece folosim o singur variabil categorial (denumit n limba englez factor) pentru a testa diferenele
ntre mediile grupurilor denite de categoriile acesteia (denumite n englez levels - niveluri sau treatments - tratamente).
n cazul nostru, ne raportm
doar
ANOVA bi-factorial
ANOVA multi-factorial
(n engl. multi-way
ANOVA).
H0
A:
1 = 2 = = k
cel puin dou medii sunt diferite
Dup cum se poate observa, ipoteza de nul se refer la mediile din populaie
).
(notate cu
care beneciaz de strategii diferite. Din ecare localitate vom extrage cte un
eantion (s spunem de 10 persoane), iar ipotezele devin:
H0
A:
1 = 2 = 3
cel puin dou localiti au medii de vrst sunt diferite
Localitate 1
Localitate 2
Localitate 3
22
28
20
27
22
28
32
24
31
30
18
26
29
21
26
27
26
30
33
25
21
24
20
25
24
24
29
10
30
28
27
27,8
23,6
26,3
3,65
3,34
3,59
de 3,34 ani iar al treilea grup o medie de 26,3 ani cu o abatere standard de 3,59
ani.
La o prim vedere, toate cele trei grupuri conin tineri: exist vreo diferen
semnicativ ntre cele trei medii? Cum testm, mai exact, acest lucru?
n ne, dac obiectivul principal al acestei analize este de a testa diferenele
dintre medii, de ce se numete
1.2
Analiz de varian ?
Privind Tabelul 1.1, putem extrage cteva informaii interesante, care ne vor
ajuta n cele ce vor urma.
Avem un eantion total format din 30 de persoane, deci
n = 30.
Acest eantion
este format din trei grupuri independente de cte 10 persoane ecare (subeantioane din trei localiti diferite); avem deci:
n1 = 10, n2 = 10
n3 = 10.
Pentru ecare dintre cele trei localiti/grupuri putem calcula cte o medie i
cte o abatere standard; mai avem aadar:
cu
s2 = 3, 34
x
3 = 26, 3
cu
x
1 = 27, 8
cu
s1 = 3, 65, x
2 = 23, 6
s3 = 3, 59.
n acelai timp, putem calcula o medie general pentru eantionul total (pentru
= 25, 9
14, 714.
Sintetiznd:
n
n1
n2
n3
= 30
= 10
= 10
= 10
x
x
1
x
2
x
3
= 25, 9
= 27, 8
= 23, 6
= 26, 3
s
s1
s2
s3
= 14, 714
= 3, 65
= 3, 34
= 3, 59
s=
Din faptul c putem calcula abaterile standard, avem un prim indiciu c exist
o
variaie intern
n
X
(xi x
)2
s2 =
i=1
(1.1)
n1
Avem aadar trei variane n interiorul grupurilor (cte o varian pentru ecare
din cele trei grupuri).
Apoi, pentru c exist trei medii diferite pentru ecare eantion, plus o medie
general pentru toate eantioanele, se poate constata o variaie a celor trei medii
de grupuri n jurul mediei generale.
25
20
VRST
30
35
LOCALITATE
Celor trei medii le corespund punctele de culoare albastr de pe axa
media general (x
= 25, 9)
0y ,
iar
k = 3.
k
X
s2x =
)2
(
xj x
j=1
k1
(1.2)
Ecuaia 1.2 indic aadar o estimare a Erorii Standard din populaie, de unde
putem extrage foarte simplu variana din populaie, deoarece:
ES
=
n
variaiei generale
n populaie.
IMPORTANT!
Analiza de varian se bazeaz pe comparaia dintre dou
estimri ale varianei
Logica analizei este urmtoarea: dac cele dou estimri ale varianei din populaie
dintre mediile
grupurilor
interiorul grupurilor
F.
din
Dac sunt
aproximativ egale (raportul dintre cele dou este aproape de valoarea 1),
atunci
nu respingem
ipoteza de nul.
Un lucru important de care trebuie s ne aducem aminte (de la msurile tendinei centrale, capitolul de descriere a variabilelor) este caracterizarea varianei;
s mai examinm nc odat formula:
n
X
s2 =
Avem n partea de sus o
libertat e (gl
(xi x
)2
i=1
n1
sum de ptrate,
= numrul de observaii
mprit la un numr de
s2 =
grade de
SP
gl
medie,
de unde reiese c variana nu este nimic altceva dect o medie a unei sume de
ptrate.
De aici i denumirile pe care le poart, n literatura de specialitate, cele dou
estimri ale varianei din populaie
2 :
SPD
glD
SPI
glI
IMPORTANT!
Att MPD ct i MPI reprezint estimri ale varianei n
populaie, deci pot notate amndou cu
1.3
2.
k
X
s2x =
)2
(
xj x
j=1
k1
c
ES
n aceast formul,
=
n
2 = nES
de unde reiese c
c
ES
Cum
sx
este chiar
2
cu sx
i obinem:
2 = ns2x
k
X
2 = MPD =
Numrul de observaii
n,
)2
n(
xj x
j=1
k1
care
nj
x
j
k
X
MPD
va ponderat
i media general x
SPD
glD
)2
nj (
xj x
j=1
(1.3)
k1
Cu alte cuvinte, grupurile mai mari vor avea o pondere mai mare (vor
cntri
mai mult n calcul) dect grupurile mai mici, ceea ce este absolut normal.
Se poate observa c
gl = k 1.
MPD
36, 1 + 52, 9 + 1, 6
90, 6
=
2
2
MPD =
MPD = 45, 3
Spunem c variana
1.4
dintre
interiorul grupurilor ?
1. putem folosi oricare dintre cele trei variane, dac ele sunt egale n populaie (ceea ce ne duce spre una dintre asumpiile acestei analize, prezentat
n Seciunea 1.7)
2. putem folosi o medie ponderat a tuturor celor trei variane, folosind o
procedur derivat de asemenea din formula clasic a varianei.
n1
n2
n3
X
X
X
(x1i x
1 )2 +
(x2i x
2 )2 +
(x3i x
3 )2
MPI
SPI
gl
i=1
i=1
n1 1
i=1
n2 1
n3 1
de libertate pentru c avem trei puncte xe: mediile corespunztoare celor trei
grupuri).
n k,
iar
nj
k X
X
MPI
SPI
glI
(xji x
j )2
j=1 i=1
(1.4)
nk
gl = n k .
nj
X
s2j =
(xji x
j )2
i=1
nj 1
nj
X
(xji x
j )2 = (nj 1)s2j
i=1
j = 1. . .k
grupuri, de unde:
k
X
MPI
SPI
gl
(nj 1)s2j
j=1
(1.5)
nk
grupuri
(aici ns ponderarea s-a realizat prin utilizarea gradelor de libertate ale ecrui
grup): grupurile de mrime mai mare vor avea o pondere mai mare n calcul.
Aplicnd Ecuaia 1.5 pentru exemplul nostru cu trei eantioane:
MPI
MPI =
n interiorul
Ecuaiile 1.3 i 1.5 sunt cele folosite pentru calcularea celor dou estimri ale
varianei n populaie, n cazul general cu
grupuri i mrimi
nk
ale grupurilor.
1.5 Statistica
1.5
F.
Tabelul ANOVA.
Statistica
F.
Tabelul ANOVA.
Cel de-al treilea pas n efectuarea analizei de varian este calcularea statisticii
test
F,
F=
F=
MPD
(1.6)
MPI
Dup cum vom vedea, exist un motiv puternic pentru faptul c MPD se a
la numrtor, n partea de sus a fraciei.
Multe din informaiile prezentate n continuare sunt explicate n detaliu la Capi-
F:
2 , indiferent
dac ipoteza
de nul este sau nu adevrat. Aceasta deoarece MPI se bazeaz pe variaiile din
interiorul ecrui grup, care luate mpreun ofer o imagine destul de bun (o
estimare destul de bun) a lui
2 .
Partea care se a sub lupa testului este ns MPD; dac ipoteza de nul este
adevrat (toate mediile sunt egale) atunci i MPD va un bun estimator a
lui
2 .
se va mri
IMPORTANT!
Statistica
despre distana dintre toate observaiile din eantionul general n jurul mediei
:
generale x
STP
n
X
)2
(xi x
i=1
10
n1
tuturor observaiilor. Deoarece variana este o msur a variaiei iar STP face
parte din formula acesteia, rezult c STP este de asemenea o
bun msur
= SPD + SPI
(1.7)
se poate deni ca
F=
VE
(1.8)
VN
mic (ceea ce nseamn c diferenele dintre grupuri sunt foarte mici), cu att
va crete variaia neexplicat (datorat erorilor aleatoare) iar valoarea lui
va
tinde spre zero (la limit, cnd grupurile seamn perfect i nu exist absolut
nici o diferen ntre ele, variaia explicat va egal cu zero).
Diverse programe de analiz statistic pot s difere foarte puin n modul de
prezentare a rezultatelor, ns toate se vor referi la exact acelai lucru; n general,
orice tabel de rezultate va conine urmtoarele lucruri:
Suma
gl
Ptratelor
Variana
ntre grupuri
k - 1
SPD
MPD
n interiorul grupurilor
n - k
SPI
MPI
Total
n - 1
STP
Valoare
F=
MPD
MPI
Pr(>F)
Sum of Squares
Mean Square
Between
k - 1
SSB
MSB
Within
n - k
SSW
MSW
Total
n - 1
SST
F value
MSB
F = MSW
p
Pr(>F)
Uneori pot s apar prescurtri de genul Sum Sq sau Mean Sq, iar n loc de
df se refer la
gl
- gradele de libertate
11
gl
ntre grupuri
Valoare
Ptratelor
90,6
n interiorul grupurilor
27
336,1
Total
29
426,7
Variana
45,3
p
0,040
12,448
F=
3,639
F:
45, 3
= 3, 639
12, 45
Valoarea de 3,639 (mult mai mare dect 1) ne sugereaz c ipoteza de nul este
pe cale de a respins, pentru c variaia explicat de diferenele dintre grupuri
este mult mai mare dect variaia datorat erorilor aleatoare; existnd diferene
majore ntre grupuri, vor exista cu siguran i diferene ntre mediile acestora.
La fel ca la testele
2 ,
p cu pragul de
p este mai mic dect = 5% (un prag generic, pentru un
nivel de ncredere de 95%), vom respinge ipoteza de nul: cel puin una dintre
strategii a dat rezultate.
1.6
Distribuia de eantionare
2 ,
F.
semnicaie
F:
este
continu
+.
Dup cum am mai artat, cnd eantioanele sunt perfect similare (media lor
este exact aceeai) atunci MPD va egal cu 0 iar
cu 0; la cellalt pol, cnd eantioanele sunt total diferite (diferena dintre medii
este maxim) atunci MPI va egal cu 0 iar
va egal cu
sunt
+.
Astfel, o alt
non-negative
(mai
12
o pereche
de grade de libertate.
Figura 1.2 arat trei asemenea distribuii, unde primul numr reprezint numrul de grade de libertate de la numrtor (din MPD), iar cel de al doilea numr
reprezint numrul de grade de libertate de la numitor (din MPI).
F,
cu:
Dup cum se poate vedea toate curbele sunt mai mult sau mai puin alungite la
dreapta, ecare avnd un singur mod. Acestea sunt alte dou caracteristici ale
distribuiei
F:
este
unimodal
alungit la dreapta.
de libertate pentru numrtor (cu alte cuvinte, pentru numr mic de grupuri),
curba se apropie din ce n ce mai mult de axa vertical; spre exemplu, la o
pereche (1,100) curba va chiar lipit de axa
0y .
0x,
sunt urmtoarele:
1. este continu
2. este non-negativ
3. este uni-modal
4. este alungit la dreapta
5. aria de sub curb este egal cu 1
Testul
este uni-direcional,
doar
F, n dreapta creia se a
13
valori, cte unul pentru ecare nivel de semnicaie clasic: 10%, 5%, 2,5%, 1%
i uneori chiar 0,1%.
Modul de citire a tabelelor este foarte simplu: a) se alege tabelul corespunztor
nivelului de semnicaie ales; b) se localizeaz numrul de grade de libertate de
la numrtor (k
1,
k,
de la MPI)
F.
Figura 1.3: Probabilitatea de eroare de tipul I, valoarea critic i valoarea calculat a lui
F,
Zona de
respingere
Aria egal
cu = 5%
Valoarea calculat
a lui F = 3,639
FCR
3,39
= 5%,
valoarea critic a
este egal cu
3,639 i este mai mare dect valoarea critic, intrnd n zona de respingere a
ipotezei de nul (colorat cu albastru).
1.7
14
Exist totui o soluie: violarea acestei asumpi poate tolerat, dac eantionul
este
sucient de mare
histogramele
omogenitii varianelor :
aceast a doua asumpie este cea mai dezbtut de ctre specialiti. Unii dintre ei arm c, dac varianele n populaiile din care provin eantioanele nu
sunt egale, atunci ANOVA nu poate aplicat. Alii arm c acest test este
irelevant, deoarece rezultatele lui sunt foarte puternic inuenate de forma distribuiei n populaie (testarea egalitii dintre variane nu poate realizat
dect dac
= n2 = n3 ).
t,
unde exist o
variant de formul pentru cazul n care varianele sunt egale (este vorba de
cea clasic, predenit n orice program de analiz statistic) i o alt variant
de formul pentru cazul n care varianele nu sunt egale (testul Welch, care
mai este denumit i testul robust al egalitii mediilor); decizia folosirii uneia
sau alteia din variante se ia pe baza valorii lui
omogenitii varianelor.
Setul de ipoteze din acest test (pentru exemplul nostru particular cu trei eantioane) este:
H0
A:
1 = 2 = 3
cel puin dou variane sunt diferite
= 0,108 i un
p,
dovezile sunt zdrobitoare c varianele sunt omogene (sunt aproape 90% anse
de a grei armnd contrariul), drept pentru care vom utiliza testul clasic.
n ne, a treia asumpie arat c toate elementele eantioanelor trebuie extrase
n mod independent, utiliznd o tehnic aleatoare. Un rol major l are metodologia utilizat n cercetare, claritatea cu care a fost fcut instructajul dinaintea
cercetrii, corectitudinea cu care operatorii de teren aplic instruciunile primite
etc. Cu ct controlm mai bine toate aceste detalii, cu att putem mai siguri
pe rezultatele noastre. A extrage elemente n mod independent unele de altele
nseamn c ntre orice pereche de elemente din eantion nu trebuie s e nici
o legtur (spre exemplu, doi respondeni s nu e rude).
1.8
15
Glosar de termeni
Analiza de varian - ANOVA (n engl. ANalisys Of VAriance). O tehnic statistic utilizat pentru a testa egalitatea dintre trei sau mai multe
medii.
Distribuia
(n engl.
F Distribution).
folosite pentru a testa diferenele dintre medii sau variane, a cror form
depinde de doi parametri (gradele de libertate de la numrtor i de la
numitor).
MPD - Variana dintre grupuri (n engl. MSB - Mean Square Between sau
Between Group Variance). Medie a sumei ptratelor dintre grupuri, este
o estimare a varianei din populaie care calculeaz variaia mediilor de
grupuri n jurul mediei generale, mprind SPD la un numr de grade de
libertate.
Within sau Within Group Variance). Medie a sumei ptratelor din interiorul grupurilor, este o estimare a varianei din populaie care calculeaz
variaia din interiorul tuturor grupurilor (unde grupurile mai mari vor avea
o pondere mai mare), mprind SPI la un numr de grade de libertate.
Statistica
sau Raportul
(n engl.
statistic sau
ratio).
Este un
raport ntre cele dou estimri ale varianei din populaie (MPD - variaia
explicat i MPI - variaia neexplicat).
Explained variation).
Variaie total (n engl. Total variation). Variaia general a tuturor observaiilor din eantion, egal cu variaia explicat plus variaia neexplicat.