Sunteți pe pagina 1din 9

Analiza datelor

Testarea ipotezelor statistice


n cazul cercetrilor statistice prin sondaj este necesar testarea ipotezei conform
creia media unei variabile determinat pe baza eantionului difer semnificativ fa de
media real a variabilei respective determinat pe baza ntregii populaii.
De exemplu, dac dorim s studiem venitul mediu al gospodriilor dintr-o populaie
se poate face acest lucru printr-o cercetare total, aa cum este de exemplu recensmntul,
caz n care se nregistreaz toate valorile aferente veniturilor fiecrei gospodrii din ntreaga
populaie. Acest mod de determinare a venitului mediu este cel mai precis dar necesit un
efort mare. Mai simplu, se poate realiza determinarea venitului mediu folosind o metod de
cercetare parial, cum este de exemplu sondajul statistic, care necesit un efort mult mai mic
i asigur obinerea unei precizii suficiente.
n acest caz se pune o ntrebare:
Este venitul mediu determinat prin sondaj semnificativ diferit fa de cel determinat
prin studiul ntregii populaii de gospodrii?
Testul t este n esen o procedur de testare a semnificaiei diferenei dintre dou
medii. Altfel spus, testul poate da cu o certitudine cunoscut, o idee despre faptul c diferena
dintre valoarea mediei determinat prin sondaj i cea real este fie una pur ntmpltoare
(datorit faptului c n calculul mediei n eantion intr doar valorile unitilor statistice
incluse), fie una real. Ca urmare, el este potrivit atunci cnd variabila dependent este
msurat pe scal cantitativ (interval-raport). Realizarea testului implic utilizarea unui
model de referin, care este constituit din distribuii teoretice bine cunoscute. Astfel,
distribuia teoretic folosit ca referin (distribuia de nul) pentru eantioane mai mari de 30
de uniti statistice este distribuia normal, iar pentru eantioane mai mici de 30 de subieci
se folosete distribuia t (Student). Chiar dac formulele de calcul sunt diferite, forma de
prezentare a rezultatelor i raionamentul decizional sunt similare pentru ambele situaii.
Tipuri de teste t
1.
Testul t pentru un eantion.
2.
Testul t pentru eantioane independente
3.
Testul t pentru eantioane dependente
Condiii de aplicare
Condiia teoretic de baz pentru testele t este ca variabila a crei medie este supus
testului s prezinte o distribuie normal n eantion. Rezultatul testului devine incert dac
distribuia variabilei se abate de la forma normal, mai ales dac volumul eantionului este
mai mic de 40 de subieci (Gardner, 1975, Moore, 1995). n temeiul teoremei limitei centrale,
cu ct volumul eantionului este mai mare, cu att normalitatea distribuiei de eantionare
este mai sigur, iar impactul unei eventuale anormaliti a distribuiei asupra testului t, mai
mic.
1. Testul z (t) pentru media unui singur eantion
Utilizare
Testul z pentru un singur eantion este utilizat pentru se testa diferena dintre media
unui eantion fa de media cunoscut a populaiei din care face parte. Un posibil exemplu de
utilizare a testului ar fi s determinm dac venitul gospodriilor din regiunea Oltenia difer
semnificativ de venitul gospodriilor din Romnia. De asemenea, acest test poate fi utilizat
pentru a testa diferena unei medii fa de o constant de referin, care prezint interes pentru
1

Analiza datelor

cercettor (de exemplu, venitul mediu al gospodriilor din regiunea Oltenia din 2008 difer
semnificativ de venitul mediu al gospodriilor din aceeai regiune determinat la ultimul
recensmnt. Utilizarea acestui test statistic este condiionat de cunoaterea mediei reale a
populaiei sau a valorii constantei ce va fi folosit ca referin. Dac populaia are o extindere
mare, acest lucru este de multe ori dificil de realizat.
Aplicarea testului cu SPSS
Datele supuse testrii trebuie s fie incluse ntr-o variabil SPSS de tip numeric.

Pentru exemplificare vom utiliza datele din fiierul employees data.sav i vom
determina dac ntre salariul mediu ctigat de femei (grup definit prin variabilele salary i
gender) i salariul mediu determinat la nivelul ntregii populaii exist diferene
semnificative. Salariul mediu determinat printr-o alt cercetare la nivelul ntregii populaii
este $34,419.57.
Precizm faptul c pentru exemplul avut n vedere nu s-a testat normalitatea
distribuiei. Pentru simplificarea prezentrii procedurii vom trece peste acest aspect.
Procedura utilizat pentru testul t privind diferena dintre valoarea mediei pentru
salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii este AnalyzeCompare Means-One Sample T Test...
Rularea procedurii va deschide fereastra urmtoare:

n caseta Test variable(s) se selecteaz variabila salary iar n caseta Test value se
trece valoarea salariului mediu pentru ntreaga populaie 34419,57. Dac se apas butonul
2

Analiza datelor

Options... este posibil selectarea intervalului de ncredere sau a pragului de semnificaie (p).
Uzual se folosete valoarea de 95% ceea ce corespunde unui prag de semnificaie p = 0.05.

Rezultatul obinut dup rularea procedurii este reprezentat de cele dou tabele de mai
jos:
One-Sample Statistics
N
Current Salary

Mean
216 $26,031.92

Std. Deviation
$7,558.021

Std. Error Mean


$514.258

One-Sample Test
Test Value = 34419.57
95% Confidence Interval of the
Difference
t
Current Salary

-16,310

df

Sig. (2-tailed)
215 ,000

Mean Difference
$-8,387.649

Lower
$-9,401.28

Upper
$-7,374.02

Primul este tabel descriptiv pentru variabila ce face subiectul testului i care prezint
elementele uzuale: Numr de cazuri supuse analizei, media, abaterea standard respectiv
eroarea standard a mediei.
Al doilea tabel prezint efectiv rezultatele testului.
Curent salary
- numele variabilei (dac variabila este etichetat, este afiat eticheta);
t
- -16,310 valoarea calculat a testului t. Valoarea n sine nu se interpreteaz n nici un
fel, iar cnd se raporteaz sunt suficiente primele dou zecimale;
df
- gradele de libertate (degrees of freedom), calculate ca N-1. Acestea trebuiesc
raportate, dar acest lucru poate fi omis dac este menionat volumul eantionului,
Sig. (2-tailed) - probabilitatea asociat valorii calculate a lui t (simbolizat n mod uzual cu
p). n acest caz, p = 0,000 semnific faptul c pe distribuia teoretic t exist o
probabilitate de 0,000 de a se obine din ntmplare o valoare a lui t egal sau mai
mare de -16,310. Dac n situaia calculrii manuale comparam valoarea calculat a lui
t cu o valoare critic, corespunztoare pragul alfa (0,05), n condiiile utilizrii SPSS
se compar direct valoarea p = 0,000 cu pragul alfa=0,05 pentru a se lua decizia
statistic.
Atunci cnd p este mai mic sau cel mult egal cu alfa, ipoteza de nul (adic
de medii egale) se respinge.

Analiza datelor

Altfel spus, n cazul nostru, salariul mediu ctigat de femei este diferit
semnificativ de salariul mediu la nivelul populaiei.
Dac p este mai mare dect alfa, ipoteza de nul se accept, altfel spus
ntre medii nu exist o diferen semnificativ.
Dac ar fi fost aa n exemplul nostru, concluzia testului ar fi fost c ntre
salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii nu exist
diferene semnificative, iar aceste diferene dac ari fi existat pot fi considerate
rezultatul ntmplrii.
Raportul dintre p i alfa este invers dect cel dintre t calculat i t critic, dac avem n
vedere c p este cu att mai mic cu ct t este mai mare.
Mean difference- $-8,387.649 este diferena dintre media eantionului i valoarea de
referin.
95% Confidence interval of the difference - reprezint limitele intervalului de ncredere
pentru diferena dintre media eantionului i valoarea de referin. n cazul nostru ea
se situeaz ntre o limit inferioar de $-9,401.28 i o limit superioar $-7,374.02.
Altfel spus, exist 95% anse ca diferena adevrat dintre valoarea obinut pe
eantion (estimare) i valoarea de referin (media populaiei) s fie cuprins ntre
[-9,401.28 ; -7,374.02].
Concluzia testului
Media eantionului de cercetare difer semnificativ de media populaiei.
2. Testul t pentru eantioane independente
Utilizare
Testul t pentru eantioane independente este utilizat pentru testarea diferenei dintre
mediile aceleiai variabile msurate pe dou grupuri, formate din subieci diferii.
De exemplu, exist diferene ntre salariul ctigat de oameni din medii diferite (urban
rural).
Condiii
Teoretic, testul t poate fi utilizat pentru eantioane orict de mici dac distribuia de
eantionare pentru cele dou grupuri este normal i dac dispersia valorilor n cele dou
grupuri nu difer semnificativ. n ce privete condiia egalitii dispersiei, ea este testat cu
un test specific. Unul dintre acestea este testul Levene, iar n funcie de rezultatul su
programul calculeaz testul t pe dou ci, aa cum vom vedea mai jos.
Dac variabila dependent nu ntrunete condiiile pentru testul t, se poate apela la
teste neparametrice, astfel:
Testul z pentru proporii
Testul Mann-Whitney U
Aplicarea testului cu SPSS
Tabela de date SPSS va conine variabila dependent, de tip numeric, i variabila
independent, de tip nominal, cu dou valori, n funcie de apartenena la un grup sau altul.
Variabila independent poate fi de tip string (codificnd cele dou grupuri cu valori de
genul A i B) sau de tip numeric (cu codificarea convenional 1 i 2).
De exemplu, dac testm existena diferenelor dintre salariile ctigate de populaia
din mediul urban i cea din mediul rural, folosind fiierul Test.sav ce cuprinde date necesare
folosim ca variabil independent variabila Mediul (1-urban, 2-rural) i ca variabil
dependent Salariul.

Analiza datelor

Rularea testului se face utiliznd succesiunea de comenzi urmtoare:


Analyze-Compare means-Indpendent Samples T Test...
Aceasta va deschide fereastra urmtoare:

n caseta principal Test variable(s) se trece variabila dependent (Salariu) (pot fi


testate mai multe variabile simultan), iar variabila independent (Mediul) se trece n zona
Grouping Variable. n acest moment programul ataeaz variabilei dependente dou semne
de ntrebare, sugernd introducerea valorilor care definesc cele dou grupuri. Concomitent se
activeaz butonul Define Groups... a crui acionare deschide fereastra secundar Define
Groups, unde se introduc valorile care definesc cele dou grupuri comparate (ordinea lor nu
este relevant). n cazul nostru valoarea 1 semnific mediul urban iar 2 mediul rural.
Introducerea valorilor se face n cele dou casete din fereastr dup care se apas butonul
Continue.

Analiza datelor

Dup acionarea butonului Continue, caseta principal devine complet i se poate


aciona OK pentru efectuarea testului. Dac se apas n acea fereastra butonul Options se
deschide fereastra de setare a pragului de semnificaie ca i la testul anterior.

Rezultatele obinute arat astfel:


Group Statistics
Mediul de
provenienta
Venituri din
salariu

Mean

Std. Deviation

Std. Error Mean

urban

10

1435,0000

1029,23618

325,47306

rural

10

1343,2000

1006,32807

318,22888

Independent Samples Test


Levene's Test for
Equality of
Variances

t-test for Equality of Means


95% Confidence
Interval of the
Sig. (2-

F
Venituri

Sig.

df

Mean

Std. Error

tailed) Difference Difference

Difference
Lower

Upper

Equal

din salariu variances

,030

,865

,202

18 ,842

91,80000 455,19483 -864,5288 1048,1288

,202 17,991 ,842

91,80000 455,19483 -864,5635 1048,1635

assumed
Equal
variances not
assumed

Analiza datelor

n primul tabel Group Statistics avem statistica descriptiv a celor dou grupuri. Se
va observa c programul descrie grupurile prin intermediul etichetelor valorilor.
Al doilea tabel are dou linii:
Pe prima linie avem rezultatele testului t pentru situaia n care dispersia celor
dou grupuri comparate este egal. Egalitatea dispersiilor este testat cu testul
Levene. Dac probabilitatea asociat testului Levene este mai mare de p=0.05,
atunci nseamn c dispersiile sunt egale, iar rezultatul testului t se citete pe
prima linie. n cazul nostru, avem p = 0.865, ceea ce nseamn c acceptm
egalitatea dispersiilor i citim pe aceast linie rezultatul: t=0,202 , df=18, p =
0.842.
Pe a doua linie avem rezultatele testului t pentru situaia n care nu s-ar ntruni
condiia de omogenitate a dispersiilor celor dou grupuri. Dac semnificaia
testului Levene ar fi fost mai mic sau egal cu 0.05, rezultatului testului t s-ar fi
citit pe aceast linie.
Concluzia testului
Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetrii,
conform creia salariul obinut de persoanele din mediul urban nu difer semnificativ
de cel obinut de persoanele din mediul rural (salariul mediu din mediul urban=1435,0000,
salariul mediu din mediul rural=1343,2000, t=0,202, df=18, p=0,842 > 0,05).
3. Testul t pentru diferena dintre mediile a dou eantioane dependente (perechi)
Utilizare
Testul t al diferenei mediilor a dou eantioane dependente permite evaluarea
semnificaiei variaiei unei anumite caracteristici, la aceeai subieci, n dou situaii diferite
(de exemplu, nainte i dup aciunea unei anumite condiii), ori n dou contexte
diferite, indiferent de momentul manifestrii acestora. Avantajul major al acestui model
statistic este acela c surprinde variaia numit intrasubiect, prin faptul c baza de calcul
este diferena dintre dou valori msurate pentru fiecare subiect n parte.
De exemplu:
- dac se dorete testarea eficacitii unui medicament pe un lot de voluntari, se testeaz
valorile parametrilor care definesc starea acestora nainte i dup tratament;
- eficacitatea unor msuri administrative care vizeaz obinerea unui anumit efect, se
testeaz valorile variabilei care caracterizeaz efectul dori nainte i dup aplicarea
respectivelor msuri, etc.
- efectul mediului (linite sau zgomot) n care se desfoar un test n ipoteza c n condiii
de zgomot performana este mai redus.
Condiii
i n acest caz condiia de aplicare a testului t este normalitatea distribuiei de
diferene dintre mediile unui numr infinit de eantioane perechi. Din fericire, teorema
limitei centrale garanteaz normalizarea distribuiei de eantionare pe msur ce volumul
eantioanelor crete. n situaia n care condiia nu se ndeplinete, se pot utiliza teste
neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon
(pentru date ordinale).
Aplicarea testului cu SPSS
Vor fi create perechi de variabile distincte, ambele cantitative care primesc cte o
valoare pentru fiecare subiect.
Dac de exemplu, dorim s testm ipoteza c un tip de aliment influeneaz sau nu
viteza de ngrare a mieilor dintr-o ferm zootehnic, vom lua n calcul un eantion din
7

Analiza datelor

populaia de miei a fermei pentru care vom msura sporul de greutate (n grame) dup 10 zile
obinut cu alimentaie normal, dup care, sporul de greutate dup 10 zile obinut cu
alimentaie pe baza noului aliment. Utilizm pentru exemplificare fiierul Miei.sav.

Comenzile pentru rularea testului cu ajutorul SPSS sunt:


Analyze-Compare Means-Paired Sample T Test...
Se deschide fereastra urmtoare

Din lista variabilelor se selecteaz perechi de dou variabile simultan (prin meninerea
apsat a tastei CTRL i clic de stnga pe numele variabilelor dorite) i se transfer n lista
Paired Variables. Pot fi testate simultan mai multe perechi de variabile.
n cazul nostru cele dou variante de spor de greutate nainte i dup aplicarea
alimentaiei noi.
Butonul Options... permite stabilirea pragului de semnificaie, la fel ca i n cazul
celorlalte forma ale testului.
Rularea procedurii va genera urmtoarele rezultate:
Paired Samples Statistics
Mean
Pair 1

Spor de greutate la 10 zilealimentatie normala


Spor de greutate la 10 zile alimentatie noua

Std. Deviation

Std. Error Mean

281,3500

20

85,18233

19,04735

319,0500

20

63,88763

14,28571

Analiza datelor

Paired Samples Correlations


N
Pair 1

Correlation

Sig.

Spor de greutate la 10 zilealimentatie normala & Spor

20 ,791

de greutate la 10 zile -

,000

alimentatie noua

Paired Samples Test


Paired Differences
95% Confidence
Interval of the

Mean
Pair

Spor de greutate la

10 zile- alimentatie
normala - Spor de

-37,700

Std.

Std. Error

Deviation

Mean

52,27065

Difference
Lower

Upper

Sig. (2t

11,68807 -62,16342 -13,23658 -3,226

df

tailed)

19 ,004

greutate la 10 zile alimentatie noua

n tabelul Paired Samples Statistics sunt afiate mediile celor dou grupuri comparate,
numrul subiecilor din fiecare grup, abaterea standard pentru fiecare grup i eroarea
standard a mediei fiecrui grup.
Tabelul Paired Samples Correlations prezint corelaia dintre cele doua variabile:
r=0,791, p=0.000, N=20. Evaluarea corelaiei liniare dintre cele dou variabile este legitim
n acest context de date, dar ofer o informaie diferit de testul diferenei dintre medii i, n
mod obinuit, este ignorat n acest context. Alegerea testului de corelaie sau a testului t se
decide n funcie de obiectivul cercetrii. Dac ne intereseaz msura n care performan
crete (sau scade) n funcie de condiia de zgomot, atunci testul t este cel potrivit.
Tabelul Paired Samples Test prezint rezultatele testului t, astfel:
- Diferena dintre medii (Mean)= -37
- Abaterea standard a diferenei (Std. Deviation)=52,27065
- Intervalul de ncredere al diferenie (95% Confidence Interval of the Difference):
limita inferioar (Lower)=-62,16342, limita superioar (Upper)=-13,23658. Dat
fiind numrul foarte mic al subiecilor (N=20), este de neles de ce intervalul de
ncredere este att de mare, ceea ce nseamn c diferena real, la nivelul
populaiei, este estimat cu precizie sczut de ctre cercetarea noastr.
- Valoarea calculat a testului t: -3,226
- Gradele de libertate (df): 19
- Probabilitatea p (Sig. 2-tailed): 0,004.
Concluzia testului
Avnd n vedere c p = 0,004 < 0,05, se respinge ipoteza de nul. Altfel spus, noul
aliment produce modificri semnificative ale sporului de greutate.

S-ar putea să vă placă și