Documente Academic
Documente Profesional
Documente Cultură
Analiza datelor
cercettor (de exemplu, venitul mediu al gospodriilor din regiunea Oltenia din 2008 difer
semnificativ de venitul mediu al gospodriilor din aceeai regiune determinat la ultimul
recensmnt. Utilizarea acestui test statistic este condiionat de cunoaterea mediei reale a
populaiei sau a valorii constantei ce va fi folosit ca referin. Dac populaia are o extindere
mare, acest lucru este de multe ori dificil de realizat.
Aplicarea testului cu SPSS
Datele supuse testrii trebuie s fie incluse ntr-o variabil SPSS de tip numeric.
Pentru exemplificare vom utiliza datele din fiierul employees data.sav i vom
determina dac ntre salariul mediu ctigat de femei (grup definit prin variabilele salary i
gender) i salariul mediu determinat la nivelul ntregii populaii exist diferene
semnificative. Salariul mediu determinat printr-o alt cercetare la nivelul ntregii populaii
este $34,419.57.
Precizm faptul c pentru exemplul avut n vedere nu s-a testat normalitatea
distribuiei. Pentru simplificarea prezentrii procedurii vom trece peste acest aspect.
Procedura utilizat pentru testul t privind diferena dintre valoarea mediei pentru
salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii este AnalyzeCompare Means-One Sample T Test...
Rularea procedurii va deschide fereastra urmtoare:
n caseta Test variable(s) se selecteaz variabila salary iar n caseta Test value se
trece valoarea salariului mediu pentru ntreaga populaie 34419,57. Dac se apas butonul
2
Analiza datelor
Options... este posibil selectarea intervalului de ncredere sau a pragului de semnificaie (p).
Uzual se folosete valoarea de 95% ceea ce corespunde unui prag de semnificaie p = 0.05.
Rezultatul obinut dup rularea procedurii este reprezentat de cele dou tabele de mai
jos:
One-Sample Statistics
N
Current Salary
Mean
216 $26,031.92
Std. Deviation
$7,558.021
One-Sample Test
Test Value = 34419.57
95% Confidence Interval of the
Difference
t
Current Salary
-16,310
df
Sig. (2-tailed)
215 ,000
Mean Difference
$-8,387.649
Lower
$-9,401.28
Upper
$-7,374.02
Primul este tabel descriptiv pentru variabila ce face subiectul testului i care prezint
elementele uzuale: Numr de cazuri supuse analizei, media, abaterea standard respectiv
eroarea standard a mediei.
Al doilea tabel prezint efectiv rezultatele testului.
Curent salary
- numele variabilei (dac variabila este etichetat, este afiat eticheta);
t
- -16,310 valoarea calculat a testului t. Valoarea n sine nu se interpreteaz n nici un
fel, iar cnd se raporteaz sunt suficiente primele dou zecimale;
df
- gradele de libertate (degrees of freedom), calculate ca N-1. Acestea trebuiesc
raportate, dar acest lucru poate fi omis dac este menionat volumul eantionului,
Sig. (2-tailed) - probabilitatea asociat valorii calculate a lui t (simbolizat n mod uzual cu
p). n acest caz, p = 0,000 semnific faptul c pe distribuia teoretic t exist o
probabilitate de 0,000 de a se obine din ntmplare o valoare a lui t egal sau mai
mare de -16,310. Dac n situaia calculrii manuale comparam valoarea calculat a lui
t cu o valoare critic, corespunztoare pragul alfa (0,05), n condiiile utilizrii SPSS
se compar direct valoarea p = 0,000 cu pragul alfa=0,05 pentru a se lua decizia
statistic.
Atunci cnd p este mai mic sau cel mult egal cu alfa, ipoteza de nul (adic
de medii egale) se respinge.
Analiza datelor
Altfel spus, n cazul nostru, salariul mediu ctigat de femei este diferit
semnificativ de salariul mediu la nivelul populaiei.
Dac p este mai mare dect alfa, ipoteza de nul se accept, altfel spus
ntre medii nu exist o diferen semnificativ.
Dac ar fi fost aa n exemplul nostru, concluzia testului ar fi fost c ntre
salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii nu exist
diferene semnificative, iar aceste diferene dac ari fi existat pot fi considerate
rezultatul ntmplrii.
Raportul dintre p i alfa este invers dect cel dintre t calculat i t critic, dac avem n
vedere c p este cu att mai mic cu ct t este mai mare.
Mean difference- $-8,387.649 este diferena dintre media eantionului i valoarea de
referin.
95% Confidence interval of the difference - reprezint limitele intervalului de ncredere
pentru diferena dintre media eantionului i valoarea de referin. n cazul nostru ea
se situeaz ntre o limit inferioar de $-9,401.28 i o limit superioar $-7,374.02.
Altfel spus, exist 95% anse ca diferena adevrat dintre valoarea obinut pe
eantion (estimare) i valoarea de referin (media populaiei) s fie cuprins ntre
[-9,401.28 ; -7,374.02].
Concluzia testului
Media eantionului de cercetare difer semnificativ de media populaiei.
2. Testul t pentru eantioane independente
Utilizare
Testul t pentru eantioane independente este utilizat pentru testarea diferenei dintre
mediile aceleiai variabile msurate pe dou grupuri, formate din subieci diferii.
De exemplu, exist diferene ntre salariul ctigat de oameni din medii diferite (urban
rural).
Condiii
Teoretic, testul t poate fi utilizat pentru eantioane orict de mici dac distribuia de
eantionare pentru cele dou grupuri este normal i dac dispersia valorilor n cele dou
grupuri nu difer semnificativ. n ce privete condiia egalitii dispersiei, ea este testat cu
un test specific. Unul dintre acestea este testul Levene, iar n funcie de rezultatul su
programul calculeaz testul t pe dou ci, aa cum vom vedea mai jos.
Dac variabila dependent nu ntrunete condiiile pentru testul t, se poate apela la
teste neparametrice, astfel:
Testul z pentru proporii
Testul Mann-Whitney U
Aplicarea testului cu SPSS
Tabela de date SPSS va conine variabila dependent, de tip numeric, i variabila
independent, de tip nominal, cu dou valori, n funcie de apartenena la un grup sau altul.
Variabila independent poate fi de tip string (codificnd cele dou grupuri cu valori de
genul A i B) sau de tip numeric (cu codificarea convenional 1 i 2).
De exemplu, dac testm existena diferenelor dintre salariile ctigate de populaia
din mediul urban i cea din mediul rural, folosind fiierul Test.sav ce cuprinde date necesare
folosim ca variabil independent variabila Mediul (1-urban, 2-rural) i ca variabil
dependent Salariul.
Analiza datelor
Analiza datelor
Mean
Std. Deviation
urban
10
1435,0000
1029,23618
325,47306
rural
10
1343,2000
1006,32807
318,22888
F
Venituri
Sig.
df
Mean
Std. Error
Difference
Lower
Upper
Equal
,030
,865
,202
18 ,842
assumed
Equal
variances not
assumed
Analiza datelor
n primul tabel Group Statistics avem statistica descriptiv a celor dou grupuri. Se
va observa c programul descrie grupurile prin intermediul etichetelor valorilor.
Al doilea tabel are dou linii:
Pe prima linie avem rezultatele testului t pentru situaia n care dispersia celor
dou grupuri comparate este egal. Egalitatea dispersiilor este testat cu testul
Levene. Dac probabilitatea asociat testului Levene este mai mare de p=0.05,
atunci nseamn c dispersiile sunt egale, iar rezultatul testului t se citete pe
prima linie. n cazul nostru, avem p = 0.865, ceea ce nseamn c acceptm
egalitatea dispersiilor i citim pe aceast linie rezultatul: t=0,202 , df=18, p =
0.842.
Pe a doua linie avem rezultatele testului t pentru situaia n care nu s-ar ntruni
condiia de omogenitate a dispersiilor celor dou grupuri. Dac semnificaia
testului Levene ar fi fost mai mic sau egal cu 0.05, rezultatului testului t s-ar fi
citit pe aceast linie.
Concluzia testului
Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetrii,
conform creia salariul obinut de persoanele din mediul urban nu difer semnificativ
de cel obinut de persoanele din mediul rural (salariul mediu din mediul urban=1435,0000,
salariul mediu din mediul rural=1343,2000, t=0,202, df=18, p=0,842 > 0,05).
3. Testul t pentru diferena dintre mediile a dou eantioane dependente (perechi)
Utilizare
Testul t al diferenei mediilor a dou eantioane dependente permite evaluarea
semnificaiei variaiei unei anumite caracteristici, la aceeai subieci, n dou situaii diferite
(de exemplu, nainte i dup aciunea unei anumite condiii), ori n dou contexte
diferite, indiferent de momentul manifestrii acestora. Avantajul major al acestui model
statistic este acela c surprinde variaia numit intrasubiect, prin faptul c baza de calcul
este diferena dintre dou valori msurate pentru fiecare subiect n parte.
De exemplu:
- dac se dorete testarea eficacitii unui medicament pe un lot de voluntari, se testeaz
valorile parametrilor care definesc starea acestora nainte i dup tratament;
- eficacitatea unor msuri administrative care vizeaz obinerea unui anumit efect, se
testeaz valorile variabilei care caracterizeaz efectul dori nainte i dup aplicarea
respectivelor msuri, etc.
- efectul mediului (linite sau zgomot) n care se desfoar un test n ipoteza c n condiii
de zgomot performana este mai redus.
Condiii
i n acest caz condiia de aplicare a testului t este normalitatea distribuiei de
diferene dintre mediile unui numr infinit de eantioane perechi. Din fericire, teorema
limitei centrale garanteaz normalizarea distribuiei de eantionare pe msur ce volumul
eantioanelor crete. n situaia n care condiia nu se ndeplinete, se pot utiliza teste
neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon
(pentru date ordinale).
Aplicarea testului cu SPSS
Vor fi create perechi de variabile distincte, ambele cantitative care primesc cte o
valoare pentru fiecare subiect.
Dac de exemplu, dorim s testm ipoteza c un tip de aliment influeneaz sau nu
viteza de ngrare a mieilor dintr-o ferm zootehnic, vom lua n calcul un eantion din
7
Analiza datelor
populaia de miei a fermei pentru care vom msura sporul de greutate (n grame) dup 10 zile
obinut cu alimentaie normal, dup care, sporul de greutate dup 10 zile obinut cu
alimentaie pe baza noului aliment. Utilizm pentru exemplificare fiierul Miei.sav.
Din lista variabilelor se selecteaz perechi de dou variabile simultan (prin meninerea
apsat a tastei CTRL i clic de stnga pe numele variabilelor dorite) i se transfer n lista
Paired Variables. Pot fi testate simultan mai multe perechi de variabile.
n cazul nostru cele dou variante de spor de greutate nainte i dup aplicarea
alimentaiei noi.
Butonul Options... permite stabilirea pragului de semnificaie, la fel ca i n cazul
celorlalte forma ale testului.
Rularea procedurii va genera urmtoarele rezultate:
Paired Samples Statistics
Mean
Pair 1
Std. Deviation
281,3500
20
85,18233
19,04735
319,0500
20
63,88763
14,28571
Analiza datelor
Correlation
Sig.
20 ,791
de greutate la 10 zile -
,000
alimentatie noua
Mean
Pair
Spor de greutate la
10 zile- alimentatie
normala - Spor de
-37,700
Std.
Std. Error
Deviation
Mean
52,27065
Difference
Lower
Upper
Sig. (2t
df
tailed)
19 ,004
n tabelul Paired Samples Statistics sunt afiate mediile celor dou grupuri comparate,
numrul subiecilor din fiecare grup, abaterea standard pentru fiecare grup i eroarea
standard a mediei fiecrui grup.
Tabelul Paired Samples Correlations prezint corelaia dintre cele doua variabile:
r=0,791, p=0.000, N=20. Evaluarea corelaiei liniare dintre cele dou variabile este legitim
n acest context de date, dar ofer o informaie diferit de testul diferenei dintre medii i, n
mod obinuit, este ignorat n acest context. Alegerea testului de corelaie sau a testului t se
decide n funcie de obiectivul cercetrii. Dac ne intereseaz msura n care performan
crete (sau scade) n funcie de condiia de zgomot, atunci testul t este cel potrivit.
Tabelul Paired Samples Test prezint rezultatele testului t, astfel:
- Diferena dintre medii (Mean)= -37
- Abaterea standard a diferenei (Std. Deviation)=52,27065
- Intervalul de ncredere al diferenie (95% Confidence Interval of the Difference):
limita inferioar (Lower)=-62,16342, limita superioar (Upper)=-13,23658. Dat
fiind numrul foarte mic al subiecilor (N=20), este de neles de ce intervalul de
ncredere este att de mare, ceea ce nseamn c diferena real, la nivelul
populaiei, este estimat cu precizie sczut de ctre cercetarea noastr.
- Valoarea calculat a testului t: -3,226
- Gradele de libertate (df): 19
- Probabilitatea p (Sig. 2-tailed): 0,004.
Concluzia testului
Avnd n vedere c p = 0,004 < 0,05, se respinge ipoteza de nul. Altfel spus, noul
aliment produce modificri semnificative ale sporului de greutate.