Sunteți pe pagina 1din 26

M.

Popa Aplicaii SPSS

Calcularea indicatorilor statistici descriptivi


Statistica descriptiv are ca obiectiv analiza caracteristicilor variabilelor. Principalele elemente
de statistic descriptiv sunt:
reprezentarea ntregii distribuii, pe cale:
o numeric (analiza de frecvene)
o grafic (bar, histogram, box-plot, stem and leaf)
valorile tendinei centrale
o mod
o medie
o median
valorile mprtierii
o amplitudine
o abatere standard
valorile formei distribuiei
o indice de simetrie (skewness)
o indice de boltire (kurtosis)
SPSS ofer posibiliti variate de reprezentare i de calcul a acestor indicatori. n acest sens
exist, pe de o parte, proceduri specializate i pe de alt parte, opiuni care pot fi accesate din
interiorul altor proceduri. Analiza statistic descriptiv, n ciuda caracterului ei elementar, este
o component indispensabil a analizei statistice.
Procedurile specializate, se lanseaz din meniul Statistics-Summarize (sau Analyze-Descriptive
statistics, pentru versiunile mai noi de SPSS) i sunt grupate n trei proceduri: Frequencies,
Descriptives i Explore (vezi imaginea de mai jos).
Aceste proceduri ofer prelucrri distincte dar conin i rezultate comune. Alegerea uneia sau
alteia dintre ele depinde de necesitile de analiz.

Procedura Frequencies
Este singura care permite analiza de frecvene. La apariia casetei Frequencies, variabila pe care
dorim s o supunem analizei va fi trecut n lista de calcul Variable(s), prin selectarea ei i
acionarea butonului de transfer (). Pot fi incluse mai multe variabile n aceast list,
rezultatele fiind afiate distinct, pentru fiecare n parte.

M. Popa Aplicaii SPSS

Se va observa pe caseta de mai sus bifarea implicit a opiunii pentru tabela de frecvene, care
este funcia specific a acestei proceduri. n plus, prin acionarea butoanelor din partea de jos a
casetei se pot seta alte analize, astfel:
Butonul Statistics
Se aleg indicatorii statistici
descriptivi dorii

Butonul Chart
Se alege tipul de grafic
dorit

Butonul Format
Se aleg diverse moduri de
prezentare a rezultatelor

Rezultatele sunt afiate n SPSS Viewer


Procedura Descriptives
Vizeaz doar indicatorii statistici descriptivi. La lansare, Statistics-Descriptives, se deschide
caseta principal Descriptives.
Se trec variabilele vizate n lista Variable(s)
(dac dorim calcularea scorurilor z, se bifeaz
Se aleg indicatorii dorii din Options
opiunea din stnga-jos a casetei )

Testul z (t) pentru media unui singur eantion


Utilizare
Testul z pentru un singur eantion este utilizat pentru a se testa diferena dintre media unui
eantion fa de media cunoscut a populaiei din care face parte. Atunci cnd volumul
eantionului este mic (N<30) este utilizat o variant denumit testul t pentru un singur eantion.
Utilizarea acestui test statistic este condiionat de cunoaterea mediei populaiei. Dac populaia
are o extindere mare, acest lucru este dificil de realizat (n afara cazurilor n care exist studii
speciale, cum sunt cele antropometrice, de exemplu). Dintre variabilele psihologice ale cror
medii pentru populaie sunt cunoscute, avem inteligena, exprimat n uniti QI (=100). Testul
poate fi utilizat, ns, atunci cnd populaia are o extindere mai redus. De exemplu, dac a
fost evaluat nivelul de satisfacie ntr-o organizaie, se poate testa diferena dintre nivelul de
satisfacie la nivelul unei secii fa de media satisfaciei la nivelul ntregii organizaii (populaie).
Condiii de aplicare
Condiia teoretic de baz este normalitatea distribuiei de eantionare. n temeiul teoremei
limitei centrale, cu ct volumul eantionului este mai mare, cu att normalitatea distribuiei
de eantionare este mai sigur.
Aranjarea datelor
Datele supuse testrii trebuie s fie incluse ntr-o variabil SPSS de tip numeric.
Procedura: Statistics-Compare Means-One Sample T Test
Variabila testat Caseta principal
Caseta Options permite alegerea

M. Popa Aplicaii SPSS

Variabila testat este trecut n lista Test


Variable(s)
n zona Test Value se nscrie media
populaiei (100 n cazul nostru)

pragului de semnificaie.
Confidence Interval 95% este
echivalent cu p=0.05 i este
implicit pentru toate testele
statistice

Rezultate
Imaginea de mai jos prezint cele dou tabele din Viewer cu rezultatele procedurii:

Primul tabel include statistica descriptiv a variabilei testate (N, media, ab.std, eroarea
standard a mediei)
Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03, diferena fa
de media populaiei (22.6) i limitele inferioar (12.57) i superioar (32.63) ale
intervalului de ncredere pentru media populaiei estimat de eantionul de cercetare.
Concluzia testului: media eantionului de cercetare difer semnificativ de QI=100, ca medie a
populaiei.

Testul t pentru eantioane independente


Utilizare
Testul t pentru eantioane independente este utilizat pentru testarea diferenei dintre mediile
aceleiai variabile msurate pe dou grupuri, formate din subieci diferii.
Exemplu: testarea diferenei dintre media scorului la o scal de sociabilitate, aplicat unor copii
crescui n familie i unor copii crescui n instituii de ocrotire. n acest caz, scorul la
sociabilitate este variabila dependent, msurat pe scal cantitativ (interval/raport) iar mediul
de educare este variabila independent, exprimat pe scal nominal dihotomic
(familie/instituie de ocrotire)
Condiii
Teoretic, testul t poate fi utilizat pentru eantioane orict de mici dac distribuia de
eantionare pentru cele dou grupuri este normal, i dac variana valorilor n cele dou
grupuri nu difer semnificativ. n ce privete condiia egalitii varianei, ea este testat cu un
teste specifice. Unul dintre acestea este testul Levene, iar n funcie de rezultatul su programul
calculeaz testul t pe dou ci, aa cum vom vedea mai jos.
Aranjarea datelor

M. Popa Aplicaii SPSS

Tabela de date SPSS va conine variabila dependent, de tip numeric, i variabila


independent, de tip nominal, cu dou valori, n funcie de apartenena la un grup sau altul.
Variabila independent poate fi de tip string (codificnd cele dou grupuri cu valori de genul
A i B) sau de tip numeric (cu codificarea convenional 1 i 2). Din principiu, ns,
recomandm cea de a doua variant.

Procedura: Statistics-Compare means-Indpendent Samples T Test


n caseta principal se trece variabila dependent (soc) n lista Test Variable(s) (pot fi
testate mai multe variabile simultan) iar variabila independent (grup), n zona Grouping
Variable. n acest moment programul ataeaz variabilei dependente dou semne de ntrebare,
sugernd introducerea valorilor care definesc cele dou grupuri. Concomitent se activeaz
butonul Define Groups a crui acionare deschide caseta secundar Define Groups, unde se
introduc valorile care definesc cele dou grupuri comparate (ordinea lor nu este relevant).
Dup acionarea butonului Continue, caseta principal devine complet i se poate aciona OK
pentru efectuarea testului.

Rezultate afiate n Viewer

M. Popa Aplicaii SPSS

n primul tabel (Group Statistics) avem statistica descriptiv a celor dou grupuri. Se va observa
c programul descrie grupurile prin intermediul etichetelor valorilor. Dac acestea nu ar fi fost
definite, n loc de institutie i familie ar fi aprut 1, respectiv, 2.
Al doilea tabel are dou linii:

Pe prima avem rezultatele testului t pentru cazul asumrii omogenitii varianei


(Levenes Test for Equality of Variances). n cazul nostru, ele sunt egale
(Sig.=0.666, ceea ce se traduce ca o valoare p=0.666, deci mai mare de 0.05 pentru
distribuia F a testului Levene, pe care nu o discutm aici). Ca urmare, vom citi pe
aceast linie rezultatul testului: t=-2.42, df=12, Sig.=0.045.

Pe a doua linie avem rezultatele testului t pentru cazul n care nu s-ar ntruni condiia
de omogenitate a varianei pentru cele dou grupuri. Dac semnificaia testului
Levene ar fi fost mai mic sau egal cu 0.05, rezultatului testului t s-ar fi citit pe
aceast linie.
Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetrii conform creia,
copiii crescui n mediu familial sunt mai sociabili dect cei crescui n mediu instituional
(m1=22.00, m2=17.71, t=-2.42, df=12, p=0.045).
Dac variabila dependent nu ntrunete condiiile pentru testul t, se poate apela la teste
neparametrice, astfel:
Testul z pentru proporii (compararea procentului de sociabili din cele dou
grupuri)
Testul Mann-Whitney U, dac se transform valorile variabilei sociabilitate n
valori de rang

Analiza de varian unifactorial (One Way ANOVA)


Utilizare
n mod obinuit analiza de varian este utilizat pentru a testa semnificaia dintre mediile
msurate pe mai mult de dou grupuri independente (compuse din subieci diferii). n acest
caz valorile variabilei dependente sunt exprimate pe scal cantitativ iar variabila
independent este de tip categorial.
Dac se utilizeaz ANOVA pentru a testa diferena dintre dou medii obinute pe grupuri
independente, rezultatul ei este echivalent cu al testului t pentru grupuri independente (dar este o
utilizare neuzual).
Exemplu: Se compar media timpului de reacie pentru trei grupuri experimentale, supuse
fiecare, anterior evalurii vitezei de reacie, la un oc electric de intensitate mic, medie
sau mare. n acest caz s-ar putea obiecta c variabila independent se exprim pe o scal
ordinal dar, n esen, ea este de tip categorial, fapt ce justific aplicarea testului ANOVA.
Condiii
Variabila dependent trebuie s fie cantitativa i s respecte condiia de normalitate a
distribuiei de eantionare pentru fiecare dintre grupurile supuse comparaiei. Din
fericire, testul F este remarcabil de robust n cazul nclcrii acestei condiii. ANOVA este
mai vulnerabil n situaia cnd distribuia variabilei dependente este prea aplatizat sau prea
nalt (kurtosis0) dect n cazul asimetriei (skewness0). Cu ct volumul grupurilor supuse
comparaiei este mai mare, cu att aspectele legate de normalitatea distribuiei au un efect mai
mic asupra ANOVA.
Variana valorilor variabilei dependente n interiorul grupurilor definite prin valorile
variabilei independente trebuie s fie egal. Aceast condiie se numete omogenitatea
varianei. nclcarea acestei condiii nu invalideaz testul ANOVA, care este destul de robust
i n acest caz. n orice caz, se vor analiza cu atenie cazurile care prezint valori extreme,
care au un efect important asupra varianei. Egalitatea (omogenitatea varianei) poate fi
testat cu testul Levene.

M. Popa Aplicaii SPSS

Aranjarea datelor
Se definete o variabil independent (definit ca factor n contextul ANOVA) care conine
codurile de apartenen a cazurilor la fiecare dintre grupurile supuse analizei (n cazul
nostru 1=oc mic, 2=oc mediu, 3=oc mare), i o variabil dependent, care conine valorile
timpului de reacie.

Se va reine c procedura ANOVA nu suport variabila independent de tip string. n


imagine baza de date SPSS este ordonat dup variabila shoc dar acest lucru nu este necesar
pentru procedura de calcul.
Procedura: Statistics-Compare Means-One-Way ANOVA...
Caseta Post Hoc Multiple Comparison:
Se aleg testele de analiz post-hoc, pentru
Caseta principal One-Way ANOVA:
testarea diferenei dintre medii, luate dou cte
Variabila dependent se trece n lista
dou. Pentru c nu tim nc dac variana
Dependent List (pot fi testate mai multe
este omogen, vom bifa cte un test pentru
variabile simultan)
fiecare caz (Bonferoni, pentru varian
Variabila independent se trece n zona Factor.
omogen i Tamhane T2, pentru varian
neomogen).

n caseta Options, bifm Descriptives, Homogeneity-of-variance i Means Plot.

Dup finalizarea setrilor se apas OK pe caseta principal i se analizeaz rezultatele


Rezultate

M. Popa Aplicaii SPSS

Tabelul Descriptives prezint indicatorii descriptivi ai variabilei dependente pentru grupurile


analizate.

Tabelul Test of Homogeneity of Variance conine rezultatul testului Levene. O valoare


nesemnificativ a acestuia (cum este cazul nostru, p=0.988), conduce la concluzia c dispersiile
n interiorul celor trei grupuri sunt omogene).

Tabelul ANOVA conine rezultatului testului F a crui valoare este 35.264 pentru un prag
p=0.000. Atenie, p=0.000 nu se va nelege ca p=0 ci ca p<0.001. n raportul de cercetare este
chiar recomandabil s nu se utilizeze valoarea 0.000 care poate sugera certitudinea rezultatului.

Tabelul Post Hoc Tests Multiple Comparisons prezint comparaiile mediilor celor trei grupuri,
luate dou cte dou. Reamintim c n acest caz se ajunge la acumularea de eroare de tip I peste
nivelul maxim acceptat de 0.05. Testele post-hoc sunt astfel concepute nct s minimizeze acest
neajuns. Totui, ele nu vor fi n nici un caz luate n considerare dac testul F nu atinge pragul
de semnificaie statistic (p<0.05).
Avnd n vedere c testul Levene a confirmat omogenitatea varianei, se vor citi valorile
pentru testul Bonferoni (n caz contrar, s-ar fi citit cele pentru testul Tamhane). Valorile sunt
uor de analizat: n prima coloana avem definite grupurile analizate (etichetarea valorilor
variabilei independente ajut mult la inteligibilitatea tabelului). n coloana a patra (Sig.) se afl
semnificaiile pentru diferena dintre medii. Astfel, putem constata faptul c timpul de reacie
dintre grupul supus ocului de mica intensitate i cel supus ocului de medie intensitate nu difer
semnificativ (p=0.520). n acelai timp, grupul supus unui oc mic difer de grupul supus unui
oc mare (p<0.001), la fel ca i n cazul comparaiei dintre grupul cu oc mediu i cel cu oc
mare (p<0.001).
Cu alte cuvinte, variaia semnificativ a timpului de reacie n funcie de cele trei
categorii de intensitate a ocului electric provine cu precdere de la efectul pe care l are ocul

M. Popa Aplicaii SPSS

mare, care provoac o ncetinire a timpului de reacie consistent fa celelalte dou categorii
de oc electric.
Aceasta concluzie este ntrit i de reprezentarea grafic a mediei timpului de reacie ale
celor trei grupuri.

Aa cum se poate observa, timpul de reacie crete mai accentuat la grupul cu oc mare
n timp ce mediile primelor dou niveluri de oc sunt relativ apropiate. Graficul singur, fr
susinerea procedurii ANOVA, nu ar fi permis concluzionarea unei diferene semnificative ntre
cele trei grupuri.

Testul t pentru diferena dintre mediile a dou eantioane dependente


(perechi)
Utilizare
Testul t al diferenei mediilor a dou eantioane dependente permite evaluarea semnificaiei
variaiei unei anumite caracteristici, la aceeai subieci, n dou situaii diferite (de exemplu,
nainte i dup aciunea unei anumite condiii), ori n dou contexte diferite, indiferent de
momentul manifestrii acestora. Avantajul major al acestui model statistic este acela c
surprinde variaia numit intrasubiect, prin faptul c baza de calcul este diferena dintre
dou valori msurate pentru fiecare subiect n parte.
Exemplu: Un grup de subieci efectueaz operaii aritmetice n condiii de linite i, ulterior, n
condiii de zgomot puternic. Ipoteza cercetrii este c n condiii de zgomot performana este
mai redus. Performana la test, msurat prin numrul de operaii corecte, este variabila
dependent, msurat pe o scal de raport. Contextul n care se desfoar experimentul
(linite-zgomot), reprezint variabila independent, msurat pe o scal nominal,
categorial, dihotomic, ale crei valori convenionale pot fi 1 respectiv, 2.
Condiii
i n acest caz condiia de aplicare a testului t este normalitatea distribuiei de diferene
dintre mediile unui numr infinit de eantioane perechi (linite-zgomot). Din fericire,
teorema limitei centrale garanteaz normalizarea distribuiei de eantionare pe msur ce volumul
eantioanelor crete. n situaia n care condiia nu se ndeplinete , se pot utiliza teste
neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru
date ordinale).
Aranjarea datelor
Vor fi create dou variabile distincte, ambele cantitative, care primesc cte o valoare pentru
fiecare subiect.

M. Popa Aplicaii SPSS

Procedura: Statistics-Compare Means-Paired Sample T Test...


Se selecteaz cu un clic de mouse, pe rnd,
O dat constituit, perechea de variabile se
fiecare dintre cele dou variabile. Astfel se
trece n lista Paired Variables cu butonul de
constituie perechea de variabile n zona
transfer (). Pot fi create mai multe perechi de
Current selection.
variabile i prelucrate simultan.

Caseta Options permite alegerea pragului de semnificaie, dac dorim schimbarea celui implicit
(0.05).
Rezultate
Rezultatele sunt prezentate n trei tabele, ca n imaginea de mai jos:

Primul tabel conine statistica descriptiv pentru cele dou variabile.


Al doilea tabel conine testul de corelaie Pearson (r) dintre cele dou variabile. Evaluarea
corelaiei liniare dintre cele dou variabile este legitim n acest context, dar ofer o informaie
diferit de testul diferenei dintre medii i, n mod normal, este ignorat n acest context. Alegerea
testului de corelaie sau a testului t se decide n funcie de obiectivul cercetrii. Dac ne

M. Popa Aplicaii SPSS

intereseaz msura n care performan crete (sau scade) n funcie de condiia de zgomot, atunci
testul t este cel potrivit.
n fine, ultimul tabel prezint rezultatul testului t: t=5.07, df=9, p=0.001. Avnd n vedere nivelul
valorii p, care este mai mic dect 0.05, se poate respinge ipotezei de nul. n concluzie, se accept
ipoteza cercetrii, conform creia zgomotul afecteaz capacitatea de calcul aritmetic. Subliniem
faptul c valoare efectiv a testului (t=5.07) nu se interpreteaz n nici un fel, singurul aspect care
conteaz fiind nivelul lui p.
Testul z pentru proporii
Testul Mann-Whitney U
testul semnului (pentru date nominale)
testul Wilcoxon (pentru date ordinale).

Testul z al proporiei pentru un singur eantion


Utilizare
Testul z pentru proporii pentru un eantion, este utilizat n cazul variabilelor dihotomice,
pentru a testa diferena dintre proporiile valorilor n eantion prin comparaie cu
proporia la nivelul populaiei.
Exemplu: La ntrebarea cine se uit la telenovele? rspund DA 7 subieci, dintre care 5 femei i
2 brbai. ntrebarea cercetrii este dac femeile se uit ntr-o proporie mai mare dect brbaii la
telenovele.
Condiii
Cunoaterea proporiei la nivelul populaiei pentru valorile variabilei testate. n cazul nostru,
raportul femei/brbai este cunoscut din studiile demografice (51%-49%)
Aranjarea datelor
Se creeaz variabila dihotomic cu valori numerice. Variabilele de tip string nu sunt
acceptate de procedura SPSS. n cazul nostru, valorile sunt 1 pentru feminin i 2 pentru masculin.

Procedura: Statistics-Non Patametric Tests-Binomial...

M. Popa Aplicaii SPSS

Variabila testat este trecut n lista Test Variable List:


n zona Define Dichotomy se alege Get from data, dac variabila este dihotomic,
sau Cut point, dac variabila este continu, prin fixarea unei valori care mparte
distribuia n dou categorii.
n zona Test proportion se introduce proporia primei categorii.
Butonul Options permite solicitarea statisticii descriptive pentru variabila testat.

Rezultate

Rezultatul n cazul exemplului dat cuprinde frecvena pe categorii, procentul i


semnificaia testului n raport cu proporia la nivelul populaiei (p=0.243). n acest caz, se accept
ipoteza de nul i se respinge ipoteza cercetrii. Proporia femeilor care se uit la telenovele nu
difer semnificativ de proporia brbailor, prin raportare la proporia lor n populaia general.

Testul semnelor
Utilizare
Testul semnelor este utilizat pentru a testa diferena dintre valori, utilizndu-se semnul
diferenei i nu valoarea acesteia, atunci cnd ambele valori sunt msurate pentru aceiai subieci.
Dac nu ar exista nici o diferen ntre valorile perechi, atunci numrul diferenelor pozitive ar
trebui s fie egal cu cel al diferenelor negative. Cu ct numrul diferenelor de un anumit semn
este mai mare comparativ cu cel al diferenelor de semn opus, cu att crete probabilitatea ca
diferena dintre variabile s fie statistic semnificativ.
Exemplu: ntr-un experiment cu privire la efectul motivrii asupra memorrii, subiecilor
li se cere s memoreze cuvinte dintr-o list, nainte si dup introducerea unui factor motivant. Dat
fiind faptul c numrul subiecilor este prea mic pentru asumarea normalitii distribuiei de
eantionare, se alege testul semnului n locul testului t pentru eantioane dependente.
Condiii
Variabilele vor fi de tip numeric, iar valorile exprimate n aceeai unitate de msur,
pentru a se putea face diferena lor.
Aranjarea datelor
Imaginea de mai jos conine variabilele inainte i dupa, care vor fi analizate.

M. Popa Aplicaii SPSS

Variabila dif conine rezultatul diferenei dupa-inainte.


Variabila semn, conine semnul diferenei. Ambele sunt prezentate numai pentru a face
mai evident baza de calcul a testului deoarece, n fapt, nu sunt relevante sub aspectul procedurii
SPSS.
Procedura: Statistics-Nonparametric Tests-2 Related Samples...
Analyze-nonparametric tests
n prima faz, cele dou variabile sunt
selectate, pe rnd, prin clic de mouse pe
Apoi, perechea de variabile este trecut n lista
fiecare, constituindu-se n pereche. Acest fapt
Test Pair(s) List: prin acionarea butonului .
se observ n partea de jos a casetei, n zona
Dac este necesar, se pot testa simultan mai
Current Selections.
multe perechi de variabile.
Se bifeaz Sign n zona Test Type.

Rezultate

Tabelul Sign Test cuprinde numrul diferenelor pozitive, respectiv negative, pentru
cazurile din baza de date. n cazul nostru, exist 7 diferene pozitive i nici o diferen negativ.

Tabelul Test Statistics, prezint semnificaia testului (p=0.016). Ipoteza de nul se respinge
dac valoarea lui p este mai mic dect pragul fixat i care, implicit, este 0.05. n exemplul dat,
ipoteza de nul se respinge, acceptndu-se ipoteza cercetrii (motivarea stimuleaz memorarea).

M. Popa Aplicaii SPSS

Corelaia i regresia liniar


Coeficientul de corelaie liniar Pearson (r)
Utilizare
Corelaia Pearson (r) evalueaz gradul de asociere dintre dou variabile msurate pe scal
de interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a valorilor
unei variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei variabile
urmeaz, n sens direct, cresctor, sau invers, descresctor, valorile celeilalte variabile, atunci cele
dou variabile coreleaz ntre ele. Domeniul de variaie a coeficientului de corelaie Pearson (r)
este ntre r=-1 (corelaie perfect negativ) i r=+1 (corelaie perfect pozitiv). Absena oricrei
legturi (corelaii) dintre variabile se traduce prin r=0.
Testul de corelaie implic dou variabile dar, adesea, ntr-o cercetare psihologic
numrul variabilelor supuse corelaiei este mai mare de dou. Acest fapt conduce la ceea ce se
numete o matrice de corelaii care este un tabel ale cror celule cuprind corelaiile dintre
perechile de variabile.
Exemplu: ntr-un studiu cu privire la preferina pentru risc se urmrete evidenierea
asocierii acesteia cu nivelul anxietii i cu agresivitatea. n acest scop, toate cele trei variabile au
fost msurate cu ajutorul unor scale special construite, iar rezultatele sunt exprimate n scoruri
numerice (scal I/R). Testul de corelaie ne va spune n ce msur exist o relaie (asociere) ntre
preferina pentru risc, pe de o parte, i celelalte dou caracteristici de personalitate, pe de alt
parte. Dei variabila care face obiectul cercetrii este preferina pentru risc, ea nu este
considerat variabil dependent. n contextul testului de corelaie nu exist variabile dependente
i independente. Rezultatul testului pune n eviden asocierea dintre ele, ceea ce corespunde unei
situaii de dependen reciproc.
Condiii
Condiia principal pentru calcularea coeficientului de corelaie liniar Pearson este ca
variabilele implicate s fie msurate pe scal de interval/raport (alturi de existena unei forme a
distribuiei care nu se abate sever de la curba normal).
Testele neparametrice alternative, pentru cazul n care condiiile pentru utilizarea testului
Pearson nu se ndeplinesc, sunt: testul chi-ptrat (pentru date nominale) sau coeficienii de
corelaie Spearman sau Kendall (pentru date ordinale).
Aranjarea datelor
Se creeaz variabile distincte pentru fiecare caracteristic supus testrii.

Procedura: Analyze-Corelate-Bivariate

M. Popa Aplicaii SPSS

Variabilele supuse corelaiei vor fi trecute n lista Variables:


Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul
(Kendall sau Spearman), dac datele sunt neparametrice.
Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege unilateral
(dac exist o justificare solid).
Flag significant correlations, determin marcarea cu un asterisc a coeficienilor
semnificativi la p=0.05, i cu dou asteriscuri a celor semnificativi la p=0.01. Acest lucru este util
atunci cnd matricea de corelaie este mare, pentru a scoate n eviden valorile semnificative ale
lui r.

Rezultate

Tabelul rezultatelor cuprinde matricea de corelaii a variabilelor analizate. El este


redundant, deoarece prezint aceleai corelaii de dou ori, deasupra diagonalei i, din nou, sub
diagonal. Corelaiile variabilelor cu ele nsele sunt perfect pozitive (r=1) i nu prezint, desigur,
nici un interes.
Fiecare celul include urmtoarele informaii:
valoarea lui r
nivelul p
numrul de subieci (N)
n cazul nostru, consemnm corelaii negative dar nesemnificative ntre anxietate i
agresivitate (r=-0.38, p=0.26), pe de o parte, i ntre anxietate i preferina pentru risc, pe de alt
parte (r=-0.40, p=0.24). n acelai timp, se constat o corelaie semnificativ (r=0.96, p<0.001)
ntre agresivitate i preferina pentru risc. Precizm faptul c raportarea coeficienilor de corelaie
se face cu dou zecimale, chiar dac programele i calculeaz cu trei zecimale.

M. Popa Aplicaii SPSS

Expresia grafica a corelaiei (Scatterplot)


Caracterul i intensitatea corelaiei dintre dou variabile se evideniaz extrem de
sugestiv cu ajutorul unei proceduri grafice specifice, numit scatterplot.
Aceasta se lanseaz din meniul principal Graphs-Scatter... care deschide urmtoarea
caset de dialog:

n cazul nostru, s presupunem c dorim reprezentarea grafic a corelaiei dintre


agresivitate i preferina pentru risc, singura semnificativ. n acest scop, selectm pe caseta
Scatterplot opiunea Simple i apsm Define.

Trecem variabila Agresivitate pe axa Y i variabila Preferina pentru risc pe axa Z (se
poate la fel de bine i invers). Se apas OK i se obine graficul din imaginea urmtoare, care
sugereaz foarte clar existena unei asocieri de tip liniar ntre cele dou variabile.

M. Popa Aplicaii SPSS

Reprezentarea grafic este surs de informaii cu privire la natura relaiei dintre variabile,
motiv pentru care este recomandabil utilizarea frecvent a acesteia. Mai mult, ea este necesar n
special atunci cnd valoarea corelaiei este redus, sau nesemnificativ, deoarece graficul poate
scoate n eviden o legtura de alt tip dect liniar.
O corelaie r=0.92, ca cea obinut mai sus, ntre agresivitate i preferin pentru risc,
este improbabil s se ntlneasc ntr-un studiu real. De fapt, dac s-ar ntmpla s
apar, ar trebui s concluzionm mai degrab c cele dou variabile se confund,
dect c sunt distincte.

M. Popa Aplicaii SPSS

Regresia liniar simpl


Utilizare
Analiza de regresie este o aplicaie a corelaiei, utilizat n scopuri de predicie. Dac
evalum agresivitatea ca trstur de personalitate i preferina pentru risc ca expresie a
numrului de incidente n trafic, la conductorii auto, se poate estima, pe baza agresivitii, riscul
de accident nc nainte de dobndirea carnetului de ofer. Acest tip de regresie, n care exist o
singur variabil predictor (agresivitatea) i o variabil criteriu (tendina spre risc) se numete
regresie liniar simpl. Mai frecvent utilizat este regresia multipl, care efectueaz predicii
bazate pe mai multe variabile predictor asupra unei variabile criteriu. Vom prezenta mai jos
regresia liniar simpl, ca o form de introducere n analiza de regresie, mai uor de neles.
Exemplu: Predicia rezultatului statistic pe baza cunotinelor de matematic, evaluate
anterior nceperii cursului de statistic.
Condiii
Din punct de vedere statistic, condiiile variabilelor care sunt supuse analizei de regresie
sunt aceleai ca n cazul corelaiei deoarece regresia liniar este o aplicaie a acesteia.
Din punct de vedere metodologic, predicia presupune, de regul, evaluarea variabilei
predictor anterior variabilei criteriu. Acest fapt poate sugera o relaie de tip cauzal ntre variabile,
dar numai dac sunt ntrunite i alte condiii (cum ar fi izolarea efectelor altor variabile).
Aranjarea datelor
Structura de variabile este similar analizei de corelaie.

Procedura: n principiu, analiza de regresie ncepe cu coeficientul de corelaie dintre


variabile i vizualizarea imaginii scatterplot. n cazul nostru, urmnd procedura prezentat mai
sus, am obinut o corelaie r=0.74 (p=0.002). Aceste valori confirm existena unei legturi
pozitive semnificative, ntre cunotinele de matematic i performana la statistic. O idee mai
exact ne ofer coeficientul de determinare r2=0,54. Acesta ne spune c 54% din variaia
performanei la statistic este explicat de variaia valorilor la variabila cunotine de
matematic. Deducem c restul de 46% din performana la statistic este explicat de alte
variabile, necunoscute n aceast faz1.
1

Facem precizarea c valorile i aprecierile nu se bazeaz pe un studiu reale.

M. Popa Aplicaii SPSS

Pe baza acestor concluzii se poate trece la analiza de regresie a crei finalitate este aceea
de obinere a coeficienilor a (termenul liber, sau originea dreptei de regresie) i b (panta dreptei
de regresie), cu ajutorul crora se poate estima performana la statistic pe baza rezultatului la un
test de cunotine matematice aplicat n prima zi de coal. Nendoielnic, o astfel de procedur sar justifica mai ales pentru identificarea studenilor cu poteniale dificulti i care, tocmai fiind
avertizai n legtur cu aceste dificulti, vor putea s acorde statisticii o atenie sporit, n
vederea obinerii unui rezultat peste nivelul celui prezis.
Lansarea procedurii: Analyze-Regression-Linear...

n caseta principal Linear Regression se vor completa variabilele dependent


(performanta) si independent (aptitudinile)

n caseta Statistics, bifm Estimates pentru


obinerea coeficienilor de regresie (opiune
implicit)

n caseta Regression Save, bifm Predicted


Values-Unstandardized i ResidualsUnstandardized, care vor avea ca efect crearea
de variabile distincte n baza de date.
Prediction interval (individual) va calcula
limitele de ncredere pentru valorile prezise.

Valorile prezise sunt valorile rezultate pe baza modelului de predicie.


Valorile reziduale se calculeaz ca diferen ntre valorile variabilei criteriu si cele
prezise pe baza modelului de regresie.

M. Popa Aplicaii SPSS

Analiza rezultatelor

Tabelul Model Summary ofer valoarea coeficientului de regresie, notat cu R, care este
identic cu coeficientul de corelaie dintre cele dou variabile. Dac modelul de regresie ar fi avut
mai multe variabile predictor, R ar fi fost coeficientul de corelaie multipl dintre predictori i
criteriu. Interpretarea este similar coeficientului de corelaie simpl, la fel ca i pentru R 2, care
este coeficientul de determinare al lui R. Valoarea lui ne spune c 55% din variaia performanei
la statistic este explicat de variaia variabilei cunotine de matematic. Adjusted R Square
este o corecie a lui R2 n funcie de numrul de predictori i numrul de subieci.

Tabelul Coefficients conine coeficienii B (nestandardizai) i coeficientul beta


(standardizat), care pot fi utilizai, la alegere, n ecuaia de predicie.
Astfel, de exemplu, dac un student realizeaz un scor de 30 la testul de cunotine de
matematic, se poate estima performan final la statistic cu ajutorul relaiei:
stat _ fin a b * mat _ in 3.406 0.854 * 30 29.02
unde 3.406 este originea iar 0.854 este panta dreptei de regresie.
Sau, dac predicia se face pe baza unui scor standardizat z al variabilei mat_in (s zicem,
0.93), atunci:
stat _ fin beta * mat _ in 0.742 * 0.93 0.69
n acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri
standardizate se afl n 0.
Desigur, scorurile astfel prezise sunt estimri, atta timp ct corelaia dintre variabile nu
este perfect. Iar estimrile conin cu att mai mult eroare cu ct corelaia dintre variabile este
mai mic (punctele graficului de corelaie fiind mai ndeprtate de dreapta de regresie).
La finalul procedurii analizei de regresie, cu setrile de mai sus, n baza de date apar
cteva variabile noi, aa cum se vede n imaginea de mai jos.

M. Popa Aplicaii SPSS

Variabila pre_1, conine valorile prezise pe baza modelului de regresie.


Variabila res_1, conine diferena dintre valoarea real i valoarea prezis
Variabilele lici_1 i lici_2, conin limitele inferioar i superioar ale intervalului de
ncredere pentru fiecare valoare n parte. Pentru a nelege mai bine problema limitelor, s privim
prima valoare prezis de pe coloana pre_1 (25.598). Cu un nivel de ncredere de 95% (echivalent
cu o probabilitate de eroare de 0.05), putem spune c valoarea adevrat pentru stat_fin prezis pe
baza valorii mat_in=26, s-ar afla n intervalul 21.77 i 29.41.
n fine, rezultatele conin i imaginea scatterplot a relaiei dintre valorile mat_in i
scorurile z ale variabilei pre_1.

Imaginea este identic cu ceea ce am prezentat n cazul corelaiei. Singura deosebire este
dat de trasarea dreptei. Aceasta se face de ctre operator, n felul urmtor:
- se acioneaz dublu clic de mouse pe imaginea graficului din Viewer. prin care...
- graficul este trecut deschis ntr-o fereastr individual de editare, n care...
- se execut procedura Chart-Options-Fit Line- Fit Options. La captul acestei serii de
aciuni apare caseta de mai jos unde se marcheaz Linear regression.

M. Popa Aplicaii SPSS

Facem precizarea c acest procedeu de trasare a liniei n interiorul scatterplotului este


utilizabil i n cazul corelaiei. Dac se alege alt model dect cel liniar (de exemplu, Quadratic
regression) se va obine linia de regresie sub form curbilinie, punnd n eviden abaterile de la
modelul liniar. Acest lucru este cu deosebire util atunci cnd corelaia este mic, fapt care se poate
datora faptului c relaia dintre variabile nu urmeaz un model liniar (vezi exemplul din prima
seciune a manualului, bazat pe corelaia dintre scorurile z i probabilitile de sub curba
normal).
Ce utilizm, corelaia sau regresia?
Corelaia i regresia liniar sunt similare i, de aceea, uor de confundat. n unele situaii
pot fi utilizate ambele proceduri.
Se calculeaz corelaia liniar:
atunci cnd exist dou variabile msurate pe aceiai subieci i se dorete evaluarea
gradului de asociere ntre variabile
atunci cnd distribuiile de eantionare ale celor dou variabile sunt normale (atunci cnd
cel puin una dintre variabile este manipulat, nu se calculeaz corelaia Pearson)
Se calculeaz regresia liniar:
atunci cnd una dintre variabile precede i poate fi cauza celeilalte variabile
atunci cnd una dintre variabile este manipulat, se calculeaz regresia
atenie, calculele regresiei nu sunt simetrice, ca urmare, inversnd variabilele n ecuaia
de regresie se va obine o linie de regresie diferit, n timp ce dac se inverseaz ordinea
variabilelor n calcularea corelaiei, se obine acelai coeficient r.
TESTE NEPARAMETRICE, .............................

Testul Mann-Whitney (U) pentru dou eantioane independente


Utilizare
Testul Mann-Whitney este utilizat pentru testarea diferenei dintre grupuri independente pentru
care variabila dependent este exprimat n valori ordinale (de rang) sau atunci cnd, chiar dac
este de tip cantitativ, nu suport un test parametric (testul t).
Exemplu: La ieirea dintr-un club de noapte, un psiholog interesat de efectul depresiv al
drogurilor a efectuat interviuri n legtur cu acest aspect i a identificat un numr de 10 tineri
care au consumat cte o pastil de Ecstasy i un numr de 10 tineri care au consumat doar alcool.
Apoi i-a convins s ia parte la un experiment i le-a administrat un chestionar de evaluare a
depresiei. Acelai chestionar a fost aplicat din nou, peste trei zile. Obiectivul studiului este, n
prima faz, acela de a verifica ipoteza c cele dou tipuri de drog (Ecsatsy i alcool) au efecte
depresante diferite. n acest scop vor trebui comparate valorile la depresie ale celor dou grupuri.

M. Popa Aplicaii SPSS

Aceast analiz va fi efectuat att pentru valorile depresiei de la prima msurare ct i pentru
cele de la a doua evaluare a depresiei.
Aranjarea datelor

Variabilele din baza de date sunt urmtoarele:


cod_sub, un cod numeric de identificare a fiecrui subiect (dei exemplele anterioare
nu au cuprins aceast variabil, ea nu trebuie s lipseasc din nici o baza de date)
drog, pentru tipul de drog utilizat (sunt afiate etichetele, iar valorile sunt 1=Ecstasy,
2=Alcool)
depr_1, scorul la depresie la prima evaluare
depr_2, scorul la depresie la a doua evaluare
Variabilele dependente din exemplul nostru au valori msurate pe scal cantitativ.
Testarea lor cu un test ordinal nu presupune o prealabil transformare de rang, programul
efectund automat aceast transformare. Procedura se aplic n acelai mod i direct pe
valori ordinale de rang.
Procedura: Statistics-Non Parametric Tests-2 Independent Samples...
Se cuvine s precizm c, n mod normal, datele de acest tip ar conduce la utilizarea
testului t pentru eantioane independente. Cu toate acestea, avnd n vedere volumul foarte mic al
eantionului, utilizarea unui test neparametric este de preferat.

M. Popa Aplicaii SPSS

n caseta Two-Independent Samples Tests variabilele analizate sunt trecute n lista Test
Variable List.
Rezultate

Tabelul Ranks ofer informaii sintetice despre cele dou variabile: volumul grupurilor,
media rangurilor i suma rangurilor.

Tabelul Test Statistics include valorile testului Mann-Whitney pentru cele dou variabile
testate simultan, depresia imediat i remanent. Valorile de interes din tabel sunt cele ale lui Z i
nivelul de ncredere p. n cazul nostru, se observ c depresia imediat nu difer semnificativ n
funcie de tipul de drog utilizat, n timp ce depresia remanent este semnificativ diferit, mai mare
la utilizatorii de Ecstasy dect la utilizatorii de alcool (conform datelor din tabelul anterior).

Testul Wilcoxon pentru dou eantioane perechi


Utilizare
n exemplul dat pentru testul Mann-Whitney, psihologul a testat ntr-o prim faz
semnificaia diferenei dintre cele dou grupuri definite prin tipul de drog diferit (eantioane
independente). Una dintre problemele cercetrii este i aceea dac exist o diferen ntre nivelul
depresiei imediate i cel al depresiei remanente. Acest tip de analiz nu se poate face dect pentru
subiecii aparinnd aceluiai tip de drog utilizat.
Aranjarea datelor
Este identic cu cea prezentat pentru testul Mann-Whitney.
n acest caz, deoarece analiza trebuie efectuat separat pe grupurile de consum
Ecstasy/Alcool, exist dou soluii. Prima ar fi selectarea (cu Data-Select Cases) a primului grup
i efectuarea testului, apoi selectarea celui de-al doilea grup i efectuarea testului. O soluie mai
elegant este ns aceea de a declara mprirea bazei de date n funcie de grupurile definite prin
tipul de drog. n acest scop se va utiliza procedura Data-Split File...

M. Popa Aplicaii SPSS

n locul setrii implicite Analyze all cases, do not create groups, se bifeaz opiunea
Compare groups i se declar variabila ale crei valori vor servi drept criteriu de mprire a bazei
de date n grupuri de analiz separat (n cazul nostru, tipul de drog) prin trecerea ei n zona
Groups Based on:. Efectul acestei aciuni este acela c toate prelucrrile care vor fi efectuate din
acest moment se vor aplica, separat, pe fiecare grup identificat prin valorile variabilei.
Operaiunea de mprire a bazei de date nu are semne vizibile, fapt care poate face s fie
uitat i, astfel, atunci cnd se revine la prelucrri care ar trebui s implice toat baza de
date rezultatele vor fi incorecte. De aceea, se va avea n vedere revenirea la setarea
Analyze all cases, do not create groups atunci prelucrarea pe grupuri a bazei de date nu
mai este becesar.

Testul Kruskal-Wallis pentru mai mult de dou eantioane


independente
Utilizare
Testul Kruskal-Wallis este utilizat atunci cnd avem o variabil dependent ordinal,
msurat pentru mai mult de dou grupuri independente (formate din subieci diferii), i dorim s
testm diferena dintre acestea. Acest test pentru date ordinale este analog testului ANOVA pentru
date cantitative.
Exemplu: A fost studiate relaia dintre condiiile familiale (familie armonioas, mam
singur, familie conflictual) i frecvena reaciilor emoionale pozitive la copiii de vrst
precolar, pe durata unei sptmni. Problema cercetrii este dac diferenele sunt semnificative
iar mediul familial are legtur conduita emoional a copiilor.
Aranjarea datelor

M. Popa Aplicaii SPSS

n baza de date, variabila familie a fost codificat i etichetate astfel: 1=familie


armonioas, 2=mam singur, 3=familie conflictual. Etichetele sunt afiate ca urmare a opiunii
Data-Value Labels. Rezultatele vor fi identice dac variabila dependent este exprimat i direct
n valori de rang.
Procedura: Statistics-Non Parametric tests- k Independent Samples...
n caseta principal se trece
variabila testat n zona Test
Variable List: iar variabila
independent n zona Gouping
Variable. Se activeaz
comanda Define Range...

Se definete domeniul
valorilor variabilei
independente, n cazul nostru:
minim 1, maxim 3.

Forma final a casetei este


aceasta.
Testul Kruskal-Wallis este
bifat implicit.

Rezultate

Primul tabel include informaii descriptive cu privire la variabila testat: numrul


subiecilor din fiecare grup i media rangurilor pentru fiecare grup. De precizat c programul
acord rangul 1valorii celei mai mici. Datele din tabel indic descreterea mediei rangurilor
(expresii emoionale pozitive numeroase) de la familia armonioas la cea conflictual.

Rezultatul testului, afiat n tabelul Test Statistics se exprim printr-o valoare chi-ptrat
(6.33) cu dou grade de libertate i p=0.042. Ca urmare, ipoteza de nul poate fi respins. Datele
confirm ipoteza c mediul familial (exprimat prin cele trei tipuri de familie) i pune amprenta
asupra expresivitii emoionale a copiilor de vrst precolar.

Testul z (t) pentru media unui singur eantion


Testul t pentru eantioane independente
Analiza de varian unifactorial (One Way ANOVA)

M. Popa Aplicaii SPSS

Testul t pentru diferena dintre mediile a dou eantioane dependente


(perechi)
Testul z al proporiei pentru un singur eantion
Testul Mann-Whitney (U) pentru dou eantioane independente

Testul Wilcoxon pentru dou eantioane perechi


Testul semnelor
Testul Kruskal-Wallis pentru mai mult de dou eantioane
independente