Documente Academic
Documente Profesional
Documente Cultură
Aplicatii SPSS
Aplicatii SPSS
Marian Popa
CUPRINS
SPSS prezentare generală..............................................................................................................................3
Editarea datelor..............................................................................................................................................8
Teste parametrice.........................................................................................................................................35
Testul z (t) pentru media unui singur eşantion..........................................................................................35
Testul t pentru eşantioane independente....................................................................................................37
Analiza de varianţă unifactorială (One Way ANOVA).............................................................................40
Testul t pentru eşantioane dependente (perechi)........................................................................................44
Coeficientul de corelaţie liniară Pearson (r)..............................................................................................46
Regresia liniară simplă...............................................................................................................................51
Analiza de consistenţă internă (Cronbach alfa)........................................................................................57
-2-
SPSS prezentare generală
-3-
Domeniul bazei de date (Data Editor)
-4-
Fişierul rezultat prin salvarea acestei ferestre are extensia .SPO
Un fişier cu rezultate SPSS nu poate fi deschis decât din SPSS
Dacă se doreşte transmiterea rezultatelor în afară SPSS se va proceda fie la
„exportul” rezultatelor cu procedura corespunzătoare din meniul File/Export, fie
la transferarea prin Select/Copy/Paste într-un editor grafic de tipul MS Word.
-5-
Meniurile SPSS
Meniurile de tip listă se aseamănă cu meniurile altor programe sub Windows. Fără a intra în
amănunte, iată o prezentare succintă a meniurilor pentru fereastra DATA EDITOR:
-6-
caseta File open/File of type)
Corecţia erorilor, selecţii, recodificări, transformarea
variabilelor prin calcule, declararea valorilor lipsă,
2 Pregătirea datelor
combinarea datelor din două fişiere diferite (meniurile
Data, Transform)
Selectarea procedurii
3 Meniurile Statistics (sau Analyze) şi Graphs
satistice
Selectarea variabilelor
În conformitate cu configuraţia casetei de dialog care este
4 ce urmează a fi supuse
afişată la fiecare procedura
prelucrării
Se acţionează butonul OK din caseta de dialog a procedurii
5 Rularea procedurii Butonul devine activ numai atunci când sunt întrunite
condiţiile presupuse de procedura respectivă
Rezultatele prelucrărilor sunt afişate într-o fereastră
6 Analiza rezultatelor specifică (SPSS Viewer), cu funcţiuni de editare grafică sau
de tip text, în funcţie de versiune.
Se editează rezultatele afişate în Viewer, aducându-le la
forma dorită sub aspect grafic
7 Editarea rezultatelor
Dublu clic pe un element din Viewer conduce la
intrarea elementului respectiv în regim de editare)
Inserarea datelor într- Rezultatele din SPSS Viewer se preiau cu Select/Copy şi se
8
un document depun cu Paste în orice tip de editor de documente.
SPSS este un program puternic de analiză statistică a datelor. Utilizarea lui optimă
presupune, în mod necesar, stăpânirea de către operator a cunoştinţelor teoretice de
statistică.
Aşa cum un program de editare grafică nu compensează lipsa de talent la desen, nici
SPSS nu poate fi cu adevărat exploatat de către cei care nu au cunoştinţe de statistică.
În lipsa acestora, nici alegerea procedurilor şi nici interpretarea rezultatelor nu va fi
cu adevărat posibilă.
-7-
Editarea datelor
O bază de date în SPSS este o structură formată din linii şi coloane, la intersecţia
cărora se formează celulele care conţin, fiecare, o anumită unitate de informaţie.
Existenţa unei baze de date deschisă în fereastra Data Editor este o condiţie
obligatorie pentru operarea cu SPSS
SPSS operează numai cu o singură bază de date deschisă la un moment dat
În linii generale, pentru crearea unei baze de date proprii în SPSS, se procedează
astfel:
Se lansează SPSS
Se definesc variabilele bazei de date în domeniul Data Editor
Se introduc datele pentru fiecare caz (subiect) în parte
Se salvează baza de date (extensia specifică este *.sav)
Definirea variabilelor
se acţionează Define variable din meniul Data
soluţie mai directă este dublu clic pe capul de coloană
-8-
Ca urmare a operaţiei de mai sus, apare o casetă de dialog ca în imaginea de mai
jos (forma ei nu diferă substanţial de la o versiune de SPSS la alta). Dacă privim caseta,
vom observa următoarele elemente:
Numele variabilei:
Orice variabilă SPSS trebuie să aibă un nume. Cele mai importante aspecte legate
de denumirea variabilelor sunt următoarele:
-9-
În cazul utilizării unor caractere improprii, apare un mesaj de eroare şi se permite
corectarea numelui.
Alegerea numelui este la latitudinea operatorului. Respectarea anumitor convenţii
poate fi, însă, extrem de utilă, mai ales dacă avem de a face cu o baza de date cu
multe variabile. Iată câteva recomandări utile în acest sens (ele nu sunt
obligatorii):
Numele să exprime, pe cât posibil, conţinutul variabilei
Pentru variabile „înrudite”, se va utiliza o schemă de denumire care
să exprime acest lucru. De exemplu, dacă avem variabile care
cuprind valori ale timpului de reacţie măsurat în mai multe
condiţii, putem declara variabilele TR_1, TR_2, TR_3 ş.a.m.d.,
caracterul underscore este recomandabil ca separator în cadrul
numelui de variabilă). Dacă într-o situaţie de acest gen am avea 10
sau mai multe „momente”, este de preferat să se declare nume de
genul TR_01, TR_02,...TR_10, etc., deoarece ulterior SPSS
aranjează alfabetic variabilele în listele de selecţie şi, astfel, se
păstrează ordinea dorită.
Într-o bază de date nu pot exista două variabile cu acelaşi nume!
Există o serie de cuvinte „rezervate”, a căror utilizare ca nume de variabile nu este
acceptată de program. Acestea sunt: ALL, AND, BY, EQ, GE, GT, LE, LT, NE,
NOT, OR, THRU, TO, WITH.
Aşa cum se observă în caseta Define Variable Type din imaginea de mai sus, SPSS poate
opera cu o varietate de tipuri de variabile. Fiecărui tip îi corespund anumite proprietăţi
(caracteristici) care trebuie definite de operator. Cele mai uzuale sunt tipurile:
- 10 -
[Numeric], care cuprind valori de tip numeric cu sau fără zecimale.
Proprietăţi:
numărul de cifre necesare pentru exprimarea „întregilor”
numărul de „zecimale”
EXEMPLE:
Pentru o variabilă în care vom introduce vârsta în ani împliniţi, vom defini Type
Numeric cu Width 2 (presupunând că nu avem subiecţi cu vârsta peste 100 de ani)
şi Decimal Places 0.
Pentru o variabilă în care vom introduce rezultatul la un test exprimat în scoruri T
cu o zecimală, definim Type Numeric cu Width 2 şi Decimal Places 1.
[Caracter] (String), care cuprind valori exprimate sub formă de caractere alfanumerice
(litere sau chiar cifre).
Proprietăţi
numărul de caractere rezervat, care este fixat implicit la 8, dar poate fi
modificat după dorinţă.
SPSS face distincţie între variabile de tip caracter „scurte” (Short string) şi „lungi”
(Long string). Primele au maxim 8 caractere şi pot fi incluse în unele proceduri
statistice (semnificaţia diferenţei între medii, de exemplu), pe când celelalte nu pot fi
utilizate decât în operaţii de listare (cazul variabilei de genul „nume”, de ex.).
Deşi permisă, utilizarea variabilelor „string” nu este de preferat. Toate variabilele
care suportă codificări vor fi, de preferinţă, introduse cu valori numerice. Utilizarea
acestora în proceduri statistice nu este limitată de nici o restricţie.
Unităţi de timp calendaristic sau orar [Date], care pot include valori de timp într-un
format specificat, aşa cum se vede în imagine.
Proprietăţi
formatul de întroducere, care poate fi unul din cele evidenţiate în
caseta Define Variable Type/Date
Exemplu: dd-mmm-yyyy presupune introducerea unor valori de genul „21-FEB-
2001” (luna fiind scrisă obligatoriu după prescurtarea ei în engleză).
Există o mare varietate de formate pentru acest tip de variabilă, acoperind, practic,
orice cerinţă posibilă din partea utilizatorului.
- 11 -
Variabilele de tip Date beneficiază de funcţii speciale de tratare şi analiză în
SPSS.
Nu vom prezenta şi celelalte tipuri de variabile, ele fiind mai puţin folosite, dar
facem precizarea că semnificaţia lor poate fi găsită în Help-ul casetei Define Variable
Type.
Tipul unei variabile poate fi schimbat ulterior prin simpla redefinire a acesteia.
Se va acorda atenţie mesajelor care pot să apară şi care avertizează asupra
eventualelor pierderi de informaţie prin schimbarea tipului.
Opţiunile din zona Measurement (Scale, Ordinal, Nominal), care se regăsesc
doar la versiuni SPSS de la 7.0 în sus, nu au întotdeauna o utilitate practică dar
marcarea lor corectă este necesară pentru anumite proceduri statistice sau
grafice.
- 12 -
Deşi nimic nu ne obligă să aplicăm etichete variabilelor şi valorilor, este foarte
recomandabil ca ele să fie atribuite.
Etichetele ajută la citirea mai uşoară a rezultatelor (deoarece apar alături de acestea).
În plus, etichetele sunt asociate prelucrărilor grafice (histograme, bare, etc.) fapt care
reduce necesitatea de a le introduce ulterior prin editarea respectivelor grafice.
Pentru a şti cum să declarăm etichetele, este bine să ni le imaginăm ca fiind înscrise
pe axele de referinţă ale unui grafic. Dacă „se potrivesc”, atunci au fost bine definite.
Oricum, ele vor putea fi modificate ulterior sau editate direct în SPSS Viewer.
Pentru declararea valorilor lipsă se acţionează butonul Missing Values din caseta
Define Variables, care generează apariţia casetei de dialog alăturate.
Deşi nu pare foarte evidentă acum, utilitatea funcţiei de declarare a valorilor lipsă
nu trebuie subestimată. Foarte adesea suntem nevoiţi să scoatem din prelucrări
anumite valori (care nu pot fi totuşi, pur şi simplu, şterse). Să ne gândim numai la
valorile extreme ale unei distribuţii, a căror menţinere în anumite prelucrări poate
determina modifcări semnificative a rezultatelor.
- 13 -
Atribuirea numelui (maxim 8 caractere)
Definirea tipului (numeric, caracter, data)
Atribuirea etichetei variabilei
Atribuirea etichetei valorilor, în cazul variabilelor măsurate pe scale
nominale sau ordinale
Declararea valorilor lipsă (care nu au fost recoltate în procesul de
măsurare, din diferite motive)
Ştergerea unei variabile se face prin selectarea acesteia (clic pe capul de variabilă)
şi acţionarea tastei Delete (sau se comandă din meniul Edit-Cut).
Inserarea unei variabile se face prin plasarea cursorului-celulă pe coloana
variabilei în stânga căreia dorim să inserăm noua variabilă (sau prin selectarea
variabilei respective), după care se comandă, din meniul Data-Insert variable.
După aceasta, se defineşte variabila inserată (nume, tip, etichete).
Erori frecvente
- Apariţia unor cazuri inutile, (umplute cu system missing values) la sfârşitul unei
baze de date.
Explicaţie: Introducerea inutilă a unei valori într-o variabilă, valoare care apoi
este ştearsă. Cu toate acestea, SPSS a creat deja un caz nou, pe care l-a umplut cu system
missing values.
Soluţie: Selectarea cazului prin apăsarea pe capul de linie şi acţionarea tastei
Delete (sau Edit-Cut).
- 14 -
- Apariţia unor variabile inutile (nedorite).
Explicaţie: La introducerea din greşeală a unei valori într-o variabilă nedefinită în
prealabil, SPSS creează automat o variabilă implicită, pe care o denumeşte VAR00001.
Soluţie: Se selectează variabilă resectivă (clic de mouse pe capul de coloană) şi se
acţionează tasta Delete (sau Edit-Cut).
- 15 -
Nevrozism NEVRO Numeric, Width 2, Nevrozism
Decimal Places 0
(nu se poate obţine o
valoare mai mare de
100 şi nu există
zecimale)
Lie LIE Numeric, Width 1, „Minciună”
Decimal Places 0
(nu se poate obţine o
valoare mai mare de
9 şi nu există
zecimale)
Se observă faptul că pentru variabile ale căror nume exprimă exact conţinutul
(SEX, VÂRSTA) se poate utiliza fără nici un inconvenient numele şi ca etichetă. Pentru a
fi mai expliciţi, să spunem că numele variablei este util în primul rând SPSS-ului pentru a
manipula variabilele, în timp ce etichetele sunt necesare mai ales utilizatorului pentru a
înţelege cu uşurinţă la ce se referă o variabilă al cărui nume prea scurt
Avem alăturat, imaginea DATA EDITOR pentru primii trei subiecţi introduşi cu
variabilele de mai sus:
- 16 -
avea grijă însă, ca pe documentul original să scriem codul numeric aferent fiecărui
subiect, astfel încât, la nevoie, să se poată identifica numele (pentru corecţii, de ex.)
Variabile multiple pentru întrebări cu răspuns multiplu: De obicei, o întrebare
prezintă un singur răspuns, dar pot fi situaţii în care o întrebare prezintă răspunsuri
multiple care pot fi alese în acelaşi timp. De exemplu: „Ce activităţi preferaţi pentru
timpul liber? 1. sport; 2. filme; 3. petreceri cu prieteni...”, etc. Într-un asemenea caz
ne putem aştepta să avem mai multe răspunsuri la aceeaşi întrebare. Soluţia pentru
introducerea datelor este, de aceea, crearea mai multor variabile, câte una pentru
fiecare variantă de răspuns. Astfel, vom avea variabila „SPORT” care poate primi
două valori, sa zicem „1” dacă este aleasă şi „0” dacă nu este aleasă, şi aşa mai
departe. În acest mod vom putea analiza frecvenţa alegerilor pentru fiecare variantă
de răspuns în parte.
Evitarea variabilelor redundante: Dacă la un test nu sunt posibile, de exemplu, decât
răspunsuri corecte sau greşite, atunci nu este necesar să declarăm o variabilă pentru
„corecte” şi una pentru „greşite” dacă suma lor dă totalul răspunsurilor.
O bază de date aflată în lucru nu are un corespondent într-un fişier decât după ce
se execută o salvare a acesteia. Acest lucru nu trebuie niciodată uitat. Spre deosebire de
WORD de exemplu, SPSS nu are o funcţie de salvare automată după un interval de timp
prestabilit. Cu alte cuvinte, indiferent ce modificări facem în Data Editor pe ecran, datele
respective vor fi salvate numai la comanda explicită a operatorului.
Pentru o bază de date nou creată, salvarea se face în mod similar cu orice alt
program cunoscut: File-Save as, care deschide următoarea casetă de dialog:
Se alege locaţia de salvare (Save in)
Se dă un nume fişierului (File name)
Se verifică tipul de fişier (formatul implicit pentru baze de date SPSS are
extensia .sav)
Se acţionează Save
SPSS poate salva şi în alte formate, dintre cele mai importante fiind: Dbase
sau FoxPro, Lotus 1-2-3, Excel. Salvarea în aceste formate poate fi utilă
pentru transferul datelor pentru prelucrări ulterioare în alte programe.
- 17 -
Deschiderea unei baze de date SPSS
În cazul deschiderii unui fişier de alt tip decât SPSS, se va alege tipul
respectiv din lista Files of type. În cazul în care SPSS nu recunoaşte tipul de
fişier în care se află datele noastre, putem încerca transformarea lor prealabilă
din formatul original într-un format recunoscut de SPSS. Deşi există riscul
pierderii unor aspecte ce ţin de formatul de reprezentare a datelor, operaţiunea
scuteşte totuşi un mare volum de muncă.
- 18 -
Operaţii de transformare a variabilelor
Dacă privim variabilele SPSS din punctul de vedere al modului în care au fost
create, putem distinge două categorii:
b) variabile „primare” care includ valori rezultate direct din cercetare si au fost
introduse, de regulă, de la tastatură.
c) variabile „secundare” rezultate prin transformările aplicate variabilelor primare.
Se utilizează atunci când dorim să obţinem o variabilă prin adunarea valorilor din
două sau mai multe variabile.
Imaginea de mai jos prezintă o tabelă de date SPSS care cuprinde scorurile la trei
examene parţiale (scor_1, scor_2 si scor_3). Dorim să realizăm o variabilă care să
cuprindă un scor general, prin însumarea celor trei variabile. Se poate observa că unii
dintre subiecţi nu au valori la toate cele trei scoruri (valori lipsă de sistem).
- 19 -
Deoarece prin calculare, o nouă variabilă este plasată după toate variabilele
existente, am preferat să inserăm o nouă variabilă imediat după cele trei pe care dorim să
le însumăm. În acest fel avem şi posibilitatea să controlăm uşor corectitudinea operaţiei
de însumare
Se apelează procedura Transform-Compute, care deschide caseta de mai jos:
- 20 -
Dacă variabilele ce vor fi însumate se află în baza de date una după alta, ca
în cazul exemplului nostru, atunci avem posibilitatea să scriem o expresie
de însumare simplificată, astfel SUM (prima_variabilă TO
ultima_variabilă). În acest caz, clauza TO va fi cuprinsă între spaţii, pentru
a nu fi confundată cu un nume de variabilă. Această opţiune ne sugerează
cât de important poate fi să aranjăm corespunzător variabilele în structura
unei tabele SPSS.
3. Se apasă butonul OK
4. Deoarece variabila total există, SPSS ne întreabă dacă dorim să modificăm
conţinutul acesteia. Dacă nu ar exista o variabilă cu acest nume, rezultatul
operaţiei de calcul ar fi depus într-o variabilă creată automat şi amplasată după
ultima variabilă din baza de date.
- 21 -
Reamintim că funcţia MEAN poate fi scrisă de la tastatură sau poate fi adusă din
lista de funcţii, prin selectare şi acţionarea butonului ▲.
Este de la sine înţeles că expresia de calcul poate fi realizată şi într-o manieră
simplă şi directă, fără utilizarea funcţiilor (SUM sau MEAN), astfel:
Pentru sumă: scor_1+scor_2+scor_3
Pentru medie: (scor_1+scor_2+scor_3)/3
Se va face o distincţie clară între suma sau media astfel obţinute, care se referă la
suma sau media valorilor de la mai multe variabile, pentru acelaşi subiect, şi suma
sau media pe care am calcula-o pe verticală, la nivelul fiecărei variabile în parte,
pe întreaga distribuţie
Se pot realiza diverse alte funcţii de transformare, utilizându-se marea varietate de
funcţii care se găsesc în lista Functions şi a căror semnificaţie se poate află din
Help-ul casetei Compute.
Observăm că variabila bdate, care conţine data naşterii. Pentru a avea vârsta,
trebuie să calculăm diferenţa dintre anul curent (să zicem, 2000) şi anul naşterii: Pentru
- 22 -
aceasta trebuie să facem diferenţa dintre anul curent (2000) şi anul naşterii, care se află în
câmpul bdate.
Pentru a avea variabila ce urmează a fi creată în apropierea variabilei bdate, vom
insera o variabilă (denumind-o „virsta”, de tip numeric, cu doi întregi). Apoi utilizăm
procedura Compute din meniul Transform:
- 23 -
dintr-o variabilă „primară” peste valorile deja existente. Cu alte cuvinte, este
recomandabil să creăm prin transformare variabile noi, şi nu să modificăm
valorile existente din variabilele „primare” a căror pierdere ar necesita
reintroducerea lor, în caz de necesitate.
Recodificarea variabilelor
- 24 -
Atenţie, se poate alege şi opţiune Into Same Variables, dar nu este recomandabilă
deoarece, în cazul unei erori, nu mai avem la dispoziţie variabila iniţială pentru o nouă
recodificare.
Deşi relativ complicată, caseta de declarare a noilor valori în funcţie de cele vechi este uşor de înţeles.
În zona Old value, se alege una dintre variantele de definire a valorilor de la care se
pleacă. Să zicem că am ales soluţia să recodificăm anii pe intervale de zece ani, primul interval
fiind 29-39, al doilea 40-49, ş.a.m.d.
Pentru aceasta activăm opţiunea Range şi scriem valorile limite al intervalului dorit.
După aceasta, în zona New value oValue, scriem care este valoarea pe care o asignăm
acestei clase.
În fine, acţionăm butonul Add pentru a definitiva operaţiunea şi trecem la definirea
următoarei clase, până terminăm.
În zona OldNew se poate observa lista recodificărilor definite.
Se acţionează butonul Continue şi, la revenirea în caseta anterioară, butonul OK.
Rezultatul operaţiuni se vede mai jos:
- 25 -
Se observă corespondenţa dintre valoarea din variabila virsta, cu valoarea din
variabila v_clase. Pentru valoarea 71, avem missing value în variabila v_clase, deoarece
nu am definit un interval care să cuprindă această vârstă. (De regulă, această situaţie este
determinată de o eroare de definire a intervalelor de clasă. Pentru a o repara, ar trebui să
intrăm din nou în procedura Recode şi să redefinim clasele).
relua.
Transformarea operată pe variabila vîrstă nu este de loc inutilă. Dacă am fi dorit
să vedem în ce măsură este o relaţie între nivelul salariului şi vârstă, ar fi fost oarecum
impropriu (fără a fi propriu-zis o greşeală ) să utilizăm o statistică parametrică (corelaţia).
În analizele statistice pe vârste este recomandabil, totuşi, să operăm cu grupe de vârstă.
Aşa cum am spus în cuprinsul primei părţi a acestui volum, este posibil să
ne confruntăm cu o variabilă cantitativă ale cărei valori nu respectă condiţiile unei
statistici parametrice (vezi figura din stânga, unde valoarea 250 este excesivă). Într-o
situaţie de acest gen, una din soluţiile posibile este transformarea de rang, cu procedura
Transform-Rank cases (caseta din dreapta):
- 26 -
Variabila vizată (scor) este trecută în lista Variable(s), se setează modul de
ordonare (am ales atribuirea rangului 1 valorii celei mai mari) iar apoi am acţionat
butonul OK. Procedura permite fixarea unor parametri de transformare cu ajutorul
butoanelor Rank şi Ties, asupra cărora nu insistăm aici.
Imaginea din casetă descrie sortarea bazei de date, crescător (Ascending), după
valorile variabilei scor (rezultatul se vede în imaginea de mai jos).
Se poate efectua sortarea simultană după mai multe variabile, fiecare în sensul
dorit, de exemplu: grup(Ascending) şi scor(Descending).
- 27 -
Împărţirea bazei de date în subgrupuri
Opţiunile sunt:
Analyze all cases, do not create groups (pentru analiza integrală a datelor)
Compare groups (rezultatele vor fi afişate astfel încât să poată fi uşor comparate)
Organize output by groups (rezultatele vor fi afişate în Viewer, separat pe
grupuri)
Operaţia nu produce nici o modificare vizibilă asupra bazei de date. Singurul efect
se vede în zona de afişare a rezultatelor, unde toate procedurile de analiză vor fi
afişate pentru fiecare subgrup în parte.
Pentru a se reveni la analiza intergrală a datelor, se va reveni în procedura Split
File şi se va seta opţiunea Analyze all cases....
- 28 -
All cases este setarea implicită şi înseamnă că toate datele intră în
analiză
If condition is satisfied, se bifează atunci când se doreşte declararea
unei condiţii de selectare bazată pe o funcţie
IF este butonul de deschidere a casetei pentru declararea condiţiei,
care deschide caseta Select Cases: if. În cazul nostru, am trecut
variabila grup în zona de editare a functie şi am declarat-o egală cu
1. Astfel, toate cazurile din baza de date care au grup=1 vor fi
analizate, celelalte fiind ignorate. Exemplul se bazează pe o
selecţie simplă, dar sunt permise selecţii bazate pe funcţii mai
complicate sau care pot să includă combinaţii de variabile.
o Random sample of cases, permite selectarea unui set aleator de cayuri din
baya de date
o Based on time por case range, permite selectarea cazurilor în funcţie de
poziţia din baza de date.
o Use filter variable, selectează pe baza valorile unei variabile filtru
o Unselected cases Are, permite opţiunea de filtrare a cazurilor neselctate
(Filtered) sau de eliminare a lor (Deleted). În acest din urmaă caz, cazurile
neselectate vor fi şterse, dar baza de date, dar actualizarea fişierului de pe
hard disk se va face numai după prima comanda Save.
După finalizarea operaţiei de selectare de mai sus, baza de date se prezintă în felul
următor:
- 29 -
Se observă:
Marcarea cu o diagonală a capului de linie corespunzător cazurilor neselectate
Apariţia unei variabile de sistem filter_$ care conţine valoarea 0 pentru cazurile
neselectate şi valoarea 1 pentru cazurile selectate. Această variabilă poate fi
ulterior utilizată în procedurile de analiză, ca variabilă independentă (caz în care
se va anula situaţia de selectare, prin bifarea opţiunii All cases).
Selectarea este utilizată în mod obişnuit, pentru alegerea temporară a unui set de
date. Adesea se uită anularea unei selectări existente, atunci când se doreşte
revenirea al analiza tuturor cazurilor. Efectul este obţinerea unor rezultate pe date
parţiale.
Opţiunile SPSS pentru organizarea datelor sunt mult mai numeroase decât cele
descrise mai sus. Fără a le trata în amănunt, ne vom mulţumi să le prezentăm sumar:
Agregarea cazurilor, atunci când există înregistrări multiple pentru fiecare subiect
şi se doreşte păstrarea uneia singure (Data-Agregate)
Adăugarea unor cazuri din altă bază de date SPSS (Data-Merge Files-Add
cases...)
Adăugarea unor variabile din altă bază de date SPSS (Data-Merge Files-Add
variables...)
Inversarea liniilor cu coloanele (Data-Transpose...)
- 30 -
Calcularea indicatorilor statistici descriptivi
Procedura Frequencies
- 31 -
transfer (►). Pot fi incluse mai multe variabile în această listă, rezultatele fiind afişate
distinct, pentru fiecare în parte.
Rezultatele sunt afişate în SPSS Viewer în forma de mai jos (dar unele sub altele,
nu alăturat, aşa cum sunt aranjaţi aici):
Procedura Descriptives
- 32 -
Această procedură vizează doar indicatorii statistici descriptivi. La lansare,
Satistics-Descriptives, se deschide caseta principală Descriptives.
Se trec variabilele vizate în lista Variable(s)
(dacă dorim calcularea scorurilor z, se Se aleg indicatorii doriţi din Options
bifează opţiunea din stânga-jos a casetei )
Procedura Explore
Procedura Explore este cea mai complexă dintre toate procedurile statisticii
descriptive şi se poate utiliza atunci când se doreşte o analiză exhaustivă a variabilei (sau
variabilelor).
Caseta principală Explore
- 33 -
Label cases by, permite etichetarea cazurilor la afişare (rar utilizat)
Display, permite alegerea opţiunilor de afişare a rezultatelor numerice (Statistics),
grafice (Plots) sau ambele categorii (Both)
Butonul Statistics deschide caseta pentru alegerea unor indicatori (dar procedura
analizează, implicit toţi indicatorii statistici descriptivi, de bază)
Butonul Plots, permite alegerea reprezentărilor grafice dorite:
- 34 -
Teste parametrice
Utilizare
Testul z pentru un singur eşantion este utilizat pentru se testa diferenţa dintre
media unui eşantion faţă de media cunoscută a populaţiei din care face parte. Atunci când
volumul eşantionului este mic (N<30) este utilizată o variantă denumită testul t pentru un
singur eşantion.
Utilizarea acestui test statistic este condiţionată de cunoaşterea mediei populaţiei.
Dacă populaţia are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor
în care există studii speciale, cum sunt cele antropometrice, de exemplu). Dintre
variabilele psihologice ale cărei medii pentru populaţie este cunoscută, este inteligenţa,
exprimată în unităţi QI (μ=100). Testul poate fi utilizat, însă, atunci când populaţia are o
extindere mai redusă. De exemplu, dacă a fost evaluat nivelul de satisfacţie într-o
organizaţie, se poate testa diferenţa dintre nivelul de satisfacţie la nivelul unei secţii faţă
de media satisfacţiei la nivelul întregii organizaţii (populaţie).
Condiţii de aplicare
Condiţia teoretică de bază este normalitatea distribuţiei de eşantionare. În temeiul
teoremei limitei centrale, cu cât volumul eşantionului este mai mare, cu atât normalitatea
distribuţiei de eşantionare este mai sigură.
Aranjarea datelor
Datele supuse testării trebuie să fie incluse într-o variabilă SPSS de tip numeric.
- 35 -
Rezultate
Primul tabel include statistica descriptivă a variabilei testate (N, media, ab.std,
eroarea standard a mediei)
Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03,
diferenţa faţă de media populaţiei (22.6) şi limitele inferioară (12.57) şi superioară
(32.63) ale intervalului de încredere pentru media populaţiei estimată de eşantionul de
cercetare.
Concluzia testului: media eşantionului de cercetare diferă semnificativ de QI=100,
ca medie a populaţiei.
- 36 -
Testul t pentru eşantioane independente
Utilizare
Testul t pentru eşantioane independente este utilizat pentru testarea diferenţei
dintre mediile aceleiaşi variabile dependente măsurate pe două grupuri, formate din
subiecţi diferiţi. Exemplu: testarea diferenţei dintre media scorului la o scală de
sociabilitate aplicată unor copii crescuţi în familie şi unor copii crescuţi în instituţii de
ocrotire. În acest caz, scorul la sociabilitate este variabila dependentă, măsurată pe scală
cantitativă (interval/raport) iar mediul de educare este variabila independentă, exprimată
pe scală nominală dihotomică (familie/instituţie de ocrotire)
Condiţii
Teoretic, testul t poate fi utilizat pentru eşantioane oricât de mici, dacă distribuţia
de eşantionare pentru cele două grupuri este normală şi dacă varianţa valorilor în cele
două grupuri nu diferă semnificativ. În ce priveşte condiţia egalităţii varianţei, ea este
testată cu un teste specifice. Unul dintre acestea este testul Levene, iar în funcţie dacă
rezultatul său programul calculează testul t pe două căi, aşa cum vom vedea mai jos.
Dacă variabila dependentă nu întruneşte condiţiile pentru testul t, se poate apela la
teste neparametrice, astfel:
Testul z pentru proporţii (compararea procentului de „sociabili” din cele două
grupuri)
Testul Mann-Whitney U, dacă se transformă valorile variabilei „sociabilitate”
în valori de rang
Aranjarea datelor
Tabela de date SPSS va conţine variabila dependentă, de tip numeric, şi variabila
independentă, de tip nominal, cu două valori, în funcţie de apartenenţa la un grup sau
altul. Variabila independentă poate fi de tip „string” (codificând cele două grupuri cu
valori de genul „A” şi „B”) sau de tip numeric (cu codificarea convenţională 1 şi 2). Din
principiu, însă, recomandăm cea de a doua variantă.
- 37 -
În caseta principală se trece variabila dependentă (soc) în lista Test Variable(s)
(pot fi testate mai multe variabile simultan) iar variabila independentă (grup), în zona
Grouping Variable. În acest moment, programul ataşează variabilei dependente două
semne de întrebare, sugerând introducerea valorilor care definesc cele două grupuri.
Concomitent, se activează butonul Define Groups a cărui acţionare deschide caseta
secundară Define Groups, unde se introduc valorile care definesc cele două grupuri
comparate (ordinea lor nu este relevantă). După acţionarea butonului Continue, caseta
principală devine completă şi se poate acţiona OK pentru efectuarea testului.
Rezultate
- 38 -
În primul tabel (Group Statistics) avem statistica descriptivă a celor două grupuri.
Se va observa că programul descrie grupurile prin intermediul etichetelor valorilor. Dacă
acestea nu ar fi fost definite, în loc de „institutie” şi „familie” ar fi apărut 1, respectiv, 2.
Al doilea tabel are două linii:
Pe prima avem rezultatele testului t pentru cazul asumării omogenităţii varianţei
(Levene’s Test for Equality of Variances). În cazul nostru, ele sunt egale (Sig.=0.666,
ceea ce se traduce ca o valoare p=0.666, deci mai mare de 0.05 pentru distribuţia F a
testului Levene, pe care nu o discutăm aici). Ca urmare, vom citi pe această linie
rezultatul testului: t=-2.42, df=12, Sig.=0.045.
Pe a doua linie avem rezultatele testului t pentru cazul în care nu s-ar întruni
condiţia de omogenitate a varianţei pentru cele două grupuri. Dacă semnificaţia testului
Levene ar fi fost mai mică sau egală cu 0.05, rezultatului testului t s-ar fi citit pe această
linie.
Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetării,
conform căreia copiii crescuţi în mediu familial sunt mai sociabili (m=22.00) decât cei
crescuţi în mediu instituţional (m=17.71).
- 39 -
Analiza de varianţă unifactorială (One Way ANOVA)
Utilizare
În mod obişnuit, analiza de varianţă este utilizată pentru a testa semnificaţia dintre
mediile măsurate pe mai mult de două grupuri independente (compuse din subiecţi
diferiţi). În acest caz valorile variabilei dependente sunt exprimate pe scală cantitativă
(I/R) iar valorile variabila independentă este de tip categorial.
Dacă se utilizează ANOVA pentru a testa diferenţa dintre două medii obţinute pe
grupuri independente, rezultatul ei este echivalent cu al testului t pentru grupuri
independente (menţionăm, însă, că această utilizare este neuzuală).
Exemplu: Se compară media timpului de reacţie pentru trei grupuri
experimentale, supuse fiecare, anterior evaluării vitezei de reacţie, unui şoc electric de
intensitate „mică”, „medie” sau „mare”. În acest caz s-ar putea obiecta că variabila
independentă se exprimă pe o scală ordinală dar, în esenţă, ea este de tip categorial, fapt
ce justifică aplicarea testului ANOVA.
Condiţii
Variabila dependentă trebuie să fie de tip I/R şi să respecte condiţia de
normalitate a distribuţiei de eşantionare pentru fiecare dintre grupurile supuse
comparaţiei. Din fericire, testul F este remarcabil de robust în cazul încălcării
acestei condiţii. ANOVA este mai vulnerabilă în situaţia când distribuţia
variabilei dependente este prea aplatizată sau prea înaltă (kurtosis≠0) decât în
cazul asimetriei (skewness≠0). Cu cât volumul grupurilor supuse comparaţiei
este mai mare, cu atât aspectele legate de normalitatea distribuţiei au un efect
mai mic asupra ANOVA.
Varianţa valorilor variabilei dependente în interiorul grupurilor definite prin
valorile variabilei independente trebuie să fie egală. Această condiţie se
numeşte omogenitatea varianţei. Încălcarea acestei condiţii nu invalidează
testul ANOVA, care este destul de robust şi în acest caz. În orice caz, se vor
analiza cu atenţie cazurile care prezintă valori extreme, care au un efect
important asupra varianţei. Egalitatea (omogenitatea varianţei) poate fi testată
cu testul Levene.
Aranjarea datelor
Se construieşte o variabilă independentă (definită ca „factor” în contextul
ANOVA) care conţine codurile de apartenenţă a cazurilor la fiecare dintre grupurile
supuse analizei (în cazul nostru 1=şoc mic, 2=şoc mediu, 3=şoc mare) şi variabila
dependentă, care conţine valorile timpului de reacţie.
- 40 -
Se va reţine că procedura ANOVA nu suportă variabila independentă de tip
„string”. În imagine baza de date SPSS este ordonată după variabila „shoc” dar acest
lucru nu este necesar pentru procedura de calcul.
Procedura: Statistics-Compare Means-One-Way ANOVA...
- 41 -
După finalizarea setărilor se apasă OK pe caseta principală şi se analizează
rezultatele.
Rezultate
Tabelul ANOVA conţine rezultatului testului F a cărui valoare este 35.264 pentru
un prag p=0.000. Atenţie, p=0.000 nu se va înţelege ca p=0 ci ca p<0.001. În raportul de
cercetare este chiar recomandabil să nu se utilizeze valoarea 0.000 care poate sugera
„certitudinea” rezultatului.
- 42 -
hoc sunt astfel în concepute încât să minimizeze acest neajuns. Totuşi, ele nu vor fi în
nici un caz luate în considerare dacă testul F nu atinge pragul de semnificaţie statistică
(p<0.05).
Având în vedere că testul Levene a confirmat omogenitatea varianţei, se vor citi
valorile pentru testul Bonferoni (în caz contrar, s-ar fi citit cele pentru testul Tamhane).
Valorile aunt uşor de analizat: În prima coloana avem definite grupurile analizate
(etichetarea valorilor variabilei independente ajută mult la inteligibilitatea tabelului). În
coloana a patra (Sig.) se află semnificaţiile pentru diferenţa dintre medii. Astfel, putem
constata faptul că timpul de reacţie dintre grupul supus şocului de mica intensitate şi cel
supus şocului de medie intensitate nu diferă semnificativ (p=0.520). În acelaşi timp,
grupul supus unui şoc „mic” diferă de grupul supus unui şoc „mare” (p<0.001), la fel ca
şi în cazul comparaţiei dintre grupul cu şoc „mediu” şi cel cu şoc „mare” (p<0.001).
Cu alte cuvinte, variaţia semnificativă a timpului de reacţie în funcţie de cele trei
categorii de intensitate a şocului electric, provine cu precădere de la efectul pe care îl are
şocul „mare”, care provoacă o încetinire a timpului de reacţie consistentă faţă celelalte
două categorii de şoc electric.
Aceasta concluzie este întărită şi de reprezentarea grafică a mediei timpului de
reacţie ale celor trei grupuri.
Aşa cum se poate observa, timpul de reacţie creşte mai accentuat la grupul cu şoc
„mare” în timp ce mediile primelor două niveluri de şoc sunt relativ apropiate.
- 43 -
Testul t pentru eşantioane dependente (perechi)
Utilizare
Testul t al diferenţei mediilor a două eşantioane dependente permite evaluarea
semnificaţiei variaţiei unei anumite caracteristici la aceeaşi indivizi în două situaţii
diferite (de exemplu, „înainte” şi „după” acţiunea unei anumite condiţii, ori în două
contexte diferite, indiferent de momentul manifestării acestora). Avantajul major al
acestui model statistic este acela că surprinde variaţia numită „intrasubiect”, prin faptul că
baza de calcul este diferenţa dintre cele două valori ale fiecărui subiect în parte.
Exemplu: Un grup de subiecţi efectuează operaţii aritmetice în condiţii de linişte
şi, ulterior, în condiţii de zgomot puternic. Ipoteza cercetării este că zgomotul determină
o reducere a capacităţii de calcul numeric.
Condiţii
Condiţia teoretică a testului este normalitatea distribuţiei de eşantionare a
distribuţiei de diferenţe. Ca şi în celelalte cazuri, teorema limitei centrale determină
normalizarea distribuţiei de eşantionare pe măsură ce volumul eşantionului creşte.
În situaţia în care condiţia nu se îndeplineşte, se pot utiliza teste neparametrice
echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date
ordinale).
Aranjarea datelor
Vor fi create două variabile distincte, ambele cantitative, măsurate pe scală de tip
I/R, care primesc câte o valoare pentru fiecare subiect.
- 44 -
Procedura: Statistics-Compare Means-Paired Sample T Test...
Rezultate
- 45 -
În fine, ultimul tabel prezintă rezultatul testului: t=5.076, df=9, p=0.001. Acesta
permite respingerea ipotezei de nul şi acceptarea ipotezei cercetării, zgomotul afectează
capacitatea de calcul aritmetic.
Utilizare
Corelaţia Pearson (r) măsoară gradul de asociere dintre variabile. Aceasta se
referă la gradul şi sensul de variaţie concomitentă a valorilor unei variabile în raport cu
cealaltă, după un model de tip liniar.
Domeniul de variaţie a coeficientului de corelaţie Pearson (r) este între r=-1
(corelaţie perfectă negativă) şi r=+1 (corelaţie perfectă pozitivă). Absenţa oricărei legaturi
(corelaţii) dintre variabile se traduce prin r=0.
Exemplu: Testul de corelaţie implică două variabile dar, adesea, într-o cercetare
psihologică numărul variabilelor supuse corelaţiei este mai mare de două. Acest fapt
conduce la ceea ce se numeşte o matrice de corelaţii care este un tabel ale căror celule
cuprind corelaţiile dintre perechile de variabile. Pentru exemplificare, să luăm în
considerare situaţia în care se urmăreşte evidenţierea legăturii (asocierii) dintre anxietate
şi agresivitate, pe de o parte, şi preferinţa pentru risc pe de altă parte.
Condiţii
Condiţia principală pentru calcularea coeficientului de corelaţie liniară Pearson
este ca variabilele implicate să fie măsurate pe scală de interval/raport (alături de
existenţa unei forme a distribuţiei care nu se abate sever de la curba normală).
Testele neparametrice alternative, pentru cazul în care condiţiile pentru utilizarea
testului Pearson nu se îndeplinesc, sunt: testul chi-pătrat (pentru date nominale) sau
coeficienţii de corelaţie Spearman sau Kendall (pentru date ordinale).
Aranjarea datelor
Se creează variabile distincte pentru fiecare caracteristică supusă testării.
Procedura: Statistics-Corelate-Bivariate
Variabilele supuse corelaţiei vor fi trecute în lista Variables:
- 46 -
Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa
un altul (Kendall sau Spearman), dacă datele sunt neparametrice.
Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege
unilateral (dacă există o justificare solidă).
Flag significant correlations, determină marcarea cu un asterisc a coeficienţilor
semnificativi la p=0.05 şi cu două asteriscuri a celor semnificativi la p=0.01. Acest lucru
este util atunci când matricea de corelaţie este mare, pentru a scoate în evidenţă valorile
semnificative ale lui r.
Rezultate
- 47 -
În cazul nostru, consemnăm corelaţii negative dar nesemnificative între anxietate
şi agresivitate (r=-0.38, p=0.26), pe de o parte, şi între anxietate şi preferinţa pentru risc,
pe de altă parte (r=-0.40, p=0.24). În acelaşi timp, se constată o corelaţie semnificativă
(r=0.96, p<0.001) între agresivitate şi preferinţa pentru risc. Precizăm faptul că raportarea
coeficienţilor de corelaţie se face cu două zecimale, chiar dacă programele îi calculează
cu trei zecimale.
Dezavantajul acestui tip de tabel constă în faptul că avem de fapt o dublă
prezentare a corelaţiilor, deasupra diagonalei şi sub diagonală. Pentru corelaţii implicând
multe variabile tabelul se va cit cu relativă dificultate.
Să presupunem că suntem interesaţi de corelaţiile dintre anxietate şi agresivitate
cu variabila preferinţă pentru risc, nu şi de corelaţia dintre anxietate şi agresivitate. În
acest caz, în caseta principala, Bivariate Correlations, prezentată mai sus, variabilele vor
fi introduse astfel încât variabila „preferinţa pentru risc” sa fie ultima din listă. Apoi se
apasă butonul Paste, al cărui efect este deschiderea domeniului Syntax, ca o fereastră
distinctă, în care se află sintaxa procedurii de corelaţie. Acolo, pe linia
/VARIABLES=anx agresiv risc, se inserează cuvântul WITH, având grijă să existe spaţiu
atât în stingă cât şi în dreapta sa.
inseraţi WITH
Este evident că această modalitate se poate aplica pentru oricât variabile, dacă
avem grijă să le aşezăm separat în listă şi să includem clauza WITH între cele două
categorii de variabile. Nu pot fi incluse mai multe clauze WITH în aceeaşi procedură.
- 48 -
Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu File-Close),
salvând sau nu procedura astfel modificată.
- 49 -
Reprezentarea grafică este sursă de informaţii cu privire la natura relaţiei dintre
variabile, motiv pentru care este recomandabilă utilizarea frecventă a acesteia. Mai mult,
ea este necesară în special atunci când valoarea corelaţiei este redusă, sau
nesemnificativă, deoarece graficul poate scoate în evidenţă o legătura de alt tip decât
liniară.
O corelaţie r=0.92, ca cea obţinută mai sus, între agresivitate şi preferinţă
pentu risc, este improbabil să se întâlnească într-un studiu real. De fapt, dacă
s-ar întâmpla să apară, ar trebui să concluzionăm mai degrabă că cele două
variabile se confundă, decât că sunt distincte.
- 50 -
Regresia liniară simplă
Utilizare
Analiza de regresie este o aplicaţie a corelaţiei, utilizată în scopuri de predicţie.
Dacă evaluăm agrsesivitatea ca trăsătură de personalitate şi preferinţa pentru risc ca
expresie a numărului de incidente în trafic, la conducătorii auto, se poate estima pe baza
agresivităţii riscul de accident încă înainte de dobândirea carnetului de şofer. Acest tip de
regresie, în care există o singură variabilă predictor (agresivitatea) şi o variabilă criteriu
(tendinţa spre risc) se numeşte regresie liniară simplă. Mai frecvent utilizată este regresia
multiplă, care efectuează predicţii bazate pe mai multe variabile predictor asupra unei
variabile criteriu. Vom prezenta mai jos regresia liniară simplă, ca o formă de introducere
în analiza de regresie, mai uşor de înţeles.
Exemplu: Predicţia rezultatului statistică pe baza cunoştinţelor de matematică,
evaluate anterior începerii cursului de statistică.
Condiţii
Din punct de vedere statistic, condiţiile variabilelor care sunt supuse analizei de
regresie sunt aceleaşi ca în cazul corelaţiei, deoarece regresia liniară este o aplicaţie a
acesteia.
Din punct de vedere metodologic, predicţia presupune, de regulă, evaluarea
variabilei predictor anterior variabilei criteriu. Acest fapt poate sugera o relaţie de tip
cauzal între variabile, dar numai dacă sunt întrunite şi alte condiţii (cum ar fi izolarea
efectelor altor variabile).
Aranjarea datelor
Structura de variabile este similară analizei de corelaţie.
- 51 -
Procedura: În principiu, analiza de regresie începe cu coeficientul de corelaţie
dintre variabile şi vizualizarea imaginii scatterplot. În cazul nostru, urmând procedura
prezentată mai sus, am obţinut o corelaţie r=0.74 (p=0.002). Aceste valori confirmă
existenţa unei legături pozitive semnificative, între cunoştinţele de matematică şi
performanţa la statistică. O idee mai exactă ne oferă coeficientul de determinare
r2=0,5476. Acesta ne spune că 54% din variaţia „performanţei la statistică” este explicată
de variaţia valorilor la variabila „cunoştinţe de matematică”. Deducem că restul de 46%
din performanţa la statistică este explicată de alte variabile, necunoscute în această fază1.
Pe baza acestor concluzii se poate trece la analiza de regresie a cărei finalitate este
aceea de obţinere a coeficienţilor a (termenul liber, sau originea dreptei de regresie) şi b
(panta dreptei de regresie), cu ajutorul cărora se poate estima în viitor performanţa la
statistică pe baza rezultatului la un test de cunoştinţe matematice aplicat în prima zi de
şcoală. Neîndoielnic, o astfel de procedură s-ar justifica mai ales pentru identificarea
studenţilor cu potenţiale dificultăţi şi care, tocmai fiind avertizaţi în legătură cu aceste
dificultăţi vor putea să acorde statisticii o atenţie sporită, în vederea obţinerii unui rezultat
peste nivelul celui prezis.
Lansarea procedurii: Statistics-Regression-Linear...
1
Facem precizarea că valorile şi aprecierile nu se bazează pe un studiu reale.
- 52 -
Valorile prezise sunt valorile rezultate pe baza modelului de predicţie.
Valorile reziduale se calculează ca diferenţă între valorile variabilei criteriu si
cele prezise pe baza modelului de regresie.
Analiza rezultatelor
- 53 -
unde 3.406 este originea iar 0.854 este panta dreptei de regresie.
Sau, dacă predicţia se face pe baza unui scor standardizat z al variabilei mat_in (să zicem,
0.93), atunci:
În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri
standardizate se află în 0.
Desigur, scorurile astfel prezise sunt estimări, atâta timp cât corelaţia dintre variabile nu
este perfectă. Iar estimările conţin cu atât mai multă eroare cu cât corelaţia dintre variabile este
mai mică (punctele graficului de corelaţie fiind mai îndepărtate de dreapta de regresie).
La finalul procedurii analizei de regresie, cu setările de mai sus, în baza de date apar
câteva variabile noi, aşa cum se vede în imaginea de mai jos.
- 54 -
Imaginea este identică cu ceea ce am prezentat în cazul corelaţiei. Singura
deosebire este dată de trasarea dreptei. Aceasta se face de către operator, în felul următor:
- se acţionează dublu clic de mouse pe imaginea graficului din Viewer. prin care...
- graficul este trecut deschis într-o fereastră individuală de editare, în care...
- se execută procedura Chart-Options-Fit Line- Fit Options. La capătul acestei serii
de acţiuni apare caseta de mai jos unde se marchează Linear regression.
Corelaţia şi regresia liniară sunt similare şi, de aceea, uşor de confundat. În unele
situaţii pot fi utilizate ambele proceduri.
- 55 -
Se calculează corelaţia liniară:
atunci când există două variabile măsurate pe aceiaşi subiecţi şi se doreşte
evaluarea gradului de asociere între variabile
atunci când distribuţiile de eşantionare ale celor două variabile sunt normale
(atunci când cel puţin una dintre variabile este manipulată, nu se calculează
corelaţia Pearson)
Se calculează regresia liniară:
atunci când una dintre variabile precede şi poate fi cauza celeilalte variabile
atunci când una dintre variabile este manipulată, se calculează regresia
atenţie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în
ecuaţia de regresie se va obţine o linie de regresie diferită, în timp ce dacă se
inversează ordinea variabilelor în calcularea corelaţiei, se obţine acelaşi coeficient
r.
- 56 -
Analiza de consistenţă internă (Cronbach alfa)
Utilizare
Una din condiţiile fundamentale a unui instrument de evaluare psihologică este
aceea de a fi sigur şi consistent. Exprimat cu alte cuvinte, aceasta înseamnă ca itemii din
care este constituit (întrebări sau sarcini de altă natură) să contribuie la constituirea
semnificaţiei unui construct psihic anume: scala unui chestionar, scorul la o caracteristică
psihică de performanţă, etc. În mod practic şi direct exprimat, un instrument este sigur şi
consistent atunci când itemii din care este compus corelează, atât între ei cât şi fiecare
dintre ei cu rezultatul aditiv al tuturor itemilor (scala, scorul global).
Analiza de consistenţă internă, prin calcularea coeficientului Cronbach alfa, este
metoda statistică prin care se verifică respectarea exigenţelor enunţate mai sus. În esenţa
ea este o aplicaţie a corelaţiei, ceea ce reprezintă unul din motivele pentru care o tratăm
aici. Al doilea motiv, poate încă şi mai important, este acela că încă din primii ani de
studiu studenţii la psihologie se află în situaţia de a utiliza instrumente psihologice sau de
a le crea ei înşişi (cel mai adesea chestionare). În acest scop, evaluarea consistenţei
interne este o etapă absolut obligatorie în elaborarea şi finalizarea respectivului
instrument.
Întrebările unui chestionar sau itemii unui test de performanţă sunt concepuţi
pentru a măsura un anumit atribut (atitudine, factor, comportament, cunoştinţă).
Consistenţa internă se defineşte ca proprietatea itemilor de a corela cu „scorul global” al
testului sau scalei din care fac parte. Din moment ce toţi itemii trebuie sa reflecte un
anumit atribut, ei trebuie să manifeste o varianţă comună, să coreleze unii cu alţii şi, în
acelaşi timp, să coreleze fiecare cu scorul care reflectă atributul respectiv. Corelaţia dintre
un item şi scorul total, din care se omite acel item, ne oferă o indicaţie cu privire la
relevanţa itemului respectiv pentru rezultatul global al testului. Atunci când fiecare item
este relevant, putem spune că testul respectiv este are „consistenţă internă”.
O altă faţetă a consistenţei unui instrument este siguranţa sa în aplicări repetate.
Ea poate fi descrisă ca stabilitate a scorului atunci când acel instrument, sau o formă
alternativă echivalentă, este aplicată aceloraşi subiecţi.
Fără a fi singura procedură statistică utilizabilă în astfel de situaţii, coeficientul
Cronbach alfa este de departe cel mai cunoscut dintre toate, fiind utilizat ca un indicator
al preciziei de măsurare a unui test, al consistenţei interne şi fidelităţii unui instrument
psihologic. În mod normal, valoarea indicelui Cronbach alfa tinde să crească pe măsură
ce numărul itemilor creşte. Dar utilizarea unor teste cu mulţi itemi este neconvenabilă din
mai multe motive. Unul dintre acestea este timpul consumat cu aplicarea lor, altul, poate
fi inutilitatea de a păstra itemi a căror contribuţie la scorul global este nulă, mică sau,
dimpotrivă, merge în altă direcţie decât acesta. Identificarea şi eliminarea acestor itemi,
ori modificarea lor în spiritul atributului măsurat, este unul dintre obiectivele analizei de
itemi. Ea are un caracter recursiv, cu evaluări succesive ale relaţiilor dintre itemi şi dintre
itemi şi scorul global, şi operarea selecţiei itemilor în funcţie de relaţia lor cu acesta.
Criteriul de bază pentru această operaţie este valoarea indicelui Cronbach alfa, care are o
plajă de variaţie între 0 şi 1. O scală, pentru a fi considerată consistentă, trebuie să atingă
o valoare cât mai aproape de 1, nivelul de 0.70 fiind acceptat de majoritatea cercetătorilor
ca prag limită de validare a criteriului de consistenţă internă. Oricum, valoarea lui
Cronbach alfa nu poate fi mai mică de 0.60.
- 57 -
Coeficientul de consistenţă internă Cronbach alfa se calculează în următoarele
situaţii:
atunci când realizăm un instrument nou
atunci când se traduce un instrument vechi într-o altă limbă
atunci când un instrument utilizat în anumite condiţii, urmează a fi utilizat în cu
totul alte condiţii (de exemplu, trecerea la utilizarea computerizată a unui test
aplicat până atunci în regim creion hârtie).
Condiţii
Crearea unor variabile distincte care conţin răspunsurile la fiecare item
(întrebare).
Valorile înregistrate pentru răspunsuri vor fi valorizate în funcţie de semnificaţia
lor în raport cu rezultatul global (scala). Cu alte cuvinte, variabilele trebuie să conţină
valori care exprimă semnificaţia răspunsului în raport cu scala globală, şi nu răspunsul
efectiv al subiectului. De exemplu, dacă variantele de răspuns sunt codificate cu 1,
respectiv 2, pot exista întrebări pentru care varianta „1” aduce un punct la scala iar
varianta „2” aduce zero puncte la scală. Într-o asemenea situaţie, pentru analiza de itemi
valorile codificate de răspuns vor fi transformate în valori corespunzătoare (0 şi 1). În
acelaşi mod se va opera şi pentru itemii care au mai multe variante de răspuns, cum este
cazul scalelor de tip Likert. Codurile convenţionale ale variantelor de răspuns vor fi
transformate în valori, în funcţie de semnificaţia contribuţiei lor la construirea scorului
global.
Aranjarea datelor
Baza de date va conţine variabile pentru fiecare dintre itemii supuşi analizei
(aceasta nu înseamnă că nu pot exista şi alte variabile, desigur).
- 58 -
În caseta principală, Reliability Analysis, variabilele itemilor vor fi trecuţi în lista
Items (imaginea surprinde momentul în care mai sunt de trecut itemii de la 6 la 10).
În lista Model se poate alege unul dintre următoarele modele de analiză:
Alfa. Calculează Cronbach alfa care pentru date dihotomice este echivalent cu
coeficientul Kuder-Richardson 20 (KR20)
Split-half. Pentru corelaţia dintre forme paralele, coeficientul de fidelitate
Guttman, coeficientul Spearman-Brown, coeficientul alfa pentru fiecare jumătate.
Modele Gutman. Coeficienţii lambda, de la 1 la 6
Modele paralele şi strict paralele. Testele pentru gradul de corespondenţă
(goodness-of-fit), varianţa comună, şi alte caracteristici ale raporturilor dintre
itemi.
- 59 -
În practică, bifarea opţiunilor marcate pe caseta din imaginea de mai sus oferă
informaţiile cele mai importante pentru analiza itemilor unui test. Celelalte opţiuni sunt
explicitate în Help-ul casetei şi pot fi utilizate pentru o analiză mai rafinată a datelor.
Rezultate
În continuare vor fi analizaţi un cei 10 itemi ipotetici, aleşi doar în scop didactic.
Pentru o scală reală acest număr ar fi cu totul insuficient. Ca regulă generală, numărul
itemilor din faza de dezvoltare a unui astfel de instrument ar trebui să aibă cel puţin
dublul numărului de itemi pe care îl preconizăm la final. Şi această pentru că analiza de
itemi este un proces selectiv care are drept scop alegerea itemilor adecvaţi pentru
constituirea unei scale cu cel mai ridicat nivel de consistenţă internă posibilă.
Rularea procedurii, cu setările de mai sus ne oferă următoarele categorii de
informaţii:
Tabelul de mai sus cuprinde lista itemilor, media abaterea standard şi numărul
cazurilor. . Analiza valorilor permite evidenţierea tendinţei centrale şi a împrăştierii
răspunsurilor pentru fiecare item. Eventuale anomalii pot fi sesizate încă din această fază.
De exemplu, se poate constata că media itemului I_02 este mai mică decât a celorlalţi,
fapt care sugerează răspunsuri grupate spre valorile mici.
- 60 -
tabelul alăturat rezultă că itemii i_02 şi i_03 tind să se asocieze negativ cu majoritatea
celorlalţi itemi. Pe de altă parte, valori extrem de ridicate ale unor corelaţii, aproape de 1,
ar putea sugera că itemii respectivi prezintă un grad de similitudine care nu justifică
utilizarea lor în aceeaşi scală (ar putea fi, de exemplu itemi formulaţi extrem de
asemănător).
În fine, cea mai importantă dintre categoriile de informaţii, este tabelul Item-
total Statistics, care include relaţiile dintre itemi şi scorul global. Două dintre coloanele
alăturate au o importanţă particulară: Corected Item-Total Correlation (corelaţia dintre
fiecare item şi scorul global) şi Alpha if Item Deleted (valoarea lui Cronbach alfa, dacă
respectivul item ar fi eliminat).
Dacă privim prima dintre aceste două coloane, observăm că doi dintre itemi (i_03
şi i_09) au corelaţii negative cu scorul global. Aceasta înseamnă că ei nu numai că nu
aduc informaţie utilă în raport cu atributul măsurat ci, dimpotrivă, merg într-o direcţie
opusă acestuia. În acest caz trebuie să verificăm dacă valorile itemului respectiv au fost
corect codificate. Dacă da, atunci singura soluţie posibilă este eliminarea itemilor în
cauză. Observăm, de asemenea, că itemul i_02 are o corelaţie extrem de mică cu scorul
global (0.015). Contribuţia sa la construcţia scalei este extrem de mică, nesemnificativă.
Cu alte cuvinte, nici nu strică dar nici nu ajută, în schimb, consumă timpul subiectului
pentru a răspunde.
- 61 -
Pe ultima linie a imaginii găsim valoare lui Cronbach alfa, care este 0.457, o
valoare care este modestă în raport cu nivelul minim necesar (0.702) dar care poate fi
crescută prin eliminarea itemilor nepotriviţi, în primul rând a celor care corelează negativ
cu scorul global.
Următoarea fază este reluarea prelucrării, cu eliminarea itemilor negativi din lista
Items din caseta principală. În general, nu este recomandabilă eliminarea mai multor
itemi simultan, dar itemii negativi pot fi scoşi toţi odată, fără reţineri. Iată care este
rezultatul eliminării itemilor 3 şi 9 asupra consistenţei interne:
Ca urmare a noii iteraţii, se observă că itemul i_02, care anterior avea o corelaţie
pozitivă dar extrem de mică, a dobândit o corelaţie negativă cu scala. Ca urmare, va fi
eliminat. În orice caz, chiar şi itemii pozitivi, care au corelaţii cu scala mai mici de 0.1 nu
trebuie păstraţi, pentru simplul motiv că nu contribuie la constructul psihologic vizat,
fiind doar consumatoare de timp în aplicarea instrumentului. De altfel, se şi observă că
prin eliminarea acestui singur item, valoarea lui Cronbach alfa creşte la 0.75.
Se reia prelucrarea eliminându-se itemul i_02 din lista din caseta principală şi se
obţine următoarea configuraţie de rezultate:
Datele indică o valoarea Cronbach alfa de 0.75. În plus, dacă privim ultima
coloană de cifre, vedem că prin eliminarea oricărui item nu am obţine o valoare mai
2
Deşi programele computerizate îl calculează cu un număr mai mare de zecimale, indicele Cronbach alfa se
raportează doar cu două zecimale.
- 62 -
ridicată decât aceasta. Ca urmare, itemii rămaşi pot constitui o scală consistentă de
evaluare a constructului psihologic pentru care au fost aleşi.
În concluzie, cu ocazia iteraţiilor succesive se vor elimina, in ordine:
itemii care au o corelaţie negativă cu scorul global
itemii cu corelaţii mici, nerelevante
Cu cât avem mai mulţi itemi în această fază, cu atât avem posibilitatea să păstrăm
itemi care corelează mai intens cu scala şi, deci, să atingem un nivel mai ridicat de
consistenţă internă. Este de la sine înţeles că, în cazul în care construim un instrument ale
cărui întrebări se adresează unor sub-scale diferite, consistenţa internă se va evalua
separat pentru setul de întrebări corespunzător fiecărei sub-scale.
O scală „consistentă intern” ne oferă garanţia că itemii instrumentului nostru
„merg împreună”, măsoară acelaşi „construct” psihologic. Atenţie, însă, acest lucru nu ne
permite încă să afirmăm că măsoară exact ceea ce n-am propus să măsoare. Această
problemă va fi rezolvată ulterior, prin studii de validare.
Aşa cum concluziile studiilor statistice sunt mai sigure atunci când sunt efectuate
pe eşantioane mai mari, acelaşi principiu se aplică şi în cazul construcţiilor scalelor: cu cît
mai mulţi itemi cu atât mai bine pentru consistenţa scalei.
Numărul itemilor necesari pentru a completa o scală care nu a atins valoarea
acceptabilă a indicelui Cronbach alfa poate fi estimat cu ajutorul formulei Spearman-
Brown:
unde:
αx este valoarea curentă a lui Cronbach alfa
αk este nivelul dorit al lui Cronbach alfa
k este factorul de multiplicare a scalei pentru a se obţine αk
Într-un mod similar, se poate estima valoarea lui Cronbach alfa (αk) care ar fi
atinsă pornind de la un anumit nivel calculat al acestuia α x şi un anumit factor de
multiplicare al numărului de itemi (k):
Exemplu:
Avem o scală cu 20 de itemi şi αx=0.50
Câţi itemi ar trebui adăugaţi pentru a atinge un nivel α de 0.70?
- 63 -
valabilă pentru situaţia în care noii itemi ar avea aceeaşi corelaţie inter-itemi cu cei deja
existenţi).
Desigur, se presupune că noii itemi adăugaţi vor fi la fel de „buni” ca şi cei deja
utilizaţi. De aceea este posibil ca rezultatul formulei să fie o estimare uşor optimistă dar
nu mai puţin utilă.
Atunci când o scală este utilizată pentru a măsura cunoştinţe asupra unui anumit
subiect, pentru alt scop decât cel de selecţie sau evaluare comparativă între indivizi,
utilizarea indicelui Cronbach alfa nu este adecvată. O valoare redusă a acestuia nu poate
însemna că itemii nu măsoară un anumit tip consistent de cunoştinţe (fapt incontestabil
din moment ce fac parte dintr-un univers de cunoaştere bine definit) ci mai degrabă că
subiecţii au răspuns la întâmplare. Mai departe, în cazul în care răspunsurile la o anumită
întrebare sunt corecte pentru cea mai mare parte a subiecţilor, sau pentru toţi, deşi am fi
tentaţi să apreciem acest fapt ca o expresie pozitivă a „corelaţiei itemului cu scorul
global”, avem de a face mai degrabă cu un item prea uşor, care nu este suficient de
discriminativ pentru a fi păstrat.
Chiar şi în acest tip de situaţii, totuşi, analiza de itemi poate fi folositoare ca
modalitate de identificare a itemilor greşit formulaţi, a celor nerelevanţi sau, pur şi
simplu, pentru a scoate în evidenţă erorile tipice pe care le fac subiecţii la anumite
întrebări.
- 64 -
Teste neparametrice nominale
Utilizare
Testul z pentru proporţii pentru un eşantion, este utilizat în cazul variabilelor
dihotomice pentru a testa diferenţa dintre proporţiile valorilor în eşantion prin comparaţie
cu proporţia la nivelul populaţiei.
Exemplu: La întrebarea „cine se uită la telenovele?” răspund DA 7 subiecţi, dintre
care 5 femei şi 2 bărbaţi. Întrebarea cercetării este dacă femeile se uită într-o proporţie
mai mare decât bărbaţii la telenovele.
Condiţii
Cunoaşterea proporţiei la nivelul populaţiei pentru valorile variabilei testate. În
cazul nostru, raportul femei/bărbaţi este cunoscut din studiile demografice (51%/49%)
Aranjarea datelor
- 65 -
În zona Define Dichotomy se alege Get from data, dacă variabila este
dihotomică, sau Cut point, dacă variabila este continuă, prin fixarea unei
valori care împarte distribuţia în două categorii.
În zona Test proportion se introduce proporţia primei categorii.
Butonul Options permite solicitarea statisticii descriptive pentru variabila
testată.
Rezultate
- 66 -
Testul semnelor
Utilizare
Testul semnelor este utilizat pentru a testa diferenţa dintre valori, utilizându-se
semnul diferenţei şi nu valoarea acesteia, atunci când ambele valori sunt măsurate pentru
aceiaşi subiecţi . Dacă nu ar exista nici o diferenţă între valorile perechi, atunci numărul
diferenţelor pozitive ar trebui să fie egal cu cel al diferenţelor negative. Cu cât numărul
diferenţelor de un anumit semn este mai mare comparativ cu cel al diferenţelor de semn
opus, cu atât creşte posibilitatea ca diferenţa dintre variabile să fie statistic semnificativă.
Exemplu: Într-un experiment cu privire la efectul motivării asupra memorării,
subiecţilor li se cere să memoreze cuvinte dintr-o listă, înainte si după introducerea unui
factor motivant. Dat fiind faptul că numărul subiecţilor este prea mic pentru asumarea
normalităţii distribuţiei de eşantionare, se alege testul semnului, în locul testului t pentru
eşantioane dependente.
Condiţii
Variabilele vor fi de tip numeric, iar valorile exprimate în aceeaşi unitate de
măsură, pentru a se putea face diferenţa lor.
Aranjarea datelor
Imaginea de mai jos conţine variabilele „inainte” şi „dupa”, care vor fi analizate.
În prima fază, cele două variabile sunt Apoi, perechea de variabile este trecută în
selectate, pe rând, prin clic de mouse pe lista Test Pair(s) List: prin acţionarea
fiecare, constituindu-se în pereche. Acest butonului ►.
fapt se observă în partea de jos a casetei, în Dacă este necesar, se pot testa simultan mai
- 67 -
zona Current Selections.
multe perechi de variabile.
Se bifează Sign în zona Test Type.
Rezultate
- 68 -
Testul Chi-pătrat al asocierii (independeţei)
Utilizare
Testul chi-pătrat este utilizat pentru evidenţierea gradului de asociere între două
variabile categoriale.
Exemplu: Să presupunem că am evaluat numărul femeilor şi al bărbaţilor
diagnosticaţi cu sindrom de stres postraumatic (PTSD) dintr-un mic oraş, afectat de un
cutremur de pământ, iar datele sunt cele din următorul tabel de corespondenţă:
Femei Bărbaţi
PTSD 20 10
Non-PTSD 30 40
Problema cercetării este dacă incidenţa PTSD este în legătură cu caracteristica de
sex.
Condiţii
Cele două variabile nu trebuie să se „intersecteze” (să nu existe subiecţi care să
fie incluşi în mai mult de o celulă de tabel).
Este recomandabil ca frecvenţa aşteptată să nu ia valori mai mici de 5 (sau, cel
puţin, în nu mai mult de 20% din celule).
Nici o celulă nu trebuie să aibă frecvenţa aşteptată 0..
Aranjarea datelor
Datele pot fi incluse în Data Editor în două moduri:
a. Sub forma unor înregistrări distincte pentru fiecare caz
Acest mod poate fi extrem de dezavantajos atunci când sunt multe cazuri sau când
există deja o statistică globală a fenomenului PTSD în raport cu sexul.
- 69 -
În această situaţie, se introduc frecvenţele PTSD pentru toate combinaţiile
valorilor celor două variabile analizate şi frecvenţele asociate fiecăreia. Pentru a se realiza
corespondenţa dintre variabilele sex şi PTSD cu variabila frecv, se apelează la procedura
Data-Wheight Cases...:
Procedura: Statistics-Summarize-Crosstabs...
- 70 -
Rezultate
În tabelul Chi-Square Tests citim valoarea testului Pearson Chi-Square (16.66) şi,
în special, pragul de semnificaţie al acestuia (p=0.000 care va fi citit ca p<0.001). În
cazul particular al acestui exemplu, unde tabelul de corespondenţă este format din două
linii şi două coloane, valoarea lui chi-pătrat poate fi luată de pe linia Continuitiy
Correction (15.04) cu valoarea aferentă a pragului de semnificaţie: p<0.001.
Valoarea testului chi-pătrat fiind mai mică decât nivelul alfa 0.05, se respinge
ipoteza de nul şi se confirmă ipoteza cercetării: există o incidenţă mai mare a reacţiei de
stres postraumatic la femei decât la bărbaţi.
- 71 -
Valoarea lui chi-pătrat se raportează cu două zecimale
Utilizare
Testul chi-pătrat pentru gradul de corespondenţă se utilizează atunci când dorim
să comparăm frecvenţele observate unei singure variabile categoriale cu frecvenţele
aşteptate, dinainte cunoscute.
Exemplul 1: Avem evaluarea nivelului de inteligenţă pe cinci categorii valorice,
de la foarte slab, la foarte bun şi dorim să ştim dacă distribuţia acestor calificative se
supune curbei normale, procentele aferente pe curba normală fiind cunoscute (2.5%,
14%, 67%, 14%, 2.5%).
Exemplul 2: Am solicitat unui grup de tineri să îşi exprime genul muzical preferat
şi am obţinut frecvenţe diferite pentru mai multe genuri de muzică. Problema este dacă
diferenţele dintre aceste frecvenţe sunt semnificative, presupunând că, dacă nu ar fi
semnificative proporţiile preferinţelor pentru genurilor muzicale, ar trebui să fie identice
(adică, dacă ar fi trei genuri, fiecare ar trebui să întrunească un procent de 33.33%).
Aranjarea datelor
Vom exemplifica pe o situaţie corespunzătoare celui de-al doilea exemplu. Baza
de date se poate constitui fie prin înregistrarea fiecărui caz în parte (având o variabilă
pentru genul muzical şi o alta pentru exprimarea preferinţei faţă de acesta), fie, ca în
exemplul anterior, prin înregistrarea rezultatelor sintetice şi ponderarea variabilei
gen_muz cu variabila frecv prin operaţia Data-Weight cases...:
- 72 -
Procedura: Statstics-NonParametric-Tests-Chi-Square...
Rezultate
- 73 -
Testul z al diferenţei dintre două proporţii independente
Utilizare
Acest test se utilizează atunci când se doreşte compararea a două proporţii
obţinute pentru o variabilă dihotomică.
Exemplu: În urma unui studiu comparativ cu privire la interesul faţă de
fenomenele paranormale, efectuat în rândul studenţilor de la Universitate comparativ cu
studenţii de la Politehnică, se înregistrează următoarele rezultate3:
La psihologie: 25 studenţi „nu cred” în fenomenele paranormale iar 175
„cred”
La politehnică: 124 „nu cred” în fenomenele paranormale iar 32 „cred”
Problema cercetării este dacă diferenţa dintre cei „cred” în fenomenele
paranormale din cele două categorii de studenţi este semnificativă.
Aranjarea datelor
Datele pot fi introduse fie caz cu caz, existând o variabilă pentru opinia faţă de
fenomenele paranormale şi una pentru tipul de instituţie de învăţământ, fie ca în imaginea
de mai jos, care presupune o prealabilă sintetizare a datelor:
3
Datele nu sunt reale
- 74 -
În prealabil, se execută procedura Weight pentru variabilele categoriale
(paranorm şi stud_la) în funcţie de variabila frecv, care contorizează
numărul cazurilor.
Efectul de ponderare (wheight) a unei variabile rămâne activ atâta timp cât nu se
ponderează o altă variabilă sau nu se anulează ponderarea efectuată. La salvarea
fişierului se salvează şi variabila ponderată. Includerea variabilei ponderate în
diverse proceduri de analiză are efecte specifice.
Dacă datele ar fi fost introduse în baza de date caz cu caz, operaţia Wheight nu ar
mai fi fost necesară.
Rezultate
- 75 -
Din tabelul Chi-Square Tests citim valoarea Pearson Chi-Square (161.598).
Testul z pentru diferenţa proporţiilor se calculează ca radical din valoarea lui
chi-pătrat:
Decizia statistică se ia prin raportarea valorii calculate a lui z la valorile critice ale
acestuia de pe curba normală, pentru test unilateral sau bilateral.
În cazul nostru, pentru test bilateral cu alfa=0.05, z calculat (12.71) este mai mare
decât z critic (1.96), fapt care permite respingerea ipotezei de nul şi confirmarea ipotezei
că studenţii de la Universitate „cred” într-o măsură semnificativ mai mare în fenomenele
paranormale decât studenţii de la Politehnică.
- 76 -
Teste neparametrice pentru date ordinale
Utilizare
Testul Mann-Whitney este utilizat pentru testarea diferenţei dintre grupuri
independente pentru care variabila dependentă este exprimată în valori ordinale (de rang)
sau atunci când, chiar dacă este de tip cantitativ, nu suportă un test parametric (testul t).
Exemplu: La ieşirea dintr-un club de noapte, un psiholog interesat de efectul
depresiv al drogurilor a efectuat interviuri în legătură cu acest aspect şi a identificat un
număr de 10 tineri care au consumat câte o pastilă de Ecstasy şi un număr de 10 tineri
care au consumat doar alcool. Apoi i-a convins să ia parte la un experiment şi le-a
administrat un chestionar de evaluare a depresiei. Acelaşi chestionar a fost aplicat din
nou, peste trei zile. Obiectivul studiului este, în prima fază, acela de a verifica ipoteza că
cele două tipuri de drog (Ecsatsy şi alcool) au efecte depresante diferite. În acest scop vor
trebui comparate valorile la depresie ale celor două grupuri. Această analiză va fi
efectuată atât pentru valorile depresiei de la prima măsurare cât şi pentru cele de la a doua
evaluare a depresiei.
Aranjarea datelor
- 77 -
Variabilele dependente din exemplul nostru au valori măsurate pe scală
cantitativă. Testarea lor cu un test ordinal nu presupune o prealabilă transformare
de rang, programul efectuând automat această transformare. Procedura se aplică
în acelaşi mod şi direct pe valori ordinale de rang.
Rezultate
Tabelul Ranks oferă informaţii sintetice despre cele două variabile: volumul
grupurilor, media rangurilor şi suma rangurilor.
Tabelul Test Statistics include valorile testului Mann-Whitney pentru cele două
variabile testate simultan, depresia imediată şi remanentă. Valorile de interes din tabel
sunt cele ale lui Z şi nivelul de încredere p. În cazul nostru, se observă depresia imediată
nu diferă semnificativ în funcţie de tipul de drog utilizat, în timp ce depresia remanentă
- 78 -
este semnificativ diferită, mai mare la utilizatorii de Ecstasy decât la utilizatorii de alcool
(conform datelor din tabelul anterior).
Utilizare
În exemplul de mai sus, psihologul a testat într-o primă fază semnificaţia
diferenţei dintre cele două grupuri definite prin tipul de drog diferit (eşantioane
independente). Una dintre problemele cercetării este şi aceea dacă există o diferenţă între
nivelul depresiei imediate şi cel al depresiei remanente. Acest tip de analiză nu se poate
face decât pentru subiecţii aparţinând aceluiaşi tip de drog utilizat.
Aranjarea datelor
Este identică cu cea prezentată pentru testul Mann-Whitney.
În acest caz, deoarece analiza trebuie efectuată separat pe grupurile de consum
Ecstasy/Alcool, există două soluţii. Prima ar fi selectarea (cu Data-Select Cases) a
primului grup şi efectuarea testului, apoi selectarea celui de-al doilea grup şi efectuarea
testului. O soluţie mai elegantă este, însă, aceea de a declara împărţirea bazei de date în
funcţie de grupurile definite prin tipul de drog. În acest scop se va utiliza procedura
Data-Split File...
În locul setării implicite Analyze all cases, do not create groups, se bifează
opţiunea Compare groups şi se declară variabila ale cărei valori vor servi drept criteriu de
împărţire a bazei de date în grupuri de analiză separată (în cazul nostru, tipul de drog)
prin trecerea ei în zona Groups Based on:. Efectul acestei acţiuni este acela că toate
prelucrările care vor fi efectuate din acest moment se vor aplica, separat, pe fiecare grup
identificat prin valorile variabilei.
Operaţiunea de împărţire a bazei de date nu are semne vizibile, fapt care poate
face să fie uitată şi, astfel, atunci când se revine la prelucrări care ar trebui să
implice toată baza de date rezultatele vor fi incorecte. De aceea, se va avea în
vedere revenirea la setarea Analyze all cases, do not create groups atunci
prelucrarea pe grupuri a bazei de date nu mai este becesară.
- 79 -
1. Se selectează prin clic de mouse fiecare 2. Se acţionează butonul ► pentru a se
variabilă, constituindu-se perechea supusă transfera perechea de variabile în zona Test
analizei Pair(s) list.
Se bifează opţiunea pentru testul Wilkoxon (care este, de fapt, cea implicită)
Rezultate
Tabelul Test Statistics prezintă valorile comparative ale depresiei pentru cele două
grupuri. Aşa cum se observă, diferenţa este semnificativă (p=0.007) în cazul
consumatorilor de Ecstasy şi nesemnificativă (p=0.053), în cazul consumatorilor de
alcool. Concluzia generală a studiului este aceea că Ecstasy, comparativ cu alcoolul, are
un efect depresant mai mare (testul Mann-Whitney) şi mai accentuat cu trecerea timpului
(testul Wilcoxon).
- 80 -
Testul Kruskal-Wallis pentru mai mult de două eşantioane independente
Utilizare
Testul Kruskal-Wallis este utilizat atunci când avem o variabilă dependentă
ordinală, măsurată pentru mai mult de două grupuri independente (formate din subiecţi
diferiţi), şi dorim să testăm diferenţa dintre acestea. Acest test pentru date ordinale este
analog testului ANOVA pentru date cantitative.
Exemplu: A fost studiate relaţia dintre condiţiile familiale (familie armonioasă,
mamă singură, familie conflictuală) şi frecvenţa reacţiilor emoţionale pozitive la copiii de
vârstă preşcolară, pe durata unei săptămâni. Problema cercetării este dacă diferenţele sunt
semnificative iar mediul familial are legătură conduita emoţională a copiilor.
Aranjarea datelor
- 81 -
Rezultate
Rezultatul testului, afişat în tabelul Test Statistics, se exprimă printr-o valoare chi-
pătrat (6.33) cu două grade de libertate şi p=0.042. Ca urmare, ipoteza de nul poate fi
respinsă. Datele confirmă ipoteza că mediul familial (exprimat prin cele trei tipuri de
familie) îşi pune amprenta asupra expresivităţii emoţionale a copiilor de vârstă
preşcolară.
- 82 -
Testul Friedman pentru măsurări repetate
Utilizare
Testul Friedman se utilizează pentru testarea diferenţei de rang în cazul unei
variabile măsurate repetat, de mai mult de două ori, pe acelaşi grup de subiecţi. El este
echivalentul testului ANOVA pentru măsurări repetate, pentru date cantitative. Dacă este
utilizat pentru doar două măsurări repetate, rezultatul său este echivalent cu al testului
Wilcoxon, prezentat mai sus.
Exemplu: Efectele altitudinii asupra memoriei sunt testate pe un grup de alpinişti.
Capacitatea de memorare de cuvinte este măsurată la trei înălţimi diferite: 1000m, 3000m
şi 6000m. Problema cercetării este dacă diferenţa de performanţă de memorare
corespunzătoare celor trei înălţimi este semnificativă. Dat fiind volumul extrem de mic
am eşantionului (N=5), efectuarea unui test parametric (ANOVA RM) ar fi nesigură iar
apelul le testul Friedman este pe deplin justificat.
Aranjarea datelor
Se setează opţiunea Friedman iar variabilele testate sunt trecute în lista Test
Variables:
- 83 -
Rezultate
Primul tabel prezintă media rangurilor pe înălţimi (rangul 1 este atribuit valorii
celei mai mici). În al doilea tabel găsim valoarea testului Friedman exprimată în valori
chi-pătrat (8.40), având un nivel de semnificaţie p=0.015. Acest rezultat permite
respingerea ipotezei de nul şi confirmă ipoteza că memoria cuvintelor este în legătură cu
înălţimea (pe cele trei niveluri avute în vedere).
Utilizare
Testul de corelaţie a rangurilor (Spearman) este echivalentul pentru date
ordinale testului de corelaţie Pearson. Rezultatul său variază pe aceeaşi plajă de valori (-
1/+1) şi se interpretează în mod similar cu rezultatul testului Pearson.
Exemplu: Să luăm în considerare studiul aceluiaşi grup de alpinişti, care au
efectuat, la aceleaşi înălţimi descrise mai sus, şi un test de viteză de decizie (măsurată în
zecimi de secundă). Problema cercetării este dacă între performanţa de memorare şi ce de
timp de decizie este o relaţie (variaţie concomitentă) semnificativă.
Aranjarea datelor
Procedura: Statistics-Corelation-Bivariate
- 84 -
Variabilele supuse testului de corelaţie se trec în lista Variables:
Se anulează setarea pentru testul Pearson şi se bifează Spearman (aici am ales şi
testul Kendal tau-b, care este echivalent lui Spearman, doar pentru a le putea compara. În
practică, se va utiliza doar unul dintre acestea două).
Această configurare a casetei de dialog produce o matrice de corelaţii cu şase linii
şi şase coloane pentru fiecare dintre cele două teste alese. În fiecare celulă a matricii se
vor afla, aşa cum vom vedea, mai multe numere. Din acest motiv citirea ei nu este tocmai
comodă. Pentru a obţine un format mai convenabil de prezentare a rezultatelor,
recomandăm o procedură suplimentară, prezentată anterior la corelaţia Pearson: Se
acţionează butonul Paste care deschide fereastra Syntax, unde găsim comenzile
procedurii. Aici se introduce clauza WITH între primul grup de variabile (memorie) şi al
doilea grup de variabile (decizie):
Rezultate
- 85 -
am îngroşat valorile utile analizei. În jumătatea de sus a tabelului, avem corelaţiile
pentru testul Kendall iar în jumătatea de jos pe cele ale testului Spearman.
Testul Kendall al corelaţiei dintre memorie şi decizie la 1000 de metri are
valoarea
-0.94, semnificativ la p=0.023. La interpretarea coeficienţilor de corelaţie este extrem de
important să se ia în considerare, simultan, semnul şi semnificaţia variaţiei valorilor. În
cazul nostru, valori mari ale memoriei, înseamnă o capacitate de memorare mai bună iar
valori mari ale timpului de decizie înseamnă capacitate de decizie mai proastă (sub
aspectul vitezei, desigur). În consecinţă, un coeficient de corelaţie negativ între aceste
variabile indică, de fapt, o variaţie concomitentă pozitivă a memoriei şi vitezei deciziei
(când capacitatea de memorare scade, şi decizia este mai lentă, timpul de decizie fiind
mai mare).
Analiza coeficienţilor din tabelul de mai sus arată existenţa unei corelaţii de rang
semnificative (p<0.05) între memorie şi decizie la toate palierele de înălţime.
Dacă facem comparaţia dintre coeficienţii Spearman şi Kendal, vom vedea că,
deşi ei diferă valoric, semnificaţiile se află, în toate cazurile, de aceeaşi parte a deciziei
statistice (respingerea ipotezei de nul). Utilizarea unuia sau altuia dintre cei doi
coeficienţi rămâne la latitudinea cercetătorului.
- 86 -