Sunteți pe pagina 1din 127

lOMoARcPSD|7970258

SPSS Curs - DOC SPSS

Statistica Aplicata In Psihologie (Universitatea Transilvania din Brasov)

StuDocu is not sponsored or endorsed by any college or university


Downloaded by Stefanescu Amalia (uatarfac@gmail.com)
lOMoARcPSD|7970258

CUVÂNT ÎNAINTE

Această lucrare este destinată în primul rând studenţilor de la Ştiinţele socio-umane, şi în


special celor de psihologie-pedagogie. Formatul său are în vedere atât studentul de la zi, cât mai
ales pe cel de la Învăţământ la Distanţă, pentru care lucrarea oferă o mulţime de aplicaţii, glosar de
termeni, întrebări de aprofundare şi, mai ales, aplicaţii practice menite să consolideze achiziţia
tehnicilor de bază SPSS.
Este evident faptul că cei care au parcurs deja cursul introductiv de Statistică sunt avantajaţi,
dar a existat o permanentă grijă ca prezentarea să fie suficient de limpede şi de detaliată pentru a
putea fi înţeleasă cu uşurinţă şi de cei care nu au o astfel de pregătire prealabilă. Lucrarea are în
vedere pe oricine doreşte să utilizeze programe computerizate în cercetare sau care doreşte să-şi
reîmprospăteze sau să-şi dezvolte cunoştinţele de SPSS pentru reactivarea unor deprinderi de lucru
deja conturate anterior. Titlul lucrării include sintagma analiza computerizată a datelor,
instrumentul de bază al acestei analize fiind unul dintre cele mai populare şi larg utilizate softuri
destinate acestui scop, adică Statistical Package for the Social Sciences. Accentul va cădea deci pe
acest program modern şi flexibil, care procură utilizatorului un puternic instrument de analiză a
datelor, prin care acestea devin mai accesibile, atât pentru studentul începător, cât şi pentru
cercetătorul avansat, pentru care există însă şi alte opţiuni. Astfel, SPSS Proffesional Statistics
furnizează tehnici de determinare a similarităţii şi a diferenţelor datelor, identifică dimensiuni şi
proceduri de analiză ale acestora, ca analiza de cluster, de discriminant, analiza factorială
explanatorie, scalarea multidimensională sau proximitatea şi fidelitatea.
Această carte se referă la SPSS în general, program care de la o versiune la alta a păstrat
constante câteva principii de bază. Deşi în mod fundamental se spijină pe SPSS 10.0, menţiuni
speciale sunt făcute pentru ultima dintre versiunile SPSS - 14.0, sub Widows 2002 – care a selectat
elementele cele mai valoroase din precedentele variante ale programului.
Autorul îşi propune ca această carte să intereseze pe oricine este preocupat de înţelegerea
complexităţii naturii umane, de la aptitudini la atitudini, de la opinii şi valori la temperament şi
personalitate; pe cei care vor să înţeleagă şi să cunoască mai bine dimensiunea umană în ceea ce are
ea individual ori social sau pe cei ce vor să-şi fundamenteze statistic deciziile ori programele de
acţiune destinate ameliorării domeniilor proprii de activitate. Abilitatea de a face aceste lucruri se
sprijină pe cercetare, care la rândul ei se sprijină pe deprinderi speciale, integrate într-un întreg mai
vast. Acesta începe cu trasarea design-ului de cercetare, colectarea datelor, analiza şi interpretarea
lor, scrierea raportului de cercetare şi valorificarea acesteia.

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Deşi cercetarea nu este o dimensiune exclusivă a timpului prezent sau viitor, extraordinara
ei extensie actuală se bazează şi pe existenţa unor astfel de programe de prelucrare computerizată a
datelor, care mută centrul de greutate al demersului ştiinţific de pe cum să faci pentru a nu avea
erori, pe latura cu adevărat creativă a cercetării, aceea de descoperire a pattern-urilor ascunse în
structura intimă a datelor, adică pe ce şi de ce să faci un anume lucru. Aceasta lărgeşte considerabil
posibilităţile de intervenţie şi acţiune umană.
În acest punct ni se pare necesar să precizăm raporturile acestei lucrări cu domeniul de
provenienţă specific al cercetărorului, pe de o parte, cu statistica şi cu manualul SPSS pe de altă
parte. Abilitatea de a conduce o cercetare ştiinţifică se sprijină pe aptitudini şi deprinderi care au
cicluri de formare lungi. Operarea cu SPSS este de asemenea o deprindere ce trebuie îndelung şi
constant exersată. Începând din chiar momentul parcurgerii acestui ghid introductiv simţiţi-vă
provocaţi să vă amuzaţi şi să experimentaţi liber, pentru că în orice deprindere exerciţiul contribuie
la creşterea vitezei şi a preciziei în execuţie. Cu cât mai multă practică, cu atât mai multe rutine şi
subrutine vă stau la dispoziţie, acestea contribuind decisiv nu numai la creşterea vitezei de operare
în SPSS, ci şi la dezvoltarea gradelor de libertate a combinatoricilor presupuse de o utilizare
creativă a acestui program.
În al doilea rând, acesată carte nu poate înlocui informaţia fundamentală a domeniului
dumneavoastră de interes; ea nu vă dă idei de experimente şi nu vă sugerează decât în mod
secundar ipoteze. Toate acestea vin dintr-un orizont de lectură al domeniului de activitate propriu.
În al treilea rând, chiar şi în aplicaţiile sale cele mai simple – statistica descriptivă univariată
– analiza computerizată presupune familiarizarea cu conceptele de bază ale statisticii teoretice.
Aşadar, jucaţi-vă cu SPSS-ul, dar este bine să aveţi la îndemână un ghid introductiv, eventual şi un
dicţionar de statistică.
În al patrulea rând, acest ghid introductiv nu poate înlocui un manual SPSS, care conţine o
mult mai mare varietate şi bogăţie de informaţii utile pentru exploatarea mai completă a acestui
program atât de complex. Cartea de faţă s-a dorit a fi în principal un ghid care să prezinte într-o
structurare logică şi coerentă cele mai importante tehnici SPSS şi de aceea am preferat să utilizăm o
expunere clară şi nu foarte tehnică a acestor tehnici. SPSS poate însă mult mai mult decât am reuşit
să prezentăm noi în paginile care urmează. El este un program cu o arborescenţă uimitoare,
deoarece pleacă de la tehnici statistice care au trecut de mult bariera timpului, larg recunoscute de
majoritatea cercetătorilor, pentru a ajunge la dezvoltări foarte recente, aproape actuale ale acestei
ştiinţe atât de dinamică, ce este statistica. Poate că acesta este aspectul cel mai provocator al acestui
program care, pentru multe dintre aplicaţiile sale, trimite la teorii şi abordări de dată foarte recentă
(ecuaţii şi modelare structurală, variabile latente, analiză de path sau analiză factorială
confirmatorie, pentru a da doar câteva exemple).

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Rezumând, SPSS-ul este nu doar o interfaţă, ci un nod care leagă datele interne ale
cercetătorului – motivaţii, deprinderi, cunoştinţe – de cultura domeniului său, de statistică şi de
dezvoltările foarte actuale ale acesteia. Scopul său nu este doar înţelegerea realităţii complexe a
naturii umane, a relaţiilor sociale şi educaţiei, ci oferirea unor puternice mijloace de acţiune
practică, de verificare şi de control a acesteia.
Am inserat în text şi o multitudine de exerciţii şi aplicaţii practice pe care vă rugăm să le
abordaţi ca pe un joc sau ca pe o provocare a minţii. Nu am oferit decât sugestii de rezolvare,
pentru că am considerat că mai importantă decât soluţia este drumul către ea, maniera de abordare
şi de rezolvare. Unele dintre recomandările noastre, diseminate pe parcursul întregii lucrări, provin
din experienţe proprie de utilizator SPSS. Cu siguranţă că nu este singura posibilă şi nici în mod
necesar cea mai bună manieră de rezolvare: cea mai bună este cea pe care o s-o descoperiţi chiar
dumneavoastră, când, după o perioadă de formare şi antrenament corespunzătoare, veţi fi descoperit
în SPSS calea dezvoltării personale ca cercetător şi om de acţiune, ce-şi fundamentează
intervenţiile teoretico-aplicative pe o cunoaştere validată ştiinţific.
Pentru o mai completă şi clară înţelegere a domeniilor statisticii şi a tipurilor de abordări
caracteristicie fiecărui tip (descriptivă, inferenţială, univariată şi multivariată) propunem
perspectiva sintetică ce este synopsisul de mai jos. Acesta îşi propune să dea ordine şi coerenţă
demersului nostru comun, ajutâdu-ne pe noi în prezentare, pe dumneavoastră în selectarea celor mai
potrivite demersuri în raport cu scopurile cercetării desfăşurate. Deoarece acesta este doar primul
volum - un ghid introductiv în SPSS - o multitudine de proceduri mai elaborate (prezente şi în acest
synopsis) vor face obiectul unui al doilea volum.

Autorul

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

ANALIZA STATISTICĂ - SYNOPSIS

Statistică descriptivă
Statistică univariată Statistică bivariată şi multivariată
(cu o variabilă) (cu două sau mai multe variabile)

Centru Formă Împrăştiere


Crostabulare Corelaţie

Tendinţa Variabilitatea
centrală Range Diferenţe de medii
Media Varianţa
Mediana Abaterea
Modul standard
Tabele bivariate Scatter-ploturi

Forma curbei
Simetria (Skewness) Ploturi clasificatorii
Boltirea (Kurtosis)

Curba normală Măsuri ale gradului de asociere


r, r2, ρ, ρ2, R, R2, phi, Lambda, C, V,
Scoruri z Gamma, Tau-b, Tau-c, d al lui Somer

Distribuţie normală standard

Inferenţa statistică
Eşantionarea Eroarea
distribuţiilor
standard

Teorema limită
centrală

Nivelul de semnificaţie

Ipoteza de nul Testarea ipotezelor

Ipoteze Intervale de
alternative încredere

Eroarea de tip I Eroarea de tip II

Puterea cercetării Mărimea efectului

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CUPRINS

Cuvânt înainte ................................................................................................................................. 1

Capitolul 1. Pregătirea datelor pentru analiza statistică. Crearea bazei de date ..................... 8
1.1. Introducere...................................................................................................................... 8
1.2. Caz, variabile, valori....................................................................................................... 8
1.3. Introducerea datelor........................................................................................................ 10
1.4. Cum denumim variabilele în SPSS?............................................................................... 11
1.5. Tipuri de variabile........................................................................................................... 12
1.6. Alte caracteristici ale variabilelor................................................................................... 15
1.7. Codarea datelor lipsă...................................................................................................... 17
1.8. Codarea datelor............................................................................................................... 18
1.9. Reguli de bază ale organizării datelor............................................................................ 20
1.10. Codebook...................................................................................................................... 22
Glosar de termeni fundamentali............................................................................................ 24
A. Niveluri ale măsurătorii........................................................................................................24
B. Variabilă şi tipuri de variabile. .............................................................................................25

Capitolul 2. Prezentare generală a programului S P S S............................................................ 28


2.1. Familiarizarea cu SPSS.................................................................................................. 28
2.2. SPSS pentru Windows................................................................................................... 28
2.3. Meniurile principale din SPSS....................................................................................... 29
2.4. Examinarea preliminară a datelor...................................................................................29
2.5. Statistică descriptivă şi frecvenţe....................................................................................31

Capitolul 3. Reprezentări grafice în S P S S................................................................................ 38


3.1. Dispunerea grafică a distribuţiei scorurilor din Frequencies......................................... 38
3.2. Diagrame cu bare............................................................................................................ 39
3.3. Diagrame tip plăcintă...................................................................................................... 42
3.4. Editarea diagramelor prin Chart Editor....................................................................... 44
3.5. Diagramele de tip boxplot (Box and Whiskers Plot)................................................... 47
3.6. Alte reprezentări grafice în SPSS.................................................................................. 50
3.6.1. Grafice tip linie................................................................................................ 50
3.6.2. Diagrame scatter.............................................................................................51

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Capitolul 4. Selectarea şi manipularea datelor în S P S S........................................................... 56


4.1. Introducere...................................................................................................................... 56
A. Manipulări nonactive ale datelor................................................................................... 56
4.2. Selectarea cazurilor.........................................................................................................56
4.3. Split File......................................................................................................................... 58
4.4. Sortarea cazurilor............................................................................................................ 58
4.5. Combinarea fişierelor prin Merge Files......................................................................... 59
B. Manipulări active: transformarea şi recodificare datelor.............................................. 62
4.6. Compute din meniul Transform.................................................................................... 62
4.7. Recodificarea datelor (Recode) din meniul Transform................................................ 63
4.8. Visual Bander în SPSS 14............................................................................................. 66

Capitolul 5. Statistică descriptivă univariată................................................................................ 68


5.1. Indicatori ai tendinţei centrale........................................................................................68
5.1.1. Media aritmetică.............................................................................................. 69
5.1.2. Mediana........................................................................................................... 70
5.1.3. Modul............................................................................................................... 70
5.2. Indicatori ai împrăştierii.................................................................................................. 71
5.2.1. Amplitudinea împrăştierii (R).......................................................................... 71
5.2.2. Abaterea intercuartilică şi semiintercuartilică................................................ 71
5.2.3. Abaterea standard............................................................................................ 72
5.3. Indicatori ai formei distribuţiei....................................................................................... 73
5.3.1. Simetria (oblicitatea) = Skewness................................................................... 73
5.3.2. Boltirea sau excesul = Kurtosis....................................................................... 74
5.4. Abordarea distribuţiilor univariate în SPSS.................................................................... 74

Capitolul 6. Măsurarea statistică a asocierii dintre variabile: corelaţia liniară........................ 77


6.1. Corelaţia liniară...............................................................................................................77
6.1.1. Asocierea statistică dintre două variabile cantitative continue...................... 77
6.1.2. Corelaţia Pearson prin metoda produselor..................................................... 78
6.2. Corelaţia rangurilor a lui Spearman................................................................................ 83
6.3. Statistica lui tau (τ) al lui Kendall................................................................................... 87
6.4. Corelaţia parţială............................................................................................................. 88
Sinteză recapitulativă despre corelaţie şi scatter....................................................................91
Exerciţii aplicative pentru primele şase capitole................................................................... 92

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Capitolul 7. Utilizarea predictivă a asocierii dintre variabile: regresia simplă şi multiplă...... 95


7.1. Introducere...................................................................................................................... 95
7.2. Predicţie deterministă sau probabilistă........................................................................... 97
7.3. Regresia bivariată............................................................................................................97
7.4. Regresia liniară multiplă (multivariată)........................................................................100

Capitolul 8. Testarea semnificaţiei statistice...............................................................................105


8.1. Ce test de semnificaţie statistică aplicăm şi după ce criteriu?......................................105
8.2. Tipuri de teste de semnificaţie......................................................................................106
8.3. Opţiuni SPSS. Teste pentru un singur eşantion............................................................108
8.4. Testul t pentru eşantioane independente.......................................................................109
8.5. Testul t pentru eşantioane corelate................................................................................111
8.6. ANOVA cu măsurători repetate....................................................................................114
8.6.1. Între şi înăuntrul grupului (between versus within subjects).........................114
8.6.2. Condiţii de aplicare pentru ANOVA cu măsurători repetate........................116

Exerciţii aplicative de sinteză............................................................................................117


Utilităţi statistice................................................................................................................120
Bibliografie.........................................................................................................................122

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 1

PREGĂTIREA DATELOR PENTRU ANALIZA STATISTICĂ


CREAREA BAZEI DE DATE

1.1. Introducere
Deşi cea mai mare parte a timpului destinat analizei computerizate a datelor statistice ar
trebui alocat pentru găsirea răspunsurilor preconizate la ipotezele cercetării, acest lucru nu este
posibil fără crearea în prealabil a bazei de date. Aceasta deoarece majoritatea programelor de
prelucrare avansate ca SPSS, SAS ori NCSS1 sunt gata să prelucreze datele abia după organizarea
lor într-o bază de date. Normal ar fi ca această etapă pregătitoare să fie cât mai rapidă şi mai
eficientă, dar, în realitate, libertatea fazei de prelucrare este mult condiţionată de calitatea datelor
introduse ca şi de maniera lor de introducere.
Există mai multe posibilităţi de introducere a datelor: direct din programe de management al
unor baze de date (create în Excel, de exemplu), din alte programe computerizate pentru
manipularea datelor numerice (ca cele trei menţionate anterior) sau prin crearea unui set nou de
date destinate analizei lor ulterioare. Ultima dintre variante este cea avută în mod expres în vedere
aici, deşi pe parcursul lucrării vom face referire şi la celelalte două posibilităţi. Scopul acestui
capitol este acela de a procura informaţiile necesare înţelegerii modului în care trebuie organizate
datele astfel încât ele să poată fi uşor prelucrate în SPSS, cu insistenţă pe ultima variantă a acestuia,
SPSS 14. De aceea vom începe prin a introduce câteva concepte de bază (caz, variabilă, valori,
codare şi reguli esenţiale de organizare) valabile în mare pentru toate programele de prelucrare
automată a datelor. Deşi nu poate fi trasată o „cale unică”, existând nenumărate abateri de la
regulile formulate, acest mod de lucru poate fi preferat pentru economicitatea sa, rezultată dintr-o
îndelungată experienţă practică, ceea ce va permite mai ales novicelui să evite greşelile comune.

1.2. Caz, variabile, valori


De la cursul introductiv de statistică, reţinem o scurtă definiţie a acesteia, ca fiind ştiinţa
care se ocupă cu date numerice, rezultate din nişte măsurători preralabile. Măsurarea poate fi
concepută ca „procesul de atribuire de numere calităţilor reprezentative” (Campbell); ca „metodă
de stabilire a corespondenţei calitative a unei mărimi cu orice număr” (Russel); sau ca o operaţie de

1
SPSS = Statistical Package for the Social Sciences; SAS = Statistical Analysis System; NCSS = Number Cruncher
Statystical System.

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

atribuire a unui număr obiectelor sau calităţilor acestora conform unei reguli” (Stevens) 2. În acest
proces de observare şi asociere a numerelor cu obiecte sau cu calităţi ale acestora, care este
măsurarea, fiecare obiect, calitate, persoană sau eveniment constituie unitatea primară de analiză,
care poate fi definită printr-o multitudine de caracteristici. În schema de mai jos vom numi aceste
unităţi cazuri. În ştiinţele sociale sau în psihologie fiecare respondent la un chestionar sau subiect
căruia i se administrează o probă este un astfel de caz.
Fiecare caz este definit la rândul său de o multitudine de caracteristici. De exemplu, un
subiect uman (un caz) aparţine unui gen anume (masculin sau feminin), are o anumită vârstă,
înălţime, greutate, coeficient de inteligenţă, medie şcolară generală; aparţine unei anumite etnii sau
poate fi încadrat într-o anumită tipologie temperamentală etc. Fiecare dintre aceste caracteristici
care pot lua o multitudine de valori se numeşte variabilă. Este evident că un obiect statistic - un caz
- poate fi descris cu atât mai bine cu cât numărul de variabile utilizate este mai mare sau cu cât
acestea au mai multe nuanţe, adică conţin mai multe valori. În felul acesta se poate înţelege mai
bine ierarhia din figura de mai jos.

Cazul (unitatea de baza a analizei)

Mai multe variabile definitorii pentru caz

Variabila 1 Variabila 2 Variabila 3 Variabila 4

Mai multe valori definitorii pentru variabile

1 2 … n 1 2 … n 1 2 … n 1 2 … n
Valori Valori Valori Valori

Figura 1.1. Ierarhia caz, variabile, valori.


Sursa: Newton şi Rudestam, 1999, p. 9.

În SPSS 14 secvenţa creării unei variabile, posibilă prin clic pe Variable View (aflată în
opoziţie cu Data View din colţul din stânga jos) este în linii mari următoarea:
 definirea numelui variabilei;
 indicarea tipului variabilei;
 etichetarea ei;
 codificarea ei (dacă este cazul).

2
Apud Coman şi Medianu, 2003, p. 19.

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 1.2. SPSS la startul introducerii datelor, cu Data Wiew şi Variable Wiew.

1.3. Introducerea datelor


Editorul de date SPSS (Data Editor) afişează la start primul ecran din figura 1.2. El este un
spaţiu de lucru cu linii şi cu coloane destinate introducerii datelor numerice sau non-numerice
(cuvinte). Fiecare coloană reprezintă o singură variabilă şi fiecare linie reprezintă un singur caz
(subiect) despre care deţinem datele respective. Pentru a introduce o dată se selectează cu un clic
celula corespunzătoare, aflată la intersecţia dintre o linie şi o coloană, se tastează valoarea de
introdus şi se dă Enter. În caz de introducere greşită se revine cu mausul sau din săgeţi în celula

10

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

respectivă şi se scrie noua valoare, care va şterge automat valoarea greşit introdusă. O valoare
introdusă pentru o variabilă care nu a fost definită primeşte automat un nume alcătuit din 8
caractere de genul VAR00001, VAR00002 etc. Pentru a defini şi seta fiecare variabilă acţionăm
butonul Variable Wiew din stânga jos, ceea ce va face să apară ecranul al doilea din figura 1.2.
Deoarece în SPSS 10.0 datele sunt afişate în fereastrele de lucru ale diverselor aplicaţii aşa
cum au fost ele introduse iniţial în Data Editor trebuie ca din start să avem grijă cum grupăm
datele pentru a forma unităţi logice uşor de reperat. Dacă pentru cercetările “mici” acest lucru pare
mai puţin important, pentru cele mari acesta este un lucru fundamental, pentru că de el depinde
viteza cu care obţinem prelucrările dorite, viteză ce rezultă din uşurinţa cu care ne mişcăm în
câmpul variabilelor. Gruparea logică a datelor se deprinde după un oarecare exerciţiu, dar este util
de ştiut că întâi se introduce o coloană cu numărul curent, identic de altfel cu cel afişat în partea
stângă în mod automat atunci când suntem în Data Wiew. Rostul acestei coloane este acela de a
regăsi ordinea iniţială de introducere a datelor atunci când ea a fost “stricată” de splitarea datelor
(din Data→Split File, cum vom vedea ulterior). După aceea se introduc datele de identificare,
factuale sau demografice (nume, vârstă, apartenenţă de gen, mediu, şcoală, clasă, studii, vechime,
profesie, apartenenţă etnică etc.); după care se introduc “pe pachete” datele brute şi cele standard
pentru testele de aptitudini (inteligenţă, memorie, creativitate, atenţie etc.), pentru cele de
personalitate, sau oricare alte date care fac obiectul cercetării. O grijă specială trebuie să avem
pentru datele nou create prin meniul Transform (prin Compute, Recode etc. de care vom vorbi
ulterior) deoarece ele sunt în mod automat alipite la coada listei de variabile. Prin Insert Variable
lângă variabila de care ea este cel mai apropiată logic se creează spaţiul necesar ca variabila nou
creată să fie transportată cu Copy şi Paste la locul dorit. De fapt acesta poate fi definit din capul
locului cu numele viitoarei variabile şi aceasta va fi depozitată la locul ce i-a fost creat.

1.4. Cum denumim variabilele în SPSS?


Orice deschidere a unui nou fişier SPSS dă naştere, cum am arătat deja, unui câmp definit
de linii şi de coloane. Dacă vom da un clic pe Variable View din partea stângă a barei de jos a
ecranului, ordinea iniţială de linii – coloane din Data Wiew se modifică, în sensul în care pe
verticală nu mai sunt afişate cazurile, ci variabilele, de la prima la ultima, în ordinea creării lor, iar
pe orizontală în dreptul fiecărei coloane vor fi afişate caracteristicile definitorii ale acestora, care
sunt numele, tipul, mărimea (întinderea), numărul de zecimale, eticheta cazului, valorile, valorile
lipsă, coloanele, alinierea şi tipul de scală prin care ele au fost măsurate.3

3
Reţinem denumirea lor în engletă: Name, Type, Width, Decimals, Label, Values, Missing, Columns, Align,
Measure. Vezi partea de jos a figurii 1.2.

11

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Numele variabilei este foarte important pentru că el se asociază cu o anumită


mnemotehnică, adică cu un proces care ne ajută să recunoaştem rapid şi corect variabila. De
exemplu, cele 18 valori instrumentale din Chestionarul de Valori Rokeach (RVS) pot fi numite
astfel: ri_01 (Rokeach, valoarea instrumentală 1), ri_02, ri_03, ..., ri_18. Variabilele vor fi afişate în
fereastra variabilelor în acelaşi loc şi în aceeaşi ordine, de la prima la ultima, ele putând fi uşor
selectate pentru diverse tipuri de analiză, dar acest lucru va face dificilă identificarea sensului lor,
căci nu vom şti doar după cifre care dintre ele reprezintă ambiţia, orizonturile largi, capabilitatea
sau împlinirea. Pentru aceasta ele ar putea fi numite şi astfel: ri01_amb, ri02_ori, ri03_cap etc.
În programul SPSS există câteva reguli care trebuie cunoscute pentru a nu avea probleme cu
numirea variabilelor:
 numele variabilei trebuie să înceapă cu o literă şi nu cu o cifră;
 ca şi lungime el trebuie să nu depăşească 8 caractere;
 trebuie să nu conţină caractere speciale, ca blancurile (spaţii libere între litere, cuvinte),
virgule, dar nici semnele !, ?, ',*;
 fiecare nume de variabilă este unic şi deci duplicarea numelui nu este permisă. Aceasta nu
înseamnă că nu putem să transportăm o coloană (să zicem cea a numelui subiecţilor)
oriunde este util în câmpul variabilelor prin copy şi paste, însă de fiecare dată variabila – în
fond aceeaşi – va primi un alt nume. Dacă nu i-l dăm noi, i-l va da automat programul
SPSS;
 în SPSS numele variabilei nu este sensibil la mărimea literei: vârsta subiectului poate fi
scrisă ca vars_sub, ca VARS_sub, ca vars_SUB sau ca vaRs_sUb, toate revenind la acelaşi
format, vars_sub;
 există cuvinte cheie care nu pot fi utilizate, cum ar fi: ALL, NE, EQ, TO, LE, LT, BY, OR,
GT, AND, NOT, GE şi WITH.
Iată câteva exemple de nume de variabile: locatie (în numele variabilei nu sunt acceptate semnele
diacritice pentru literele româneşti ţ, ş, î sau ă/â), loca#05, rt_01, rt01, peste20$ etc. Aşa cum am
arătat deja, prin setare – adică by default, termen pe care o să-l folosim frecvent în continuare -,
dacă introducem pe verticală o secvenţă de valori ale unei variabile fără să o numim, coloana
respectivă va căpăta automat un nume alcătuit din prefixul VAR (de la variabilă) şi un şir de cinci
cifre de genul VAR00001, VAR00002, ..., VAR00015 etc.

1.5. Tipuri de variabile


Prin setare SPSS înregistrează orice tip nou de variabilă ca numerică. Coloana a doua din
Variable View ajută să ne precizăm mai bine opţiunile. Asfel, fereastra de dialog pentru Type
(tipul variabilei) oferă următoarele posibilităţi:

12

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 variabile numerice, ele putând fi valori numerice prorpiu-zise sau ordinale, cu mărimea
maximă de 40 de caractere pentru întregi şi 16 pentru partea de după virgulă (zecimale).
Valorile pot fi pozitive sau negative;
 comma şi dot nu interesează decât în situaţii speciale, ele includ spaţii, virgula sau punctul
pentru a delimita trecerea de la mii la milioane, apoi la miliarde etc;
 notaţiile ştiinţifice îi includ pe E şi pe D sau semnele plus şi minus;
 dollar include semnul dolarului, o pauză pentru zecimale şi mai multe virgule pentru a
delimita miile, milioanele etc.;
 custom currency are utilizări speciale în economie;
 string: valorile valide includ litere, numerale şi alte caractere. Este foarte util să creăm o
variabilă care este numele şi prenumele subiecţilor, cu adresa, profesia etc. pentru care ne
trebuie litere şi nu numere. Variabilele string pot fi restrânse doar la cele 8 caractere sau pot
fi mai mari, să zicem peste 40, pentru a putea include numele lungi sau cele rezultate prin
căsătorie, alături de numele iniţial al persoanei. Notăm deci că variabilele string pot fi scurte
(8 caractere) sau lungi (peste 8 caractere), acestea din urmă fiind sever restricţionate în cele
mai multe proceduri SPSS.

Pentru că această lucrare nu îşi propune să fie un dublet al manualelor SPSS, fie ele şi foarte
recente, acestea păstrându-şi întreaga lor valoare prin bogăţia datelor amănunţite furnizate, ci mai
degrabă un ghid de utilizare, facem aici câteva precizări care ni se par utile:
 când numele variabilei condensează două cuvinte putem utiliza liniuţa de legătură de jos
(underline), pe care programul o permite;
 este bine ca prima coloană de date să fie numărul curent ordine al respondentului sau al
cazului (resp_num sau resp_caz), ceea ce poate apărea ca inutil, devreme ce fiecare caz este
numerotat automat. Procedura îşi dovedeşte pe deplin utilitatea atunci când prin Split File
din Data separăm cazurile după gen, mediu sau oricare alt criteriu, ceea ce produce
bulversarea datelor iniţiale. Dacă nu salvăm aceste împărţiri pe parcurs, la redeschiderea
fişierului acesta va reveni automat la forma iniţială în care datele au fost introduse. Şi în caz
contrar revenirea la ordinea iniţială este posibilă, prin sortarea ascendentă a acestora după
numărul de ordine introdus ca măsură de siguranţă pe prima coloană sau după numele
subiecţilor, dacă acestea au fost introduse în ordine riguros alfabetică. O precauţie în plus ar
fi ca acest număr să fie trecut pe fiecare fişă introdusă, ceea ce înseamnă că din capul
locului fişele sunt puse în ordinea dorită, separat după criteriul apartenenţei de gen, în
ordinea numelor, a mediilor şcolare sau al QI-ului etc.;

13

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 o variabilă string cu numele şi prenumele subiectului este iarăşi una extrem de utilă, odată
pentru că permite identificarea precisă a subiecţilor şi adăugarea de date suplimentare în
următoarele sesiuni de lucru SPSS şi, în al doilea rând, pentru că prin copy şi paste această
coloană poate fi inserătă oriunde în cîmpul variabilelor, ceea ce ajută mult la completarea
corectă a câmpurilor de date pentru fişierele cu număr mare de variabile sau când se creează
variabile noi. Ulterior, când se trece la analiza datelor, ele pot fi la fel de uşor şterse prin
delete sau cut;
 numelor variabilelor de tipul valorii terminale 13 (plăcere) din RVS, introdusă rt_13, le
vom prefera pe cele de tipul rt_place care dau o idee mai concretă despre conţinutul
variabilei, aşa cum am mai arătat, deoarece în prelucrările furnizate (outputuri) recunoaştem
mai uşor conţinutul acesteia (plăcere);
 nu toate variabilele se pretează în a deveni criterii majore de analiză a datelor, dar unele par
a avea „în mod natural” această proprietate şi de aceea ele ar trebui introduse la începutul
seriei de variabile. Astfel, pentru cele mai multe cercetări psihologice, pedagogice sau
sociologice, variabilele ca apartenenţa de gen, vârsta (în ani şi luni, înmulţite cu 0,82 pentru
a face conversia lunilor din sistemul cu baza 12 în cel zecimal), studiile părinţilor (separat
pentru tata şi mama, sau doar pentru unul din ei), mărimea fratriei, poziţia în fratrie, mediile
generale şi/sau la materiile de bază (română, matematică) sau vocaţionale (sport, muzică,
desen ori religie), mediul (urban, rural), profesia subiectului, zona geografică etc. sunt
variabile privilegiate, pentru că sunt uşor de obţinut şi oferă criterii valide de analiză a
datelor. Cu siguranţă că oricare ar fi domeniul ştiinţelor pentru care folosim programul de
prelucrare computerizată, SPSS are variabile privilegiate care pot fi identificate prin
parcurgerea literaturii cercetărilor din domeni pentru a le include în cercetarea noastră
actuală;
 în glosarul de termeni de la sfârşitul capitolului se face o scurtă analiză a tipurilor de
variabile, distincţia continue-discontinue find una fundamentală. Întotdeauna şi în orice
ocazie este preferabil să introducem variabilele continue, deoarece ele condensează o mai
mare cantitate de informaţie şi cresc puterea statistică a cercetării. Prin recodificarea
acestora ele pot fi uşor transformate în variabile discontinue (dihotomice sau trihotomice),
permiţând proceduri statistice speciale, cum ar fi analiza de varianţă sau de covarianţă
(ANOVA, ANCOVA), fără a desfiinţa însă variabila originară. Aşadar, în loc de a introduce
un număr de categorii de vârste (variabilă precodificată) vom prefera să introducem vârsta
cât mai precis (ani şi fracţiuni zecimale de ani), urmând a opera ulterior cu această variabilă
în sensul dorit.

14

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

1.6. Alte caracteristici ale variabilelor


Unele variabile au o lungime predeterminată de 8 caractere, ceea ce se poate observa ca
atare pe coloana Width. Pentru alte variabile, şi în special pentru cele de tip string, este bine să
asigurăm un număr suficient de caractere (30-50) pentru a putea scrie şi numele cele mai lungi. În
căsuţa respectivă va apărea doar o parte a numelui, dar clicul pe ea va arăta numele în toată
lungimea sa.
Coloana cu zecimalele (Decimals) ce vor fi afişate este setată (by default) la valoarea 2, dar
activând săgeţile crescătoare sau descrescătoare numărul acestora poate creşte până unde dorim sau
descreşte până la zero. Pentru sex, mediu, grupă sanguină etc. nu avem nevoie de zecimale, deci le
vom seta pe zero, dar pentru notele standard z de exemplu programul SPSS afişează automat 5
zecimale.
Foarte importantă este coloana Label (Etichetă) din Variable View şi aceasta din câteva motive:
 dacă setăm programul pe limba română, aceasta permite utilizarea diacriticelor, ceea ce face
mai inteligibilă variabila respectivă;
 lungimea presetată de 8 caractere de la Name nu mai este valabilă, ceea ce ne permite să
dăm un nume mai complet şi mai clar variabilei;
 în orice output produs de SPSS (diagramă, tabel etc.) numele afişat al variabilei nu este cel
de la Name, ci cel de la Label. Vom avea deci grijă ca etichetarea să fie completă, clară şi
uşor de înţeles, pentru a putea insera ulterior outputurile ca atare în textele editate în Word
sau în prezentările tip Power Point;
 să mai subliniem faptul că eticheta poate avea până la maximum 120 de caractere şi că ea
este case sensitive, adică afişează corpurile de literă de mărimea la care au fost introduse
(minuscule, majuscule).
O coloană specială este cea numită Values.

Figura 1.3. Variable Wiew şi fereastra de setare de la Value Type.

15

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

În figura 1.3. care este o captură de ecran, vedem că multe variabile (Nume prenume, Studii,
Fratrie, Poziţie în fratrie etc.) au trecute pe coloana Values sintagma None, ceea ce înseamnă că nu
a fost operat nimic în dreptul acestor variabile la capitolul valori. Dacă vrem să indicăm faptul că
avem variabile categoriale, avem două posibilităţi:
 să precizăm direct de la Label codificarea utilizată (de exemplu 1 = Mică, 2 = Medie, 3 =
Mare), ceea ce are dejavantajul că acesta va fi titlul afişat al outputului, categoriile
respective fiind notate cu 1, 2, respectiv 3;
 să indicăm din Values codificarea utilizată, şi atunci output-ul va avea un titlu (Inaltime în
cazul nostru) iar în loc de cifre care să indice categoriile vor apărea Mică pentru prima
categorie, Mijlocie pentru a doua şi Mare pentru a treia.
Cum operăm pentru aceasta? Dăm clic pe Values şi va apărea următoarea fereastră de dialog:

Figura 1.4. Fereastra de dialog pentru Value Labels.

Titlul ferestrei de mai sus este Value Labels deoarece este alcătuită dintr-o boxă pentru valori
(sus), una pentru etichetarea acestora (mijloc) şi o a treia cutie (cea mai mare, de jos) unde se
transferă rând pe rând variabilele care au fost etichetate. În cazul nostru la variabila Gen intrăm în
Value şi scriem 1, coborâm la Label şi scriem Mică apoi apăsăm pe Add pentru a transfera
codificarea în panoul de jos, după care ne reîntoarcem la Value şi scriem 2, coborâm la Label şi
scriem Mijlocie şi dăm din nou Add, pentru a o introduce în cutia de jos, procedând la fel şi pentru
a treia categorie. Dacă am greşit, în partea din stânga a ferestrei de dialog, sub Add, avem
butoanele Change şi Remove, primul pentru corecturi de scriere, al doilea pentru ştergerea
completă a unei categorii. Dacă inspecţia vizuală indică faptul că totul este în ordine dăm OK, ceea
ce ne întoarce la Value, unde în loc de None apare codificarea operată.
Înainte de vorbi despre coloana Missing (destinată codificării speciale a valorilor lipsă), mai
arătăm că mai există şi coloana Align care operează alinierea numerelor sau cuvintelor de pe
fiecare coloană de date fie spre stânga, fie spre dreapta, după cum optăm. Preferabil pare a fi să
optăm pentru alinierea pe dreapta la numere şi pe stânga la cuvinte, pentru a repera mai uşor
începutul acestora din urmă, ceea ce ne orientează mai uşor atunci când sortarea s-a făcut alfabetic.

16

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Ultima coloană ce trebuie definită este intitulată Measure, cu alternativa tip nominală sau
tip scală, cea din urmă incluzând marimile numerice care definesc o scală ordinală, de intervale sau
de rapoarte. Tipul de măsurare utilizat permite doar anumite statistici, blocându-le pe celelalte.

1.7. Codarea datelor lipsă


Lipsa unor date este un fapt comun în cercetarea din ştiinţele socio-umane, şi aceasta din
cauză că respondentul a fost neatent, nu s-a putut decide sau deoarece consideră că întrebarea nu se
aplică în cazul său. Cum se poate explica faptul că studenţii de la psihologie, din anii întâi şi al
doilea, rugaţi să îşi indice temperamentul ştiut, dau un mare număr de nonrăspunsuri? Explicaţiile
posibile sunt multiple, una fiind aceea că este greu să te fixezi procustian într-o anumită categorie,
când ştim că temperamentele „pure” sunt foarte rare şi chiar etimonul cuvântului temperament
(temperare) înseamnă amestec. Pe de altă parte aceasta poate fi şi o tehnică ascunsă de a nu te
recunoaşte în defectele colericului sau ale melancolicului, lăsând problema autoîncadrării
deschisă... Dar dacă i-am întreba pe studenţii de la Automobile Rutiere sau Mecatronică, care ştiu
mai puţine despre latura lor psihologică, care ar fi rata nonrăspunsurilor? Necunoaşterea,
nerecunoaşterea sau nonacceptarea unui fapt devin tot atâtea ipoteze care merită să fie investigate.
În SPSS există două tipuri de valori lipsă:
 system missing value: orice valoare care nu a fost completată pentru o celulă a variabilei,
fiind indicată printr-un punct (.) este asignată ca valoare lipsă;
 user mising value sunt acele valori care pot fi cu precizie identificate că lipsesc prin
substituirea lor cu un înlocuitor. În cazul acestui tip de valori lipsă practica a impus
desemnarea unei valori numerice aflată în afara spectrului de valori pe care o ia variabila.
De exemplu, pentru valori codificate cifric astfel: Rural = 1, Urban = 2, valoarea 9 va fi
rezervată pentru datele lipsă nu prin omisiune, ci prin chiar absenţa lor. Ele nu vor participa
la calcularea mediei sau a abaterii standard, dar având un asemnenea înlocuitor ne vom
asigura că formatul coloanei pentru celelalte date rămâne intact atunci când se calculează
frecvenţe sau procente. La datele cu unităţi şi zeci se poate rezerva 99 pentru acest tip de
valori lipsă, iar la cele care au şi sute, numărul 999.

Datele lipsă sunt o realitate a cercetării. Implicaţiile lor includ posibilitatea de a face
inferenţe pe datele eşantionului, care sunt biasate (distorsionate) în direcţii necunoscute, ca şi
tendinţa de a reduce mărimea eşantionului şi deci forţa cercetării pentru analizele efectuate.
Managementul acestor date nu este unul simplu: să le omitem, pur şi simplu? Să le înlocuim
arbitrar, doar pentru a completa distribuţiile? Să le completăm cu valorile ce ar reieşi din ecuaţiile
de regresie ale variabilelor care le prezic? Anumite procedee statistice presupun un anume

17

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

management al datelor lipsă. Trebuie adăugat şi faptul că pentru coloana Missing trebuie precizată
destinaţia valorilor lipsă:
 by default valorile lipsă nu participă la calcule;
 utilizarea discretă a datelor lipsă: putem folosi până la trei tipuri de valori lipsă (codificate
9, 99 şi 999) care vor fi folosite pentru valori numerice sau pentru variabile string scurte.4
 utilizarea unui spectru mai larg al valorilor lipsă, care pot fi folosite pentru o valoare
minimă şi una maximă, protejându-ne astfel de distribuţiile aberante.

1.8. Codarea datelor


Operaţia prin care asignăm numere fiecărei caracteristici (valori) a variabilei este procesul
de codare. Unele date sunt extrem de uşor de codat, ca în cazul datelor autocodificate, pentru că
răspunsurile subiecţilor se traduc ele însele în cod numeric, cum ar fi de exemplu vârsta sau
numărul anilor de studii. Apartenenţa de gen a impus o codare de genul 0 şi 1 sau 1 şi 2 pentru
masculin, respectiv feminin, adică o codare dihotomică, variabila având doar două valori distincte.
Atunci când o variabilă are mai mult de două stări (masculinitate, androginitate, feminitate, ca la
BSRI - chestionarul de sex-rol al Sandrei Bem; introvert, ambivert, extravert; melancolic, coleric,
flegmatic şi sangvinic) şi este codificată doar cu 0 şi 1 vorbim de variabile dummy, necesare de
exemplu în calculul corelaţiei punct-biseriale. Nu toate datele din chestionare sunt unele
precodificate sau autocodificate. Pentru exemplu, iată întrebarea de mai jos:
Cărei etnii consideraţi că îi aparţineţi:
Român...........1
Maghiar.........2
Altele.............3
Acest tip de răspuns se cheamă cu alegere deschisă sau nestructurată. În codificarea sa trebuie
parcurşi mai mulţi paşi:
Pasul 1: înregistraţi toate răspunsurile date la categoria Altele pentru a determina toate
posibilităţile care apar;
Pasul 2: asignaţi coduri adiţionale noilor categorii;
Pasul 3: finalmente vă întoarceţi la chestionarul de origine şi scrieţi codul corespunzător
etniei declarate la categoria Altele.

4
Cercetările disting între datele lipsă şi răspunsurile nonspecifice, codificate diferit. Astfel, la întrebarea:
Credeţi că există viaţă după moarte ? (Încercuiţi):
Da ........1
Nu.........2
Indecis...9
Varianta Indecis (Nu ştiu, Nu sunt sigur) etc. reprezintă răspunsuri nonspecifice, care pot fi codificate separat, ca şi
categoria Fără răspuns (missing data) sau Nedecis. Din această cauză, în astfel de situaţii pentru anumite tipuri de
răspunsuri pot fi rezervate trei coduri speciale, care ar putea fi: 97 – Nonrăspuns; 98 – Nedecis şi 99 – Alte situaţii.
Ulterior acestea vor putea fi analizate separat.

18

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

O problemă foarte specială o reprezintă categoria Altele din chestionarele deschise de opinii
sau valori. Iată următoarele întrebări5:
1. Dacă ar fi să muriţi în viitorii câţiva ani, sunteţi pentru, neutru sau împotrivă în legătură cu:
A. Înhumarea B. Incinerarea
Pentru ................1 Pentru ................1
Neutru ................2 Neutru ................2
Împotrivă ............3 Împotrivă .............3

2. A. De ce înhumarea (peste câţiva ani)? Înhumarea................................................................


B. De ce incinerarea (peste câţiva ani)? Incinerarea...............................................................

Tehnic, întrebarea 2 este mult mai complicată decât întrebarea 1, ea putând primi următoarele tipuri
de răspunsuri:
 Înhumarea oferă un loc unde să te plângă cei rămaşi.
 Înhumarea este ceea ce s-a practicat în familia mea dintotdeauna.
 Religia ortodoxă m-a învăţat încă din copilărie că este metoda cea mai utilizată de creştini în a
dispune de corpul propriu după moarte.
 Religia ortodoxă m-a învăţat că la judecata de apoi participă doar cei cu integritate a corpului
(schelet).
 Ideea arderii corpului mă sperie îngrozitor.

Pentru ambele variante din exemplul de mai sus trebuie efectuată o analiză de conţinut
pentru a determina motivaţia subiacentă, adică de ce zic că ar face ceea ce zic ei că vor face. Aceste
motivaţii devin categoriile distincte în care vor cădea răspunsurile subiecţilor. Aşa cum se observă,
în exemplul de mai sus motivaţiile îmbracă un larg spectru de posibilităţi, deoarece ele se referă la:
1. Rezolvarea nevoii de a fi plâns de cei dragi, rămaşi în viaţă.
2. O tradiţie de familie.
3. O tradiţie religioasă.
4. O cerinţă legată de viaţa de apoi.
5. Teama de a fi ars.
6. Alte motivaţii.

Finalmente, codificând astfel răspunsurile reieşite vom stabili o proporţie pentru fiecare tip de
motivaţie, putând crea de exemplu şi o ierarhie a motivaţiilor reieşite. Foarte adesea însă vom mai
descoperi că o multitudine de alte răspunsuri nu sunt raportabile la cele cinci categorii
motivaţionale, fie pentru că le amestecă pe cele deja existente, fie pentru că propun şi alte noi tipuri
de motivaţii. Pentru a rezolva o astfel de situaţie, am creat mai sus şi o altă categorie de răspuns,
Alte motivaţii, codificată cu 6. Este de la sine înţeles că ulterior ne vom întoarce la întrebările din
chestionar, vom face analiza de conţinut şi vom nota în dreptul fiecărei categorii codul
corespunzător rezultat din analiză.

5
Sursa: Newton şi Rudestam, op. cit., p. 12.

19

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

1.9. Reguli de bază ale organizării datelor


Newton şi Rudestam6 sintetizează cinci reguli de bază ale organizării datelor pe care le
reproducem mai jos.

1. Datele trebuie să fie, pe cât posibil, numerice.


Pentru apartenenţa de gen tehnic este la fel de uşor de introdus codurile M şi F, respectiv 0 şi 1,
pentru a indica genul masculin şi cel feminin. În al doilea caz însă variabila este una numerică
şi nu String, putând fi deci implicată în prelucrări statistice mai avansate.

2. Fiecare variabilă trebuie să ocupe aceeaşi locaţie (poziţie) pentru fiecare caz
Această problemă pare a fi automat rezolvată de SPSS prin faptul că în Variable Wiew fiecare
variabilă este numerotată, secvenţa de configurare fiind mereu aceeaşi, pentru fiecare caz în
parte. Avantajul acestui fapt este unul considerabil pentru că el contribuie la apariţia rutinei în
introducerea datelor, ceea ce contribuie masiv la diminuarea oboselii şi la creşterea preciziei
acestei operaţii. Noi insistăm însă pe faptul ca ordinea din foile de răspuns şi cea din câmpul de
date din calculator să fie dacă se poate coincidente, pentru ca volumul de energie nervoasă
alocată supravegherii atenţionale să fie cât mai mic. Pentru aceasta vom şti că încă din faza de
multiplicare la Xerox a chestionarelor şi instrumentelor aplicate într-o cercetare este bine ca
aceasta să se facă tip seturi, capsate. Aceasta înseamnă că nu numai parcurgerea lor, dar şi
corectura / prelucrarea se fac mereu în aceeaşi ordine, cotele brute şi standard trecându-se
mereu în aceleaşi locuri.
Imediat după aplicarea lor, ele se vor pune în ordinea dorită (pe sexe, în ordinea vârstelor, a
numelor sau a mediilor), dându-li-se numere de ordine unice, identice cu cele din baza de date
din calculator. Ulterior, configurarea datelor prin Variable Wiew va respecta ordinea naturală
din setul de instrumente utilizat, pentru ca secvenţa de citire şi de introducere a datelor să fie
coincidente. Dacă o variabilă a fost iniţial nesatisfăcător plasată în câmpul de introducere a
datelor, dăm clic pe variabila pe care vrem să o preceadă, după care comanda Insert Variable
şi Paste, pentru a fixa noua locaţie a variabilei în cauză. Toate caracteristicile variabilei mutate
astfel dintr-un loc în altul se păstrează, împreună cu setările corespunzătoare, dar şi cu valorile
cazurilor deja introduse până la momentul respectiv. Cu alte cuvinte, ceea ce s-a schimbat a fost
doar locaţia variabilei şi nimic altceva. În acelaşi mod vom proceda şi pentru a introduce noi
variabile în vecinătatea variabilelor din care ele au derivat, cum ar fi notele standard (după
notele brute) sau valorile standardizate (note z), care de regulă apar la sfârşitul câmpului de
variabile după activarea unui buton special din Descriptives (Save standardised values as
variable).

6
Newton şi Rudestam, op. cit., pp. 15-20.

20

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

3. Toate codurile pentru o variabilă trebuie să fie reciproc exclusive


Aceasta înseamnă că fiecare caz este codificat într-o categorie şi numai una. Să presupunem că
ne interesăm de situaţia maritală a respondenţilor, întrebându-i:
Actualmente sunteţi:
Căsătorit 1
În concubinaj 2
Separat 3
Divorţat 4
Văduv 5
Necăsătorit 6
Un respondent încercuieşte 1, 2, 3, şi 4 pentru că, deşi actualmente oficial este căsătorit,
deoarece întreţine o relaţie cu o altă persoană, aceasta a produs separarea soţilor, acţiunea de
divorţ fiind chiar pe cale de a se pronunţa. El trebuie să aleagă doar o singură variantă de
răspuns, cea actuală, în cazul de mai sus 3 (Separat), pentru că divorţul nu s-a pronunţat încă.
Acest lucru trebuie însă specificat clar pentru a nu genera confuzii.
Uneori eroare nu este una care implică capacitatea de înţelegere a subiectului, ci modul de
formulare a întrebării, ca în cazul de mai jos, unde în formulare se amestecă de fapt două
întrebări care nu sunt reciproc exclusive.
Sunteţi, căsătorit, necăsătorit şi aveţi copii?
Căsătorit 1
Necăsătorit 2
Cu copii 3
Fără copii 4
Bineînţeles că cineva poate fi necăsătorit şi să aibă copii sau să fie căsătorit şi să nu aibă copii.
Recomandarea este ca întrebarea de mai jos să fie „spartă” în două întrebări distincte, una
relativă la statusul marital şi alta la faptul de a avea sau nu copii. Oricum, o precauţie în plus
este aceea ca un instrument nou creat să treacă prin faza de pretest sau de studiu pilot pentru a
putea observa şi remedia problemenle de acest fel.

4. Fiecare variabilă va fi codificată astfel încât să obţinem un maximum de informaţie


Deşi pare să complice un pic lucrurile, cerând mai mult efort din partea respondentului, este
preferabil să avem indicată vârsta sa în ani şi luni, decât să se indice apartenenţa la o categorie
de vârstă (20-24, 25-29 ani etc.). Relativ la vârstă, putem avea câteva situaţii, diferite ca
precizie şi volum informaţional:
a. 37 de ani
b. 37 de ani şi 8 luni
c. 37,64 ani
d. 35 – 39 de ani
e. < 35 de ani; > 35 de ani
Dintre toate variantele, deşi c este cea mai exactă, fiind cea mai apropiată de o variabilă
continuă, varianta b este totuşi cea indicată, pentru a nu obliga subiectul la un calcul pe care îl

21

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

facem noi la introducerea datelor (transformarea din baza 12 în baza 10 la luni). Cea mai săracă
informaţional este varianta e pentru că ea creează doar două categorii de scor, dar nici d nu este
mult mai bună, căci oricâte variante de scor ar crea, această variabilă rămâne tot una
categorială. De asemenea, în loc de bifă pentru două categorii de status marital pe căsătorit/
necăsătorit, acesta ar putea fi mult mai bine indicat de exemplul indicat anterior (actualmente
căsătorit; concubinaj; separat; divorţat; văduv, necăsătorit), mai ales că nimic nu ne împiedică
ulterior să recodificăm dihotomic variabila. O variabilă continuă poate fi condensată în multe
feluri după introducerea sa în calculator, dar dacă ea a fost introdusă deja comprimat, nu mai
poate fi decomprimată pentru a afla de exemplu vârsta exactă a unui subiect indicat a face parte
din categoria 35 – 39 de ani.

5. Pentru fiecare caz al fiecărei variabile trebuie să existe un cod numeric


Despre problema managementului informaţiei lipsă am făcut referiri anterior, dar şi pentru
aceasta trebuie să existe un cod! Dacă nu există un cod pentru o anumită variabilă, va fi greu de
distins dacă ceea ce lipseşte este informaţia despre ea sau dacă doar codul de introducere a fost
cel uitat. De exemplu, atunci când după un timp oarecare introducem un nou set de date pentru
a extinde cercetarea iniţială, pentru variabila etnie, categoria Secui nu vom şti dacă a fost
codificată cu 2 (Maghiar) sau cu 4 (Altele) şi atunci vom lăsa celula respectivă necompletată.
Calculatorul nu va putea distinge între absenţa informaţiei pentru cazul respectiv sau
necompletarea prin necodificarea ei. Pentru ca problemele de mai sus să fie cât mai rare,
experienţa cercetărilor anterioare ne învaţă să creăm un document separat al cercetării, care
poate fi mai ales în format neelectronic, numit codebook (carte de coduri).

1.10. Codebook
Deoarece fişierele de cercetare sunt unităţi de lucru dinamice, din care se adaugă şi se scot
date, se „clonează” sau se expandează prin fuziunea cu alte fişiere separate sau prin adăugarea de
noi variabile în câmpul de date, este foarte util să avem un codebook (în format electronic sau şi
mai bine neelectronic) în care să definim principalele caracteristici ale variabilelor utilizate. Pe
pagina următoare oferim un exemplu de codebook pentru o cercetare care corelaţionează mediile
şcolare, media de bacalaureat şi inteligenţa unor absolvenţi de facultate, cu alte date demografice
semnificative utilizate în prelucrarea iniţială.
Dacă exemplul de mai jos este unul relativ simplu, codebook-ul pentru un chestionar de
opinii, interese sau valori poate fi mai complicat, dar el devine un fel de „dicţionar” care descrie în
orice perioadă de timp chestionarul respectiv, fără de care datele din calculator rămân chiar şi
pentru cel care le-a creat un mister de nepătrus. Aceasta este cu atât mai mult valabil pentru o
persoană solicitată să ajute în prelucrarea datelor, indiferent de nivelul ei de expertiză.

22

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CODEBOOK

1. Numele variabilei Num_resp


Etichetă Numărul respondentului
Valori Indicator ordinal al poziţiei iniţiale de pe lista de date introduse
2. Numele variabilei Nume_res
Etichetă Numele respondentului
Valori Variabilă string
3. Numele variabilei Gen
Etichetă Apartenenţă de gen
Valori 0 = Masculin; 1 = Feminin
4. Numele variabilei Vârsta
Etichetă Vârsta respondentului
Valori Variabilă continuă de la 18 la 45 de ani
5. Numele variabilei Poz_frat
Etichetă Poziţia în fratrie
Valori De la 1 la N (rangul naşterii)
6. Numele variabilei Med_gen
Etichetă Media generală
Valori Media generală pentru clasa a XII-a
7. Numele variabilei Med_baca
Etichetă Media de bacalaureat
Valori Media obţinută la examenul de bacalaureat
8. Numele variabilei qi
Etichetă QI (Coeficient de Inteligenţă)
Valori Între 50 – 150
9. Numele variabilei Etnie
Etichetă Etnie
Valori 1=Român
2=Maghiar
3=German
4=Rrom
5=Altele
10. Numele variabilei Mediu
Etichetă Mediu
Valori 1 = Rural; 2 = Pre-urban; 3 = Urban

Figura 1.5. Codebook pentru o cercetare pe absolvenţi de liceu.

O cercetare complexă poate include, pe lângă datele de identificare şi cele factuale, date
sintetice despre instrumentele utilizate, care pot fi teste psihometrice, chestionare de opinii,
împreună cu scorurile sintetice la itemii care le compun. Cum numărul variabilelor poate depăşi
câteva sute, fără un codebook, însoţit de câte un exemplar din fiecare instrument ce intră în
structura bateriei, accesul la prelucrarea şi interpretarea datelor este blocat atât pentru cel care le-a
creat, cât şi pentru oricine altcineva. Coloana Values din Variable Wiew rezolvă o bună parte din
aceste dificultăţi, dar nu pe toate.

23

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Glosar de termeni fundamentali


A. Niveluri ale măsurătorii
Alegerea unui anumit tip de statistică depinde în mare măsură şi de caracteristicile datelor utilizate şi
în primul rând de nivelul măsurătorii pentru fiecare variabilă în parte. Computerul „nu ştie” pe ce tip de
scală de măsurare a fost culeasă variabila respectivă şi de aceea SPSS vă cere să precizaţi nivelul acesteia
pentru a putea selecta tehnicile statistice adecvate.
Clasificarea tradiţională a nivelurilor măsurătorii ţine seama de capacitatea unei scale de a ordona
ierarhic datele, de a avea proprietăţi de distanţă (unităţi de măsură egale) şi un zero natural. Ea a fost făcută
prima dată de S.S. Stevens în 1946, care a descris scala nominală, ordinală, de intervale şi de rapoarte (de
proporţii), clasificare larg (dacă nu unanim) acceptată şi astăzi.
Scala nominală de măsură este cea mai joasă din această ierahie, pentru că ea nu poate face nici un
fel de presupunere asupra relaţiilor cantitative dintre valorile variabilelor. Fiecare valoare defineşte o
categorie distinctă, servind mai ales ca etichetă sau nume, de unde şi denumirea scalei de nominală. Numele
sau locul naşterii sunt exemple tipice pentru acest tip de scală. Bineînţeles că şi lor li se pot asigna (atribui)
numere, dar aceste valori numerice ataşate la categoria nominală ajută doar la identificarea variabilei, ca
nişte etichete, nici o altă proprietate a numerelor (mărime relativă, adunare, înmulţire etc.) neputând fi
aplicate aceastei categorii de date. În computer, numele şi prenumele, locul naşterii, profesia, calificarea,
zona de rezidenţă sunt variabile de acest tip, ce permit doar identificarea şi eventual sortarea alfabetică,
crescătoare sau descrescătoare. Acest tip de variabile care sunt introduse cu litere şi nu cu cifre se cheamă
String şi ele nu participă la calcule. Există şi variabile nominale cifrice, cifrele fiind aici tot un fel de
etichete, ca numerele de pe tricourile sportivilor. Atunci când ele codifică nişte categorii distincte -
0=masculin, 1=feminin, de exemplu – variabila se cheamă categorială şi pentru ea se pot determina
procentaje.
Scala ordinală reprezintă nivelul imediat următor al măsurătorii, ce intervine atunci când este
posibilă ordonarea întregii categorii de date ale unei variabile după criteriul mai mic, mai mare sau tot atât (x
≥ y), ceea ce înseamnă că această scală are proprietatea magnitudinii. Exemple: ordonarea variabilei studii în
generale = 1, medii = 2 şi superioare = 3; a calificării profesionale în necalificat = 1, calificare redusă = 2,
calificare medie = 3 şi calificare superioară = 4, permit construire unei ierahii în care fiecare poziţie poate fi
identificată ca mai sus, mai jos sau egală cu celelalte, dar nu se poate spune nimic despre cu cât este ea mai
sus sau mai jos, pentru că acestei scale îi lipseşte o unitate de măsură clar definită, egală cu ea însăşi pe toată
lungimea scalei. Ordonarea soldaţilor în pluton de la mare la mic este un exemplu tipic pentru acest tip de
scală.
Scala de intervale are încorporată şi această proprietate a magnitudinii (x ≥ y), avînd în plus şi o
unitate constantă de măsură. Un termometru are de exemplu diferenţa dintre punctul de îngheţ şi cel de
fierbere al apei divizat în 100 de părţi egale, fiecare reprezentând o unitate (un grad). Diferenţa dintre 20 şi
23 de grade este egală cu cea dintre 35 şi 38 de grade, adică este de 3 unităţi. Dar, deoarece această scală are
un zero convenţional şi nu unul natural, nu se poate spune că se păstrează proporţionalitatea mărimilor de pe
orice parte a scalei pe oricare altă parte a ei.

24

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Scala de proporţii reprezintă nivelul cel mai de sus în această ierarhie a tipurilor de scală de
măsură. Cum fiecare nivel de măsurătoare încorporează toate caracteristicile celui anterior, scala de proporţii
(sau de rapoarte, cum i se mai zice) are toate proprietăţile scalelor de sub ea, adăugând în plus altele noi. Ea
are deci şi magnitudine - ca scala ordinală, are unitate egală de măsură - ca cea de intervale, având în plus şi
un zero natural. Zero ca greutate sau ca lungime înseamnă absenţa oricărei greutăţi sau lungimi. Din cauză
că măsurătorile pe o scală de proporţii satisfac toate proprietăţile numerelor naturale, pe o astfel de scală pot
fi aplicate toate toate tipurile de manipulări, fiind posibile deci toate tipurile de statistică. Trebuie precizat
însă că existenţa punctului zero natural (neconvenţional) este una critică pentru analiza statistică, acesta
nefiind uşor de evidenţiat.

B. Variabilă şi tipuri de variabile

Variabila, conceptul fundamental alstatisticii, este orice element care se poate schimba, care poate
poate varia şi care deci poate fi exprimat prin mai mult de o singură valoare, având variate valori sau
categorii. Opusul variabilei este constanta, care nu prea interesează statistica: doar la ecuaţia de regresie
constanta reprezintă locul unde linia de regresie intersectează ordonata şi se numeşte intercept. Orice lucru
din univers, afirma Galton, există într-o oarecare măsură şi de aceea el poate fi măsurat. Orice lucru care
poate fi măsurat poate deci să fie o variabilă: succesul şcolar, inteligenţa, anxietatea, veniturile, simpatia,
fericirea maritală etc.
Spre deosebire de înălţime şi de greutate, care au nevoie de o scală şi de un instrument de măsură
caracteristic, variabilele din exemplele de mai sus trebuie aduse la o stare prin care pot fi măsurate, adică ele
trebuie operaţionalizate. De exemplu, inteligenţa ar putea fi dedusă din aptitudinea pentru calcul mintal,
pentru definirea de cuvinte (vocabular), din informaţii generale deţinute de cineva, din aptitudinea pentru
spaţiu, aptitudinea socială, aptitudinea de a se înţelege pe sine însuşi etc. Ea este deci un construct complex,
care nu se relevă dintr-o dată şi foarte uşor, fiind considerată o variabilă latentă, abordabilă doar prin
proceduri diagnostice şi statistice complicate (analiza corelaţională, covarianţa variabilelor, analiză
factorială).
Două distincţii sunt foarte importante în raport cu conceptul ce variabile, deoarece ele pot fi
dependente şi independente, continue şi discontinue (categoriale sau discrete). În sens experimental
variabila dependentă - VD - este cea care se află sub controlul (adică depinde) de variabila independentă - VI
-, cea pe care o manipulează cercetătorul pentru a vedea efectele asupra VD. Relaţia VI → VD este una
vectorializată, adică este de tip cauzal. Dar în regresia simplă sau multiplă variabila dependentă este cea
prezisă de cea independentă, putând fi sau nu cauzată de aceasta, deci relaţia nu mai este vectorializată. Unii
cercetători păstrează distincţia variabilă dependentă/ independentă doar pentru cercetarea de tip
experimental, dar în mod obişnuit termenii respectivi sunt folosiţi atât în studiile experimentale cât şi în cele
nonexperimentale.
Variabila categorială distinge între subiecţii statistici, punându-i într-un număr limitat de categorii
care indică tipul sau felul, creindu-se clase cum ar fi masculin, feminin; slab, mediu, bun; mic, mijlociu,

25

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

mare; introvert, ambivert, extravert; melancolic, coleric, flegmatic, sangvinic; grupele sangvine 01, A2, B3,
AB4 ş.a.m.d. Prin opoziţie, variabilele continue pot fi exprimate printr-un număr foarte mare, practic infinit
de valori ale măsurătorii. Ele se cheamă numerice şi sunt tipice pentru scalele de intervale şi de proporţii
(rapoarte). Decizia dacă datele sunt continue sau categoriale are importante consecinţe pentru tratamentul
datelor. Datele ordinale, de exemplu, pot fi tratate ca şi continue atunci când ele iau un număr foarte mare de
valori şi categoriale cănd iau doar un număr limitat, relativ mic de valori. De exemplu, într-un studiu pe
câteva zeci de subiecţi de gen feminin, înălţimea – măsurată doar în centimetri – s-a distribuit de la 158 la
178 centimetri, rezultând doar 20 de clase, variabila putând fi tratată ca şi categorială, deşi în mod curent
înălţimea este o variabilă numerică continuă.
De aceea aici este locul să analizăm şi o altă dihotomie, variabilă discontinuă (discretă) – variabilă
continuă. În cazul unei variabile discrete doar un număr redus de valori separă oricare două puncte ale
scalei. Cînd variabila este continuă, între oricare două puncte ce despart două valori ale sale pot exista o
multitudine de alte valori de scor, dacă instrumentul de măsură este suficient de fin şi numărul de cazuri
suficient de mare. Înălţimea şi greutatea sunt variabile continue în sens deplin: oricât de apropiate ar fi
greutăţile a două persoane, pot exista o multitudine de alte valori intermediare, dacă cântarul este suficient
de precis. Dar venitul, ce fel de variabilă este? Deşi măsurat adesea pe o scală de proporţii, el poate fi
considerat şi o variabilă discretă, deoarece venitul nu se calculează în unităţi mai mici decât o unitate ultimă
(leul, centul). Legătura dintre tipul variabilei şi nivelurile măsurătorii sunt sintetizate în schema de mai jos.

Tipuri de variabile

Independente Dependente

Discrete Continue

Niveluri ale
măsurătorii

Nominal De interval
Ordinal De proporţii

Variabile
dummy

Figura 1.6 . Legătura dintre tipurile de variabile şi nivelurile măsurătorii (tipuri de scale).
Iată şi câteva consecinţe practice legate de informaţiile de mai sus:

26

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 prin tradiţie, în reprezentările grafice, variabilei independente îi este rezervată axa OX (abscisa) iar celei
dependente axa OY (ordonata);
 variabilelor continue li se aplică statisticile parametrice, celor discontinue (categoriale) statisticile
nonparametrice;
 variabilele continue pot (şi uneori chiar trebuie) transformate în variabile discontinue, ceea ce nu este
însă valabil şi invers; anumite proceduri statistice, cum ar fi calculul semnificaţiei diferenţei mediilor,
analiza de varianţă presupunând un număr mic de categorii de analizat;
 acest lucru este valabil şi pentru unele reprezentări grafice, care „condensează” mai bine caracteristici
ale variabilerlor când ele sunt categoriale;
 prin această transformare a variabilelor continue în unele discrete puterea cercetării statistice descreşte
considerabil;
 operaţia de transformare a variabilelor continue în variabile categoriale se face prin recodificarea
variabilelor; pentru a păstra şi variabila mai puternică statistic, care este cea continuă, şi a o avea şi pe
cea discontinuă (categorială) care rezultă din transformare este bine să alegem secvenţa Recode → Into
Different Variable, ce ne permite să operăm ulterior cu ambele forme ale aceleiaşi variabile.

27

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 2

PREZENTARE GENERALĂ A PROGRAMULUI S P S S

2.1. Familiarizarea cu SPSS


SPSS pentru Windows produce analize statistice puternice, dispunând de un managemnt al
datelor cu numeroase facilităţi grafice, utilizând ferestre de dialog simple şi o multitudine de
meniuri descriptive. Cele mai multe dintre ele sunt accesibile foarte simplu, printr-un singur clic de
pe maus.
Pentru a deschide o sesiune de lucru SPSS procedăm astfel:
 dublu clic pe iconul SPSS din All Programs, urmat de Enter, pentru un fişier nou;
 clic pe un fişier de date deja creat, pentru a lucra într-un fişier vechi;
 deschiderea oricărui output SPSS anterior creat în acest program, duce la deschiderea
simultană şi a unui fişier nou.

2.2. SPSS pentru Windows


În SPSS există şase tipuri de Windows:
 aplicaţii Windows: conţin bara de meniuri pe care le utilizaţi când deschideţi fişiere,
selectaţi proceduri statistice, alegând şi însuşirile lor;
 Windows tip output: după ce am selecţionat anumite aplicaţii, sub formă de output rezultă
tabele de date descriptive, de corelaţii sau grafice, scatter etc. care pot fi editate şi salvate
pentru utilizări ulterioare;
 editorul de date: afişează conţinutul unui fişier de date. Putem de asemenea crea sau
modifica un fişier deja existent. De câte ori deschidem programul SPSS se deschide automat
şi editorul de date;
 chart carusel prin care accesăm toate diagramele şi graficele produse în sesiunile SPSS
anterioare;
 Widows pentru diagrame: prin care se păstrează diagramele şi reprezentările grafice
produse, după ce le-am modificat după dorinţă ca şi culoare, fonturi, axe orizontale şi
verticale, rotate, bi- sau tridimensionale;
 sintaxă Widdows: comenzile din fereastra de dialog, într-o anumită succesiune, sau o
succesiune de operaţii şi comenzi neprevăzute ca atare, pot fi păstrate prin această fereastră
de dialog, pentru a fi finalizate într-o sesiune de lucru ulterioară.
2.3. Meniurile principale din SPSS
28

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Bara de meniuri SPSS conţine 9 tipuri de opţiuni pe care le deschidem cu clic, după dorinţă
sau necesităţi:
 File: îl utilizăm când creăm un nou fişier SPSS, deschidem unul deja existent ori citim un
fişier de date în format Spread sheet creat de un alt tip de program;
 Edit: copiază sau modifică un text din Widows, outputuri sau sintaxe;
 Data: utilizăm acest meniu când vrem să facem schimbări globale în fişierele SPSS, cum ar
fi combinarea de fişiere (Merge), crearea de subseturi de date distincte, ce vor fi analizate
separat (prin Split File sau Select Cases putem prelucra separat doar anumite categorii de
cazuri);
 Transform: plecând de la variabilele existente putem crea unele noi sau putem opera
diverse schimbări asupra celor deja existente. Schimbările nu vor afecta în mod permanent
fişierul de date, decât dacă ele vor fi salvate ca atare;
 Analyze: datele sunt introduse pentru a fi prelucrate. Din acest meniu vom selecta
procedurile statistice dorite (crostabulare, corelaţii, calcul de semnificaţie a diferenţelor
dintre medii, comparaţii statistice, analiza de varianţă, analiză factorială, regresie simplă sau
multiplă etc.);
 Graphs: este utilizat pentru a crea histograme, poligonul frecvenţelor, diagrame,
scatterplot-uri, reprezentări grafice de tip plăcintă, bare sau boxplot-uri. Unele dintre
procedurile statistice generează automat şi grafuri (reprezentări grafice tip diagrame);
 Utilities: este un meniu utilizat pentru a schimba fonturi, a accesa datele cu schimbare
dinamică, a dispune informaţiile relative la fişierele SPSS; de aici s-ar putea deschide şi un
index cu comenzile SPSS;
 Widows: se utilizează pentru a aranja, selecta şi controla diverse atribute ale celorlalte
tipuri de Windows SPSS;
 Help: deschide fereastra cu informaţii privitoare la utilizarea multor însuşiri ale
programului SPSS, el fiind accesibil şi din ferestrele de dialog.

2.4. Examinarea preliminară a datelor


Nu este greu de imaginat efortul de a culege un mare volum de date pentru a putea da
răspuns unor ipoteze, efortul de a le introduce şi a crea baza de date, respectând cât mai multe
dintre indicaţiile şi precauţiunile descrise în capitolul precedent, urmate de neliniştitoarea întrebare
a începătorului „Şi acum ce fac cu datele?”. Probabil că cea mai des întâlnită tentaţie este aceea de
a testa – în fine! – ipotezele, lucru care însă nu este cel mai indicat. Aceasta deoarece nu avem încă
certitudinea că nu am făcut erori în introducerea datelor. Mai mult, trebuie să ne convingem că ele
se pretează la tipul de analize pe care vrem să li-l aplicăm, deci că datele au o distribuţie unimodală
29

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

(nu au „cocoaşe”), că nu prezintă „paraziţi statistici”, că norul de puncte are o gosime aproximativ
egală (prezintă homoscedasticitate, în termeni mai riguroşi). Mai mult, anumite proceduri statistice
presupun prepararea datelor: ANOVA presupune recodificarea variabilei continue în câteva
categorii distincte, uneori este necesară extragerea itemilor relevanţi care vor alcătui o scală, prin
analiză factorială, alteori este necesară normalizarea unei curbe asimetrice sau care nu stă bine cu
excesul...
În consecinţă, ceea ce vom prezenta mai jos are o dublă utilitate:
 este un al doilea pas în controlul datelor, pentru a le proteja de un eventual „dezastru
statistic”;
 constituie un fel de schemă bazală de care nu poate face abstracţie nici un statistician care se
respectă, aceasta constituind de fapt şi planul intern al lucrării de faţă.

Capitolul 3
Screening-ul iniţial al datelor,
Valori lipsă? Outlieri?
Frecvenţe, Distribuţii,
Histograme, Boxplot-uri
Diagrame Stem & Leaf

DA DA
Distribuţie univariată normală

NU

Capitolul 5

Trebuie ordonate, grupate? Mergem spre abordare


Trebuie recodificate sau transformate? corelaţională şi regresie? Se confirmă ipotezele?

Capitolul 4 Capitolele 6 şi 7 Capitolele 6, 8

Selecţia celor mai potrivite


teste statistice

Trecem la efectuarea analizei


Inferenţa relansează screeningul

Figura 2.1. Diagrama procesului de screening al datelor


Prelucrare după Newton şi Rudestam, op. cit., p. 35.

30

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Regula de bază pe care o sugerăm pentru a răspunde la întrebarea anterioară („Şi acum ce
fac cu datele?”) este aceea că pornim iniţial de la o singură variabilă (analiză univariată) pentru a
ajunge la mai multe (analiza multivariată) şi de la caracteristici extrinsece, evidenţiabile şi printr-o
atentă inspecţie vizuală a datelor, spre cele intrinsece, evidenţiabile prin analize şi manipulări mai
complexe ale acestora.
„Atunci când vom înţelege cu grijă proprietăţile datelor noastre, multe dintre întrebările
relative la capacitatea lor de a satisface condiţiile unor analize statistice sofisticate îşi vor fi primit
deja răspunsul”7 afirmă Newton şi Rudestam, care ne oferă şi o schemă a fluxului analizei statistice,
adică o diagramă a procesului de screening al datelor din figura 2.1.

2.5. Statistică descriptivă şi frecvenţe


A doua opţiune de mare importanţă practică din meniul Analyze este cea care ne facilitează
determinarea elementelor fundamentale ale unei statistici univariate, adică frecvenţele, tendinţele
centrale, indicatorii de împrăştiere şi cei referitori la forma unei distribuţii.
Din Descriptives Statistics selectăm opţiunea Descriptives, iar aici, pe lângă setările
implicite (by default) solicităm să fie afişată media, abaterea standard şi pătratul acesteia, adică
varianţa (dispersia), valorile minimă şi maximă, a căror diferenţă dă amplitudinea împrăştierii,
adică Range, pe care îl cerem de asemenea, alături şi de indicatorul relativ la simetria distribuţiei -
numit în româneşte oblicitate iar în engleză Skewness – şi boltire sau exces – adică Kurtosis –
ultimii doi indicatori fiind afişaţi împreună cu eroarea lor standard.

Figura 2.2. Selectarea din Analyze→Descriptives a ferestrelor Descriptives şi apoi Options.

7
Newton şi Rudestam, op. cit., p.35.

31

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Datele rezultate sunt cele din tabelul de mai jos, în care Minimum, Maximum; Range au fost scrise
comprimat (Mini, Maxi, Rang) pentru a se încadra în formatul textului. Trebuie de altfel menţionat
că prin dublu clic pe orice tip de output SPSS acesta este selectat şi i se pot aplica anumite
„tratamente” pentru a corespunde mai bine preferinţelor sau intereselor utilizatorului.

Figura 2.3. Output Descriptives.

Datele pot fi comentate minimal astfel:


 la analiză au participat toţi cei 42 de subiecţi;
 amplitudinea împrăştierii este mai mare pentru datele reale decât pentru cele dorite, atât
pentru înălţime cât şi pentru greutate;
 nu par a exista valori aberante, deoarece limitele de jos şi de sus ale celor 4 variabile se
înscriu între valori posibile;
 între înălţimea reală (170,8) şi cea dorită (175,3) există o diferenţă însemnată, a cărei
semnificaţie statistică va putea fi cercetată ulterior;
 diferenţa dintre greutatea reală şi cea dorită pare a fi mai mică; abaterea standard (Std.)
pentru înălţimea reală este mai mare decât pentru cea dorită, unde aşteptările par a se grupa
mai omogen în jurul mediei;
 în schimb la greutate lucrurile stau exact invers, dispersia mai mare a rezultatelor indicând o
mai mare variabilitate pentru planul greutăţii dorite;
 greutatea reală are o asimetrie pozitivă;
 de asemenea curba produsă de acest indicator este una foarte înaltă (leptokurtică, cum vom
vedea că i se spune).

Pentru frecvenţe lucrurile se prezintă într-o manieră similară în sensul că se foloseşte o secvenţă
asemănătoare, Analyze→Descriptives→Frequencies.

32

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 2.4. Selectarea din Analyze→Descriptives a ferestrelor de dialog Frequencies şi apoi Statistics.

Ca în mai toate ferestrele de dialog SPSS în partea stângă a ferestrei de dialog Frequencies avem
un panou al variabilelor, afişate în ordinea introducerii lor în Variable Wiew, din care le selectăm
cu săgeata mică dintre câmpuri pe cele care ne interesează pentru a le introduce în câmpul de lucru
din dreapta. Chiar dacă în panoul din stânga al ferestrei de dialog se văd doar 9 variabile, celelalte
pot fi vizualizate cu ajutorul scrolului (bara verticală ce se mişcă cu mausul în sensul celor două
săgeţi).8 În partea de jos a aceleiaşi ferestre de dialog din stânga figurii 2.4. avem trei opţiuni:
Statistics, de care o să facem uz în exemplul nostru, Charts, buton ce permite realizarea de grafice
(diagrame) simultan cu celelalte prelucrări statistice şi Format, care permite modificarea formei
outputului.
Fereastra de dialog Statistics din dreapta aceleiaşi figuri 2.4 este organizată în patru câmpuri:
 Percentile Values (panoul din stânga-sus) care permite calculul oricăror puncte percentile
sau a punctelor de tăietură (Cut points for equal groups) pentru a face o gradare pe curbă
în numărul de grupe dorit. Trebuie spus că acestea sunt transformări de arie, luându-se din
curba lui Gauss tranşe succesive, egale ca suprafaţă, dar inegale ca unitate de lungime.
 Dispersion (stânga-jos) permite calculul indicilor de împrăştiere, adică abaterea standard şi
varianţa, a valorilor minime şi maxime şi deci a amplitudinii împrăştierii (Range), ca şi
eroarea standard a mediei.
 Central Tendency (dreapta-sus) are în vedere valorile tendinţei centrale, care sunt media,
mediana şi modul, la care se adaugă şi suma valorilor individuale (Sum), care împărţită la N
dă media.

8
Trebuie ştiut că unele variante de SPSS afişează variabilele în ordine alfabetică iar altele în ordinea introducerii lor,
ca SPSS 10.0. În primul caz trebuie să avem grijă ca variabilele din acelaşi test/ categorie să poarte în faţă o aceeaşi
literă pentru a fi regăsite în acelaşi grup de variabile, ceea ce este vital în cazul cercetărilor cu foarte multe variabile. De
exemplu, în cazul factorilor PF16 putem opta pentru a-i numi pf_a, pf_b, pf_c etc., în timp ce de la Labels îi etichetăm
Ciclotimie, Inteligenţă, Stabilitate emoţională etc. În cazul al doilea, cel mai frecvent, al afişării variabilelor în ordinea
introducerii, gruparea lor într-o secvenţă logică ne ajută foarte mult în a le repera şi prelucra rapid.

33

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 Distribution (dreapta jos) permite determinarea simetriei şi a oblicităţii (Skewness şi


Kurtosis).

Figura 2.5. Ferestrele de dialog Charts şi Format.

Aşa cum se observă din figura de mai sus, prin setarea None din fereastra de dialog Charts
nu se produc nici un fel de reprezentări grafice ale datelor, dar dacă dorim putem selecta ca acestea
să fie redate prin bare, reprezentări tip plăcintă sau prin histograme, activând butonul corespunzător
din stânga sus a ferestrei. Din partea de jos putem opta ca aceste reprezentări grafice să se facă
pentru valorile absolute sau relative (procentaje) ale datelor. Atragem însă atenţia că procentajele
au şi avantaje (produc o primă standardizare a datelor, ele fiind tratate ca şi când numărul de cazuri
ar fi de 100, făcându-le astfel direct comparabile), dar şi dezavantaje: când numărul cazurilor este
mai mic de 30 acest procedeu devine o importantă sursă de distorsiune perceptivă şi de eroare,
supradimensionând cu atât mai mult ponderea supraunitară a unui caz cu cât numărul total de cazuri
este mai mic.
După ce selectăm combinaţia dorită dăm Continue pentru a reveni în fereastra precedentă
(Frequencies), lansarea finală în lucru făcându-se ca de obicei prin butonul OK. Fereastra de
dialog Format din dreapta figurii 2.5. ne propune prin panoul său din stânga sortarea ascendentă
sau descendentă a datelor, cumularea lor ascendentă sau descendentă, organizarea outputului pe
variabile sau eliminarea unor categorii ce depăşesc un anumit număr de valori. Noi am introdus
spre analiză două variabile simultan, Înălţimea reală şi Înalţimea dorită, deşi pot fi introduse mult
mai multe, dacă acest tip de analiză este necesar. De fapt, aşa cum rezultă din ferestrele de dialog
prezentate anterior, frecvenţele sunt utilizate nu numai pentru a verifica dacă nu există date
aberante introduse din greşeală, ci şi pentru a obţine informaţiile corespunzătoare unei statistici
descriptive univariate, ca media, abaterea standard, varianţa, valorile minimă, maximă, dar şi
Range, Skewness şi Kurtosis (pe care le puteam obţine şi de la Descriptives). Tabelele de frecvenţe
sunt instrumente ideale pentru calcularea etaloanelor sau a tabelelor de norme, pentru că ele pot
furniza orice punct percentil cerut. În exemplul de mai sus noi am cerut din Statistics punctele

34

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

percentile ce definesc quartilul Q1, Q2 (Mediana) şi Q3. De asemenea outputul va furniza sub
formă de procente frecvenţele simple şi pe cele cumulate, fapt prin care crearea unui etalon este
foarte mult facilitată.

Figura 2.6. Outputul opţiunii Statistics din Analyze→Descriptives.

Valorile outputului Statistics sunt identice cu cele comune afişate la Descriptives, dar trebuie să
facem câteva remarci legate de organizarea sa. Figura 2.5. este tipică pentru organizarea oricărui
output, care constă dintr-un sector aflat în dreapta şi unul aflat în stânga, separate de o linie dublă.
Dublul clic pe această linie permite mutarea sa mai la stânga, până la eliminarea totală a sectorului
stâng, ceea ce va permite o mai bună vizualizare a datelor efectiv produse de outputul din dreapta.
Partea din stânga are însă şi ea o utilitate practică pentru că organizează într-o arborescenţă toate
outputurile produse, permiţând reperarea celui dorit, ce va fi indicat cu o săgeată roşie. Outputul
nostru are această săgeată la Statistics→Frequency table, unde vedem că sub titlu sunt indicate
variabilele prelucrate, înalţimile reală şi cea dorită. Datele descriptive despre aceste două variabile
sunt efectiv afişate în stânga, locul fiind indicat de asemenea de o săgeată roşie. Valorile din tabelul
2.3 se regăsesc într-o altă formă de prezentare (verticală) în acest output, care conţine şi o parte a
doua, în prelungirea celei menţionate, cu frecvenţe efective, pe care o prezentăm în figura de mai
jos. Aceasta constă din 5 coloane:
 prima coloană defineşte domeniul variabilei (spectrul pe care aceasta ia valori, cuprins între
o primă valoare - minimă şi o ultimă valoare - maximă);
 a doua coloană indică frecvenţele brute (număr de cazuri) pentru fiecare valoare a variabilei;
 a treia coloană face o transformare procentuală a acestor valori absolute, prin raportare la
numărul total de cazuri;

35

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 a patra coloană face aceeaşi transformare, dar prin raportare la numărul valid de cazuri (nu
şi al celor lipsă);
 ultima coloană cumulează pe verticală fiecare frecvenţă relativă din coloana precedentă cu
valoarea (valorile) de până la ea, astfel că la final se atinge 100%.

Figura 2.7. Outputul opţiunilor Frequencies din Analyze→Descriptives

În construirea etaloanelor, cea mai utilă este practic coloana a cincea, deoarece dacă variabila are un
spectru de variaţie suficient de larg, distribuţia este apropiată de una normală şi dacă numărul
cazurilor a fost unul mare, se pot repera relativ uşor punctele din distribuţie unde variabila atinge
3,6%, 8,1%, 15,8%, ..., 100% pentru a crea un etalon cu 11 clase normalizate cu media 5 şi abaterea
standard 2 (note C). Ulterior vom defini clasele, hotărând cum distribuim valorile care cad între
golurile distribuţiei - de exemplu între 170 şi 172 -, vom calcula frecvenţele pentru fiecare clasă în
parte şi finalmente vom verifica dacă baremul obţinut respectă condiţiile predefinite (media cât mai
aproape de 5 şi abaterea standard în jur de 2).
Coloana a cincea este necesară şi pentru recodificarea unei variabile continue în una
discontinuă cu un număr mic de clase. De exemplu, dacă am vrea ca înălţimea reală prezentată în
figura de mai sus să fie împărţită în trei părţi egale, valoarea de scor corespunzătoare primei treimi
(33%) este 166 iar a celei de a doua treimi (66%) este 173. Prin Recode Into Different Variables
din meniul Transform vom putea determina că prima grupă este 0 – 166, a doua 167 – 173 şi a
treia 174 – 250 (fiind deschise, limita inferioară şi superioară se pun suficient de larg pentru a
include toate cazurile, inclusiv valorile atipice).
Pe lângă aceste utilizări practice evidente, un tabel de frecvenţe mai are şi alte avantaje:
 permite aprecierea formei distribuţiei, mai ales pentru variabile care nu au mai mult de 50
de valori de scor, care pot încăpea toate pe aceeaşi foaie, putând fi inspectate vizual

36

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

simultan: tendinţa acestora de a se aglomera spre centru, spre extreme sau pe mai multe
zone distincte ale spectrului de variaţie va putea fi confirmată şi de histograma distribuţiei
respective;
 utilizatorul poate detecta erorile de introducere, de codare şi recodare a datelor, ceea ce îi va
permite să înceapă procesul de curăţire a bazei sale de date. Acest proces este evident mai
uşor pentru valorile atipice sau aberante, cum ar fi de exemplu valorile diferite de 0 şi 1
pentru gen, valori peste 10 la notele şcolare sau de ordinul a patru cifre pentru înălţimea
umană exprimate în centimetri. Ce vom face cu valorile aberante sau introduse greşit?
Identificăm valoarea eronată din Data Wiew, reperăm numărul său de ordine şi mergem la
sursă, făcând corectura de rigoare. Se întâmplă destul de des ca la introducere să apăsăm din
greşeală două taste în loc de una şi numărul introdus să fie mai mare cu un ordin de mărime
decât cel real. Prima măsură de precauţie este verificarea corectitudinii datelor, a doua fiind
epurarea de la Frequencies. De la Descriptives, pe lângă valori ce ies cu mult în afara
spectrului normal de variaţie, abaterile standard nejustificat de mari ne atrag de asemenea
atenţia asupra unor posibile erori de introducere a datelor. Nici o precauţie nu este inutilă
dacă dorim să avem certitudinea că rezultatele obţinute prin prelucrări sunt unele reale şi nu
artefacte sau consecinţele unor neatenţii de introducere a datelor primare. Mintea odihnită,
rutina şi verificările multiple sunt calea către certitudine, deşi nu putem fi niciodată pe
deplin siguri că nu am comis şi erori nedepistate.
 O practică utilă este aceea deja amintită, a cercetării distribuţiilor pentru fiecare variabilă în
parte, pentru a depista erorile cele mai evidente, dar chiar şi aşa unele erori sunt greu de
reperat: 29 în loc de 290 la un test cu limita de sus a scorului 100 este o eroare uşor de
reperat, dar 29 de ani în loc de 59 (cifrele 2 şi 5 fiind vecine pe tastatură) este o eroare mult
mai greu detectabilă.

37

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 3

REPREZENTĂRI GRAFICE ÎN S P S S

Statisticile ilustrative cu imagini grafice sunt reprezentări vizuale ale datelor. Raţiunea lor
este aceea că pare mult mai uşor de sesizat sensul unor date printr-o reprezentare vizuală decâ prin
cifre sau numere. Acestea din urmă sunt mai sintetice, dar tocmai de aceea pot masca unele
caracteristici importante ale datelor. O modalitate foarte eficientă de explorare iniţială a datelor este
apelul la facilităţile grafice ale programului SPSS din meniul Graphs, care pot apărea ca opţiuni şi
în alte ferestre ale meniului Analyze, ca de exemplu din Frequencies. Multe alte proceduri de
testare statistică dispun şi de opţiuni grafice.
Metodele destinate creării diferitelor tipuri de reprezentările grafice sunt foarte similare şi
de aceea în acest capitol vom încerca să le ilustrăm pe cele mai importante prin câte un exemplu,
indicând ce alte tipuri de diagrame pot fi create prin proceduri similare.

3.1. Dispunerea grafică a distribuţiei scorurilor din Frequencies


Diagramele pot fi extrem de utile pentru că ajută la judecarea distribuţiilor, la reperarea
tendinţei generale a acestora, dând şi a posibilitatea sesizării anomaliilor ori a iregularităţilor pe
care acestea le prezintă. Cea mai rapidă manieră de a produce o astfel de diagramă este aceea de a
activa din Frequencies una dintre cele 3 opţiuni propuse.

Figura 3.1. Histograma pentru Inalţimea reală din exempul precedent.

38

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Inspectând diagrama din figura de mai sus, observăm câteva elemente importante:
 ea dispune pe orizontală (abscisă) valorile variabilei grupate în intervale de 5, grupare
operată automat de programul SPSS,
 peste barele care reprezintă frecvenţele de pe ordonată este suprapusă o curbă, care este o
opţiune pe care o putem activa sau nu când solicităm o asemenea diagramă din
Frequecies→Charts, activând sau nu butonul With normal curve. Curba este informativă
de măsura în care distribuţia se apropie de una normală. În cazul analizat de noi vedem că
distribuţia este asimetrică spre stânga (negativă) şi că pe porţiunea 160 – 180 ea are multă
regularitate;
 din imaginea din stânga figurii 3.1. vedem că din Chart Type putem să optăm şi pentru
reprezentarea cu bare sau pentru cea de tip plăcintă, setarea standard la Frequencies fiind
fără nici o reprezentare grafică (None);
 în partea dreaptă a diagramei sunt afişate automat media, abaterea standard şi numărul de
cazuri redate. Dcă vrem ca aceste statistici să fie înlăturate, dăm clic pe ele şi le ştergem;
 de asemenea, dacă vrem să schimbăm denumirea axelor, dăm clic pe ele şi le edităm, ceea
ce putem face şi pentru marcarea numerică a coloanelor, procedeul fiind prezentat detaliat la
editarea diagramelor cu bare.

3.2. Diagrame cu bare


Secţiunea care urmează descrie cum se pot genera diagramele tip bară simple, împerecheate
sau suprapuse şi cum se pot edita aceste tipuri de diagrame.

Figura 3.2. Selectarea din Graph a meniului Bar şi fereastra de dialog care apare.

39

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Există mai multe posibilităţi de combinaţie dintre tipurile de reprezentări cu bare propuse (stânga
sus de la Bar Charts) şi tipul de date ce vor fi expuse în diagrame (panoul de jos al aceleiaşi
imagini):
 opţiunea Simple redă printr-o bară fiecare categorie, caz sau variabilă de pe axa
categoriilor;
 opţiune Clustered redă prin bare împerecheate fiecare categorie de pe axa categoriilor;
 opţiunea Stacked face acelaşi lucru ca şi cea precedentă, doar că barele nu sunt una lângă
alta, ci una peste alta, fiecare sector fiind colorat distinct;
 butoanele de jos ne ajută să specificăm dacă barele reprezintă grupuri de cazuri, variabile
separate sau cazuri individuale.

22

20

18

16

14

12
Count

10
Masculin Feminin

Sex

Figura 3.3. Fereastra de dialog care apare după ce am selectat Simple şi tipul de diagramă realizată.

Aşa cum se observă, din panoul datelor am introdus la Category Axis variabila Apartenenţă de
gen (Sex), am activat butonul pentru valori absolute din stânga-sus (N of cases) şi am dat OK.
Diagrama simplă rezultată este una foarte indicată pentru prezentarea structurii eşantionului sau
a unor variabile categoriale cu un număr nu prea mare de categorii, pentru că ea nu poate
sintetiza multe tipuri de informaţii simultan, utilitatea ei fiind de aceea mai limitată ca cele ce
vor fi prezentate mai jos.

40

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

120

100

80

60

40 Inaltimea reala clas

Mica
20
Mijlocie

0 Mare
Masculin Feminin

Sex

Figura 3.4. Selecţia opţiunii Clustered: Summaries for groups of cases (% of cases)
şi outputul corespunzător.

Trecerea de la primul icon (din stânga figurii 3.4.) la al doilea (din mijloc) se face activând butonul
Define (definire), iar după ce se termină toate setările în această fereastră de dialog, comanda „se
lansează în lucru” prin OK. Aceasta duce la afăşarea unui output ca cel afişat mai sus.
Am putea spune că figura 3.2. reprezintă modul ideal de a reda două variabile, ambele de tip
categorial. În fereastra de dialog de aici sub Category Axis avem o a doua ferestruică – Define
Clusters by – unde introducem cea de a doua variabilă, tot de tip categorial, ce va fi redată cu toate
cele 3 categorii ale sale, atât pentru genul masculin, cât şi pentru cel feminin. Rezultatul apare în
diagrama prezentată alături. Cum Înălţimea reală a fost codificată în trei categorii (mică, mijlocie şi
mare), fără a ţine cont de diferenţa de gen existentă, vedem că la băieţi predomină valorile mari ale
înălţimii iar la fete cele mici şi apoi medii, valorile mari lipsind complet.

190

180

170

Inaltimea reala
Mean

160 Inaltimea dorita


Masculin Feminin

Sex

Figura 3.5. Selecţia opţiunii Clustered/ Summaries of Separate Variables şi outputul corespunzător.

În fereastra de dialog Summaries of Separate Variables din figura de mai sus structura este foarte
asemănătoare ca şi al celorlalte iconuri de acelaşi tip, existând panoul variabilelor în stânga şi
Category Axis la mijloc. Diferenţa o dă faptul că variabilele selectate cu săgeata pentru a fi redate

41

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

grafic vor intra într-o cutie mai mare (Box Represent) alături de cel puţin încă o variabilă (dar şi de
mai multe) condiţie fără de care nu se activează butonul de OK.
Dacă vrem să facem în acest mod o reprezentare grafică a unei singure variabile, o putem
introduce de două ori şi, când edităm diagrama, eliminăm una dintre barele identice. În cazul de
mai sus, vedem că diagrama vizualizează două informaţii foarte clare: 1. atât la înălţime cât şi la
greutate valorile medii ale băieţilor sunt mai mari ale decât ale fetelor; 2. atât pentru bâieţi cât şi
pentru fete înalţimea dorită este valorizată pozitiv, deoarece ea este peste cea reală.
400

181
170
300

200

176
165

100

Inaltimea dorita
Mean

0 Inaltimea reala
Masculin Feminin

Sex

Figura 3.6. Outputul corespunzător opţiunii Stacked/ Summaries of Separate Variables.

Dacă vom analiză cu atenţie cele trei tipuri de output din figurile 3.3., 3.4. şi 3.5. vom observa că la
prima ordonata este marcată cu Count (valori absolute), a doua cu Percent (procente, adică valori
relative) iar a treia cu Mean, adică cu mediile categoriilor reprezentate. Dintre aceste moduri de
reprezentare cea mai cea mai mare grijă trebuie avută cu a doua, pentru că procentele se referă nu la
categoria băieţi, ţn raport cu care se determină cât sunt mici, mijlocii şi mari, ci la altceva: din
numărul brut total de cazuri mici se determină câte revin la băieţi şi câţi la fete. De exemplu în
figura 3.4. toate cazurile mari (100%) se distribuie doar la băieţi. Aşadar, utilizate neglijent,
diagramele cu procente pot fi surse de confuzie şi distorsiune perceptivă.

3.3. Diagrame tip plăcintă


Pentru obţinerea acestor reprezentări grafice secvenţa de lucru este cea de de mai jos.
Similitudinea dintre aceste două ferestre de dialog cu Bar Charts prezentată anterior este
foarte mare. Astfel, datele redate pot fi grupuri de cazuri, variabile separate sau cazuri individuale.
Fereastra din dreapta, care se deschide din cea precedentă prin Define, cere introducerea variabilei
categoriale ce va fi redată în căsuţa Define Slices by, de la Slices Represent putând opta pentru
reprezentarea valorilor absolute sau relative (procentuale) ale acestora.

42

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 3.7. Accesarea ferestrei de dialog Pie Charts şi Define Pie: Summaries for Groups of Cases.

Limbic drept
Cortical stang

Limbic stang
Cortical drept

Figura 3.8. Outputul corespunzător opţiunii Pie Charts


şi Define Pie: Summaries for Groups of Cases.

Ambele figuri de mai sus reprezintă acelaşi tip de output, pentru acelaşi tip de date. În stânga
outputul indică 5 sectoare, pentru că de la Options nu a fost deselectată Display goups defined by
missing values, ceea ce s-a petrecut în cea de a doua diagramă, unde se observă că, deşi aparent
egale ca suprafaţă, din cele 4 cadrane redate pentru un test de preferinţe acţionale cel Cortical stâng
şi Limbic stâng deţin ponderi mai mari. Pentru a avea o imagine mai exactă a procentajelor din
fiecare cadran trebuie să activăm editorul de diagrame (Chart Editor) dând dublu clic pe diagramă.

Figura 3.9. Activarea ferestrei de dialog pentru SPSS Chart Editor.

43

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Prin activarea Editorului de diagrame, fereastra de dialog va apărea supraimprimată pe diagrama


deja editată, care devine umbrită (vezi figura de mai sus). Pentru a selecta în Chart Editor
elementul din diagramă pe care vrem să lucrăm dăm dublu clic pe el. În exemplul nostru am dori să
fie afişate procentajele aferente fiecărui sector al diagramei, pentru a avea o imagine mai exactă
asupra celor patru arii.

Limbic drept

25.7% Cortical stang

30.0%

Limbic stang
Cortical drept
24.3%
20.0%

Figura 3.10. Activarea ferestrei Pie Options şi rezultatul comenzii.

Din această fereastră de dialog, obţinută prin dublu clic pe Label, activăm al treilea buton de jos
(Percents) şi se va obţine imaginea din dreapta, care este mult mai explicită, pentru că fiecare
sector are procentajul aferent infâdicat sub numele său. Acum putem de exemplu observa că
sectorul Cortical sâng deţine ponderea cea mai mare (30%), urmat de limbic drept şi de limbic
stâng (în jur de 25%) şi de cortical drept (doar 20%).

3.4. Editarea diagramelor prin Chart Editor


Toate reprezentările grafice produse de SPSS 10.0 pot fi obţinute relativ uşor, pentru că
fiecare modalitate are presetate o mulţime de elemente ceea ce facilitează mult obţinerea lor. Dacă
dorim altceva decât opţinea standard sau dacă vrem ca diagramele noastre să fie mai “lucrate” în
vederea publicăriri sau susţinerii unor comunicării ştiinţifice, avem posibilitatea de a face acest
lucru prin editorul de diagrame, numit în engleză Chart Editor.

Figura 3.11. Decupaj din fereastra de dialog pentru Chart Editor.

44

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

De exemplu, dacă vrem să schimbăm culoarea barelor, liniilor sau câmpurilor unei diagrame, pe
bara de opţiuni din partea de jos a figurii 3.10. vom reţine a treia căsuţă, reprezentând un tub de
vopsea, prin care se şi sugerează că de acolo putem schimba culoarea elementelor vizate din
diagramă. Se dă dublu clic pe elementul se urmează a fi schimbat, şi după selectarea sa va apărea
următoarea fereastră de dialog.

60
59
57

52 53
50

47 48

40 43
41

30

z PA Tip
20
Cortical stang

Cortical drept
10
Limbic stang

0 Limbic drept
< 40 de ani > 40 de ani

….. Varsta 2 clase

Figura 3.12. Fereastra de dialog Colours deschisă din Chart Editor şi imaginea rezultată.

În diagrama din centru se observă că am marcat bara Limbic stâng (a treia, care are în
colţuri nişte puncte negre) pentru că era albastră şi nu se putea descifra clar scrisul pe ea, ceea ce la
o proiecţie în Power Point poate fi neplăcut. Culoarea albastră s-a mutat în dreptunghiul gol din
dreapta sus al ferestrei de dialog Colours, de unde am selectat o culoare mai luminoasă, galben, şi
dând Apply s-a operat înlocuirea albastru-galben pentru bara respectivă, aşa cum se poate vedea
din diagrama rezultată (dreapta figurii 3.12.). Fereastra de dialog respectivă ne mai prezintă şi alte
opţiuni, cum ar fi aceea de a umple fundalul figurii cu o culoare prin Fill sau aceea de a modifica
culoarea neagră a chenarului de la Borders cu o altă culoare. Fundalul şi chenarele sunt setate alb,
respectiv negru, pentru că această redare dă cel mai bun contrast perceptiv şi ca atare le vom
modifica doar dacă avem intenţii speciale. Oricare ar fi setul nostru de opţiuni, ele pot fi salvate
prin Save as default, după care diagramele care vor fi produse ulterior vor fi setate în acelaşi fel,
păstrând deci un format şi un caracter unitar pentru toate.
Din SPSS Chart Editor prezentat în figura 3.11. ne reţine atenţia cea de a şaptea căsuţă,
care ne permite să marcăm cantitativ orice diagramă produsă.

45

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

60
60
59
57 59
57
52 53
50 52 53
50
47 48
47 48
43
40 41 43
40 41

30 30

z PA T ip z PA T ip
20 20
Cortic al s tang Cortic al s tang

Cortic al drept Cortic al drept


10 10
Limbic s tang Limbic s tang

0 Limbic drept 0 Limbic drept


< 40 de ani > 40 de ani < 40 de ani > 40 de ani

Varsta 2 clase Varsta 2 clase

Figura 3.13. Fereastra de dialog Bar Label Styles şi cele două tipuri de marcare produse.

Opţiunile ferestrei Bar Label Styles sunt două, Standard, care supraimprimă pe fiecare bară
numărul de cazuri sau procentajul respectiv (cel mai adesea rotunjite la unitate) şi Framed, care
face acelaşi lucru, incluzând însă valorile cifrice într-un dreptunghi alb, prin care cifrele devin mai
clar vizibile, dar în detrimentul înălţimii barei respective, care apare ca “decapitată”. De aceea acest
al doilea mod de marcare este preferabil mai ales pentru diagramele cu un număr mic de bare,
pentru ca aceste căciuli albe să aibă loc, în rest opţiunea standard fiind cea indicată. Cel de al treilea
buton din fereastra de dialog de mai sus se cheamă None şi este opţiunea prin setare a lui Bar
Label Styles. Ea este însa utilă şi pentru a deselecta comenzile anterioare pentru Standard sau
Framed şi a reveni la bare nemarcate cu cifre.
Pentru că suntem la capitolul de editare a diagramelor trebuie amintit că, prin dublu clic,
putem modifica modul de numire al abscisei şi al ordonatei, legenda din dreapta fiecărei diagrame,
dar şi mărimea axelor,originile lor sau unitatea lor de măsură. Într-un studiu ştiinţific sau într-o
prezentare Power Point diagramele trebuie atent lucrate, şi de aceea la legendă putem trece nu
numai ce reprezintă fiecare bară sau sector, ci şi indicatori ai pragurilor de semnificaţie (t, F şi p-
urile aferente), pentru a indica în mod clar că au fost reţinute şi redate imagistic doar elementele
semnificative statistic. Aşa cum se observă, în diagramele din figura 3.14. doar una dintre variabile
a atins pragul semnificaţiei statistice care ne-ar fi îndreptăţit la o redare grafică, cea verde (p=.05),
deşi cea roşie pare a fi şi ea concludentă.
110
105
105

105

100 101
100 101

97
97
95 95
95 95
95

90
90
90
90
Mean

P F(2,64)=1.21 p=.23
Mean

P F(2,64)=1.21 p=.23

80 E F(2,64)=3 p=.05 85 E F(2,64)=3 p=.05


Limbic Mixt Cortical Limbic Mixt Cortical

z Limbic_Cortical z Limbic_Cortical

Figura 3.14. Fereastra de dialog Scale Axis şi modificarea produsă de la o diagramă la alta.

46

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Fereastra de dialog Scale Axis a fost obţinută cu dublu clic pe ordonata diagramei din mijloc, a
cărei origine (Range = Minimum) era de 80 şi valoare terminală (Range = Maximum) era de 110,
creşterea ei fiind (Increment) din 10 în 10 unităţi. Setarea nostră a fost de 85, 105 şi respectiv 5
pentru cele 3 categorii, după care am dat OK, apărând astfel diagrama modificată din dreapta. Se
observă că la aceasta unghiul pantei este mult mai accentuat, redând mai bine ideea de creştere
dinamică de la o categorie la alta. Aceasta trebuie să ne prevină asupra faptului că Smith avea
dreaptate când afirma că “Există minciuni, minciuni gogonate şi minciuni statistice…” şi că doar
imaginea (căreia i se pot modifica axele după plac) nu este suficientă pentru a convinge pe cineva
avizat. De aceea trebuie să indicăm şi pragurile statistice care validează imaginea prezentată astfel.

3.5. Diagramele de tip boxplot (Box and Whiskers Plot)


O cale uzuală de a reda imagistic caracteristicile unei distribuţii sunt boxploturile. Un
boxplot pentru o singură variabilă poate reda caracteristicile unei distribuţii în aceeaşi manieră în
care o face şi o histogramă. Marea sa utilitate constă în faptul de a indica valorile atipice ale unei
distribuţii, adică outlierii şi valorile extreme. Cea mai mare utilitate a sa constă însă în faptul că
oferă posibilitatea unei comparaţii directe a două distribuţii pentru acelaşi tip de variabilă, sau a
distribuţiilor a două variabile în raport cu o a treia variabilă categorială. Vom exemplifica pentru
fiecare situaţie în parte.

Figura 3.15. Secvenţa obţinerii unui boxplot.

Aşa cum se observă de mai sus pentru a produce boxploturi secvenţa este Data
Editor→Graph→Boxplot→Define, unde la Variable vom introduce o variabilă continuă (în
cazul nostru scorul total la scala SE de sens existenţial alui Längle) iar la Category Axis o variabilă

47

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

categorială (în cazul nostru apartenenţa la mediul rural sau urban). Întenţia noastră este aceea de a
avea o imagine directă asupra capacităţii de construcţie a sensului existenţial pentru intelectualii din
lumea satului şi pentru cei din lumea oraşului, ştiind fiind că mediul rural este mai pauper cultural
şi că decizia de a se fixa acolo apare mai greu pentru cei care au terminat o facultate, exceptând
situaţia în care ei s-au născut acolo.
300

250

200

150

121
100
N= 90 23

Urban Rural

Mediu

Figura 3.16. Boxploturi cu distribuţiile unei variabile pentru două categorii.

Imaginea de mai sus infirmă foarte clar presupunerea făcută, cele două imagini fiind extrem de
asemănătoare. Pentru a înţelege mai bine structura unui boxplot, oferim schema din figura 3.17.
Pe lângă elementele explicative menţionate mai sus este util să ştim că dacă variabila este
normal distribuită, boxplotul trebuie să fie simetric. Aceasta însemnă că “mustăţile” sunt la aceeaşi
distanţă de marginea de jos, respectiv de cea de sus a cutiei, iar înăuntrul acesteia mediana se află
chiar pe mijlocul cutiei. Desigur că această presupune distribuţii mari din punct de vedere numeric.
Lungimea cutiei ne vorbeşte despre variabilitatea sau împrăştierea distribuţiei, cu atât mai mare cu
cât distanţa dintre marginile cutiei, corespunzând lui Q3 – Q1 este mai mare. Dacă mediana nu este
poziţionată central distribuţia poate fi asimetrică negativ (mai aproape de Q3) sau pozitiv (mai
aproape de Q1) pe porţiunea ei centrală.
Utilitatea boxploturilor este mare atât pentru distribuţiile univariate (metodă rapidă de
apreciere a normalităţii distribuţiei şi de detectare a valorilor atipice), cât mai ales pentru cele
multivariate. Astfel, dacă ar fi să comparăm salariile de început şi cele cele ulterioare ale diverselor
categorii profesionale sau ale unei singure instituţii (bancă, universitate etc.) am putea observa nu
numai diferenţe de la o categorie la alta pentru valoarea centrală, care este mediana, ci şi
amplitudini diferite ale distribuţiilor, simetrii / asimetrii ale acestora pentru diferite categorii de
angajaţi. Factorul timp poate de asemenea imprima un trend caracteristic datelor.

48

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Valori extreme x Puncte aflate la peste 3 lungimi de cutie de percentilul 75 (Q3)


x

Outlieri o Puncte aflate între 1- 3 lungimi de cutie de percentilul 75 (Q3)


o

Whisker (mustaţă): Punct aflat la 1,5 lungimi de cutie de percentilul 75 (Q3)


(cea mai mare valoare
care nu este un outlier)
Punctul percentil 75 Q3

Mediana Me Q2 (punctul percentil 50)

Punctul percentil 25 Q1

Whisker (mustaţă) Punct aflat la 1,5 lungimi de cutie de punctul percentil 25 (Q1)
(cea mai mică valoare
care nu este un outlier)
Outlieri o Puncte aflate între 1,5 - 3 lungimi de cutie de de percentilul 25
o

Valori extreme x Puncte aflate la peste 3 lungimi de cutie de percentilul 25


x

Figura 3.17. Elementele definitorii pentru interpretarea unui boxplot.

Tabelul din figura de mai jos ne ajută să înţelegem unele neregularităţi ale boxploturilor rezultate
din exemplul de mai sus, datorate faptului că numărul cazurilor comparate este foarte neechilibrat,
genul masculin fiind mult mai slab reprezentat decât cel feminin, iar mediul rural decât cel urban.
Şi aşa este însă evident că lăţimea cutiilor este mai mare pentru bărbaţi decât pentru femei, ceea ce
înseamnă că variabilitatea scorurilor lor este mai mare, că aceste distribuţii nu prea sunt simetrice,
femeile prezentând şi valori atipice (outlieri). În plus, la femeile din mediul rural mediana cade
foarte asimetric în interiorul cutiei, semn al unei distribuţii atipice (negativă).

49

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

200

180

15
160
5
121
140

120

100

80 Mediu

60 Urban

40 Rural
N= 16 6 76 17

Masculin Feminin

Sex

Figura 3.18. Tabelul de sumarizare a cazului şi boxploturile cu distribuţiile variabilei


pentru două categorii (masculin şi feminin), din mediile urban şi rural.

De precizat faptul că acolo unde avem valori extreme sau outlieri ei trebuie cu atenţie
verificaţi pentru a nu fi rezultatul erorilor de scorare sau de tastare şi introducere a datelor, cu atât
mai mult cu cât ei sunt clar indicaţi pe diagramă. În cazul nostru sunt de verificat cazurile 6, 15 şi
121 pentru a vedea dacă sunt sau nu outlieri reali sau prin eroare de scorare sau de introducere a
datelor. Aceasta înseamnă să verificăm cazurile respective începând de la punerea grilei, la
determinarea scorului brut şi până la introducerea datelor.

3.6. Alte reprezentări grafice în SPSS


3.6.1. Grafice tip linie
3.8
3.8

3.6
3.6

3.4
3.4

3.2

3.2
3.0

3.0
2.8
Varsta 3 clase
2.8
2.6
Satisf. sufleteascã < 35 de ani
Mean

2.6
2.4 Satisf. materialã 35-50 ani
< 35 de ani 35-50 ani > 50 de ani
2.4 > 50 de ani
Varsta 3 categorii Mean Satisf. suflete Mean Satisf. materia

Figura 3.19. Fereastra de dialog pentru reprezentare grafică de tip linie, direct şi cu transpoziţia axelor.

Secvenţa parcursă pentru a produce diagrame cu linii este următoarea: Data


Editor→Graph→Line→Define, după care alegem una dintre combinaţiile de opţiuni prezente în
Line Chart din fereastra de dialog prezentată mai sus. Prin definiţie linia este un element de
legătură, care evidenţiază creşteri, stagnări sau descreşteri ale variabilei şi de aceea utilizarea ei este

50

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

cel mai indicată în studiile longitudinale, acolo unde timpul este cel care se asociază cu asemenea
variaţii ale variabilei, pentru aceleaşi categorii de subiecţi.
În cazul ilustrat prin diagramele de mai sus studiul este însă unul de tip transversal,
încercând să evidenţiem rolul satisfacţiei în munca de bibliotecar şcolar în funcţie de factorul
vârstă, prin determinarea sa la 3 categorii distincte, tinere, medii şi mature. Se remarcă faptul că în
timp ce satisfacţia materială a muncii rămâne relativ constantă pentru cele 3 categorii investigate,
satisfacţia sufletească a muncii este în uşor regres odată cu înaintarea în vârstă. Pentru a vedea însă
dacă acest declin este semnificativ, va trebui să facem un calcul de analiză a varianţei ANOVA,
care ne va lămuri dacă el atinge sau nu un pragul semnificaţiei statistice.
Pentru a obţine o diagramă cu inversarea axelor, care uneori poate fi mult mai concludentă,
secvenţa este dublu clic pe figură, Chart Editor→Series→Transpose Data. Utilizarea sa este
indicată mai ales în cazul măsurătorilor repetate ale aceluiaşi grup. În cazul analizat de noi distanţa
de la satisfacţia sufletească (mare) la cea materială (mică) în munca de bibliotecar şcolar este din
capul locului prezentă la toate categoriile de vârstă şi nu poate fi cazul unei legături de tip cauzal
între ele, deci este de preferat utilizarea primei diagrame produse mai sus şi nu a celei transpuse.

3.6.2. Diagrame scatter


Scatterul va ilustra şi metodele corelaţionale, pentru că, prin definiţie, acesta este o
reprezentare grafică a relaţiei dintre două variabile continue, fiind o excelentă cale de a deduce
informaţii despre forma, direcţia, grosimea şi regularitatea norului de puncte.
26 60

24

22 50

20

18 40

16

14 30
Sex m=0 f=1 Sex m=0 f=1
12 1 1

10 0 20 0
30 40 50 60 70 80 30 40 50 60 70 80

Punctaj total Metoda Punctaj total Metoda

Figura 3.20. Reprezentări grafice de tip scatter care redau ca nor de puncte relaţia dintre scorurile
la Motricitate şi la Cogniţie cu scotul total la o baterie de teste, diferenţiat pentru băieţi şi fete.

Scatterul este o reprezentare cu o axă orizontală – de regulă variabila independentă – şi una


verticală – de regulă variabila dependentă – fiecare caz fiind reprezentat printr-un cerculeţ, pătrăţel
sau punct ale cărui coordonate sunt definite de valorile axelor X şi Y. Ca orice altă reprezentare
grafică şi sctterploturile pot fi panelate (dispuse pe mai multe panouri) prin Panel by, ca în SPSS

51

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

14. Deşi scatterploturile au foarte multe utilităţi, ele sunt extrem de utile, dacă nu obligatorii, când
urmează a se determina un coeficient de corelaţie sau o regresie.
Relaţia dintre două variabile este cel mai bine exprimată cifric prin coeficientul de corelaţie,
care poate lua valori între -1 şi +1 (care sunt corelaţiile perfecte), trecând prin zero (care exprimă
absenţa oricărei relaţii dintre variabile). Cu cât relaţia dintre varialile se apropie mai mult de zero cu
atât mai slabă este această relaţie, în preajma lui zero ea devenind practic nulă. O diagramă de
corelaţie dă o expresie vizuală acestei relaţii, fiind posibil ca, după un oarecare antrenament, să
apreciem intensitatea relaţiei doar dintr-o simplă inspecţie vizuală a acestei diagrame. O abordare
inversă nu este însă valabilă, pentru că aceeaşi valoare cifrică poate fi expresia unor distribuţii a
norilor de puncte destul de diferite. Concluzia este aceea că înţelegem mult mai bine forma şi
natura relaţiei dintre două variabile dacă cifra este dublată şi de o imagine, adică de un scatter.
Un scatter ne informează despre forma relaţiei, direcţia acesteia şi intensitatea ei, astfel:
 forma relaţiei poate fi una care tinde spre liniaritate, nonliniaritate (curbiliniaritate) sau
absenţa vreunei grupări de tip liniar a norului de puncte, care poate ocupa haotic toată
suprafaţa diagramei, ca în cazul corelaţiilor ce tind spre zero. Paradigma predilectă a
statisticii este relaţia liniară (norul de puncte tinde să se grupeze după o linie dreaptă),
deoarece doar aceasta poate face posibilă predicţia prin ecuaţia de regresie, predicţia fiind
condiţia esenţială a demersului ştiinţific;
 direcţia relaţiei: când norul de puncte se organizează după o diagonală stânga-jos –
dreapta-sus relaţia este una pozitivă, deoarece creşterea lui X se asociază cu creşterea lui Y.
Această creştere este cu atât mai mare cu cât unghiul pantei dreptei respective se apropie
mai mult de 45 de grade. Când norul de puncte se organizeazăm invers – stânga-sus –
dreapta-jos – înseamnă că relaţia dintre variabile este una negativă, deci creşterea uneia se
asociază cu descreşterea celeilalte. Când norul se organizează după o linie orizontală sau
verticală, corelaţia tinde spre zero, pentru că creşterea unei variabile se asociază cu
râmânerea constantă a celeilalte, şi deci relaţia dintre ele este nulă. Acest lucru este valabil
şi atunci când norului de puncte nu i se poate asocia nici o linie din cauza distribuţiei sale
haotice pe toată suprafaţa diagramei de corelaţie;
 intensitatea relaţiei: este maximă (-1 sau +1) atunci când punctele se organizează perfect
după o linie, căreia i se poate determina ecuaţia de regresie, prin care cunoscâd pe oricare x
îl putem deduce cu precizie pe oricare y, şi reciproc. Relaţia dintre variabile este cu atât mai
strânsă cu cât punctele norului tind să se organizeze mai aproape de o linie. Cu cât distanţa
lor faţă de această linie ajustată este mai mare, cu atât relaţia este mai slabă şi predicţia lui y
din x (sau invers, a lui x din y) este mai puţin sigură, marja de probabilitate fiind mai mare.

52

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Uneori (vezi Sava, 2004, pp. 18-24) norul de puncte dă informaţii extrem de preţioase despre alte
caracteristici ale relaţiei dintre variabile:
 valorilor extreme prezente la capetele seriei de variaţie, măresc variabilitatea datelor şi
ducn consecinţă la creşterea artificială a coeficientului de corelaţie;
 erorile de introducere a datelor: introducerea inversată a datelor pentru înălţime şi
greutate (175 cm introdusă ca dată de greutate şi 70 kg ca dată de înălţime) face ca punctul
respectiv să apară în zonele inverse după care se organizează linia de regresie, contribuind
la descreşterea dramatică a coeficientului de corelaţie. Paraziţii statistici, valorile atipice sau
valorile absurde pot fi reperate pe o diagramă de corelaţie şi verificate apoi atent, pentru că
toate modifică într-un sens sau altul expresia sintetică a relaţiei dintre variabile, care este r;
 grosimea norului de puncte pe toată diagonala pe care ele se organizează este cunoscută
ca homoscedasticitate, fiind o condiţie prealabilă importantă pentru desfăşurarea unei
analize de varianţă. Situaţia inversă, a grosimii inegale a norului de puncte se cheamă
heterodasticitate şi poate indica o strânsă asociere dintre variabile doar până la un punct,
după care relaţia devine una întâmplătoare, haotică. Este cazul relaţiei dintre inteligenţă şi
creativitate (strânsă până spre QI 115 şi din ce în ce mai largă după aceea) sau dintre
intensitatea motivaţiei şi calitatea performanţelor la sarcinile complexe;
 curbiliniaritatea, ca în cazul relaţiei dintre stresori şi reacţia de răspuns la stres, relaţie care
este în formă de U inversat. Aceasta înseamnă că doar pe zona centrală avem concordanţă
(eustres), spre zonele extreme având distres, fie prin subsolicitare, fie prin suprasolicitare;
 subseturi de date distincte, a căror relaţie este mediată sau mascată de o a treia variabilă.
Astfel, relaţia dintre înălţimea şi greutatea reale pentru bărbaţi şi femei luaţi ca grupuri
separate este mai slabă decât dacă ar fi luaţi la comun. Aceasta deoarece aceste valori
antropometrice ale femeilor vin dinspre extrema mică (de jos) spre medie, ale bărbaţilor
dinspre medie spre extrema mare (de sus), reunirea celor două grupuri mărind foarte mult
variabilitatea datelor şi deci corelaţia (vezi figura de mai jos).
SEX: .00 Masculin SEX: 1.00 Feminin
120 70 120

110 110

100
100
60
90
90

80
80
70
50
70
60
Sex
60
50 Feminin
50 40 40 Masculin
160 170 180 190 200 158 160 162 164 166 168 170 172 174 150 160 170 180 190 200

Inaltimea reala Masculin Inaltimea reala Feminin Inaltimea reala Masculin+Feminin =Total

Figura 3.21. Trei scatterploturi pentru înălţime-greutate reală,


la băieţi (r = .53), fete (r = .48) şi total (r = .72).

53

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Paşii obţinerii ultimei diagrame scatterplot de tipul celei din dreapta (care este mai sintetică)
sunt următorii: Graph→Scatter (Overlay)→Define, secvenţă care deschide finalmente a treia
cutie de dialog prezentată în figura 3.21. De acolo introducem în căsuţa axei X (abscisa) înălţimea
reală (parametru antropometric mai stabil decât greutatea), în căsuţa Y greutatea reală, iar în cea de
a treia căsuţă de sus în jos (Set Markers by) variabila apartenenţă de gen, ceea ce va face ca norii
de puncte, reuniţi pentru ambele genuri, să fie marcaţi cu culori diferite pentru a putea fi mai uşor
identificaţi pe diagramă.
Din figura 3.20. se pot evidenţia câteva lucruri importante:
 corelaţia medie (în jur de .50) pentru ambele genuri urcă spectaculos la r = . 72 pe total;
 aceasta deoarece fetele ocupă spectrul de variaţie mediu-jos şi băieţii pe cel mediu-înalt, aşa
cum anticipam, reunirea lor lungind linia ce defineşte variabilitatea, mărindu-se astfel
coeficientul de corelaţie;
 există cel puţin o valoare atipică care contribuie la descreşterea corelaţiei (I=177, G=110 în
partea superioară a diagramei comune pentru băieţi şi fete), prin eliminarea acestui caz ea
crescând la .84, mai mare decât cea semnalată acum mai bine de un secol de către Galton a
exista între înalţime şi greutate, pentru care el găsea r = .75.

Figura 3.22. Fereastrele de dialog pentru obţinerea reprezentărilor grafice de tip scatterplot.

Atunci când relaţia liniară dintre cele două variabile este destul de bine conturată pe
scatterplot în SPSS 14 putem selecta ca diagrama să aibă supraimprimată efectiv linia numită de
regresie, asfel calculată încât să minimizeze distanţa făecărui punct la linie, după principiul celor
mai mici pătrate. O linie de regresie este definită de un intercept, adică de punctual în care linia taie
ordonata, şi de o valoare a unghiului pe care ea îl face cu orizontala, ambele având o expresie
cifrică precisă, definită prin ecuaţia de regresie. Printre facilităţile programului SPSS 14 se numără
54

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

şi aceea dea genera scattere panelate sau de a marca grupuri de puncte din norul de puncte, care au
vreo relevanţă pentru analiză (valori extreme, aberante sau atipice). De asemenea, pe lângă linia de
regresie se poate ajusta în orice punct o linie orizontală sau verticală, marcarea cifrică prin etichete
a valorilor celor două axe etc. Concluzia finală relativă la scatterploturi este că acestea constituie
cea mai valoroasă reprezentarea grafică din statistica bivariată, deoarece dau o expresie vizuală
relaţiei dintre variabile, înainte sau după ce ele au fost condensate într-o formă numerică,
permiţându-ne “să vedem” relaţia într-o manieră pe care redarea cifrică nu o poate face.

55

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 4

SELECTAREA ŞI MANIPULAREA DATELOR ÎN S P S S

4.1. Introducere
Datele din fişiere nu sunt întotdeauna organizate într-o formă ideală pentru a răspunde unor
nevoi specifice. De aceea este foarte posibil să dorim să combinăm fişiere, să sortăm datele după
anumite criterii sau în diferite ordini sau să alegem spre analiză doar anumite subseturi de cazuri.
Anumite tipuri de analiză (ANOVA; ANCOVA; MANOVA) nici nu sunt posibile dacă nu
schimbăm unitatea de analiză prin gruparea categorială a datelor continue, ceea ce presupune
recodificarea acestora. SPSS oferă un mare spectru de operaţii destinate transformării datelor din
fişiere, regăsibile în manualele diferitelor sale versiuni sau în cărţile de prezentare a programului.
Astfel, pe lângă sortarea datelor, transpoziţia cazurilor şi a variabilelor, combinarea fişierelor,
selectarea unor subseturi de cazuri sau agregarea datelor, mai putem apela la procedura Compute,
Recode ori Visual Bander (aceasta pe larg prezentată în manualul SPSS 14). Din multitudinea
acestor oportunităţi noi le vom prezenta doar pe cele de mai largă utilizare.

A. Manipulări nonactive ale datelor


4.2. Selectarea cazurilor
Există numeroase situaţii când utilizatorul SPSS este interesat doar de anumite cazuri din
fişierul său de date, el dorind să excludă din analiză o anumită categorie de subiecţi, cum ar fi aceia
care depăşesc valori specifice ale variabilei.
Să presupunem că din fişierul nostru privitor la relaţia dintre datele antropometrice reale şi
ideale am dori să prelucrăm separat cazurile după criteriul apartenenţei de gen. Una dintre
posibilităţi este Select Cases iar cealaltă este Split File. Selectarea se poate face doar din Data
Wiew (nu şi când suntem în outputurile SPSS), după următorii paşi:
 din Data alegem Select Cases, care deschide o fereastră de dialog ca cea din figura 4.1
(mijloc);
 prin setare observăm că toate cazurile sunt selectate pentru analiză (butonul de la All cases
este activ). De aceea vom activa butonul de dedesubt, If condition is satisfied, după care
dăm clic pe butonul If..., activat între timp, ceea ce va deschide cea de a treia fereastră de
dialog din figura de mai jos.

56

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 4.1. Ferestrele de dialog pentru selectarea de cazuri.

Structura ferestrei de dialog Select Cases: If prezintă în partea din stânga panoul variabilelor, de
unde vom selecta variabila Sex, pe care o vom introduce prin clic simplu pe săgeata dintre câmpuri
în panoul de lucru din dreapta-sus. Sub acesta se află două câmpuri, unul cu cifrele de la 0 la 9 şi
punct (care este de fapt cea care desparte zecimalele de întregi în sistemul englez), la care se
adaugă pe prima verticală operaţiile matematice elementare (adunare, scădere, înmulţire, împărţire,
ridicare la pătrat), după care pe celelalte coloane avem semnele mai mic, mai mare, mai mic sau
egal, mai mare sau egal, egal, nu este egal, semnele pentru functorii logici şi/sau, plus parantezele
rotunde. Facem o prezentarea foarte detaliată pentru că acestea vor interveni şi în alte transformări
din Compute. Toate cifrele şi operaţiile pot fi selectate pentru a lucra cu ele în panoul de deasupra.
Mai mult, în panoul din partea din dreapta-jos avem o multitudine de funcţii logice, dintre care sunt
vizibile în fereastră doar 6, celelalte putând fi defilate cu scrolul aflat între săgeţile verzi din dreapta
acestei ferestre. Toate aceste funcţii pot fi mobilizate după necesităţi cu săgeata în panoul de lucru
de sus. Noi selectăm semnul = şi 0 cu care fereastra va arăta ca în figură (Sex = 0), ceea ce
înseamnă că am selectat pentru operaţiile viitoare doar băieţii. După ce vom fi terminat de efectuat
analizele dorite, vom reveni pe aceeaşi cale în acest panou, pentru a selecta şi fetele (Sex = 1). De
fiecare dată când terminăm dăm Continue, care ne aduce la fereastra de dialog precedentă. Dacă
condiţia If a fost satisfăcută se activează OK-ul, pe care apăsându-l şi revenind la Data Wiew, vom
vedea că variabilele care nu participă la analiză au tăiate numerele de ordine din stânga lor. Mai
mult, la sfârşitul fişierulu va apărea o coloană nouă, numită Filter_$, sub care va scrie pe verticală
în dreptul fiecărui caz dacă este selectat sau nu (cu 0 şi 1). De aici, când vrem să deselectăm cu
totul opţiunea Select cases, reactivăm butonul All cases de deasupra ferestrei de dialog şi asta
înseamnă revenirea la starea iniţială, în care toate cazurile vor participa la analiză.

57

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

4.3. Split File


Aceasta este una dintre cele mai utile opţiuni oferite de SPSS, deorece prin utilizarea ei se
creează simultan mai multe categorii, pentru toate acestea fiind furnizate simultan toate outputurile
cerute. Această înseamnă o considerabilă economie de timp şi de efort, comparativ cu Select Cases,
unde outputurile sunt furnizate pe rând pentru fiecare categorie selectată. Mai mult, cele două
proceduri de selectare pot fi utilizate combinat, ceea ce va produce categorii de analiză de mai mare
fineţe.
Există şi un dezavantaj important al acestui procedeu prin care, după ce am creat categorii
distincte, dacă din greşeală le salvăm la închiderea sesiunii de lucru SPSS, ele rămân ca atare.
Pentru a fi reconstituite, este nevoie - aşa cum am arătat deja într-un capitol anterior - să avem o
primă coloană în Data Wiew cu numărul de ordine al cazurilor introduse, pentru a le putea după
aceea selecta crescător, reconstituind astfel ordinea iniţială a datelor.

Figura 4.2. Ferestrele de dialog pentru a Split File.

4.4. Sortarea cazurilor


Să presupunem că dorim să organizăm datele într-un fişier nu după caracteristici extrinsece,
cum ar fi numărul de ordine sau numele şi prenumele subiecţilor, care nu au o relevanţă practică, ci
după valorile unei alte variabile continue, cum ar fi inteligenţa, mediile şcolare, înălţimea sau
greutatea etc., variabile care caracterizează mult mai concludent cazurile respective. Modul de lucru
este relativ simplu, elreieşind şi din figura de mai jos: din Data selectăm Sort Cases, ceea ce va
deschide un panou de date cu un câmp al variabilelor şi un câmp de lucru (numit Sort by) în care
vom introduce variabila aleasă. Sub acesta ni se prezintă două opţiuni între care trebuie să alegem,
adică să selectăm opţiunea pentru sortarea ascendentă a variabilei (de la mic la mare) sau pe cea
descendentă (invers, de la mare la mic).

58

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 4.3. Ferestrele de dialog pentru a Sort Cases.

4.5. Combinarea fişierelor prin Merge Files


Acesta este unul dintre cele mai utile moduri de manipulare a datelor din SPSS deoarece
permite extinderea fişierelor fie ca şi număr de cazuri – cu condiţia ca variabilele să fie aceleaşi –,
fie ca şi număr de variabile – cu condiţia ca subiecţii (cazurile) să fie aceiaşi. Vom prezenta mai jos
cele două situaţii enumerate.
Adăugarea de noi cazuri este foarte utilă în câteva situaţii specifice:
 aceeaşi cercetare a fost făcută ori pe eşantioane diferite, datele fiind introduse separate, ori
la distanţă mai mare în timp. Reunirea datelor sporeşte valabilitatea rezultatelor, puterea
cercetării şi generalizabilitatea rezultatelor;
 din cercetări distincte şi diferite ca şi design, cercetărorul vrea să selecteze variabilele
comune şi mai ales instrumentele comune utilizate, pentru a le analiza calităţile
psihometrice şi a construi etaloane/ bareme diferenţiate, pe numere mai mari de subiecţi.
În ambele situaţii succesul operaţiei de combinare a fişierelor prin Merging Files reclamă ca
specificaţiile pentru cele două seturi de variabile care vor fi reunite într-un singur fişier să fie exact
aceleaşi, ca nume, mărime, tip (numeric, strig sau de alt tip) şi valori indicate de la Values.

Atragem atenţia asupra a două aspecte importante:


 pentru a avea la dispoziţie fişierele originale de la care s-a plecat este bine să se facă o copie
după cel care este luat ca punct de plecare, pentru a se lucra pe el;
 deoarece nu toate condiţiile care definesc o variabilă trebuie să fie identice (cu excepţia
numelui, lungimii, tipului şi modului de codificare a variabilelor) se va lua ca bază “cel mai
lucrat” dintre fişiere, adică acela unde etichetarea variabilelor şi alinierea lor corespunde
mai mult dorinţei utilizatoului.
Modul de lucru este următorul: Data→Merge Files→Add Cases: Read File→Add Cases from…

59

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 4.4. Ferestrele de dialog pentru Merge Files→Add Cases: Read File→Add Cases from.

Din a doua fereastră de dialog de mai sus selectăm fişierul ce va fi adiţionat, dacă el este
prezent în cutia de deasupra, dacă nu de la ferestruica de deasupra (Look in) selectăm fişierul dorit
din locaţia în care el se află, aducându-l astfel în fereastra de lucru. După ce îl introducem în
ferestruica cu File name se activează butonul Open, pe care apăsăm pentru a se dechide cea de a
treia fereastră de dialog de mai sus (Add cases from…). Aici vedem că există două câmpuri: cel
din stânga, unde apar toate variabilele ce nu pot fi încă combinate - fie pentru că nu sunt comune,
fie pentru că nu respectă regula de a fi definite în acelaşi fel ca nume, lungime, tip şi valoare -, şi
cel din dreapta, unde apar variabilele comune care vor putea fi combinate. Revenind la panoul din
stânga, variabilele care au semnul (x) se găsesc doar în fişierul activ iar cele cu semnul (+) doar în
fişierul pe care dorim să îl alipim. Atunci când variabila realmente nu se află în ambele fişiere, pare
a nu avea rost să le combinăm, deşi acest lucru nu este imposibil: creând o variabilă similară în
fişierul care nu are variabila respectivă, definind-o ca şi în cel în care ea este deja prezentă, aceasta
se va păstra în ambele fişiere.
De cele mai multe ori însă o variabilă poate fi prezentă în ambele fişiere, dar să fie numită
diferit, să aibă lungimi diferite, să fie de tip sau codificări diferite. Inador şi ina_dor (înălţimea
dorită) nu sunt, fireşte, recunoscute ca identice decât dacă desfiinţăm liniuţa de jos de la a doua
variantă. Aceasta înseamnă că, după ce inspectăm câmpul din stânga şi notăm variabilele care
diferă, dar pot fi aduse la acelaşi format, ne întoarcem în fişierele de origine, operăm schimbările
astfel încât variabilele să fie definite identic, revenim la fereastra a treia (Add Cases from) şi vom
vedea că variabilele identice au fost deja transferate în câmpul din dreapta, Variables in New
Working Data File. Când fereastra din stânga (Unpaired Variables) este goală, sau conţine doar
variabile care nu dorim să apară în fişierul comun, dăm OK şi atunci va apărea fişierul mare,
rezultat prin reunirea celor două fişiere. El va primi un nume şi va fi salvat în locaţia dorită.

60

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Utilizarea Merge Files pentru a adiţiona variabile suplimentare este o modalitate mai puţin
utilizată decât precedenta, deşi şi aceasta poate să fie utilă. Să presupunem că pe un anumit eşantion
populaţional am aplicat un set de instrumente într-o primă fază a unei cercetări de tip panel
(longitudinală) şi că în faze ulterioare am aplicat alte seturi de instrumente, obţinând date
suplimentare (medii şcolare, note la examene, completarea unor criterii de validare a bateriei etc.).
Procedura optimă ar fi aceea de a introduce fiecare tranşă de noi date în fişierul original, deoarece
numărul şi ordinea subiecţilor trebuie conservate identic pentru procedura Add variables. Înserând
prin Copy şi Paste coloana de nume la sfârşitul vechiului fişier, avem certitudinea introducerii
noilor date corespunzător numelor şi că noile date aduc informaţii suplimentare pentru exact aceiaşi
subiecţi.
Dacă nu am procedat aşa şi am introdus noile date în fişiere distincte, ele pot fi combinate
prin secvenţa: Date→Merge Files→Add Variables... care va genera o fereastră de dialog ce va
avea în partea din stânga-sus un câmp numit Excluded variables, în care vor fi afişate variabilele
comune celor două fişiere care fireşte nu vor mai fi adiţionate (într-un acelaşi fişier nu pot coexista
două sau mai multe variabile identice ca nume). În panoul din dreapta (New Active Dataset) o să
observăm un grup de variabile marcate cu (x), prezente doar în fişierul bază, şi altul marcat cu (+),
prezent doar în al doilea fişier. Dacă dorim să păstrăm variabila exclusă ca o variabilă cheie, cu date
ce vor fi completate dintr-un fişier momentan nonactiv şi mai vrem să excludem şi alte variabile,
demersul este următorul:
 clic pe Match cases on key variable in sorted files de sub câmpul variabilelor excluse;
 apăsăm butonul numit Non-active dataset in keyed table;
 selectăm de la variabilele excluse viitoarea variabilă cheie şi o transferăm cu săgeata de jos
în Key variable;
 dăm clic pe variabila ce va fi exclusă, o selectăm din câmpul Nonactive dataset şi o
transferăm cu săgeata de sus în panoul variabilelor excluse;
 dăm OK şi operaţiile dorite s-au înfăptuit.
Alte manevre cu datele cum ar fi agregarea datelor (Aggregating data) sau transpoziţia
liniilor în coloane pentru un set de date (Transpose) sunt de utilitate mai redusă şi pot fi deprinse
din manualele de prezentare a SPSS. Mai utilă este tehnica de importare sau de exportare a datelor
din alte tipuri de fişiere, cum ar fi din Excel. Această operaţie cere satisfacerea unui număr de
condiţii pentru a compatibiliza cele două formate. De exemplu, dacă în Excel a treia coloană este
una de date nominale (nume), a treia coloană din SPSS va fi formatată ca şi variabilă string. Prima
linie din Excel conţine de regulă capul de tabel care nu se copiază, numele variabilei în SPSS
trebuind recreat din Variable Wiew. În rest se face Paste pe coloana (coloanele) ce va fi copiată

61

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

din Excel în SPSS, şi se dă Paste pe prima celulă a acestuia din Data Wiew, datele selectate fiind
astfel tansferate dintr-un fişier în altul.

B. Manipulări active: transformarea şi recodificare datelor


Anumite analize statistice pot fi efectuate după excluderea cazurilor nedorite (paraziţi
statistici de exemplu) pentru că ele exercită o influenţă nedorită asupra rezultatelor finale. 9 Operaţia
se face prin Select Cases, prezentată anterior,. Datele restante rămân însă aceleaşi şi de aceea
manipulările prezentate anterior s-au numit pasive. Cele care urmează acum însă sunt numite active
pentru că presupun transformarea datelor sau chiar crearea de noi variabile, plecând de la date deja
existente. De exemplu, dacă răspunsul la întrebarea “Este normală distribuţia acestei variabile?”
este unul negativ, putem încerca una dintre procedurile de normalizare a distribuţiei descries în
capitolul anterior (rădăcină pătrată, logaritmare etc.) pentru a crea noua variabilă pe care vom lucra,
după ce am verificat normalitatea distribuţiei ei.

4.6. Compute din meniul Transform


Transformările operate asupra datelor prin meniul Compute pot păstra intactă variabila de
plecare (transformată), care va exista alături de cea nou creată, dar pot şi desfiinţa variabila
originară pentru a o păstra doar pe cea nouă. De cele mai multe ori este preferabilă prima situaţie,
aşa cum am mai arătat anterior.

Figura 4.5. Fereastra de dialog pentru Compute Variable.

Figura de mai sus are patru câmpuri ce trebuie prezentate pe scurt, deşi doar cele de deasupra au un
caracter de noutate. Cîmpul 1 (stânga) este unul comun oricărei aplicaţii SPSS, fiind câmpul
variabilelor, ce pot fi defilate în fereastră cu scrolul. Câmpul din stânga-sus este numit Target
Variable, acolo introducându-se numele variabilei nou create, cu respectarea regulilor de numire
deja prezentate anterior. Cîmpul din dreapta-sus, numit Numeric Expression, este cel în care vor fi
9
Faptul va trebui semnalat în raportul de cercetare.

62

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

introduse variabilele pe care vrem să le combinăm, prin operaţiile şi funcţiile prezentate în cele
două panouri de dededubt, pentru a obţine noua variabilă ţintă din stânga sus.
Atenţie, rareori la Numeric Expression se introduce doar o singură variabilă. De cele mai
multe ori apelăm la Compute pentru a genera o variabilă nouă prin combinarea mai multor
variabile vechi, după un algoritm (ecuaţie) în care pot interveni paranteze, operaţii sau funcţii. De
exemplu, dacă prin analiză factorială am redus o masă mare de variabile la un număr mai mic de
unităţi explicative numite factori, aceştia pot fi determinaţi efectiv prin însumare, luând suma
algebrică a produselor dintre fiecare variabilă şi saturaţia sa în factorul respectiv şi împărţind-o
finalmente la numărul vatiabilelor intrate în calcul. În exemplul nostru, din notele z ale înălţimii şi
greutăţii reale am vrea să obţinem o medie, ca indicator mai sintetic al dezvoltării psihosomatice.
Câmpurile din centru şi din dreapta-jos au fost deja prezentate anterior şi ştim că ele conţin
cifrele, operaţiile fundamentale şi funcţiile necesare transformărilor dorite. De exemplu, pentru a
genera o medie matematică putem proceda în două moduri: (V1+V2+ … +Vn) / n sau M (V1, V2,
…, Vn), pentru prima scriind o ecuaţie, pentru a doua utilizând o funcţie prezentă în câmpul din
dreapta-jos. Atragem atenţia că numărul funcţiilor utilizate este de 20, dintre care doar 8 sunt
afişate în ferestruica respectivă, accesul la celelalte făcându-se cu scrolul căsuţei.

4.7. Recodificarea datelor (Recode) din meniul Transform


Cele mai multe analize statistice pot utiliza variabilele aşa cum au fost ele introduse în Data
Wiew, dar de multe ori prelucrările presupun crearea de noi variabile, cu plecare de la cele vechi.
Este şi cazul sus-amintitei analize factoriale, care poate fi accesată din Data Reduction (Reducerea
de date). Aceasta înseamnă că, plecând de la matricea de intercorelaţii a unui set de date, vom
obţine finalmente un număr mai mic de unităţi explicative (variabile latente) responsabile pentru
aceste intercorelaţii. După ce am identificat factorii, aceştia pot fi efectiv calculaţi prin Compute,
aşa cum am arătat mai sus.
Datele pot fi modificate şi prin recodificarea lor, ceea ce este foarte util pentru compactarea
şi reducerea numărului de valori ale variabilelor, dar şi pentru alte scopuri. De exemplu, într-un
studiu care utilizează Chestionarul de valori al lui Rokeach (RVS), acesta cere subiecţilor să
clasifice 18 terminale şi 18 valori instrumentale, de la prima ca importanţă (scorată 1) la ultima
(scorată 18). În redările grafice care vor fi făcute, barele înalte vor indica valorile mai puţin
importante pentru persoană iar cele mai joase pe cele mai importante, ceea ce va crea disconfort
perceptiv, deoarece în mod obişnuit în majoritatea diagramelor barele mai înalte înseamnă
intensitate sau frecvenţă mai mari, cele mici fiind inversul lor. Pentru a nu deruta privitorii,
scorurile se pot recodifica după schema 18→1, 17→2, 16→3,…, 3→16, 2→17 şi 1→18. Un alt
exemplu: am preluat dintr-un fişier Excel o coloană cu M şi F, în care M codifică genul masculin

63

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

iar F pe cel feminin. Cum o multitudine de aplicaţii SPSS presupun un format cifric (alfanumeric)
vom recodifica această variabilă alocând 1 pentru masculin şi 2 pentru feminin, ceea ce duce la
modificarea variabilei iniţiale. Aşadar, avem două posibilităţi de a recodifica o variabilă: păstrând
în continuare vechea variabilă, şi atunci vom apela la Recode→Into Different Variables sau prin
desfiinţarea vechii variabile, care nu mai este utilă (Recode→Into Same Variables). Pluralul
variabile din expresiile de mai sus sugerează că pot fi codificate mai multe variabile în acelaşi timp,
dacă ele sunt de acelaşi tip: nu putem recodifica la fel o variabilă numerică şi una String! Mai mult,
valorile cifrice pentru care operăm recodificarea rareori sunt identice pentru două variabile şi de
aceea este preferabil să le introducem în lucru una câte una.

Figura 4.6.. Fereastrele de dialog pentru Recode→Recode into Different Variables.

Utilizarea procedurii de recodificare într-o nouă variabilă sunt următorii:


 din Data Wiew alegem secvenţa Transform→Recode, după care dăm clic pe Into
Different Variables, care deschide fereastra de dialog din stânga figurii 4.5.
 selectăm din panoul variabilelor pe cea (cele) care va fi recodificată, să zicem Înălţimea
reală şi o transferăm cu săgeata în panoul de lucru din dreapta (Input Variable → Output
Variable);
 dăm clic pe Old and New Values de sub panoul de lucru prin care se deschide fereastra de
dialog Recode into Different Variables: Old and New Values (figura 4.6. stânga).

Figura 4.7. Fereastrele de dialog pentru Recode into Different Variables→If…

64

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Pentru a înţelege mai bine structura acestei ferestre facem câteva precizări relative la elementele ei:
 Value: avem Old value (vechea valoare) în dreapta şi New Value în stânga-sus; se
introduce câte o valoare; valorile string vor apărea între ghilimele (apostrofi);
 System missing: sunt valorile care au fost definite ca atare în lista de valori din Variable
Wiew (Sysmis);
 System or user missing include toate valorile lipsă care apar în lista de valori din Variable
Wiew (Missing);
 Range, cu două căsuţe, de la - la; deoarece aici vom lucra mai mult, insistâm asupra ei: dăm
dublu clic pe ea şi introducem înălţimea minimă posibilă a lotului nostrum, să zicem 100 cm
(putem introduce şi 0); în căsuţa alăturată (through = până la) punem 175, moment în care
la New Value din mijloc-sus punem cifra 1 pentru a numi cifric prima clasă creată, cea a
înălţimilor mici; deoarece după aceasta s-a aprins butonul Add de mai jos, introducem clasa
nou creată în panoul din dreapta, unde va apărea 100 tru 175 → 1; ne reîntoarcen în Range
şi creăm o a doua clasă, a celor medii (175,01 la 185), o codificăm 2 de la New Value şi cu
Add o introducem în panoul din dreapta; procedăm la fel şi cu cea de a treia clasă (185,01
tru 250 = 3), care este a celor înalţi. După încheierea procesului ne vom reîntoarce în
fereastra Recode into Different Variables unde, respectând regulile de numire, dăm nume
variabilei nou create în căsuţa Output Variable, eventual precizând şi eticheta dorită de la
Label; apăsând după aceea butonul Change din dreapta ferestruicii respective vom vedea
cum numele propus (inare_cl) pentru noua variabilă va apărea în panoul de lucru de la
mijloc-sus;
 Fereastra precedentă mai are două tipuri de Range, de la cea mai mică valoare la… (Lowest
through) şi de la o anumită valoare la cea mai mare (through highest) ce vor fi activate
când vrem să codificăm în acest fel.
 Ultimul buton este pentru toate celelalte valori (All other value).

Încheierea întregului ciclu de operaţii va produce o nouă variabilă, cu clasele 1, 2 şi 3 (mică


mijlociu şi mare), ce va apărea la coade listei de variabile, dar care poate fi transportată la locul
dorit prin Copy şi Paste. Ce a scăpat explicaţiilor date până aici este un aspect esenţial: cum
stabilim reperele care separă clasele nou create? Răspunsul este acela că putem cere iniţial un
output cu frecvenţele variabilei ce urmează a fi codificate, de unde se iau valorile corespunzătoare
proporţiilor dorite. Aceastea pot fi egale (tranşe a câte 33 % din fiecare categorie), pot fi inegale ca
în metoda grupurilor de contrast, unde se iau 27% la clasele extreme şi 46% pentru categoria
centrală. Când variabila nu este trihotomică, proprorţiile se iau după alte considerente, reieşite din
cercetări anterioare sau după repere date de literatura de specialitate.

65

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Recodificarea datelor ridicâ unele probleme specifice, cum ar fi răspunsul la întrebarea


“Când este utilă recodificarea datelor în altă variabilă?” Calculul semnificaţiei statistice a diferenţei
mediilor prin testele t presupune existenţa a cel puţin două grupe şi deci a unei veriabile
dihotomice. Determinarea semnificaţiei diferenţelor pentru o variabilă categorială cu mai mult de
două grupe presupune împărţirea unei variabile continue în una trihotomică sau multihotomică.
Astfel, testul de semnificaţie F din ANOVA calculează şi sintetizează într-un indicator unic
semnificaţia diferenţei dintre mediile grupului 1 cu 2, 2 cu 3 şi 1 cu 3, urmând ca printr-o analiză
ulterioară (post-hoc) să se indice cu exactitate perechea sau perechile unde diferenţa atinge pragul
semnificaţiei statistice.
O altă problemă este următoarea: prin recodificarea unei variabile continue într-una
discontinuă, cu un număr finit de categorii, nu rezultă cumva o pierdere din informaţia furnizată de
variabila de la care s-a plecat? Newton şi Rudestam (op. cit., pp.192-195) argumentează dând un
răspuns pozitiv ferm la această întrebare: “Aproape niciodată nu este o idee bună să arunci
informaţia; oricum, exact aceasta se face prin convertirea unei distribuţii continue în două sau mai
multe categorii” (p. 194). Cohen (1983) argumentează că pierderea informaţiei prin splitarea
variabilei în jurul mediei este echivalentă cu renunţarea la 38% dintre subiecţii cercetării, ceea ce
produce o pierdere semnificativă a puterii acesteia. Deci NU dihotomizăm şi NU trihotomizăm o
variabilă continuă decât dacă anumite tipuri de analize (ANOVA, metoda grupurilor extreme) o cer
în mod expres, având în vedere că există şi modalităţi alternative de lucru, cum ar fi calculul
corelaţional. Încă din 1957, Lee Cronbach a arătat într-un articol clasic că studiile corelaţionale sunt
cel mai bun sprijin pentru cercetările relative la diferenţele interindividuale, în timp ce analiza de
varianţă rămâne metoda de elecţie pentru cercetările experimentale.

4.8. Visual Bander în SPSS 14


Visual Bander este o porcedură care produce mai multe posibilităţi de categorizare a
variabilelor pe baza unor puncte de tăietură (cutoff values), intervale egale (de clasă), intervale
percentile ori intervale de tipul medie ± abateri standard (sau fracţiuni de abateri standard) în jurul
acesteia. Vom ilustra acest procedeu prezentat în SPSS 14 prin datele relative la relaţia dintre
înălţimea şi greutatea reale cu cele dorite, împărţind înălţimea în trei categorii (benzi): mai mare ca
185 (mari); între 165-185 (medii) şi sub 165 (mici).
Secvenţa de lucru este următoarea:
 din Transform alegem Visual Bander, care va deschide o fereastră de dialog specifică;
 selectăm înălţimea reală (inareal) şi dăm clic pentru a o transfera în câmpul de lucru, numit
Variable to Band;

66

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 dăm Continue pentru a deschide următoarea fereasrtră de dialog şi apoi dăm clic pe
Înălţimea reală din Scaned Variable List (stânga-sus) pentru a ne arăta histograma acesteia.
Facem să intre în celula Values (din stânga) 165, iar în dreapta, la Label, vom trece
“Scunzi”. Dăm apoi clic pe butonul Excluded (<) pentru a arăta că această categorioe nu
include şi valoarea de 165. Dacă am dori ca ea să fie inclusă (165 cm şi mai puţin) apăsăm
pe butonul Included (< =).
 introducem 185 în a doua celulă Value iar eticheta de la Label vom face să intre “Mediu”;
 introducem 250 (sau oricare altă valoare mai mare) pentru a defini pragul de sus în a treia
celulă Value şi în dreptul ei scriem “Înalţi”.
 după care introducem numele variabilei, făcând uz de regulile uzuale de numire, în
ferestruica de deasupra, numită Banded Variable;
 întregul ciclu de operaţii se încheie, ca de obicei, cu O.K.
De semnalat faptul că după ce puctul de tăietură a fost definit şi a devenit operaţional, poziţia sa va
fi desenată pe histogramă pe măsură ce cursorul se va mişca spre o altă celulă. Dacă, de exemplu, în
Visual Bander vom introduce Inareal Percentiles (percentile pentru înălţimea reală), punctele de
tăietură pentru percentilul 25 (Q1), percentilul 50 (Q2) şi percentilul 75 (Q3) vor fi automat
introduce de SPSS în Value şi Label, fiind indicate şi în histogramele de deasupra.
Pentru a splita înălţimea în tranşe percentile egale vom proceda astfel:
 se urmează paşii de mai înainte, dar în loc să se umble la valori şi etichete, se dă clic pe
Make Cutpoints din dreapta-jos şi facem să intre în fereastra de dialog cifra 9 pentru
numărul punctelor de tăietură (cu unul mai puţin decât numărul de intervale dorit). Căsuţa
de mai jos, relativă la lungimea intervalului (Width%) vă fi automat afişată de program, şi
ea este 10;
 se dă apoi Apply, facem să intre numele variabilei în fereastra de Banded Variable şi ciclul
se încheie iarăşi cu OK. În câmpul datelor va apărea o nouă variabilă, Inareal Percentiles,
care va asigna fiecare subiect în una dintre cele 10 clase percentile.

67

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 5

STATISTICĂ DESCRIPTIVĂ UNIVARIATĂ

5.1. Indicatori ai tendinţei centrale


Abordările statistice univariate sunt cele mai simple moduri de interogare a datelor în cadrul
unei statistici cu o singură variabilă. Ca şi în alte domeni şi în statistică se pleacă în prelucrarea şi
interpretarea datelor se de la simplu la complex, de unde abordarea iniţial separată a variabilelor
(una câte una), apoi corelativă, ceea ce presupune luarea simultană în analiză a două sau mai multe
variabile, caz în care vorbim de statistică bivariată sau multivariată. Atunci când pornim de la
datele unui lot sau eşantion definit, pentru care determinăm o multitudine de valori caracteristice
(parametri) vorbim de o statistică descriptivă, care furnizează valorile absolute ale datelor, în sensul
în care ele reprezintă exact grupul respectiv. Când vrem să facem inferenţe în legătură cu populaţia
mai largă din care a fost extras eşantionul nostru situaţia se schimbă, deoarece valorile obţinute nu
mai sunt absolul exacte, ci probabiliste, şi atunci trebuie să determinăm limitele lor de încredere,
ceea ce ţine de statistica inferenţială.
Chiar şi în cazul tratamentelor statistice complexe ale datelor, de cele mai multe ori
abordarea lor cere ca o condiţie prealabilă verificarea normalităţii distribuţiei variabilelor luate
separat, de unde necesitatea de a stăpâni foarte bine procedeele ce ţin de statisticile descriptive
univariate.
Problemele care se pun pentru distribuţia unei singure variabile pot fi grupate în trei tipuri
de întrebări pe care ni le punem în legătură cu aceasta: ce se întâmplă pe centrul distribuţiei (cei
mai semnificativi indicatori ai tendinţei centrale fiind media, mediana şi modul), ce se întîmplă spre
extremităţile seriei de variaţie (răspunsul primindu-l în principal prin determinarea amplitudinii
împrăştierii, adică a lui R = Range, prin abaterea intercuartilică şi mai ales prin abaterea standard,
cel mai preţios indicator, dacă variabila a fost măsurată pe o scală de interval sau de raport) şi care
este forma distribuţiei (doi fiind indicatorii fundamentali, simetria curbei şi excesul, adică
Skewness şi Kurtosis în SPSS).
Tehnicile prezentate mai jos se referă la variabile luate separat, fiind deci tipice statisticii
univariate. Fiecare dintre indicatorii care caracterizează cele trei însuşiri fundamentale ale unei
distribuţii, tendinţele centrale, împrăştierea şi forma ei, sunt rezumaţi prin indicatori numerici, ei
trebuind interpretaţi corelativ.

68

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

5.1.1. Media aritmetică


Indicatorul cel mai important al tendinţei centrale este media aritmetică, determinată prin
raportul dintre suma tuturor valorilor variabilei şi numărul acestor valori.
Media are câteva însuşiri remarcabile:
 este o mărime la care participă toate valorile variabilei, deci este indicatorul care exprimă
cel mia bine tendinţa centrală pentru eşantionul luat ca întreg;
 se exprimă în aceleaşi unităţi de măsură ca şi variabila;
 este centrul de greutate al întregii distribuţii, ceea ce matematic se exprimă prin faptul că
suma tuturor abaterilor de la medie este întotdeauna egală cu 0: Σ(m – x) = 0, în care m este
media, x variabila iar Σ semnul grecesc pentru „sumă de”;
 suma deviaţiilor pătratice de la medie este cea mai mică comparativ cu oricare alt indicator
al tendinţei centrale, de unde „regula celor mai mici pătrate” şi utilizarea mediei în
determinarea altor indicatori (abaterea standard, simetria, oblicitatea);
 media aritmetică rămâne neschimbată dacă distribuţia se amplifică sau se comprimă prin
înmulţirea, respectiv împărţirea valorilor variabilei la o constantă;
 pentru determinarea ei trebuie cunoscută doar suma valorilor variabilei şi numărul de cazuri,
nu şi distribuţia acestora;
 media este cu atât mai reprezentativă pentru o distribuţie cu cât aceasta este mai omogenă şi
mai „normală”, în caz de distribuţii asimetrice, atipice sau cu valori aberante (outlieri) ea
fiind din ce în ce mai puţin reprezentativă pentru populaţia statistică respectivă;
 de aceea ea presupune scalele de interval ori de raport şi tot de aceea ea participă la
procedeele statistice cele mai elaborate, cum sunt ecuaaţiile de regresie sau transformările
liniare;
 deşi aflată întotdeauna în interiorul spectrului de variaţie, media poate împărţi grupul în
părţi foarte neechivalente, dacă distribuţia are valori atipice sau aberante;
 media nu este cea mai tipică valoare a distribuţiei şi uneori ea reprezintă o valoare pe care
nu o ia niciunul dintre indivizii statistici ai acestei distribuţii;
 trebuie deci să fim în cunoştinţă de cauză când o utilizăm.
Utilizările mediei sunt multiple:
 ea ajută la localizarea valorilor individuale într-o distribuţie;
 este indicatorul de bază în testele de comparaţie a semnificaţiei statistice a diferenţei dintre
grupuri, independente sau corelate, în faza de pretest sau de posttest sau la lotul martor şi la
lotul de control;

69

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 este implicată în descompunerea surselor de variaţie (analiza de varianţă), ce vor fi analizate


sub raportul ponderei fiecăreia în efectul final prin construirea ecuaţiei de regresie;
 este utilă în analiza itemilor unui test pentru a vedea dacă aceştia se supun unor exigenţe de
construcţie.

5.1.2. Mediana
Mediana (Me) nu este nici un scor, nici o frecvenţă, ci un punct de pe linia scorurilor care
împarte o distribuţie în jumătăţi egale. Iată câteva aspecte reprezentative pentru mediană:
 determinarea ei presupune obligatoriu ordonarea prealabilă a valorilor variabilei de la mic la
mare, sau invers, adică construcţia unei ierarhii;
 aceasta deoarece mediana este tipică pentru o scală ordinală: distribuţiile asimetrice sau cele
cu valori atipice („paraziţi statistici”) presupun folosirea prioritară şi uneori exclusivă a
medianei, căci valorile atipice afectează mult media;
 determinarea ei concretă este mai laborioasă, mediana fiind mai greu de adus la un
tratament matematic comparabil cu media aritmetică;
 în funcţie de scala pe care a fost măsurată variabila există procedee tipice, relativ diferite de
construcţie a etaloanelor şi baremelor, unele centrate pe medie şi abatere standard, ce
utilizează transformări liniare, şi altele pe mediană, ce operează transformări de arie.

5.1.3. Modul
Este cea mai săracă imagine a tendinţai centrale, deoarece la ea participă doar o singură
(eventual câteva) valori ale variabilei. Mai specific:
 modul este valoarea de scor pe care se înregistrează frecvenţa cea mai mare, în acest sens el
fiind cea mai tipică valoare a unei distribuţii;
 uneori există mai mult de o singură aglomerare a datelor în jurul unei valori şi atunci
vorbim de distribuţii cu două moduri (bimodală) sau cu mai multe moduri (multimodală),
fapt relativ frecvent pentru destribuţiile mici sau cu un spectru larg de variaţie;
 putem deci afirma că modul este o reprezentare rapidă a raportului omogenitate/
heterogenitate al unei distribuţii. În cazul unei distribuţii atipice, vârfurile („cocoaşele”) în
care se aglomerează datele pot fi mai depărtate – şi atunci distribuţia este foarte puţin
omogenă - sau mai apropiate, cu cît distanţa dintre vârfuri este mai mică omogenitatea fiind
mai mare;
 în distribuţiile bimodale clare, cu cele două vârfuri net separate, ruperea acestora în
distribuţii simple se impune cu necesitate, pentru că este de fapt vorba de două categorii
distincte care trebuie tratate separat.
70

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Luate la comun, în distribuţiile regulate media, mediana şi modul tind să se suprapună,


având valori foarte apropiate. Cu cât numărul de cazuri ale unei distribuţii creşte, tendinţele
centrale devin tot mai clar evidenţiabile. În cazul distribuţiilor asimetrice, media tinde să se situeze
spre valorile extreme („coada” lungă a distribuţiei) iar mediana pe ramura mai scurtă a distribuţiei.
Modul ocupă o poziţie intermediară între acestea, fiind mai aproape de mediană, aproximativ la o
treime din distanţa mediană - medie. În distribuţiile trunchiate (numite şi în formă de i sau j), media
îşi pierde cu totul semnificaţia de indicator de poziţie şi nici modul nu mai indică tendinţa centrală,
ci extremitatea înaltă a distribuţiei, singura care rămâne operaţională fiind mediana.

5.2. Indicatori ai împrăştierii


5.2.1. Amplitudinea împrăştierii (R)
Cea mai simplă determinare a împrăştierii, dar şi cea mai săracă, este amplitudinea
împrăştieirii, care este diferenţa dintre cea mai mare şi cea mai mică valoare a unei distribuţii. Deci,
indiferent de mărime distribuţiei sau de forma acesteia (simetrică saui asimetrică), la acest indicator
notat cu R - de la englezescul Range - participă doar două valori ale variabilei. Este de aceea
evident că valorile extreme, şi cu atât mai mult cele aberante, afectează masiv acest indicator.
Există câteva procedee pentru a semnala sau chiar a lăsa pe dinafara unei distribuţii valorile sale
extreme, dar şi atunci valoarea practică a acestui indicator rămâne una discutabilă. Practica curentă
a impus totuşi afişarea lui R pentru că, dincolo de valoarea sa orientativă, determinarea amplitudinii
împrăştierii este primul pas pentru transformarea unei variabile continue în una discontinuă. Prin
gruparea datelor se stabilesc mai multe clase, care au o mărime determinată a intervalelor. Numărul
acestora ţine, pe de o parte, de mărimea spectrului de variaţie R, pe de altă parte de numărul de
cazuri care compun eşantionul. Sturges a propus o formulă de determinare a numărului de intervale
funcţie de mărimea eşantionului.

5.2.2. Abaterea intercuartilică şi semiintercuartilică


Există o multitudine de procedee destinate împărţirii unei diastribuţii în tranşe de suprafaţă
egale, dar cele mai folosite sunt decilele (10 tranşe egale, fiecare reprezentând câte 10% din aria
totală, definite prin 9 repere, numite decilul 1, decilul 2, ..., decilul 9) sau cuartilele (4 tranşe a câte
25% din aria totală, definite de 3 repere care sunt cuartilul 1, cuartilul 2 - sau mediana - şi cuartilul
3, notate cu Q1, Q2 şi Q3). Dintre acestea împărţirea în cuartile ne interesează în mod special,
pentru că distanţa dintre Q3 - Q1 oferă o bună estimare a variabilităţii pe zona centrală a unei
distribuţii, oferind şi o unitate de măsură ce ne va ajuta la identificarea valorilor atipice sau aberante
ale distribuţiei (outlieri).

71

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Distanţa dintre cea mai mică valoare a distribuţiei şi Q1 formează cuartilul (sfertul) inferior,
cea dintre Q1 şi Q2 cuartilul mediu-inferior, cea dintre Q2 şi Q3 cuartilul mediu-superior iar cea
dintre Q3 şi cea mai mare valoare a distribuţiei cuartilul superior. Distanţa Q3 - Q1, notată cu IQR,
se numeşte Abaterea Intercuartilică, iar când aceasta se împarte la doi ea se numeşte Abaterea
Semiintercuartilică (AQ) şi se notează cu Q. Cea mai bună redare grafică de acest fel a unei
distribuţii este boxplotul, de care am vorbit la reprezentări imagistice, unde criteriul 1,5IQR sau
3IQR erste cel ce diferenţiază între valorile atipice şi valorile aberante ale unei distribuţii,
cunoscute sub numele de outlieri şi outlieri extremi, ei fiind marcaţi în SPSS prin notaţii specifice.
Astfel, outlierii simpli, aflaţi la distanţa cuprinsă între 1,5 – 3 cutii de Q1 în jos sau de Q3 în sus
sunt valorile atipice, ce se notează cu cerculeţe, iar cei ce depăşesc 3 cutii sunt valorile extreme, ce
se notează cu x. Toţi aceşti indivizi statistici sunt identificaţi prin numărul de ordine al introducerii
lor, trecut alături.

5.2.3. Abaterea standard


Este, alături de medie, cel mai important parametru al unei distribuţii şi aceasta deoarece:
 este cel mai sintetic indicator al distribuţiei;
 ca şi în cazul mediei aritmetice la el participă toate valorile variabilei, fiind radical din suma
abaterilor pătratice de la medie;
 se exprimă, ca şi media, în aceleaşi unităţi de măsură ca şi variabila;
 este unitatea de măsură de pe abscisa unei distribuţii (Range), într-o distribuţie normală şi
suficient de mare (peste 200 de cazuri) întreg spectrul de variaţie având 6 abateri standard,
câte 3 sub medie şi 3 deasupra mediei;
 are remarcabile proprietăţi matematice, derivate dintr-o curbă gaussiană ideală, printre altele
putându-se determina cu exactitate suprafaţa de sub curbă corespunzînd distanţiei dintre
oricare dintre punctele de pe linia valorilor variabilei, exprimate în unităţi standard;
 prin aceasta abaterea standard devine indicatorul predilect utilizat în gradarea pe curbă;
 aceste unităţi standardizate cunoscute ca note z măsoară depărtarea de la media aritmetică a
fiecărui scor al variabilei exprimat în abateri standard;
 dacă la valorile variabilei se adună sau se scade o constantă, abaterea standard rămâne
nemodificată:
y=x+b
σy = σx
Aceasta creează posibilitatea mutării originii unei scale, pentru a elimina unele
inconveniente, cum ar fi valorile negative de sub 0. De exemplu, scala z cu 3 note standard

72

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

sub şi 3 desupra mediei: -3, -2, -1, 0, 1, 2, 3, cu media 0 şi abaterea standard 1, poate deveni
prin adunarea cu 3 scala 0, 1, 2, 3, 4, 5, 6, cu media 3 şi abaterea standard tot 1;
 dacă valorile variabilei se înmulţesc sau se împart cu o constantă, atunci valoarea abaterii
standard se dilată sau ce contractă proporţional cu acea constantă:
y = ax
σy = a*σx
Această proprietate, împreună cu cea precedentă, creează posibilitatea de a avea scale de
măsură derivate prin transformări de linie din notele standardizate z, cum ar fi scalele T,
Hull, Stanine, Stens, Note C, Scala de QI etc.
 creează posibilitatea aducerii la un numitor comun (notele z) a unor variabile exprimate în
unităţi foarte diferite, fapt prin care ele devin direct comparabile, li se poate face media,
determina împrăştierea etc.;
 participă la determinarea indicelui de variaţie, a indicelui de simetrie (Skewness), a
excesului (Kurtosis), având un rol esenţial în determinarea corelaţiei dintre variabile prin
metoda produselor a lui Bravais-Pearson.

5.3. Indicatori ai formei distribuţiei


Distribuţia gaussiană, simetrică şi normală ca înălţime, este paradigma fundamentală a
statisticii clasice, dar acest fapt nu trebuie luat ca de la sine înţeles fără a fi verificat în prealabil.
Cum am văzut când am prezentat modul, chiar şi existenţa unei singure zone de aglomerare a
datelor (distribuţie unimodală) este un lucru care trebuie cercetat, pentru că distribuţia poate avea
mai multe cocoaşe şi, dacă este bimodală sau multimodală, o mulţime de procedee statistice nu mai
sunt permise.

5.3.1. Simetria (oblicitatea) = Skewness


Se referă la faptul dacă ramura stâgă şi cea dreaptă (de sub şi de deasupra mediei) sunt egale
sau aproximativ egale. Uneori datele se aglomerează spre extrema stângă, şi atunci vorbim de
distribuţii asimetrice pozitiv, alteori spre extrema dreaptă şi asimetria este negativă. Exemplul
clasic pentru prima este profesorul foarte exigent în notare, media notelor sale bătând spre valorile
mici, şi a celui generos, cu media notelor bătând spre valori mari. Psihometricienii ştiu de exemplu
că ramura mai lungă a distribuţiei poate crea mai multe clase de scor, fiind deci mai discriminativă,
pe când cea mai scurtă mai puţine astfel de valori, fiind deci mai grosieră. Simetria sau oblicitatea
se calculează cu ajutorul momentului de ordinul trei, în care intervin media şi abaterea standard,
este o mărime amodală (nu se exprimă în unităţi de măsură de vreun fel). Ea se interpretează astfel:
când valoarea sa tinde spre 0, sau se află în intervalul [-0,80; 0,80] distribuţia este considerată

73

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

simetrică; cînd este sub -0,80 (pozitivă) curba este asimetrică spre stânga, iar când este peste 0,80
(negativă) ea este asimetrică spre dreapta.

5.3.2. Boltirea sau excesul = Kurtosis


Are mai multe nume, dar ea exprimă în mod fundamental înălţimea curbei unei distribuţii
prin raportare la o curbă gaussiană perfectă. În cazul unei mari apropieri de aceasta vorbim de o
distribuţie normocurtică. Pe de altă parte distribuţia cercetată poate da o curbă plată, prăbuşită,
mai joasă decât ar trebui şi atunci ea se cheamă platicurtică, având un exces spre extremele seriei
de variaţie şi un deficit pe centru; sau dimpotrivă, poate fi prea ascuţită şi înaltă, de unde şi numele
de leptocurtică, caz în care ea are un deficit spre extreme şi un exces pe centru. Deci numele de
exces din română este din punctul nostru de vedere inadecvat, fiind preferabil termenul de boltire.
Şi aceasta este o mărime amodală, determinată prin momentul de ordinul 4, ce implică de
asemenea media şi abaterea standard. Curba platicurtică are valorile apropiate de zero, cea
leptocurtică are valori pozitive iar cea platicurtică are valori negative.

5.4. Abordarea distribuţiilor univariate în SPSS


Secvenţa determinării indicatorilor de poziţie, cum mai sunt numiţi acei indicatori care se
referă la tendinţa centrală, a fost deja ilustrată când am vorbit de Descriptives sau de Frequencies.
Revenim pentru precizări suplimentare.

Figura 5.1. Fereastrele de dialog pentru Frequencies (sau Descriptives) într-o statistică univariată.

74

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 5.2. Outputurile Frequencies într-o statistică univariată.

Fereastra de dialog Frequencies: Statistics ne interesează în mod special şi aceasta


deoarece toate elementele descrise în paginile anterioare se regăsesc ca atare în 3 din cele 4 cadrane
ale ferestrei. Cadranul din stânga-sus este extrem de util în generarea de etaloane, deoarece el poate
indica orice punct percentil ne interesează: după ce se introduce în ferestruica respectivă, prin Add
el intră în fereastra de lucru de dedesubt, de unde poate fi scos prin Remove sau corectat prin
Change. Tot de acolo pot fi selectate numărul de punctele de tăietură dorite, care vor împărţi în
tranşe de arii egale suprafaţa de sub curbă. Selectând 9 astfel de puncte am generat o împărţire în
decile a distribuţiei, la care am adăugat şi cele 3 cuartile (punctele percentile 25, 50 şi 75), necesare
pentru un barem mai nuanţat. Toate acestea sunt afişate la coada outputului 1 din stânga figurii 5.2.
de mai sus.
Deoarece configuraţia ferestrei de dialog Frequencies: Statistics a mai fost prezentată
anterior, să analizăm mai îndeaproape outputul Statistics. Vedem în exemplul de mai sus că media
şi mediana sunt extrem de apropiate (170,81, respectiv 169), dar modul se află mult mai jos (160),
ceea ce ne face să credem că avem o distribuţie atipică. Abaterea standard este de 8,23 iar pătratul
acesteia, care se cheamă dispersie sau varianţă, este de 67,67. Simetria (Skewness) este pozitivă,
deci aglomerarea datelor va fi spre stânga, iar Excesul (Kurtosisul) indică o curbă normocurtică.

75

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Distanţa de la 193 la 159 de centimetri (valorile maximă şi minimă) este de 34, deci Amplitudinea
Împrăştierii - Range - este relativ extinsă. Suma valorilor individuale este de 7174.
Studiind outputul al doilea, din dreapta figurii 5.2., vedem că există o aglomerare de valori
între 165 şi 170, iar modul de 160 este situat foarte excentric, el neindicând în mod real o
aglomerare de valori în acea zonă. Prima diagramă din figura 5.3. dă o imagine sintetică tuturor
acestor constatări, în timp ce boxplotul din dreapta ne informează de faptul că distribuţia respectivă
nu este una omogenă, deoarece mediana şi amplitudinea împrăştierii sunt foarte diferite pentru
genul masculin şi cel feminin. Tototdată, valoarea nr. 18 este un outlier, deoarece ea se află la o
distanţă de mai mult de 1,5 cutii faţă de Q3 (marginea de sus a cutiei pentru băieţi).
200

4.0 18

190

3.0
180

2.0
170

1.0 160
Count

0.0 150
N= 21 21
159.00 163.00 167.00 172.00 176.00 182.00
161.00 165.00 169.00 174.00 178.00 189.00 Masculin Feminin

Inaltimea reala Sex

Figura 5.3. Reprezentarea prin bare şi boxploturi a distribuţiei din exemplul anterior.

76

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 6

MĂSURAREA STATISTICĂ A ASOCIERII


DINTRE VARIABILE: CORELAŢIA LINIARĂ

6.1. Corelaţia liniară


6.1.1. Asocierea statistică dintre două variabile cantitative continue
Nivelul cel mai înalt al cercetării ştiinţifice este cel experimental, pentru că acesta este locul
în care se pot determina relaţiile de tip cauzal dintre variabile. Acest fapt permite formularea de legi
şi face posibilă predicţia, unul dintre dezideratele cele mai importante ale oricărei ştiinţe. Dar, în
pofida importanţei lor indiscutabile, experimentul şi cvasi-experimentul sunt proceduri de cercetare
complicate, costisitoare şi pretenţioase. Nivelul de complexitate imediat următor după cel
experimental este cel corelaţional, mult mai larg accesibil cercetătorilor din orice domeniu. Deşi de
la acest nivel nu se accede la cauzalitate, el permite sesizarea relaţiilor dintre variabile, precizând
intensitatea sau chiar direcţia acestora.
Determinarea coeficientului de corelaţie se face pentru a stabili măsura în care scorurile a
două sau mai multe variabile co-relează, adică extinderea până la care variaţia scorurilor unei
variabile se asociază cu variaţia corespunzătoare în scorurile celei de a doua variabile. Din capul
locului trebuie precizat faptul că această asociere numită corelaţie şi notată cu r poate varia între -1
şi +1, 0 semnificând absenţa legăturii dintre variabile, 1 legătura perfectă, de tip liniar, dintre
acestea, iar -1 o legătură perfectă, dar inversă: creşterea uneia dintre variabile se asociază cu
descreşterea celeilalte.
Deoarece această relaţie dintre variabile poate fi redată printr-o dreaptă numită linia de
regresie, ea este definită matematic de o ecuaţie care are următoarea formulă:
y = a + bx + eroarea (1)
în care y este variabila prezisă, a este o constantă numită interceptul (locul în care linia de regresie
taie ordonata), b este panta liniei de regresie, dată chiar de coeficientul de corelaţie, iar x este
cealaltă variabilă. O asemenea ecuaţie este cu atât mai operaţională cu cât factorul de eroare este
mai mic, ceea ce presupune o asociere cât mai strânsă şi mai apropiată de o linie a norului de
puncte ce defineşte pe fiecare y în funcţie de fiecare x. De aceea corelaţia este considerată, alături
de regresie, tehnica cea mai puternică a unei statistici bivariate (cu cel puţin două variabile supuse
analizei). De exemplu, dacă ar fi să facem conversia anilor din calendarul obişnuit în cel ebraic sau
musulman sau a gradelor Celsius în grade Fahrenheit, factorul de eroare dispare, semn că predicţia
este întotdeauna precisă şi sigură, ecuaţia devenind:
77

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

y = a + bx (2)
adică F = 32 + 9/5C (3),
în care 32 este interceptul iar 9/5 este chiar panta liniei de regresie.

6.1.2. Corelaţia Pearson prin metoda produselor


Din statistica univariată (a unei singure variabile) am reţinut că o distribuţie poate fi
judecată după ceea ce se petrece pe centrul ei (tendinţele centrale fiind indicate cel mai bine de
medie şi mediană), ce se petrece la extremele şirului de variaţie (împrăştierea sau dispersia, cel mai
bine indicate de abaterea standard şi de dispersie) şi de forma acestei curbe (prin Skewness şi
Kurtosis). Dintre aceste valori corelaţia se sprijină cel mai mult pe conceptul de varianţă, dar
presupune în plus şi conceptul de covarianţă. Cu cât varianţa este mai mare, cu atât mai îndepărtate
sunt cazurile individuale de la medie, cu cât ea este mai mică, cu atât mai mult sunt ele apropiate de
medie. Reamintim de asemenea că rădăcina pătrată din dispersie (varianţă) este abaterea standard.
Dacă prima (dispersia) este unitatea de măsură a suprafeţei de sub curbă, cea de a doua (abaterea
standard) este unitatea de măsură a amplitudinii împrăştierii.
Covarianţa este măsura gradului de asociere (de suprapunere) dintre varianţa variabilelor x
şi y şi de aceea formula sa este analoagă formulei varianţei, cu precizarea că ea se referă doar la
varianţa comună a lui x în raport cu y.
Varianţa lui x Varianţa lui y Covarianţa lui x şi y
Sx2 = Σ(x – Mx2)/(N-1) Sy2 = Σ(y – My2)/(N-1) Cov = Σ(x – Mx)(y – My)/(N-1)
Dacă vom nota cu SS suma deviaţiilor pătratice şi cu SP suma produselor deviaţiilor, adunci vom
avea:
Sx2 = SSx/(N-1) Sy2 = SSy/(N-1) Cov(x,y) = SP/(N-1)

Condiţii prealabile pentru utilizarea corelaţiei prin metoda produselor


Ca şi în cazul altor metode parametrice, corelaţia r a lui Bravais-Pearson se sprijină pe
cîteva condiţii prealabile:
 datele sunt colectate din distribuţii continue, de pe scale de interval sau de raport;
 datele sunt culese de pe populaţii normal distribuite;
 relaţia dintre variabile este una de tip liniar, adică se poate ajusta o linie norului de puncte
care exprimă coordonatele celor două variabile x şi y;
 punctele acestui nor sunt distribuite normal şi sunt de grosime aproximativ egală de-a lungul
acestei drepte care este linia de regresie (condiţia homoscedasticităţii);

78

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Metoda de determinare a lui r se cheamă metoda produselor pentru că ea înseamnă de fapt


exprimarea covarianţei a două variabile x şi y în suma de produse ale fiecărei perechi de variabile
exprimate în note standardizate z.
rx,y = cov (zx, zy) = Σ zx zy / (N-1)
Expresia tipică a coeficientului de corelaţie prin metoda produselor este cea a lui Bravais-
Pearson:

rxy 
 x  x  y  y 
 x  x  *   y  y 
2 2

Formula de lucru a coeficientului de corelaţie este ce de mai jos:


N  xy   x  y 
r  rxy 
N  x 2
  x   N  y 2   y 
2
 2

SP
adică: r
SSx * SSy

Corelaţia prin metoda produselor: modul de lucru în SPSS


Este de aşteptat ca între înălţimea reală şi greutatea reală a unui număr de subiecţi există o
legătură strânsă, aşa cum a stabilit Galton cu mai bine de o sotă de ani în urmă. Dar între înălţimea
reală şi cea pe care cineva şi-ar dori-o (adică la care s-ar declara mulţumit dacă „zâna bună” i-ar
îndeplini dorinţa) există oare o aceeaşi relaţie ca şi între datele reale? Aceasta ne-ar îndreptăţi să
afirmăm că dorinţa „filtrează” alegerea astfel încât aceasta este proporţională cu realitatea, în sensul
în care oamenii mai scunzi se mulţumesc cu mai puţini centimetri în plus comparativ cu cei mai
înalţi? Această presupunere poate fi formulată ca o ipoteză unidirecţională, pentru că postulează nu
numai existenţa unei relaţii ci şi direcţia ei. Dacă nu am fi precizat şi direcţia relaţiei formulate,
ipoteza ar fi fost una bidirecţională, caz în care am fi căutat doar existenţa unei relaţii, fie ea
pozitivă sau negativă.
Paşii pentru determinarea corelaţiei (corelaţiilor) sunt cei indicaţi mai jos:
 introducem datele în Data Editor, prima coloană după numărul de ordine fiind inareal
(înălţimea reală), a doua inador (înălţimea dorită);
 selectăm secvenţa Analyze→Correlate→Bivariate, ceea ce însemnă că vor fi corelate doar
câte două variabile;
 de sub Bivariate Correlations, din stânga, de sub panoul datelor, se selectează variabilele
care vor fi corelate, în cazul de faţă inareal şi inador, care se trimit cu săgeata în panoul de
lucru numit Variables;

79

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 din cele 3 opţiuni oferite, Pearson, Kendal's tau-b şi Spearman, se selectează tipul de
corelaţie dorit (în cazul de faţă Pearson);
 selectăm din căsuţa corespunzătoare dacă predicţia este una unidirecţională, mai precisă
(one-tailed) sau una bidirecţională, mai puţin pecisă (two-tailed). Noi selectăm one-tailed
pentru că am anticipat deja existenţa unei relaţii pozitive între variabile;
 fereastra de dialog mai prezintă şi opţiunea Flag significant correlations care atunci când
este activată, afişează două praguri de semnificaţie pentru corelaţia obţinută, cel de .05 şi cel
de .01, marcate cu o steluţă, respectiv cu două; acest fapt va fi afişat sub forma unei note şi
la baza tabelului de corelaţie furnizat ca şi output, astfel: * Correlation is significant at the
0,05 level (2-tailed); ** Correlation is significant at the 0,01 level (2-tailed);
 putem după aceasta să dăm OK şi procedura va fi lansată, sau dimpotrivă, să apăsăm
butonul Options, să selectăm media şi abaterea standard pentru a fi şi ele afişate la output,
după care vom da OK.

Figura 6.1. Ferestrele de dialog Analyze→Correlate→Bivariate→Options pentru corelaţia r.

80

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 6.2. Outputul rezultat pentru corelaţie după selectarea


din Options a celor două posibilităţi de la Statistics.

Dacă în câmpul de lucru am introdus mai multe variabile spre a fi corelate, rezultatul va fi o matrice
de intercorelaţii, fiecare variabilă de pe orizontală fiind corelată cu fiecare variabilă de pe verticală.
Iată structura unui astfel de output, prezentat în figura 6.3:
 în fiecare căsuţă a tabelului avem corelaţia dintre variabilele de pe coloana şi linia
respectivă, dată cu 3 zecimale, pe prima linie numită Pearson Correlation;
 al doilea rezultat din căsuţă, din dreptul lui Sig.(2-tailed) afişează pragul de semnificaţie al
acestui coeficient de corelaţie, cu o precizie de 3 zecimale; sub forma steluţelor el apare şi
în dreptul corelaţiei respective, dacă a atins pragul semnificaţiei statistice de p = .05 sau p
=.01;
 al treilea element din căsuţă este N, adică numărul de perechi de scoruri care au intrat de
fiecare dată în corelaţie;
 matricea indică pe diagonală corelaţia 1,000 a fiecărei variabile cu ea însăşi, ceea ce este de
la sine înţeles; partea de deasupra şi de dedesubtul acestei diagonale exprimă corelaţii
simetrice, în oglindă faţă de partea inferioară;
 în cazul nostru corelaţia de .69 este puternic semnificativă statistic, ceea ce este o
confirmare a ipotezei unidirecţionale formulate: înălţimea dorită se relaţionează pozitiv
puternic cu înălţimea reală, planul dorinţei fiind proporţional cu cel al realităţii; aceasta
înseamnă că dorinţa „se ajustează după realitate” şi că cei mai mari de înălţime se declară
mulţumiţi cu mai mulţi centrimetri pentru înălţimea dorită, comparativ cu cei mai mici;

81

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 acest lucru ce poate observa din cele două steluţe afişate lângă rezultat (cu atât mai
concludente cu cât opţiunea selectată a fost bidirecţională şi nu unidirecţională), dar şi din
p–ul afişat;
 rezultatele se pot raporta în două feluri, ambele la fel de dezirabile:
r = 0,688, N = 42, p < 0,001
r = .69, Df = 40, p < .01
 corelaţia de .81 dintre greutatea reală şi cea dorită este mult mai mare decât cea existentă
între înălţimea reală şi cea dorită, ceea ce lasă loc pentru alte supoziţii / ipoteze legate de
vârsta adolescentină a subiecţilor şi de preocuparea lor obsesivă pentru ceea ce pot ei efectiv
controla, greutatea;
 cea mai mare corelaţie din tabel (r = .85) este între înălţimea dorită şi greutatea dorită, ceea
ce ar putea însemna că, în planul ideal al dorinţei, ideea de armonie a indicatorilor
antropometrici de bază este mult mai bine conturată decâ în plan real (r = .69).

Figura 6.3. Outputul rezultat pentru corelaţia a 4 variabile.

Întrebări de aprofundare
Iată şi câteva probleme pe care exemplul de mai sus le lasă deschise pentru abordări viitoare şi la
care vă invităm să daţi un răspuns utilizând baza de date creată la exerciţiile anterioare. Pentru
cerinţele la care nu aveţi date, schiţaţi cea mai pertinentă explicaţie care vă vine în minte:
 lărgirea numărului de subiecţi va reconfirma relaţiile descoperite pentru N = 42?
 vor fi relaţiile de aceeaşi intensitate şi semnificaţie statistică?
 mărind numărul de cazuri la 500, relaţia greutate reală – greutate dorită va fi cumva mai
asemănătoare ca magnitudine şi semnificaţie cu cea existentă între înălţimea reală şi cea dorită?

82

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 relaţiile respective se vor particulariza diferit pentru băieţi şi fete, ştiindu-se faptul că genul
masculin are o atitudine pozitivă faţă de ambele aspecte ale corporalităţii lor, în timp ce la fete/
femei se semnalează o atitudine mult mai circumspectă faţă de greutatea proprie?
 relaţiile descrise mai sus se instituie în timp, dar începând cu ce vârstă? Va fi simultan cu
dobândirea cunoştinţelor despre unităţile de măsură pentru înălţime şi greutate, sau paralel cu
instalarea pubertăţii şi adolescenţei, când construcţia identităţii de sine trebuie să se sprijine pe
un suport corporal cert?
 credeţi că se vor păstra regularităţile regăsite în cultura vestică în diverse alte culturi?
Argumentaţi răspunsul dat;
 cum comentaţi scatterele de mai jos şi cum veţi face să le obţineţi singuri?

4 3

3
2

2
1

0
0

Sex -1 Sex
-1
Feminin Feminin

-2 Masculin -2 Masculin
-2 -1 0 1 2 3 -2 -1 0 1 2 3

Z Inaltimea reala Zscore: Inaltimea dorita

Figura 6.4. Scattere pentru a ilustra relaţia dintre cele 4 variabile


exprimate în note z, separat pentru băieţi şi fete, pentru datele reale şi cele dorite.

6.2. Corelaţia rangurilor a lui Spearman


Atunci când condiţiile calculării lui r al lui Pearson nu sunt îndeplinite (date anormal
distribuite, valori atipice sau aberante, una sau ambele variabile sunt culese pe o scală ordinală şi nu
de interval sau de raport) utilizăm cel mai adesea rho (ρ) al lui Spearman. Acesta este echivalentul
nonparametric al lui r, determinarea sa sprijinindu-se pe ranguri şi nu pe scoruri brute. Rho poate fi
utilizat şi atunci când relaţia dintre două variabile nu este în mod clar una liniară. Singura problemă
importantă a acestei metode de determinare a corelaţiei este aceea care derivă din acordarea de mai
multe ori a aceluiaşi rang intermediar pentru mai multe scoruri egale între ele, ceea ce poate
distorsiona pe rho în sensul măririi lui artificiale. În această situaţie avem o altă opţiune, care este
procedeul Kendall tau-b, care va fi de asemenea prezentat.

83

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Exemplu aplicativ
La o şcoală de artă se cere profesorului de specialitate (muzică) ca în faza de început a
ciclului gimnazial să construiască pentru clasa sa de 10 elevi o ierarhie, începând cu cel mai
promiţător şi dotat muzical, până la cel mai puţin dotat elev. În acelaşi timp elevii sunt invitaţi ei
înşişi să pună în practică metoda autoevaluării obiective a lui Zapan şi să construiască o astfel de
ierarhie privitoare la aptitudinea pentru muzică a clasei respective.
Se cere să răspundem ls câteva probleme:
 există o concordanţă între cele două serii de date ordonate (ierarhii)?
 dacă am reface acelaşi exerciţiu de apreciere la sfârşit de ciclu gimnazial, când aptitudinea a
avut suficient de mult timp pentru a se forma şi dezvolta, iar elevii au putut să se cunoască
mai bine, am obţine corelaţii mai mari decât la început de ciclu gimnazial?
 în virtutea experienţei mai mari şi a culturii sale de specialitate, este de aşteptat ca
profesorul să fie un judecător mai avizat decât clasa de elevi. Pe de altă parte, ierarhia
construită de clasă ar putea să fie mai obiectivă, din cauza numărului mai mare de evaluatori
ca şi din cauza timpului comun mult mai mare petrecut împreună de elevi, de unde şi
posibilităţile lor superioare de mai bună intercunoaştere. Aşadar întrebarea este: corelaţia
ierarhie iniţială – ierarhie finală este mai bună pentru cadrul didactic sau pentru clasa de
elevi?
În tabelui de mai jos sunt sintetizate datele exemplului ipotetic prezentat anterior.
Clasa de elevi
Profesor Iniţial 1 2 3 4 5 6 7 8 9 10
Final 3 1 2 4 8 6 5 7 10 9
Clasa de Iniţial 4 2 5 1 3 8 6 7 10 9
elevi Final 4 2 3 1 6 5 8 9 7 10

Figura 6.5. Cele 4 ierarhii, construite de profesor şi de clasa de elevi,


la început şi la sfârşit de ciclu gimnazial.

Pentru a da răspunsurile la întrebările de mai sus vom lucra în următoarea ordine:


 introducem datele în SPSS după procedura deja ştiută;
 selectăm Analyze→Correlate→Bivariate pentru a ajunge în fereastra de dialog Bivariate
Correlation, prezentată şi în exemplul anterior, din care deselectăm Pearson şi activăm
Spearman;

84

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 6.6. Fereastra de dialog şi outputul 1 (Correlations) pentru exemplul de mai sus.

 transferăm în câmpul de lucru (la Variables) Profesor iniţial şi Profesor final, ca şi Elevi
iniţial şi Elevi final;
 dăm OK pentru a obţine corelaţiile comandate.

Notă: în exemplul dat noi am introdus date deja rangate, adică ierarhii. Puteam introduce însă orice
alt fel de date numerice, tipice scalelor de interval sau de raport, rangarea fiind automat efectuată de
programul SPSS: Nu va surprinde deci faptul că în exemplul ales de noi corelaţiile Spearman şi
Pearson vor fi identice, ceea ce nu va mai fi cazul cu datele de alt tip (de intervale sau de raport)
rangate în calculator. Pentru acest tip de date, rho supraestimează puţin corelaţiile, existând însă
tabele pentru o mai bună echivalare a lui r cu ρ.

Figura 6.7. Outputul 2 pentru exemplul de mai sus.

Se observă că outputurile 1 şi 2 pentru exemplul ales sunt extrem de similare, chiar dacă nu
identice. Diferenţa se referă nu la valorile corelaţiilor – identice pentru ambele tabele – ci la modul
lor de prezentare. În ambele, structura fiecărei căsuţe este aceeaşi, în sensul că se indică corelaţia

85

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

obţinută, cu o precizie de 3 zecimale, semnificaţia ei statistică (marcată cu steluţe, a căror legendă


se găseşte la baza tabelului) şi numărul de perechi ce au contribuit la determinarea acestor corelaţii.
Doar prima coloană din stânga este uşor diferită, în sensul că începutul de tabel este marcat cu
precizarea Spearman's rho.
Raporatarea outputului pentru rho este foarte asemănătoare ca cea pentru r:
 se reţin de regulă doar două zecimale;
 se notează probabilitatea ca această valoare să fie obţinută din întâmplare;
 raportarea ar putea arăta astfel: „Pentru profesorul de muzică există o corelaţie extrem de
semnificativă statistic între evaluarea iniţială şi cea finală (coeficientul rho Spearman = .87,
N = 10, p < .001)”.

Pentru a răspunde nuanţat la setul de întrebări formulate în pagina anterioară, introducem datele
într-un tabel cu dublă intrare, astfel:
Profesor Elevi
Iniţial Final Iniţial Final
Iniţial
Prof.

Final .867
Iniţial .794
Elevi

Final .758 .758

Figura 6.8. Tabel de sinteză pentru exemplul de mai sus.

Chiar dacă exemplul dat anterior este unul ipotetic, el trebuie comentat pe liniile de forţă ale
rezultatelor obţinute. Concluzionăm deci schiţând câteva explicaţii posibile:
 ierarhia iniţială stabilită de către profesor şi de clasa de elevi corelează extrem de puternic
(ρ = .79) şi deci experienţa de examinator a primului este contrabalansată de numărul mai
mare al evaluatorilor din a doua categorie, rezultând astfel ierarhii foarte similare;
 ierarhiile de la final de ciclu gimnazial stabilite de către profesor şi de clasa de elevi sunt
încă foarte puternic corelate (ρ = .76), dar în descreşterea faţă de cea iniţială, ceea ce ar
putea sprijini ipoteza intervenţiei unor criterii specifice de evaluare pentru profesor şi un rol
mai important al experienţei evaluatorului calificat (profesorul), comparativ cu cei
necalificaţi (elevii); răspunsurile diferenţiate la presiunile formative ale profesorului ar
putea de asemenea explica aceste diferenţe;
 comparaţia evaluărilor de la începutul ciclului gimnazial, comparativ cu cele de la sfârşitul
său, indică o constanţă mult mai mare pentru profesor (ρ = .87), decât pentru clasa de elevi
(ρ = .76). Dacă ridicăm la pătrat cei doi coeficienţi de corelaţie şi facem diferenţa
86

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

coeficienţilor de determinare astfel obţinuţi, obţinem un plus de aproape 20 de procente ca


stabilitate a evaluării în favoarea profesorului;
 de aici două concluzii de ordin mai general: 1. judecata evaluativă a profesorului este mai
stabilă în timp pentru că el are criterii de valoare mai clar definite şi o experienţă de
evaluator superioară şi 2. în virtutea faptului că profesorul valorizează răspunsurile la
presiunile formative exercitate asupra elevilor, distanţa dintre aprecierea iniţială şi cea finală
dintre cele două categorii se accentuează în timp;
 concluziile de mai sus au o foarte mică generalizabilitate din cauza numărului extrem de
mic de cazuri studiate, dar valabilitatea lor poate fi verificată prin creşterea numerică a
loturilor investigate în cadrul unui studiu mai extensiv.

6.3. Statistica lui tau (τ) al lui Kendall


O alternativă la coeficienţii de corelaţie a rangurilor a lui Spearman sunt coeficienţii tau ai
lui Kendall, care determină în esenţă gradul de potrivire (concordanţă) dintre mai multe serii de
evaluări făcute de evaluatori diferiţi. Ideea de bază a acestui tip de procedeu este aceea că un set de
ranguri poate fi convertit într-un altul printr-o serie de inversări a perechilor de ranguri dintr-un set.
Cu cât sunt necesare mai multe astfel de inversări, raportate la numărul total de inversări posibile,
cu atât mai mare este valoarea lui tau. În determinarea lui tau se foloseşte un raport care are la
numărător diferenţa dintre numărul perechilor de obiecte ale căror ranguri concordă (merg în
aceeaşi direcţie) şi numărul perechilor discordante. În funcţie de care dintre aceste două
componente predomină, tau va avea semnul pozitiv (predomină concordanţele), negativ (predomină
discordanţele) sau va fi în jurul valorii zero (cele două categorii sunt aproape egale sau chiar egale).
Nu am amintit încă nimic de numitor, pentru că în funcţie de acesta se determină 3 tipuri de
coeficienţi Kendall, tau-a, tau-b şi tau-c. În cazul lui tau-a numitorul este numărul total de perechi,
dar el devine greu interpretabil când ierarhia are mai multe valori egale. La tau-b numitorul ia în
calcul doar valorile ierarhice care sunt egale într-o pereche a seriei, fără a fi şi în cea de a doua.
Când ierarhiile sunt fără locuri egale, tau-a şi tau-b dau valori identice. Tau-c este destinat pentru
măsurarea gradului de concordanţă dintre seturile inegale de date, care ar trebui să răspundă
anumitor cerinţe pentru a putea fi posibile comparaţiile. De aceea acest ultim procedeu se apelează
din Crosstabs (Prelucrări încrucişate) şi nu de la Correlations. Din cele de mai sus rezultă că cel
mai utilizat procedeu Kendall este tau-b.
Iată secvenţa de paşi care trebuie urmată pentru a-l putea determina pe tau-b al lui Kendall:
 selectăm Analyze→Correlate→Bivariate;
 deselectăm Pearson (activ prin setare) şi selectăm Kendall tau-b;
 precizăm dacă predicţia noastră se bazează pe o ipoteză unipolară sau bipolară şi dăm OK.

87

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Semnalăm că steluţele de la Flag significant correlations se face după regula ştiută (* = p < .05 şi
** = p < .01). Outputul este similar cu cel pentru rho al lui Spearman, cu singura diferenţă că în
stânga –sus va fi scris Kendall’s tau-b. Până şi rezultatele obţinute se raportează similar: Kendall’s
tau-b = .45, N = 20, p < .05. Mai trebuie făcută o menţiune specială: utilizarea diagramelor
scatterplot pentru vizualizarea corelaţiilor trebuie făcută cu multă prudenţă pentru că acestea redau
scoruri brute şi nu ranguri, şi de aceea ele pot fi înşelătoare.

6.4. Corelaţia parţială


Se întâmplă în mod frecvent ca o corelaţie dintre două variabile să fie influenţată
semnificativ de o a treia variabilă. În exemplul nostru relativ la înălţimea şi greutatea reală şi dorită
am sugerat deja faptul că ar putea exista împortante diferenţe de gen, în sensul în care bărbaţii
valorizeză pozitiv atât înălţimea cât şi greutatea, iar femeile doar înălţimea, greutatea fiind
valorizată negativ. De altfel şi legătura dintre timpul alocat studiilor şi media şcolară generală ar
putea fi mediată semnificativ de o a treia variabilă, care este nivelul inteligenţei generale. Înseamnă
deci că relaţiile greutate reală – greutate dorită sau timp de studiu – performanţă şcolară nu sunt
unele genuine, în sensul că faptul pentru care ele corelează este dependent de o a treia variabilă,
apartenenţa de gen, respectiv inteligenţa. Dacă în al doilea exemplu am opera scoaterea inteligenţei
din relaţia investigată am putea constata faptul că această relaţie (timp de studiu – medie şcolară) ar
putea să se prăbuşească efectiv sub pragul semnificaţiei statistice.
Pentru a elimina ponderea unei variabile ce afectează relaţia dintre alte două variabile putem
utiliza un procedeu special, care este corelaţia parţială. Sunt necesare câteva precizări necesare:
 corelaţia dinainte de parţializare dintre două variabile se cheamă corelaţie de ordinul zero;
 este posibil să controlăm simultan mai multe variabile care intervin în corelaţie;
 dacă variabila controlată este formată dintr-un număr mic de categorii, observăm corelaţiile
pe grupuri separate de cazuri a variabilei de control înainte de parţializare. În exemplul cu
greutatea reală – greutatea dorită, vom observa corelaţiile pentru băieţi şi pentru fete şi dacă
ele sunt net diferite, am clarificat în mod anticipativ efectul parţializării.
Secvenţa de paşi necesară pentru calcularea corelaţiei parţiale este următoarea:
 introducem datele în Data Editor;
 selectăm Analyze→Correlate→Partial;
 selectăm greureal şi greudor din câmpul din stânga (al variabilelor), deasupra căruia scrie
Partial Correlations, şi le introducem cu săgeata în câmpul de lucru din dreapta;
 selectăm apoi variabila Sex şi o introducem cu săgeata în ferastra Controlling for;
 dăm clic pe Options şi din fereastra de dialog deschisă între timp selectăm Zero order
correlations, apoi dăm Continue şi încheiem ca de obicei cu OK.
88

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Figura 6.9. Ferestrele de dialog pentru corelaţia parţială.

Figura 6.10. Outputul pentru corelaţia parţială.

Interpretarea outputului
Tabelul rezultat are o structură specifică, în sensul că – pentru a face mai direct comparaţiile
– pe etajul superior sunt afişate corelaţiile de dinainte de parţializare (Zero Order Partials) dintre
toate cele trei variabile, care sunt greutatea reală, greutatea dorită şi apartenenţa de gen, iar pe etajul
inferior corelaţiile ce rezultă după eliminarea rolului variabilei de control (în funcţie de care s-a
făcut parţializarea).
Datele de mai sus se preteză la câteva comentarii:
 corelaţia dintre greutatea reală şi greutatea dorită este una extrem de puternică (0,83);
 parţializarea reduce puternic această corelaţie, care rămâne însă foarte puternică (0,68);

89

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 transformarea acestor valori în coeficienţi de determinare indică o descreştere cu 21 de


procente a gradului de asociere dintre variabole;
 se mai observă şi că asocierea cu apartenenţa de gen este mult mai puternică pentru
greutatea dorită (r = -0,82) decât pentru cea reală (r = -0,61);
 cum apartenenţa de gen a fost codificată masculin = 0, feminin = 1, reşaţia de mai sus
sugerează faptul că controlul greutăţii proprii este o problemă mai mare pentru fete decât
pentru băieţi;
 dacă analizăm prin comparaţie corelaţia dintre înălţimea reală şi cea dorită, se observă că
diferenţa dintre coeficienţii de determinare al coeficientului Pearson (r2*100 = 0,732 = 53%)
şi a celui de determinare (r2*100 = 0,412 = 17%) este de 36 de procente, cu mult mai mare
decât pentru greutate;
 pe de altă parte, corelaţia directă dintre apartenenţa de gen şi indicatorii reali şi cei doriţi
pentru înălţime este una mai slab marcată (rsex-IR = 0,69 şi rsex-ID = 0,74)ceea ce însemnă că
genul nu produce diferenţe mari între planul realităţii şi al dorinţei, ceea ce la greutate se
întâmplă;
Rezumând, putem conchide că:
1. apartenenţa de gen moderează mult mai puternic relaţia greutate reală – greutate dorită,
comparativ cu relaţia înălţime reală – înălţime dorită;
2. asocierea mai puternică a apartenenţei de gen se face mai ales pentru greutatea dorită, acolo
unde, în planul dorinţei, fetele valorizează puternic negativ greutatea.

Raportarea corelaţiei parţiale se face astfel pentru greutate: rpartial = 0,69; df = 40, p < .001.
Corelaţia dintre greutatea reală şi cea dorită este foarte puternică (r = 0,81, df = 40, p < .001).
Atunci când este controlată de apartenenţa de gen, această corelaţie descreşte semnificativ (r = 0,69,
df = 40, p < .001). Deci apartenenţa de gen controlează într-o bună măsură relaţia existentă între
greutatea reală şi cea dorită.

Spre deosebire de oricare alt tip de corelaţie, cea parţială implică problema cauzalităţii. De
regulă, nivelul corelaţional al cercetării nu implică problema cauzalităţii, pentru că în relaţia dintre
x, y şi z, x îl poate determina pe y, y pe x sau amândouă pot fi determinate cauzal de un al treilea
element z. Fără a dispune de date suplimentare sau de un suport teoretic în sprijinul acceptării doar
a uneia dintre cele trei posibilităţi formulate mai sus, cel mai adesea este imposibil de determinat
care dintre aceste modele cauzale este cea mai bună interpretare a unui coeficient de corelaţie.

90

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Sinteză recapitulativă despre corelaţie şi scatter


 Coeficientul de corelaţie este măsura numerică ce indică gradul de asociere dintre două seturi de scoruri.
El ia valori între -1 şi +1 trecând prin 0, caz ce exprimă absenţa oricărei asocieri sau relaţii dintre cele
două variabile.
 Corelaţiile pozitive (notate cu plus) arată că scorurile unei variabile cresc paralel cu creşterea scorurilor
celeilalte variabile, acest paralelism fiind cu atât mai mare cu cât corelaţia este mai mare. Corelaţiile
negative (notate cu minus) arată că în timp ce scorurile unei variabile cresc, scorurile celeilalte variabile
descresc (relaţie inversă).
 Corelaţiile în jur de zero pot arăta, pentru majoritatea situaţiilor, că diagrama scatter prin care vizualizăm
norul de puncte ce defineşte pe fiecare y în funcţie de fiecare x are o formă haotică, punctele norului
fiind răspândite pe toată suprafaţa diagramei de corelaţie, fără a le putea ajusta o linie de regresie. Există
situaţii speciale, ca în cazul norului de puncte curbiliniu, unde se obţine aceeaşi corelaţie zero, deşi norul
de puncte nu este distribuit aleator sau haotic ca în cazul precedent.
 De aceea diagrama scatter este una care este mai informativă decât expresia numerică a corelaţiei:
- dacă relaţia este una perfectă, astfel încât fiecare y poate fi dedus din fiecare x, şi invers, norul de puncte
se organizează după o linie perfectă, care este ecuaţia de regresie, căreia i se poate scrie o ecuaţie. Când
corelaţia este pozitivă linia are panta stînga-jos – dreapta-sus iar când ea este negativă orientarea liniei
este inversă, stînga-sus – dreapta – jos;
- cu cât relaţia este mai slabă, cu atât mai mult distanţa punctelor de la linia de regresie ajustată este mai
mare, astfel încât spre corelaţiile foarte mici – ce tind spre zero – norul de puncte ocupă toată suprafaţa
diagramei de corelaţie, ele fiind dispersate aleatoriu în jurul oricărei drepte desenate pe aceasta;
- scatterul prezintă imagistic şi valorile atipice, aflate la extremele seriei de variaţie (outlieri), care măresc
artificial variabilitatea datelor şi implicit corelaţia, dar şi valorile aberante, aflate în colţurile opuse ale
capetelor liniei de regresie, ca în cazul introducerii inversate a unor date exprimate în unităţi de măsură
diferite, situaţie în care corelaţia descreşte dramatic. Deci scatterul este informativ şi pentru erorile de
introducere a datelor (situaţie în care le verificăm şi le reintroducem corect) dar şi pentru valorile atipice
(situaţie în care avem de decis dacă vom determina corelaţia cu sau fără ele);
- scatterul ne informează şi în legătură cu grosimea norului de puncte, care, când este aceeaşi pe toată
lungimea liniei de regresie, avem fenomenul de homoscedasticitate, condiţie de bază pentru unele tipuri
de analize statistice elaborate;
- scatterul (dar nu numai el) poate ajuta la alegerea celui mai potrivit tip de coeficient de corelaţie. Dacă
punctele nu prezintă curbiliniaritate ori valori atipice vom alege cel mai puternic procedeu, r al lui
Pearson; în situaţiile contrarii, sau când datele prrovin de pe o scală ordinală alegem rho al lui Spearman,
în care corelaţia este mai puţin afectată de valorile atipice;
- când norul de puncte evidenţiază o formă curbilinie trebuie o atenţie sporită, căci aceasta nu înseamnă
absenţa relaţiei, ci două tipuri de relaţie, una de un fel până la un punct sau zonă, după care ea îşi
inversează sensul, ceea ce trimite la alte tipuri de abordare a relaţiilor dintre variabile.

91

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Exerciţii aplicative pentru primele şase capitole

Studiul corelaţiei a început practic cu analiza relaţiei existente între înălţime şi greutate, aşa
cum acestea au rezultat din datele culese de către Galton în al său Laborator de antropometrie
(1884). Pentru că ei continuă să fie şi astăzi cei mai importanţi indicatori antropometrici, vă
propunem un exerciţiu de reanaliză computerizată a relaţiei dintre aceştia, global dar şi diferenţiat
după criteriul aparteneţei de gen, pe un eşantion de studenţi şi studente din Braşov. Şi pentru că ne-
am transformat în “zâna bună”, propunând studenţilor în cauză să indice care ar fi mărimea la care
înălţimea şi greutatea lor proprii i-ar satisface pe deplin, vă propunem să studiaţi aceste relaţii şi în
planul ideal, al dorinţei, pentru a vedea dacă aceasta se supune vreunei regularităţi matematice.

B Ă I E Ţ I F E T E
Nr. IR ID GR GD IR ID GR GD
Valori absolute Valori absolute
1. 177 185 110 95 165 170 56 55
2. 172 175 58 68 161 168 55 47
3. 174 180 60 70 160 180 47 60
4. 185 185 85 85 163 170 56 50
5. 180 180 81 76 160 170 56 50
6. 166 175 58 65 170 170 58 55
7. 165 190 65 95 159 165 44 46
8. 180 180 77 75 169 175 68 60
9. 182 182 74 80 169 175 62 58
10. 168 170 64 72 167 170 47 47
11. 168 172 60 63 166 166 54 50
12. 176 185 58 75 160 170 46 45
13. 168 175 58 65 160 170 60 60
14. 174 174 60 60 173 170 65 63
15. 178 180 73 80 162 170 55 53
16. 175 182 60 60 164 170 59 50
17. 175 181 72 77 170 165 55 50
18. 193 180 76 78 167 167 47 52
19. 182 190 80 72 170 170 60 55
20. 178 180 74 70 165 165 59 53
21. 189 191 76 85 169 175 50 50

Cerinţe: A
1. Introduceţi datele într-un singur fişier SPSS pentru ambele sexe, introducând pe prima coloană
numărul curent (nr_crt), apoi celelalte variabile numite: sex, inareal (IR), inador (ID), grereal (GR),
gredor (GD).
2. Etichetaţi variabilele.
3. Pentru variabila sex codificaţi (de la Value) Masculin = 0; Feminin = 1.
4. Din Data operaţi Split File după criteriul apartenenţei de gen şi cereţi de la Descriptives valorile
tendinţei centrale (media, mediana, modul şi suma valorilor), ale împrăştierii (amplitudinea

92

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

împrăştierii = Range, valorile minimă şi maximă, abaterea standard, dispersia şi eroarea standard a
mediei = SEM) şi formei distribuţiei (Skewness şi Kurtosis). Înainte de a lansa prin OK comanda,
activaţi butonul Save standardized values as variables pentru a obţine notele z pentru cele 4
variabile (IR, ID, GR, GD).
5. Intraţi apoi în Frequencies şi de la Statistics cereţi acelaşi determinări pentru cele 4 variabile
(IR, ID, GR, GD), producând şi histograma cu curba gausssiană supraimprimată.
6. Efectuaţi aceleaşi determinări pentru întreg eşantionul prin Descriptives şi Frequencies.
7. Intraţi în Transform→Compute şi creaţi două variabile noi numite inaltime, greutate care să
reprezinte mediile dintre valoarea reală şi cea dorită pentru înălţime şi greutate.
8. Pentru datele reunite determinaţi punctele percentile pentru decile şi pentru percentilele 25, 50 şi
75, ce definesc primul, al doilea şi al treilea cuartil.
9. Din Transform→Recode→Into Different Variables creaţi două noi variabile numite inare_cl
(Înălţimea reală clase) şi grere_cl (Greutatea reală clase) care să recodifice câte 33% din cazuri
pentru eşantionul reunit (băieţi + fete = total). Pentru aceasta cereţi în prealabil punctele de tăietură
pentru percentilele 33 şi 66 de la Frequencies.
10. Operaţi reprezentarea grafică cu bare simplă pentru cei 4 indicatori, pe rând (IR, ID, GR, GD),
apoi Clustered după criteriul apartenenţei de gen, cele două înălţimi şi cele două greutăţi (reală şi
dorită).
11. Faceţi aceeaşi reprezentare cu bare pentru înălţimea şi greutatea reale, apoi pentru cele dorite,
comentând diferenţele ce apar datorită unităţilor de măsură diferite utilizate.
12. Construiţi ultimele diagrame pe datele standardizate z şi comentaţi diferenţele care apar faţă de
diagramele anterioare (pe date brute).
13. Din Graph→Boxplot→Simple şi apoi Clustered efectuaţi reprezentarea grafică pentru datele
reale şi pentru cele dorite, după criteriul apartenenţei de gen.
14. Calculaţi intercorelaţiile r Pearson dintre IR-ID, GR-GD; IR-GR, ID-GD, separat pentru băieţi
şi fete iar apoi pentru total, reunind datele într-un singur fişier. Comentaţi rezultatele obţinute.
15. Determinaţi corelaţiile rho Spearman dintre IR-ID, GR-GD; IR-GR, ID-GD separat pentru
băieţi şi fete iar apoi pentru total, comentând diferenţele apărute între r şi rho.
16. Construiţi scatterul norului de puncte pentru înălţimea reală şi cea dorită, greutatea reală şi cea
dorită pe tot grupul şi apoi separat pentru băieţi şi fete. După care marcaţi pe acelaşi scatter separat
băieţii şi fetele. Ce lucruri semnificative observaţi?
17. Introduceţi cele mai semnificative date într-un tabel, separat pentru băieţi, fete şi total,
comentând rezultatele obţinute.
18. Determinaţi corelaţia parţială dintre înălţimea reală şi cea dorită, greutatea reală şi cea dorită,
ambele controlate de apartenenţa de gen.

93

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Cerinţe: B
Răspundeţi la următoarele zece întrebări:
1. Ce se întâmplă cu corelaţiile dintre înălţimea reală şi greutatea reală dacă adăugăm la băieţi
următoarele două cupluri de valori: 199 cm - 100 kg; 155 cm - 42 kg? Verificaţi-vă practic
afirmaţia, după care eliminaţi datele introduse.
2. Ce se întâmplă cu corelaţiile dintre înălţimea reală şi greutatea reală dacă prima valoare
introdusă, 177 cm, ar fi fost tastată 1770 cm? Probaţi-vă afirmaţia.
3. Ce s-ar întâmpla cu aceleaşi corelaţii dacă, din greşeală, am fi introdus primul set de valori
invers, 177 cm la greutate şi 110 kg la înălţime? Demonstraţi-vă afirmaţia cifric şi cu un scatter.
4. Care sunt utilităţile coeficientului de corelaţie?
5. Ce este norul de puncte şi asupra căror caracteristici ne informează el?
6. După ce veţi parcurge capitolul despre testarea semnificaţiei statistice, analizaţi diferenţele
dintre mediile la IR, ID, GR şi GD pentru băieţi şi fete. Arătaţi dacă păstraţi sau respingeţi
ipoteza de nul şi la ce prag de semnificaţie.
7. Unul dintre coeficienţii de corelaţie are valoarea r = 3,25. Ce puteţi spune despre el şi cum vă
argumentaţi afirmaţia?
8. Admiţând că corelaţia IR-ID este de r = .69 iar GR-GD este de r = .81, determinaţi cu câte
procente este mai bună a doua corelaţie decât prima, utilizând coeficientul de determinare. Cât
din varianţa criteriului prezis (valorile dorite) acoperă fiecare valoare reală?
9. Luaţi separat, pe băieţi şi fete, corelaţiile IR-ID şi GR-GD sunt mai mici decât dacă punem la
comun, într-un singur fişier, toate datele. De ce se întâmplă acest lucru?
10. Corelaţia dintre IR-GD pentru cele 21 de fete este de r = .38, nesemnificativă statistic. Cum ar fi
fost o corelaţie de aceeaşă mărime dacă numărul fetelor ar fi fost de N = 42? Dar de N = 84?
Explicaţi.

94

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 7

UTILIZAREA PREDICTIVĂ A ASOCIERII DINTRE VARIABILE:


REGRESIA LINIARĂ SIMPLĂ ŞI MULTIPLĂ

7.1. Introducere
Termenul de regresie a fost utilizat pentru prima dată de Galton, el neavând nici o conotaţie
negativă. Supuse prelucrărilor statistice, rezultatele obţinute din investigarea în primul laborator de
antropometrie din lume (Londra, 1884) a unor caracteristici individuale, scoteau în evidenţă
tendinţa valorilor extreme de a regresa spre medie. Cu alte cuvinte, din părinţi foarte înalţi sau
foarte scunzi există tendinţa să se nască copii mai mici, respectiv mai mari decât aceştia.
Dacă în psihanaliză un comportament este numit regresiv atunci când el se întoarce la faze
revolute ale copilăriei, căzând spre forme de echilibru tipice trecutului, regresia statistică poartă
spre viitor, pentru că ea are în vedere în primul rând anticiparea sau precizarea unor fenomene,
plecând de la seturi de date actuale. Înseamnă că regresia îndeplineşte o funcţie de bază în ştiinţele
socio-umane, deoarece orice ştiinţă îşi propune nu doar să explice faptele care îi circumscriu
domeniul, ci să le şi prezică, anticipeze, prin postularea de regularităţi.
Pentru a fi foarte riguroşi, regresia are în vedere ambele dimensiuni ale ştiinţei, deoarece ea
poate fi utilizată atât pentru a explica - regresia în scop explicativ - cât şi pentru a prezice - regresia
în scop predictiv. În prima situaţie, dacă prin metoda experimentală s-a determinat o relaţie cauzală
între unul sau mai mulţi factori, numiţi variabile independente, şi o variabila dependentă, atunci
ponderea cu care factorii din prima categorie (cauzele) intervin în cea de a doua categorie (efectele)
poate fi modelată matematic printr-o ecuaţie de regresie. De exemplu, se ştie că inteligenţa
generală, motivaţia sau calităţi ale voinţei intervin cu ponderi diferite în ceea ce numim reuşita sau
randamentul şcolar al elevilor. Mai mult, jocul acestor elemente psihologice se asociază cu
particularităţi non-psihologice, cum ar fi apartenenţa de gen (în condiţii de dotare intelectuală egală,
fetele obţin rezultate şcolare semnificativ mai ridicate, ele mobilizâd în reuşita şcolară mult mai
mult factorii de personalitate; mai mult, ele pot converti într-o forţă pozitivă conformismul social,
dezirabilitatea socială şi locusul extern al controlului - Rotter - ce vor fi puse mai mult în slujba
reuşitei şcolare). Poziţia în fratrie, mărimea acesteia, statutul socio-economic al familiei, studiile
părinţilor (ale mamei în special), starea de sănătate biologică şi psihologică, calitatea proceselor
instructiv-educative din şcoala etc. şi încă alţi factori pot fi invocaţi a avea o legătură cauzală cu
reuşita şcolară. Problema care se pune este aceea de a stabili intensitatea acestor legături şi de a le
95

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

introduce într-un model matematic economic care să dea cea mai puternică legătură, prin cel mai
mic număr de elemente explicative. Deci întrebarea principală la care trebuie să răspundă regresia
utilizată în scop explicativ este aceea dacă şi în ce măsură o variabilă independentă (VI) contribuie
semnificativ la evoluţia variabilei dependente (VD), în condiţiile în care am controlat experimental
influenţa altor factori (variabilele parazite) asupra acesteia.
Regresia utilizată în scop predictiv foloseşte şi la nivel terminologic alte concepte, deoarece
elementul prezis se numeşte criteriu, iar elementul/elementele care fac posibilă predicţia se numesc
chiar predictori. Legătura dintre predictori şi criteriu se încearcă a fi maximizată prin includerea
într-o ecuaţie de regresie a acelor factori dintr-o categorie care au cea mai mare putere, şi aceasta
într-o anumită ordine, determinată de importanţa lor. De exemplu, în comiterea suicidului anumiţi
factori au un coeficient de risc mai ridicat (dispoziţia depresivă, tendinţele autodevalorizatoare,
sentimentul scăzutei autoeficacităţi personale, stima de sine diminuată, temperamentul melancolic
etc.). Studiindu-i adecvat, ei pot fi abordaţi matematic printr-un model predictiv puternic, care să
ghideze acţiunile şi intervenţiile suportive ulterioare. Aceeaşi problemă se poate pune în legătură şi
cu securitatea rutieră, cu anticiparea nivelului reuşitei la un curs de formare, cu selecţia primară
prin examene psihologice pentru anumite categorii de personal etc.
Cea mai importantă caracteristică a psihodiagnozei - validitatea - se sprijină pe acest tip de
demers, deoarece orice diagnostic psihologic se face în vederea unui prognostic, în raport cu care
un test sau o baterie de teste se spune că se validează. Întrebarea de fond la care trebuie să răspundă
regresia utilizată în scop predictiv se referă la care sunt predictorii ce ne ajută să estimăm cel mai
corect şi mai economic criteriul.

A doua distincţie majoră în materie de regresie este diferenţierea terminologică între


regresia liniară simplă şi regresia multiliniară sau multiplă. Dacă în primul caz este vorba de o
distribuţie bivariată, în care există un singur predictor (variabila independentă) şi un singur criteriu
(variabila dependentă), în a doua situaţie avem mai multe surse de variaţie, deoarece ecuaţia de
regresie include mai mulţi factori ce intervin cu ponderi diferite în predicţia criteriului. Este evident
că modelul multivariat are putere explicativă sau predictivă mai mare decât cel liniar simplu. Dar şi
într-un caz şi în celălalt putem apela la regresia liniară (fie ea simplă sau multiplă) în două condiţii:
- relaţia dintre predictor şi criteriu (respectiv variabila independentă şi variabila dependentă
VI - VD) este una liniară, sau este adusă spre acest model;
- criteriul / variabila dependentă este măsurată printr-o scală numerică (de intervale sau de
rapoarte), pentru alte tipuri de scale existând forme specifice de regresie (logistică, logistică
multinominală sau ordinală).

96

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

7.2. Predicţie deterministă sau probabilistă


Dacă am vrea să facem estimaţia a ceva, aceasta ar putea fi mai grosieră sau mai nuanţată,
în funcţie de elementele pe care le utilizăm în predicţie. De exemplu, dacă am vrea să ne vindem
maşina proprietate personală Dacia 1300, am putea să cercetăm preţul mediu cu care maşini de
acest tip se vând pe piaţă. Folosind media şi abaterea standard, cunoscând şi un pic de statistică, am
şti că am putea obţine în proporţie de 68% acest preţ, plus şi minus o abatere standard; 96% preţul
mediu plus şi minus două abateri standard şi 99% plus şi minus trei abateri standard în jurul
preţului mediu.
Practica ne arată însă că problema nu e rezolvabilă doar prin cunoaşterea preţului mediu şi a
dispersiei acestuia, deoarece anul de fabricaţie, starea maşinii, numărul kilometrilor parcurşi sau
elemente mai subtile (a fost maşina implicată într-un accident major?, vânzarea se face toamna -
când preţurile coboară, sau primăvara, când preţurile urcă?; introducerea unor legi - standardul
Euro 3 sau 4, ori chiar zvonuri - maşinile de un anumit tip nu se vor mai înmatricula la poliţie)
intervin de asemenea în structura preţului actual. Dacă pentru vânzătorul ocazional asemenea
lucruri par fastidioase, pentru cel ce trăieşte efectiv din vânzări/cumpărări ele ajung să capete o
importanţă specială.
Predicţiile pe care urmează să le facem sunt tot de tip probabilistic, pentru că ele nu
anticipează cu o precizie absolută elementul prezis, în condiţiile în care fenomenul este determinat
de o multitudine de cauze, fiind practic imposibil de cunoscut şi stăpânit toate sursele de variaţie ale
factorilor în cauză.
Dacă am avea un model care să prezică cu exactitate valorile unei variabile, plecând de la
valorile variabilelor care o afectează, el s-ar numi model determinist (ca în fizică) şi ar avea
formula:
y = a*x
în care y este variabila prezisă, x variabila (variabilele) predictoare şi a o constantă. Modelul
probabilistic ţine cont de intervenţia factorilor aleatorii (hazardul) care sunt o sursă de eroare, deci
el va avea formula:
y = a*x + eroarea aleatorie
y = componenta deterministă + eroarea aleatorie

7.3. Regresia bivariată


Se numeste „bivariată” deoarece acest tip de regresie pleacă de la relaţia existentă între două
variabile: independentă şi dependentă, predictor şi criteriu, ori gradul de asociere care exprimă
intensitatea relaţiei dintre două variabile este - aşa cum am arătat anterior - dată de coeficientul de
corelaţie. Expresia vizuală a acestei relaţii este dată de diagrama de corelaţie, unde norul de puncte

97

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

tinde mai mult sau mai puţin spre o dreaptă. În cazul corelaţiilor perfecte (r = ± 1) norul de puncte
ia chiar forma unei drepte, numită linie de regresie, căreia i se poate determina o ecuaţie (ca
oricărei drepte) şi care trece prin toate punctele norului de puncte. Aceasta înseamnă că putem
anticipa cu exactitate pe y plecând de la x (şi reciproc), neexistând nici o diferenţă între rezultatele
estimate şi cele constatate. Din păcate aceasta este doar o situaţie ideală, în realitate regresia
căutând acea dreaptă care să reproducă cel mai bine evoluţia norului de puncte, pentru a permite
estimări cât mai exacte ale rezultatelor. Pentru ca aceasta să fie posibil este nevoie ca între predictor
şi criteriu să existe o corelaţie cât mai mare, deoarece creşterea corelaţiei „strânge” norul de puncte
tot mai aproape în jurul unei drepte. Dreapta pe care o „ajustăm” norului de puncte ar trebui să
satisfacă două condiţii:
 să minimizeze suma tuturor erorilor: adunând abaterile pozitive sau negative ale tuturor
punctelor de la linie, această sumă ar trebui să fie minimă. Numai pe baza acestui criteriu nu am
şti însă cum să trasăm efectiv linia, deoarece valorile negative şi cele pozitive se anulează
reciproc şi criteriul nu distinge între mulţimea de linii care „potrivesc” punctele;
 să minimizeze suma pătratelor tuturor abaterilor de la linie: acesta este un criteriu mai valid (şi
singurul!), deoarece se poate demonstra matematic (principiul celor mai mici pătrate) că există
doar o singură linie care potriveşte bine toate punctele, spre deosebire de situaţia precedentă.
Aşadar10, linia de regresie care redă cel mai bine norul de puncte este una singură şi ea se
construieşte după principiul celor mai mici pătrate (the least squares în engleză) şi apelează de fapt
la proprietăţile matematice ale ecuaţiei unei drepte, care arată astfel:
y = B0 + B1*x
unde: - B0 se cheamă interceptul, adică punctul de intersecţie al liniei cu ordonata (axa OY);
- B1 indică panta liniei de regresie şi - deoarece el este dat de valoarea tangentei unghiului
θ - el indică cu cât creşte y atunci când x creşte cu o unitate; panta este ascendentă pentru corelaţiile
pozitive şi descendentă pentru cele negative.
În cazul regresiei bivariate B1 este dat de formula:
B1 = r * σy / σx
unde r este coeficientul de corelaţie iar σx şi σy sunt abaterile standard pentru cele două variabile.
Coeficientul B se calculează dupa formula:
B0 = y - B1 * x
în care y şi x sunt mediile variabilelor y şi x.

10
Tilda (^) de deasupra variabilei y, fie ea standard sau brută, arată că valoarea obţinută prin ecuaţia de regresie nu este
cea reală, măsurată, ci este valoarea anticipată, expectată prin predicţie.

98

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Pentru a da un exemplu, media unei clase de elevi este la inteligenţă de 106,71 cu o abatere
standard de σx = 13,52, iar media la matematică este de 7,98 cu o abatere standard σy = 0,92,
corelaţia dintre QI şi matematică fiind r = 0,83. Vom avea: B1 = 0,83 * 0,92/13,52 = 0,0565
B0 = 7,98 - 0,0565 * 106,71 = 7,98 - 6,03 = 1,95
y = 1,95 + 0,0565 * x
Pentru QI de 116 şi 87, valoarea anticipată a mediei la matematică va fi:
y = 1,95 +0,0565 * 116 = 8,50
y = 1,95 + 0,0565 * 87 = 6,87
De menţionat faptul că ecuaţia de regresie estimează rezultatele uşor diferit faţă de cele real
constatate dar, cu toate acestea, parametrii acestei ecuaţii asigură soluţia cea mai apropiată de
rezultatele observate. Diferenţa dintre rezultatele estimate şi cele observate sunt cu atât mai mari cu
cât corelaţia dintre cele două variabile este mai scăzută. Atât în cazul regresiei liniare simple, cât şi
în al celei multiliniare există o serie se procedee care ne ajută să decidem în legătură cu eficienţa
ecuaţiei de regresie în estimarea rezultatelor.
Un set de date poate fi exprimat în note brute (aşa cum au fost ele culese) sau în note
standard, adică în note z (abaterea de la medie a unei valori, exprimată în unităţi sigmatice). Cea
mai simplă predicţie bivariată este cea exprimată în scoruri z: cunoscând nota z a unei persoane la o
variabilă, încercăm să prezicem nota sa z la cealaltă variabilă după formula:
zy = B*zx
în care B se cheamă chiar coeficient de regresie. Dar, deoarece valoarea coeficientului standardizat
de regresie este exprimat de coeficientul de corelaţie dintre variabile, formula anterioară devine:
zy = r * zx
Apelăm la exemplul anterior, unde corelaţia dintre QI şi media la matematică era de 0,83:

media lui x = 106,71


σx = 13,52
zx1 = (116 - 106,71) / 13,52 = 0,69 zx2 = (87 -106,71) / 13,52 = - 1,46
media lui y = 7,98
σy = 0,92
zy1 = ? zy2?
zy1 = 0,83 * 0,69 = 0,57 zy2 = - 1,21
Verificare: (8,50 - 7,98) / 0,92 = 0,57; (6,87 - 7,98) / 0,92 = - 1,21
Aşa cum se vede, rezultatele obţinute pe cele doua căi sunt coincidente.

99

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

7.4. Regresia liniară multiplă (multivariată)


În psihologie sau în pedagogie un efect este dependent de mai multe cauze ce intervin cu
ponderi diferite (multi-cauzalitate), deci şi predicţia noastră ar putea fi îmbunătăţită dacă am ţine
cont simultan de mai multe variabile şi de relaţia lor cu variabila prezisă.
Indicatorul sintetic al acestei relaţii este R, adică coeficientul de corelaţie multiplă, care -
atunci când este ridicat la pătrat (R2) devine şi el coeficient de determinare multiplă, pentru că ne
arată care este variaţia din variabila dependentă y (criteriul) explicată de variabilele predictori (sau
variabila independentă x).

A B

C
Figura 7.1.. Relaţia predictori şi criteriu în regresia bivariată simplă (A) şi multivariată (B şi C).

Dacă am reda prin cercuri variaţia totală a unei variabile am obţine diagrame Venn de tipul
celor de mai sus. Zona din varianţa comună explicată de r2 sau R2 a fost de fiecare dată notată cu a,
zona b fiind cea care rămâne neexplicată. Dacă în regresia simplă un singur predictor lasă o mare
parte din varianţa lui y neexplicată (zona b), în exemplul următor vedem că fiecare predictor
explică câte o parte din varianţa lui y, partea b micşorându-se. Exemplul C ne atrage atenţia că
adăugarea de noi predictori nu diminuă semnificativ zona b decât atunci când ei sunt independenţi,
adică necorelaţi între ei. Deoarece x2 şi x3 sunt corelaţi între ei, x3 nu contribuie la diminuarea zonei
b în aceeaşi măsură în care o face x2 şi de aceea va trebui hotărât dacă rămân în ecuaţia de regresie
amândoi predictorii, iar dacă nu, care va fi cel păstrat.
Dacă folosim mai mulţi predictori (variabile independente), ecuaţia de regresie multiplă va
avea următoarea formulă:
^y = B0 + B1*x1 + B2*x2 + ... + Bn*xn

100

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

În alegerea celui mai potrivit model de regresie există - pe de o parte - considerentele


teoretice de la care plecăm, dar - pe de altă parte - şi câţiva indicatori statistici obiectivi care ne
ghidează în deciziile noastre. Aceştia sunt coeficientul de corelaţie multiplă R sau pătratul acesteia -
numit coeficient de determinare multiplă - şi testul F, întâlnit şi în cazul analizei de varianţă
ANOVA.
R poate fi judecat ca orice coeficient ce corelaţie, dar R2 este mai informativ, pentru că el ne
arată cât din dispersia variabilei-criteriu este explicată de un predictor (sau de un grup de predictori)
şi cât din varianţă explică în plus fiecare nou predictor introdus în model, atunci când abordarea se
face prin metoda ierarhică. Practic, atunci când un predictor nu ameliorează semnificativ predicţia
criteriului, R2 creşte nesemnificativ şi acesta este semnul că acel predictor nu mai trebuie inclus în
model. Dacă privim cu atenţie figura de mai sus x1 şi x2 corelează strâns cu criteriul y şi -
necorelând între ele - x2 ameliorează semnificativ predicţia pe care o realiza numai x1. În schimb, x3
elimină prea puţin din b, chiar dacă corelează şi el cu y, şi aceasta deoarece este el însuşi corelat şi
cu x2. Dintre x2 şi x3 va trebui să păstrăm doar un singur predictor, pe cel mai puternic, şi aceasta
deoarece modelul final trebuie să dea cea mai bună predicţie cu numărul cel mai mic de predictori,
adică trebuie să fie unul economic. Pe de altă parte, ANOVA oferă o valoare a lui F, acesta fiind un
test de semnificaţie comparabil cu testul t Student, diferenţa fiind că face comparaţia dintre o
variabilă continuă şi una cu mai mult de două stări (trihotomică, qvadrihotomică etc., adică
polihotomică). Analizând raportul mediilor pătratice ale variantelor prezise (portiunea a din
diagramă) şi a celor reziduale (factorii de eroare, adică porţiunea b) pentru modelul de regresie
construit în ansamblul sau, F ne informează despre semnificaţia statistică a acestuia în acelaşi fel
sau manieră ca şi testul t Student al lui Gosset.
În al treilea rând, programul de analiză computerizată a datelor SPSS 10.0 oferă finalmente
output-uri (vezi figurile de mai jos) pentru metoda ierarhică care are pe ultimele coloane
determinarea lui t şi a semnificaţiei sale statistice p pentru fiecare dintre componentele modelului,
ajutându-ne să identificăm şi să păstrăm doar combinaţia de predictori care sunt cel mai
semnificativ asociaţi cu criteriul.
Pentru că scopul acestui curs este doar unul de introducere în problema regresiei, detaliile
construirii celui mai potrivit model vor fi luate din sursele bibliografice citate. Oferim câteva
informaţii despre metoda ierarhică, frecvent utilizată în cazul regresiilor cu scop explicativ, şi mai
rar în cele cu scop predictiv. Activarea meniului pentru această metodă se face în următoarea
secvenţă:

Analyze → Regression → Linear


care activează o fereastră cu mai multe câmpuri. De la Method selectăm Enter, deoarece este o
regresie ierarhică ce permite să se analizeze succesiv influenţa variabilelor independente adăugate

101

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

progresiv - sau scoase progresiv din model - asupra variabilei dependente. Specificul metodei
constă în aceea că toate variabilele independente introduse în analiză sunt tratate ca un bloc comun
de variabile. În câmpul din dreapta-sus vom introduce variabila dependentă, să zicem succesul
şcolar, exprimat sub forma mediei generale obţinute de elevii unei clase.
O analiză corelaţională precedentă ne-a arătat că acesta corelează pozitiv cu inteligenţa (QI),
cu indicele de memorie (IMe), cu apartenenţa de gen (M/F), cu mărimea fratriei, cu studiile
părinţilor (generale, medii, superioare, adică G=1, M=2 şi S=3) şi cu motivaţia. Prima dată vom
introduce deci QI, care va fi şi primul model analizat; apoi apăsăm butonul Next şi introducem
IMe, care împreună cu QI va forma al doilea bloc analizat; apoi apartenenţa de gen, care împreună
cu QI şi IMe va forma al treilea bloc analizat ş.a.m.d. Scoaterea unui element din model se face în
sens invers, regresiv, prin butonul Previous, până ajungem la locul introducerii sale. Butoanele
Statistics, Plots, Save şi Options nuanţează analiza cu grafice, tabele, creare de noi variabile etc.

Model Summarye

Adjusted St d. Error of
Model R R Square R Square the Estim ate
1 .609a .371 .368 .5659
2 .700b .490 .484 .5111
3 .734c .538 .531 .4874
4 .768d .590 .581 .4607
a. Predictors: (Const ant), Studii parinti
b. Predictors: (Const ant), Studii parinti , QI
c. Predictors: (Const ant), Studii parinti , QI , Stima de
sine total
d. Predictors: (Const ant), Studii parinti , QI , Stima de
sine total, Succes scolar
e. Dependent Variable: Media generala

Figura 7.2. Outputul cu Model summary în programul SPSS 10.0.

Cel mai important output din multitudinea celor oferite de program sunt cele care ne dau un
Model Summary, pentru fiecare model în parte acesta furnizând coeficientul de corelaţie multiplă
R, cel de determinare multiplă R2, un R2 ajustat (deoarece R este dependent simultan de numărul
predictorilor incluşi în ecuaţia de regresie şi de numărul de subiecţi, R2 ajustat încearcă să elimine
aceste influenţe, oferind un parametru mai puţin distorsionat). Dar aşa cum apreciază şi Sava
(2004). deşi oferă informaţii mai exacte decât coeficientul de determinare, R2 ajustat ramâne
sensibil la distorsiune în cazul nerespectării condiţiilor necesare aplicării regresiei liniare. Jumătate
din acest output se chemă Change Statistics deoarece indică cu cât se schimbă valoarea lui R2 prin
adăugarea de noi variabile şi dacă această schimbare este semnificativă statistic (testul F).
Al doilea output important este cel din figura de mai jos, deoarece el ne furnizează pentru
fiecare model în parte coeficienţii beta (B) ce vor fi incluşi în ecuaţia de regresie finală, eroarea
standard a acestuia, coeficienţii B standardizaţi şi nestandardizaţi, t şi semnificaţia statistică a

102

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

fiecărui predictor introdus în modelele succesive, ca şi limitele inferioară şi superioară ale


intervalului de încredere pentru coeficienţi nestandardizaţi, corespunzător probabilităţii de 95%
(atunci când se solicită aceasta).

Coefficientsa

Unstanda Standardized
rdized Coefficients
Model Coefficien
B Beta t Sig.
1 (Constant) 6.811 39.039 .000
Studii parinti .805 .609 10.591 .000
2 (Constant) 5.389 20.251 .000
Studii parinti .611 .462 8.185 .000
QI 1.766E-02 .374 6.627 .000
3 (Constant) 5.747 21.584 .000
Studii parinti .505 .382 6.732 .000
QI 1.462E-02 .310 5.558 .000
Stima de sine total 8.329E-03 .251 4.447 .000
4 (Constant) 5.280 19.595 .000
Studii parinti .446 .338 6.197 .000
QI 1.521E-02 .322 6.110 .000
Stima de sine total 6.542E-03 .197 3.618 .000
Succes scolar 8.201E-03 .240 4.847 .000
a. Dependent Variable: Media generala

Figura 7.3. Coeficienţii Beta (standardizaţi şi nestandardizaţi) şi semnificaţia t


pentru modelele successive, împreună cu probabilitatea aferentă p de eroare.

Astfel, tabelul de mai sus ne permite să redactăm următoarea ecuaţie de regresie:


Media generală =
5,28 + 0,446*Studii părinţi + 0,01521*QI + 0,006542*Stima de sine + 0,0082*Succes şcolar
Interpretarea acesteia este cea care urmează.
 Scopul ecuaţiei este fie acela de a explica, fie acela de a prezice. În cazul nostru, introducând în
ecuaţie un caz particular (QI = 97, studii părinţi medii M = 2, stima de sine = 44 şi predicţia
succesului şcolar după HSPQ Cattell = 63) rezultă că media şcolară cea mai probabilă va fi:
Media generală = 5,28 + 0,446*2+ 0,01521*97 + 0,006542*44 + 0,0082*63 = 8,452.

 În al doilea rând coeficienţii standardizaţi ne arată cu cât se modifică variabila dependentă


(criteriul), dacă variabila independentă se modifică cu o unitate, în condiţiile în care toate
celelalte elemente rămân constante. Problema este că, prin aducerea la acelaşi format comun -
notele z -, se desfiinţează unitatea originară de măsură, ceea ce pentru multe date psihologice nu
este foarte important, deoarece psihologia nu dispune de unităţi de măsură naturale pentru
emoţie, stres, motivaţie sau alte caracteristici măsurate.

103

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Histogram Scatterplot
Dependent Variable: Media generala Dependent Variable: Media generala
30 10,0

9,5

20 9,0

8,5

8,0
10

7,5
Std. Dev = ,99
Mean = 0,00
7,0
0 N = 192,00
-2

-2

-1

-1

1,

1,

2,

2,
6,5
-,2
-,7

,2

,7
,7

,2

,7

,2

25

75

25

75
5

5
5
5
5

-3 -2 -1 0 1 2 3

Regression Standardized Residual Regression Standardized Residual

A B
Figura 7.4. Histograma cu distribuţia reziduurilor standardizate (stânga) şi
scaterul reziduurilor standardizate (dreapta).

Normal P-P Plot of Regression Standa


Dependent Variable: Media generala
1,00

,75

,50

,25

0,00
0,00 ,25 ,50 ,75 1,00

Observed Cum Prob

Figura 7.5. Gradul de suprapunere dintre valorile prezise şi cele reale.

Figurile de mai sus sunt alte reprezentări tipice pentru regresie. Astfel, în figura 4A (stânga)
observăm că reziduurile (diferenţele dintre scorurile prezise şi cele reale) se distribuie bine, după o
curbă gaussiană; scatter-ul din dreapta al figurii 4 (B) trebuie să redea un nor de puncte cât mai
aleator al acestor reziduuri, ceea ce se şi întâmplă în bună măsură. Figura 5 reprezintă gradul de
suprapunere dintre valorile prezise şi cele reale, care este foarte mare în cazul nostru, modelul
subevaluâd uşor chiar înainte de centrul curbei, dar supraevaluând uşor imediat după aceea.
Pe ansamblu, modelul prezentat ca exemplu (rezultat dintr-o cercetare reală) este unul foarte
bun, deoarece fiecare element nou adăugat face să crească valoarea coeficientului de corelaţie
multiplă R de la .61 la .70, apoi la .73 şi finalmente la .77, toate valorile lui t fiind peste 2,58,
probabilitatea p de eroare fiind de fiecare dată mai mică de .01.

104

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

CAPITOLUL 8

TESTAREA SEMNIFICAŢIEI STATISTICE

8.1. Ce test de semnificaţie statistică aplicăm şi după ce criteriu?


După ce am parcurs o mulţime de etape pregătitoare – de la introducerea datelor până la
explorarea lor iniţială şi manipulări mai mult sau mai puţin active ale variabilelor – am ajuns în faţa
sarcinii de le prelucra pentru a primi răspuns la ipotezele cercetării. Dar şi acum trebuie să avem
clar în minte ce tip de test statistic dorim să aplicăm:
 un număr de teste examinează diferenţele dintre eşantioane, în sensul că operează o
comparaţie a diferenţelor dintre acestea pentru a răspunde la întrebarea dacă ele provin din
aceeaşi populaţie, ca în cazul testelor t;
 altele măsoară gradul de asociere dintre variabile, fie prin metoda corelaţiei, fie prin
determinarea independenţei, ca în cazul testelor chi pătrat.
Toate aceste teste de semnificaţie se spijină pe câteva presupuneri în legătură cu datele, şi
aceasta deoarece noi le folosim pentru a obţine informaţii reieşite din eşantionul nostru cu scopul de
a estima parametrii (media, abaterea standard sau corelaţia dintre două seturi de date), adică
valorile populaţiei de ansamblu din care acesta a fost extras. De aceea un număr dintre aceste teste
se numesc parametrice. Pentru a le selecta corespunzător trebuie să ţinem cont de câteva aspecte şi
să răspundem clar la câteva întrebări:
 eşantionul nostru este biasat, adică distorsionat? Cum eşantionul nostru a fost extras dintr-o
populaaţie mai largă, dacă el este unul biasat, valorile sale nu vor putea fi buni predictori ai
acestei populaţii;
 pe ce tip de scală au fost măsurate datele? Testele parametrice reclamă scala de raport (cu
un zero natural) sau de interval (cu o unitate de măsură egală pe toată scala). Ambele scale
sunt destinate variabilelor continue, adică fără goluri în distribuţie (valori pe care care
variabila nu le-ar putea lua între oricare dintre punctele ei);
 populaţia este una normal distribuită? Un număr însemnat de proceduri statistice se
sprijină pe această presupunere, putând rezulta sub- sau supraestimări ale parametrilor când
condiţia de mai sus nu este satisfăcută. Ea se poate uşor verifica fie prin histograme, fie prin
boxploturi, fie prin testul Kolmogorov - Smirnov pentru normalitatea datelor;
 satisfac datele presupunerea relativă la omogenitatea varianţei? Aceasta se sprijină pe
supoziţia că orice manipulare am face, ea va afecta fiecare caz (membru al populaţiei

105

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

statistice) în aceeaşi măsură, neafectând însă împrăştierea de ansamblu sau simetria


populaţiei.

Concluziile unor asemenea teste de semnificaţie ne pot duce la admiterea sau la respingerea
ipotezei de nul (Ho). Aceasta afirmă din capul locului că diferenţele dintre două sau mai multe
grupuri sunt datorate hazardului. Când un rezultat este semnificativ statistic, însemnă că el este
suficient de mare pentru a indica diferenţe împortante, neîntâmplătoare între grupurile cercetate.
Pentru a evita două tipuri de erori care sunt posubile, erorile de tipul întâi (respingerea cu prea mare
uşurinţă a ipotezei de nul) şi de tipul al doilea (respingerea prea uşoară a ipotezei specifice), vom
lua în calcul mai multe întrebări:
 cât de semnificativă este probabilitatea obţinută? Ce mărime a efectului au obţinut alte
studii similare? Diferenţa – chiar atunci când este semnificativă statistic – este ea şi
importantă?
 care sunt nivelurile acestei încrederi, pe care SPSS le furnizează automat atunci când sunt
estimaţi parametrii unei populaţii plecând de la eşantioanele de lucru? Cu cât aceste limite
de încredere sunt mai strânse, cu atât este mai uşor de judecat şi de apreciat, şi invers, cu cât
sunt mai largi, ele au o valoare practică mai mică.
Dacă rezultatele sunt nesemnificative statistic, aceasta ne duce în mod automat la acceptarea
ipotezei de nul, de unde riscul erorii de tipul al doilea, respingerea ipotezei specifice, când de fapt
ea era una valabilă. Aceasta se poate datora şi faptului că cercetarea noastră nu a avut suficientă
putere statistică: ori efectul nu a fost destul de mare, ori zona populaţională pe care el a fost cercetat
a fost prea mică. Lărgirea eşantionului, sau aplicarea unora dintre procedurile de mărire a puterii
cercetării (vezi Sava, 2004, pp. 38-46) ar putea schimba semnificativ rezultatele cercetării în cauză.

8.2. Tipuri de teste de semnificaţie


Dihotomia teste parametrice – teste nonparametrice care a fost clarificată anterior este
cea mai puternică distincţie legată de testele de semnificaţie. Astfel, testele parametrice pot fi
aplicate doar când sunt satisfăcute condiţiile relative la datele din care provin măsurătorile
(distribuţie normală, dispersii aproximativ egale ale grupurilor comparate şi nivel de măsurătoare
tipic scalelor de raport sau de intervale). Când aceste condiţii nu pot fi respectate există varianta
testelor nonparametrice, care nu presupun condiţii speciale relative la distribuţie. Aşadar, prima
precauţie pe care ne-o luăm pentru a utiliza testele parametrice se referă la verificarea normalităţii
distribuţiei, ceea ce în SPSS 14 este foarte simplu:

106

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 dacă kurtosis-ul şi skewness-ul11 sunt în jurul valorii zero, distribuţie este normală sau
foarte aproape de normal. SPSS determină automat şi valoarea standard a acestor
coeficienţi. Atunci când valoarea raportului se află în afara intervalului -2, +2 se respinge
ipoteza normalităţii distribuţiei cercetate;
 când eşantionul are mai mult de 50 de cazuri, din meniul Explore se va utiliza testul
Kolmogorov-Smirnov (numit şi testul K-S Lilliefors datorită corecţiei adusă de Lilliefors)
utilizabil pentru scalele de inteval. Testul calculează procentele cumulate pentru cele două
distribuţii, făcându-se apoi diferenţa dintre procentajul cumulat real şi cel teoretic. SPSS
calculează probabilitatea de a obţine această diferenţă prin hazard (ceea ce constituie
ipoteza de nul), respingând ipoteza de nul la un prag p < .05;
 alte teste de normalitate a distribuţiei sunt W al lui Shapiro-Wilkis (Statistics→Summarize
→Explore→Plots), testul Chi pătrat (Statistics→Nonparametric tests→Chi Square),
care arată concordanţa dintre distribuţia obţinută şi cea teoretică, pentru o variabilă
nonparametrică;
În sprijinul aceluiaşi demers putem apela şi la modele grafice:
 graficele Q-Q dispun pe orizontală valorile observate şi pe verticală pe cele aşteptate
teoretic; graficele P-P reprezintă pe axa OX probabilităţile cumulate observate iar pe OY pe
cele aşteptate. Cu cât distribuţia este mai normală, graficul tinde să o reprezinte mai aproape
de o linie înclinată la 45 de grade, abaterile de la normalitate imprimând un caracter şerpuit
acesteia;
 boxploturile (prezentate detaliat la capitolul de reprezentări grafice) dau o imagine intuitivă
foarte bună pentru zona cutiei, prin mediană, dar şi spre extreme prin „mustăţi” (wiskers);
avantajul acestora provine şi din posibilitatea comparaţiei simultane dintre două sau mai
multe categorii (masculin-feminin; introvert-ambivert-extravert etc.).

Teste de omogenitate versus teste de concordanţă (homogeneity vs. goodness of fit):


testele de concordanţă sunt dificil de aplicat, deoarece ele presupun cunoaşterea parametrilor unei
populaţii pentru a-i putea compara cu valorile obţinute la nivel de eşantion şi de a stabili astfel dacă
acesta este sau nu reprezentativ. Testele de omogenitate presupun doar comparaţia valorilor
distribuţiei la nivelul a două eşantioane pentru a vedea dacă acestea diferă semnificativ între ele.
Testul Levene de egalitate a varianţei a două eşantioane este un test de acest tip, care precede de
fiecare dată calculul t de semnificaţie a două eşantioane independente.

11
Interpretarea acestor indicatori a fost făcută la pagina x.

107

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Teste unilaterale versus teste bilaterale ţin cont de modul de formulare al ipotezei. Astfel,
atunci când aceasta afirmă că există o diferenţă semnificativă între talia bărbaţilor şi cea a femeilor,
acesta este un test bilateral, deoarece nu specifică şi sensul diferenţei. Nivelul diferenţei dintre
medii, necesar respingerii ipotezei de nul, este unul mai ridicat în cazul testelor de semnificaţie
unilaterale, unde se specifică exact şi sensul acestei diferenţe (talia bărbaţilor este semnificativ mai
mare decât a femeilor).

8.3. Opţiuni SPSS. Teste pentru un singur eşantion


Procedee SPSS
Teste parametrice Nonparametrice
↓ ↓ ↓ ↓
a. One Sample T Test Chi square… Binomiale 1-Sample K-S
b. Independent-Samples T Test
c. Paired-Samples T Test
d. One-Way ANOVA
Figura 8.1. Teste de semnificaţie parametrice şi nonparametrice din SPSS.

Înainte de analiza testele de semnificaţie parametrice menţionăm că două eşantioane sunt


independente atunci când nu sunt relaţionate unul cu altul, ceea ce intervine atunci când
măsurătorile subiecţilor dintr-un grup nu au cu nimic de-a face cu măsurătorile subiecţilor din cel
de al doilea grup. Grupurile dependente, care dau naştere design-urilor cu grupe corelate – sunt cele
în care varianţa de la nivelul variabilei dependente este cauzată de o corelare între grupurile de
subiecţi sau între seturile lor de scoruri. Cele mai bune exemple pentru acest tip de grupuri sunt
studiile „înainte şi după” când cele două seturi de măsurători sunt corelate pentru că ele provin de la
acelaşi grup de subiecţi. Alt exemplu este cel al grupurilor apariate, în care fiecare membru dintr-un
grup îşi găseşte un corespondent în celălalt grup, după câteva criterii semnificative (vârstă, sex, QI,
nivel de instrucţie etc.).
Testul t pentru un singur eşantion compară fie valorile unor indicatori ai eşantionului cu
eşantionul populaţiei din care el a fost extras, fie pe cele ale unui subgrup cu valorile eşantionului
luat în întregul său. Cum prima situaţie impune o condiţie greu de satisfăcut – cunoaşterea
parametrilor populaţiei – mult mai des intervine cea de a doua situaţie. Să presupunem astfel că am
aplicat spre standardizare un test de empatie pe o populaţie universitară largă, incluzând
proporţional studenţi atât de la facultăţile tehnice (realiste), cât şi de la cele umaniste. Ipoteza
specifică ar putea fi aceea că studenţii de la facultăţile de psihologie, teologie şi medicină ar avea
un nivel de empatie mult peste media întregului grup de studenţi, în virtutea faptului că empatia
este pentru ei o condiţie a viitoarei lor profesiuni.

108

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Statistica acestui test se calculează după formula: t = (m - μ)/ES, în care m este media eşantionului,
μ media grupului din care el a fost extras iar ES eroarea standard a distribuţiei de eşantionare.
Decizia de acceptare sau de respingere a ipotezei de nul se ia în funcţie de probabilitatea afişată de
SPSS.

8.4. Testul t pentru eşantioane independente


Condiţia de aplicarte a acestui test, numit şi testul Student, este aceea ca grupurile
comparate să aibă volume şi dispersii aproximativ egale, situaţia contrară putând afecta siguranţa
rezultatelor obţinute. Formula este calcul este cea de la cursul introductiv de statistică: t = (m1 –
m2)/ES, în care m1 şi m2 sunt mediile primului, respectiv a celui de al doile grup iar ES este eroarea
standard a diferenţei mediilor.
În SPSS secvenţa de lucru pentru a efectua testul t pentru eşantioane independente este următoarea:
 activăm secvenţa Analyze→Compare Means→Independent-Samples T Test;
 transferăm în panoul Test Variable(s) toate variabilele care urmează a fi comparate (care
pot fi considerate şi variabile dependente);
 în ferestruica Grouping Variable introducem variabila dihotomică (masculin-feminin,
urban-rural, admis-respins) după care se va opera comparaţia prin testul t independent;
 imediat după acest transfer se activează butonul Define Groups care ne solicită să precizăm
cum au fost codificate categoriile respective: grupul 1 (bărbaţi) = 0, grupul 2 (femei) = 1, în
exemplul nostru; menţionăm că variabila poate fi şi trihotomică (slabi = 1, medii = 2, buni =
3) sau multihotomică, cazuri în care putem compara fiecare categorie cu fiecare, sau doar
categoriile extreme (1 cu 3). Este de preferat însă ca, din cauza multitudinii comparaţiilor
implicate, a dificultăţii de a reuni rezultatele într-un indicator sintetic şi a efectului seturilor
de comparaţii (Sava, 2005) să dăm un test de tipul ANOVA, care va efectua post-hoc toate
comparaţiile posibile între grupuri pentru a identifica perechile ce dau diferenţe
semnificative;
 pentru a trece la analiza propriu-zisă se dă Continue şi apoi OK. Aceasta va produce două
tipuri de outputuri ce trebuie analizate, interpretate, raportate şi eventual întabelate.

Figura 8.2. Ferestrele de dialog pentru testul de semnificaţie Independent-Samples T Test.

109

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Primul output include variabila ce va fi comparată (numită şi dependentă), categoriile după care se
face comparaţia (în cazul de mai sus bărbaţii sunt comparaţi cu femeile), numărul N de cazuri din
fiecare categorie care a participat la comparaţie, mediile şi abaterile standard pentru fiecare grup, cu
valorile rotunjite la a doua zecimală şi eroarea standard a mediei (SEM), utilă în anumite situaţii.

Figura 8.3. Outputurile pentru testul de semnificaţie Independent-Samples T Test.

A doua parte a outputului, afişată imediat sub cel de dinainte, cuprinde variabilele comparate,
fiecare având alocate câte două rânduri: când la testul Levene pentru egalitatea varianţei celor două
grupuri aceasta este presupusă egală – şi atunci vom lua în considerare valorile de pe rândul de sus,
şi în situaţia inversă, când aceasta este presupusă inegală – caz când vom lua valorile de pe rândul
de jos. De unde ştim ce rând să alegem? Capul de tabel este întotdeauna testul Levene pentru
verificarea egalităţii varianţei celor două grupuri, asumpţiunea de bază a testului fiind egalitatea
acestora. Aşadar, coloanele a doua şi a treia din tabel sunt destinate afişării testului F (simbolul este
identic cu F de la ANOVA, având aceeaşi semnificaţie de indicator al diferenţei) şi a semnificaţiei
acestuia (Sig.), care este singura dintre cele două valori care trebuie interpretată. Astfel, dacă
diferenţa varianţelor grupurilor este la un p > .05 înseamnă că se admite ipoteza de nul (diferenţa
este nesemnificativă) şi se iau în considerare valorile de pe rândul de sus din căsuţă; când p < .05 se

110

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

iau valorile de pe rândul al doilea din căsuţă, deoarece diferenţa dintre varianţele grupurilor este
una semnificativă. În exemplul nostru, niciuna dintre valorile lui F nu atinge pragul semnificaţiei
statistice, deci pentru toate cele 4 variabile comparate vom lua în consideraţie doar rândul de sus.
După ce am făcut o rapidă inspecţie vizuală a testului Levene, trecem la ceea ce ne
interesează de fapt, adică coloana a 4-a cu valoarea lui t pentru diferenţa mediilor şi coloana a 6-a
cu nivelul semnificaţiei statistice a acestei diferenţe. Aşa cum se observă din figura de mai sus,
există o singură diferenţă semnificativă statistic, şi anume mecanismele de apărare imature, care
dau un t de 2,452, pragul de semnificaţie fiind sub .05, adică .016. Rezultatul se poate raporta de
maniera: pentru mecanismele de apărare imature diferenţa mediilor de 14,02, în favoarea bărbaţilor
este semnificativă la t(113) = 2,45, p = .016, în care 113 din paranteză reprezintă numărul gradelor
de libertate trecute în coloana a 4-a. Dacă însă ipoteza nu a fost bidirecţională, ci unidirecţională,
nivelul de semnificaţie este jumătate din cel afişat la Sig.(2-tailed) şi raportarea devine: t(113) =
2,45, p = .008 (sau p < .01), deci ipoteza se confirmă la un prag de semnificaţie mai sever.

Grup1 N1 Media Ab. St. Diferenţa Student Semnificaţie


Grup2 N2 x σ Δ = x2-x1 t p
DSQ Mature Masculin 22 44,95 7,76 0,94 0,49 0,63
Feminin 93 44,01 8,23
DSQ Nevrotice Masculin 22 40,23 11,47 -0,22 -0,09 0,93
Feminin 93 40,45 10,36
DSQ Imature Masculin 22 110,09 27,15 14,02 2,45 0,02
Feminin 93 96,08 23,36
DSQ Total Masculin 22 195,27 40,53 14,74 1,72 0,09
Feminin 93 180,54 35,11
Figura 8.4. Tabel centralizator pentru outputurile din figura 5.3.

Interpretarea sensului psihologic al datelor de mai sus este dependentă de consideraţiile teoretice şi
de ipotezele emise. În cazul nostru este evident că scorurile bărbaţilor la mecanisme de apărare total
este cu aproape 15 puncte mai mare decât al femeilor, că această diferenţă provine aproape exclusiv
de la mecanismele imature, unde ea se află deja în zona semnificaţiei statistice. Creşterea numerică
a grupului masculin ar da un sens mai clar asupra acestui fapt, căci s-ar putea ca şi scorul total la
mecanismele de apărare să intre în zona semnificaţiei statistice.

8.5. Testul t pentru eşantioane corelate


Cum îi spune şi numele, acest test se utilizează pentru eşantioanele corelate, cel mai adesea
pentru acelaşi eşantion supus unor măsurători repetate, ca în faza de pretest şi de posttest a unui
experiment. De aceea el se mai cheamă şi testul t pentru măsurători repetate.

111

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Procedura de lucru este următoarea:


 deoarece scopul testului este acela de a găsi diferenţe semnificative între mediile a două
eşantioane, vom alege secvenţa Analyze→Compare Means→Paired-Samples T Test;
 selectăm două variabile care vor forma o pereche, pe care o transferăm în cutia Paired
Variables, unde ambele vor apărea pe aceeaşi linie;
 clicul pe OK lansează comparaţia, care presupune de fapt şi o corelaţie.
Atenţie, SPSS-ul nu permite să selectăm ambele variabile simultan, şi atunci le selectăm pe rând,
construind perechea. Dacă vrem să supunem analizei mai multe perechi de variabile simultan, le
construim pereche cu pereche în panoul Paired Variables. Când cele două variabile nu sunt una
lângă alta, dăm clic pe prima, ţinem apăsată cheia Control (Ctrl) şi apoi dăm clic pentru a selecta
cea de a doua variabilă din pereche.

Figura 8.5. Ferestrele de dialog pentru testul de semnificaţie Paired-Samples T Test şi outputurile sale.

112

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Primul output (Paired Samples Statistics) ne indică perechile luate în analiză, mediile
fiecărui element din pereche şi numărul N de cazuri care au participat la comparaţie, ca şi abaterile
standard şi eroarea standard a mediei pentru fiecare element al perechii. Al doilea output (Paired
Samples Correlations) afişează pe fiecare rând perechea şi numărul de cazuri corelate, pentru care
se indică valoarea corelaţiei şi semnificaţia statistică a acesteia. Dacă utilitatea mediei şi a abaterii
standard este una evidentă, eroarea standard a mediei este utilă în calculul semnificaţiei testelor de
comparare a mediilor şi mai ales în determinarea intervalelor de încredere. Înterpretarea corelaţiilor
(rho al lui Spearman) relevă gradul de consistenţă sau de paralelism dintre prima serie de
măsurători şi cea de a doua, ţinând cont că acestea se efectuează pe aceiaşi subiecţi sau pe subiecţi
apariaţi, şi deci foarte asemănători. Aceşti coefecienţi de corelaţie se interpretează în termeni de
semnificaţie statistică făcând uz de ultima coloană a outputului 2. SPSS produce şi un al treilea
tabel (Paired Samples Test) care, te lângă medie, abaterea standard şi eroarea standard a mediei a
fiecărei perechi, dă şi limitele de jos şi de sus ale intervalului de încredere pentru o probabilitate de
eroare de 95%, testul t, gradele de libertate (df) şi valoarea lui p - Sig.(2-Tailed) ca indicator al
semnificaţiei statistice (pentru o ipoteză bidirecţională). Modalitatea de raportare a rezultatului
pentru cele 42 de perechi analizate este următoarea: t(41) = 4,74, p < .001. Observăm că în
paranteza ce urmează după t se trec gradele de libertate şi nu numărul perechilor. Scorurile mediilor
vor fi verificate pentru a vedea dacă direcţia diferenţei acestora este cea prezisă de ipoteza
specifică, în cazul în care aceasta a fost unidirecţională va duce în raportare la împărţirea lui p la 2.
Notă: semnificaţia diferenţei se poate uşor determina din tabelul al treilea al outputului, împărţind
media la SEM (Eroarea Standard a Mediei). Pentru a ilustra statistic corelaţiile din testul t pentru
eşantioane perechi, se pot genera diagrame de tip scatter, ca în exemplul de mai jos.

200 100

90

190

80

180 70

60

170

50

160 40
150 160 170 180 190 200 40 50 60 70 80 90 100 110 120

Inaltimea reala Greutatea reala

Figura 8.6. Scatterplot pentru corelaţiile testului de semnificaţie pe eşantioane perechi.

113

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Raportarea scrisă pentru o diferenţă a mediilor de 1,50, având 0,16 şi 2,86 limitele de jos şi
de sus ale intervalului de încredere se face astfel: diferenţa mediilor = 1,50 (95%CI: 0,16 la 2,84)12.
Interpretarea acesteia este întru totul similară cu oricare alte intervale de încredere, cum ar fi cele
pentru eşantioanele independente.

8.6. ANOVA cu măsurători repetate


8.6.1. Între şi înăuntrul grupului (between versus within subjects)
Cele mai multe design-uri experimentale pot fi reduse la două categorii fundamentale, între
şi înăuntrul grupului (în engleză between versus within subjects), pe care le reproducem ca atare,
pentru că le întâlnim nu doar în literatura de specialitate, ci şi în programele SPSS, ceea ce ne ajută
să selectăm metoda de analiză cea mai poptrivită în raport cu tipul de cercetare întreprins.
În design-urile între subiecţi, aceştia aparţin unor grupuri distincte, fiind măsuraţi o singură
dată, ceea ce se compară fiind mediile acestor grupuri pentru diferitele condiţii ale variabilei
independente. Oscilaţiile mediilor sunt în mod egal date de variabila independentă şi de
variabilitatea grupurilor comparate, decelarea cu exactitate a fiecăreia dintre aceste surse de variaţie
fiind destul de dificilă. Ca o măsură de control şi de reducere a variabilităţii dinăuntrul grupurilor
comparate, asignarea (distribuirea) subiecţilor în grup ar trebui să se facă aleator (complet
randomizat) şi atunci cercetarea poate fi considerată una real-experimentală.
În cazul în care aceiaşi subiecţi au fost testaţi şi măsuraţi de mai multe ori în diverse condiţii
sau niveluri/ stări ale variabilei independente, design-ul este de tipul al doilea (înăuntrul grupului =
within) deoarece variabilitatea este a fiecărui subiect în cadrul setului de scoruri obţinut.
Primul design - între subiecţi (between) - are avantajul simplicităţii, deoarece el impune
mai puţine condiţii, de unde şi această simplicitatea mai mare în calcul. Dezavantajul său major este
că rezultă o relativă ineficienţă a modelului: deorece subiecţii ţin şi de grupuri diferite şi de niveluri
diferite ale variabilei independente, acest fapt estompează efectul tratamentului experimental,
reducînd astfel puterea statistică a cercetării. Al doilea design - intrasubiecţi - tinde să fie mai
eficient decît primul, el evidenţiind mai uşor efectul tratamentului experimental şi pentru un număr
mai mic de subiecţi. Acesta poate fi un avantaj considerabil, mai ales atunci cînd membrii unei
anumite populaţii sunt limitaţi ca volum sau când cercetările se fac pe grupuri clinice, cînd sarcina
este prea grea sau periculoasă sau când subiecţii înşişi sunt prea costisitori.
Acest aspect practic prezentat mai sus este unul important, dar nu cel mai important
argument în favoarea design-ului intrasubiecţi, acesta decurgând din analiza erorii de variaţie. În
design-ul intersubiecţi, eroarea de variaţie este alcătuită din componenta diferenţelor individuale
(subiecţii diferă între ei prin abilitate, antrenament, caracteristici personale etc. şi vor răspunde

12
CI = Confidence Interval, adică interval de încredere.

114

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

diferit, chiar dacă sunt trataţi identic) şi dintr-o eroare de măsurătoare (acelaşi subiect răspunde
diferit cînd este testat în condiţii diferite, prin modificări de atenţie, de dispoziţie, de mediu etc.).
Dacă din sursa totală de eroare am elimina diferenţele individuale, atunci eroarea variaţiei ar fi mai
mică şi mai uşor de controlat, ceea ce şi petrece în design-ul cu măsurători repetate. Ca rezultantă,
atunci când ipoteza de nul este falsă, proporţia F va fi mai mare şi efectele tratamentului vor fi
astfel mai uşor de evidenţiat.
Design-urile cu măsurători repetate (intrasubiecţi) fac mai eficientă utilizarea subiecţilor
decât cele între grupurile de subiecţi, utilizând mai puţini subiecţi şi având o eroare a variaţiei mai
mică. Din păcate însă nu toate variabilele independente se pretează la acest tip de design: variabile
cum sunt apartenenţa de gen, inteligenţa sau categoriile clinice trebuie tratate doar ca variabile
intersubiecţi, căci un subiect nu poate contribui la scorurile unui grup o dată ca bărbat şi o dată ca
femeie! Sau, după parcurgerea unei anumite metode de învăţare a scrierii, nu mai putem relua
experimentul de învăţare prin altă metodă, pe aceiaşi subiecţi, pentru că între timp ei au învăţat deja
să scrie.
Deşi mai eficient, design-ul cu măsurători repetate plăteşte acest plus de eficienţă printr-un
plus de complexitate: scorurile nefiind independente, ci corelate, aceasta reclamă precauţii
suplimentare în calcularea lui F (Myers şi Well, 1995, pp. 234-237).
În rezumat, putem afirma următoarele:
 în ANOVA cu măsurători repetate dispersia totală se poate descompune în trei surse:
- dispersia explicată, datorată nivelurilor variabilei independente;
- dispersia neexplicată, numită şi reziduală sau datorată erorii;
- dispersia subiecţilor, datorată diferenţelor dintre indivizi;
 cum F este raportul dintre dispersia explicată şi cea neexplicată, prin eliminarea diferenţelor
individuale, şansa lui F de a deveni semnificativ statistic creşte şi odată cu aceasta şi puterea
cercetării;
 scoaterea din discuţie a varianţei interindividuale se sprijină pe faptul că acelaşi eşantion de
subiecţi a contribuit pentru fiecare dintre seturile de valori obţinute, bazându-se pe
presupunerea unor coeficienţi de corelaţie mari între aceste seturi de scoruri (Howitt şi
Cramer, 2006, p. 155);
 prin separarea variaţiei erorii în două componente, - datorată diferenţelor individuale şi
eroarea reziduală - şi eliminarea primeia, partea de eroare este mai mică, mai uşor de
controlat, necesitând un număr mai mic de subiecţi;
 exemplul tipic de ANOVA cu măsurători repetate îl constituie modificarea în timp a
scorurilor unor variabile. În acest caz pot interveni efectul practicii şi al învăţării, care se
controlează prin metoda de contrabalansare;

115

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

 nu toate variabilele independente se pretează la acest tip de tratament;


 avantajele metodei (efecte mai uşor de sesizat, pe un număr mai mic de subiecţi) sunt
compensate de mai marea complexitate a metodei şi de condiţiile speciale ce trebuie
urmărite, cum ar fi cea de sfericitate. ANOVA cu măsurători repetate operată în SPSS oferă
spre interpretare mai multe tipuri de output decât ANOVA simplă sau factorială; acestea vor
trebui interpretate avizat.

8.6.2. Condiţii de aplicare pentru ANOVA cu măsurători repetate


Toate condiţiile pentru ANOVA simplă se păstrează şi în Anova cu măsurători repetate, şi
anume: date de interval pentru fiecare condiţie a variabilei independente, culese din distribuţii
normale şi cu o varianţă egală a unor eşeantioane nedistorsionate. Neîndeplinirea acestor condiţii
nu afectează atât de mult rezultatele obţinute, precum neîndeplinirea condiţiei de sfericitate,
specifică acestei metode. Această condiţie „este mai complicat de explicat decât de testat” (Hinton,
Branulov, McMurray şi Cozens, 2004, p. 187). De exemplu, Vogt (1999, pp. 271-272) defineşte
mai vag această condiţie importantă pentru ANOVA, care, atunci când este încălcată, conduce la o
distorsionare pozitivă a lui F. Pentru a preîntâmpina acest efect nedorit, cecetătorii ridică nivelul
critic al lui F necesar atingerii pragului de semnificaţie statistică. O explicaţie mai detaliată dă Sava
(op. cit., p. 121 şi urm.): sfericitatea este o condiţie mai generală a unei simetrii complexe,
regăsibilă sub două aspecte între fiecare dintre perechile de măsurători repetate. O condiţie este
omogenitatea dispersiei pentru toate nivelurile variabilei independente şi dependenţa similară între
toate condiţiile experimentale (egalitatea corelaţiei dintre fiecare condiţie experimentală).
Respectarea simultană a ambelor condiţii este însă o situaţie destul de rar întâlnită.

În SPSS abordarea sfericităţii este următoarea:


 primul pas este verificarea sfericităţii prin testul Maucly, a cărui valoare epsilon trebuie să
fie între 0,90 şi 1, deşi acest lucru depinde de numărul grupelor (în cazul a 3 grupe el
coboară la 0,50). Dacă acest lucru se întâmplă – ceea ce rareori este cazul – se consideră
îndeplinită condiţia de sfericitate şi se ia F-ul furnizat ca atare de analiză;
 violarea condiţiei de sfericitate oferă posibilitatea unei alte alternative: ori alegerea unui F
corectat prin procedeul Greenhouse - Geisser, atunci când epsilon este mai mic de 0,75, ori
corecţia lui Huynh-Feldt, atunci când această valoare este între 0,75 şi 0,90.
Deoarece prima corecţie subestimează valoarea lui epsilon iar a doua o supraestimează uşor, Everitt
(1995) propune o medie a acestor ajustări, ambele furnizate de SPSS după afişarea testului de
sfericitate Maucly.

116

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Exerciţii aplicative de sinteză

Aplicaţia 1
La două clase a VI-a de la o şcoală generală s-a aplicat o baterie de teste de inteligenţă, incluzând
un test de raţionament abstract (Raven Standard), un test de vocabular (Recombinare Verbală) şi
alte teste prin care s-a determinat pentru fiecare elev coeficientul de inteligenţă (QI). Rezultatele la
aceste teste şi QI-ul au fost corelate cu media generală obţinută la sfârşitul anului şcolar de studiu.
Aceste date sunt condensate în tabelul de mai jos, separat pentru cei 21 de băieţi şi cele 21 de fete.
a. Date
BĂIEŢI
Nr. Raven Verbal QI Med.gen.
1. 108 96 95 7.50
2. 128 112 118 8.90
3. 118 135 119 9.87
4. 120 130 121 9.70
5. 128 150 131 9.86
6. 104 98 106 7.29
7. 86 80 80 6.90
8. 95 113 100 8.93
9. 124 86 106 8.93
10. 114 140 123 8.87
11. 94 92 95 6.60
12. 96 84 89 6.80
13. 96 114 100 8.23
14. 96 91 90 7.80
15. 97 86 92 6.46
16. 122 112 110 7.93
17. 102 102 98 8.19
18. 112 81 101 7.25
19. 82 76 78 5
20. 112 90 97 8
21. 99 95 97 7.75
FETE
Raven Verbal QI Med.gen.
22. 106 83 99 9.37
23. 118 119 119 9.90
24. 104 120 116 9.57
25. 100 118 106 9.43
26. 100 102 108 9.53
27. 96 128 99 7.87
28. 96 108 96 8.50
29. 70 97 94 7.86
30. 105 118 114 9.04
31. 96 120 108 9.00
32. 98 130 105 8.43
33. 91 98 98 7.96
34. 96 102 94 8.90
35. 100 84 98 7.77
36. 109 116 117 9.80
37. 118 92 102 8.80
38. 120 150 120 10
39. 108 97 99 8.93
40. 92 112 94 8.73
41. 122 114 108 8.60
42. 96 93 95 6.70

117

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

b. Cerinţe
1. Introduceţi datele şi apoi etichetaţi din Labels variabilele:
sex → Sex
raven → Raven standard
verbal → Recombinare verbală
qi → Coeficient de inteligenţă
med_gen → Medie generală
2. Etichetaţi din Values variabilele. Pentru variabila sex treceţi în Values:
- 0 pentru Masculin şi 1 pentru Feminin;
- codificaţi med_gen în variabilă trihotomică (1 pentru Mică, 2 pentru Medie şi 3 pentru
Mare), selectând din Frequencis câte 33 de procente din fiecare categorie şi numind variabila
nou creată medgen_cl (Medie generală clase). Creaţi pentru ea o histogramă simplă pentru a
verifica corectitudinea demersului.
3. Transformaţi raven şi verbal în note z după formula: z = (x - media)/abaterea standard, pentru
care luaţi media şi abaterea standard din Descriptives pentru cele două variabile. După ce aţi operat
această transformare faceţi suma dintre cele două valori z obţinute şi împărţiţi la 2 (din Compute),
numind variabila nou obţinută inteli_z. Comparaţi variabila z obţinută prin Compute cu cea
furnizată de Descriptives printr-o corelaţie.
4. Obţineţi datele descriptive (medie, mediană, modul, Range, valoarea minimă şi maximă,
Skewness şi Kurtosis) pentru toate cele 5 variabile.
5. Determinaţi semnificaţia diferenţei mediilor la raven, verbal, qi şi med_gen dintre băieţi şi fete
şi comentaţi rezultatele obţinute într-un fişier Word adiţional, care se va preda odată cu fişierul de
date şi fişierul de outputuri pentru a fi evaluate.
6. Determinaţi corelaţiile dintre toate 4 variabilele de mai sus (raven, verbal, qi şi med_gen)
pentru tot lotul şi apoi separat pentru băieţi şi pentru fete, selectând cazurile corespunzătoare de la
Data. Comentaţi rezultatele obţinute în fişierul Word adiţional.
7. Generaţi de la Scatter norul de puncte pentru raven - verbal, qi – med_gen, raven – med_gen şi
verbal - med_gen separat pentru băieţi şi pentru fete, utilizând Split file şi comentând diferenţele.
8. Realizaţi histogramele distribuţiilor după criteriul de gen, în valori absolute şi apoi în procente.
Pe aceeaşi histogramă cluster reprezentaţi pentru băieţi şi pentru fete raven şi verbal, apoi qi şi
med_gen. Histogramele simple vor fi de culoare albastră, cele duble (cluster) în roşu şi galben,
având insertate în interior numărul de cazuri sau de procente ce definesc fiecare coloană.
9. Redaţi boxplotul pentru băieţi şi fete la raven - verbal şi la qi - med_gen.
10. Efectuaţi o ANOVA One Way alegând ca variabilă trihotomică media generală recodificată,
pentru raven, verbal şi qi. Comentaţi rezultatele în fişierul Word.

118

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Aplicaţia 2: Să construim un etalon


Din tabelul de frecvenţe al Stimei de sine din fişierul ataşat veţi construi un etalon, parcurgând
următorii paşi:
 Adăugaţi cu linie şi creion două coloane în dreapta tabelului, prima pentru a trece clasele (de la
0 la 10) şi a doua pentru a trece înăuntrul fiecărei clase frecvenţele brute pentru clasa respectivă,
utilizând coloana a doua din tabel, Frequency.
 După ce finalizaţi operaţia, întabelaţi rezultatele astfel:
Clase 0 1 2 3 4 5 6 7 8 9 10
Fr.simp. 3,6 4,5 7,7 11,6 14,6 16 14,6 11,6 7,7 4,5 3,6
Fr.cumul. 3,6 8,1 15,8 27,4 42 58 72,6 82,4 91,9 96,4 100%
Clase
Efective

Note Note
brute standard
Număr
Media
Ab. sta.

 Pentru a completa prima coloană a tabelului de sinteză de mai sus, intraţi în Descriptives şi
cereţi media şi abaterea standard pentru variabila Stimă total.
 După aceasta intraţi în Transform→Compute→Recode şi recodificaţi într-o variabilă
nouă variabila Stima total în cele 11 clase definite de etalonul obţinut anterior, pe care o veţi
numi Stima_st şi va avea eticheta Stima de sine standard.
 Verificaţi prin Histograms ce distribuţie dă variabila nou creată, supraimprimând şi curba
distribuţiei peste histogramă.
 În final, de la Descriptives solicitaţi media şi abaterea standard a Stimei de sine standard pe
care le veţi trece în a doua coloană a tabelului sintetic de mai sus. Dacă aţi lucrat corect,
media trebuie să fie foarte apropiată de 5 şi abaterea standard de 2.

119

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Frequency Percent Valid Cumulativ


Percent e Percent
Valid -75.00 1 .2 .4 .4
-51.00 1 .2 .4 .7
-46.00 1 .2 .4 1.1
-42.00 1 .2 .4 1.4
-41.00 1 .2 .4 1.8
-35.00 1 .2 .4 2.2
-34.00 1 .2 .4 2.5
-33.00 1 .2 .4 2.9
-24.00 1 .2 .4 3.2
-23.00 2 .5 .7 4.0
-21.00 2 .5 .7 4.7
-20.00 1 .2 .4 5.1
-19.00 1 .2 .4 5.4
-16.00 1 .2 .4 5.8
-14.00 2 .5 .7 6.5
-13.00 1 .2 .4 6.9
-11.00 1 .2 .4 7.2
-8.00 1 .2 .4 7.6
-7.00 4 1.0 1.4 9.0
-5.00 2 .5 .7 9.7
-4.00 2 .5 .7 10.5
-3.00 1 .2 .4 10.8
-2.00 1 .2 .4 11.2
-1.00 2 .5 .7 11.9
.00 2 .5 .7 12.6
1.00 2 .5 .7 13.4
2.00 2 .5 .7 14.1
3.00 1 .2 .4 14.4
4.00 1 .2 .4 14.8
5.00 3 .7 1.1 15.9
6.00 3 .7 1.1 17.0
7.00 3 .7 1.1 18.1
8.00 2 .5 .7 18.8
9.00 3 .7 1.1 19.9
10.00 5 1.2 1.8 21.7
11.00 3 .7 1.1 22.7
12.00 5 1.2 1.8 24.5
13.00 2 .5 .7 25.3
14.00 3 .7 1.1 26.4
15.00 3 .7 1.1 27.4
16.00 5 1.2 1.8 29.2
17.00 4 1.0 1.4 30.7

120

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

18.00 4 1.0 1.4 32.1


19.00 4 1.0 1.4 33.6
20.00 1 .2 .4 33.9
21.00 5 1.2 1.8 35.7
22.00 6 1.4 2.2 37.9
23.00 9 2.1 3.2 41.2
24.00 1 .2 .4 41.5
25.00 4 1.0 1.4 43.0
26.00 6 1.4 2.2 45.1
27.00 4 1.0 1.4 46.6
28.00 3 .7 1.1 47.7
29.00 3 .7 1.1 48.7
30.00 2 .5 .7 49.5
31.00 1 .2 .4 49.8
32.00 6 1.4 2.2 52.0
33.00 4 1.0 1.4 53.4
34.00 4 1.0 1.4 54.9
35.00 7 1.7 2.5 57.4
36.00 3 .7 1.1 58.5
37.00 3 .7 1.1 59.6
38.00 4 1.0 1.4 61.0
39.00 4 1.0 1.4 62.5
40.00 1 .2 .4 62.8
41.00 4 1.0 1.4 64.3
42.00 5 1.2 1.8 66.1
43.00 5 1.2 1.8 67.9
44.00 4 1.0 1.4 69.3
45.00 3 .7 1.1 70.4
46.00 8 1.9 2.9 73.3
47.00 2 .5 .7 74.0
48.00 3 .7 1.1 75.1
49.00 3 .7 1.1 76.2
50.00 3 .7 1.1 77.3
51.00 3 .7 1.1 78.3
52.00 6 1.4 2.2 80.5
53.00 4 1.0 1.4 81.9
54.00 3 .7 1.1 83.0
55.00 6 1.4 2.2 85.2
56.00 2 .5 .7 85.9
57.00 2 .5 .7 86.6
58.00 4 1.0 1.4 88.1
59.00 2 .5 .7 88.8
60.00 2 .5 .7 89.5
61.00 4 1.0 1.4 91.0
62.00 1 .2 .4 91.3
63.00 1 .2 .4 91.7
64.00 3 .7 1.1 92.8
65.00 2 .5 .7 93.5
68.00 1 .2 .4 93.9
69.00 3 .7 1.1 94.9
70.00 7 1.7 2.5 97.5
71.00 2 .5 .7 98.2
74.00 1 .2 .4 98.6
77.00 1 .2 .4 98.9
81.00 1 .2 .4 99.3
82.00 1 .2 .4 99.6
85.00 1 .2 .4 100.0
Total 277 65.8 100.0
Missing System 144 34.2
Total 421 100.0

Tabel 1. Fişier ataşat cu outputul Stimei de sine necesar construirii unui etalon.

121

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Utilităţi statistice

N P=0,10 P=0,05 P=0,025 P=0,01


3 0,81 0,88 0,93 0,96
4 0,73 0,81 0,88 0,92
5 0,67 0,75 0,83 0,87
6 0,62 0,71 0,79 0,83
7 0,58 0,67 0,75 0,80
8 0,55 0,63 0,72 0,76
9 0,52 0,60 0,69 0,73
10 0,50 0,58 0,66 0,71
11 0,48 0,55 0,63 0,68
12 0,46 0,53 0,61 0,66
13 0,44 0,51 0,59 0,64
14 0,43 0,50 0,57 0,62
15 0,41 0,48 0,56 0,61
16 0,40 0,47 0,54 0,59
17 0,39 0,46 0,53 0,58
18 0,38 0,44 0,52 0,56
19 0,37 0,43 0,50 0,55
20 0,36 0,42 0,49 0,54
25 0,32 0,38 0,45 0,49
30 0,30 0,35 0,41 0,45
35 0,27 0,32 0,38 0,42
40 0,26 0,30 0,36 0,39
45 0,24 0,29 0,34 0,37
50 0,23 0,27 0,32 0,35

Tabel 1. Valorile lui | r | pentru patru praguri de semnificaţie.

N perechi P=0,05 P=0,01


5 1,000 --
6 0,886 1,000
7 0,786 0,929
8 0,738 0,881
9 0,683 0,833
10 0,648 0,974
12 0,591 0,777
14 0,544 0,714
16 0,506 0,665
18 0,475 0,625
20 0,450 0,591
22 0,428 0,562
24 0,409 0,537
26 0,392 0,515
28 0,377 0,496
30 0,364 0,478
N perechi P=0,05 P=0,01

Tabel 2. Valori ale lui ρ (rho = corelaţia rangurilor) pentru două praguri de semnificaţie.

122

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

t Şanse din df 0,10 0,05 0,02 0,01


0,0 100 1. 6,314 12,706 31,821 63,657
0,2 84 2. 2,920 4,303 6,965 9,925
0,4 69 3. 2,353 3,182 4,541 5,841
0,6 55 4. 2,132 2,776 3,747 4,604
0,8 42 5. 2,015 2,571 3,365 4,032
1,0 32 6. 1,943 2,447 3,143 3,707
1,2 23 7. 1,895 2,365 2,998 3,499
1,4 16 8. 1,860 2,306 2,896 3,355
1,6 11 9. 1,833 2,262 2,821 3,250
1,8 7 10. 1,812 2,228 2,764 3,169
1,96 5.0 11. 1,796 2,201 2,781 3,106
2,0 4,5 12. 1,782 2,179 2,681 3,055
2,1 3,6 13. 1,771 2,160 2,650 3,012
2,2 2,8 14. 1,761 2,145 2,624 2,977
2,3 2,1 15. 1,753 2,131 2,602 2,947
2,4 1,6 16. 1,746 2,120 2,583 2,921
2,5 1,2 17. 1,740 2,110 2,567 2,898
2,58 1,0 18. 1,734 2,101 2,552 2,878
2,6 0,9 19. 1,729 2,093 2,539 2,861
2,7 0,7 20. 1,725 2,086 2,528 2,845
2,8 0,5 21. 1,721 2,080 2,518 2,831
2,9 0,4 22. 1,717 2,074 2,508 2,819
3,0 0,27 23. 1,714 2,069 2,500 2,807
3,1 0,19 24. 1,711 2,064 2,492 2,797
3,2 0,14 25. 1,708 2,060 2,485 2,787
3,30 0.10 26. 1,706 2,056 2,479 2,779
3,4 0,07 27. 1,703 2,052 2,473 2,771
3,5 0,046 28. 1,701 2,048 2,467 2,763
3,6 0,032 29. 1,699 2,045 2,462 2,756
3,8 0,014 30. 1,697 2,042 2,457 2,750
4,0 0,006
4,5 0,0006 infinit 1,64485 1,95996 2,32634 2,57582
5,0 0,00006 df 0,10 0,05 0,02 0,01

1. Probabilitatea (şanse din 100) ca o 2. Tabelul lui Fisher de valori ale lui z
valoare a lui t să apară întâmplător
(tabelul legii normale reduse)

Tabel 3. Legea normală redusă şi tabelul lui Fisher pentru 4 niveluri de semnificaţie.

123

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

Bibliografie

1. Albarello, L., Bourgeois, É., Guyot, J.-L. (2003). Statistique descriptive. Bruxelles: Éditions De
Boeck Université.
2. Clocotici, V., Stan, A. (2000). Statistică aplicată în psihologie. Iaşi: Editura Polirom.
3. Coman, C., Medianu, N. (2003). Statistică socială. Teorie şi aplicaţii. Braşov: Editura
Infomarket.
4. Dorofte, I. (1981). Analiza şi predicţia performanţelor umane. Bucureşti: Editura Ştiinţifică şi
Enciclopedică.
5. Einspruch, E.L. (1998). An Introductory Guide to SPSS for Windows. Thousands Oaks,
London, New Delhi: Sage Publications.
6. Hinton, P.R., Brownlow, C., McMurray & Cozens, B. (2004). SPSS Explained. London and
New York: Routledge.
7. Howitt, D., Cramer, D. (2006). Introducere în SPSS pentru psihologie. Iaşi: Editura Polirom.
8. Hoyle, R.H. (1999). Statistical strategies for small sample research. Thousands Oaks, London,
New Delhi: Sage Publications.
9. Isaac, S., Michael, W.B. (1971). Handbook in research and evaluation. San Diego, California:
Robert R. Knapp, Publisher.
10. Kinnear, P.R. & Gray, C.D. (2006). SPSS 14 Made Simple. Hove and New York: Psychology
Press.
11. Laveault, D., Grégoire, J. (2002). Introduction aux théories des tests en psychologie et sciences
de l'éducation. Bruxelles: Éditions De Boeck Université.
12. Lungu, O. (2003). Ghid introductiv pentru SPSS 10.0. Iaşi: Editura Polirom.
13. Myers, A., Hansen, C.H. (2002). Experimental Psychology. 5th ed., Pacific Grove: Wadsworth.
14. Newton, R.R., Rudestam, K.E. (1999). Your Statistical Consultant. Answers to Your Data
Analysis Questions. Thousans Oaks, London, New Delhi: Sage Publications.
15. Norusis, M.J. (1992). SPSS for Windows. Base System User's Guide, Release 5.0. Chicago,
Illinois: SPSS Inc.
16. Novac, A. (1995). Statistică socială aplicată. Bucureşti: Editura Hyperion.
17. Popa, M. (2004). Statistică psihologică cu aplicaţii SPSS. Bucureşti: Editura Universităţii
Bucureşti.
18. Radu. I. (coord.) (1993). Metodologie psihologică şi analiza datelor. Cluj-Napoca: Editura
Sincron.

124

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

19. Rateau, P.(2004), Metodele şi statisticile experimentale în ştiinţele socioumane. Iaşi: Editura
Polirom.
20. Răulea, C. (2006). Statistică psihologică şi prelucrarea informatizată a datelor. Sibiu:
Psihomedia.
21. Rotariu, T. (coord.) (1999). Metode statistice aplicate în ştiinţele sociale. Iaşi: Editura Polirom.
22. Sava, F. (2004). Analiza datelor în cercetarea psihologică. Metode statistice complementare.
Cluj-Napoca: Editura ASCR.
23. Smith, S. (1974). Ghid simplificat de statistică. Bucureşti: Editura Didactică şi Pedagogică.
24. Vasilescu, I.P. (1981), Statistică informatizată pentru ştiinţele despre om. Bucureşti: Editura
Militară.
25. Voght, W.P. (1999). Dictionary of Statistics & Methodology. A Nontechnical Guide for the
Social Sciences, 2nd Edition. Thousands Oaks, London, New Delhi: Sage Publications.

125

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)


lOMoARcPSD|7970258

UNIVERSITATEA TRANSILVANIA BRAŞOV


CENTRUL DE ÎNVĂŢĂMÂNT LA DISTANŢĂ

ANALIZĂ COMPUTERIZATĂ
A DATELOR CU SPSS

AUREL ION CLINCIU

126

Downloaded by Stefanescu Amalia (uatarfac@gmail.com)

S-ar putea să vă placă și