Documente Academic
Documente Profesional
Documente Cultură
CUVÂNT ÎNAINTE
Deşi cercetarea nu este o dimensiune exclusivă a timpului prezent sau viitor, extraordinara
ei extensie actuală se bazează şi pe existenţa unor astfel de programe de prelucrare computerizată a
datelor, care mută centrul de greutate al demersului ştiinţific de pe cum să faci pentru a nu avea
erori, pe latura cu adevărat creativă a cercetării, aceea de descoperire a pattern-urilor ascunse în
structura intimă a datelor, adică pe ce şi de ce să faci un anume lucru. Aceasta lărgeşte considerabil
posibilităţile de intervenţie şi acţiune umană.
În acest punct ni se pare necesar să precizăm raporturile acestei lucrări cu domeniul de
provenienţă specific al cercetărorului, pe de o parte, cu statistica şi cu manualul SPSS pe de altă
parte. Abilitatea de a conduce o cercetare ştiinţifică se sprijină pe aptitudini şi deprinderi care au
cicluri de formare lungi. Operarea cu SPSS este de asemenea o deprindere ce trebuie îndelung şi
constant exersată. Începând din chiar momentul parcurgerii acestui ghid introductiv simţiţi-vă
provocaţi să vă amuzaţi şi să experimentaţi liber, pentru că în orice deprindere exerciţiul contribuie
la creşterea vitezei şi a preciziei în execuţie. Cu cât mai multă practică, cu atât mai multe rutine şi
subrutine vă stau la dispoziţie, acestea contribuind decisiv nu numai la creşterea vitezei de operare
în SPSS, ci şi la dezvoltarea gradelor de libertate a combinatoricilor presupuse de o utilizare
creativă a acestui program.
În al doilea rând, acesată carte nu poate înlocui informaţia fundamentală a domeniului
dumneavoastră de interes; ea nu vă dă idei de experimente şi nu vă sugerează decât în mod
secundar ipoteze. Toate acestea vin dintr-un orizont de lectură al domeniului de activitate propriu.
În al treilea rând, chiar şi în aplicaţiile sale cele mai simple – statistica descriptivă univariată
– analiza computerizată presupune familiarizarea cu conceptele de bază ale statisticii teoretice.
Aşadar, jucaţi-vă cu SPSS-ul, dar este bine să aveţi la îndemână un ghid introductiv, eventual şi un
dicţionar de statistică.
În al patrulea rând, acest ghid introductiv nu poate înlocui un manual SPSS, care conţine o
mult mai mare varietate şi bogăţie de informaţii utile pentru exploatarea mai completă a acestui
program atât de complex. Cartea de faţă s-a dorit a fi în principal un ghid care să prezinte într-o
structurare logică şi coerentă cele mai importante tehnici SPSS şi de aceea am preferat să utilizăm o
expunere clară şi nu foarte tehnică a acestor tehnici. SPSS poate însă mult mai mult decât am reuşit
să prezentăm noi în paginile care urmează. El este un program cu o arborescenţă uimitoare,
deoarece pleacă de la tehnici statistice care au trecut de mult bariera timpului, larg recunoscute de
majoritatea cercetătorilor, pentru a ajunge la dezvoltări foarte recente, aproape actuale ale acestei
ştiinţe atât de dinamică, ce este statistica. Poate că acesta este aspectul cel mai provocator al acestui
program care, pentru multe dintre aplicaţiile sale, trimite la teorii şi abordări de dată foarte recentă
(ecuaţii şi modelare structurală, variabile latente, analiză de path sau analiză factorială
confirmatorie, pentru a da doar câteva exemple).
Rezumând, SPSS-ul este nu doar o interfaţă, ci un nod care leagă datele interne ale
cercetătorului – motivaţii, deprinderi, cunoştinţe – de cultura domeniului său, de statistică şi de
dezvoltările foarte actuale ale acesteia. Scopul său nu este doar înţelegerea realităţii complexe a
naturii umane, a relaţiilor sociale şi educaţiei, ci oferirea unor puternice mijloace de acţiune
practică, de verificare şi de control a acesteia.
Am inserat în text şi o multitudine de exerciţii şi aplicaţii practice pe care vă rugăm să le
abordaţi ca pe un joc sau ca pe o provocare a minţii. Nu am oferit decât sugestii de rezolvare,
pentru că am considerat că mai importantă decât soluţia este drumul către ea, maniera de abordare
şi de rezolvare. Unele dintre recomandările noastre, diseminate pe parcursul întregii lucrări, provin
din experienţe proprie de utilizator SPSS. Cu siguranţă că nu este singura posibilă şi nici în mod
necesar cea mai bună manieră de rezolvare: cea mai bună este cea pe care o s-o descoperiţi chiar
dumneavoastră, când, după o perioadă de formare şi antrenament corespunzătoare, veţi fi descoperit
în SPSS calea dezvoltării personale ca cercetător şi om de acţiune, ce-şi fundamentează
intervenţiile teoretico-aplicative pe o cunoaştere validată ştiinţific.
Pentru o mai completă şi clară înţelegere a domeniilor statisticii şi a tipurilor de abordări
caracteristicie fiecărui tip (descriptivă, inferenţială, univariată şi multivariată) propunem
perspectiva sintetică ce este synopsisul de mai jos. Acesta îşi propune să dea ordine şi coerenţă
demersului nostru comun, ajutâdu-ne pe noi în prezentare, pe dumneavoastră în selectarea celor mai
potrivite demersuri în raport cu scopurile cercetării desfăşurate. Deoarece acesta este doar primul
volum - un ghid introductiv în SPSS - o multitudine de proceduri mai elaborate (prezente şi în acest
synopsis) vor face obiectul unui al doilea volum.
Autorul
Statistică descriptivă
Statistică univariată Statistică bivariată şi multivariată
(cu o variabilă) (cu două sau mai multe variabile)
Tendinţa Variabilitatea
centrală Range Diferenţe de medii
Media Varianţa
Mediana Abaterea
Modul standard
Tabele bivariate Scatter-ploturi
Forma curbei
Simetria (Skewness) Ploturi clasificatorii
Boltirea (Kurtosis)
Inferenţa statistică
Eşantionarea Eroarea
distribuţiilor
standard
Teorema limită
centrală
Nivelul de semnificaţie
Ipoteze Intervale de
alternative încredere
CUPRINS
Capitolul 1. Pregătirea datelor pentru analiza statistică. Crearea bazei de date ..................... 8
1.1. Introducere...................................................................................................................... 8
1.2. Caz, variabile, valori....................................................................................................... 8
1.3. Introducerea datelor........................................................................................................ 10
1.4. Cum denumim variabilele în SPSS?............................................................................... 11
1.5. Tipuri de variabile........................................................................................................... 12
1.6. Alte caracteristici ale variabilelor................................................................................... 15
1.7. Codarea datelor lipsă...................................................................................................... 17
1.8. Codarea datelor............................................................................................................... 18
1.9. Reguli de bază ale organizării datelor............................................................................ 20
1.10. Codebook...................................................................................................................... 22
Glosar de termeni fundamentali............................................................................................ 24
A. Niveluri ale măsurătorii........................................................................................................24
B. Variabilă şi tipuri de variabile. .............................................................................................25
CAPITOLUL 1
1.1. Introducere
Deşi cea mai mare parte a timpului destinat analizei computerizate a datelor statistice ar
trebui alocat pentru găsirea răspunsurilor preconizate la ipotezele cercetării, acest lucru nu este
posibil fără crearea în prealabil a bazei de date. Aceasta deoarece majoritatea programelor de
prelucrare avansate ca SPSS, SAS ori NCSS1 sunt gata să prelucreze datele abia după organizarea
lor într-o bază de date. Normal ar fi ca această etapă pregătitoare să fie cât mai rapidă şi mai
eficientă, dar, în realitate, libertatea fazei de prelucrare este mult condiţionată de calitatea datelor
introduse ca şi de maniera lor de introducere.
Există mai multe posibilităţi de introducere a datelor: direct din programe de management al
unor baze de date (create în Excel, de exemplu), din alte programe computerizate pentru
manipularea datelor numerice (ca cele trei menţionate anterior) sau prin crearea unui set nou de
date destinate analizei lor ulterioare. Ultima dintre variante este cea avută în mod expres în vedere
aici, deşi pe parcursul lucrării vom face referire şi la celelalte două posibilităţi. Scopul acestui
capitol este acela de a procura informaţiile necesare înţelegerii modului în care trebuie organizate
datele astfel încât ele să poată fi uşor prelucrate în SPSS, cu insistenţă pe ultima variantă a acestuia,
SPSS 14. De aceea vom începe prin a introduce câteva concepte de bază (caz, variabilă, valori,
codare şi reguli esenţiale de organizare) valabile în mare pentru toate programele de prelucrare
automată a datelor. Deşi nu poate fi trasată o „cale unică”, existând nenumărate abateri de la
regulile formulate, acest mod de lucru poate fi preferat pentru economicitatea sa, rezultată dintr-o
îndelungată experienţă practică, ceea ce va permite mai ales novicelui să evite greşelile comune.
1
SPSS = Statistical Package for the Social Sciences; SAS = Statistical Analysis System; NCSS = Number Cruncher
Statystical System.
atribuire a unui număr obiectelor sau calităţilor acestora conform unei reguli” (Stevens) 2. În acest
proces de observare şi asociere a numerelor cu obiecte sau cu calităţi ale acestora, care este
măsurarea, fiecare obiect, calitate, persoană sau eveniment constituie unitatea primară de analiză,
care poate fi definită printr-o multitudine de caracteristici. În schema de mai jos vom numi aceste
unităţi cazuri. În ştiinţele sociale sau în psihologie fiecare respondent la un chestionar sau subiect
căruia i se administrează o probă este un astfel de caz.
Fiecare caz este definit la rândul său de o multitudine de caracteristici. De exemplu, un
subiect uman (un caz) aparţine unui gen anume (masculin sau feminin), are o anumită vârstă,
înălţime, greutate, coeficient de inteligenţă, medie şcolară generală; aparţine unei anumite etnii sau
poate fi încadrat într-o anumită tipologie temperamentală etc. Fiecare dintre aceste caracteristici
care pot lua o multitudine de valori se numeşte variabilă. Este evident că un obiect statistic - un caz
- poate fi descris cu atât mai bine cu cât numărul de variabile utilizate este mai mare sau cu cât
acestea au mai multe nuanţe, adică conţin mai multe valori. În felul acesta se poate înţelege mai
bine ierarhia din figura de mai jos.
1 2 … n 1 2 … n 1 2 … n 1 2 … n
Valori Valori Valori Valori
În SPSS 14 secvenţa creării unei variabile, posibilă prin clic pe Variable View (aflată în
opoziţie cu Data View din colţul din stânga jos) este în linii mari următoarea:
definirea numelui variabilei;
indicarea tipului variabilei;
etichetarea ei;
codificarea ei (dacă este cazul).
2
Apud Coman şi Medianu, 2003, p. 19.
Figura 1.2. SPSS la startul introducerii datelor, cu Data Wiew şi Variable Wiew.
10
respectivă şi se scrie noua valoare, care va şterge automat valoarea greşit introdusă. O valoare
introdusă pentru o variabilă care nu a fost definită primeşte automat un nume alcătuit din 8
caractere de genul VAR00001, VAR00002 etc. Pentru a defini şi seta fiecare variabilă acţionăm
butonul Variable Wiew din stânga jos, ceea ce va face să apară ecranul al doilea din figura 1.2.
Deoarece în SPSS 10.0 datele sunt afişate în fereastrele de lucru ale diverselor aplicaţii aşa
cum au fost ele introduse iniţial în Data Editor trebuie ca din start să avem grijă cum grupăm
datele pentru a forma unităţi logice uşor de reperat. Dacă pentru cercetările “mici” acest lucru pare
mai puţin important, pentru cele mari acesta este un lucru fundamental, pentru că de el depinde
viteza cu care obţinem prelucrările dorite, viteză ce rezultă din uşurinţa cu care ne mişcăm în
câmpul variabilelor. Gruparea logică a datelor se deprinde după un oarecare exerciţiu, dar este util
de ştiut că întâi se introduce o coloană cu numărul curent, identic de altfel cu cel afişat în partea
stângă în mod automat atunci când suntem în Data Wiew. Rostul acestei coloane este acela de a
regăsi ordinea iniţială de introducere a datelor atunci când ea a fost “stricată” de splitarea datelor
(din Data→Split File, cum vom vedea ulterior). După aceea se introduc datele de identificare,
factuale sau demografice (nume, vârstă, apartenenţă de gen, mediu, şcoală, clasă, studii, vechime,
profesie, apartenenţă etnică etc.); după care se introduc “pe pachete” datele brute şi cele standard
pentru testele de aptitudini (inteligenţă, memorie, creativitate, atenţie etc.), pentru cele de
personalitate, sau oricare alte date care fac obiectul cercetării. O grijă specială trebuie să avem
pentru datele nou create prin meniul Transform (prin Compute, Recode etc. de care vom vorbi
ulterior) deoarece ele sunt în mod automat alipite la coada listei de variabile. Prin Insert Variable
lângă variabila de care ea este cel mai apropiată logic se creează spaţiul necesar ca variabila nou
creată să fie transportată cu Copy şi Paste la locul dorit. De fapt acesta poate fi definit din capul
locului cu numele viitoarei variabile şi aceasta va fi depozitată la locul ce i-a fost creat.
3
Reţinem denumirea lor în engletă: Name, Type, Width, Decimals, Label, Values, Missing, Columns, Align,
Measure. Vezi partea de jos a figurii 1.2.
11
12
variabile numerice, ele putând fi valori numerice prorpiu-zise sau ordinale, cu mărimea
maximă de 40 de caractere pentru întregi şi 16 pentru partea de după virgulă (zecimale).
Valorile pot fi pozitive sau negative;
comma şi dot nu interesează decât în situaţii speciale, ele includ spaţii, virgula sau punctul
pentru a delimita trecerea de la mii la milioane, apoi la miliarde etc;
notaţiile ştiinţifice îi includ pe E şi pe D sau semnele plus şi minus;
dollar include semnul dolarului, o pauză pentru zecimale şi mai multe virgule pentru a
delimita miile, milioanele etc.;
custom currency are utilizări speciale în economie;
string: valorile valide includ litere, numerale şi alte caractere. Este foarte util să creăm o
variabilă care este numele şi prenumele subiecţilor, cu adresa, profesia etc. pentru care ne
trebuie litere şi nu numere. Variabilele string pot fi restrânse doar la cele 8 caractere sau pot
fi mai mari, să zicem peste 40, pentru a putea include numele lungi sau cele rezultate prin
căsătorie, alături de numele iniţial al persoanei. Notăm deci că variabilele string pot fi scurte
(8 caractere) sau lungi (peste 8 caractere), acestea din urmă fiind sever restricţionate în cele
mai multe proceduri SPSS.
Pentru că această lucrare nu îşi propune să fie un dublet al manualelor SPSS, fie ele şi foarte
recente, acestea păstrându-şi întreaga lor valoare prin bogăţia datelor amănunţite furnizate, ci mai
degrabă un ghid de utilizare, facem aici câteva precizări care ni se par utile:
când numele variabilei condensează două cuvinte putem utiliza liniuţa de legătură de jos
(underline), pe care programul o permite;
este bine ca prima coloană de date să fie numărul curent ordine al respondentului sau al
cazului (resp_num sau resp_caz), ceea ce poate apărea ca inutil, devreme ce fiecare caz este
numerotat automat. Procedura îşi dovedeşte pe deplin utilitatea atunci când prin Split File
din Data separăm cazurile după gen, mediu sau oricare alt criteriu, ceea ce produce
bulversarea datelor iniţiale. Dacă nu salvăm aceste împărţiri pe parcurs, la redeschiderea
fişierului acesta va reveni automat la forma iniţială în care datele au fost introduse. Şi în caz
contrar revenirea la ordinea iniţială este posibilă, prin sortarea ascendentă a acestora după
numărul de ordine introdus ca măsură de siguranţă pe prima coloană sau după numele
subiecţilor, dacă acestea au fost introduse în ordine riguros alfabetică. O precauţie în plus ar
fi ca acest număr să fie trecut pe fiecare fişă introdusă, ceea ce înseamnă că din capul
locului fişele sunt puse în ordinea dorită, separat după criteriul apartenenţei de gen, în
ordinea numelor, a mediilor şcolare sau al QI-ului etc.;
13
o variabilă string cu numele şi prenumele subiectului este iarăşi una extrem de utilă, odată
pentru că permite identificarea precisă a subiecţilor şi adăugarea de date suplimentare în
următoarele sesiuni de lucru SPSS şi, în al doilea rând, pentru că prin copy şi paste această
coloană poate fi inserătă oriunde în cîmpul variabilelor, ceea ce ajută mult la completarea
corectă a câmpurilor de date pentru fişierele cu număr mare de variabile sau când se creează
variabile noi. Ulterior, când se trece la analiza datelor, ele pot fi la fel de uşor şterse prin
delete sau cut;
numelor variabilelor de tipul valorii terminale 13 (plăcere) din RVS, introdusă rt_13, le
vom prefera pe cele de tipul rt_place care dau o idee mai concretă despre conţinutul
variabilei, aşa cum am mai arătat, deoarece în prelucrările furnizate (outputuri) recunoaştem
mai uşor conţinutul acesteia (plăcere);
nu toate variabilele se pretează în a deveni criterii majore de analiză a datelor, dar unele par
a avea „în mod natural” această proprietate şi de aceea ele ar trebui introduse la începutul
seriei de variabile. Astfel, pentru cele mai multe cercetări psihologice, pedagogice sau
sociologice, variabilele ca apartenenţa de gen, vârsta (în ani şi luni, înmulţite cu 0,82 pentru
a face conversia lunilor din sistemul cu baza 12 în cel zecimal), studiile părinţilor (separat
pentru tata şi mama, sau doar pentru unul din ei), mărimea fratriei, poziţia în fratrie, mediile
generale şi/sau la materiile de bază (română, matematică) sau vocaţionale (sport, muzică,
desen ori religie), mediul (urban, rural), profesia subiectului, zona geografică etc. sunt
variabile privilegiate, pentru că sunt uşor de obţinut şi oferă criterii valide de analiză a
datelor. Cu siguranţă că oricare ar fi domeniul ştiinţelor pentru care folosim programul de
prelucrare computerizată, SPSS are variabile privilegiate care pot fi identificate prin
parcurgerea literaturii cercetărilor din domeni pentru a le include în cercetarea noastră
actuală;
în glosarul de termeni de la sfârşitul capitolului se face o scurtă analiză a tipurilor de
variabile, distincţia continue-discontinue find una fundamentală. Întotdeauna şi în orice
ocazie este preferabil să introducem variabilele continue, deoarece ele condensează o mai
mare cantitate de informaţie şi cresc puterea statistică a cercetării. Prin recodificarea
acestora ele pot fi uşor transformate în variabile discontinue (dihotomice sau trihotomice),
permiţând proceduri statistice speciale, cum ar fi analiza de varianţă sau de covarianţă
(ANOVA, ANCOVA), fără a desfiinţa însă variabila originară. Aşadar, în loc de a introduce
un număr de categorii de vârste (variabilă precodificată) vom prefera să introducem vârsta
cât mai precis (ani şi fracţiuni zecimale de ani), urmând a opera ulterior cu această variabilă
în sensul dorit.
14
15
În figura 1.3. care este o captură de ecran, vedem că multe variabile (Nume prenume, Studii,
Fratrie, Poziţie în fratrie etc.) au trecute pe coloana Values sintagma None, ceea ce înseamnă că nu
a fost operat nimic în dreptul acestor variabile la capitolul valori. Dacă vrem să indicăm faptul că
avem variabile categoriale, avem două posibilităţi:
să precizăm direct de la Label codificarea utilizată (de exemplu 1 = Mică, 2 = Medie, 3 =
Mare), ceea ce are dejavantajul că acesta va fi titlul afişat al outputului, categoriile
respective fiind notate cu 1, 2, respectiv 3;
să indicăm din Values codificarea utilizată, şi atunci output-ul va avea un titlu (Inaltime în
cazul nostru) iar în loc de cifre care să indice categoriile vor apărea Mică pentru prima
categorie, Mijlocie pentru a doua şi Mare pentru a treia.
Cum operăm pentru aceasta? Dăm clic pe Values şi va apărea următoarea fereastră de dialog:
Titlul ferestrei de mai sus este Value Labels deoarece este alcătuită dintr-o boxă pentru valori
(sus), una pentru etichetarea acestora (mijloc) şi o a treia cutie (cea mai mare, de jos) unde se
transferă rând pe rând variabilele care au fost etichetate. În cazul nostru la variabila Gen intrăm în
Value şi scriem 1, coborâm la Label şi scriem Mică apoi apăsăm pe Add pentru a transfera
codificarea în panoul de jos, după care ne reîntoarcem la Value şi scriem 2, coborâm la Label şi
scriem Mijlocie şi dăm din nou Add, pentru a o introduce în cutia de jos, procedând la fel şi pentru
a treia categorie. Dacă am greşit, în partea din stânga a ferestrei de dialog, sub Add, avem
butoanele Change şi Remove, primul pentru corecturi de scriere, al doilea pentru ştergerea
completă a unei categorii. Dacă inspecţia vizuală indică faptul că totul este în ordine dăm OK, ceea
ce ne întoarce la Value, unde în loc de None apare codificarea operată.
Înainte de vorbi despre coloana Missing (destinată codificării speciale a valorilor lipsă), mai
arătăm că mai există şi coloana Align care operează alinierea numerelor sau cuvintelor de pe
fiecare coloană de date fie spre stânga, fie spre dreapta, după cum optăm. Preferabil pare a fi să
optăm pentru alinierea pe dreapta la numere şi pe stânga la cuvinte, pentru a repera mai uşor
începutul acestora din urmă, ceea ce ne orientează mai uşor atunci când sortarea s-a făcut alfabetic.
16
Ultima coloană ce trebuie definită este intitulată Measure, cu alternativa tip nominală sau
tip scală, cea din urmă incluzând marimile numerice care definesc o scală ordinală, de intervale sau
de rapoarte. Tipul de măsurare utilizat permite doar anumite statistici, blocându-le pe celelalte.
Datele lipsă sunt o realitate a cercetării. Implicaţiile lor includ posibilitatea de a face
inferenţe pe datele eşantionului, care sunt biasate (distorsionate) în direcţii necunoscute, ca şi
tendinţa de a reduce mărimea eşantionului şi deci forţa cercetării pentru analizele efectuate.
Managementul acestor date nu este unul simplu: să le omitem, pur şi simplu? Să le înlocuim
arbitrar, doar pentru a completa distribuţiile? Să le completăm cu valorile ce ar reieşi din ecuaţiile
de regresie ale variabilelor care le prezic? Anumite procedee statistice presupun un anume
17
management al datelor lipsă. Trebuie adăugat şi faptul că pentru coloana Missing trebuie precizată
destinaţia valorilor lipsă:
by default valorile lipsă nu participă la calcule;
utilizarea discretă a datelor lipsă: putem folosi până la trei tipuri de valori lipsă (codificate
9, 99 şi 999) care vor fi folosite pentru valori numerice sau pentru variabile string scurte.4
utilizarea unui spectru mai larg al valorilor lipsă, care pot fi folosite pentru o valoare
minimă şi una maximă, protejându-ne astfel de distribuţiile aberante.
4
Cercetările disting între datele lipsă şi răspunsurile nonspecifice, codificate diferit. Astfel, la întrebarea:
Credeţi că există viaţă după moarte ? (Încercuiţi):
Da ........1
Nu.........2
Indecis...9
Varianta Indecis (Nu ştiu, Nu sunt sigur) etc. reprezintă răspunsuri nonspecifice, care pot fi codificate separat, ca şi
categoria Fără răspuns (missing data) sau Nedecis. Din această cauză, în astfel de situaţii pentru anumite tipuri de
răspunsuri pot fi rezervate trei coduri speciale, care ar putea fi: 97 – Nonrăspuns; 98 – Nedecis şi 99 – Alte situaţii.
Ulterior acestea vor putea fi analizate separat.
18
O problemă foarte specială o reprezintă categoria Altele din chestionarele deschise de opinii
sau valori. Iată următoarele întrebări5:
1. Dacă ar fi să muriţi în viitorii câţiva ani, sunteţi pentru, neutru sau împotrivă în legătură cu:
A. Înhumarea B. Incinerarea
Pentru ................1 Pentru ................1
Neutru ................2 Neutru ................2
Împotrivă ............3 Împotrivă .............3
Tehnic, întrebarea 2 este mult mai complicată decât întrebarea 1, ea putând primi următoarele tipuri
de răspunsuri:
Înhumarea oferă un loc unde să te plângă cei rămaşi.
Înhumarea este ceea ce s-a practicat în familia mea dintotdeauna.
Religia ortodoxă m-a învăţat încă din copilărie că este metoda cea mai utilizată de creştini în a
dispune de corpul propriu după moarte.
Religia ortodoxă m-a învăţat că la judecata de apoi participă doar cei cu integritate a corpului
(schelet).
Ideea arderii corpului mă sperie îngrozitor.
Pentru ambele variante din exemplul de mai sus trebuie efectuată o analiză de conţinut
pentru a determina motivaţia subiacentă, adică de ce zic că ar face ceea ce zic ei că vor face. Aceste
motivaţii devin categoriile distincte în care vor cădea răspunsurile subiecţilor. Aşa cum se observă,
în exemplul de mai sus motivaţiile îmbracă un larg spectru de posibilităţi, deoarece ele se referă la:
1. Rezolvarea nevoii de a fi plâns de cei dragi, rămaşi în viaţă.
2. O tradiţie de familie.
3. O tradiţie religioasă.
4. O cerinţă legată de viaţa de apoi.
5. Teama de a fi ars.
6. Alte motivaţii.
Finalmente, codificând astfel răspunsurile reieşite vom stabili o proporţie pentru fiecare tip de
motivaţie, putând crea de exemplu şi o ierarhie a motivaţiilor reieşite. Foarte adesea însă vom mai
descoperi că o multitudine de alte răspunsuri nu sunt raportabile la cele cinci categorii
motivaţionale, fie pentru că le amestecă pe cele deja existente, fie pentru că propun şi alte noi tipuri
de motivaţii. Pentru a rezolva o astfel de situaţie, am creat mai sus şi o altă categorie de răspuns,
Alte motivaţii, codificată cu 6. Este de la sine înţeles că ulterior ne vom întoarce la întrebările din
chestionar, vom face analiza de conţinut şi vom nota în dreptul fiecărei categorii codul
corespunzător rezultat din analiză.
5
Sursa: Newton şi Rudestam, op. cit., p. 12.
19
2. Fiecare variabilă trebuie să ocupe aceeaşi locaţie (poziţie) pentru fiecare caz
Această problemă pare a fi automat rezolvată de SPSS prin faptul că în Variable Wiew fiecare
variabilă este numerotată, secvenţa de configurare fiind mereu aceeaşi, pentru fiecare caz în
parte. Avantajul acestui fapt este unul considerabil pentru că el contribuie la apariţia rutinei în
introducerea datelor, ceea ce contribuie masiv la diminuarea oboselii şi la creşterea preciziei
acestei operaţii. Noi insistăm însă pe faptul ca ordinea din foile de răspuns şi cea din câmpul de
date din calculator să fie dacă se poate coincidente, pentru ca volumul de energie nervoasă
alocată supravegherii atenţionale să fie cât mai mic. Pentru aceasta vom şti că încă din faza de
multiplicare la Xerox a chestionarelor şi instrumentelor aplicate într-o cercetare este bine ca
aceasta să se facă tip seturi, capsate. Aceasta înseamnă că nu numai parcurgerea lor, dar şi
corectura / prelucrarea se fac mereu în aceeaşi ordine, cotele brute şi standard trecându-se
mereu în aceleaşi locuri.
Imediat după aplicarea lor, ele se vor pune în ordinea dorită (pe sexe, în ordinea vârstelor, a
numelor sau a mediilor), dându-li-se numere de ordine unice, identice cu cele din baza de date
din calculator. Ulterior, configurarea datelor prin Variable Wiew va respecta ordinea naturală
din setul de instrumente utilizat, pentru ca secvenţa de citire şi de introducere a datelor să fie
coincidente. Dacă o variabilă a fost iniţial nesatisfăcător plasată în câmpul de introducere a
datelor, dăm clic pe variabila pe care vrem să o preceadă, după care comanda Insert Variable
şi Paste, pentru a fixa noua locaţie a variabilei în cauză. Toate caracteristicile variabilei mutate
astfel dintr-un loc în altul se păstrează, împreună cu setările corespunzătoare, dar şi cu valorile
cazurilor deja introduse până la momentul respectiv. Cu alte cuvinte, ceea ce s-a schimbat a fost
doar locaţia variabilei şi nimic altceva. În acelaşi mod vom proceda şi pentru a introduce noi
variabile în vecinătatea variabilelor din care ele au derivat, cum ar fi notele standard (după
notele brute) sau valorile standardizate (note z), care de regulă apar la sfârşitul câmpului de
variabile după activarea unui buton special din Descriptives (Save standardised values as
variable).
6
Newton şi Rudestam, op. cit., pp. 15-20.
20
21
facem noi la introducerea datelor (transformarea din baza 12 în baza 10 la luni). Cea mai săracă
informaţional este varianta e pentru că ea creează doar două categorii de scor, dar nici d nu este
mult mai bună, căci oricâte variante de scor ar crea, această variabilă rămâne tot una
categorială. De asemenea, în loc de bifă pentru două categorii de status marital pe căsătorit/
necăsătorit, acesta ar putea fi mult mai bine indicat de exemplul indicat anterior (actualmente
căsătorit; concubinaj; separat; divorţat; văduv, necăsătorit), mai ales că nimic nu ne împiedică
ulterior să recodificăm dihotomic variabila. O variabilă continuă poate fi condensată în multe
feluri după introducerea sa în calculator, dar dacă ea a fost introdusă deja comprimat, nu mai
poate fi decomprimată pentru a afla de exemplu vârsta exactă a unui subiect indicat a face parte
din categoria 35 – 39 de ani.
1.10. Codebook
Deoarece fişierele de cercetare sunt unităţi de lucru dinamice, din care se adaugă şi se scot
date, se „clonează” sau se expandează prin fuziunea cu alte fişiere separate sau prin adăugarea de
noi variabile în câmpul de date, este foarte util să avem un codebook (în format electronic sau şi
mai bine neelectronic) în care să definim principalele caracteristici ale variabilelor utilizate. Pe
pagina următoare oferim un exemplu de codebook pentru o cercetare care corelaţionează mediile
şcolare, media de bacalaureat şi inteligenţa unor absolvenţi de facultate, cu alte date demografice
semnificative utilizate în prelucrarea iniţială.
Dacă exemplul de mai jos este unul relativ simplu, codebook-ul pentru un chestionar de
opinii, interese sau valori poate fi mai complicat, dar el devine un fel de „dicţionar” care descrie în
orice perioadă de timp chestionarul respectiv, fără de care datele din calculator rămân chiar şi
pentru cel care le-a creat un mister de nepătrus. Aceasta este cu atât mai mult valabil pentru o
persoană solicitată să ajute în prelucrarea datelor, indiferent de nivelul ei de expertiză.
22
CODEBOOK
O cercetare complexă poate include, pe lângă datele de identificare şi cele factuale, date
sintetice despre instrumentele utilizate, care pot fi teste psihometrice, chestionare de opinii,
împreună cu scorurile sintetice la itemii care le compun. Cum numărul variabilelor poate depăşi
câteva sute, fără un codebook, însoţit de câte un exemplar din fiecare instrument ce intră în
structura bateriei, accesul la prelucrarea şi interpretarea datelor este blocat atât pentru cel care le-a
creat, cât şi pentru oricine altcineva. Coloana Values din Variable Wiew rezolvă o bună parte din
aceste dificultăţi, dar nu pe toate.
23
24
Scala de proporţii reprezintă nivelul cel mai de sus în această ierarhie a tipurilor de scală de
măsură. Cum fiecare nivel de măsurătoare încorporează toate caracteristicile celui anterior, scala de proporţii
(sau de rapoarte, cum i se mai zice) are toate proprietăţile scalelor de sub ea, adăugând în plus altele noi. Ea
are deci şi magnitudine - ca scala ordinală, are unitate egală de măsură - ca cea de intervale, având în plus şi
un zero natural. Zero ca greutate sau ca lungime înseamnă absenţa oricărei greutăţi sau lungimi. Din cauză
că măsurătorile pe o scală de proporţii satisfac toate proprietăţile numerelor naturale, pe o astfel de scală pot
fi aplicate toate toate tipurile de manipulări, fiind posibile deci toate tipurile de statistică. Trebuie precizat
însă că existenţa punctului zero natural (neconvenţional) este una critică pentru analiza statistică, acesta
nefiind uşor de evidenţiat.
Variabila, conceptul fundamental alstatisticii, este orice element care se poate schimba, care poate
poate varia şi care deci poate fi exprimat prin mai mult de o singură valoare, având variate valori sau
categorii. Opusul variabilei este constanta, care nu prea interesează statistica: doar la ecuaţia de regresie
constanta reprezintă locul unde linia de regresie intersectează ordonata şi se numeşte intercept. Orice lucru
din univers, afirma Galton, există într-o oarecare măsură şi de aceea el poate fi măsurat. Orice lucru care
poate fi măsurat poate deci să fie o variabilă: succesul şcolar, inteligenţa, anxietatea, veniturile, simpatia,
fericirea maritală etc.
Spre deosebire de înălţime şi de greutate, care au nevoie de o scală şi de un instrument de măsură
caracteristic, variabilele din exemplele de mai sus trebuie aduse la o stare prin care pot fi măsurate, adică ele
trebuie operaţionalizate. De exemplu, inteligenţa ar putea fi dedusă din aptitudinea pentru calcul mintal,
pentru definirea de cuvinte (vocabular), din informaţii generale deţinute de cineva, din aptitudinea pentru
spaţiu, aptitudinea socială, aptitudinea de a se înţelege pe sine însuşi etc. Ea este deci un construct complex,
care nu se relevă dintr-o dată şi foarte uşor, fiind considerată o variabilă latentă, abordabilă doar prin
proceduri diagnostice şi statistice complicate (analiza corelaţională, covarianţa variabilelor, analiză
factorială).
Două distincţii sunt foarte importante în raport cu conceptul ce variabile, deoarece ele pot fi
dependente şi independente, continue şi discontinue (categoriale sau discrete). În sens experimental
variabila dependentă - VD - este cea care se află sub controlul (adică depinde) de variabila independentă - VI
-, cea pe care o manipulează cercetătorul pentru a vedea efectele asupra VD. Relaţia VI → VD este una
vectorializată, adică este de tip cauzal. Dar în regresia simplă sau multiplă variabila dependentă este cea
prezisă de cea independentă, putând fi sau nu cauzată de aceasta, deci relaţia nu mai este vectorializată. Unii
cercetători păstrează distincţia variabilă dependentă/ independentă doar pentru cercetarea de tip
experimental, dar în mod obişnuit termenii respectivi sunt folosiţi atât în studiile experimentale cât şi în cele
nonexperimentale.
Variabila categorială distinge între subiecţii statistici, punându-i într-un număr limitat de categorii
care indică tipul sau felul, creindu-se clase cum ar fi masculin, feminin; slab, mediu, bun; mic, mijlociu,
25
mare; introvert, ambivert, extravert; melancolic, coleric, flegmatic, sangvinic; grupele sangvine 01, A2, B3,
AB4 ş.a.m.d. Prin opoziţie, variabilele continue pot fi exprimate printr-un număr foarte mare, practic infinit
de valori ale măsurătorii. Ele se cheamă numerice şi sunt tipice pentru scalele de intervale şi de proporţii
(rapoarte). Decizia dacă datele sunt continue sau categoriale are importante consecinţe pentru tratamentul
datelor. Datele ordinale, de exemplu, pot fi tratate ca şi continue atunci când ele iau un număr foarte mare de
valori şi categoriale cănd iau doar un număr limitat, relativ mic de valori. De exemplu, într-un studiu pe
câteva zeci de subiecţi de gen feminin, înălţimea – măsurată doar în centimetri – s-a distribuit de la 158 la
178 centimetri, rezultând doar 20 de clase, variabila putând fi tratată ca şi categorială, deşi în mod curent
înălţimea este o variabilă numerică continuă.
De aceea aici este locul să analizăm şi o altă dihotomie, variabilă discontinuă (discretă) – variabilă
continuă. În cazul unei variabile discrete doar un număr redus de valori separă oricare două puncte ale
scalei. Cînd variabila este continuă, între oricare două puncte ce despart două valori ale sale pot exista o
multitudine de alte valori de scor, dacă instrumentul de măsură este suficient de fin şi numărul de cazuri
suficient de mare. Înălţimea şi greutatea sunt variabile continue în sens deplin: oricât de apropiate ar fi
greutăţile a două persoane, pot exista o multitudine de alte valori intermediare, dacă cântarul este suficient
de precis. Dar venitul, ce fel de variabilă este? Deşi măsurat adesea pe o scală de proporţii, el poate fi
considerat şi o variabilă discretă, deoarece venitul nu se calculează în unităţi mai mici decât o unitate ultimă
(leul, centul). Legătura dintre tipul variabilei şi nivelurile măsurătorii sunt sintetizate în schema de mai jos.
Tipuri de variabile
Independente Dependente
Discrete Continue
Niveluri ale
măsurătorii
Nominal De interval
Ordinal De proporţii
Variabile
dummy
Figura 1.6 . Legătura dintre tipurile de variabile şi nivelurile măsurătorii (tipuri de scale).
Iată şi câteva consecinţe practice legate de informaţiile de mai sus:
26
prin tradiţie, în reprezentările grafice, variabilei independente îi este rezervată axa OX (abscisa) iar celei
dependente axa OY (ordonata);
variabilelor continue li se aplică statisticile parametrice, celor discontinue (categoriale) statisticile
nonparametrice;
variabilele continue pot (şi uneori chiar trebuie) transformate în variabile discontinue, ceea ce nu este
însă valabil şi invers; anumite proceduri statistice, cum ar fi calculul semnificaţiei diferenţei mediilor,
analiza de varianţă presupunând un număr mic de categorii de analizat;
acest lucru este valabil şi pentru unele reprezentări grafice, care „condensează” mai bine caracteristici
ale variabilerlor când ele sunt categoriale;
prin această transformare a variabilelor continue în unele discrete puterea cercetării statistice descreşte
considerabil;
operaţia de transformare a variabilelor continue în variabile categoriale se face prin recodificarea
variabilelor; pentru a păstra şi variabila mai puternică statistic, care este cea continuă, şi a o avea şi pe
cea discontinuă (categorială) care rezultă din transformare este bine să alegem secvenţa Recode → Into
Different Variable, ce ne permite să operăm ulterior cu ambele forme ale aceleiaşi variabile.
27
CAPITOLUL 2
Bara de meniuri SPSS conţine 9 tipuri de opţiuni pe care le deschidem cu clic, după dorinţă
sau necesităţi:
File: îl utilizăm când creăm un nou fişier SPSS, deschidem unul deja existent ori citim un
fişier de date în format Spread sheet creat de un alt tip de program;
Edit: copiază sau modifică un text din Widows, outputuri sau sintaxe;
Data: utilizăm acest meniu când vrem să facem schimbări globale în fişierele SPSS, cum ar
fi combinarea de fişiere (Merge), crearea de subseturi de date distincte, ce vor fi analizate
separat (prin Split File sau Select Cases putem prelucra separat doar anumite categorii de
cazuri);
Transform: plecând de la variabilele existente putem crea unele noi sau putem opera
diverse schimbări asupra celor deja existente. Schimbările nu vor afecta în mod permanent
fişierul de date, decât dacă ele vor fi salvate ca atare;
Analyze: datele sunt introduse pentru a fi prelucrate. Din acest meniu vom selecta
procedurile statistice dorite (crostabulare, corelaţii, calcul de semnificaţie a diferenţelor
dintre medii, comparaţii statistice, analiza de varianţă, analiză factorială, regresie simplă sau
multiplă etc.);
Graphs: este utilizat pentru a crea histograme, poligonul frecvenţelor, diagrame,
scatterplot-uri, reprezentări grafice de tip plăcintă, bare sau boxplot-uri. Unele dintre
procedurile statistice generează automat şi grafuri (reprezentări grafice tip diagrame);
Utilities: este un meniu utilizat pentru a schimba fonturi, a accesa datele cu schimbare
dinamică, a dispune informaţiile relative la fişierele SPSS; de aici s-ar putea deschide şi un
index cu comenzile SPSS;
Widows: se utilizează pentru a aranja, selecta şi controla diverse atribute ale celorlalte
tipuri de Windows SPSS;
Help: deschide fereastra cu informaţii privitoare la utilizarea multor însuşiri ale
programului SPSS, el fiind accesibil şi din ferestrele de dialog.
(nu au „cocoaşe”), că nu prezintă „paraziţi statistici”, că norul de puncte are o gosime aproximativ
egală (prezintă homoscedasticitate, în termeni mai riguroşi). Mai mult, anumite proceduri statistice
presupun prepararea datelor: ANOVA presupune recodificarea variabilei continue în câteva
categorii distincte, uneori este necesară extragerea itemilor relevanţi care vor alcătui o scală, prin
analiză factorială, alteori este necesară normalizarea unei curbe asimetrice sau care nu stă bine cu
excesul...
În consecinţă, ceea ce vom prezenta mai jos are o dublă utilitate:
este un al doilea pas în controlul datelor, pentru a le proteja de un eventual „dezastru
statistic”;
constituie un fel de schemă bazală de care nu poate face abstracţie nici un statistician care se
respectă, aceasta constituind de fapt şi planul intern al lucrării de faţă.
Capitolul 3
Screening-ul iniţial al datelor,
Valori lipsă? Outlieri?
Frecvenţe, Distribuţii,
Histograme, Boxplot-uri
Diagrame Stem & Leaf
DA DA
Distribuţie univariată normală
NU
Capitolul 5
30
Regula de bază pe care o sugerăm pentru a răspunde la întrebarea anterioară („Şi acum ce
fac cu datele?”) este aceea că pornim iniţial de la o singură variabilă (analiză univariată) pentru a
ajunge la mai multe (analiza multivariată) şi de la caracteristici extrinsece, evidenţiabile şi printr-o
atentă inspecţie vizuală a datelor, spre cele intrinsece, evidenţiabile prin analize şi manipulări mai
complexe ale acestora.
„Atunci când vom înţelege cu grijă proprietăţile datelor noastre, multe dintre întrebările
relative la capacitatea lor de a satisface condiţiile unor analize statistice sofisticate îşi vor fi primit
deja răspunsul”7 afirmă Newton şi Rudestam, care ne oferă şi o schemă a fluxului analizei statistice,
adică o diagramă a procesului de screening al datelor din figura 2.1.
7
Newton şi Rudestam, op. cit., p.35.
31
Datele rezultate sunt cele din tabelul de mai jos, în care Minimum, Maximum; Range au fost scrise
comprimat (Mini, Maxi, Rang) pentru a se încadra în formatul textului. Trebuie de altfel menţionat
că prin dublu clic pe orice tip de output SPSS acesta este selectat şi i se pot aplica anumite
„tratamente” pentru a corespunde mai bine preferinţelor sau intereselor utilizatorului.
Pentru frecvenţe lucrurile se prezintă într-o manieră similară în sensul că se foloseşte o secvenţă
asemănătoare, Analyze→Descriptives→Frequencies.
32
Figura 2.4. Selectarea din Analyze→Descriptives a ferestrelor de dialog Frequencies şi apoi Statistics.
Ca în mai toate ferestrele de dialog SPSS în partea stângă a ferestrei de dialog Frequencies avem
un panou al variabilelor, afişate în ordinea introducerii lor în Variable Wiew, din care le selectăm
cu săgeata mică dintre câmpuri pe cele care ne interesează pentru a le introduce în câmpul de lucru
din dreapta. Chiar dacă în panoul din stânga al ferestrei de dialog se văd doar 9 variabile, celelalte
pot fi vizualizate cu ajutorul scrolului (bara verticală ce se mişcă cu mausul în sensul celor două
săgeţi).8 În partea de jos a aceleiaşi ferestre de dialog din stânga figurii 2.4. avem trei opţiuni:
Statistics, de care o să facem uz în exemplul nostru, Charts, buton ce permite realizarea de grafice
(diagrame) simultan cu celelalte prelucrări statistice şi Format, care permite modificarea formei
outputului.
Fereastra de dialog Statistics din dreapta aceleiaşi figuri 2.4 este organizată în patru câmpuri:
Percentile Values (panoul din stânga-sus) care permite calculul oricăror puncte percentile
sau a punctelor de tăietură (Cut points for equal groups) pentru a face o gradare pe curbă
în numărul de grupe dorit. Trebuie spus că acestea sunt transformări de arie, luându-se din
curba lui Gauss tranşe succesive, egale ca suprafaţă, dar inegale ca unitate de lungime.
Dispersion (stânga-jos) permite calculul indicilor de împrăştiere, adică abaterea standard şi
varianţa, a valorilor minime şi maxime şi deci a amplitudinii împrăştierii (Range), ca şi
eroarea standard a mediei.
Central Tendency (dreapta-sus) are în vedere valorile tendinţei centrale, care sunt media,
mediana şi modul, la care se adaugă şi suma valorilor individuale (Sum), care împărţită la N
dă media.
8
Trebuie ştiut că unele variante de SPSS afişează variabilele în ordine alfabetică iar altele în ordinea introducerii lor,
ca SPSS 10.0. În primul caz trebuie să avem grijă ca variabilele din acelaşi test/ categorie să poarte în faţă o aceeaşi
literă pentru a fi regăsite în acelaşi grup de variabile, ceea ce este vital în cazul cercetărilor cu foarte multe variabile. De
exemplu, în cazul factorilor PF16 putem opta pentru a-i numi pf_a, pf_b, pf_c etc., în timp ce de la Labels îi etichetăm
Ciclotimie, Inteligenţă, Stabilitate emoţională etc. În cazul al doilea, cel mai frecvent, al afişării variabilelor în ordinea
introducerii, gruparea lor într-o secvenţă logică ne ajută foarte mult în a le repera şi prelucra rapid.
33
Aşa cum se observă din figura de mai sus, prin setarea None din fereastra de dialog Charts
nu se produc nici un fel de reprezentări grafice ale datelor, dar dacă dorim putem selecta ca acestea
să fie redate prin bare, reprezentări tip plăcintă sau prin histograme, activând butonul corespunzător
din stânga sus a ferestrei. Din partea de jos putem opta ca aceste reprezentări grafice să se facă
pentru valorile absolute sau relative (procentaje) ale datelor. Atragem însă atenţia că procentajele
au şi avantaje (produc o primă standardizare a datelor, ele fiind tratate ca şi când numărul de cazuri
ar fi de 100, făcându-le astfel direct comparabile), dar şi dezavantaje: când numărul cazurilor este
mai mic de 30 acest procedeu devine o importantă sursă de distorsiune perceptivă şi de eroare,
supradimensionând cu atât mai mult ponderea supraunitară a unui caz cu cât numărul total de cazuri
este mai mic.
După ce selectăm combinaţia dorită dăm Continue pentru a reveni în fereastra precedentă
(Frequencies), lansarea finală în lucru făcându-se ca de obicei prin butonul OK. Fereastra de
dialog Format din dreapta figurii 2.5. ne propune prin panoul său din stânga sortarea ascendentă
sau descendentă a datelor, cumularea lor ascendentă sau descendentă, organizarea outputului pe
variabile sau eliminarea unor categorii ce depăşesc un anumit număr de valori. Noi am introdus
spre analiză două variabile simultan, Înălţimea reală şi Înalţimea dorită, deşi pot fi introduse mult
mai multe, dacă acest tip de analiză este necesar. De fapt, aşa cum rezultă din ferestrele de dialog
prezentate anterior, frecvenţele sunt utilizate nu numai pentru a verifica dacă nu există date
aberante introduse din greşeală, ci şi pentru a obţine informaţiile corespunzătoare unei statistici
descriptive univariate, ca media, abaterea standard, varianţa, valorile minimă, maximă, dar şi
Range, Skewness şi Kurtosis (pe care le puteam obţine şi de la Descriptives). Tabelele de frecvenţe
sunt instrumente ideale pentru calcularea etaloanelor sau a tabelelor de norme, pentru că ele pot
furniza orice punct percentil cerut. În exemplul de mai sus noi am cerut din Statistics punctele
34
percentile ce definesc quartilul Q1, Q2 (Mediana) şi Q3. De asemenea outputul va furniza sub
formă de procente frecvenţele simple şi pe cele cumulate, fapt prin care crearea unui etalon este
foarte mult facilitată.
Valorile outputului Statistics sunt identice cu cele comune afişate la Descriptives, dar trebuie să
facem câteva remarci legate de organizarea sa. Figura 2.5. este tipică pentru organizarea oricărui
output, care constă dintr-un sector aflat în dreapta şi unul aflat în stânga, separate de o linie dublă.
Dublul clic pe această linie permite mutarea sa mai la stânga, până la eliminarea totală a sectorului
stâng, ceea ce va permite o mai bună vizualizare a datelor efectiv produse de outputul din dreapta.
Partea din stânga are însă şi ea o utilitate practică pentru că organizează într-o arborescenţă toate
outputurile produse, permiţând reperarea celui dorit, ce va fi indicat cu o săgeată roşie. Outputul
nostru are această săgeată la Statistics→Frequency table, unde vedem că sub titlu sunt indicate
variabilele prelucrate, înalţimile reală şi cea dorită. Datele descriptive despre aceste două variabile
sunt efectiv afişate în stânga, locul fiind indicat de asemenea de o săgeată roşie. Valorile din tabelul
2.3 se regăsesc într-o altă formă de prezentare (verticală) în acest output, care conţine şi o parte a
doua, în prelungirea celei menţionate, cu frecvenţe efective, pe care o prezentăm în figura de mai
jos. Aceasta constă din 5 coloane:
prima coloană defineşte domeniul variabilei (spectrul pe care aceasta ia valori, cuprins între
o primă valoare - minimă şi o ultimă valoare - maximă);
a doua coloană indică frecvenţele brute (număr de cazuri) pentru fiecare valoare a variabilei;
a treia coloană face o transformare procentuală a acestor valori absolute, prin raportare la
numărul total de cazuri;
35
a patra coloană face aceeaşi transformare, dar prin raportare la numărul valid de cazuri (nu
şi al celor lipsă);
ultima coloană cumulează pe verticală fiecare frecvenţă relativă din coloana precedentă cu
valoarea (valorile) de până la ea, astfel că la final se atinge 100%.
În construirea etaloanelor, cea mai utilă este practic coloana a cincea, deoarece dacă variabila are un
spectru de variaţie suficient de larg, distribuţia este apropiată de una normală şi dacă numărul
cazurilor a fost unul mare, se pot repera relativ uşor punctele din distribuţie unde variabila atinge
3,6%, 8,1%, 15,8%, ..., 100% pentru a crea un etalon cu 11 clase normalizate cu media 5 şi abaterea
standard 2 (note C). Ulterior vom defini clasele, hotărând cum distribuim valorile care cad între
golurile distribuţiei - de exemplu între 170 şi 172 -, vom calcula frecvenţele pentru fiecare clasă în
parte şi finalmente vom verifica dacă baremul obţinut respectă condiţiile predefinite (media cât mai
aproape de 5 şi abaterea standard în jur de 2).
Coloana a cincea este necesară şi pentru recodificarea unei variabile continue în una
discontinuă cu un număr mic de clase. De exemplu, dacă am vrea ca înălţimea reală prezentată în
figura de mai sus să fie împărţită în trei părţi egale, valoarea de scor corespunzătoare primei treimi
(33%) este 166 iar a celei de a doua treimi (66%) este 173. Prin Recode Into Different Variables
din meniul Transform vom putea determina că prima grupă este 0 – 166, a doua 167 – 173 şi a
treia 174 – 250 (fiind deschise, limita inferioară şi superioară se pun suficient de larg pentru a
include toate cazurile, inclusiv valorile atipice).
Pe lângă aceste utilizări practice evidente, un tabel de frecvenţe mai are şi alte avantaje:
permite aprecierea formei distribuţiei, mai ales pentru variabile care nu au mai mult de 50
de valori de scor, care pot încăpea toate pe aceeaşi foaie, putând fi inspectate vizual
36
simultan: tendinţa acestora de a se aglomera spre centru, spre extreme sau pe mai multe
zone distincte ale spectrului de variaţie va putea fi confirmată şi de histograma distribuţiei
respective;
utilizatorul poate detecta erorile de introducere, de codare şi recodare a datelor, ceea ce îi va
permite să înceapă procesul de curăţire a bazei sale de date. Acest proces este evident mai
uşor pentru valorile atipice sau aberante, cum ar fi de exemplu valorile diferite de 0 şi 1
pentru gen, valori peste 10 la notele şcolare sau de ordinul a patru cifre pentru înălţimea
umană exprimate în centimetri. Ce vom face cu valorile aberante sau introduse greşit?
Identificăm valoarea eronată din Data Wiew, reperăm numărul său de ordine şi mergem la
sursă, făcând corectura de rigoare. Se întâmplă destul de des ca la introducere să apăsăm din
greşeală două taste în loc de una şi numărul introdus să fie mai mare cu un ordin de mărime
decât cel real. Prima măsură de precauţie este verificarea corectitudinii datelor, a doua fiind
epurarea de la Frequencies. De la Descriptives, pe lângă valori ce ies cu mult în afara
spectrului normal de variaţie, abaterile standard nejustificat de mari ne atrag de asemenea
atenţia asupra unor posibile erori de introducere a datelor. Nici o precauţie nu este inutilă
dacă dorim să avem certitudinea că rezultatele obţinute prin prelucrări sunt unele reale şi nu
artefacte sau consecinţele unor neatenţii de introducere a datelor primare. Mintea odihnită,
rutina şi verificările multiple sunt calea către certitudine, deşi nu putem fi niciodată pe
deplin siguri că nu am comis şi erori nedepistate.
O practică utilă este aceea deja amintită, a cercetării distribuţiilor pentru fiecare variabilă în
parte, pentru a depista erorile cele mai evidente, dar chiar şi aşa unele erori sunt greu de
reperat: 29 în loc de 290 la un test cu limita de sus a scorului 100 este o eroare uşor de
reperat, dar 29 de ani în loc de 59 (cifrele 2 şi 5 fiind vecine pe tastatură) este o eroare mult
mai greu detectabilă.
37
CAPITOLUL 3
REPREZENTĂRI GRAFICE ÎN S P S S
Statisticile ilustrative cu imagini grafice sunt reprezentări vizuale ale datelor. Raţiunea lor
este aceea că pare mult mai uşor de sesizat sensul unor date printr-o reprezentare vizuală decâ prin
cifre sau numere. Acestea din urmă sunt mai sintetice, dar tocmai de aceea pot masca unele
caracteristici importante ale datelor. O modalitate foarte eficientă de explorare iniţială a datelor este
apelul la facilităţile grafice ale programului SPSS din meniul Graphs, care pot apărea ca opţiuni şi
în alte ferestre ale meniului Analyze, ca de exemplu din Frequencies. Multe alte proceduri de
testare statistică dispun şi de opţiuni grafice.
Metodele destinate creării diferitelor tipuri de reprezentările grafice sunt foarte similare şi
de aceea în acest capitol vom încerca să le ilustrăm pe cele mai importante prin câte un exemplu,
indicând ce alte tipuri de diagrame pot fi create prin proceduri similare.
38
Inspectând diagrama din figura de mai sus, observăm câteva elemente importante:
ea dispune pe orizontală (abscisă) valorile variabilei grupate în intervale de 5, grupare
operată automat de programul SPSS,
peste barele care reprezintă frecvenţele de pe ordonată este suprapusă o curbă, care este o
opţiune pe care o putem activa sau nu când solicităm o asemenea diagramă din
Frequecies→Charts, activând sau nu butonul With normal curve. Curba este informativă
de măsura în care distribuţia se apropie de una normală. În cazul analizat de noi vedem că
distribuţia este asimetrică spre stânga (negativă) şi că pe porţiunea 160 – 180 ea are multă
regularitate;
din imaginea din stânga figurii 3.1. vedem că din Chart Type putem să optăm şi pentru
reprezentarea cu bare sau pentru cea de tip plăcintă, setarea standard la Frequencies fiind
fără nici o reprezentare grafică (None);
în partea dreaptă a diagramei sunt afişate automat media, abaterea standard şi numărul de
cazuri redate. Dcă vrem ca aceste statistici să fie înlăturate, dăm clic pe ele şi le ştergem;
de asemenea, dacă vrem să schimbăm denumirea axelor, dăm clic pe ele şi le edităm, ceea
ce putem face şi pentru marcarea numerică a coloanelor, procedeul fiind prezentat detaliat la
editarea diagramelor cu bare.
Figura 3.2. Selectarea din Graph a meniului Bar şi fereastra de dialog care apare.
39
Există mai multe posibilităţi de combinaţie dintre tipurile de reprezentări cu bare propuse (stânga
sus de la Bar Charts) şi tipul de date ce vor fi expuse în diagrame (panoul de jos al aceleiaşi
imagini):
opţiunea Simple redă printr-o bară fiecare categorie, caz sau variabilă de pe axa
categoriilor;
opţiune Clustered redă prin bare împerecheate fiecare categorie de pe axa categoriilor;
opţiunea Stacked face acelaşi lucru ca şi cea precedentă, doar că barele nu sunt una lângă
alta, ci una peste alta, fiecare sector fiind colorat distinct;
butoanele de jos ne ajută să specificăm dacă barele reprezintă grupuri de cazuri, variabile
separate sau cazuri individuale.
22
20
18
16
14
12
Count
10
Masculin Feminin
Sex
Figura 3.3. Fereastra de dialog care apare după ce am selectat Simple şi tipul de diagramă realizată.
Aşa cum se observă, din panoul datelor am introdus la Category Axis variabila Apartenenţă de
gen (Sex), am activat butonul pentru valori absolute din stânga-sus (N of cases) şi am dat OK.
Diagrama simplă rezultată este una foarte indicată pentru prezentarea structurii eşantionului sau
a unor variabile categoriale cu un număr nu prea mare de categorii, pentru că ea nu poate
sintetiza multe tipuri de informaţii simultan, utilitatea ei fiind de aceea mai limitată ca cele ce
vor fi prezentate mai jos.
40
120
100
80
60
Mica
20
Mijlocie
0 Mare
Masculin Feminin
Sex
Figura 3.4. Selecţia opţiunii Clustered: Summaries for groups of cases (% of cases)
şi outputul corespunzător.
Trecerea de la primul icon (din stânga figurii 3.4.) la al doilea (din mijloc) se face activând butonul
Define (definire), iar după ce se termină toate setările în această fereastră de dialog, comanda „se
lansează în lucru” prin OK. Aceasta duce la afăşarea unui output ca cel afişat mai sus.
Am putea spune că figura 3.2. reprezintă modul ideal de a reda două variabile, ambele de tip
categorial. În fereastra de dialog de aici sub Category Axis avem o a doua ferestruică – Define
Clusters by – unde introducem cea de a doua variabilă, tot de tip categorial, ce va fi redată cu toate
cele 3 categorii ale sale, atât pentru genul masculin, cât şi pentru cel feminin. Rezultatul apare în
diagrama prezentată alături. Cum Înălţimea reală a fost codificată în trei categorii (mică, mijlocie şi
mare), fără a ţine cont de diferenţa de gen existentă, vedem că la băieţi predomină valorile mari ale
înălţimii iar la fete cele mici şi apoi medii, valorile mari lipsind complet.
190
180
170
Inaltimea reala
Mean
Sex
Figura 3.5. Selecţia opţiunii Clustered/ Summaries of Separate Variables şi outputul corespunzător.
În fereastra de dialog Summaries of Separate Variables din figura de mai sus structura este foarte
asemănătoare ca şi al celorlalte iconuri de acelaşi tip, existând panoul variabilelor în stânga şi
Category Axis la mijloc. Diferenţa o dă faptul că variabilele selectate cu săgeata pentru a fi redate
41
grafic vor intra într-o cutie mai mare (Box Represent) alături de cel puţin încă o variabilă (dar şi de
mai multe) condiţie fără de care nu se activează butonul de OK.
Dacă vrem să facem în acest mod o reprezentare grafică a unei singure variabile, o putem
introduce de două ori şi, când edităm diagrama, eliminăm una dintre barele identice. În cazul de
mai sus, vedem că diagrama vizualizează două informaţii foarte clare: 1. atât la înălţime cât şi la
greutate valorile medii ale băieţilor sunt mai mari ale decât ale fetelor; 2. atât pentru bâieţi cât şi
pentru fete înalţimea dorită este valorizată pozitiv, deoarece ea este peste cea reală.
400
181
170
300
200
176
165
100
Inaltimea dorita
Mean
0 Inaltimea reala
Masculin Feminin
Sex
Dacă vom analiză cu atenţie cele trei tipuri de output din figurile 3.3., 3.4. şi 3.5. vom observa că la
prima ordonata este marcată cu Count (valori absolute), a doua cu Percent (procente, adică valori
relative) iar a treia cu Mean, adică cu mediile categoriilor reprezentate. Dintre aceste moduri de
reprezentare cea mai cea mai mare grijă trebuie avută cu a doua, pentru că procentele se referă nu la
categoria băieţi, ţn raport cu care se determină cât sunt mici, mijlocii şi mari, ci la altceva: din
numărul brut total de cazuri mici se determină câte revin la băieţi şi câţi la fete. De exemplu în
figura 3.4. toate cazurile mari (100%) se distribuie doar la băieţi. Aşadar, utilizate neglijent,
diagramele cu procente pot fi surse de confuzie şi distorsiune perceptivă.
42
Figura 3.7. Accesarea ferestrei de dialog Pie Charts şi Define Pie: Summaries for Groups of Cases.
Limbic drept
Cortical stang
Limbic stang
Cortical drept
Ambele figuri de mai sus reprezintă acelaşi tip de output, pentru acelaşi tip de date. În stânga
outputul indică 5 sectoare, pentru că de la Options nu a fost deselectată Display goups defined by
missing values, ceea ce s-a petrecut în cea de a doua diagramă, unde se observă că, deşi aparent
egale ca suprafaţă, din cele 4 cadrane redate pentru un test de preferinţe acţionale cel Cortical stâng
şi Limbic stâng deţin ponderi mai mari. Pentru a avea o imagine mai exactă a procentajelor din
fiecare cadran trebuie să activăm editorul de diagrame (Chart Editor) dând dublu clic pe diagramă.
43
Limbic drept
30.0%
Limbic stang
Cortical drept
24.3%
20.0%
Din această fereastră de dialog, obţinută prin dublu clic pe Label, activăm al treilea buton de jos
(Percents) şi se va obţine imaginea din dreapta, care este mult mai explicită, pentru că fiecare
sector are procentajul aferent infâdicat sub numele său. Acum putem de exemplu observa că
sectorul Cortical sâng deţine ponderea cea mai mare (30%), urmat de limbic drept şi de limbic
stâng (în jur de 25%) şi de cortical drept (doar 20%).
44
De exemplu, dacă vrem să schimbăm culoarea barelor, liniilor sau câmpurilor unei diagrame, pe
bara de opţiuni din partea de jos a figurii 3.10. vom reţine a treia căsuţă, reprezentând un tub de
vopsea, prin care se şi sugerează că de acolo putem schimba culoarea elementelor vizate din
diagramă. Se dă dublu clic pe elementul se urmează a fi schimbat, şi după selectarea sa va apărea
următoarea fereastră de dialog.
60
59
57
52 53
50
47 48
40 43
41
30
z PA Tip
20
Cortical stang
Cortical drept
10
Limbic stang
0 Limbic drept
< 40 de ani > 40 de ani
Figura 3.12. Fereastra de dialog Colours deschisă din Chart Editor şi imaginea rezultată.
În diagrama din centru se observă că am marcat bara Limbic stâng (a treia, care are în
colţuri nişte puncte negre) pentru că era albastră şi nu se putea descifra clar scrisul pe ea, ceea ce la
o proiecţie în Power Point poate fi neplăcut. Culoarea albastră s-a mutat în dreptunghiul gol din
dreapta sus al ferestrei de dialog Colours, de unde am selectat o culoare mai luminoasă, galben, şi
dând Apply s-a operat înlocuirea albastru-galben pentru bara respectivă, aşa cum se poate vedea
din diagrama rezultată (dreapta figurii 3.12.). Fereastra de dialog respectivă ne mai prezintă şi alte
opţiuni, cum ar fi aceea de a umple fundalul figurii cu o culoare prin Fill sau aceea de a modifica
culoarea neagră a chenarului de la Borders cu o altă culoare. Fundalul şi chenarele sunt setate alb,
respectiv negru, pentru că această redare dă cel mai bun contrast perceptiv şi ca atare le vom
modifica doar dacă avem intenţii speciale. Oricare ar fi setul nostru de opţiuni, ele pot fi salvate
prin Save as default, după care diagramele care vor fi produse ulterior vor fi setate în acelaşi fel,
păstrând deci un format şi un caracter unitar pentru toate.
Din SPSS Chart Editor prezentat în figura 3.11. ne reţine atenţia cea de a şaptea căsuţă,
care ne permite să marcăm cantitativ orice diagramă produsă.
45
60
60
59
57 59
57
52 53
50 52 53
50
47 48
47 48
43
40 41 43
40 41
30 30
z PA T ip z PA T ip
20 20
Cortic al s tang Cortic al s tang
Figura 3.13. Fereastra de dialog Bar Label Styles şi cele două tipuri de marcare produse.
Opţiunile ferestrei Bar Label Styles sunt două, Standard, care supraimprimă pe fiecare bară
numărul de cazuri sau procentajul respectiv (cel mai adesea rotunjite la unitate) şi Framed, care
face acelaşi lucru, incluzând însă valorile cifrice într-un dreptunghi alb, prin care cifrele devin mai
clar vizibile, dar în detrimentul înălţimii barei respective, care apare ca “decapitată”. De aceea acest
al doilea mod de marcare este preferabil mai ales pentru diagramele cu un număr mic de bare,
pentru ca aceste căciuli albe să aibă loc, în rest opţiunea standard fiind cea indicată. Cel de al treilea
buton din fereastra de dialog de mai sus se cheamă None şi este opţiunea prin setare a lui Bar
Label Styles. Ea este însa utilă şi pentru a deselecta comenzile anterioare pentru Standard sau
Framed şi a reveni la bare nemarcate cu cifre.
Pentru că suntem la capitolul de editare a diagramelor trebuie amintit că, prin dublu clic,
putem modifica modul de numire al abscisei şi al ordonatei, legenda din dreapta fiecărei diagrame,
dar şi mărimea axelor,originile lor sau unitatea lor de măsură. Într-un studiu ştiinţific sau într-o
prezentare Power Point diagramele trebuie atent lucrate, şi de aceea la legendă putem trece nu
numai ce reprezintă fiecare bară sau sector, ci şi indicatori ai pragurilor de semnificaţie (t, F şi p-
urile aferente), pentru a indica în mod clar că au fost reţinute şi redate imagistic doar elementele
semnificative statistic. Aşa cum se observă, în diagramele din figura 3.14. doar una dintre variabile
a atins pragul semnificaţiei statistice care ne-ar fi îndreptăţit la o redare grafică, cea verde (p=.05),
deşi cea roşie pare a fi şi ea concludentă.
110
105
105
105
100 101
100 101
97
97
95 95
95 95
95
90
90
90
90
Mean
P F(2,64)=1.21 p=.23
Mean
P F(2,64)=1.21 p=.23
z Limbic_Cortical z Limbic_Cortical
Figura 3.14. Fereastra de dialog Scale Axis şi modificarea produsă de la o diagramă la alta.
46
Fereastra de dialog Scale Axis a fost obţinută cu dublu clic pe ordonata diagramei din mijloc, a
cărei origine (Range = Minimum) era de 80 şi valoare terminală (Range = Maximum) era de 110,
creşterea ei fiind (Increment) din 10 în 10 unităţi. Setarea nostră a fost de 85, 105 şi respectiv 5
pentru cele 3 categorii, după care am dat OK, apărând astfel diagrama modificată din dreapta. Se
observă că la aceasta unghiul pantei este mult mai accentuat, redând mai bine ideea de creştere
dinamică de la o categorie la alta. Aceasta trebuie să ne prevină asupra faptului că Smith avea
dreaptate când afirma că “Există minciuni, minciuni gogonate şi minciuni statistice…” şi că doar
imaginea (căreia i se pot modifica axele după plac) nu este suficientă pentru a convinge pe cineva
avizat. De aceea trebuie să indicăm şi pragurile statistice care validează imaginea prezentată astfel.
Aşa cum se observă de mai sus pentru a produce boxploturi secvenţa este Data
Editor→Graph→Boxplot→Define, unde la Variable vom introduce o variabilă continuă (în
cazul nostru scorul total la scala SE de sens existenţial alui Längle) iar la Category Axis o variabilă
47
categorială (în cazul nostru apartenenţa la mediul rural sau urban). Întenţia noastră este aceea de a
avea o imagine directă asupra capacităţii de construcţie a sensului existenţial pentru intelectualii din
lumea satului şi pentru cei din lumea oraşului, ştiind fiind că mediul rural este mai pauper cultural
şi că decizia de a se fixa acolo apare mai greu pentru cei care au terminat o facultate, exceptând
situaţia în care ei s-au născut acolo.
300
250
200
150
121
100
N= 90 23
Urban Rural
Mediu
Imaginea de mai sus infirmă foarte clar presupunerea făcută, cele două imagini fiind extrem de
asemănătoare. Pentru a înţelege mai bine structura unui boxplot, oferim schema din figura 3.17.
Pe lângă elementele explicative menţionate mai sus este util să ştim că dacă variabila este
normal distribuită, boxplotul trebuie să fie simetric. Aceasta însemnă că “mustăţile” sunt la aceeaşi
distanţă de marginea de jos, respectiv de cea de sus a cutiei, iar înăuntrul acesteia mediana se află
chiar pe mijlocul cutiei. Desigur că această presupune distribuţii mari din punct de vedere numeric.
Lungimea cutiei ne vorbeşte despre variabilitatea sau împrăştierea distribuţiei, cu atât mai mare cu
cât distanţa dintre marginile cutiei, corespunzând lui Q3 – Q1 este mai mare. Dacă mediana nu este
poziţionată central distribuţia poate fi asimetrică negativ (mai aproape de Q3) sau pozitiv (mai
aproape de Q1) pe porţiunea ei centrală.
Utilitatea boxploturilor este mare atât pentru distribuţiile univariate (metodă rapidă de
apreciere a normalităţii distribuţiei şi de detectare a valorilor atipice), cât mai ales pentru cele
multivariate. Astfel, dacă ar fi să comparăm salariile de început şi cele cele ulterioare ale diverselor
categorii profesionale sau ale unei singure instituţii (bancă, universitate etc.) am putea observa nu
numai diferenţe de la o categorie la alta pentru valoarea centrală, care este mediana, ci şi
amplitudini diferite ale distribuţiilor, simetrii / asimetrii ale acestora pentru diferite categorii de
angajaţi. Factorul timp poate de asemenea imprima un trend caracteristic datelor.
48
Punctul percentil 25 Q1
Whisker (mustaţă) Punct aflat la 1,5 lungimi de cutie de punctul percentil 25 (Q1)
(cea mai mică valoare
care nu este un outlier)
Outlieri o Puncte aflate între 1,5 - 3 lungimi de cutie de de percentilul 25
o
Tabelul din figura de mai jos ne ajută să înţelegem unele neregularităţi ale boxploturilor rezultate
din exemplul de mai sus, datorate faptului că numărul cazurilor comparate este foarte neechilibrat,
genul masculin fiind mult mai slab reprezentat decât cel feminin, iar mediul rural decât cel urban.
Şi aşa este însă evident că lăţimea cutiilor este mai mare pentru bărbaţi decât pentru femei, ceea ce
înseamnă că variabilitatea scorurilor lor este mai mare, că aceste distribuţii nu prea sunt simetrice,
femeile prezentând şi valori atipice (outlieri). În plus, la femeile din mediul rural mediana cade
foarte asimetric în interiorul cutiei, semn al unei distribuţii atipice (negativă).
49
200
180
15
160
5
121
140
120
100
80 Mediu
60 Urban
40 Rural
N= 16 6 76 17
Masculin Feminin
Sex
De precizat faptul că acolo unde avem valori extreme sau outlieri ei trebuie cu atenţie
verificaţi pentru a nu fi rezultatul erorilor de scorare sau de tastare şi introducere a datelor, cu atât
mai mult cu cât ei sunt clar indicaţi pe diagramă. În cazul nostru sunt de verificat cazurile 6, 15 şi
121 pentru a vedea dacă sunt sau nu outlieri reali sau prin eroare de scorare sau de introducere a
datelor. Aceasta înseamnă să verificăm cazurile respective începând de la punerea grilei, la
determinarea scorului brut şi până la introducerea datelor.
3.6
3.6
3.4
3.4
3.2
3.2
3.0
3.0
2.8
Varsta 3 clase
2.8
2.6
Satisf. sufleteascã < 35 de ani
Mean
2.6
2.4 Satisf. materialã 35-50 ani
< 35 de ani 35-50 ani > 50 de ani
2.4 > 50 de ani
Varsta 3 categorii Mean Satisf. suflete Mean Satisf. materia
Figura 3.19. Fereastra de dialog pentru reprezentare grafică de tip linie, direct şi cu transpoziţia axelor.
50
cel mai indicată în studiile longitudinale, acolo unde timpul este cel care se asociază cu asemenea
variaţii ale variabilei, pentru aceleaşi categorii de subiecţi.
În cazul ilustrat prin diagramele de mai sus studiul este însă unul de tip transversal,
încercând să evidenţiem rolul satisfacţiei în munca de bibliotecar şcolar în funcţie de factorul
vârstă, prin determinarea sa la 3 categorii distincte, tinere, medii şi mature. Se remarcă faptul că în
timp ce satisfacţia materială a muncii rămâne relativ constantă pentru cele 3 categorii investigate,
satisfacţia sufletească a muncii este în uşor regres odată cu înaintarea în vârstă. Pentru a vedea însă
dacă acest declin este semnificativ, va trebui să facem un calcul de analiză a varianţei ANOVA,
care ne va lămuri dacă el atinge sau nu un pragul semnificaţiei statistice.
Pentru a obţine o diagramă cu inversarea axelor, care uneori poate fi mult mai concludentă,
secvenţa este dublu clic pe figură, Chart Editor→Series→Transpose Data. Utilizarea sa este
indicată mai ales în cazul măsurătorilor repetate ale aceluiaşi grup. În cazul analizat de noi distanţa
de la satisfacţia sufletească (mare) la cea materială (mică) în munca de bibliotecar şcolar este din
capul locului prezentă la toate categoriile de vârstă şi nu poate fi cazul unei legături de tip cauzal
între ele, deci este de preferat utilizarea primei diagrame produse mai sus şi nu a celei transpuse.
24
22 50
20
18 40
16
14 30
Sex m=0 f=1 Sex m=0 f=1
12 1 1
10 0 20 0
30 40 50 60 70 80 30 40 50 60 70 80
Figura 3.20. Reprezentări grafice de tip scatter care redau ca nor de puncte relaţia dintre scorurile
la Motricitate şi la Cogniţie cu scotul total la o baterie de teste, diferenţiat pentru băieţi şi fete.
51
14. Deşi scatterploturile au foarte multe utilităţi, ele sunt extrem de utile, dacă nu obligatorii, când
urmează a se determina un coeficient de corelaţie sau o regresie.
Relaţia dintre două variabile este cel mai bine exprimată cifric prin coeficientul de corelaţie,
care poate lua valori între -1 şi +1 (care sunt corelaţiile perfecte), trecând prin zero (care exprimă
absenţa oricărei relaţii dintre variabile). Cu cât relaţia dintre varialile se apropie mai mult de zero cu
atât mai slabă este această relaţie, în preajma lui zero ea devenind practic nulă. O diagramă de
corelaţie dă o expresie vizuală acestei relaţii, fiind posibil ca, după un oarecare antrenament, să
apreciem intensitatea relaţiei doar dintr-o simplă inspecţie vizuală a acestei diagrame. O abordare
inversă nu este însă valabilă, pentru că aceeaşi valoare cifrică poate fi expresia unor distribuţii a
norilor de puncte destul de diferite. Concluzia este aceea că înţelegem mult mai bine forma şi
natura relaţiei dintre două variabile dacă cifra este dublată şi de o imagine, adică de un scatter.
Un scatter ne informează despre forma relaţiei, direcţia acesteia şi intensitatea ei, astfel:
forma relaţiei poate fi una care tinde spre liniaritate, nonliniaritate (curbiliniaritate) sau
absenţa vreunei grupări de tip liniar a norului de puncte, care poate ocupa haotic toată
suprafaţa diagramei, ca în cazul corelaţiilor ce tind spre zero. Paradigma predilectă a
statisticii este relaţia liniară (norul de puncte tinde să se grupeze după o linie dreaptă),
deoarece doar aceasta poate face posibilă predicţia prin ecuaţia de regresie, predicţia fiind
condiţia esenţială a demersului ştiinţific;
direcţia relaţiei: când norul de puncte se organizează după o diagonală stânga-jos –
dreapta-sus relaţia este una pozitivă, deoarece creşterea lui X se asociază cu creşterea lui Y.
Această creştere este cu atât mai mare cu cât unghiul pantei dreptei respective se apropie
mai mult de 45 de grade. Când norul de puncte se organizeazăm invers – stânga-sus –
dreapta-jos – înseamnă că relaţia dintre variabile este una negativă, deci creşterea uneia se
asociază cu descreşterea celeilalte. Când norul se organizează după o linie orizontală sau
verticală, corelaţia tinde spre zero, pentru că creşterea unei variabile se asociază cu
râmânerea constantă a celeilalte, şi deci relaţia dintre ele este nulă. Acest lucru este valabil
şi atunci când norului de puncte nu i se poate asocia nici o linie din cauza distribuţiei sale
haotice pe toată suprafaţa diagramei de corelaţie;
intensitatea relaţiei: este maximă (-1 sau +1) atunci când punctele se organizează perfect
după o linie, căreia i se poate determina ecuaţia de regresie, prin care cunoscâd pe oricare x
îl putem deduce cu precizie pe oricare y, şi reciproc. Relaţia dintre variabile este cu atât mai
strânsă cu cât punctele norului tind să se organizeze mai aproape de o linie. Cu cât distanţa
lor faţă de această linie ajustată este mai mare, cu atât relaţia este mai slabă şi predicţia lui y
din x (sau invers, a lui x din y) este mai puţin sigură, marja de probabilitate fiind mai mare.
52
Uneori (vezi Sava, 2004, pp. 18-24) norul de puncte dă informaţii extrem de preţioase despre alte
caracteristici ale relaţiei dintre variabile:
valorilor extreme prezente la capetele seriei de variaţie, măresc variabilitatea datelor şi
ducn consecinţă la creşterea artificială a coeficientului de corelaţie;
erorile de introducere a datelor: introducerea inversată a datelor pentru înălţime şi
greutate (175 cm introdusă ca dată de greutate şi 70 kg ca dată de înălţime) face ca punctul
respectiv să apară în zonele inverse după care se organizează linia de regresie, contribuind
la descreşterea dramatică a coeficientului de corelaţie. Paraziţii statistici, valorile atipice sau
valorile absurde pot fi reperate pe o diagramă de corelaţie şi verificate apoi atent, pentru că
toate modifică într-un sens sau altul expresia sintetică a relaţiei dintre variabile, care este r;
grosimea norului de puncte pe toată diagonala pe care ele se organizează este cunoscută
ca homoscedasticitate, fiind o condiţie prealabilă importantă pentru desfăşurarea unei
analize de varianţă. Situaţia inversă, a grosimii inegale a norului de puncte se cheamă
heterodasticitate şi poate indica o strânsă asociere dintre variabile doar până la un punct,
după care relaţia devine una întâmplătoare, haotică. Este cazul relaţiei dintre inteligenţă şi
creativitate (strânsă până spre QI 115 şi din ce în ce mai largă după aceea) sau dintre
intensitatea motivaţiei şi calitatea performanţelor la sarcinile complexe;
curbiliniaritatea, ca în cazul relaţiei dintre stresori şi reacţia de răspuns la stres, relaţie care
este în formă de U inversat. Aceasta înseamnă că doar pe zona centrală avem concordanţă
(eustres), spre zonele extreme având distres, fie prin subsolicitare, fie prin suprasolicitare;
subseturi de date distincte, a căror relaţie este mediată sau mascată de o a treia variabilă.
Astfel, relaţia dintre înălţimea şi greutatea reale pentru bărbaţi şi femei luaţi ca grupuri
separate este mai slabă decât dacă ar fi luaţi la comun. Aceasta deoarece aceste valori
antropometrice ale femeilor vin dinspre extrema mică (de jos) spre medie, ale bărbaţilor
dinspre medie spre extrema mare (de sus), reunirea celor două grupuri mărind foarte mult
variabilitatea datelor şi deci corelaţia (vezi figura de mai jos).
SEX: .00 Masculin SEX: 1.00 Feminin
120 70 120
110 110
100
100
60
90
90
80
80
70
50
70
60
Sex
60
50 Feminin
50 40 40 Masculin
160 170 180 190 200 158 160 162 164 166 168 170 172 174 150 160 170 180 190 200
Inaltimea reala Masculin Inaltimea reala Feminin Inaltimea reala Masculin+Feminin =Total
53
Paşii obţinerii ultimei diagrame scatterplot de tipul celei din dreapta (care este mai sintetică)
sunt următorii: Graph→Scatter (Overlay)→Define, secvenţă care deschide finalmente a treia
cutie de dialog prezentată în figura 3.21. De acolo introducem în căsuţa axei X (abscisa) înălţimea
reală (parametru antropometric mai stabil decât greutatea), în căsuţa Y greutatea reală, iar în cea de
a treia căsuţă de sus în jos (Set Markers by) variabila apartenenţă de gen, ceea ce va face ca norii
de puncte, reuniţi pentru ambele genuri, să fie marcaţi cu culori diferite pentru a putea fi mai uşor
identificaţi pe diagramă.
Din figura 3.20. se pot evidenţia câteva lucruri importante:
corelaţia medie (în jur de .50) pentru ambele genuri urcă spectaculos la r = . 72 pe total;
aceasta deoarece fetele ocupă spectrul de variaţie mediu-jos şi băieţii pe cel mediu-înalt, aşa
cum anticipam, reunirea lor lungind linia ce defineşte variabilitatea, mărindu-se astfel
coeficientul de corelaţie;
există cel puţin o valoare atipică care contribuie la descreşterea corelaţiei (I=177, G=110 în
partea superioară a diagramei comune pentru băieţi şi fete), prin eliminarea acestui caz ea
crescând la .84, mai mare decât cea semnalată acum mai bine de un secol de către Galton a
exista între înalţime şi greutate, pentru care el găsea r = .75.
Figura 3.22. Fereastrele de dialog pentru obţinerea reprezentărilor grafice de tip scatterplot.
Atunci când relaţia liniară dintre cele două variabile este destul de bine conturată pe
scatterplot în SPSS 14 putem selecta ca diagrama să aibă supraimprimată efectiv linia numită de
regresie, asfel calculată încât să minimizeze distanţa făecărui punct la linie, după principiul celor
mai mici pătrate. O linie de regresie este definită de un intercept, adică de punctual în care linia taie
ordonata, şi de o valoare a unghiului pe care ea îl face cu orizontala, ambele având o expresie
cifrică precisă, definită prin ecuaţia de regresie. Printre facilităţile programului SPSS 14 se numără
54
şi aceea dea genera scattere panelate sau de a marca grupuri de puncte din norul de puncte, care au
vreo relevanţă pentru analiză (valori extreme, aberante sau atipice). De asemenea, pe lângă linia de
regresie se poate ajusta în orice punct o linie orizontală sau verticală, marcarea cifrică prin etichete
a valorilor celor două axe etc. Concluzia finală relativă la scatterploturi este că acestea constituie
cea mai valoroasă reprezentarea grafică din statistica bivariată, deoarece dau o expresie vizuală
relaţiei dintre variabile, înainte sau după ce ele au fost condensate într-o formă numerică,
permiţându-ne “să vedem” relaţia într-o manieră pe care redarea cifrică nu o poate face.
55
CAPITOLUL 4
4.1. Introducere
Datele din fişiere nu sunt întotdeauna organizate într-o formă ideală pentru a răspunde unor
nevoi specifice. De aceea este foarte posibil să dorim să combinăm fişiere, să sortăm datele după
anumite criterii sau în diferite ordini sau să alegem spre analiză doar anumite subseturi de cazuri.
Anumite tipuri de analiză (ANOVA; ANCOVA; MANOVA) nici nu sunt posibile dacă nu
schimbăm unitatea de analiză prin gruparea categorială a datelor continue, ceea ce presupune
recodificarea acestora. SPSS oferă un mare spectru de operaţii destinate transformării datelor din
fişiere, regăsibile în manualele diferitelor sale versiuni sau în cărţile de prezentare a programului.
Astfel, pe lângă sortarea datelor, transpoziţia cazurilor şi a variabilelor, combinarea fişierelor,
selectarea unor subseturi de cazuri sau agregarea datelor, mai putem apela la procedura Compute,
Recode ori Visual Bander (aceasta pe larg prezentată în manualul SPSS 14). Din multitudinea
acestor oportunităţi noi le vom prezenta doar pe cele de mai largă utilizare.
56
Structura ferestrei de dialog Select Cases: If prezintă în partea din stânga panoul variabilelor, de
unde vom selecta variabila Sex, pe care o vom introduce prin clic simplu pe săgeata dintre câmpuri
în panoul de lucru din dreapta-sus. Sub acesta se află două câmpuri, unul cu cifrele de la 0 la 9 şi
punct (care este de fapt cea care desparte zecimalele de întregi în sistemul englez), la care se
adaugă pe prima verticală operaţiile matematice elementare (adunare, scădere, înmulţire, împărţire,
ridicare la pătrat), după care pe celelalte coloane avem semnele mai mic, mai mare, mai mic sau
egal, mai mare sau egal, egal, nu este egal, semnele pentru functorii logici şi/sau, plus parantezele
rotunde. Facem o prezentarea foarte detaliată pentru că acestea vor interveni şi în alte transformări
din Compute. Toate cifrele şi operaţiile pot fi selectate pentru a lucra cu ele în panoul de deasupra.
Mai mult, în panoul din partea din dreapta-jos avem o multitudine de funcţii logice, dintre care sunt
vizibile în fereastră doar 6, celelalte putând fi defilate cu scrolul aflat între săgeţile verzi din dreapta
acestei ferestre. Toate aceste funcţii pot fi mobilizate după necesităţi cu săgeata în panoul de lucru
de sus. Noi selectăm semnul = şi 0 cu care fereastra va arăta ca în figură (Sex = 0), ceea ce
înseamnă că am selectat pentru operaţiile viitoare doar băieţii. După ce vom fi terminat de efectuat
analizele dorite, vom reveni pe aceeaşi cale în acest panou, pentru a selecta şi fetele (Sex = 1). De
fiecare dată când terminăm dăm Continue, care ne aduce la fereastra de dialog precedentă. Dacă
condiţia If a fost satisfăcută se activează OK-ul, pe care apăsându-l şi revenind la Data Wiew, vom
vedea că variabilele care nu participă la analiză au tăiate numerele de ordine din stânga lor. Mai
mult, la sfârşitul fişierulu va apărea o coloană nouă, numită Filter_$, sub care va scrie pe verticală
în dreptul fiecărui caz dacă este selectat sau nu (cu 0 şi 1). De aici, când vrem să deselectăm cu
totul opţiunea Select cases, reactivăm butonul All cases de deasupra ferestrei de dialog şi asta
înseamnă revenirea la starea iniţială, în care toate cazurile vor participa la analiză.
57
58
59
Figura 4.4. Ferestrele de dialog pentru Merge Files→Add Cases: Read File→Add Cases from.
Din a doua fereastră de dialog de mai sus selectăm fişierul ce va fi adiţionat, dacă el este
prezent în cutia de deasupra, dacă nu de la ferestruica de deasupra (Look in) selectăm fişierul dorit
din locaţia în care el se află, aducându-l astfel în fereastra de lucru. După ce îl introducem în
ferestruica cu File name se activează butonul Open, pe care apăsăm pentru a se dechide cea de a
treia fereastră de dialog de mai sus (Add cases from…). Aici vedem că există două câmpuri: cel
din stânga, unde apar toate variabilele ce nu pot fi încă combinate - fie pentru că nu sunt comune,
fie pentru că nu respectă regula de a fi definite în acelaşi fel ca nume, lungime, tip şi valoare -, şi
cel din dreapta, unde apar variabilele comune care vor putea fi combinate. Revenind la panoul din
stânga, variabilele care au semnul (x) se găsesc doar în fişierul activ iar cele cu semnul (+) doar în
fişierul pe care dorim să îl alipim. Atunci când variabila realmente nu se află în ambele fişiere, pare
a nu avea rost să le combinăm, deşi acest lucru nu este imposibil: creând o variabilă similară în
fişierul care nu are variabila respectivă, definind-o ca şi în cel în care ea este deja prezentă, aceasta
se va păstra în ambele fişiere.
De cele mai multe ori însă o variabilă poate fi prezentă în ambele fişiere, dar să fie numită
diferit, să aibă lungimi diferite, să fie de tip sau codificări diferite. Inador şi ina_dor (înălţimea
dorită) nu sunt, fireşte, recunoscute ca identice decât dacă desfiinţăm liniuţa de jos de la a doua
variantă. Aceasta înseamnă că, după ce inspectăm câmpul din stânga şi notăm variabilele care
diferă, dar pot fi aduse la acelaşi format, ne întoarcem în fişierele de origine, operăm schimbările
astfel încât variabilele să fie definite identic, revenim la fereastra a treia (Add Cases from) şi vom
vedea că variabilele identice au fost deja transferate în câmpul din dreapta, Variables in New
Working Data File. Când fereastra din stânga (Unpaired Variables) este goală, sau conţine doar
variabile care nu dorim să apară în fişierul comun, dăm OK şi atunci va apărea fişierul mare,
rezultat prin reunirea celor două fişiere. El va primi un nume şi va fi salvat în locaţia dorită.
60
Utilizarea Merge Files pentru a adiţiona variabile suplimentare este o modalitate mai puţin
utilizată decât precedenta, deşi şi aceasta poate să fie utilă. Să presupunem că pe un anumit eşantion
populaţional am aplicat un set de instrumente într-o primă fază a unei cercetări de tip panel
(longitudinală) şi că în faze ulterioare am aplicat alte seturi de instrumente, obţinând date
suplimentare (medii şcolare, note la examene, completarea unor criterii de validare a bateriei etc.).
Procedura optimă ar fi aceea de a introduce fiecare tranşă de noi date în fişierul original, deoarece
numărul şi ordinea subiecţilor trebuie conservate identic pentru procedura Add variables. Înserând
prin Copy şi Paste coloana de nume la sfârşitul vechiului fişier, avem certitudinea introducerii
noilor date corespunzător numelor şi că noile date aduc informaţii suplimentare pentru exact aceiaşi
subiecţi.
Dacă nu am procedat aşa şi am introdus noile date în fişiere distincte, ele pot fi combinate
prin secvenţa: Date→Merge Files→Add Variables... care va genera o fereastră de dialog ce va
avea în partea din stânga-sus un câmp numit Excluded variables, în care vor fi afişate variabilele
comune celor două fişiere care fireşte nu vor mai fi adiţionate (într-un acelaşi fişier nu pot coexista
două sau mai multe variabile identice ca nume). În panoul din dreapta (New Active Dataset) o să
observăm un grup de variabile marcate cu (x), prezente doar în fişierul bază, şi altul marcat cu (+),
prezent doar în al doilea fişier. Dacă dorim să păstrăm variabila exclusă ca o variabilă cheie, cu date
ce vor fi completate dintr-un fişier momentan nonactiv şi mai vrem să excludem şi alte variabile,
demersul este următorul:
clic pe Match cases on key variable in sorted files de sub câmpul variabilelor excluse;
apăsăm butonul numit Non-active dataset in keyed table;
selectăm de la variabilele excluse viitoarea variabilă cheie şi o transferăm cu săgeata de jos
în Key variable;
dăm clic pe variabila ce va fi exclusă, o selectăm din câmpul Nonactive dataset şi o
transferăm cu săgeata de sus în panoul variabilelor excluse;
dăm OK şi operaţiile dorite s-au înfăptuit.
Alte manevre cu datele cum ar fi agregarea datelor (Aggregating data) sau transpoziţia
liniilor în coloane pentru un set de date (Transpose) sunt de utilitate mai redusă şi pot fi deprinse
din manualele de prezentare a SPSS. Mai utilă este tehnica de importare sau de exportare a datelor
din alte tipuri de fişiere, cum ar fi din Excel. Această operaţie cere satisfacerea unui număr de
condiţii pentru a compatibiliza cele două formate. De exemplu, dacă în Excel a treia coloană este
una de date nominale (nume), a treia coloană din SPSS va fi formatată ca şi variabilă string. Prima
linie din Excel conţine de regulă capul de tabel care nu se copiază, numele variabilei în SPSS
trebuind recreat din Variable Wiew. În rest se face Paste pe coloana (coloanele) ce va fi copiată
61
din Excel în SPSS, şi se dă Paste pe prima celulă a acestuia din Data Wiew, datele selectate fiind
astfel tansferate dintr-un fişier în altul.
Figura de mai sus are patru câmpuri ce trebuie prezentate pe scurt, deşi doar cele de deasupra au un
caracter de noutate. Cîmpul 1 (stânga) este unul comun oricărei aplicaţii SPSS, fiind câmpul
variabilelor, ce pot fi defilate în fereastră cu scrolul. Câmpul din stânga-sus este numit Target
Variable, acolo introducându-se numele variabilei nou create, cu respectarea regulilor de numire
deja prezentate anterior. Cîmpul din dreapta-sus, numit Numeric Expression, este cel în care vor fi
9
Faptul va trebui semnalat în raportul de cercetare.
62
introduse variabilele pe care vrem să le combinăm, prin operaţiile şi funcţiile prezentate în cele
două panouri de dededubt, pentru a obţine noua variabilă ţintă din stânga sus.
Atenţie, rareori la Numeric Expression se introduce doar o singură variabilă. De cele mai
multe ori apelăm la Compute pentru a genera o variabilă nouă prin combinarea mai multor
variabile vechi, după un algoritm (ecuaţie) în care pot interveni paranteze, operaţii sau funcţii. De
exemplu, dacă prin analiză factorială am redus o masă mare de variabile la un număr mai mic de
unităţi explicative numite factori, aceştia pot fi determinaţi efectiv prin însumare, luând suma
algebrică a produselor dintre fiecare variabilă şi saturaţia sa în factorul respectiv şi împărţind-o
finalmente la numărul vatiabilelor intrate în calcul. În exemplul nostru, din notele z ale înălţimii şi
greutăţii reale am vrea să obţinem o medie, ca indicator mai sintetic al dezvoltării psihosomatice.
Câmpurile din centru şi din dreapta-jos au fost deja prezentate anterior şi ştim că ele conţin
cifrele, operaţiile fundamentale şi funcţiile necesare transformărilor dorite. De exemplu, pentru a
genera o medie matematică putem proceda în două moduri: (V1+V2+ … +Vn) / n sau M (V1, V2,
…, Vn), pentru prima scriind o ecuaţie, pentru a doua utilizând o funcţie prezentă în câmpul din
dreapta-jos. Atragem atenţia că numărul funcţiilor utilizate este de 20, dintre care doar 8 sunt
afişate în ferestruica respectivă, accesul la celelalte făcându-se cu scrolul căsuţei.
63
iar F pe cel feminin. Cum o multitudine de aplicaţii SPSS presupun un format cifric (alfanumeric)
vom recodifica această variabilă alocând 1 pentru masculin şi 2 pentru feminin, ceea ce duce la
modificarea variabilei iniţiale. Aşadar, avem două posibilităţi de a recodifica o variabilă: păstrând
în continuare vechea variabilă, şi atunci vom apela la Recode→Into Different Variables sau prin
desfiinţarea vechii variabile, care nu mai este utilă (Recode→Into Same Variables). Pluralul
variabile din expresiile de mai sus sugerează că pot fi codificate mai multe variabile în acelaşi timp,
dacă ele sunt de acelaşi tip: nu putem recodifica la fel o variabilă numerică şi una String! Mai mult,
valorile cifrice pentru care operăm recodificarea rareori sunt identice pentru două variabile şi de
aceea este preferabil să le introducem în lucru una câte una.
64
Pentru a înţelege mai bine structura acestei ferestre facem câteva precizări relative la elementele ei:
Value: avem Old value (vechea valoare) în dreapta şi New Value în stânga-sus; se
introduce câte o valoare; valorile string vor apărea între ghilimele (apostrofi);
System missing: sunt valorile care au fost definite ca atare în lista de valori din Variable
Wiew (Sysmis);
System or user missing include toate valorile lipsă care apar în lista de valori din Variable
Wiew (Missing);
Range, cu două căsuţe, de la - la; deoarece aici vom lucra mai mult, insistâm asupra ei: dăm
dublu clic pe ea şi introducem înălţimea minimă posibilă a lotului nostrum, să zicem 100 cm
(putem introduce şi 0); în căsuţa alăturată (through = până la) punem 175, moment în care
la New Value din mijloc-sus punem cifra 1 pentru a numi cifric prima clasă creată, cea a
înălţimilor mici; deoarece după aceasta s-a aprins butonul Add de mai jos, introducem clasa
nou creată în panoul din dreapta, unde va apărea 100 tru 175 → 1; ne reîntoarcen în Range
şi creăm o a doua clasă, a celor medii (175,01 la 185), o codificăm 2 de la New Value şi cu
Add o introducem în panoul din dreapta; procedăm la fel şi cu cea de a treia clasă (185,01
tru 250 = 3), care este a celor înalţi. După încheierea procesului ne vom reîntoarce în
fereastra Recode into Different Variables unde, respectând regulile de numire, dăm nume
variabilei nou create în căsuţa Output Variable, eventual precizând şi eticheta dorită de la
Label; apăsând după aceea butonul Change din dreapta ferestruicii respective vom vedea
cum numele propus (inare_cl) pentru noua variabilă va apărea în panoul de lucru de la
mijloc-sus;
Fereastra precedentă mai are două tipuri de Range, de la cea mai mică valoare la… (Lowest
through) şi de la o anumită valoare la cea mai mare (through highest) ce vor fi activate
când vrem să codificăm în acest fel.
Ultimul buton este pentru toate celelalte valori (All other value).
65
66
dăm Continue pentru a deschide următoarea fereasrtră de dialog şi apoi dăm clic pe
Înălţimea reală din Scaned Variable List (stânga-sus) pentru a ne arăta histograma acesteia.
Facem să intre în celula Values (din stânga) 165, iar în dreapta, la Label, vom trece
“Scunzi”. Dăm apoi clic pe butonul Excluded (<) pentru a arăta că această categorioe nu
include şi valoarea de 165. Dacă am dori ca ea să fie inclusă (165 cm şi mai puţin) apăsăm
pe butonul Included (< =).
introducem 185 în a doua celulă Value iar eticheta de la Label vom face să intre “Mediu”;
introducem 250 (sau oricare altă valoare mai mare) pentru a defini pragul de sus în a treia
celulă Value şi în dreptul ei scriem “Înalţi”.
după care introducem numele variabilei, făcând uz de regulile uzuale de numire, în
ferestruica de deasupra, numită Banded Variable;
întregul ciclu de operaţii se încheie, ca de obicei, cu O.K.
De semnalat faptul că după ce puctul de tăietură a fost definit şi a devenit operaţional, poziţia sa va
fi desenată pe histogramă pe măsură ce cursorul se va mişca spre o altă celulă. Dacă, de exemplu, în
Visual Bander vom introduce Inareal Percentiles (percentile pentru înălţimea reală), punctele de
tăietură pentru percentilul 25 (Q1), percentilul 50 (Q2) şi percentilul 75 (Q3) vor fi automat
introduce de SPSS în Value şi Label, fiind indicate şi în histogramele de deasupra.
Pentru a splita înălţimea în tranşe percentile egale vom proceda astfel:
se urmează paşii de mai înainte, dar în loc să se umble la valori şi etichete, se dă clic pe
Make Cutpoints din dreapta-jos şi facem să intre în fereastra de dialog cifra 9 pentru
numărul punctelor de tăietură (cu unul mai puţin decât numărul de intervale dorit). Căsuţa
de mai jos, relativă la lungimea intervalului (Width%) vă fi automat afişată de program, şi
ea este 10;
se dă apoi Apply, facem să intre numele variabilei în fereastra de Banded Variable şi ciclul
se încheie iarăşi cu OK. În câmpul datelor va apărea o nouă variabilă, Inareal Percentiles,
care va asigna fiecare subiect în una dintre cele 10 clase percentile.
67
CAPITOLUL 5
68
69
5.1.2. Mediana
Mediana (Me) nu este nici un scor, nici o frecvenţă, ci un punct de pe linia scorurilor care
împarte o distribuţie în jumătăţi egale. Iată câteva aspecte reprezentative pentru mediană:
determinarea ei presupune obligatoriu ordonarea prealabilă a valorilor variabilei de la mic la
mare, sau invers, adică construcţia unei ierarhii;
aceasta deoarece mediana este tipică pentru o scală ordinală: distribuţiile asimetrice sau cele
cu valori atipice („paraziţi statistici”) presupun folosirea prioritară şi uneori exclusivă a
medianei, căci valorile atipice afectează mult media;
determinarea ei concretă este mai laborioasă, mediana fiind mai greu de adus la un
tratament matematic comparabil cu media aritmetică;
în funcţie de scala pe care a fost măsurată variabila există procedee tipice, relativ diferite de
construcţie a etaloanelor şi baremelor, unele centrate pe medie şi abatere standard, ce
utilizează transformări liniare, şi altele pe mediană, ce operează transformări de arie.
5.1.3. Modul
Este cea mai săracă imagine a tendinţai centrale, deoarece la ea participă doar o singură
(eventual câteva) valori ale variabilei. Mai specific:
modul este valoarea de scor pe care se înregistrează frecvenţa cea mai mare, în acest sens el
fiind cea mai tipică valoare a unei distribuţii;
uneori există mai mult de o singură aglomerare a datelor în jurul unei valori şi atunci
vorbim de distribuţii cu două moduri (bimodală) sau cu mai multe moduri (multimodală),
fapt relativ frecvent pentru destribuţiile mici sau cu un spectru larg de variaţie;
putem deci afirma că modul este o reprezentare rapidă a raportului omogenitate/
heterogenitate al unei distribuţii. În cazul unei distribuţii atipice, vârfurile („cocoaşele”) în
care se aglomerează datele pot fi mai depărtate – şi atunci distribuţia este foarte puţin
omogenă - sau mai apropiate, cu cît distanţa dintre vârfuri este mai mică omogenitatea fiind
mai mare;
în distribuţiile bimodale clare, cu cele două vârfuri net separate, ruperea acestora în
distribuţii simple se impune cu necesitate, pentru că este de fapt vorba de două categorii
distincte care trebuie tratate separat.
70
71
Distanţa dintre cea mai mică valoare a distribuţiei şi Q1 formează cuartilul (sfertul) inferior,
cea dintre Q1 şi Q2 cuartilul mediu-inferior, cea dintre Q2 şi Q3 cuartilul mediu-superior iar cea
dintre Q3 şi cea mai mare valoare a distribuţiei cuartilul superior. Distanţa Q3 - Q1, notată cu IQR,
se numeşte Abaterea Intercuartilică, iar când aceasta se împarte la doi ea se numeşte Abaterea
Semiintercuartilică (AQ) şi se notează cu Q. Cea mai bună redare grafică de acest fel a unei
distribuţii este boxplotul, de care am vorbit la reprezentări imagistice, unde criteriul 1,5IQR sau
3IQR erste cel ce diferenţiază între valorile atipice şi valorile aberante ale unei distribuţii,
cunoscute sub numele de outlieri şi outlieri extremi, ei fiind marcaţi în SPSS prin notaţii specifice.
Astfel, outlierii simpli, aflaţi la distanţa cuprinsă între 1,5 – 3 cutii de Q1 în jos sau de Q3 în sus
sunt valorile atipice, ce se notează cu cerculeţe, iar cei ce depăşesc 3 cutii sunt valorile extreme, ce
se notează cu x. Toţi aceşti indivizi statistici sunt identificaţi prin numărul de ordine al introducerii
lor, trecut alături.
72
sub şi 3 desupra mediei: -3, -2, -1, 0, 1, 2, 3, cu media 0 şi abaterea standard 1, poate deveni
prin adunarea cu 3 scala 0, 1, 2, 3, 4, 5, 6, cu media 3 şi abaterea standard tot 1;
dacă valorile variabilei se înmulţesc sau se împart cu o constantă, atunci valoarea abaterii
standard se dilată sau ce contractă proporţional cu acea constantă:
y = ax
σy = a*σx
Această proprietate, împreună cu cea precedentă, creează posibilitatea de a avea scale de
măsură derivate prin transformări de linie din notele standardizate z, cum ar fi scalele T,
Hull, Stanine, Stens, Note C, Scala de QI etc.
creează posibilitatea aducerii la un numitor comun (notele z) a unor variabile exprimate în
unităţi foarte diferite, fapt prin care ele devin direct comparabile, li se poate face media,
determina împrăştierea etc.;
participă la determinarea indicelui de variaţie, a indicelui de simetrie (Skewness), a
excesului (Kurtosis), având un rol esenţial în determinarea corelaţiei dintre variabile prin
metoda produselor a lui Bravais-Pearson.
73
simetrică; cînd este sub -0,80 (pozitivă) curba este asimetrică spre stânga, iar când este peste 0,80
(negativă) ea este asimetrică spre dreapta.
Figura 5.1. Fereastrele de dialog pentru Frequencies (sau Descriptives) într-o statistică univariată.
74
75
Distanţa de la 193 la 159 de centimetri (valorile maximă şi minimă) este de 34, deci Amplitudinea
Împrăştierii - Range - este relativ extinsă. Suma valorilor individuale este de 7174.
Studiind outputul al doilea, din dreapta figurii 5.2., vedem că există o aglomerare de valori
între 165 şi 170, iar modul de 160 este situat foarte excentric, el neindicând în mod real o
aglomerare de valori în acea zonă. Prima diagramă din figura 5.3. dă o imagine sintetică tuturor
acestor constatări, în timp ce boxplotul din dreapta ne informează de faptul că distribuţia respectivă
nu este una omogenă, deoarece mediana şi amplitudinea împrăştierii sunt foarte diferite pentru
genul masculin şi cel feminin. Tototdată, valoarea nr. 18 este un outlier, deoarece ea se află la o
distanţă de mai mult de 1,5 cutii faţă de Q3 (marginea de sus a cutiei pentru băieţi).
200
4.0 18
190
3.0
180
2.0
170
1.0 160
Count
0.0 150
N= 21 21
159.00 163.00 167.00 172.00 176.00 182.00
161.00 165.00 169.00 174.00 178.00 189.00 Masculin Feminin
Figura 5.3. Reprezentarea prin bare şi boxploturi a distribuţiei din exemplul anterior.
76
CAPITOLUL 6
y = a + bx (2)
adică F = 32 + 9/5C (3),
în care 32 este interceptul iar 9/5 este chiar panta liniei de regresie.
78
rxy
x x y y
x x * y y
2 2
79
din cele 3 opţiuni oferite, Pearson, Kendal's tau-b şi Spearman, se selectează tipul de
corelaţie dorit (în cazul de faţă Pearson);
selectăm din căsuţa corespunzătoare dacă predicţia este una unidirecţională, mai precisă
(one-tailed) sau una bidirecţională, mai puţin pecisă (two-tailed). Noi selectăm one-tailed
pentru că am anticipat deja existenţa unei relaţii pozitive între variabile;
fereastra de dialog mai prezintă şi opţiunea Flag significant correlations care atunci când
este activată, afişează două praguri de semnificaţie pentru corelaţia obţinută, cel de .05 şi cel
de .01, marcate cu o steluţă, respectiv cu două; acest fapt va fi afişat sub forma unei note şi
la baza tabelului de corelaţie furnizat ca şi output, astfel: * Correlation is significant at the
0,05 level (2-tailed); ** Correlation is significant at the 0,01 level (2-tailed);
putem după aceasta să dăm OK şi procedura va fi lansată, sau dimpotrivă, să apăsăm
butonul Options, să selectăm media şi abaterea standard pentru a fi şi ele afişate la output,
după care vom da OK.
80
Dacă în câmpul de lucru am introdus mai multe variabile spre a fi corelate, rezultatul va fi o matrice
de intercorelaţii, fiecare variabilă de pe orizontală fiind corelată cu fiecare variabilă de pe verticală.
Iată structura unui astfel de output, prezentat în figura 6.3:
în fiecare căsuţă a tabelului avem corelaţia dintre variabilele de pe coloana şi linia
respectivă, dată cu 3 zecimale, pe prima linie numită Pearson Correlation;
al doilea rezultat din căsuţă, din dreptul lui Sig.(2-tailed) afişează pragul de semnificaţie al
acestui coeficient de corelaţie, cu o precizie de 3 zecimale; sub forma steluţelor el apare şi
în dreptul corelaţiei respective, dacă a atins pragul semnificaţiei statistice de p = .05 sau p
=.01;
al treilea element din căsuţă este N, adică numărul de perechi de scoruri care au intrat de
fiecare dată în corelaţie;
matricea indică pe diagonală corelaţia 1,000 a fiecărei variabile cu ea însăşi, ceea ce este de
la sine înţeles; partea de deasupra şi de dedesubtul acestei diagonale exprimă corelaţii
simetrice, în oglindă faţă de partea inferioară;
în cazul nostru corelaţia de .69 este puternic semnificativă statistic, ceea ce este o
confirmare a ipotezei unidirecţionale formulate: înălţimea dorită se relaţionează pozitiv
puternic cu înălţimea reală, planul dorinţei fiind proporţional cu cel al realităţii; aceasta
înseamnă că dorinţa „se ajustează după realitate” şi că cei mai mari de înălţime se declară
mulţumiţi cu mai mulţi centrimetri pentru înălţimea dorită, comparativ cu cei mai mici;
81
acest lucru ce poate observa din cele două steluţe afişate lângă rezultat (cu atât mai
concludente cu cât opţiunea selectată a fost bidirecţională şi nu unidirecţională), dar şi din
p–ul afişat;
rezultatele se pot raporta în două feluri, ambele la fel de dezirabile:
r = 0,688, N = 42, p < 0,001
r = .69, Df = 40, p < .01
corelaţia de .81 dintre greutatea reală şi cea dorită este mult mai mare decât cea existentă
între înălţimea reală şi cea dorită, ceea ce lasă loc pentru alte supoziţii / ipoteze legate de
vârsta adolescentină a subiecţilor şi de preocuparea lor obsesivă pentru ceea ce pot ei efectiv
controla, greutatea;
cea mai mare corelaţie din tabel (r = .85) este între înălţimea dorită şi greutatea dorită, ceea
ce ar putea însemna că, în planul ideal al dorinţei, ideea de armonie a indicatorilor
antropometrici de bază este mult mai bine conturată decâ în plan real (r = .69).
Întrebări de aprofundare
Iată şi câteva probleme pe care exemplul de mai sus le lasă deschise pentru abordări viitoare şi la
care vă invităm să daţi un răspuns utilizând baza de date creată la exerciţiile anterioare. Pentru
cerinţele la care nu aveţi date, schiţaţi cea mai pertinentă explicaţie care vă vine în minte:
lărgirea numărului de subiecţi va reconfirma relaţiile descoperite pentru N = 42?
vor fi relaţiile de aceeaşi intensitate şi semnificaţie statistică?
mărind numărul de cazuri la 500, relaţia greutate reală – greutate dorită va fi cumva mai
asemănătoare ca magnitudine şi semnificaţie cu cea existentă între înălţimea reală şi cea dorită?
82
relaţiile respective se vor particulariza diferit pentru băieţi şi fete, ştiindu-se faptul că genul
masculin are o atitudine pozitivă faţă de ambele aspecte ale corporalităţii lor, în timp ce la fete/
femei se semnalează o atitudine mult mai circumspectă faţă de greutatea proprie?
relaţiile descrise mai sus se instituie în timp, dar începând cu ce vârstă? Va fi simultan cu
dobândirea cunoştinţelor despre unităţile de măsură pentru înălţime şi greutate, sau paralel cu
instalarea pubertăţii şi adolescenţei, când construcţia identităţii de sine trebuie să se sprijine pe
un suport corporal cert?
credeţi că se vor păstra regularităţile regăsite în cultura vestică în diverse alte culturi?
Argumentaţi răspunsul dat;
cum comentaţi scatterele de mai jos şi cum veţi face să le obţineţi singuri?
4 3
3
2
2
1
0
0
Sex -1 Sex
-1
Feminin Feminin
-2 Masculin -2 Masculin
-2 -1 0 1 2 3 -2 -1 0 1 2 3
83
Exemplu aplicativ
La o şcoală de artă se cere profesorului de specialitate (muzică) ca în faza de început a
ciclului gimnazial să construiască pentru clasa sa de 10 elevi o ierarhie, începând cu cel mai
promiţător şi dotat muzical, până la cel mai puţin dotat elev. În acelaşi timp elevii sunt invitaţi ei
înşişi să pună în practică metoda autoevaluării obiective a lui Zapan şi să construiască o astfel de
ierarhie privitoare la aptitudinea pentru muzică a clasei respective.
Se cere să răspundem ls câteva probleme:
există o concordanţă între cele două serii de date ordonate (ierarhii)?
dacă am reface acelaşi exerciţiu de apreciere la sfârşit de ciclu gimnazial, când aptitudinea a
avut suficient de mult timp pentru a se forma şi dezvolta, iar elevii au putut să se cunoască
mai bine, am obţine corelaţii mai mari decât la început de ciclu gimnazial?
în virtutea experienţei mai mari şi a culturii sale de specialitate, este de aşteptat ca
profesorul să fie un judecător mai avizat decât clasa de elevi. Pe de altă parte, ierarhia
construită de clasă ar putea să fie mai obiectivă, din cauza numărului mai mare de evaluatori
ca şi din cauza timpului comun mult mai mare petrecut împreună de elevi, de unde şi
posibilităţile lor superioare de mai bună intercunoaştere. Aşadar întrebarea este: corelaţia
ierarhie iniţială – ierarhie finală este mai bună pentru cadrul didactic sau pentru clasa de
elevi?
În tabelui de mai jos sunt sintetizate datele exemplului ipotetic prezentat anterior.
Clasa de elevi
Profesor Iniţial 1 2 3 4 5 6 7 8 9 10
Final 3 1 2 4 8 6 5 7 10 9
Clasa de Iniţial 4 2 5 1 3 8 6 7 10 9
elevi Final 4 2 3 1 6 5 8 9 7 10
84
Figura 6.6. Fereastra de dialog şi outputul 1 (Correlations) pentru exemplul de mai sus.
transferăm în câmpul de lucru (la Variables) Profesor iniţial şi Profesor final, ca şi Elevi
iniţial şi Elevi final;
dăm OK pentru a obţine corelaţiile comandate.
Notă: în exemplul dat noi am introdus date deja rangate, adică ierarhii. Puteam introduce însă orice
alt fel de date numerice, tipice scalelor de interval sau de raport, rangarea fiind automat efectuată de
programul SPSS: Nu va surprinde deci faptul că în exemplul ales de noi corelaţiile Spearman şi
Pearson vor fi identice, ceea ce nu va mai fi cazul cu datele de alt tip (de intervale sau de raport)
rangate în calculator. Pentru acest tip de date, rho supraestimează puţin corelaţiile, existând însă
tabele pentru o mai bună echivalare a lui r cu ρ.
Se observă că outputurile 1 şi 2 pentru exemplul ales sunt extrem de similare, chiar dacă nu
identice. Diferenţa se referă nu la valorile corelaţiilor – identice pentru ambele tabele – ci la modul
lor de prezentare. În ambele, structura fiecărei căsuţe este aceeaşi, în sensul că se indică corelaţia
85
Pentru a răspunde nuanţat la setul de întrebări formulate în pagina anterioară, introducem datele
într-un tabel cu dublă intrare, astfel:
Profesor Elevi
Iniţial Final Iniţial Final
Iniţial
Prof.
Final .867
Iniţial .794
Elevi
Chiar dacă exemplul dat anterior este unul ipotetic, el trebuie comentat pe liniile de forţă ale
rezultatelor obţinute. Concluzionăm deci schiţând câteva explicaţii posibile:
ierarhia iniţială stabilită de către profesor şi de clasa de elevi corelează extrem de puternic
(ρ = .79) şi deci experienţa de examinator a primului este contrabalansată de numărul mai
mare al evaluatorilor din a doua categorie, rezultând astfel ierarhii foarte similare;
ierarhiile de la final de ciclu gimnazial stabilite de către profesor şi de clasa de elevi sunt
încă foarte puternic corelate (ρ = .76), dar în descreşterea faţă de cea iniţială, ceea ce ar
putea sprijini ipoteza intervenţiei unor criterii specifice de evaluare pentru profesor şi un rol
mai important al experienţei evaluatorului calificat (profesorul), comparativ cu cei
necalificaţi (elevii); răspunsurile diferenţiate la presiunile formative ale profesorului ar
putea de asemenea explica aceste diferenţe;
comparaţia evaluărilor de la începutul ciclului gimnazial, comparativ cu cele de la sfârşitul
său, indică o constanţă mult mai mare pentru profesor (ρ = .87), decât pentru clasa de elevi
(ρ = .76). Dacă ridicăm la pătrat cei doi coeficienţi de corelaţie şi facem diferenţa
86
87
Semnalăm că steluţele de la Flag significant correlations se face după regula ştiută (* = p < .05 şi
** = p < .01). Outputul este similar cu cel pentru rho al lui Spearman, cu singura diferenţă că în
stânga –sus va fi scris Kendall’s tau-b. Până şi rezultatele obţinute se raportează similar: Kendall’s
tau-b = .45, N = 20, p < .05. Mai trebuie făcută o menţiune specială: utilizarea diagramelor
scatterplot pentru vizualizarea corelaţiilor trebuie făcută cu multă prudenţă pentru că acestea redau
scoruri brute şi nu ranguri, şi de aceea ele pot fi înşelătoare.
Interpretarea outputului
Tabelul rezultat are o structură specifică, în sensul că – pentru a face mai direct comparaţiile
– pe etajul superior sunt afişate corelaţiile de dinainte de parţializare (Zero Order Partials) dintre
toate cele trei variabile, care sunt greutatea reală, greutatea dorită şi apartenenţa de gen, iar pe etajul
inferior corelaţiile ce rezultă după eliminarea rolului variabilei de control (în funcţie de care s-a
făcut parţializarea).
Datele de mai sus se preteză la câteva comentarii:
corelaţia dintre greutatea reală şi greutatea dorită este una extrem de puternică (0,83);
parţializarea reduce puternic această corelaţie, care rămâne însă foarte puternică (0,68);
89
Raportarea corelaţiei parţiale se face astfel pentru greutate: rpartial = 0,69; df = 40, p < .001.
Corelaţia dintre greutatea reală şi cea dorită este foarte puternică (r = 0,81, df = 40, p < .001).
Atunci când este controlată de apartenenţa de gen, această corelaţie descreşte semnificativ (r = 0,69,
df = 40, p < .001). Deci apartenenţa de gen controlează într-o bună măsură relaţia existentă între
greutatea reală şi cea dorită.
Spre deosebire de oricare alt tip de corelaţie, cea parţială implică problema cauzalităţii. De
regulă, nivelul corelaţional al cercetării nu implică problema cauzalităţii, pentru că în relaţia dintre
x, y şi z, x îl poate determina pe y, y pe x sau amândouă pot fi determinate cauzal de un al treilea
element z. Fără a dispune de date suplimentare sau de un suport teoretic în sprijinul acceptării doar
a uneia dintre cele trei posibilităţi formulate mai sus, cel mai adesea este imposibil de determinat
care dintre aceste modele cauzale este cea mai bună interpretare a unui coeficient de corelaţie.
90
91
Studiul corelaţiei a început practic cu analiza relaţiei existente între înălţime şi greutate, aşa
cum acestea au rezultat din datele culese de către Galton în al său Laborator de antropometrie
(1884). Pentru că ei continuă să fie şi astăzi cei mai importanţi indicatori antropometrici, vă
propunem un exerciţiu de reanaliză computerizată a relaţiei dintre aceştia, global dar şi diferenţiat
după criteriul aparteneţei de gen, pe un eşantion de studenţi şi studente din Braşov. Şi pentru că ne-
am transformat în “zâna bună”, propunând studenţilor în cauză să indice care ar fi mărimea la care
înălţimea şi greutatea lor proprii i-ar satisface pe deplin, vă propunem să studiaţi aceste relaţii şi în
planul ideal, al dorinţei, pentru a vedea dacă aceasta se supune vreunei regularităţi matematice.
B Ă I E Ţ I F E T E
Nr. IR ID GR GD IR ID GR GD
Valori absolute Valori absolute
1. 177 185 110 95 165 170 56 55
2. 172 175 58 68 161 168 55 47
3. 174 180 60 70 160 180 47 60
4. 185 185 85 85 163 170 56 50
5. 180 180 81 76 160 170 56 50
6. 166 175 58 65 170 170 58 55
7. 165 190 65 95 159 165 44 46
8. 180 180 77 75 169 175 68 60
9. 182 182 74 80 169 175 62 58
10. 168 170 64 72 167 170 47 47
11. 168 172 60 63 166 166 54 50
12. 176 185 58 75 160 170 46 45
13. 168 175 58 65 160 170 60 60
14. 174 174 60 60 173 170 65 63
15. 178 180 73 80 162 170 55 53
16. 175 182 60 60 164 170 59 50
17. 175 181 72 77 170 165 55 50
18. 193 180 76 78 167 167 47 52
19. 182 190 80 72 170 170 60 55
20. 178 180 74 70 165 165 59 53
21. 189 191 76 85 169 175 50 50
Cerinţe: A
1. Introduceţi datele într-un singur fişier SPSS pentru ambele sexe, introducând pe prima coloană
numărul curent (nr_crt), apoi celelalte variabile numite: sex, inareal (IR), inador (ID), grereal (GR),
gredor (GD).
2. Etichetaţi variabilele.
3. Pentru variabila sex codificaţi (de la Value) Masculin = 0; Feminin = 1.
4. Din Data operaţi Split File după criteriul apartenenţei de gen şi cereţi de la Descriptives valorile
tendinţei centrale (media, mediana, modul şi suma valorilor), ale împrăştierii (amplitudinea
92
împrăştierii = Range, valorile minimă şi maximă, abaterea standard, dispersia şi eroarea standard a
mediei = SEM) şi formei distribuţiei (Skewness şi Kurtosis). Înainte de a lansa prin OK comanda,
activaţi butonul Save standardized values as variables pentru a obţine notele z pentru cele 4
variabile (IR, ID, GR, GD).
5. Intraţi apoi în Frequencies şi de la Statistics cereţi acelaşi determinări pentru cele 4 variabile
(IR, ID, GR, GD), producând şi histograma cu curba gausssiană supraimprimată.
6. Efectuaţi aceleaşi determinări pentru întreg eşantionul prin Descriptives şi Frequencies.
7. Intraţi în Transform→Compute şi creaţi două variabile noi numite inaltime, greutate care să
reprezinte mediile dintre valoarea reală şi cea dorită pentru înălţime şi greutate.
8. Pentru datele reunite determinaţi punctele percentile pentru decile şi pentru percentilele 25, 50 şi
75, ce definesc primul, al doilea şi al treilea cuartil.
9. Din Transform→Recode→Into Different Variables creaţi două noi variabile numite inare_cl
(Înălţimea reală clase) şi grere_cl (Greutatea reală clase) care să recodifice câte 33% din cazuri
pentru eşantionul reunit (băieţi + fete = total). Pentru aceasta cereţi în prealabil punctele de tăietură
pentru percentilele 33 şi 66 de la Frequencies.
10. Operaţi reprezentarea grafică cu bare simplă pentru cei 4 indicatori, pe rând (IR, ID, GR, GD),
apoi Clustered după criteriul apartenenţei de gen, cele două înălţimi şi cele două greutăţi (reală şi
dorită).
11. Faceţi aceeaşi reprezentare cu bare pentru înălţimea şi greutatea reale, apoi pentru cele dorite,
comentând diferenţele ce apar datorită unităţilor de măsură diferite utilizate.
12. Construiţi ultimele diagrame pe datele standardizate z şi comentaţi diferenţele care apar faţă de
diagramele anterioare (pe date brute).
13. Din Graph→Boxplot→Simple şi apoi Clustered efectuaţi reprezentarea grafică pentru datele
reale şi pentru cele dorite, după criteriul apartenenţei de gen.
14. Calculaţi intercorelaţiile r Pearson dintre IR-ID, GR-GD; IR-GR, ID-GD, separat pentru băieţi
şi fete iar apoi pentru total, reunind datele într-un singur fişier. Comentaţi rezultatele obţinute.
15. Determinaţi corelaţiile rho Spearman dintre IR-ID, GR-GD; IR-GR, ID-GD separat pentru
băieţi şi fete iar apoi pentru total, comentând diferenţele apărute între r şi rho.
16. Construiţi scatterul norului de puncte pentru înălţimea reală şi cea dorită, greutatea reală şi cea
dorită pe tot grupul şi apoi separat pentru băieţi şi fete. După care marcaţi pe acelaşi scatter separat
băieţii şi fetele. Ce lucruri semnificative observaţi?
17. Introduceţi cele mai semnificative date într-un tabel, separat pentru băieţi, fete şi total,
comentând rezultatele obţinute.
18. Determinaţi corelaţia parţială dintre înălţimea reală şi cea dorită, greutatea reală şi cea dorită,
ambele controlate de apartenenţa de gen.
93
Cerinţe: B
Răspundeţi la următoarele zece întrebări:
1. Ce se întâmplă cu corelaţiile dintre înălţimea reală şi greutatea reală dacă adăugăm la băieţi
următoarele două cupluri de valori: 199 cm - 100 kg; 155 cm - 42 kg? Verificaţi-vă practic
afirmaţia, după care eliminaţi datele introduse.
2. Ce se întâmplă cu corelaţiile dintre înălţimea reală şi greutatea reală dacă prima valoare
introdusă, 177 cm, ar fi fost tastată 1770 cm? Probaţi-vă afirmaţia.
3. Ce s-ar întâmpla cu aceleaşi corelaţii dacă, din greşeală, am fi introdus primul set de valori
invers, 177 cm la greutate şi 110 kg la înălţime? Demonstraţi-vă afirmaţia cifric şi cu un scatter.
4. Care sunt utilităţile coeficientului de corelaţie?
5. Ce este norul de puncte şi asupra căror caracteristici ne informează el?
6. După ce veţi parcurge capitolul despre testarea semnificaţiei statistice, analizaţi diferenţele
dintre mediile la IR, ID, GR şi GD pentru băieţi şi fete. Arătaţi dacă păstraţi sau respingeţi
ipoteza de nul şi la ce prag de semnificaţie.
7. Unul dintre coeficienţii de corelaţie are valoarea r = 3,25. Ce puteţi spune despre el şi cum vă
argumentaţi afirmaţia?
8. Admiţând că corelaţia IR-ID este de r = .69 iar GR-GD este de r = .81, determinaţi cu câte
procente este mai bună a doua corelaţie decât prima, utilizând coeficientul de determinare. Cât
din varianţa criteriului prezis (valorile dorite) acoperă fiecare valoare reală?
9. Luaţi separat, pe băieţi şi fete, corelaţiile IR-ID şi GR-GD sunt mai mici decât dacă punem la
comun, într-un singur fişier, toate datele. De ce se întâmplă acest lucru?
10. Corelaţia dintre IR-GD pentru cele 21 de fete este de r = .38, nesemnificativă statistic. Cum ar fi
fost o corelaţie de aceeaşă mărime dacă numărul fetelor ar fi fost de N = 42? Dar de N = 84?
Explicaţi.
94
CAPITOLUL 7
7.1. Introducere
Termenul de regresie a fost utilizat pentru prima dată de Galton, el neavând nici o conotaţie
negativă. Supuse prelucrărilor statistice, rezultatele obţinute din investigarea în primul laborator de
antropometrie din lume (Londra, 1884) a unor caracteristici individuale, scoteau în evidenţă
tendinţa valorilor extreme de a regresa spre medie. Cu alte cuvinte, din părinţi foarte înalţi sau
foarte scunzi există tendinţa să se nască copii mai mici, respectiv mai mari decât aceştia.
Dacă în psihanaliză un comportament este numit regresiv atunci când el se întoarce la faze
revolute ale copilăriei, căzând spre forme de echilibru tipice trecutului, regresia statistică poartă
spre viitor, pentru că ea are în vedere în primul rând anticiparea sau precizarea unor fenomene,
plecând de la seturi de date actuale. Înseamnă că regresia îndeplineşte o funcţie de bază în ştiinţele
socio-umane, deoarece orice ştiinţă îşi propune nu doar să explice faptele care îi circumscriu
domeniul, ci să le şi prezică, anticipeze, prin postularea de regularităţi.
Pentru a fi foarte riguroşi, regresia are în vedere ambele dimensiuni ale ştiinţei, deoarece ea
poate fi utilizată atât pentru a explica - regresia în scop explicativ - cât şi pentru a prezice - regresia
în scop predictiv. În prima situaţie, dacă prin metoda experimentală s-a determinat o relaţie cauzală
între unul sau mai mulţi factori, numiţi variabile independente, şi o variabila dependentă, atunci
ponderea cu care factorii din prima categorie (cauzele) intervin în cea de a doua categorie (efectele)
poate fi modelată matematic printr-o ecuaţie de regresie. De exemplu, se ştie că inteligenţa
generală, motivaţia sau calităţi ale voinţei intervin cu ponderi diferite în ceea ce numim reuşita sau
randamentul şcolar al elevilor. Mai mult, jocul acestor elemente psihologice se asociază cu
particularităţi non-psihologice, cum ar fi apartenenţa de gen (în condiţii de dotare intelectuală egală,
fetele obţin rezultate şcolare semnificativ mai ridicate, ele mobilizâd în reuşita şcolară mult mai
mult factorii de personalitate; mai mult, ele pot converti într-o forţă pozitivă conformismul social,
dezirabilitatea socială şi locusul extern al controlului - Rotter - ce vor fi puse mai mult în slujba
reuşitei şcolare). Poziţia în fratrie, mărimea acesteia, statutul socio-economic al familiei, studiile
părinţilor (ale mamei în special), starea de sănătate biologică şi psihologică, calitatea proceselor
instructiv-educative din şcoala etc. şi încă alţi factori pot fi invocaţi a avea o legătură cauzală cu
reuşita şcolară. Problema care se pune este aceea de a stabili intensitatea acestor legături şi de a le
95
introduce într-un model matematic economic care să dea cea mai puternică legătură, prin cel mai
mic număr de elemente explicative. Deci întrebarea principală la care trebuie să răspundă regresia
utilizată în scop explicativ este aceea dacă şi în ce măsură o variabilă independentă (VI) contribuie
semnificativ la evoluţia variabilei dependente (VD), în condiţiile în care am controlat experimental
influenţa altor factori (variabilele parazite) asupra acesteia.
Regresia utilizată în scop predictiv foloseşte şi la nivel terminologic alte concepte, deoarece
elementul prezis se numeşte criteriu, iar elementul/elementele care fac posibilă predicţia se numesc
chiar predictori. Legătura dintre predictori şi criteriu se încearcă a fi maximizată prin includerea
într-o ecuaţie de regresie a acelor factori dintr-o categorie care au cea mai mare putere, şi aceasta
într-o anumită ordine, determinată de importanţa lor. De exemplu, în comiterea suicidului anumiţi
factori au un coeficient de risc mai ridicat (dispoziţia depresivă, tendinţele autodevalorizatoare,
sentimentul scăzutei autoeficacităţi personale, stima de sine diminuată, temperamentul melancolic
etc.). Studiindu-i adecvat, ei pot fi abordaţi matematic printr-un model predictiv puternic, care să
ghideze acţiunile şi intervenţiile suportive ulterioare. Aceeaşi problemă se poate pune în legătură şi
cu securitatea rutieră, cu anticiparea nivelului reuşitei la un curs de formare, cu selecţia primară
prin examene psihologice pentru anumite categorii de personal etc.
Cea mai importantă caracteristică a psihodiagnozei - validitatea - se sprijină pe acest tip de
demers, deoarece orice diagnostic psihologic se face în vederea unui prognostic, în raport cu care
un test sau o baterie de teste se spune că se validează. Întrebarea de fond la care trebuie să răspundă
regresia utilizată în scop predictiv se referă la care sunt predictorii ce ne ajută să estimăm cel mai
corect şi mai economic criteriul.
96
97
tinde mai mult sau mai puţin spre o dreaptă. În cazul corelaţiilor perfecte (r = ± 1) norul de puncte
ia chiar forma unei drepte, numită linie de regresie, căreia i se poate determina o ecuaţie (ca
oricărei drepte) şi care trece prin toate punctele norului de puncte. Aceasta înseamnă că putem
anticipa cu exactitate pe y plecând de la x (şi reciproc), neexistând nici o diferenţă între rezultatele
estimate şi cele constatate. Din păcate aceasta este doar o situaţie ideală, în realitate regresia
căutând acea dreaptă care să reproducă cel mai bine evoluţia norului de puncte, pentru a permite
estimări cât mai exacte ale rezultatelor. Pentru ca aceasta să fie posibil este nevoie ca între predictor
şi criteriu să existe o corelaţie cât mai mare, deoarece creşterea corelaţiei „strânge” norul de puncte
tot mai aproape în jurul unei drepte. Dreapta pe care o „ajustăm” norului de puncte ar trebui să
satisfacă două condiţii:
să minimizeze suma tuturor erorilor: adunând abaterile pozitive sau negative ale tuturor
punctelor de la linie, această sumă ar trebui să fie minimă. Numai pe baza acestui criteriu nu am
şti însă cum să trasăm efectiv linia, deoarece valorile negative şi cele pozitive se anulează
reciproc şi criteriul nu distinge între mulţimea de linii care „potrivesc” punctele;
să minimizeze suma pătratelor tuturor abaterilor de la linie: acesta este un criteriu mai valid (şi
singurul!), deoarece se poate demonstra matematic (principiul celor mai mici pătrate) că există
doar o singură linie care potriveşte bine toate punctele, spre deosebire de situaţia precedentă.
Aşadar10, linia de regresie care redă cel mai bine norul de puncte este una singură şi ea se
construieşte după principiul celor mai mici pătrate (the least squares în engleză) şi apelează de fapt
la proprietăţile matematice ale ecuaţiei unei drepte, care arată astfel:
y = B0 + B1*x
unde: - B0 se cheamă interceptul, adică punctul de intersecţie al liniei cu ordonata (axa OY);
- B1 indică panta liniei de regresie şi - deoarece el este dat de valoarea tangentei unghiului
θ - el indică cu cât creşte y atunci când x creşte cu o unitate; panta este ascendentă pentru corelaţiile
pozitive şi descendentă pentru cele negative.
În cazul regresiei bivariate B1 este dat de formula:
B1 = r * σy / σx
unde r este coeficientul de corelaţie iar σx şi σy sunt abaterile standard pentru cele două variabile.
Coeficientul B se calculează dupa formula:
B0 = y - B1 * x
în care y şi x sunt mediile variabilelor y şi x.
10
Tilda (^) de deasupra variabilei y, fie ea standard sau brută, arată că valoarea obţinută prin ecuaţia de regresie nu este
cea reală, măsurată, ci este valoarea anticipată, expectată prin predicţie.
98
Pentru a da un exemplu, media unei clase de elevi este la inteligenţă de 106,71 cu o abatere
standard de σx = 13,52, iar media la matematică este de 7,98 cu o abatere standard σy = 0,92,
corelaţia dintre QI şi matematică fiind r = 0,83. Vom avea: B1 = 0,83 * 0,92/13,52 = 0,0565
B0 = 7,98 - 0,0565 * 106,71 = 7,98 - 6,03 = 1,95
y = 1,95 + 0,0565 * x
Pentru QI de 116 şi 87, valoarea anticipată a mediei la matematică va fi:
y = 1,95 +0,0565 * 116 = 8,50
y = 1,95 + 0,0565 * 87 = 6,87
De menţionat faptul că ecuaţia de regresie estimează rezultatele uşor diferit faţă de cele real
constatate dar, cu toate acestea, parametrii acestei ecuaţii asigură soluţia cea mai apropiată de
rezultatele observate. Diferenţa dintre rezultatele estimate şi cele observate sunt cu atât mai mari cu
cât corelaţia dintre cele două variabile este mai scăzută. Atât în cazul regresiei liniare simple, cât şi
în al celei multiliniare există o serie se procedee care ne ajută să decidem în legătură cu eficienţa
ecuaţiei de regresie în estimarea rezultatelor.
Un set de date poate fi exprimat în note brute (aşa cum au fost ele culese) sau în note
standard, adică în note z (abaterea de la medie a unei valori, exprimată în unităţi sigmatice). Cea
mai simplă predicţie bivariată este cea exprimată în scoruri z: cunoscând nota z a unei persoane la o
variabilă, încercăm să prezicem nota sa z la cealaltă variabilă după formula:
zy = B*zx
în care B se cheamă chiar coeficient de regresie. Dar, deoarece valoarea coeficientului standardizat
de regresie este exprimat de coeficientul de corelaţie dintre variabile, formula anterioară devine:
zy = r * zx
Apelăm la exemplul anterior, unde corelaţia dintre QI şi media la matematică era de 0,83:
99
A B
C
Figura 7.1.. Relaţia predictori şi criteriu în regresia bivariată simplă (A) şi multivariată (B şi C).
Dacă am reda prin cercuri variaţia totală a unei variabile am obţine diagrame Venn de tipul
celor de mai sus. Zona din varianţa comună explicată de r2 sau R2 a fost de fiecare dată notată cu a,
zona b fiind cea care rămâne neexplicată. Dacă în regresia simplă un singur predictor lasă o mare
parte din varianţa lui y neexplicată (zona b), în exemplul următor vedem că fiecare predictor
explică câte o parte din varianţa lui y, partea b micşorându-se. Exemplul C ne atrage atenţia că
adăugarea de noi predictori nu diminuă semnificativ zona b decât atunci când ei sunt independenţi,
adică necorelaţi între ei. Deoarece x2 şi x3 sunt corelaţi între ei, x3 nu contribuie la diminuarea zonei
b în aceeaşi măsură în care o face x2 şi de aceea va trebui hotărât dacă rămân în ecuaţia de regresie
amândoi predictorii, iar dacă nu, care va fi cel păstrat.
Dacă folosim mai mulţi predictori (variabile independente), ecuaţia de regresie multiplă va
avea următoarea formulă:
^y = B0 + B1*x1 + B2*x2 + ... + Bn*xn
100
101
progresiv - sau scoase progresiv din model - asupra variabilei dependente. Specificul metodei
constă în aceea că toate variabilele independente introduse în analiză sunt tratate ca un bloc comun
de variabile. În câmpul din dreapta-sus vom introduce variabila dependentă, să zicem succesul
şcolar, exprimat sub forma mediei generale obţinute de elevii unei clase.
O analiză corelaţională precedentă ne-a arătat că acesta corelează pozitiv cu inteligenţa (QI),
cu indicele de memorie (IMe), cu apartenenţa de gen (M/F), cu mărimea fratriei, cu studiile
părinţilor (generale, medii, superioare, adică G=1, M=2 şi S=3) şi cu motivaţia. Prima dată vom
introduce deci QI, care va fi şi primul model analizat; apoi apăsăm butonul Next şi introducem
IMe, care împreună cu QI va forma al doilea bloc analizat; apoi apartenenţa de gen, care împreună
cu QI şi IMe va forma al treilea bloc analizat ş.a.m.d. Scoaterea unui element din model se face în
sens invers, regresiv, prin butonul Previous, până ajungem la locul introducerii sale. Butoanele
Statistics, Plots, Save şi Options nuanţează analiza cu grafice, tabele, creare de noi variabile etc.
Model Summarye
Adjusted St d. Error of
Model R R Square R Square the Estim ate
1 .609a .371 .368 .5659
2 .700b .490 .484 .5111
3 .734c .538 .531 .4874
4 .768d .590 .581 .4607
a. Predictors: (Const ant), Studii parinti
b. Predictors: (Const ant), Studii parinti , QI
c. Predictors: (Const ant), Studii parinti , QI , Stima de
sine total
d. Predictors: (Const ant), Studii parinti , QI , Stima de
sine total, Succes scolar
e. Dependent Variable: Media generala
Cel mai important output din multitudinea celor oferite de program sunt cele care ne dau un
Model Summary, pentru fiecare model în parte acesta furnizând coeficientul de corelaţie multiplă
R, cel de determinare multiplă R2, un R2 ajustat (deoarece R este dependent simultan de numărul
predictorilor incluşi în ecuaţia de regresie şi de numărul de subiecţi, R2 ajustat încearcă să elimine
aceste influenţe, oferind un parametru mai puţin distorsionat). Dar aşa cum apreciază şi Sava
(2004). deşi oferă informaţii mai exacte decât coeficientul de determinare, R2 ajustat ramâne
sensibil la distorsiune în cazul nerespectării condiţiilor necesare aplicării regresiei liniare. Jumătate
din acest output se chemă Change Statistics deoarece indică cu cât se schimbă valoarea lui R2 prin
adăugarea de noi variabile şi dacă această schimbare este semnificativă statistic (testul F).
Al doilea output important este cel din figura de mai jos, deoarece el ne furnizează pentru
fiecare model în parte coeficienţii beta (B) ce vor fi incluşi în ecuaţia de regresie finală, eroarea
standard a acestuia, coeficienţii B standardizaţi şi nestandardizaţi, t şi semnificaţia statistică a
102
Coefficientsa
Unstanda Standardized
rdized Coefficients
Model Coefficien
B Beta t Sig.
1 (Constant) 6.811 39.039 .000
Studii parinti .805 .609 10.591 .000
2 (Constant) 5.389 20.251 .000
Studii parinti .611 .462 8.185 .000
QI 1.766E-02 .374 6.627 .000
3 (Constant) 5.747 21.584 .000
Studii parinti .505 .382 6.732 .000
QI 1.462E-02 .310 5.558 .000
Stima de sine total 8.329E-03 .251 4.447 .000
4 (Constant) 5.280 19.595 .000
Studii parinti .446 .338 6.197 .000
QI 1.521E-02 .322 6.110 .000
Stima de sine total 6.542E-03 .197 3.618 .000
Succes scolar 8.201E-03 .240 4.847 .000
a. Dependent Variable: Media generala
103
Histogram Scatterplot
Dependent Variable: Media generala Dependent Variable: Media generala
30 10,0
9,5
20 9,0
8,5
8,0
10
7,5
Std. Dev = ,99
Mean = 0,00
7,0
0 N = 192,00
-2
-2
-1
-1
1,
1,
2,
2,
6,5
-,2
-,7
,2
,7
,7
,2
,7
,2
25
75
25
75
5
5
5
5
5
-3 -2 -1 0 1 2 3
A B
Figura 7.4. Histograma cu distribuţia reziduurilor standardizate (stânga) şi
scaterul reziduurilor standardizate (dreapta).
,75
,50
,25
0,00
0,00 ,25 ,50 ,75 1,00
Figurile de mai sus sunt alte reprezentări tipice pentru regresie. Astfel, în figura 4A (stânga)
observăm că reziduurile (diferenţele dintre scorurile prezise şi cele reale) se distribuie bine, după o
curbă gaussiană; scatter-ul din dreapta al figurii 4 (B) trebuie să redea un nor de puncte cât mai
aleator al acestor reziduuri, ceea ce se şi întâmplă în bună măsură. Figura 5 reprezintă gradul de
suprapunere dintre valorile prezise şi cele reale, care este foarte mare în cazul nostru, modelul
subevaluâd uşor chiar înainte de centrul curbei, dar supraevaluând uşor imediat după aceea.
Pe ansamblu, modelul prezentat ca exemplu (rezultat dintr-o cercetare reală) este unul foarte
bun, deoarece fiecare element nou adăugat face să crească valoarea coeficientului de corelaţie
multiplă R de la .61 la .70, apoi la .73 şi finalmente la .77, toate valorile lui t fiind peste 2,58,
probabilitatea p de eroare fiind de fiecare dată mai mică de .01.
104
CAPITOLUL 8
105
Concluziile unor asemenea teste de semnificaţie ne pot duce la admiterea sau la respingerea
ipotezei de nul (Ho). Aceasta afirmă din capul locului că diferenţele dintre două sau mai multe
grupuri sunt datorate hazardului. Când un rezultat este semnificativ statistic, însemnă că el este
suficient de mare pentru a indica diferenţe împortante, neîntâmplătoare între grupurile cercetate.
Pentru a evita două tipuri de erori care sunt posubile, erorile de tipul întâi (respingerea cu prea mare
uşurinţă a ipotezei de nul) şi de tipul al doilea (respingerea prea uşoară a ipotezei specifice), vom
lua în calcul mai multe întrebări:
cât de semnificativă este probabilitatea obţinută? Ce mărime a efectului au obţinut alte
studii similare? Diferenţa – chiar atunci când este semnificativă statistic – este ea şi
importantă?
care sunt nivelurile acestei încrederi, pe care SPSS le furnizează automat atunci când sunt
estimaţi parametrii unei populaţii plecând de la eşantioanele de lucru? Cu cât aceste limite
de încredere sunt mai strânse, cu atât este mai uşor de judecat şi de apreciat, şi invers, cu cât
sunt mai largi, ele au o valoare practică mai mică.
Dacă rezultatele sunt nesemnificative statistic, aceasta ne duce în mod automat la acceptarea
ipotezei de nul, de unde riscul erorii de tipul al doilea, respingerea ipotezei specifice, când de fapt
ea era una valabilă. Aceasta se poate datora şi faptului că cercetarea noastră nu a avut suficientă
putere statistică: ori efectul nu a fost destul de mare, ori zona populaţională pe care el a fost cercetat
a fost prea mică. Lărgirea eşantionului, sau aplicarea unora dintre procedurile de mărire a puterii
cercetării (vezi Sava, 2004, pp. 38-46) ar putea schimba semnificativ rezultatele cercetării în cauză.
106
dacă kurtosis-ul şi skewness-ul11 sunt în jurul valorii zero, distribuţie este normală sau
foarte aproape de normal. SPSS determină automat şi valoarea standard a acestor
coeficienţi. Atunci când valoarea raportului se află în afara intervalului -2, +2 se respinge
ipoteza normalităţii distribuţiei cercetate;
când eşantionul are mai mult de 50 de cazuri, din meniul Explore se va utiliza testul
Kolmogorov-Smirnov (numit şi testul K-S Lilliefors datorită corecţiei adusă de Lilliefors)
utilizabil pentru scalele de inteval. Testul calculează procentele cumulate pentru cele două
distribuţii, făcându-se apoi diferenţa dintre procentajul cumulat real şi cel teoretic. SPSS
calculează probabilitatea de a obţine această diferenţă prin hazard (ceea ce constituie
ipoteza de nul), respingând ipoteza de nul la un prag p < .05;
alte teste de normalitate a distribuţiei sunt W al lui Shapiro-Wilkis (Statistics→Summarize
→Explore→Plots), testul Chi pătrat (Statistics→Nonparametric tests→Chi Square),
care arată concordanţa dintre distribuţia obţinută şi cea teoretică, pentru o variabilă
nonparametrică;
În sprijinul aceluiaşi demers putem apela şi la modele grafice:
graficele Q-Q dispun pe orizontală valorile observate şi pe verticală pe cele aşteptate
teoretic; graficele P-P reprezintă pe axa OX probabilităţile cumulate observate iar pe OY pe
cele aşteptate. Cu cât distribuţia este mai normală, graficul tinde să o reprezinte mai aproape
de o linie înclinată la 45 de grade, abaterile de la normalitate imprimând un caracter şerpuit
acesteia;
boxploturile (prezentate detaliat la capitolul de reprezentări grafice) dau o imagine intuitivă
foarte bună pentru zona cutiei, prin mediană, dar şi spre extreme prin „mustăţi” (wiskers);
avantajul acestora provine şi din posibilitatea comparaţiei simultane dintre două sau mai
multe categorii (masculin-feminin; introvert-ambivert-extravert etc.).
11
Interpretarea acestor indicatori a fost făcută la pagina x.
107
Teste unilaterale versus teste bilaterale ţin cont de modul de formulare al ipotezei. Astfel,
atunci când aceasta afirmă că există o diferenţă semnificativă între talia bărbaţilor şi cea a femeilor,
acesta este un test bilateral, deoarece nu specifică şi sensul diferenţei. Nivelul diferenţei dintre
medii, necesar respingerii ipotezei de nul, este unul mai ridicat în cazul testelor de semnificaţie
unilaterale, unde se specifică exact şi sensul acestei diferenţe (talia bărbaţilor este semnificativ mai
mare decât a femeilor).
108
Statistica acestui test se calculează după formula: t = (m - μ)/ES, în care m este media eşantionului,
μ media grupului din care el a fost extras iar ES eroarea standard a distribuţiei de eşantionare.
Decizia de acceptare sau de respingere a ipotezei de nul se ia în funcţie de probabilitatea afişată de
SPSS.
109
Primul output include variabila ce va fi comparată (numită şi dependentă), categoriile după care se
face comparaţia (în cazul de mai sus bărbaţii sunt comparaţi cu femeile), numărul N de cazuri din
fiecare categorie care a participat la comparaţie, mediile şi abaterile standard pentru fiecare grup, cu
valorile rotunjite la a doua zecimală şi eroarea standard a mediei (SEM), utilă în anumite situaţii.
A doua parte a outputului, afişată imediat sub cel de dinainte, cuprinde variabilele comparate,
fiecare având alocate câte două rânduri: când la testul Levene pentru egalitatea varianţei celor două
grupuri aceasta este presupusă egală – şi atunci vom lua în considerare valorile de pe rândul de sus,
şi în situaţia inversă, când aceasta este presupusă inegală – caz când vom lua valorile de pe rândul
de jos. De unde ştim ce rând să alegem? Capul de tabel este întotdeauna testul Levene pentru
verificarea egalităţii varianţei celor două grupuri, asumpţiunea de bază a testului fiind egalitatea
acestora. Aşadar, coloanele a doua şi a treia din tabel sunt destinate afişării testului F (simbolul este
identic cu F de la ANOVA, având aceeaşi semnificaţie de indicator al diferenţei) şi a semnificaţiei
acestuia (Sig.), care este singura dintre cele două valori care trebuie interpretată. Astfel, dacă
diferenţa varianţelor grupurilor este la un p > .05 înseamnă că se admite ipoteza de nul (diferenţa
este nesemnificativă) şi se iau în considerare valorile de pe rândul de sus din căsuţă; când p < .05 se
110
iau valorile de pe rândul al doilea din căsuţă, deoarece diferenţa dintre varianţele grupurilor este
una semnificativă. În exemplul nostru, niciuna dintre valorile lui F nu atinge pragul semnificaţiei
statistice, deci pentru toate cele 4 variabile comparate vom lua în consideraţie doar rândul de sus.
După ce am făcut o rapidă inspecţie vizuală a testului Levene, trecem la ceea ce ne
interesează de fapt, adică coloana a 4-a cu valoarea lui t pentru diferenţa mediilor şi coloana a 6-a
cu nivelul semnificaţiei statistice a acestei diferenţe. Aşa cum se observă din figura de mai sus,
există o singură diferenţă semnificativă statistic, şi anume mecanismele de apărare imature, care
dau un t de 2,452, pragul de semnificaţie fiind sub .05, adică .016. Rezultatul se poate raporta de
maniera: pentru mecanismele de apărare imature diferenţa mediilor de 14,02, în favoarea bărbaţilor
este semnificativă la t(113) = 2,45, p = .016, în care 113 din paranteză reprezintă numărul gradelor
de libertate trecute în coloana a 4-a. Dacă însă ipoteza nu a fost bidirecţională, ci unidirecţională,
nivelul de semnificaţie este jumătate din cel afişat la Sig.(2-tailed) şi raportarea devine: t(113) =
2,45, p = .008 (sau p < .01), deci ipoteza se confirmă la un prag de semnificaţie mai sever.
Interpretarea sensului psihologic al datelor de mai sus este dependentă de consideraţiile teoretice şi
de ipotezele emise. În cazul nostru este evident că scorurile bărbaţilor la mecanisme de apărare total
este cu aproape 15 puncte mai mare decât al femeilor, că această diferenţă provine aproape exclusiv
de la mecanismele imature, unde ea se află deja în zona semnificaţiei statistice. Creşterea numerică
a grupului masculin ar da un sens mai clar asupra acestui fapt, căci s-ar putea ca şi scorul total la
mecanismele de apărare să intre în zona semnificaţiei statistice.
111
Figura 8.5. Ferestrele de dialog pentru testul de semnificaţie Paired-Samples T Test şi outputurile sale.
112
Primul output (Paired Samples Statistics) ne indică perechile luate în analiză, mediile
fiecărui element din pereche şi numărul N de cazuri care au participat la comparaţie, ca şi abaterile
standard şi eroarea standard a mediei pentru fiecare element al perechii. Al doilea output (Paired
Samples Correlations) afişează pe fiecare rând perechea şi numărul de cazuri corelate, pentru care
se indică valoarea corelaţiei şi semnificaţia statistică a acesteia. Dacă utilitatea mediei şi a abaterii
standard este una evidentă, eroarea standard a mediei este utilă în calculul semnificaţiei testelor de
comparare a mediilor şi mai ales în determinarea intervalelor de încredere. Înterpretarea corelaţiilor
(rho al lui Spearman) relevă gradul de consistenţă sau de paralelism dintre prima serie de
măsurători şi cea de a doua, ţinând cont că acestea se efectuează pe aceiaşi subiecţi sau pe subiecţi
apariaţi, şi deci foarte asemănători. Aceşti coefecienţi de corelaţie se interpretează în termeni de
semnificaţie statistică făcând uz de ultima coloană a outputului 2. SPSS produce şi un al treilea
tabel (Paired Samples Test) care, te lângă medie, abaterea standard şi eroarea standard a mediei a
fiecărei perechi, dă şi limitele de jos şi de sus ale intervalului de încredere pentru o probabilitate de
eroare de 95%, testul t, gradele de libertate (df) şi valoarea lui p - Sig.(2-Tailed) ca indicator al
semnificaţiei statistice (pentru o ipoteză bidirecţională). Modalitatea de raportare a rezultatului
pentru cele 42 de perechi analizate este următoarea: t(41) = 4,74, p < .001. Observăm că în
paranteza ce urmează după t se trec gradele de libertate şi nu numărul perechilor. Scorurile mediilor
vor fi verificate pentru a vedea dacă direcţia diferenţei acestora este cea prezisă de ipoteza
specifică, în cazul în care aceasta a fost unidirecţională va duce în raportare la împărţirea lui p la 2.
Notă: semnificaţia diferenţei se poate uşor determina din tabelul al treilea al outputului, împărţind
media la SEM (Eroarea Standard a Mediei). Pentru a ilustra statistic corelaţiile din testul t pentru
eşantioane perechi, se pot genera diagrame de tip scatter, ca în exemplul de mai jos.
200 100
90
190
80
180 70
60
170
50
160 40
150 160 170 180 190 200 40 50 60 70 80 90 100 110 120
113
Raportarea scrisă pentru o diferenţă a mediilor de 1,50, având 0,16 şi 2,86 limitele de jos şi
de sus ale intervalului de încredere se face astfel: diferenţa mediilor = 1,50 (95%CI: 0,16 la 2,84)12.
Interpretarea acesteia este întru totul similară cu oricare alte intervale de încredere, cum ar fi cele
pentru eşantioanele independente.
12
CI = Confidence Interval, adică interval de încredere.
114
diferit, chiar dacă sunt trataţi identic) şi dintr-o eroare de măsurătoare (acelaşi subiect răspunde
diferit cînd este testat în condiţii diferite, prin modificări de atenţie, de dispoziţie, de mediu etc.).
Dacă din sursa totală de eroare am elimina diferenţele individuale, atunci eroarea variaţiei ar fi mai
mică şi mai uşor de controlat, ceea ce şi petrece în design-ul cu măsurători repetate. Ca rezultantă,
atunci când ipoteza de nul este falsă, proporţia F va fi mai mare şi efectele tratamentului vor fi
astfel mai uşor de evidenţiat.
Design-urile cu măsurători repetate (intrasubiecţi) fac mai eficientă utilizarea subiecţilor
decât cele între grupurile de subiecţi, utilizând mai puţini subiecţi şi având o eroare a variaţiei mai
mică. Din păcate însă nu toate variabilele independente se pretează la acest tip de design: variabile
cum sunt apartenenţa de gen, inteligenţa sau categoriile clinice trebuie tratate doar ca variabile
intersubiecţi, căci un subiect nu poate contribui la scorurile unui grup o dată ca bărbat şi o dată ca
femeie! Sau, după parcurgerea unei anumite metode de învăţare a scrierii, nu mai putem relua
experimentul de învăţare prin altă metodă, pe aceiaşi subiecţi, pentru că între timp ei au învăţat deja
să scrie.
Deşi mai eficient, design-ul cu măsurători repetate plăteşte acest plus de eficienţă printr-un
plus de complexitate: scorurile nefiind independente, ci corelate, aceasta reclamă precauţii
suplimentare în calcularea lui F (Myers şi Well, 1995, pp. 234-237).
În rezumat, putem afirma următoarele:
în ANOVA cu măsurători repetate dispersia totală se poate descompune în trei surse:
- dispersia explicată, datorată nivelurilor variabilei independente;
- dispersia neexplicată, numită şi reziduală sau datorată erorii;
- dispersia subiecţilor, datorată diferenţelor dintre indivizi;
cum F este raportul dintre dispersia explicată şi cea neexplicată, prin eliminarea diferenţelor
individuale, şansa lui F de a deveni semnificativ statistic creşte şi odată cu aceasta şi puterea
cercetării;
scoaterea din discuţie a varianţei interindividuale se sprijină pe faptul că acelaşi eşantion de
subiecţi a contribuit pentru fiecare dintre seturile de valori obţinute, bazându-se pe
presupunerea unor coeficienţi de corelaţie mari între aceste seturi de scoruri (Howitt şi
Cramer, 2006, p. 155);
prin separarea variaţiei erorii în două componente, - datorată diferenţelor individuale şi
eroarea reziduală - şi eliminarea primeia, partea de eroare este mai mică, mai uşor de
controlat, necesitând un număr mai mic de subiecţi;
exemplul tipic de ANOVA cu măsurători repetate îl constituie modificarea în timp a
scorurilor unor variabile. În acest caz pot interveni efectul practicii şi al învăţării, care se
controlează prin metoda de contrabalansare;
115
116
Aplicaţia 1
La două clase a VI-a de la o şcoală generală s-a aplicat o baterie de teste de inteligenţă, incluzând
un test de raţionament abstract (Raven Standard), un test de vocabular (Recombinare Verbală) şi
alte teste prin care s-a determinat pentru fiecare elev coeficientul de inteligenţă (QI). Rezultatele la
aceste teste şi QI-ul au fost corelate cu media generală obţinută la sfârşitul anului şcolar de studiu.
Aceste date sunt condensate în tabelul de mai jos, separat pentru cei 21 de băieţi şi cele 21 de fete.
a. Date
BĂIEŢI
Nr. Raven Verbal QI Med.gen.
1. 108 96 95 7.50
2. 128 112 118 8.90
3. 118 135 119 9.87
4. 120 130 121 9.70
5. 128 150 131 9.86
6. 104 98 106 7.29
7. 86 80 80 6.90
8. 95 113 100 8.93
9. 124 86 106 8.93
10. 114 140 123 8.87
11. 94 92 95 6.60
12. 96 84 89 6.80
13. 96 114 100 8.23
14. 96 91 90 7.80
15. 97 86 92 6.46
16. 122 112 110 7.93
17. 102 102 98 8.19
18. 112 81 101 7.25
19. 82 76 78 5
20. 112 90 97 8
21. 99 95 97 7.75
FETE
Raven Verbal QI Med.gen.
22. 106 83 99 9.37
23. 118 119 119 9.90
24. 104 120 116 9.57
25. 100 118 106 9.43
26. 100 102 108 9.53
27. 96 128 99 7.87
28. 96 108 96 8.50
29. 70 97 94 7.86
30. 105 118 114 9.04
31. 96 120 108 9.00
32. 98 130 105 8.43
33. 91 98 98 7.96
34. 96 102 94 8.90
35. 100 84 98 7.77
36. 109 116 117 9.80
37. 118 92 102 8.80
38. 120 150 120 10
39. 108 97 99 8.93
40. 92 112 94 8.73
41. 122 114 108 8.60
42. 96 93 95 6.70
117
b. Cerinţe
1. Introduceţi datele şi apoi etichetaţi din Labels variabilele:
sex → Sex
raven → Raven standard
verbal → Recombinare verbală
qi → Coeficient de inteligenţă
med_gen → Medie generală
2. Etichetaţi din Values variabilele. Pentru variabila sex treceţi în Values:
- 0 pentru Masculin şi 1 pentru Feminin;
- codificaţi med_gen în variabilă trihotomică (1 pentru Mică, 2 pentru Medie şi 3 pentru
Mare), selectând din Frequencis câte 33 de procente din fiecare categorie şi numind variabila
nou creată medgen_cl (Medie generală clase). Creaţi pentru ea o histogramă simplă pentru a
verifica corectitudinea demersului.
3. Transformaţi raven şi verbal în note z după formula: z = (x - media)/abaterea standard, pentru
care luaţi media şi abaterea standard din Descriptives pentru cele două variabile. După ce aţi operat
această transformare faceţi suma dintre cele două valori z obţinute şi împărţiţi la 2 (din Compute),
numind variabila nou obţinută inteli_z. Comparaţi variabila z obţinută prin Compute cu cea
furnizată de Descriptives printr-o corelaţie.
4. Obţineţi datele descriptive (medie, mediană, modul, Range, valoarea minimă şi maximă,
Skewness şi Kurtosis) pentru toate cele 5 variabile.
5. Determinaţi semnificaţia diferenţei mediilor la raven, verbal, qi şi med_gen dintre băieţi şi fete
şi comentaţi rezultatele obţinute într-un fişier Word adiţional, care se va preda odată cu fişierul de
date şi fişierul de outputuri pentru a fi evaluate.
6. Determinaţi corelaţiile dintre toate 4 variabilele de mai sus (raven, verbal, qi şi med_gen)
pentru tot lotul şi apoi separat pentru băieţi şi pentru fete, selectând cazurile corespunzătoare de la
Data. Comentaţi rezultatele obţinute în fişierul Word adiţional.
7. Generaţi de la Scatter norul de puncte pentru raven - verbal, qi – med_gen, raven – med_gen şi
verbal - med_gen separat pentru băieţi şi pentru fete, utilizând Split file şi comentând diferenţele.
8. Realizaţi histogramele distribuţiilor după criteriul de gen, în valori absolute şi apoi în procente.
Pe aceeaşi histogramă cluster reprezentaţi pentru băieţi şi pentru fete raven şi verbal, apoi qi şi
med_gen. Histogramele simple vor fi de culoare albastră, cele duble (cluster) în roşu şi galben,
având insertate în interior numărul de cazuri sau de procente ce definesc fiecare coloană.
9. Redaţi boxplotul pentru băieţi şi fete la raven - verbal şi la qi - med_gen.
10. Efectuaţi o ANOVA One Way alegând ca variabilă trihotomică media generală recodificată,
pentru raven, verbal şi qi. Comentaţi rezultatele în fişierul Word.
118
Note Note
brute standard
Număr
Media
Ab. sta.
Pentru a completa prima coloană a tabelului de sinteză de mai sus, intraţi în Descriptives şi
cereţi media şi abaterea standard pentru variabila Stimă total.
După aceasta intraţi în Transform→Compute→Recode şi recodificaţi într-o variabilă
nouă variabila Stima total în cele 11 clase definite de etalonul obţinut anterior, pe care o veţi
numi Stima_st şi va avea eticheta Stima de sine standard.
Verificaţi prin Histograms ce distribuţie dă variabila nou creată, supraimprimând şi curba
distribuţiei peste histogramă.
În final, de la Descriptives solicitaţi media şi abaterea standard a Stimei de sine standard pe
care le veţi trece în a doua coloană a tabelului sintetic de mai sus. Dacă aţi lucrat corect,
media trebuie să fie foarte apropiată de 5 şi abaterea standard de 2.
119
120
Tabel 1. Fişier ataşat cu outputul Stimei de sine necesar construirii unui etalon.
121
Utilităţi statistice
Tabel 2. Valori ale lui ρ (rho = corelaţia rangurilor) pentru două praguri de semnificaţie.
122
1. Probabilitatea (şanse din 100) ca o 2. Tabelul lui Fisher de valori ale lui z
valoare a lui t să apară întâmplător
(tabelul legii normale reduse)
Tabel 3. Legea normală redusă şi tabelul lui Fisher pentru 4 niveluri de semnificaţie.
123
Bibliografie
1. Albarello, L., Bourgeois, É., Guyot, J.-L. (2003). Statistique descriptive. Bruxelles: Éditions De
Boeck Université.
2. Clocotici, V., Stan, A. (2000). Statistică aplicată în psihologie. Iaşi: Editura Polirom.
3. Coman, C., Medianu, N. (2003). Statistică socială. Teorie şi aplicaţii. Braşov: Editura
Infomarket.
4. Dorofte, I. (1981). Analiza şi predicţia performanţelor umane. Bucureşti: Editura Ştiinţifică şi
Enciclopedică.
5. Einspruch, E.L. (1998). An Introductory Guide to SPSS for Windows. Thousands Oaks,
London, New Delhi: Sage Publications.
6. Hinton, P.R., Brownlow, C., McMurray & Cozens, B. (2004). SPSS Explained. London and
New York: Routledge.
7. Howitt, D., Cramer, D. (2006). Introducere în SPSS pentru psihologie. Iaşi: Editura Polirom.
8. Hoyle, R.H. (1999). Statistical strategies for small sample research. Thousands Oaks, London,
New Delhi: Sage Publications.
9. Isaac, S., Michael, W.B. (1971). Handbook in research and evaluation. San Diego, California:
Robert R. Knapp, Publisher.
10. Kinnear, P.R. & Gray, C.D. (2006). SPSS 14 Made Simple. Hove and New York: Psychology
Press.
11. Laveault, D., Grégoire, J. (2002). Introduction aux théories des tests en psychologie et sciences
de l'éducation. Bruxelles: Éditions De Boeck Université.
12. Lungu, O. (2003). Ghid introductiv pentru SPSS 10.0. Iaşi: Editura Polirom.
13. Myers, A., Hansen, C.H. (2002). Experimental Psychology. 5th ed., Pacific Grove: Wadsworth.
14. Newton, R.R., Rudestam, K.E. (1999). Your Statistical Consultant. Answers to Your Data
Analysis Questions. Thousans Oaks, London, New Delhi: Sage Publications.
15. Norusis, M.J. (1992). SPSS for Windows. Base System User's Guide, Release 5.0. Chicago,
Illinois: SPSS Inc.
16. Novac, A. (1995). Statistică socială aplicată. Bucureşti: Editura Hyperion.
17. Popa, M. (2004). Statistică psihologică cu aplicaţii SPSS. Bucureşti: Editura Universităţii
Bucureşti.
18. Radu. I. (coord.) (1993). Metodologie psihologică şi analiza datelor. Cluj-Napoca: Editura
Sincron.
124
19. Rateau, P.(2004), Metodele şi statisticile experimentale în ştiinţele socioumane. Iaşi: Editura
Polirom.
20. Răulea, C. (2006). Statistică psihologică şi prelucrarea informatizată a datelor. Sibiu:
Psihomedia.
21. Rotariu, T. (coord.) (1999). Metode statistice aplicate în ştiinţele sociale. Iaşi: Editura Polirom.
22. Sava, F. (2004). Analiza datelor în cercetarea psihologică. Metode statistice complementare.
Cluj-Napoca: Editura ASCR.
23. Smith, S. (1974). Ghid simplificat de statistică. Bucureşti: Editura Didactică şi Pedagogică.
24. Vasilescu, I.P. (1981), Statistică informatizată pentru ştiinţele despre om. Bucureşti: Editura
Militară.
25. Voght, W.P. (1999). Dictionary of Statistics & Methodology. A Nontechnical Guide for the
Social Sciences, 2nd Edition. Thousands Oaks, London, New Delhi: Sage Publications.
125
ANALIZĂ COMPUTERIZATĂ
A DATELOR CU SPSS
126