Sunteți pe pagina 1din 40

CURS 1

ELEMENTE INTRODUCTIVE

Există câteva motive pentru care este necesară studierea statisticii în psihologie. Înţelegerea
metodelor statistice este crucială pentru înţelegerea şi citirea corectă a articolelor de specialitate în
psihologie. Cel care nu cunoaşte metodele statistice nu va putea să citească aceste materiale decât superficial
şi nu va fi capabil să înţeleagă tabelele, graficele şi corectitudinea concluziilor deduse din cercetare. Un alt
motiv pentru care e necesară studierea statisticii este acela că, fără a avea deprinderile necesare în acest
domeniu nu se poate face cercetare experimentală.
Statistica este un instrument care a evoluat pornind de la procesele de bază ale gândirii: atunci când
observăm un fapt ne întrebăm ce anume l-a determinat, care a fost cauza. Intuim ce ar fi putut provoca acel
fapt, facem o presupunere şi apoi încercăm să testăm ipoteza printr-o altă observaţie, uneori încercând să
facem unele mici modificări pentru a ne testa intuiţia. Ceea ce ne interesează este dacă noua noastră
observaţie este exactă, dacă ceea ce observăm este un fapt regulat, nu unul cauzat de întâmplare şi dacă avem
dreptate în ceea ce priveşte intuiţia noastră. Statistica permite stabilirea probabilităţii ca observaţia făcută să
aibă cauze precise şi să nu fie provocată doar de întâmplare.
Statistica ne ajută să facem generalizări ale unor efecte la nivelul unor populaţii largi, pornind de la
rezultatele obţinute pe eşantioane sau grupuri mici de oameni.
Există două ramuri principale ale statisticii psihologice:
 statistica descriptivă - cuprinde metodele care ajută psihologii să descrie şi să grupeze
rezultatele obţinute. Aceste metode ajută la descrierea scorurilor.
 statistica inferenţială - cuprinde metodele care ajută psihologii să tragă concluzii pe baza
rezultatelor obţinute şi să le generalizeze la populaţii mai largi decât cele testate iniţial.

I. TIPURI DE VARIABILE. DIFERENŢA DINTRE VARIABILE, VALORI ŞI SCORURI


Variabile sunt definite ca proprietăţi ale fenomenelor, obiectelor sau proceselor, care pot lua diferite
valori. Valoarea unei variabile face referire la scorul obţinut la acea caracteristică. Variabilele sunt
proprietăţi, atribute sau caracteristici ale organismelor, mediului sau situaţiei experimentale care pot varia de
la un organism la altul, de la un mediu la altul sau de la o situaţie la alta.
O variabilă poate lua diferite valori. Valoarea reprezintă o măsură calitativă sau cantitativă a unui
fenomen. Spre exemplu, pentru variabila “nota şcolară” valorile acesteia sunt toate notele de la 1 la 10.
Pentru variabila “zilele săptămânii” valorile sunt toate cele şapte zile ale săptămânii. În psihologie se face
1
distincţia între valori şi scoruri. Scorul este valoarea obţinută de o persoană, fenomen sau obiect atunci când
ne referim la o anume variabilă. Spre exemplu, nota pe care o obţine un elev la o materie (să zicem 7)
reprezintă scorul subiectului la variabila “nota şcolară”. Valoarea subiecţilor la variabila gen poate fi
masculin sau feminin; valoarea la variabila rasă poate fi caucazian, hispanic sau asiatic.

Tipuri de variabile
Pentru a înţelege modul în care sunt folosite variabilele în studiile psihologice, trebuie înţelese
distincţiile de bază ale variabilelor.
După felul variaţiei, variabilele pot fi: continui (teoretic pot lua orice valoarea, între două valori ale
variabilei putând să apară o a treia valoare; vârsta subiecţilor este un exemplu de variabilă continuă) sau
discrete (pot avea numai anumite valori, între care nu mai apar altele; religia, tipurile temperamentale sunt
exemple de variabile discontinui). Variabilele continui pot lua orice valoare pe un continuum, nefiind limitate
de un anumit număr de valori. În principiu, putem măsura timpul de latenţă sau durata răspunsului oricât de
precis dorim. În practică, însă, fineţea măsurării este limitată de capacitatea de măsurare a instrumentelor.
Variabilele discrete iau valori care reprezintă categorii distincte. Oamenii pot fi de gen feminin sau masculin,
stimulii pot fi auditivi sau vizuali. O variabilă poate fi discretă chiar dacă graniţele dintre categorii sunt
neclare şi clasificarea cazurilor particulare poate fi dificilă. De exemplu, culorile pot fi clasificate în roşu,
galben sau verde chiar dacă se pot face distincţii mai fine între culori, iar unele culori pot fi considerate ca
fiind la graniţă (cum ar fi verde-albastru). Din punct de vedere psihologic culorile reprezintă o variabilă
discretă, deşi ca dimensiune fizică (lungimi de undă) acestea sunt variabile continui. Distincţia între
variabilele discrete şi continue este importantă în construcţia teoriilor. De exemplu, teoreticienii gustului se
întreabă dacă este posibil ca gustul să fie o variabilă continuă (în condiţiile în care gusturile de bază puteau fi
stabilite arbitrar şi convenţional).
După natura măsurii variabilele pot fi: cantitative (variază cantitativ, cum ar fi de exemplu greutatea
sau vârsta subiecţilor) sau calitative (sunt cele care variază calitativ, cum ar fi genul sau etnia subiecţilor).
Distincţia între variabile cantitative şi calitative este uşor de afirmat, deşi este dificil de stabilit în practică.
Variabilele cantitative variază ca şi cantitate, în timp ce variabilele calitative variază ca tip. Exemple de
variabile cantitative pot fi viteza răspunsului sau nivelul de zgomot. Multe variabile care au fost considerate
iniţial ca fiind calitative şi discrete, s-au dovedit ulterior a fi cantitative şi continui (cum ar fi introversiune -
extraversiune, normal-patologic, masculinitate-feminitate).
În funcţie de modul de utilizare în experiment variabilele pot fi independente sau dependente.
Variabila independentă este variabila care provoacă modificări ale valorilor variabilei dependente. Este o
cauză a modificării răspunsului. Variabilele independente sunt modificate de experimentator; reprezintă
variabilele de a căror efect este interesat experimentatorul. Variabila dependentă reprezintă măsurarea
2
comportamentului unei persoane; este răspunsul subiectului. Această variabilă este denumită dependentă
deoarece valorile ei depind sau sperăm să depindă de valorile variabilei independente. Variabilele dependente
sunt măsoară influenţa variabilei independente. De exemplu, dacă am studia eficienţa unor tehnici de
învăţare, sarcina experimentală pentru măsurarea variabilei dependente ar trebui să evalueze eficienţa
tehnicilor de învăţare (adică efectul variabilei independente). Din acest motiv variabila dependentă trebuie să
fie legată de variabila independentă.
Cel mai adesea variabilele independente sunt manipulate de experimentator, iar variabila dependentă
reprezintă răspunsul subiecţilor la această manipulare. Există, însă, şi variabile independente pe care
experimentatorul nu le poate manipula, cum ar fi nivelul sărăciei, genul, vârsta sau coeficientul de inteligenţă
ale participanţilor.

Măsurare variabilelor: măsurarea în psihologie presupune atribuirea de valori numerice variabilelor


respectând numite reguli de măsurare. Aceste valori numerice au semnificaţii diferite în funcţie de tipul
scalei de măsurare utilizat.
Există mai multe tipuri de scale de măsurare: nominale, ordinale, de interval si de raport. În scalele
nominale valorile variabilei au semnifica etichete sau categorii diferite, cum ar fi de exemplu, genul
subiecţilor, pentru care valoarea 1 semnifică gen masculin, iar valoarea 2 gen feminin. În scalele ordinale
valorile indică ierarhie, ordine, cum ar fi exemplu preferinţa exprimată pentru un anumit partid politic, sau
locul ocupat la un concurs. Valorile variabilelor sunt ranguri. În aceste scale distanţele dintre valori nu sunt
egale. În scala de interval distanţele dintre valori sunt egale, valorile indică diferenţe cantitative între subiecţi
de exemplu, înălţimea, greutatea, vârsta, coeficientul intelectual, capacitatea de concentrare a atenţie etc.
Valoarea 0 este relativă. Scalele de raport au valoarea 0 absolut, intervalele dintre valori sunt egale, la fel ca
în cazul scalei de interval, de exemplu, 0 grade Celsius. Nu este folosită în psihologie pentru ca nu există 0
absolut.

2. CREAREA BAZELOR DE DATE ÎN SPSS


SPSS (în traducere Pachet statistic pentru ştiinţele sociale) este numele unui pachet de programe
care ajută la analiza datelor obţinute în cercetările din domeniul ştiinţelor sociale.
Deschiderea programului se poate face cu ajutorul mouse-ului, cu dublu-click asupra pictogramei

programului de pe desktop. Aplicaţia mai poate fi deschisă de la butonul START/ALL PROGRAMS/


IBM SPSS STATISTICS. Oricare ar fi metoda de deschidere a programului, pe ecran va apărea următoarea
fereastră:

3
Prima bară din partea de sus a ferestrei oferă informaţii despre denumirea aplicaţiei şi numele
fişierului cu care se lucrează. Urmează bara de meniuri a programului şi cea cu butoane.
Foia cu date este organizată tabelar. Întotdeauna coloanele tabelului reprezintă variabilele studiului, în
timp ce liniile, rândurile numerotate ale tabelului reprezintă subiecţii cercetării. În partea de jos a ferestrei
sunt două opţiuni: DATA VIEW şi VARIABLE VIEW. Putem vizualiza datele brute ale subiecţilor, dacă
este activă opţiunea DATA VIEW sau putem vizualiza descrierea variabilelor introduse în baza de date, dacă
este activată opţiunea VARIABLE VIEW. De obicei, atunci când deschidem programul, este activă opţiunea
DATA VIEW, cum se poate observa şi în imaginea de mai sus. Printr-un simplu click stânga pe opţiunea
VARIABLE VIEW, pe ecran apare un alt tabel care permite definirea variabilelor din baza de date:

Din meniul FILE putem alege comanda deschidere a unei noi baze de date (opţiunea NEW DATA)
sau a unei noi foi de rezultate (NEW OUTPUT):

4
Acest program prezintă rezultatele prelucrărilor statistice într-o pagină separată, numită OUTPUT.
Comenzile care sunt colorate în gri sunt comenzi inactive pentru că baza de date nu conţine, deocamdată, nici
o informaţie.
Din acest meniu putem deschide, folosind opţiunea OPEN, o bază de date care a fost creată anterior
(DATA) sau un fişier cu rezultatele prelucrărilor statistice anteriore (OUTPUT).

Comanda SAVE permite salvarea obişnuită a fişierului cu date sau cu rezultate, comanda SAVE AS
permite salvarea unui fişier modificându-i numele. Opţiunile RECENTLY USED DATA şi RECENTLY
USED FILES deschid bazele de date şi foile cu rezultate recent create sau utilizate în programul SPSS.
Din meniul EDIT, comenzile COPY, CUT şi PASTE sunt folosite pentru copierea sau mutarea
datelor din celule, rânduri sau coloane. Copierea sau mutarea datelor presupune selectarea datelor, activarea
comenzii COPY/CUT din meniul EDIT, plasarea cursorului în noua locaţie şi apoi activarea comenzii
PASTE.

3. DESCHIDEREA UNEI BAZE DE DATE


Pentru deschiderea unei baze de date create anterior se activează meniul FILE/OPEN opţiunea
DATA. După activarea comenzii pe ecran apare o casetă de dialog care permite selectarea directorului şi
respectiv fişierului care conţine baza de date. Vom deschide fişierul opinii.sav (în aplicaţia SPSS, fişierele cu
baze de date au întotdeauna extensia sav) care se găseşte la adresa C:\MY DOCUMENTS\EXEMPLE SPSS..
În momentul încărcării bazei de date pe ecran va apărea următoarea imagine:

5
Valorile din baza de date reprezintă răspunsurile brute ale subiecţilor. Pe coloane sunt definite
variabilele. În această bază de date avem pe coloană variabile (ca de exemplu, gr_mult, prezent, viitor,
directie, guv, parlam), valorile numerice din fiecare coloană reprezentând scorurile subiecţilor la aceste
variabile. Rândurile conţin răspunsurile subiecţilor la diferiţi itemi. De exemplu, subiectul de pe rândul 9 are
valoare 3 la variabila gr_mult, valoarea 3 la variabila prezent, 4 la variabila viitor etc.
Pentru a vedea ce înseamnă fiecare dintre aceste variabile trebuie activată opţiunea VARIABLE
VIEW:

Variabilele sunt aşezate pe rânduri, coloanele reprezentând diferite caracteristici ale variabilelor. De
exemplu, variabila gr_mult este o variabilă de tip numeric, cu 20 de caractere la partea întreaga şi 0 zecimale,
reprezentând itemul „Cât de mulţumit sunteţi în general de felul în care trăiţi?”.

4. CREAREA UNEI NOI BAZE DE DATE


Pentru a crea o nouă bază de date trebuie activată opţiunea DATA VIEW. Vom crea o baza de date
care să conţină rezultatele la anxietate obţinute de un număr de subiecţi, înainte şi după intervenţia
6
terapeutică (anxietatea a fost măsurată cu ajutorul unei scale de anxietate). La studiu au participat subiecţi de
gen feminin şi masculin. Baza de date va conţine patru variabile: numărul subiecţilor (nrsub), nivelul
anxietăţii subiecţilor înaintea terapiei (ANX1) şi nivelul anxietăţii subiecţilor după terapie (ANX2) şi genul
subiecţilor (1-subiecţi de gen masculin şi 2-subiecţi de gen feminin).

Pentru introducerea datelor se plasează cursorul în celulă şi se introduce valoarea cu ajutorul tastelor.
Spre exemplificare, vom introduce prima valoare (1) a primei variabile. După introducerea primei valori
automat programul a denumit prima variabilă (var0001), iar indicativul primei linii devine activ

La fel se vor introduce şi celelalte valori ale primei variabile. Pentru a utiliza cu uşurinţă datele este
indicată definirea sau redenumirea variabilelor cu care lucrăm.
Definirea variabilelor presupune activarea câmpului VARIABLE VIEW, prin executarea unui dublu
click pe numele variabilei (în cazul nostru var0001) sau prin activarea butonului VARIABLE VIEW din
partea de jos a câmpului. Rezultatul va fi următorul:

7
Numele variabilei poate să cuprindă maxim opt caractere, fără spaţiu sau semne de punctuaţie.
Pentru a defini o variabilă, trebuie plasat cursorul în celula în care este trecut numele (NAME) generic al
variabilei (var0001), apoi se introduce numele variabilei NRSUB folosind tastatura.
Opţiunea TYPE permite specificarea tipului de date. Această opţiune poate fi activată cu ajutorul
mouse-ului cu un click stânga pe butonul gri din celula corespunzătoare variabilei.

Tipul NUMERIC permite introducerea valorilor cu sau fără zecimale. Tipurile COMMA şi DOT
permit introducerea valorilor cu orice număr de zecimale (mai mare de 16), reţinând întreaga valoare. Tipul
SCIENTIFIC NOTATION transformă logaritmic valorile introduse, DATE permite folosirea spaţiilor,
punctelor, virgulelor, a barelor de separarea pentru a delimita zilele, lunile şi anii, respectiv orele şi minutele.
Tipul DOLLAR inserează în faţa valorilor simbolul dolarului, iar CUSTOM CURRENCY permite
introducerea de valorilor pozitive dar şi a celor negative, cu sau fără separator pentru mii. Ultima opţiune
STRING permite introducerea variabilelor alfanumerice.
Este posibilă alegerea numărului de cifre pentru partea întreagă (WIDTH) şi a numărului de zecimale
(DECIMAL PLACES). Deşi sunt mai multe tipuri de variabile, în psihologie se utilizează două tipuri de
variabile, NUMERIC şi STRING (foarte rar). Automat la crearea unei noi baze de date, apare selectat tipul
NUMERIC, presupunându-se că noile variabile vor fi numerice. Opţiunea TYPE este de obicei folosită
pentru modifica acest tip de date.
Caracteristica LABELS permite definirea detaliată a variabilei (pot fi folosite până la maxim 256
caractere, inclusiv spaţiul). Definirea detaliată a variabilei apare în pagina de rezultate.
VALUE LABEL permite descrierea valorile pe care le poate lua o variabilă. Opţiunea este folosită
pentru variabile care folosesc coduri numerice pentru a reprezenta categorii (de exemplu, se pot folosi
valorile 1 şi 2 pentru a codifica genul feminin şi masculin).
MISSING VALUES permite stabilirea valorilor care nu vor fi luate în seamă la prelucrarea datelor.
COLUMN permite specificarea numărului de caractere pentru o coloană, afectând vizualizarea
datelor.
ALIGNMENT permite modificarea modului în care sunt prezentate datele pe ecran, aliniate la stânga,
dreapta sau central.
8
În exemplu nostru, vom defini numele variabilei NRSUB şi vom detalia eticheta la opţiunea LABEL
ca în imaginea de mai jos:

Vom introduce valorile şi vom defini şi următoarele variabile, ANX1, ANX2 şi Gen. Variabila Gen
este de tip categorial, în funcţie de această caracteristică subiecţii fiind împărţiţi în două categorii distincte,
femei şi bărbaţi. Din acest motiv trebuie precizată semnificaţia valorilor variabilei. Acest lucru presupune
atribuirea de valori şi etichete celor două grupuri de subiecţi. Astfel, subiecţii de sex masculin îi vom codifica
cu valoarea 1, iar pe cei de gen feminin cu valoarea 2. În acest scop vom activa opţiunea VALUE:

Se trece valoarea în câmpul VALUE şi numele grupului sau categoriei în câmpul VALUE LABEL,
după care se apasă butonul ADD. Astfel, vom scrie „1” în câmpul VALUE şi „subiecţi de gen masculin” în
câmpul VALUE LABEL şi activăm butonul ADD, apoi vom scrie „2” în câmpul VALUE şi „subiecţi de gen
feminin” în câmpul VALUE LABEL şi activăm butonul ADD.

Se activează butonul OK pentru a salva modificările şi închide caseta de dialog.

9
Această opţiune se foloseşte numai pentru variabilele categoriale, care împart subiecţii în grupuri
distincte.

Salvarea fişierelor se face fie acţionând butonul SAVE care se găseşte în bara de instrumente, fie din
meniul FILE se alege opţiunea SAVE. Reamintim că trebuie ales mai întâi directorul în care vream să salvăm
fişierul si apoi scriem numele fişierului. Vom salva fişierul cu numele Baza1.sav în subdirectorul EXEMPLE
SPSS care se găseşte în directorul MY DOCUMENTS.

II. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ


Analiza frecvenţelor
De obicei, rezultatele unui studiu psihologic sunt date sub forma unui grup de scoruri. Tabelele de
frecvenţă reprezintă primul procedeu prin care se poate analiza acest grup de scoruri. Un tabel de frecvenţă
arată câţi subiecţi obţin, au o anumită valoare la o variabilă. Un tabel de frecvenţă realizează o descriere a
grupului indicând care sunt tendinţele, în jurul căror valori au tendinţa de a se grupa subiecţii.
Spre exemplu, tabelul de frecvenţă pentru variabila “nivelul anxietăţii înainte de terapie” arată câţi
subiecţi din grup au un anumit scor la chestionarul de anxietate, după cum se poate observa în tabelul
alăturat.
Tabelele de frecvenţă se pot reprezenta grafic cu ajutorul histogramelor, caz în care se observă mai
bine tendinţele grupului de rezultate. Histograma pentru variabila anxietate înaintea terapiei, ANX1, este
prezentată mai jos:

10
ni vel ul anxi etatii i nainte de terapie
12

Frequency
Valid 102,00 1 10

103,00 2
104,00 5 8

105,00 2
106,00 6
2
108,00 1
4
109,00 2
110,00 1
2
112,00 1
115,00 1
0
121,00 1 100,0 105,0 110,0 115,0 120,0 125,0

124,00 1
nivelul anxietatii inainte de terapie

Precizăm că pe axa orizontală (OX) se trec toate valorile pe care le poate lua variabila, iar pe cea
verticală (OY) se marchează frecvenţa sau numărul de subiecţi care au obţinut un anume rezultat. Barele
verticale pentru fiecare valoare în parte a variabilei, vor avea înălţimea egală cu numărul de subiecţi care au
obţinut o anume valoare.
Tabelele de frecvenţă se pot reprezenta grafic şi cu ajutorul poligoanelor de frecvenţă. Acestea se
obţin, prin unirea mijloacelor părţilor superioare ale barelor histogramelor.
Un poligon de frecvenţă exprimă o distribuţie a rezultatelor, arată cum se distribuie sau cum se
“împrăştie” rezultatele în jurul anumitor valori ale unei variabile. De aceea, forma pe care o ia această
distribuţie este un alt mod de a descrie un grup de rezultate. Există trei parametri, trei caracteristici cu
ajutorul cărora poate fi descrisă o distribuţie:
 modalitatea - care arată câte “vârfuri” are o distribuţie, arată valorile în jurul cărora se grupează subiecţii.
Din acest punct se vedere, distribuţiile pot fi unimodale, adică au un singur vârf sau ele pot fi multimodale,
adică au mai multe vârfuri.
 înclinarea - care arată dacă scorurile subiecţilor testaţi au tendinţa de a lua valori mai mari sau mai mici.
Spre exemplu, notele şcolare au o distribuţie înclinată spre stânga, adică elevii au tendinţa de a lua mai mult
note mari decât note mici (Coada distribuţiei este alungită la stânga. Majoritatea valorilor sunt grupate spre
dreapta.) Atunci când înclinarea curbei este spre stânga, spunem că avem o distribuţie înclinată negativ.
Atunci când distribuţia este înclinată spre dreapta, spunem că aceasta este înclinată pozitiv. Dacă nu se
observă nici o tendinţă de înclinare, atunci distribuţia este simetrică.
 turtirea - se referă la faptul dacă o distribuţie este mai turtită (adică scorurile din cadrul ei variază foarte
mult) sau este mai ascuţită (adică scorurile variază foarte puţin). Vom reveni asupra acestui aspect atunci
când vom discuta despre curba normală. Turtirea unei distribuţii se raportează la curba normală.

11
Analiza de frecvenţă cu ajutorul programului Spss
Opţiunea FREQUENCIES permite realizarea tabelului de frecvenţă şi a distribuţiei de frecvenţă a
rezultatelor. Aceasta se găseşte la meniul ANALYZE – DESCRIPTIVE STATIASTICS:

După activarea opţiunii pe ecran apare următoarea casetă de dialog:

În câmpul din stânga al casetei FREQUENCIES sunt afişate toate variabilele din baza de date, în
ordinea introducerii lor în baza de date, împreună cu denumirea extinsă a variabilei. Câmpul din dreapta
reprezintă câmpul de analiză. Astfel, analiza statistică se realizează doar pentru variabilele trecute în acest
câmp. Trecerea variabilelor în câmpul de analiză se realizează cu ajutorul butonului cu săgeată care se
găseşte între câmpuri. Se selectează din câmpul din stânga variabila pe care vrem să analizăm apoi se
activează butonul de trecere. Acest mod de organizare în două câmpuri apare la aproape toate opţiunile de
prelucrare a datelor.
Bifarea opţiunii DISPLAY FREQUECY TABLES are ca efect afişarea în foaia de rezultate a tabelul
de frecvenţă. Opţiunea STATISTICS deschide o fereastră cu opţiuni de prelucrare statistică, butonul

12
CHARTS permite afişarea histogramei de frecvenţă. Opţiunea FORMAT permite modificarea formei de
prezentare a datelor în foia cu rezultate (OUTPUT).
Pentru exemplul nostru, dorim realizarea tabelului de frecvenţă şi histogramei pentru variabila
„nivelul anxietăţii înainte de terapie” (ANX1). Se selectează variabila ANX1 din câmpul din stânga şi se
activează butonul de trecere:

Pentru ca în foaia de rezultate să apară tabelul de frecvenţă se selectează opţiunea DISPLAY


FREQUECY TABLES. Pentru afişarea histogramei de frecvenţă se activează butonul CHARTS:

Opţiunea CHART TYPE permite alegerea unui tip de grafic (cu bare, plăcintă sau histogramă).
CHART VALUES permite alegerea tipului de valori afişate în grafic (Frecvenţe sau Procentaje).
Pentru exemplul nostru se selectează opţiunea HISTOGRAMS, se bifează afişarea curbei normale
(WITH NORMAL CURVE), apoi se activează butonul CONTINUE.
Opţiunea FORMAT permite modificarea formei OUTPUT-ului. Activarea acestui buton are ca efect
apariţia următoarei casete de dialog:

13
Câmpul din stânga al ferestrei conţine opţiuni de aranjare a rezultatelor (în ordine descrescătoare sau
crescătoare a valorilor sau cantităţilor), iar cel din dreapta conţine opţiuni de prezentare comparativă a
rezultatelor şi de organizare separată a foii de rezultate, pentru fiecare variabilă. Pentru exemplu nostru, vom
păstra opţiunile selectate automat.
După selectarea opţiunilor de realizare a tabelului de frecvenţă şi histogramei, se activează butonul
OK al casetei FREQUENCIES. Pe ecran apare o fereastra cu rezultate, numită OUTPUT:

Fereastra OUPUT este organizată în două câmpuri, cel din stânga, afişează structura sau cuprinsul
OUPUT-ului, iar cel din dreapta arată conţinutul foii cu rezultate. Rezultatele sunt organizate în două tabele.
În primul tabel se precizează numărul de subiecţi şi numărul de răspunsuri. Pentru exemplul nostru, avem 20
de subiecţi care au răspuns la chestionar (nu lipseşte nici o valoare).
Al doilea tabel este organizat în cinci coloane. Coloana VALID prezintă valorile variabilei, prezentate
în ordine crescătoare (fără a ţine seama de cazurile lipsă). Coloana FREQUENCY prezintă frecvenţa, adică
numărul de subiecţi care obţin o anumită valoare.
Coloana PERCENT transformă frecvenţa obţinută pentru fiecare valoare în procentaj ţinând cont de
numărul total de subiecţi luaţi în calcul, indiferent dacă aceştia au sau nu scoruri la această variabilă. Spre
exemplu, doi subiecţi au obţinut scorul 103, ceea ce reprezintă 10% din totalul numărului de răspunsuri
obţinute. VALID PERCENT prezintă procentajul luând în calcul doar subiecţii care au răspuns la această
variabilă. În cazul nostru coloanele PERCENT şi VALID PERCENT sunt identice deoarece toţi subiecţii au
scoruri la această variabilă. Dacă unii subiecţi nu ar fi răspuns la chestionarul de anxietate, atunci cele două
coloane ar fi conţinut valori diferite.
Coloana CUMULATIVE PERCENT prezintă procentajul cumulat, de la cel mai mic scor la până la
cel mai mare. De exemplu, 60% dintre subiecţi au note mai mici sau egale cu 106.

14
Derulând pagina cu rezultate sau selectând HISTOGRAM în câmpul din stânga, putem vizualiza
reprezentarea grafică a frecvenţei scorurilor:

Histograma de frecvenţă se mai poate obţine folosind meniul GRAPHS – HISTOGRAM. Activarea
opţiunii duce la apariţia următoarei casete de dialog:

Elementele principale ale ferestrei sunt:


1. câmpul în care sunt prezentate toate variabilele din baza de date
2. câmpul în care se introduce variabila pentru care dorim să realizăm histograma de frecvenţă
3. selectarea acestei opţiuni va duce la afişarea curbei normală de distribuţie a rezultatelor.
Pentru exemplificare introducem variabila ANX1, cu ajutorul butonului cu săgeată, în câmpul
VARIABLE şi bifăm opţiunea DISPLAY NORMAL CURVE. Se obţine aceeaşi reprezentare grafică ca şi
în cazul folosirii butonului CHART al ferestrei FREQUENCIES.

Vizualizarea ferestrei OUTPUT sau DATE (baza1.sav) se poate face folosind meniul WINDOW,
marcând opţiunea dorită (baza de date sau foaia de rezultate):

15
CURS 2
METODE DESCRIPTIVE PENTRU IDENTIFICAREA TENDINŢEI CENTRALE
Acestea ne permit să descriem mult mai pe scurt ceea ce se întâmplă în distribuţia noastră. Astfel, de
metode sunt cele care arată tendinţa centrală într-o mulţime de scoruri, folosind care indicatori media,
mediana şi modul (modulul).
Media aritmetică descrie tendinţa centrală într-un grup de rezultate sau arată valoarea tipică,
reprezentativă pentru acele scoruri. Formula matematică a mediei aritmetice este:

M=
x
N
Ce arată sau care este mai precis semnificaţia mediei?
Să luăm un exemplu. Avem un grup de scoruri care arată preferinţa studenţilor faţă de statistică, pe o
scală de la 1 (nu-mi place deloc) până la 6 (îmi place foarte mult): 4, 6, 2, 2, 1, 2, 3, 2, 4, 4. Valoarea mediei
este 3 (M=3). Care este semnificaţia acestui “3”? Ce arată el dincolo de suma scorurilor împărţită la numărul
total de scoruri?
Ilustrăm grafic rezultatele subiecţilor:
5

1
Frequency

Std. Dev = 1,49


Mean = 3,0

0 N = 10,00
1,0 2,0 3,0 4,0 5,0 6,0

Imaginaţi-vă că pe o scândură, aşezăm nişte cuburi, egale ca dimensiune unul cu altul, la diferite
distanţe, ca în imaginea alăturată.
Unde anume trebuie să aşezăm un buştean astfel încât scândura şi cuburile de pe ea să rămână în
echilibru? Răspunsul este în dreptul mediei. Pornind de la această constatare ajungem şi la semnificaţia
acestei măsurători statistice: media este punctul faţă de care scorurile sunt egal depărtate, cu alte cuvinte,
abaterile de la medie într-o direcţie (ale scorurilor mai mici ca ea) sunt egale cu abaterile în cealaltă
direcţie (scorurile mai mari).

16
Mediana împarte distribuţia în două părţi, dar de data aceasta din punctul de vedere al frecvenţelor.
Astfel, jumătate dintre scorurile dintr-o distribuţie vor avea valori mai mici decât mediana, iar restul – valori
mai mari.
Pentru a calcula mediana sunt necesare două etape:
1) ordonăm scorurile crescător sau descrescător
2) împărţim numărul de scoruri (N) la 2. Dacă N este par, atunci “mijlocul” distribuţiei “cade” între
scorurile situate la mijloc; dacă N este impar, atunci mediana este chiar scorul situat la mijloc.
Ordonarea scorurilor pornind de la distribuţia anterioară este următoarea: 1, 2, 2, 2, 2, 3, 4, 4, 4, 6.
Fiind 10 scoruri (jumătatea lui 10 fiind 5), mediana se va găsi între scorurile din mijloc, deci între scorurile al
5-lea şi al 6-lea. Săgeata de mai jos arată poziţia medianei, care este astfel 2,5 (media dintre aceste scoruri
din mijloc).

1, 2, 2, 2, 2, 3, 4, 4, 4, 6
Uneori, obişnuim să descriem o distribuţie prin modul. Aceasta este valoarea cu frecvenţa cea mai
mare. În exemplul de mai sus, valoarea 2 este întâlnită cel mai frecvent (apare de 4 ori), deci modulul
distribuţiei noastre va fi 2.
Când folosim totuşi una din aceste metode pentru a descrie tendinţa centrală a unei distribuţii? Care
dintre ele este mai “bună” şi în ce condiţii?
Dacă, la exemplul de mai sus, mai adăugăm încă un scor (să zicem un 5), obţinem următoarele valori
ale parametrilor: Media=3,18; Mediana=3; Modulul=2. Dacă adăugăm 2 scoruri, un 2 şi un 5, spre exemplu,
vom avea următoarele schimbări: Media=3,08; Mediana=2,5; Modulul=2.
Constatăm că modulul este indicatorul care este cel mai puţin afectat de schimbările din structura
distribuţiei (număr de scoruri sau mărimea acestora). Mediana este şi ea destul de stabilă, însă media este cea
mai “sensibilă” dintre toate aceste mărimi. Concluzia este aceea că media este cea mai descriptivă
(întrucât arată orice modificare survenită în distribuţie), dar este recomandat să se folosească mai
mult în distribuţiile simetrice şi unimodale, în timp ce mediana şi modulul, mai stabile sunt
recomandabile în descrierea distribuţiilor asimetrice şi multimodale.
De exemplu: Pe o plantaţie de cafea lucrează 99 oameni care câştigă 100 dolari lunar (deci într-o lună
ei câştigă 9.900 dolari). Patronul plantaţiei are un venit lunar de 2.100 dolari. În total, cele 100 persoane
(patronul şi angajaţii) de pe plantaţie câştigă 12.000 dolari lunar, deci în medie 120 dolari/lună/persoană. Cu
toate acestea, dacă ne deplasăm pe plantaţie, în 99% de cazuri vom întâlni persoane care câştigă sub valoarea
medie, abia în 1% din cazuri găsind pe cineva cu venituri peste medie (patronul). Dacă însă calculăm
mediana (ordonând cei 99 de 100 şi valoarea de 2100 – venitul patronului) vom vedea că valoarea ei este

17
exact 100 (mijlocul distribuţiei va “cădea” exact între două scoruri de 100), la fel şi modulul. Deci aceste
două din urmă măsurători sunt mult mai aproape de realitate în cazul unei distribuţii anormale, asimetrice.

METODE DESCRIPTIVE PENTRU IDENTIFICAREA VARIABILITĂŢII SCORURILOR


Cunoaşterea mediei (sau a medianei) nu este suficientă pentru a descrie complet o distribuţie. Să
presupunem că ştim despre un grup de persoane că are media de vârstă de 20 ani. Ce înseamnă acest lucru?
Au toţi membrii grupului exact 20 de ani fiecare? Sau poate jumătate dintre ei au 10 ani şi jumătate 30? Ori
poate un sfert au 18, un sfert – 19, un sfert 21 şi restul 22? Cunoaşterea doar a mediei nu este suficientă
pentru a ne oferi informaţii complete despre “realitatea” din grup. Trebuie să cunoaştem gradul de
variabilitate a scorurilor noastre. Mai precis, trebuie să ştim cât de mult (şi eventual cu cât) se împrăştie
scorurile în jurul valorii medii.
Să ne gândim la pungile de cafea (sau orice alt produs alimentar livrat într-un ambalaj). Pe fiecare
pungă este indicat gramajul sub forma greutăţii nete, cum ar fi 100 g ± 5 g. Ce înseamnă această indicaţie?
Faptul că pungile de cafea nu au toate greutate egală, că majoritatea pungilor au greutatea conţinutului
cuprinsă între 95 şi 105 grame. Suntem sau nu mai bine informaţi?
Varianţa
Varianţa unei distribuţii arată cât de “împrăştiate” sunt scorurile în jurul valorii centrale, care este
SS
gradul de variabilitate în grupul nostru de rezultate. SD2 = =(X-M)2/N
N
Varianţa este o măsură a gradului de variabilitate a scorurilor şi arată cât de mult se abat acestea de la
tendinţa centrală. Cu cât este mai mare această valoare, cu atât mai mult se împrăştie scorurile în jurul valorii
centrale.
Pentru a cunoaşte exact cu cât variază scorurile în medie este nevoie să calculăm deviaţia (abaterea)
standard. Deviaţia standard ne arată cu cât se împrăştie scorurile în jurul valorii centrale şi se măsoară în
aceleaşi unităţi de măsură ca şi variabile iniţială. Abaterea standard este rădăcina pătrată a varianţei, deci SD

= SD 2
Varianţa unei distribuţii arată cât de “împrăştiate” sunt scorurile în jurul valorii centrale, care este
gradul de variabilitate în grupul nostru de rezultate. Să ne reamintim etapele calculării varianţei. Vom utiliza
ca exemplu numărul de persoane care lucrează în cele zece departamente ale unei societăţi comerciale.
Scorurile prezentate mai jos arată câte persoane lucrează în fiecare departament în parte: 2, 8, 12, 10, 20, 3,
7, 14, 6, 18
Pentru a calcula varianţa trebuie parcurse următoarele etape:
1. calcularea mediei: Se obţine împărţind suma scorurilor la numărul lor (pentru exemplul nostru
m=10).

18
2. calculul abaterilor simple de la medie. Pentru aceasta se foloseşte un tabel în care în prima
coloană se trec scorurile subiecţilor, iar în a doua coloană se calculează abaterile simple ale scorurilor de la
medie. După cum observaţi, în tabelul de mai jos, unele abateri sunt pozitive, iar altele negative, astfel că
adunate, ele se anulează una pe alta. Soluţia aleasă de matematicieni a fost de a ridica la pătrat aceste abateri
simple de la medie.
3. calculul pătratului abaterilor de la medie. Continuând tabelul mai adăugăm încă o coloană
unde vom calcula pătratul abaterilor de la medie.
X x-m (x-m)2
2 -8 64
3 -7 49
6 -4 16
7 -3 9
8 -2 4
10 0 0
12 +2 4
14 +4 16
18 +8 64
20 +10 100

Adunând valorile din coloana 3 obţinem o valoare pozitivă (notată cu SS, engleză sum of squares –
suma pătratelor abaterilor de la medie). În cazul nostru, SS = 326.
Deoarece valoarea lui SS depinde de numărul de scoruri, o vom împărţi la numărul de scoruri pe care le
avem.
4. divizarea la numărul de scoruri sau cazuri pentru ca SS să nu depindă de N. Valoarea
obţinută prin împărţirea lui SS la N este tocmai varianţa, notată SD2 sau S2. Deci,
SS
SD2 =
N
În exemplul nostru SD2 = 32,6.
Varianţa este o măsură a gradului de variabilitate a scorurilor şi arată cât de mult se abat acestea de la
tendinţa centrală. Cu cât este mai mare această valoare, cu atât mai mult se împrăştie scorurile în jurul valorii
centrale.
Pentru a cunoaşte exact cu cât variază scorurile în medie este nevoie să calculăm deviaţia standard.
Semnificaţia deviaţiei standard
În mod obişnuit, în intervalul cuprins între medie şi o abatere standard la stânga şi dreapta mediei găsim
aproximativ 2/3 din totalul scorurilor. În acest interval se găsesc scorurile considerate tipice sau normale
pentru o distribuţie. Ilustrăm grafic acest lucru:

m-SD m m+S
D
scoruri medii, tipice, normale
19
normale
Cunoscând media şi deviaţia standard putem descrie mult mai bine distribuţia scorurilor din exemplul
nostru. Astfel, numărul persoanelor care lucrează în departamentele firmei este de 10 ± 5,7. Cu alte cuvinte
ştim că limita minimă a variaţiei normale a scorurilor este 4,3 (obţinută din 10-5,7), iar limita maximă este
15,7 (obţinută din 10+5,7). Putem afirma că la firma respectivă lucrează între 5 şi 16 persoane în fiecare
departament.

3. Forma distribuţiei
Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită.
Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor la un test de
inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. Să analizăm puţin această
distribuţie, care e prezentată în imaginea următoare:

34% 34%

14% 14%
2% 2%

Scoruri brute 68 84 100 116 132


Scoruri z -2 -1 0 +1 +2

Întrucât distribuţia normală este simetrică, exact 50% din cazuri vor avea scoruri sub valoarea medie;
mai mult, aproximativ 34% din cazuri se vor afla între medie şi o abatere standard la stânga sau la dreapta.
De altfel, dacă urmăriţi cu atenţie forma curbei normale veţi constata prezenţa unor „puncte de inflexiune”,
adică puncte în care linia curbă îşi modifică forma. Aceste puncte corespund tocmai deviaţiilor standard.
Vom şti că 34% de subiecţi din total au scorul cuprins între medie (100) şi o deviaţie standard deasupra sau
dedesubtul acestei valori. Având o deviaţie standard de 16, vom şti că 34% dintre indivizi vor avea scorul
cuprins între 100 şi 116 (cei cu IQ situat deasupra mediei) sau între 84 şi 100 (cei cu IQ situat dedesubtul
mediei). Observaţi, de asemenea, că şi mai puţine cazuri sunt mai depărtate de medie. Abia 16% din
populaţie vor avea scoruri mai mici sau mai mari de o deviaţie standard. Cu alte cuvinte, numai 16% dintre
oameni au coeficientul de inteligenţă mai scăzut de 84 sau mai ridicat de 116. Mai mult, doar aproximativ

20
2% dintre indivizi vor avea scoruri şi mai extreme, mai mici sau mai mari decât două deviaţii standard faţă de
medie (adică sub 68 sau peste 132).

Interpretare Kurtosis
 Valori pozitive indica distribuţii leptocurtice
 Valori negative distribuţii platicurtice

Interpretare Skewness
Coeficientul Skewness este uşor de calculat şi reprezintă de obicei (media – mediana )/abaterea standard.
Acest raport nu este însă întotdeauna valabil. O distribuţie cu o înclinare negativă poate avea o medie mai
mare, mai mică sau egală cu mediana, la fel putându-se întâmpla şi în cazul unui Skewness pozitiv. Din acest
motiv vom folosi pentru interpretarea formei distribuţiei valorile coeficienţilor care apar în Ouput-ul
aplicației Spss.
 Sk > 0, Distributia este inclinata spre dreapta.
 Sk < 0, Distributia este inclinata spre stanga

SCORURILE Z ŞI FUNCŢIILE LOR


Să luăm cazul unui psihoterapeut specializat în tratarea depresiei. El îi povesteşte unui coleg că ultimul său
pacient s-a vindecat în 5 şedinţe de terapie. “Avea depresie gravă sau uşoară?” întreabă colegul. Psihologul
încearcă să răspundă, dar îşi dă seama că ar avea nevoie de statistică. Scoate un carneţel în care avea notaţi

21
ultimii săi pacienţi şi constată că ei s-au vindecat în medie în 8 şedinţe. E suficientă media pentru a stabili că
pacientul care s-a vindecat în 5 şedinţe avea o depresie uşoară?
Din moment ce deviaţia standard şi media ne spun care sunt scorurile tipice sau medii, putem să
stabilim dacă un nou scor se abate de la distribuţia noastră într-un anumit sens (este mai mic decât limita
minimă de variaţie, m-SD sau mai mare decât limita maximă, m+SD). Scorurile ultimilor 10 pacienţi sunt: 4,
12, 8, 8, 8, 9, 9, 6, 12, 4. Calculele arată că media este 8, iar deviaţia standard este 2,64. Vedem că scorurile
tipice sunt cuprinse în intervalul 5,32 şi 10,64.
Rotunjind valorile înseamnă că în mod obişnuit, pacienţii au nevoie de 6-10 şedinţe pentru a se trata.
Între aceste limite se găsesc scorurile considerate tipice, iar valorile care sunt în afara acestuia vor fi
considerate atipice. Astfel, cei care se tratează de depresie în mai puţin de 6 şedinţe sunt pacienţii cu depresie
uşoară, iar cei care se vindecă în mai mult de 10 şedinţe sunt pacienţi cu depresie gravă. Acum putem afirma
faptul că pacientul care s-a vindecat în 5 şedinţe a avut o depresie uşoară.
Pentru a nu face apel mereu la schema desenată anterior ori de câte ori dorim să comparăm un scor cu
o distribuţie (să spunem dacă el este mic, mediu sau mare), statisticienii au inventat notele Z. Formula pentru
xm
nota Z este: Z =
SD
Nota Z, numită şi scor standard, arată deviaţia unui scor (x) de la medie (m), iar această abatere este
exprimată în deviaţii standard. Mai precis, nota standard arată cu câte deviaţii standard se abate un scor
de la medie.

5,32
2,64 8
2,64 10,64 şedinţe
m-SD m m+S x
D
scoruri” scoruri medii, tipice, scoruri”
mici” -1 normale 0 +1 mari”
Z

Mediei îi corespunde mereu (oricare ar fi ea, orice am măsura) scorul standard Z = 0, limitei minime
de variaţie tipică îi corespunde scorul standard Z = -1, iar limitei maxime de variaţie normală îi corespunde
nota standard Z = +1.
Putem spune că distribuţia în note Z este o distribuţie ideală în care media are întotdeauna valoarea
0, iar abaterea standard valoarea 1.
Aceasta distribuţie ne permite să stabilim ce fel de scor este x în raport cu media (care este 0) şi
abaterea standard (care are valoarea 1), luând în considerare următoarele reguli:
 un scor x va fi considerat “mic” dacă scorul său Z va fi mai mic decât –1;
 un scor x va fi considerat “mediu” dacă scorul său Z va fi cuprins în intervalul [–1, +1];
22
 un scor x va fi considerat “mare” dacă scorul său Z va fi mai mare decât +1;

Funcţii note Z
1. de a compara un scor cu o distribuţie la care cunoaştem parametrii (media şi deviaţia standard),
adică ne ajută să precizăm dacă un scor este mic, mediu sau mare.
2. arată şi de câte ori acel scor este mai mare sau mai mic decât media (ţinând cont de variabilitate).
3. O altă funcţie a notelor z este aceea că permit compararea scorurilor obţinute de aceeaşi persoană
la probe diferite.
Să luăm un exemplu. Un psiholog trebuie să decidă dacă un copil ar trebui transferat la o altă
grădiniţă, cu program special. Psihologul nu poate da o recomandare fără investigarea prealabilă a copilului.
Astfel, el îi aplică o probă de inteligenţă (testul WISC – Wechsler Intelligence Scale for Children) şi o probă
de interacţiuni sociale (de câte ori copilul ia iniţiativa în timp de o oră în timp ce se joacă cu alţi copii). Să
presupunem că la testul WISC, copii de aceeaşi vârstă cu a subiectului investigat obţin media m1=60, cu o
deviaţie standard de SD1=14. Copilul investigat de psiholog obţine la această probă scorul x1=81. Dacă
transformăm acest scor în notă standard, obţinem nota Z1=1,5. Putem afirma că subiectul nostru, comparativ
cu ceilalţi copii, este de 1,5 ori mai inteligent. La proba de interacţiuni sociale distribuţia scorurilor în
populaţia de copii preşcolari are următorii parametri: m2 = 16 şi SD2 = 4. La această probă copilul investigat
obţinem scorul x2 = 8. Exprimând acest scor brut în scor standard obţinem valoarea Z2=-2. Deci, din punct
de vedere al interacţiunilor sociale, copilul nostru este de două ori mai timid, mai puţin sociabil.

23
CURS 3
CORELAȚIA PEARSON

Deducerea formulei de calcul a corelaţiei Pearson


Una din funcţiile scorurilor Z este de a permite compararea scorurilor obţinute de aceeaşi persoană la
probe diferite. Să vedem cum putem să ne folosim de această funcţie pentru a studia relaţia dintre două
variabile.
Exemplu: Un psiholog de la o firmă este interesat să stabilească dacă între numărul de subordonaţi şi
gradul de stres al managerilor există o legătură. Pentru aceasta alege 6 manageri de la diferite departamente
ale firmei, aplică chestionarul Rosenberg (care măsoară stresul) şi cuantifică numărul de subordonaţi pe care
îi are fiecare dintre managerii aleşi. Se presupune că există o legătură între nivelul stresului managerilor şi
numărul de angajaţi din subordine, cu cât numărul de angajaţi este mai mare cu atât managerii sunt mai
stresaţi. Rezultatele obţinute sunt prezentate în tabelul de mai jos, unde x1 este scorul la chestionarul de stres
şi x2 este numărul de angajaţi.
X1 X2 X1-m1 X2-m2 (x1-m1)2 (x2-m2)2 Z1 Z2
9 18 0 -3 0 9 0 -0,31
11 29 +2 +8 4 64 +0,50 +0,83
6 11 -3 -10 9 100 -0,75 -1,04
14 35 +5 +14 25 196 +1,25 +1,45
12 25 +3 +4 9 16 +0,75 +0,41
2 8 -7 -13 49 169 -1,75 -1,35

Observaţi că valorile celor două variabile sunt diferite ca mărime (prima coloană nu depăşeşte
valoarea 20, iar a doua are aproape toate scorurile mai mari de 25) şi măsoară aspecte diferite. Pentru a le
putea asocia trebuie să transformăm scorurile brute (x1 şi x2) în note Z (Z1şi Z2). Fiecare notă Z ar arăta
poziţia scorului în cadrul distribuţiei din care face parte şi s-ar putea compara poziţiile scorurilor (adică să
vedem, dacă scorurile “mici” de la o variabilă sunt asociate scorurilor “mici” la cealaltă variabilă, iar
scorurile “mari” sunt asociate celor “mari”).
Mediile pentru cele două variabile sunt m1=9, iar m2=21. Procedeul de calcul este prezentat în
tabelul de mai jos. Pătratele abaterilor scorurilor de al medie sunt SS1= 96 şi SS2=554, iar abaterile standard
SD1=4 şi SD2=9,60.

24
În ultimele două coloane sunt valorile Z pentru scorurile variabilelor X1 şi X2. Conform semnificaţiei
scorurilor Z putem să “reformulăm ultimele două coloane astfel:
Z1 Z2 Semnificaţia Semnificaţia lui
lui Z1 Z2
0 -0,31 Scor mediu Scor mediu
+0,50 +0,83 Scor mediu Scor mediu
-0,75 -1,04 Scor mediu Scor mic
+1,25 +1,45 Scor mare Scor mare
+0,75 +0,41 Scor mediu Scor mediu
-1,75 -1,35 Scor mic Scor mic

Observăm astfel că pare să existe o relaţie între cele două variabile: întâlnim cam aceleaşi tipuri de
scoruri la ambele variabile (scorurile mici la prima variabilă sunt asociate cu scoruri mici la a doua variabilă,
cele medii cu medii, iar cele mari cu mari). Singurul caz în care nu avem această “potrivire” este la
managerul al treilea. Pe ansamblu însă putem spune că există o relaţie.
Cum putem face să ilustrăm mai uşor relaţia care există între cele două variabile, să avem doar un
singur număr care să ne arate această relaţie? Înmulţim scorurile Z şi apoi adunăm produsele. Dacă scorurile
au acelaşi semn (sunt fie ambele pozitive, fie ambele negative) rezultatul produsul va fi pozitiv. Suma acestor
produse va fi pozitivă. Dacă scorurile însă au semne diferite (unul negativ şi altul pozitiv) produsul lor va fi
negativ, suma produselor va avea semnul negativ.
În tabelul de mai jos prezentăm produsele obţinute pentru exemplu nostru:

Z1 Z2 Z1*Z2
0 -0,31 0
+0,50 +0,83 0,41
-0,75 -1,04 0,78
+1,25 +1,45 1,81
+0,75 +0,41 0,30
-1,75 -1,35 2,36
 (Z1 * Z 2) = 5,66
Suma produselor nu exprimă corect relaţia dintre variabile pentru că depinde de numărul de perechi
de cazuri pe care le-am luat în calcul. Valoarea ar creşte dacă am fi aplicat măsurătorile folosind 10 manageri
în loc de 6. Pentru a elimina efectul numărului de cazuri suma produselor se împarte la numărul de perechi de
scoruri (N). Astfel, obţinem formula corelaţiei Pearson:

r=
 (Z1 * Z 2) În cazul nostru, r=0,94.
N
25
Corelaţia este o metodă statistică descriptivă, întrucât ea descrie ce se petrece într-un grup de
rezultate, dar nu arată o relaţie cauzală!

Prag de semnificaţie (p)


În statistică, avem nevoie să generalizăm concluziile studiilor, chiar şi a celor descriptive. În analiza
rezultatelor corelaţiei ne interesează să vedem dacă relaţia găsită de noi (la un grup de oameni) poate fi
extinsă la întreaga populaţie. Mai precis, ne interesează să ştim măsura în care rezultatele noastre se
datorează întâmplării. Pragul de semnificaţie, p, ne arată în ce măsură ne înşelăm atunci când afirmăm ceva
(în cazul corelaţiei: că există o legătură între două sau mai multe variabile).
În cercetarea ştiinţifică se lucrează de obicei cu două praguri de semnificaţie, corespunzătoare
procentajului de eroare: pragul de 0,01 (1% eroare) şi pragul de 0,05 (5% eroare).
Când folosim unul sau altul? Să presupunem că un împărat despotic şi a angajat un prezicător oficial.
Împăratul se foloseşte de “puterile” acestuia pentru a-şi impresiona supuşii. În general, când se fac predicţii
par să apară patru situaţii, care sunt prezentate în tabelul de mai jos:

Evenimentul
Apare Nu apare
Predicţia Apare Corect Eroarea I
Evenimentului Nu apare Eroarea II Corect

Observaţi că sunt două situaţii în care se poate greşi:


I. când afirmăm că un eveniment se va produce şi în realitate el nu se va produce
II. când afirmăm că un eveniment nu se va produce şi el se produce.
Când va fi împăratul mai supărat? Dacă sunteţi atenţi, situaţia I corespunde cu minciuna, iar situaţia II
cu ignoranţa. În situaţia I împăratul va fi mai supărat decât în situaţia II. De altfel,
Şi în ştiinţă există aceste două situaţii în care putem greşi. Dacă vrem să evităm primul tip de greşeală
care are consecinţe mai grave (de a demonstra ceva ce nu există în realitate), alegem pragul de semnificaţie
de 0,01 (prag de eroare de 1%). Dacă dorim însă să avem mai multe şanse în a demonstra ceva iar
consecinţele nu sunt grave în caz de greşeală, atunci preferăm pragul de eroare de 5% (deci un p=0,05).
În concluzie, vom considera un test statistic ca fiind semnificativ dacă pragul de semnificaţie este
mai mic sau egal cu valoarea 0,05.
În psihologie se lucrează cu două tipuri de ipoteze:
Ipoteze non-direcţionale, în care nu se precizează tipul de relaţie dintre variabile. În testarea acestor ipoteze
probabilitatea de eroare de 1% sau 5% se împarte la cele extremităţi (cozi) ale distribuţiei scorurilor. Testul

26
de semnificaţie pentru verificarea acestui tip de ipoteză este TWO-TAILED. În cazul nostru ipoteza ar putea
fi formulată non-direcţional astfel: există o legătură între salariul iniţial şi final al subiecţilor.
Ipotezele direcţionale sunt cele în care se precizează tipul de modificare, experimentatorul se aşteaptă la un
anume rezultat. Probabilitatea de eroare nu se mai împarte la cele două extremităţi ale distribuţiei ci se va
stabili la una din ele. Testul de semnificaţie pentru verificarea acestui tip de ipoteză este ONE-TAILED.
Ipoteza din exemplul nostru ar putea fi formulată direcţional, astfel: legătura dintre salariul iniţial şi final este
pozitivă, cu cât salariul iniţial este mai mare cu atât şi salariul final va fi mai mare.
Calculul notelor Z folosind SPSS
Comanda DESCRIPTIVES care se găseşte în meniul ANALYZE – DESCRIPTIVE STATISTICS,
permite calculul notelor Z cu ajutorul Spss. Vom folosi baza de date creată anterior („Baza1.sav”).

Activarea comenzii duce la apariţia pe ecran a casetei de dialog următoare:

1 4

Prezentăm principalele elemente ale ferestrei DESCRIPTIVES:


1. câmpul în care sunt prezentate variabilele din baza de date

27
2. câmpul în care se introduc variabilele care vor fi analizate
3. opţiunea SAVE STANDARDIZED VALUES AS VARIABLES permite salvarea în baza de date a
scorurilor standard sub forma unei noi variabile.
4. cuprinde opţiuni de calcul ai parametrilor distribuţiei.
Pentru exemplificare, vom calcula notele Z pentru variabila ANX1. Se bifează opţiunea SAVE
STANDARDIZED VALUES AS VARIABLES. Se activează butonul OPTIONS, care deschide următoarea
fereastră:

Automat sunt selectate de computer opţiunile de calcul al mediei, abaterii standard şi al valorii
minime şi maxime. Vom activa butonul CONTINUE şi apoi butonul OK al ferestrei pentru a putea face
analiza statistică. Rezultatele obţinute în urma comenzii DESCRIPTIVES sunt mai sumare şi prezentate într-
un singur tabel.

Calcularea corelaţiei Pearson cu ajutorul SPSS


Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază de date
“Baza2.sav”, care va cuprinde 3 variabile: STUDII (nivelul de studii al subiecţilor) cu trei valori 1 (studii
generale), 2 (studii medii) şi 3 (studii superioare), Sal_in (salariul iniţial al subiecţilor) şi sal_fin (salariul
final al subiecţilor). aceste variabile au următoarele valori:
 studii:1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
 sal_in: 189, 198, 197, 168, 201, 185, 156, 175, 201, 220, 210, 214, 205, 301, 332, 341, 221, 206, 298,
301, 654, 214, 258, 245
 sal_fin: 201, 220, 205, 203, 185, 168, 178, 260, 280, 274, 298, 305, 582, 542, 392, 445, 401, 502,
403, 954, 425, 725, 625, 199
Pentru calculul corelaţiei se activează opţiunea BIVARIATE din meniul ANALIZE- CORRELATE :

28
Activarea comenzii va deschide următoarea fereastră:

2
1 6

Elementele principale ale ferestrei sunt:


1. câmpul care prezintă lista variabilelor din baza de date;
2. câmpul de analiză, unde se introduc variabilele ce vor fi analizate; se pot introduce mai multe
variabile, calculatorul afişând corelaţiile între variabilele luate două câte două;
3. în câmpul CORRELATION COEFFICIENTS se alege tipul de corelaţie: coeficientul Pearson se
foloseşte pentru date parametrice (variabile cantitative şi continui), coeficienţii KENDALL şi SPEARMAN
se folosesc pentru date categoriale şi ordinale.
4. câmpul TEST OF SEGNIFICANCE permite selectarea modului de testate a ipotezei (TWO-
TAILED sau ONE-TAILED); de obicei se foloseşte pragul TWO-TAILED în testarea ipotezelor de cercetare
cu ajutorul SPSS.
5. opţiunea FLAG SIGNIFICANCE CORRELATIONS are ca efect apariţia unui asterisc (*) în
dreptul corelaţiilor semnificative;

29
6. butonul OPTIONS este urmat de apariţia unei casete de dialog.

Aceasta permite realizarea unei analize descriptive a datelor (STATISTICS) şi precizarea modalităţii
de tratament a datelor lipsă MISSING VALUES, prin excluderea din analiză a perechilor de rezultate în care
avem doar una dintre valori (EXCLUDE CASES PAIRWISE) sau de a exclude din analiză un rând întreg
dacă doar una dintre valori lipseşte (EXCLUDE CASES LISTWISE). Se recomandă utilizarea primei
variante selectată implicit.
Pentru baza de date creată vom analiza legătura dintre variabilele salariu iniţial şi final al subiecţilor.
Vom introduce variabilele SAL_INI şi SAL_FIN în câmpul din dreapta.

Coeficientul de corelaţie Pearson este selectat implicit de către calculator, la fel ca şi celelalte opţiuni
test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG
SIGNIFICANCE CORRELATIONS. După activarea butonului OK, în foaia OUTPUT sunt afişate
următoarele rezultate:

30
4
1
5

Se observă că cele două variabile apar pe coloane da şi pe linii.


Pe rândul 1 - PEARSON CORRELATION se găsesc valorile coeficienţilor de corelaţie dintre două
variabile
Pe rândul 2 - SIG. (2-TAILED) apare probabilitatea de eroare la respingerea ipotezei de nul şi
acceptare a ipotezei de cercetare
Rândul 3 - N conţine numărul de subiecţi care au scoruri la ambele variabile
În tabel apare legătura dintre fiecare variabilă şi ea însăşi (ANX1 şi ANX1 şi respectiv între ANX2 şi
ANX2) dar şi legătura dintre cele două variabile (între ANX1 şi ANX2 dar şi între ANX2 şi ANX1).
Prima celulă din stânga (notată cu 4) prezintă coeficientul de corelaţie între variabila salariul iniţial şi
salariul iniţial (ANX1 şi ANX1). Între o variabilă şi ea însăşi apare o corelaţie perfect pozitivă (r=1,0), dar
lipsită de semnificaţie (nu apare nici un prag de semnificaţie). Acest coeficient de corelaţie nu aduce nici un
fel de informaţie şi în consecinţă nu se analizează. La fel nu se analizează corelaţia dintre variabila salariul
final şi salariul final (ANX2 şi ANX2).
În celula din dreapta sus apare coeficientul de corelaţie dintre salariul iniţial şi salariul final (ANX1
şi ANX2), semnificaţia acestuia şi numărul de perechi de scoruri. Acelaşi rezultate apar şi în celula din
stânga jos care prezintă coeficientul de corelaţie dintre salariul final şi salariul iniţial (ANX2 şi ANX1).
Rezultatele sunt identice deoarece corelaţie este bidirecţională (corelaţia dintre variabilele A şi B este acelaşi
lucru cu cea dintre variabilele B şi A). În consecinţă rezultatul poate fi extras din oricare din cele două celule.
Vom extrage datele pentru legătura dintre salariul iniţial şi salariul final al subiecţilor: Interpretarea
corelaţiei: r=0,81 (coeficientul de corelaţie), p0,001 (pragul de semnificaţie), N=24 (numărul de subiecţi).
Sunt mai multe elemente de care trebuie să se ţină seama în interpretarea corelaţiei:
 semnul corelaţiei: arată natura legăturii care există pozitive (dacă semnul este pozitiv) sau negative
(dacă semnul este negativ). În cazul nostru, semnul este pozitiv, ceea ce înseamnă că un salar iniţial mic se
asociază, după cinci ani, cu un salariu tot mic, un salar iniţial mediu se asociază cu un salar final mediu şi un
salar mare iniţial se asociază cu salariu mare final.
31
 mărimea absolută a coeficientului: descrie tăria legăturii care apare între variabile. Se consideră,
astfel, că legătura este slabă dacă valoarea absolută a lui r nu depăşeşte 0,30, legătura este medie la o valoare
a lui r cuprinsă între 0,30-0,50, legăturile puternice având o mărime absolută mai mare de 0,50. În exemplul
nostru, tăria legăturii este ridicată (r=0,81) coeficientul având valoare mi mare de 0,50
 pragul de semnificaţie dacă este mai mic de 0,05, atunci putem considera că există o relaţie între
variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raportează un p0,001, pentru
a arăta că probabilitatea de a greşi este mai mică decât 0,1% (calculatorul ne afişează doar primele trei
zecimale). Putem spune că există o legătură semnificativă între nivelul iniţial şi final al salariului subiecţilor,
pragul de semnificaţie fiind mai mic de 0,05.
 proporţia de varianţă. Coeficientul de corelaţie ridicat la pătrat ne indică proporţia de varianţă
explicată de relaţia găsită. Proporţia de varianţă indică la ce procent din populaţia generală apare relaţia.
Pentru exemplu nostru proporţia de varianţă are valoarea 0,65 (r=0,81, deci r2=0,65). Se observă că abia 65%
din variaţia observată se întâlneşte în realitate, deci relaţia găsită este prezentă la 65% dintre subiecţi.
Toate aceste elemente trebuie să apară în interpretare, pentru ca ea să fie completă.

Comanda SELECT CASES


Uneori este necesară selectarea anumitor cazuri din populaţie pentru a face o prelucrare statistică.
Spre exemplu, vrem să vedem dacă legătura dintre salariul iniţial şi salariul final are aceeaşi valoare la
subiecţii care au studii generale. Subiecţii sunt împărţiţi în grupe în funcţie de nivelul de studii (studii), fiind
codificaţi cu 1 în baza de date.
Pentru a selecta numai subiecţii care au studii generale, se foloseşte comanda SELECT CASES din
meniul DATA. Activarea meniului este urmată de apariţia următoarei ferestre:

32
În câmpul din stânga al ferestrei sunt prezentate toate variabilele din baza de date. În dreapta ferestrei
apar mai multe opţiuni. Pe noi ne interesează opţiunea IF CONDITION IS SATISFIED, deoarece vrem să
selectăm numai cazurile care îndeplinesc o anumită condiţie (să aibă valoarea 1 la variabila studii adică să fie
numai subiecţi cu studii generale).
Această opţiune se alege cu un simplu click stânga al mouse-ului:

Se activează butonul IF, care deschide următoarea casetă de dialog:

Se selectează variabila în funcţie de cre se face selecţia şi se trece în câmpul dintre dreapta sus. În
cazul nostru se selectează variabila STUDII şi se trece în câmpul din dreapta:

33
Se adăugă condiţia. Pentru exemplul nostru, variabila Studii trebuie să aibă numai valoarea 1
(STUDII=1). Se poate folosi tastatura sau se pot activa butoanele cu cifre şi semne cre se găsesc sub acest
câmp. Condiţia va arăta astfel:

Se apasă apoi butonul CONTINUE pentru a salva condiţia:

Se activează butonul OK, baza de date modificându-se, cum se poate observa şi în imaginea de mai
jos:

34
La sfârşitul bazei de date apare o nouă variabilă, intitulată FILTER_$, care indică rezultatul selecţiei.
Cazurile neselectate sunt “tăiate”, adică ele vor fi ignorate de la analiză. În partea din dreapta-jos a ecranului
apare anunţul FILTER ON, care avertizează utilizatorul cu privire la activarea unei comanzi de selecţie

Atenţie! Selectarea datelor nu implică şi efectuarea analizei statistice. După selecţie trebuie făcută
prelucrarea statistică a datelor. În cazul nostru trebuie utilizată comanda de analiză a corelaţiei dintre salariul
iniţial şi cel final. Se obţine următorul tabel în fereastra cu rezultate:

Rezultatul obţinut este următorul: r=0,69, p=0,056. În continuare vom interpreta aceste rezultate:
 semnul corelaţiei: corelaţie pozitivă, legătura este direct proporţională. În cazul subiecţilor cu
studii generale se constată că nivelul mic al salariului iniţial se asociază cu un nivel mic al salariului final,
salariul iniţial mediu se asociază cu un salar final mediu, salariul iniţial mare se asociază cu un salar final
mare.
 mărimea absolută a coeficientului: puterea legăturii dintre cele două variabile este ridicată,
valoarea lui r depăşeşte valoarea de 0,50.
 pragul de semnificaţie: valoarea pragului de semnificaţie este mai mare de 0,050, deci nu există o
legătură semnificativă între salariul iniţial şi final al subiecţilor care au studii generale.

35
 proporţia de varianţă explicată de relaţia este r2=0,47, deci relaţia găsită apare la 47% dintre
subiecţii cu studii generale. Explicaţia lipsei de semnificaţie a corelaţiei dintre cele două variabile (în
condiţiile în care coeficientul de corelaţie are valoare ridicată) este numărul mic de subiecţi. Numărul de
subiecţi din analiză influenţează valoarea pragului de semnificaţie al corelaţiei dar nu şi puterea legăturii
dintre variabile.
După folosirea acestui “filtru” este indicată dezactivarea. Pentru dezactivarea selecţiei, se deschide
din nou în meniul iniţial DATA - SELECT CASES. În partea de jos a ferestrei se găseşte buton RESET. Se
activează apoi butonul OK, astfel, comanda de filtrare a datelor dispare.

Comanda SPLIT FILE


Uneori însă dorim să vedem ce se întâmplă pentru fiecare subgrup de subiecţi în parte. Pentru baza de
date BAZA2.sav, vom analiza legătura dintre variabilele salariul iniţial şi salariul final pentru toate
categoriile de subiecţi în funcţie de variabila STUDII (nu numai pentru subiecţii cu studii generale dar şi
pentru cei cu studii medii şi superioare). Pentru a nu repeta comanda SELECT CASES de multe ori se poate
utiliza o altă comandă din meniul DATA, şi anume comanda SPLIT FILE. Activarea comenzii SPLIT FILE
deschide următoarea fereastră:

Dintre opţiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS şi apoi, cu ajutorul săgeţii,
introducem variabila de grupare (STUDII) în câmpul care se activează sub această opţiune:

36
După apăsarea butonului OK, în partea dreaptă-jos a bazei de date apare anunţul SPLIT FILE ON,
care avertizează utilizatorii că baza de date este împărţită în funcţie de condiţiile (nivelurile) variabilei de

grupare . La fel ca şi în cazul comenzii SELECT CASES, simpla împărţire a bazei de date nu asigură
prelucrarea statistică. De aceea, trebuie folosită comanda CORRELATIOS pentru a analiza legătura dintre
variabilele salariu iniţial şi final al subiecţilor.
Rezultatele analizei statistice sunt prezentate separat, în fişierul OUTPUT, pentru fiecare condiţie a variabilei
independente: studii generale, medii şi superioare:
nivelul de studii al subiecţilor = studii generale

nivelul de studii al subiecţilor = studii medii

nivelul de studii al subiecţilor = studii superioare

37
Graficul corelaţiei
Relaţia dintre două variabile poate fi reprezentată grafic sub forma unui nor de puncte. Practic,
graficul îl alegem din meniul GRAPHS/LEGACY DIALOGS, comanda SCATTER:

Această opțiune deschide fereastra:

Vom alege un grafic simplu, care să ilustreze relaţia dintre două variabile, deci vom selecta opţiunea
SIMPLE. Se activează apoi butonul DEFINE, care deschide următoarea fereastră:

38
Se introduc cele două variabile în câmpurile axei X şi axei Y (nu contează ordinea în care se introduc
variabilele deoarece corelaţia este bidirecţională) şi apoi se apasă butonul OK.

Reprezentarea grafică a corelaţiei este următoarea:

Reprezentarea grafică a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru norul
de puncte este ascendent crescător (din stânga-jos spre dreapta-sus) deoarece relaţia dintre variabile este
39
pozitivă, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are valoare ridicată (r=0,81).
Dacă relaţia ar fi fost invers proporţională, norul de puncte ar fi fost orientat descrescător (din stânga-sus spre
dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost distribuite uniform pe grafic.

Vom vizualiza baza de date pentru a vedea dacă apare noua variabilă care conţine rezultatele
subiecţilor transformate în note Z.

Se observă apariţia unei noi variabile, pe ultima coloană, cu numele ZANX1.


Putem analiza rezultatele obţinute. Se constată că cel mai mare scor z este 2,6 care corespunde unui
scor standard 124 obţinută de subiectul 15, iar cea mai mică valoare la anxietate a obţinut-o subiectul 8, care
are un scor z –0,98 pentru o valoare brută de 102. Scorul primului subiect este atipic, nivelul anxietăţii
acestuia fiind de 2 ori şi jumătate mai mare decât media, ceea ce semnifică faptul că subiectul are un nivel
ridicat al anxietăţii raportat la ceilalţi subiecţi. Subiectul al doilea are un nivel normal al anxietăţii, rezultatul
fiind aproape cu o unitate mai mic decât media, dar plasându-se în limita (–1 - +1).

40

S-ar putea să vă placă și