Sunteți pe pagina 1din 82

ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 1.
FAMILIARIZAREA CU PROGRAMUL SPSS 22.0

1. TIPURI DE VARIABILE. DIFERENŢA DINTRE VARIABILE, VALORI ŞI SCORURI

Variabile sunt definite ca proprietăţi ale fenomenelor, obiectelor sau proceselor, care pot lua
diferite valori. Există mai multe criterii în funcţie de care se pot clasifica variabilele:
1. după natura măsurii variabilele pot fi:
- cantitative (variază cantitativ, cum ar fi de exemplu greutatea sau vârsta subiecţilor)
- calitative (sunt cele care variază calitativ, cum ar fi genul sau etnia subiecţilor);
2. după felul variaţiei, variabilele pot fi:
- continui (teoretic pot lua orice valoarea, între două valori ale variabilei putând să apară o a treia
valoare; vârsta subiecţilor este un exemplu de variabilă continuă)
- discrete (pot avea numai anumite valori, între care nu mai apar altele; religia, tipurile
temperamentale sunt exemple de variabile discontinui);
3. după scopul folosirii lor în studii experimentale:
- independente (sunt variabilele manipulate de experimentator şi care se presupune că influenţează
variabila dependentă)
- dependente (reprezintă răspunsurile subiecţilor).
O variabilă poate lua diferite valori. Valoarea reprezintă o măsură calitativă sau cantitativă a
unui fenomen. În psihologie se face distincţia între valori şi scoruri. Scorul este valoarea obţinută de o
persoană, fenomen sau obiect atunci când ne referim la o anume variabilă.

EXEMPLU
Pentru variabila “nota şcolară” valorile acesteia sunt toate notele de la 1 la 10. Pentru variabila
“zilele săptămânii” valorile sunt toate cele şapte zile ale săptămânii. Nota pe care o obţine un elev la o
materie (să zicem 7) reprezintă scorul subiectului la variabila “nota şcolară”.

2. PREZENTAREA APLICAŢIEI SPSS

ACRONIM UTILIZAT ÎN TEXT


SPSS – Pachet statistic pentru ştiinţele sociale

SPSS este numele unui pachet de programe care ajută la analiza datelor obţinute în
cercetările din domeniul ştiinţelor sociale.
Deschiderea programului se poate face cu ajutorul mouse-ului, cu dublu-click asupra

pictogramei programului de pe desktop. Aplicaţia mai poate fi deschisă de la butonul START/ALL


PROGRAMS, opţiunea IBM SPSS STATISTICS 22, ca în imaginea de mai jos:

121
RUXANDRA-LOREDANA GHERASIM

Oricare ar fi metoda de deschidere a programului, pe ecran va apărea următoarea fereastră:

Prima bară din partea de sus a ferestrei oferă informaţii despre denumirea aplicaţiei şi numele
fişierului cu care se lucrează. Urmează bara de meniuri a programului şi cea cu butoane.
Foia cu date este organizată tabelar. Întotdeauna coloanele tabelului reprezintă variabilele
studiului, în timp ce liniile, rândurile numerotate ale tabelului reprezintă subiecţii cercetării. În partea de
jos a ferestrei sunt două opţiuni: DATA
VIEW şi VARIABLE VIEW. Putem
vizualiza datele brute ale subiecţilor,
dacă este activă opţiunea DATA VIEW
sau putem vizualiza descrierea
variabilelor introduse în baza de date,
dacă este activată opţiunea VARIABLE
VIEW. De obicei, atunci când deschidem
programul, este activă opţiunea DATA
VIEW, cum se poate observa şi în
imaginea de mai sus. Printr-un simplu click
stânga pe opţiunea VARIABLE VIEW, pe
ecran apare un alt tabel care permite
definirea variabilelor din baza de date:

122
ANALIZA COMPUTERIZATĂ A DATELOR

Din meniul FILE putem alege comanda deschidere a unei noi baze de date (opţiunea NEW
DATA) sau a unei noi foi de rezultate (NEW OUTPUT):

Acest program prezintă rezultatele prelucrărilor statistice într-o pagină separată, numită
OUTPUT. Comenzile care sunt colorate în gri sunt comenzi inactive pentru că baza de date nu conţine,
deocamdată, nici o informaţie.
Din acest meniu putem deschide, folosind opţiunea
OPEN, o bază de date care a fost creată anterior (DATA) sau un
fişier cu rezultatele prelucrărilor statistice anteriore (OUTPUT).
Comanda SAVE permite salvarea obişnuită a fişierului cu
date sau cu rezultate, comanda SAVE AS permite salvarea unui
fişier modificându-i numele. Opţiunile RECENTLY USED DATA şi
RECENTLY USED FILES deschid bazele de date şi foile cu
rezultate recent create sau utilizate în programul SPSS.
Din meniul EDIT, comenzile COPY, CUT şi PASTE sunt
folosite pentru copierea sau mutarea datelor din celule, rânduri sau
coloane. Copierea sau mutarea datelor presupune selectarea
datelor, activarea comenzii COPY/CUT din meniul EDIT, plasarea
cursorului în noua locaţie şi apoi activarea comenzii PASTE.

3. DESCHIDEREA UNEI BAZE DE DATE

Pentru deschiderea unei baze de date create anterior se activează meniul FILE/OPEN opţiunea
DATA. După activarea comenzii
pe ecran apare o casetă de
dialog care permite selectarea
directorului şi respectiv fişierului
care conţine baza de date. Vom
deschide fişierul opinii.sav (în
aplicaţia SPSS, fişierele cu
baze de date au întotdeauna
extensia sav) care se găseşte la
adresa C:\MY DOCUMENTS\EXEMPLE
SPSS. În momentul încărcării
bazei de date pe ecran va
apărea următoarea imagine:

123
RUXANDRA-LOREDANA GHERASIM

Valorile din baza de date reprezintă răspunsurile brute ale subiecţilor. Pe coloane sunt definite
variabilele. În această bază de date
avem pe coloană variabile (ca de
exemplu, gr_mult, prezent, viitor,
directie, guv, parlam), valorile
numerice din fiecare coloană
reprezentând scorurile subiecţilor la
aceste variabile. Rândurile conţin
răspunsurile subiecţilor la diferiţi
itemi. De exemplu, subiectul de pe
rândul 9 are valoare 3 la variabila
gr_mult, valoarea 3 la variabila
prezent, 4 la variabila viitor etc.
Pentru a vedea ce înseamnă
fiecare dintre aceste variabile trebuie
activată opţiunea VARIABLE VIEW:
Variabilele sunt aşezate pe rânduri, coloanele reprezentând diferite caracteristici ale
variabilelor. De exemplu, variabila gr_mult este o variabilă de tip numeric, cu 20 de caractere la partea
întreaga şi 0 zecimale, reprezentând itemul „Cât de mulţumit sunteţi în general de felul în care trăiţi?”.

4. CREAREA UNEI NOI BAZE DE DATE

Pentru a crea o nouă bază de date trebuie activată opţiunea DATA VIEW.

APLICAŢIE
Creaţi o baza de date care să conţină rezultatele la
anxietate obţinute de un număr de subiecţi, înainte şi după
intervenţia terapeutică (anxietatea a fost măsurată cu ajutorul
unei scale de anxietate). La studiu au participat subiecţi de
gen feminin şi masculin. Baza de date va conţine patru
variabile: numărul subiecţilor (nrsub), nivelul anxietăţii
subiecţilor înaintea terapiei (ANX1) şi nivelul anxietăţii
subiecţilor după terapie (ANX2) şi genul subiecţilor (1-subiecţi
de gen masculin şi 2-subiecţi de gen feminin).

Pentru introducerea datelor se plasează cursorul în celulă şi


se introduce valoarea cu ajutorul tastelor. Spre exemplificare,
vom introduce prima valoare (1) a primei variabile. După
introducerea primei valori automat programul a denumit prima variabilă (var0001), iar indicativul primei
linii devine activ.

124
ANALIZA COMPUTERIZATĂ A DATELOR

La fel se vor introduce şi celelalte valori ale primei variabile. Pentru a utiliza cu uşurinţă datele
este indicată definirea sau redenumirea variabilelor cu care lucrăm.
Definirea variabilelor presupune activarea câmpului VARIABLE VIEW, prin executarea unui
dublu click pe numele variabilei (în cazul nostru var0001) sau prin activarea butonului VARIABLE VIEW
din partea de jos a câmpului. Rezultatul va fi următorul:

Numele variabilei poate să cuprindă maxim opt caractere, fără spaţiu sau semne de
punctuaţie. Pentru a defini o variabilă, trebuie plasat cursorul în celula în care este trecut numele
(NAME) generic al variabilei (var0001), apoi se introduce numele variabilei NRSUB folosind tastatura.
Opţiunea TYPE permite specificarea tipului de date. Această opţiune poate fi activată cu
ajutorul mouse-ului cu un click stânga pe butonul gri din celula corespunzătoare variabilei.

Tipul NUMERIC permite introducerea valorilor cu sau fără zecimale. Tipurile COMMA şi DOT
permit introducerea valorilor cu orice număr de zecimale (mai mare de 16), reţinând întreaga valoare.
Tipul SCIENTIFIC NOTATION transformă logaritmic valorile introduse, DATE permite folosirea spaţiilor,
punctelor, virgulelor, a barelor de separarea pentru a delimita zilele, lunile şi anii, respectiv orele şi
minutele. Tipul DOLLAR inserează în faţa valorilor simbolul dolarului, iar CUSTOM CURRENCY permite
introducerea de valorilor pozitive dar şi a celor negative, cu sau fără separator pentru mii. Ultima opţiune
STRING permite introducerea variabilelor alfanumerice.
Este posibilă alegerea numărului de cifre pentru partea întreagă (WIDTH) şi a numărului de
zecimale (DECIMAL PLACES). Deşi sunt mai multe tipuri de variabile, în psihologie se utilizează două
tipuri de variabile, NUMERIC şi STRING (foarte rar). Automat la crearea unei noi baze de date, apare
selectat tipul NUMERIC, presupunându-se că noile variabile vor fi numerice. Opţiunea TYPE este de
obicei folosită pentru modifica acest tip de date.
Caracteristica LABELS permite definirea detaliată a variabilei (pot fi folosite până la maxim 256
caractere, inclusiv spaţiul). Definirea detaliată a variabilei apare în pagina de rezultate.
VALUE LABEL permite descrierea valorile pe care le poate lua o variabilă. Opţiunea este
folosită pentru variabile care folosesc coduri numerice pentru a reprezenta categorii (de exemplu, se pot
folosi valorile 1 şi 2 pentru a codifica genul feminin şi masculin).
MISSING VALUES permite stabilirea valorilor care nu vor fi luate în seamă la prelucrarea
datelor.
COLUMN permite specificarea numărului de caractere pentru o coloană, afectând vizualizarea
datelor.
ALIGNMENT permite modificarea modului în care sunt prezentate datele pe ecran, aliniate la
stânga, dreapta sau central.
În exemplu nostru, vom defini numele variabilei NRSUB şi vom detalia eticheta la opţiunea
LABEL ca în imaginea de mai jos:

125
RUXANDRA-LOREDANA GHERASIM

Vom introduce valorile şi vom defini şi următoarele variabile, ANX1, ANX2 şi Gen. Variabila Gen
este de tip categorial, în funcţie de această caracteristică subiecţii fiind împărţiţi în două categorii
distincte, femei şi bărbaţi. Din acest motiv trebuie precizată semnificaţia valorilor variabilei. Acest lucru
presupune atribuirea de valori şi etichete celor două grupuri de subiecţi. Astfel, subiecţii de sex masculin
îi vom codifica cu valoarea 1, iar pe cei de gen feminin cu valoarea 2. În acest scop vom activa opţiunea
VALUE:

Se trece valoarea în câmpul VALUE şi numele grupului sau categoriei în câmpul VALUE
LABEL, după care se apasă butonul ADD. Astfel, vom scrie „1” în câmpul VALUE şi „subiecţi de gen
masculin” în câmpul VALUE LABEL şi activăm butonul ADD, apoi vom scrie „2” în câmpul VALUE şi
„subiecţi de gen feminin” în câmpul VALUE LABEL şi activăm butonul ADD.

Se activează butonul OK pentru a salva modificările şi închide caseta de dialog.

Această opţiune se foloseşte numai pentru variabilele categoriale, care împart subiecţii în
grupuri distincte.

126
ANALIZA COMPUTERIZATĂ A DATELOR

IMPORTANT
Salvarea fişierelor se face fie acţionând butonul SAVE care se găseşte în bara de instrumente,
fie din meniul FILE se alege opţiunea SAVE. Reamintim că trebuie ales mai întâi directorul în care
vream să salvăm fişierul si apoi scriem numele fişierului.

Pentru exemplu nostru, vom salva fişierul cu numele Baza1.sav în subdirectorul EXEMPLE
SPSS care se găseşte în directorul MY DOCUMENTS.

APLICAŢIE
Realizaţi, folosind aplicația SPSS, o baza de date pe care o salvaţi în My Documents cu numele
BD1 care va conţine următoarele variabile, NS (numele întreg al variabilei – nivel de sociabilitate), NO
(numele întreg al variabilei – nivel optimism) şi gen (cu valorile 1 – feminin şi 2 – masculin). Pentru toate
aceste variabile, stabiliţi 3 caractere la partea întreagă şi 2 la zecimale. Valorile variabilelor sunt
următoarele:
NS: 35, 12, 33, 11, 15, 13, 20, 17, 32, 11, 15, 21
NO: 17, 26, 17, 22, 31, 18, 24, 17, 9, 14, 6, 7
Gen: 1, 1, 2, 2, 2, 1, 2, 1, 1, 1, 2, 1

127
ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 2.
ELEMENTE DE STATISTICĂ DESCRIPTIVĂ

1. ANALIZA FRECVENŢELOR

Tabelele de frecvenţă ajută la descrierea unui grup de scoruri, fiind cele mai simple procedee
ale statisticii descriptive, care permit înţelegerea tendinţei unui grup de scoruri. Tabelele de frecvenţa
grupează scorurile subiecţilor, informaţia devenind, astfel, mai comprehensibilă. Histogramele,
reprezentări grafice ale tabelelor de frecvenţă permit o mai bună înţelegere a tendinţei grupului de
rezultate. Acestea presupun transformarea intervalelor de frecvenţă în bare, înălţimea barelor
corespunzând frecvenţei fiecărui interval de frecvenţă din tabelul de frecvenţă. Poligoanele de
frecvenţă sunt o altă modalitate de reprezentare grafică a datelor din tabelele de frecvenţă. Acestea se
obţin, prin unirea mijloacelor părţilor superioare ale barelor histogramelor.
Tabelul de frecvenţă, histograma şi poligonul de frecvenţă descriu o distribuţie de frecvenţă,
prezentând modul în care se distribuie sau se împrăştie cazurile sau frecvenţele. Modalitatea,
înclinarea şi turtirea sunt indicatori care descriu forma distribuţiei scorurilor. Modalitatea indică câte
“vârfuri” are o distribuţie, cu alte cuvinte, arată valorile în jurul cărora se grupează rezultatele subiecţilor.
Din această perspectivă, distribuţiile pot fi unimodale (au un singur vârf), bimodale (au două vârfuri) sau
multimodale (au mai multe vârfuri). Înclinarea arată dacă în distribuţie apar mai multe valori mari sau
mai multe valori mici. Cele mai multe aspecte măsurate în psihologie prezintă un număr aproximativ
egal de cazuri de o parte şi de alta a mijlocului, distribuţiile fiind aproximativ simetrice (nu prezintă
tendinţă de înclinare). O distribuţie este înclinată atunci când are o extremă (o parte) mai împrăştiată şi
mai lungă. Atunci când înclinarea curbei este spre stânga, spunem că avem o distribuţie înclinată
negativ. Atunci când distribuţia este înclinată spre dreapta, spunem că aceasta este înclinată pozitiv.
Spre exemplu, notele şcolare au o distribuţie înclinată spre dreapta, adică elevii au tendinţa de a obţine
mai multe note mari. Turtirea unei distribuţii se raportează la curba normală. Faţă de curba normală o
distribuţie poate fi mai turtită (scorurile din cadrul ei variază foarte mult de la medie) sau mai ascuţită
(scorurile variază foarte puţin de la medie).

2. Analiza de frecvenţă cu ajutorul programului SPSS

Opţiunea FREQUENCIES permite realizarea tabelului


de frecvenţă şi a distribuţiei de frecvenţă a rezultatelor. Aceasta
se găseşte la meniul ANALYZE – DESCRIPTIVE
STATIASTICS:
După activarea opţiunii pe ecran apare următoarea
casetă de dialog:

În câmpul din stânga al casetei


FREQUENCIES sunt afişate toate variabilele
din baza de date, în ordinea introducerii lor în
baza de date, împreună cu denumirea extinsă
a variabilei. Câmpul din dreapta reprezintă
câmpul de analiză. Astfel, analiza statistică se
realizează doar pentru variabilele trecute în
acest câmp. Trecerea variabilelor în câmpul de
analiză se realizează cu ajutorul butonului cu săgeată care se găseşte între câmpuri. Se selectează din

129
RUXANDRA-LOREDANA GHERASIM

câmpul din stânga variabila pe care vrem să analizăm apoi se activează butonul de trecere. Acest mod
de organizare în două câmpuri apare la aproape toate opţiunile de prelucrare a datelor.
Bifarea opţiunii DISPLAY FREQUECY TABLES are ca efect afişarea în foaia de rezultate a
tabelul de frecvenţă. Opţiunea STATISTICS deschide o fereastră cu opţiuni de prelucrare statistică,
butonul CHARTS permite afişarea histogramei de frecvenţă. Opţiunea FORMAT permite modificarea
formei de prezentare a datelor în foia cu rezultate (OUTPUT).
Pentru exemplul nostru, dorim
realizarea tabelului de frecvenţă şi
histogramei pentru variabila „nivelul
anxietăţii înainte de terapie” (ANX1). Se
selectează variabila ANX1 din câmpul din
stânga şi se activează butonul de trecere:
Pentru ca în foaia de rezultate să
apară tabelul de frecvenţă se selectează
opţiunea DISPLAY FREQUECY TABLES.
Pentru afişarea histogramei de frecvenţă se
activează butonul CHARTS:

Opţiunea CHART TYPE permite alegerea unui tip de grafic (cu bare, plăcintă sau histogramă).
CHART VALUES permite alegerea tipului de valori afişate în grafic (Frecvenţe sau Procentaje).
Pentru exemplul nostru se selectează opţiunea HISTOGRAMS, se bifează afişarea curbei
normale (WITH NORMAL CURVE), apoi se activează butonul CONTINUE.
Opţiunea FORMAT permite modificarea formei OUTPUT-ului. Activarea acestui buton are ca
efect apariţia următoarei casete de dialog:

Câmpul din stânga al ferestrei conţine opţiuni de aranjare a rezultatelor (în ordine
descrescătoare sau crescătoare a valorilor sau cantităţilor), iar cel din dreapta conţine opţiuni de
prezentare comparativă a rezultatelor şi de organizare separată a foii de rezultate, pentru fiecare
variabilă. Pentru exemplu nostru, vom păstra opţiunile selectate automat.
După selectarea opţiunilor de realizare a tabelului de frecvenţă şi histogramei, se activează
butonul OK al casetei FREQUENCIES. Pe ecran apare o fereastra cu rezultate, numită OUTPUT:

130
ANALIZA COMPUTERIZATĂ A DATELOR

Fereastra OUPUT este organizată în două câmpuri, cel din stânga, afişează structura sau
cuprinsul OUPUT-ului, iar cel din dreapta arată conţinutul foii cu rezultate. Rezultatele sunt organizate în
două tabele. În primul tabel se precizează numărul de subiecţi şi numărul de răspunsuri. Pentru
exemplul nostru, avem 20 de subiecţi care au răspuns la chestionar (nu lipseşte nici o valoare).
Al doilea tabel este organizat în cinci coloane. Coloana VALID prezintă valorile variabilei,
prezentate în ordine crescătoare (fără a ţine seama de cazurile lipsă). Coloana FREQUENCY prezintă
frecvenţa, adică numărul de subiecţi care obţin o anumită valoare.
Coloana PERCENT transformă frecvenţa obţinută pentru fiecare valoare în procentaj ţinând
cont de numărul total de subiecţi luaţi în calcul, indiferent dacă aceştia au sau nu scoruri la această
variabilă. Spre exemplu, doi subiecţi au obţinut scorul 103, ceea ce reprezintă 10% din totalul numărului
de răspunsuri obţinute. VALID PERCENT prezintă procentajul luând în calcul doar subiecţii care au
răspuns la această variabilă. În cazul nostru coloanele PERCENT şi VALID PERCENT sunt identice
deoarece toţi subiecţii au scoruri la această variabilă. Dacă unii subiecţi nu ar fi răspuns la chestionarul
de anxietate, atunci cele două coloane ar fi conţinut valori diferite.
Coloana CUMULATIVE PERCENT prezintă procentajul cumulat, de la cel mai mic scor la până
la cel mai mare. De exemplu, 60% dintre subiecţi au note mai mici sau egale cu 106.
Derulând pagina cu rezultate sau selectând HISTOGRAM în câmpul din stânga, putem
vizualiza reprezentarea grafică a frecvenţei scorurilor:

Histograma de frecvenţă se mai poate obţine folosind meniul GRAPHS – HISTOGRAM.


Activarea opţiunii duce la apariţia următoarei casete de dialog:

131
RUXANDRA-LOREDANA GHERASIM

Elementele principale ale ferestrei sunt:


1. câmpul în care sunt prezentate toate variabilele din baza de date
2. câmpul în care se introduce variabila pentru care dorim să realizăm histograma de frecvenţă
3. selectarea acestei opţiuni va duce la afişarea curbei normală de distribuţie a rezultatelor.
Pentru exemplificare introducem variabila ANX1, cu ajutorul butonului cu săgeată, în câmpul
VARIABLE şi bifăm opţiunea DISPLAY NORMAL CURVE. Se obţine aceeaşi reprezentare grafică ca şi
în cazul folosirii butonului CHART al ferestrei FREQUENCIES.
Vizualizarea ferestrei OUTPUT sau DATE (baza1.sav) se poate face
folosind meniul WINDOW, marcând opţiunea dorită (baza de date sau foaia
de rezultate):

APLICAŢIE
Pentru variabila nivel optimism din baza de date BD1, din Aplicaţia anterioară, realizaţi
histograma de frecvenţe.

3. IDENTIFICAREA TENDINŢEI CENTRALE ŞI A VARIABILITĂŢII SCORURILOR


Metodele descriptive pentru identificarea tendinţei centrale şi de împrăştiere indică tendinţa
centrală a unui grup de scoruri, folosind ca indicatori media, mediana şi modul şi tendinţa de împrăştiere
a grupului de scoruri, folosind ca indicatori varianţa şi abaterea standard.

DEFINIŢII pentru indicatorii de tendinţă centrală


Media aritmetică descrie tendinţa centrală într-un grup de rezultate, arată valoarea tipică,
reprezentativă a unui grup de scoruri.
Mediana împarte distribuţia în două părţi egale, jumătate dintre scorurile distribuţie având valori
mai mici ca mediana, iar cealaltă jumătate valori mai mari.
Modul reprezintă valoarea cu frecvenţa cea mai mare.

Modul este indicatorul care este cel mai puţin afectat de schimbările structurii (modificări ale
numărului de scoruri sau mărimii scorurilor distribuţiei). Mediana este şi ea destul de puţin afectată de
modificările structurii distribuţiei. Media, însă, este cea mai “sensibilă” la modificarea numărului de
scoruri sau mărimii scorurilor, fiind indicatorul cel mai descriptiv (deoarece indică orice modificare
survenită în distribuţie). Se recomandă utilizarea mediei în distribuţiile simetrice şi unimodale. Mediana
şi modulul, care sunt mai stabile sunt recomandate pentru descrierea distribuţiilor asimetrice şi
multimodale. Cu toate acestea, media aritmetică rămâne metoda cel mai des utilizată pentru descrierea
tendinţei grupului de scoruri, acest indicator intrând în componenţa multor metodele statistice. Există
însă metode statistice (cum a fi testele non-parametrice) în care se utilizează doar mediana şi modul.

132
ANALIZA COMPUTERIZATĂ A DATELOR

Cunoaşterea acestor indicatori nu este suficientă pentru a descrie complet o distribuţie. Trebuie
să cunoaştem gradul de variabilitate a scorurilor noastre. Mai precis, trebuie să ştim cât de mult (sau cu
cât) se împrăştie scorurile în jurul valorii medii.

DEFINIŢII pentru indicatorii de împrăştiere


Varianţa este o măsură a gradului de variabilitate a scorurilor şi arată cât de mult se abat
scorurile de la tendinţa centrală. Cu cât este mai mare această valoare, cu atât mai mult se împrăştie
scorurile în jurul valorii centrale. Pentru a cunoaşte exact cu cât variază scorurile în medie este nevoie
să calculăm deviaţia standard.
Abaterea standard ne arată cu cât se împrăştie scorurile în jurul valorii centrale şi se măsoară
în aceleaşi unităţi de măsură ca şi scorurile iniţial.

Varianţa (SD2=(  (X-M)2/N) unei distribuţii arată cât de “împrăştiate” sunt scorurile în jurul
valorii centrale, indică gradul de variabilitate a unui grup de rezultate. Abaterea standard este rădăcina
pătrată a varianţei (SD = SD 2 ).
În intervalul cuprins între medie şi o abatere standard la stânga şi dreapta mediei găsim
aproximativ 2/3 din totalul scorurilor. Aceste rezultate sunt considerate tipice sau normale pentru o
distribuţie. Ilustrăm grafic acest lucru:

m-SD m m+SD

scoruri mici scoruri medii, tipice, normale scoruri mari

Scorurile care sunt mai mari decât media cu o abatere standard sunt considerare scoruri mari
iar cele mai mici decât media cu mai mult de o abatere standard sunt considerate ca fiind scoruri slabe.

4. CALCULUL TENDINŢEI CENTRALE ŞI A VARIABILITĂŢII FOLOSIND SPSS

Meniul din SPSS care permite calculul indicatorilor tendinţei centrale şi ai împrăştierii se
găseşte la ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES. Pentru analiză vom folosi baza
de date realizată anterior, „Baza1.sav”.
Vom calcula parametrii tendinţei
centrale şi ai variabilităţii pentru variabila
ANX1 (nivelul anxietăţii înaintea
terapiei). Se trece variabila în câmpul
din dreapta apoi se activează butonul
STATISTICS. După cum se poate vede
şi în imaginea de mai jos, casetă de
dialog care se deschide cuprinde patru
câmpuri cu opţiuni (tabelul alăturat):

Câmpul PERCENTILE VALUES


conţine opţiuni care permit calculul valorilor corespunzătoare împărţirii subiecţilor în grupuri egale, prin
afişarea valorilor care delimitează aceste grupuri. Această opţiune permite calculul cuartilelor
(QUARTILES) sau altor cuartile (de exemplu CUT POINTS FOR 10 EQUAL GROUPS) sau centile
(PERCENTILE).
Opţiunile din câmpul DISPERSION permit calcularea diferiţilor parametri referitori la dispersia
(împrăştierea) scorurilor în jurul valorii centrale: abatere standard (STD. DEVIATION), varianţă

133
RUXANDRA-LOREDANA GHERASIM

(VARIANCE), amplitudine (RANGE), valori minime (MINIMUM) şi maxime (MAXIMUM) şi eroare


standard (S.E. MEAN care reprezintă abaterea standard a distribuţii tuturor mediilor posibile calculate
pentru eşantioane aleatoare repetate).
CENTRAL TENDENCY conţine opţiunile folosite pentru calculul indicatorilor tendinţei centrale
ale distribuţiei: media (MEAN), mediana (MEDIAN), mod (MODE) şi suma valorilor seriei (SUM).
Câmpul DISTRIBUTION oferă posibilitatea aflării indicatorilor de turtire (KURTOSIS) şi înclinare
ai unei distribuţii în comparaţie cu cea normală (SKEWNESS).
Pentru exemplu nostru ne
interesează calculul parametrilor tendinţei
centrale ai distribuţiei şi de împrăştiere. În
consecinţă se bifează (cu un simplu click
stânga al mouse-ului) opţiunile MEAN,
MEDIAN, MODE din câmpul CENTRAL
TENDENCY şi opţiunile STD DEVIATION
şi VARIANCE din câmpul DISPERSION:
Activăm butonul CONTINUE şi
apoi cel OK al casetei FREQUENCIES.
Valorile indicatorilor sunt grupate în
tabelul Statistics:

Astfel, M=107,90, Med=105,5, Mod=104, ceea ce


însemnă că distribuţia este unimodală (apare o singură valoare la
mod) şi uşor înclinată spre dreapta spre valorile mai mari ale
variabilei (valoarea mediei este mai mare decât a medianei).
Reprezentarea grafică indică apariţia unui singur vârf (distribuţie
unimodală) şi o alungire şi împrăştiere a extremei drepte a
distribuţiei (distribuţie înclinată spre dreapta).

APLICAŢIE
Calculaţi parametrii tendinţei centrale şi ai variabilităţii pentru variabila ANX1 (nivelul anxietăţii
după terapiei).

La fel se calculează indicatorii tendinţei centrale şi de împrăştiere pentru variabila ANX2 (nivelul
anxietăţii subiecţilor după terapie). Rezultatele obţinute sunt următoarele:

134
ANALIZA COMPUTERIZATĂ A DATELOR

Astfel, M=107,95, Med=109,5,


Mod=102, Mod=110 (a doua valoare a
modul se extrage din tabelul de frecvenţă).
Distribuţia scorurilor este bimodală (apar
două valori cu frecvenţa cea mai mare) şi
înclinată spre valorile mici ale variabilei
(media este mai mică decât mediana).
Distribuţia scorurilor subiecţilor la această
variabilă indică aceeaşi formă.

Comparând reprezentările
histogramele de frecvenţă pentru
variabilele ANX1 şi ANX2, putem analiza
variabilitatea rezultatelor la cele două variabile. Astfel, distribuţia scorurilor pentru prima variabilă este
mai ascuţită, valorile fiind mai grupate în jurul medie (şi varianţa şi abaterea standard au valori mai
mici). La variabila ANX2 se constată o mai mare variabilitate a rezultatelor, distribuţia fiind mai turtită (în
acest caz varianţa şi abaterea standard au valori mai mari).

APLICAŢIE
Pentru variabila nivel sociabilitate din baza de date BD1, din aplicaţia anterioară, calculaţi
parametrii tendinţei centrale şi ai variabilităţii.

5. SCORURILE Z

Nota Z indică deviaţia unui scor (x) de la medie (m) exprimată în deviaţii standard. Nota
standard Z arată cu câte deviaţii standard se abate un scor de la medie (Z=(X-M)/SD).

IMPORTANT
Distribuţia în note Z este o distribuţie ideală în care media are întotdeauna valoarea 0, iar
abaterea standard valoarea 1.

Schema de mai jos prezintă notele standard Z corespunzătoare mediei şi limitelor de variaţie
maximă şi minimă. Mediei îi corespunde întotdeauna mereu scorul standard 0, limitei minime de variaţie

135
RUXANDRA-LOREDANA GHERASIM

tipică îi corespunde scorul standard -1, iar limitei maxime de variaţie normală îi corespunde nota
standard +1.
m-SD m m+SD x

scoruri”mici” scoruri medii, tipice normale scoruri”mari”


-1 0 +1 Z

Aceasta distribuţie ne permite să stabilim cum este scorul x în raport cu media (care este 0) şi
abaterea standard (care are valoarea 1). Trebuie ţinut seama de o serie de reguli. Astfel, un scor x
raportat la distribuţia Z este considerat “mic”, dacă scorul său Z are valoare mai mică decât –1; un scor
x este considerat “mediu” dacă scorul său Z este cuprins în intervalul [–1, +1]; un scor x este considerat
“mare” raportat la distribuţia Z, dacă scorul său Z va fi mai mare decât +1.

APLICAŢIE
Interpretaţi un scor z care are valoarea 2,40!

IMPORTANT
Scorurile Z îndeplinesc o serie de funcţii:
1. Permit compararea unui scor cu o distribuţie la care cunoaştem parametrii (media şi deviaţia
standard), astfel, ne ajută să precizăm dacă un scor este mic, mediu sau mare.
2. Arată de câte ori acel scor este mai mare sau mai mic decât media (ţinând cont de
variabilitate). Spre exemplu, dacă scorurile la un test de inteligenţă într-o populaţia sunt descrise de
media m=100 şi deviaţia standard SD=15, o persoană cu scorul brut 130 este „de două ori mai deşteptă
ca media celorlalţi”, deoarece acestui scor îi corespunde un scor Z de +2 (ceea ce înseamnă că scorul
este mai mare ca media cu două deviaţii standard).
3. Permit compararea scorurilor obţinute de aceeaşi persoană la probe diferite, întrucât notele Z
arată raporturi şi sunt adimensionale (nu depind de ceea ce măsurăm).

6. Calculul notelor Z folosind SPSS

Comanda DESCRIPTIVES care se găseşte în meniul ANALYZE – DESCRIPTIVE


STATISTICS, permite calculul notelor Z cu ajutorul SPSS. Vom folosi baza de date creată anterior
(„Baza1.sav”).

Activarea comenzii duce la apariţia pe ecran a casetei de dialog următoare:

136
ANALIZA COMPUTERIZATĂ A DATELOR

1
2

4
3

Prezentăm principalele elemente ale ferestrei DESCRIPTIVES:


1. câmpul în care sunt prezentate variabilele din baza de date
2. câmpul în care se introduc variabilele care vor fi analizate
3. opţiunea SAVE STANDARDIZED VALUES AS VARIABLES permite salvarea în baza de date
a scorurilor standard sub forma unei noi variabile.
4. cuprinde opţiuni de calcul ai parametrilor distribuţiei.
Pentru exemplificare, vom calcula notele Z pentru variabila ANX1. Se bifează opţiunea SAVE
STANDARDIZED VALUES AS VARIABLES. Se activează butonul OPTIONS, care deschide
următoarea fereastră:

Automat sunt selectate de computer opţiunile de calcul ale mediei, abaterii standard şi ale
valorii minime şi maxime. Vom activa butonul CONTINUE şi apoi butonul OK al ferestrei pentru a putea
face analiza statistică. Rezultatele obţinute în urma comenzii DESCRIPTIVES sunt mai sumare şi
prezentate într-un singur tabel.

Vom vizualiza baza de date pentru a vedea dacă apare noua variabilă care conţine rezultatele
subiecţilor transformate în note Z.

137
RUXANDRA-LOREDANA GHERASIM

Se observă apariţia unei noi variabile, pe ultima coloană, cu numele ZANX1.


Putem analiza rezultatele obţinute. Se constată că cel mai mare scor z este 2,6 care
corespunde unui scor standard 124 obţinută de subiectul 15, iar cea mai mică valoare la anxietate a
obţinut-o subiectul 8, care are un scor z–0,98 pentru o valoare brută de 102. Scorul primului subiect
este atipic, nivelul anxietăţii acestuia fiind de 2 ori şi jumătate mai mare decât media, ceea ce semnifică
faptul că subiectul are un nivel ridicat al anxietăţii raportat la ceilalţi subiecţi. Subiectul al doilea are un
nivel normal al anxietăţii, rezultatul fiind aproape cu o unitate mai mic decât media, dar plasându-se în
limita (–1 - +1).

138
RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 3.
ANALIZA LEGĂTURII DINTRE VARIABILE

1. COEFICIENTUL DE CORELAŢIE PEARSON

Notele Z fac posibilă analiza legăturii dintre două variabile. De exemplu, putem analiza
legătura dintre nivelul stresului unui manager şi numărul de subordonaţi. Prin transformarea notelor
brute obţinute de subiecţi la cele două variabile putem să identificăm dacă exista sau nu o legătură între
aceste două variabile.

DEFINIŢIE
Corelaţia este o metodă statistică descriptivă (r=( ( Z1 * Z 2) / N ) care indică existenţa unei
legături între variabile.

Legătura poate fi pozitivă (când scorurile slabe la prima variabilă se asociază cu scoruri slabe la
a doua variabilă, scorurile medii la prima variabilă se asociază cu scoruri medii la a doua variabilă şi
scorurile mari la prima variabilă se asociază cu scoruri mari la a doua variabilă), negativă (când
scorurile slabe la prima variabilă se asociază cu scoruri mari la a doua variabilă, scorurile medii la prima
variabilă se asociază cu scoruri medii la a doua variabilă şi scorurile mari la prima variabilă se asociază
cu scoruri mici la a doua variabilă). Bineînţeles că între variabile poate să nu apară nici o legătură.
Coeficientul de corelaţie (r) indică gradul în care apare paternul unei relaţii între cele două
variabile. Acest coeficient poate lua valori de la -1 la +1, corelaţia pozitivă poate lua valori de la 0 la 1,
iar corelaţia negativă poate lua valori la de -1 la 0.

IMPORTANT
Analiza corelaţiei dintre două variabile nu permite stabilirea relaţiei de cauzalitate între aceste
variabile. Există trei modalităţi de interpretare a unui coeficient de corelaţie obţinut între două variabile
(x şi y): fie x poate fi cauză pentru y, fie y poate fi cauză pentru x, fie a apărut a o treia variabilă care a
determinat apariţia simultană a celor doua variabile.

1.1. Pragul de semnificaţie (p)


În psihologie este necesară generalizarea concluziile studiilor. Astfel, după analiza rezultatelor
corelaţiei ne interesează să vedem dacă legătura găsită (la un grup de oameni) poate fi extinsă la
întreaga populaţie. Mai precis, ne interesează să ştim în ce măsură rezultatele se datorează întâmplării.
Pragul de semnificaţie, p, indică în ce măsură ne înşelăm atunci când afirmăm ceva. În cazul corelaţiei,
pragul de semnificaţie, indică dacă există o legătură între două sau mai multe variabile.

IMPORTANT
În cercetarea ştiinţifică se lucrează de obicei cu două praguri de semnificaţie, corespunzătoare
procentajului de eroare: pragul de 0,01 (1% eroare) şi pragul de 0,05 (5% eroare).

140
ANALIZA COMPUTERIZATĂ A DATELOR

În general, când se fac predicţii pot să apară patru situaţii, prezentate în tabelul de mai jos:
Evenimentul
Apare Nu apare
Predicţia Apare Corect Eroarea I
Evenimentului Nu apare Eroarea II Corect

Sunt două situaţii în care se poate greşi: când afirmăm că un eveniment se va produce şi în
realitate acesta nu va apărea (eroare de tip I) sau când afirmăm că un eveniment nu se va produce şi
aceste va apare (Eroare de tip II). Situaţia I corespunde minciunii, iar situaţia II corespunde ignoranţei.
Dacă vrem să evităm primul tip de greşeală care are consecinţe mai grave (de a demonstra ceva ce nu
există în realitate), alegem pragul de semnificaţie de 0,010 (prag de eroare de 1%). Dacă dorim însă să
avem mai multe şanse în a demonstra ceva şi consecinţele nu sunt grave în caz de greşeală, atunci se
preferă pragul de eroare de 5% (deci un p=0,050). În concluzie, vom considera un test statistic ca fiind
semnificativ dacă pragul de semnificaţie este mai mic sau cel mult egal cu valoarea 0,050.
În psihologie se lucrează cu două modalităţi de formulare a ipotezelor (non-direcţionale sau
direcţional). Ipotezele non-direcţionale sunt cele în care nu se precizează tipul de relaţie dintre
variabile. În testarea acestor ipoteze probabilitatea de eroare de 1% sau 5% se împarte la cele
extremităţi (cozi) ale distribuţiei scorurilor. Testul de semnificaţie pentru verificarea acestui tip de ipoteză
este TWO-TAILED. În cazul nostru ipoteza ar putea fi formulată non-direcţional astfel: există o legătură
între salariul iniţial şi final al subiecţilor. Ipotezele direcţionale sunt cele în care se precizează tipul de
modificare, cercetătorul se aşteaptă la un anumit rezultat. Pentru aceste ipoteze probabilitatea de
eroare se stabileşte la una dintre extremităţile distribuţiei. Testul de semnificaţie pentru verificarea
acestui tip de ipoteză este ONE-TAILED. Ipoteza din exemplul nostru ar putea fi formulată direcţional,
astfel: legătura dintre salariul iniţial şi final este pozitivă, cu cât salariul iniţial este mai mare cu atât şi
salariul final va fi mai mare.

1.2. Calcularea corelaţiei Pearson cu ajutorul SPSS

APLICAŢIE
Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nouă bază
de date “Baza2.sav”, care va cuprinde 3 variabile: STUDII (nivelul de studii al subiecţilor) cu trei valori 1
(studii generale), 2 (studii medii) şi 3 (studii superioare), Sal_in (salariul iniţial al subiecţilor) şi sal_fin
(salariul final al subiecţilor). aceste variabile au următoarele valori:
- studii:1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
- sal_in: 189, 198, 197, 168, 201, 185, 156, 175, 201, 220, 210, 214, 205, 301, 332, 341, 221,
206, 298, 301, 654, 214, 258, 245
- sal_fin: 201, 220, 205, 203, 185, 168, 178, 260, 280, 274, 298, 305, 582, 542, 392, 445, 401,
502, 403, 954, 425, 725, 625, 199

Pentru calculul corelaţiei se activează opţiunea BIVARIATE din meniul ANALIZE-


CORRELATE:

141
RUXANDRA-LOREDANA GHERASIM

Activarea comenzii va deschide următoarea fereastră:


2
1

4
5

Elementele principale ale ferestrei sunt:


1. câmpul care prezintă lista variabilelor din baza de date;
2. câmpul de analiză, unde se introduc variabilele ce vor fi analizate; se pot introduce mai multe
variabile, calculatorul afişând corelaţiile între variabilele luate două câte două;
3. în câmpul CORRELATION COEFFICIENTS se alege tipul de corelaţie: coeficientul Pearson
se foloseşte pentru date parametrice (variabile cantitative şi continui), coeficienţii KENDALL şi
SPEARMAN se folosesc pentru date categoriale şi ordinale.
4. câmpul TEST OF SEGNIFICANCE permite selectarea modului de testate a ipotezei (TWO-
TAILED sau ONE-TAILED); de obicei se foloseşte pragul TWO-TAILED în testarea ipotezelor de
cercetare cu ajutorul SPSS.
5. opţiunea FLAG SIGNIFICANCE CORRELATIONS are ca efect apariţia unui asterisc (*) în
dreptul corelaţiilor semnificative;
6. butonul OPTIONS este urmat de apariţia unei casete de dialog.

142
ANALIZA COMPUTERIZATĂ A DATELOR

Aceasta permite realizarea unei analize descriptive a datelor (STATISTICS) şi precizarea


modalităţii de tratament a datelor lipsă MISSING VALUES, prin excluderea din analiză a perechilor de
rezultate în care avem doar una dintre valori (EXCLUDE CASES PAIRWISE) sau de a exclude din
analiză un rând întreg dacă doar una dintre valori lipseşte (EXCLUDE CASES LISTWISE). Se
recomandă utilizarea primei variante selectată implicit.
Pentru baza de date creată vom analiza legătura dintre variabilele salariu iniţial şi final al
subiecţilor. Vom introduce variabilele SAL_INI şi SAL_FIN în câmpul din dreapta.

Coeficientul de corelaţie Pearson este selectat implicit de către calculator, la fel ca şi celelalte
opţiuni test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG
SIGNIFICANCE CORRELATIONS. După activarea butonului OK, în foaia OUTPUT sunt afişate
următoarele rezultate:

2
4
1
5
3

Se observă că cele două variabile apar pe coloane da şi pe linii.


Pe rândul 1 - PEARSON CORRELATION se găsesc valorile coeficienţilor de corelaţie dintre
două variabile
Pe rândul 2 - SIG. (2-TAILED) apare probabilitatea de eroare la respingerea ipotezei de nul şi
acceptare a ipotezei de cercetare
Rândul 3 - N conţine numărul de subiecţi care au scoruri la ambele variabile
În tabel apare legătura dintre fiecare variabilă şi ea însăşi (SAL_INI şi SAL_INI şi respectiv între
SAL_FIN şi SAL_FIN) dar şi legătura dintre cele două variabile (între SAL_INI şi SAL_FIN dar şi între
SAL_FIN şi SAL_ INI).
Prima celulă din stânga (notată cu 4) prezintă coeficientul de corelaţie între variabila salariul
iniţial şi salariul iniţial (SAL_INI şi SAL_INI). Între o variabilă şi ea însăşi apare o corelaţie perfect
pozitivă (r=1,0), dar lipsită de semnificaţie (nu apare nici un prag de semnificaţie). Acest coeficient de

143
RUXANDRA-LOREDANA GHERASIM

corelaţie nu aduce nici un fel de informaţie şi în consecinţă nu se analizează. La fel nu se analizează


corelaţia dintre variabila salariul final şi salariul final (SAL_FIN şi SAL_FIN).
În celula din dreapta sus apare coeficientul de corelaţie dintre salariul iniţial şi salariul final
(SAL_INI şi SAL_FIN), semnificaţia acestuia şi numărul de perechi de scoruri. Acelaşi rezultate apar şi
în celula din stânga jos care prezintă coeficientul de corelaţie dintre salariul final şi salariul iniţial
(SAL_FIN şi SAL_ INI).

IMPORTANT
Rezultatele din cele două celule sunt identice deoarece corelaţie este bidirecţională (corelaţia
dintre variabilele A şi B este acelaşi lucru cu cea dintre variabilele B şi A). În consecinţă rezultatul poate
fi extras din oricare din cele două celule.

Vom extrage datele pentru legătura dintre salariul iniţial şi salariul final al subiecţilor:
Interpretarea corelaţiei: r=0,81 (coeficientul de corelaţie), p0,001 (pragul de semnificaţie), N=24
(numărul de subiecţi).

1.3. Interpretarea coeficientului de corelaţie Pearson

IMPORTANT
Sunt mai multe elemente de care trebuie să se ţină seama în interpretarea corelaţiei:
 semnul corelaţiei: arată natura legăturii care există pozitive (dacă semnul este pozitiv) sau negative
(dacă semnul este negativ). În cazul nostru, semnul este pozitiv, ceea ce înseamnă că un salar iniţial
mic se asociază, după cinci ani, cu un salariu tot mic, un salar iniţial mediu se asociază cu un salar
final mediu şi un salar mare iniţial se asociază cu salariu mare final.
 mărimea absolută a coeficientului: descrie tăria legăturii care apare între variabile. Se consideră,
astfel, că legătura este slabă dacă valoarea absolută a lui r nu depăşeşte 0,30, legătura este medie
la o valoare a lui r cuprinsă între 0,30-0,50, legăturile puternice având o mărime absolută mai mare
de 0,50. În exemplul nostru, tăria legăturii este ridicată (r=0,81) coeficientul având valoare mi mare
de 0,50
 pragul de semnificaţie dacă este mai mic de 0,05, atunci putem considera că există o relaţie între
variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raportează un
p0,001, pentru a arăta că probabilitatea de a greşi este mai mică decât 0,1% (calculatorul ne
afişează doar primele trei zecimale). Putem spune că există o legătură semnificativă între nivelul
iniţial şi final al salariului subiecţilor, pragul de semnificaţie fiind mai mic de 0,05.
 proporţia de varianţă. Coeficientul de corelaţie ridicat la pătrat ne indică proporţia de varianţă
explicată de relaţia găsită. Proporţia de varianţă indică la ce procent din populaţia generală apare
relaţia. Pentru exemplu nostru proporţia de varianţă are valoarea 0,65 (r=0,81, deci r2=0,65). Se
observă că abia 65% din variaţia observată se întâlneşte în realitate, deci relaţia găsită este
prezentă la 65% dintre subiecţi.

Toate aceste elemente trebuie să apară în interpretare, pentru ca ea să fie completă.

144
ANALIZA COMPUTERIZATĂ A DATELOR

1.4. Graficul corelaţiei


Relaţia dintre două variabile poate fi reprezentată grafic sub forma unui nor de puncte. Practic,
graficul îl alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:

Vom alege un grafic simplu, care să ilustreze relaţia dintre două variabile, deci vom selecta
opţiunea SIMPLE. Se activează apoi butonul DEFINE, care deschide următoarea fereastră:

Se introduc cele două variabile în câmpurile axei X şi axei Y (nu contează ordinea în care se
introduc variabilele deoarece corelaţia este bidirecţională) şi apoi se apasă butonul OK.

Reprezentarea grafică a corelaţiei este următoarea:

145
RUXANDRA-LOREDANA GHERASIM

Reprezentarea grafică a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru
norul de puncte este ascendent crescător (din stânga-jos spre dreapta-sus) deoarece relaţia dintre
variabile este pozitivă, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are
valoare ridicată (r=0,81). Dacă relaţia ar fi fost invers proporţională, norul de puncte ar fi fost orientat
descrescător (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost
distribuite uniform pe grafic.

APLICAŢIE
Analizaţi legătura dintre variabilele nivel optimism şi nivel sociabilitate din baza de date BD1,
realizată în capitolul anterior.

2. COEFICIENTUL DE CORELAŢIE KENDALL'S TAU-B

DEFINIŢIE
Corelaţia Kendall`s Tau-B reprezintă o măsură non-parametrică a asocierii variabilelor ordinale
sau rangate care presupun cantităţi.

La fel ca şi în cazul corelaţiei Pearson, semnul coeficientului de corelaţie Kendall's tau-b indică
direcţia relaţiei, iar valoarea absolută a coeficientului indică puterea relaţiei. Cu cât valoarea
coeficientului este mai mare cu atât relaţia dintre variabile este mai mare. Acest coeficient de corelaţie
poate lua valori doar intre -1 şi 1.

Calcularea corelaţiei Kendall cu ajutorul SPSS


Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază
de date “Baza3.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), Prof_1
(evaluarea interesului elevilor faţă de şcoală de către primul profesorul) şi Prof_2 (evaluarea interesului
elevilor faţă de şcoală realizată de al doilea profesor). În tabelul următor prezentăm valorile acestor
variabile.

146
ANALIZA COMPUTERIZATĂ A DATELOR

Pentru a analiza legătura dintre evaluarea făcută de primul profesorul şi evaluarea realizată de
al doilea profesor (prof_1 şi prof_2), trebuie să folosim coeficientul de corelaţie Kendall's.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE, apoi se introduc variabilele prof_1 şi prof_2 în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Kendall's:

După confirmarea comenzii în foaia cu rezultate apare următorul tabel:

Se constată că apare o asociere pozitivă între variabile (r=0,60), elevii clasaţi pe primele locuri
de către primul profesor ocupă tot o poziţie fruntaşă din perspectiva celui de al doilea profesor.
Asocierea nu este însă semnificativă, p=0,091 posibila explicaţie fiind numărul mic de subiecţi din baza
de date.
Dacă ar fi apărut o asociere negativă dintre variabile (coeficientul de corelaţie ar fi fost negativ)
s-ar fi interpretat astfel: elevii plasaţi pe primele locuri de către primul profesor s-ar fi plasat în coada
clasamentului din perspectiva celui de al doilea profesor.

3. COEFICIENTUL DE CORELAŢIE SPEARMAN

DEFINIŢIE
Corelaţia Spearman este o măsurare non-parametrică a corelaţiei dintre două variabile ordinale.

147
RUXANDRA-LOREDANA GHERASIM

Pentru toate cazurile, valorile fiecărui tip de variabilă sunt rangate, de la cele mai mici la cele
mai mari. Se foloseşte atunci când nu este posibilă măsurarea caracteristicilor analizate ci doar
evaluarea lor, în asemenea manieră încât indivizii statistici să fie ordonaţi în funcţie de două criterii X şi
Y. Această evaluare presupune atribuirea de valori care indică ierarhia subiecţilor (cum ar fi primul, al
doilea, al treilea). Modalitatea de calcul a corelaţiei Spearman este similară coeficientului Pearson (de
fapt de aplică formula coeficientului Pearson). Acest coeficient de corelaţie mai este denumit şi
coeficient de corelaţie a rangurilor.

Calcularea corelaţiei Spearman cu ajutorul SPSS


Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nou bază
de date “Baza4.sav”, care va cuprinde 3 variabile: elevi (codul de identificare al elevilor), eval_i
(evaluarea de către profesori a interesul pentru şcoală) şi eval_re (evaluarea de către profesori a
relaţiilor cu ceilalţi elevi).

Pentru a analiza legătura dintre evaluarea interesului faţă de şcoală al elevilor şi evaluarea
relaţiilor cu ceilalţi colegi (eval_i şi eval_re) se foloseşte coeficientul de corelaţie Spearman.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE. Se introduc variabilele eval_i şi eval_re în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Spearman:

După confirmarea comenzii în foaia cu rezultate apare următorul tabel:

Se constată că apare o inversare a clasamentului, corelaţia având semn negativ, ceea ce


semnifică faptul că elevii plasaţi pe primele locuri ale variabilei interes pentru şcoală ocupă ultimele

148
ANALIZA COMPUTERIZATĂ A DATELOR

locuri după cel de al doilea criteriu, relaţii bune cu ceilalţi elevi. Inversarea clasamentului nu este
semnificativă, pragul de semnificaţie fiind mai mare de 0,050 (p=0,260).

149
ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 4.
SELECTAREA, RECODAREA ŞI TRANSFORMAREA VARIABILELOR

1. Comanda SELECT CASES

Uneori este necesară selectarea anumitor cazuri din populaţie pentru a face o prelucrare
statistică. Spre exemplu, vrem să vedem dacă legătura dintre salariul iniţial şi salariul final are aceeaşi
valoare la subiecţii care au studii generale. Subiecţii sunt împărţiţi în grupe în funcţie de nivelul de studii
(studii), fiind codificaţi cu 1 în baza de date.
Pentru a selecta numai subiecţii care au studii generale, se foloseşte comanda SELECT
CASES din meniul DATA. Activarea meniului este urmată de apariţia următoarei ferestre:

În câmpul din stânga al ferestrei sunt prezentate toate variabilele din baza de date. În dreapta
ferestrei apar mai multe opţiuni. Pe noi ne interesează opţiunea IF CONDITION IS SATISFIED,
deoarece vrem să selectăm numai cazurile care îndeplinesc o anumită condiţie (să aibă valoarea 1 la
variabila studii adică să fie numai subiecţi cu studii generale).
Această opţiune se alege cu un simplu click stânga al mouse-ului:

Se activează butonul IF, care deschide următoarea casetă de dialog:

Se selectează variabila în funcţie de ce se face selecţia şi se trece în câmpul dintre dreapta


sus. În cazul nostru se selectează variabila STUDII şi se trece în câmpul din dreapta:

151
RUXANDRA-LOREDANA GHERASIM

Se adăugă condiţia. Pentru exemplul nostru, variabila Studii trebuie să aibă numai valoarea 1
(STUDII=1). Se poate folosi tastatura sau se pot activa butoanele cu cifre şi semne ce se găsesc sub
acest câmp. Condiţia va arăta astfel:

Se apasă apoi butonul CONTINUE pentru a salva condiţia:

Se activează butonul OK, baza de date modificându-se, cum se poate observa şi în imaginea
de mai jos:

La sfârşitul bazei de date apare o nouă variabilă, intitulată FILTER_$, care indică rezultatul
selecţiei. Cazurile neselectate sunt “tăiate”, adică ele vor fi ignorate de la analiză. În partea din dreapta-

152
ANALIZA COMPUTERIZATĂ A DATELOR

jos a ecranului apare anunţul FILTER ON, care avertizează utilizatorul cu privire la activarea unei

comenzi de selecţie .

IMPORTANT
Selectarea datelor nu implică şi efectuarea analizei statistice. După selecţie trebuie făcută prelucrarea
statistică a datelor.

EXEMPLU
În cazul nostru trebuie utilizată comanda de analiză a corelaţiei dintre salariul iniţial şi cel final.
Se obţine următorul tabel în fereastra cu rezultate:

Rezultatul obţinut este următorul: r=0,69, p=0,056. În continuare vom interpreta aceste
rezultate:
 semnul corelaţiei: corelaţie pozitivă, legătura este direct proporţională. În cazul subiecţilor cu studii
generale se constată că nivelul mic al salariului iniţial se asociază cu un nivel mic al salariului final,
salariul iniţial mediu se asociază cu un salar final mediu, salariul iniţial mare se asociază cu un salar
final mare.
 mărimea absolută a coeficientului: puterea legăturii dintre cele două variabile este ridicată, valoarea
lui r depăşeşte valoarea de 0,50.
 pragul de semnificaţie: valoarea pragului de semnificaţie este mai mare de 0,050, deci nu există o
legătură semnificativă între salariul iniţial şi final al subiecţilor care au studii generale.
 proporţia de varianţă explicată de relaţia este r2=0,47, deci relaţia găsită apare la 47% dintre
subiecţii cu studii generale. Explicaţia lipsei de semnificaţie a corelaţiei dintre cele două variabile (în
condiţiile în care coeficientul de corelaţie are valoare ridicată) este numărul mic de subiecţi. Numărul
de subiecţi din analiză influenţează valoarea pragului de semnificaţie al corelaţiei dar nu şi puterea
legăturii dintre variabile.
După folosirea acestui “filtru” este indicată dezactivarea. Pentru dezactivarea selecţiei, se
deschide din nou în meniul iniţial DATA - SELECT CASES. În partea de jos a ferestrei se găseşte buton
RESET. Se activează apoi butonul OK, astfel, comanda de filtrare a datelor dispare.

APLICAŢIE
Analizaţi legătura dintre variabilele nivel sociabilitate şi nivel optimism, doar pentru subiecţii de
gen feminin (baza de date BD1).

153
RUXANDRA-LOREDANA GHERASIM

2. COMANDA SPLIT FILE

Uneori însă dorim să vedem ce se întâmplă pentru fiecare subgrup de subiecţi în parte. Pentru
baza de date BAZA2.sav, vom analiza legătura dintre variabilele salariul iniţial şi salariul final pentru
toate categoriile de subiecţi în funcţie de variabila STUDII (nu numai pentru subiecţii cu studii generale
dar şi pentru cei cu studii medii şi superioare). Pentru a nu repeta comanda SELECT CASES de multe
ori se poate utiliza o altă comandă din meniul DATA, şi anume comanda SPLIT FILE. Activarea
comenzii SPLIT FILE deschide următoarea fereastră:

Dintre opţiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS şi apoi, cu ajutorul
săgeţii, introducem variabila de grupare (STUDII) în câmpul care se activează sub această opţiune:

După apăsarea butonului OK, în partea dreaptă-jos a bazei de date apare anunţul SPLIT FILE
ON, care avertizează utilizatorii că baza de date este împărţită în funcţie de condiţiile (nivelurile)

variabilei de grupare . La fel ca şi în cazul comenzii SELECT CASES, simpla împărţire a bazei de
date nu asigură prelucrarea statistică. De aceea, trebuie folosită comanda CORRELATIOS pentru a
analiza legătura dintre variabilele salariu iniţial şi final al subiecţilor.
Rezultatele analizei statistice sunt prezentate separat, în fişierul OUTPUT, pentru fiecare
condiţie a variabilei independente: studii generale, medii şi superioare:
nivelul de studii al subiecţilor = studii generale

154
ANALIZA COMPUTERIZATĂ A DATELOR

nivelul de studii al subiecţilor = studii medii

nivelul de studii al subiecţilor = studii superioare

APLICAŢIE
Analizaţi legătura dintre variabilele nivel sociabilitate şi nivel optimism, atât pentru subiecţii de
gen feminin, cât şi pentru subiecţii de gen masculin (baza de date BD1).

3. RECODIFICAREA VARIABILELOR

Uneori este necesar ca scorurile brute obţinute de subiecţii unui studiu să fie transformate
pentru a putea verifica ipoteza studiului. Aplicaţia SPSS are o serie de comenzi care permit
transformarea sau recodificarea unei variabile cantitative într-o variabilă calitativă, prin crearea unei noi
variabile în baza de date sau modificarea valorilor unei variabile existente în baza de date.

EXEMPLU
Pentru a exemplifica utilizarea comenzilor de recodificare vom crea o nouă bază de date
(baza5.sav) care conţine mediile obţinute de elevi la sfârşitul anului şcolar. Valorile variabilei sunt:
Media: 8,03, 8,73, 9,19, 8,81, 7,88, 9,06, 9,04, 6,86, 7,69, 7,80, 8,06, 9,06, 7,71, 7,16, 8,88,
8,49, 7,78, 9,76, 8,10, 7,49, 7,79, 6,91, 6,81, 7,54
Vom împărţi elevii în două grupe (grupul elevilor cu performanţe bune şi grupul elevilor cu
performanţe slabe). Împărţirea elevilor în două grupe se realizează în funcţie de mediană, acest
indicator statistic împărţind şirul de scoruri în două parţi egale (proba medianei). Deci vom calcula mai
întâi valoarea medianei şi apoi vom împărţi subiecţii în grupe în funcţie de valoarea acestui indicator.
Pentru calculul medianei vom folosi comanda DESCRIPTIV STATISTICS– FREQUENCIES:

155
RUXANDRA-LOREDANA GHERASIM

Pentru exemplul nostru mediana are valoare 7,95. Subiecţii care au valori mai mici ca mediana
(7,95) vor forma grupul celor cu performanţe scăzute, iar subiecţii care au valori mai mari decât
mediana vor forma grupul celor cu performanţe ridicate. Pentru recodificarea variabilei MEDIA se
utilizează opţiunea RECODE care se găseşte la meniul TRANSFORM:

Comanda RECODE are două opţiuni de recodificare. Se poate păstra variabila ce urmează să
fie recodificată (INTO SAME VARIABLES) sau se poate crea o nouă variabilă (INTO DIFFERENT
VARIABLES).

3.1. Comanda RECODE INTO DIFFERENT VARIABLES


Selectăm opţiunea de creare a unei noi variabile care să cuprindă grupele obţinute în urma
recodificării. Se selectează opţiunea INTO DIFFERENT VARIABLES, ceea ce are ca urmare apariţia
următoarei casete de dialog:

3 2
1

5
4

1. câmpul care conţine variabilele din baza de date;


2. în câmpul NAME de la OUT VARIABLE se introduce numele variabilei create;
3 în câmpul INPUT VARIABLE →OUTPUT VARIABLE se introduce atât variabila ce urmează să fie
recodificată cât şi numele noii variabile;
4. butonul OLD AND NEW VALUE permite recodificarea variabilei iniţiale
5 butonul IF permite crearea unei noi variabile doar prin selecţia anumitor valori ale variabilei iniţiale

Pentru exemplul nostru vom trece


variabila pe care dorim să o recodificăm,
MEDIA, în câmpul din mijloc al ferestrei cu
ajutorul butonului de trecere. Vom denumi
noua variabilă NIVPERF. Noul nume se
tastează în câmpul NAME al câmpului
OUTPUT VARIABLE:

Pentru ca noul nume al variabilei să apară în câmpul din mijloc INPUT VARIABLE →OUTPUT
VARIABLE şi astfel să aibă loc recodificarea, se activează butonul CHANGE din câmpul OUTPUT
VARIABLE:

156
ANALIZA COMPUTERIZATĂ A DATELOR

Se activează butonul OLD AND NEW VALUE pentru a defini valorile noii variabile. Activarea
acestui buton deschide următoarea casetă de dialog:

Această fereastră prezintă mai multe câmpuri:


1. câmpul OLD VALUE se referă valorile variabilei iniţiale
2. câmpul NEW VALUE face referire la valorile noii variabile
3. în câmpul OLD→NEW se reunesc opţiunile de recodificarea a variabilelor
În exemplul nostru, trebuie ca valorile variabilei MEDIA (variabila iniţială) să le redefinim,
formând o nouă variabilă. Astfel, subiecţii care au obţinut scoruri mai mici decât mediana (7,95) vor
forma grupul subiecţilor cu performanţa scăzută, care va reprezenta valoarea 1 a variabilei NIVPERF
(ce va fi creată). În consecinţă, vom activa opţiunea RANGE, LOWEST THROUGH din câmpul OLD
VALUE şi vom trece în câmpul
activat valoarea medianei
(7,95). Cu alte cuvinte această
opţiune va însemna că toate
valorile variabilei MEDIA mai
mici de 7,95 vor fi recodificate,
prind valoarea în cadrul noii
variabile NIVPERF. În câmpul
NEW VALUE, în câmpul de
lângă opţiunea VALUE, vom
tasta valoarea 1:

157
RUXANDRA-LOREDANA GHERASIM

Se apasă apoi butonul ADD al câmpului OLD→NEW, pentru a putea recodifica următoarele
valori. Apoi se activează opţiunea
RANGE, THROUGH HIGHEST din
câmpul OLD VALUE şi se trece în
câmpul activat valoarea medianei
(7,95). Această opţiune va însemna
că valorile mai mari de 7,95 ale
variabilei MEDIA vor fi recodificate în
variabila NIVPERF primind valoarea
2. În consecinţă, în câmpul NEW
VALUE, în câmpul de lângă opţiunea
VALUE, vom tasta valoarea 2, după
cum se poate observa şi în imaginea
din dreapta.
Pentru a fi reţinută şi această a doua condiţie de recodificare, se acţionează din nou butonul
ADD din câmpul OLD→NEW. În concluzie, scorurile mai mici de 7,95 ale variabilei MEDIA vor primi
valoarea 1 în cadrul variabilei
NIVPERF, iar valorile mai mari de
7,95 ale variabilei MEDIA vor
reprezenta valoarea 2 al variabilei
NIVPERF, imaginea din stânga.
Se activează apoi butonul
CONTINUE şi butonul OK al
ferestrei RECODE INTO A
DIFFERENT VARIABLES, ceea
ce duce la modificarea bazei de
date, cum se poate observa şi în
imaginea din stânga.

Se observă că în baza de date apare noua variabilă NIVPERF, cu


două valori. Puteţi verifica dacă recodificarea a fost corect realizată în
imaginea din dreapta.

APLICAŢIE
Împărţiţi în două părţi scorurile subiecţilor la variabila nivel
sociabilitate, în care 1 va reprezenta nivel scăzut iar 2 va reprezenta nivel
ridicat (baza de date BD1).

Există posibilitatea de a împărţi valorile unei variabile în mai mult de


două grupe.

EXEMPLU
Pentru exemplificare vom împărţi scorurile la variabila MEDIA în trei
parţi egale. Prima treime va alcătui grupul subiecţilor cu performanţă
scăzută, a doua treime grupul subiecţilor cu performanţă medie, iar ultima
treime grupul subiecţilor cu performanţă ridicată. Pentru a putea face

158
ANALIZA COMPUTERIZATĂ A DATELOR

împărţirea, mai întâi trebuie să calculăm valorile corespunzătoare percentilelor care împart şirul de
scoruri în 3 parţi egale (fiecare parte reprezentând 33,33% din total). Se foloseşte comanda
DESCRIPTIV STATISTICS– FREQUENCIES. Din câmpul PERCENTILE VALUES se bifează opţiunea
PERCENTILE şi se introduc centilele care împart şirul de scoruri în 3 parţi egale (adică 33,33% şi
66,66%).

Subiecţii cu valori mai mici de 7,73 vor forma grupul celor cu performanţa scăzută (grupul 1), cei
cu valori cuprinse între 7,73 şi 8,64 vor forma grupul subiecţilor cu performanţă de nivel mediu (grupul
2), iar cei cu medii mai mari de 8,64 vor reprezenta grupului cu performanţa ridicată (grupul 3).
Pentru a crea această nouă variabilă se activează meniul TRANSFORM – RECODE - INTO
DIFFERENT VARIABLES. Vom denumi noua variabila NIVPERF2, tastând noul nume în câmpul NAME
al câmpului OUT VARIABLE şi
apoi activând butonul CHANGE.
În acest exemplu, scorurile
mai mici de 7,73 ale variabilei
MEDIA vor forma primul grupului 1,
adică nivelul 1 al noii variabile
NIVPERF2. Vom activa opţiunea
RANGE, LOWEST THROUGH din
câmpul OLD VALUE şi vom trece
în câmpul activat valoarea 7,73, iar
în câmpul NEW VALUE vom trece
valoarea 1. Se activează apoi
butonul ADD al câmpului OLD→NEW, pentru a putea introduce următoarea condiţie.
Valorile variabilei MEDIE
cuprinse între 7,73 şi 8,64 vor
reprezenta nivelul 2 al
variabilei NIVPERF2. Se
activează prima opţiune
RANGE THROUGH şi se
tastează valorile minime şi
maxime. În câmpul NEW
VALUE se trece valoarea 2,
cum se poate observa şi în
imaginea alăturată.
Activăm apoi butonul
ADD al câmpului OLD→NEW. Pentru crearea ultimului grup, care cuprinde valori mai mari de 8,64 se
activează opţiunea RANGE, THROUGH HIGHEST din câmpul OLD VALUE. În câmpul NEW VALUE se
trece valoarea 3, apoi se activează butonul ADD.
Se activează apoi butonul CONTINUE şi butonul OK al ferestrei RECODE INTO A DIFFERENT
VARIABLES, ceea ce duce la modificarea bazei de date, cum se poate observa şi în imaginea
alăturată:

159
RUXANDRA-LOREDANA GHERASIM

Se observă că în baza de date apare noua variabilă NIVPERF2,


cu trei valori.

3.2. COMANDA RECODE INTO SAME VARIABLES

Rezultate similare se obţin dacă se utilizează comanda


RECODE opţiunea INTO SAME VARIABLES, cu excepţia faptului că se
păstrează numele iniţial al variabilei recodificate. Pentru exemplificare
vom utiliza aceeaşi bază de date (baza5.sav) şi vom împărţi în două
scorurile subiecţilor. Activarea comenzii duce la apariţia casete de dialog:

În câmpul din stânga apar toate variabilele din baza de date, în câmpul din dreapta se introduc
variabilele pe care dorim să le recodificăm. În exemplu nostru vrem să recodificăm variabila Media.
Trecem variabila în câmpul din dreapta:

Se activează butonul OLD AND NEW VALUES, care are aceleaşi opţiuni ca în cazul opţiunii
anteriore de transformare într-o variabilă diferită:

160
ANALIZA COMPUTERIZATĂ A DATELOR

Recodificare se realiză la
fel ca în exemplu anterior, când am
utilizat opţiunea de recodificare
într-o altă variabilă (imaginea din
dreapta):

După confirmarea
recodificării să vedem modificările
din baza de date. Se constată că
s-au modificat valorile variabilei
MEDIA, aceasta având acum
aceleaşi valori ca şi variabila
NIVPERF. Acest lucru demonstrează că cele două opţiuni duc la acelaşi
rezultat (imaginea din dreapta).

TEMĂ DE REFLECŢIE
Comenzile Recode into different variables şi Recode into same
variables conduc la acelaşi rezultat. De ce ar fi uneori preferabil să folosim
Recode into different variable? Care este avantajul folosirii comenzii
Recode into same variable?

4. INVERSAREA VALORILOR VARIABILELOR

Comanda de recodificare poate fi utilizată şi pentru recodificarea


valorilor scorurilor obţinute la diferiţi itemi.
Pentru a exemplifica utilizarea acestor comenzi de
recodificare vom crea o nouă bază de date (baza6.sav)
care conţine patru variabile: NRCHEST (codul de
identificare), PRES (Câtă încredere aveţi în preşedinte?),
GUV (Câtă încredere aveţi în guvern?), PARLAM (Câtă
încredere aveţi în parlament?). Prezentăm scorurile
obţinute de 16 dintre subiecţi.
Pentru itemii 1 şi 3 subiecţii au răspuns pe o scală
de la 1 (foarte puţin) la 4 (foarte mult). La itemul 2, însă,
subiecţii au răspuns pe o scală de la 1 (foarte mult) la 4
(foarte puţin). Pentru a vedea atitudinea subiecţilor faţă de
instituţiile statului ar trebui să însumăm răspunsurile
subiecţilor de la cei 3 itemi. Pentru a putea face acest lucru
ar trebui ca răspunsurile de la itemul 2 să fie transformate,
pentru ca scala de evaluare să aibă aceeaşi semnificaţie cu a ceilalţi doi itemi (valoarea 1 să însemne
foarte puţin iar valoare 4 să însemne foarte mult).
Recodificarea în acest caz presupune inversarea scalei de evaluare pentru itemul 2, adică
valoarea 1 a itemului să devină 4 (ceea ce înseamnă foarte mult), valoarea 2 să devină 3, valoarea 3 să
devină 2, iar valoarea 4 a itemului să devină 1 (ceea ce înseamnă foarte puţin).

161
RUXANDRA-LOREDANA GHERASIM

Pentru recodificare ar putea fi utilizată oricare dintre cele două opţiuni prezentate anterior
RECODE INTO SAME
VARIABLES sau INTO
DIFFERENT VARIABLES. Vom
folosi comanda RECODE INTO
DIFFERENT VARIABLES pentru a
putea verifica dacă recodificarea a
fost realizată. Vom redenumi
variabila recodificată GUV_R:

Vom activa butonul OLD AND NEW VARIABLES. Pentru inversarea scalei de evaluare a
itemului vom folosi numai
opţiunile VALUE din câmpul
OLD VALUE şi NEW VALUE.
Astfel, valoarea 1 a vechii
variabile devine 4 pentru noua
variabilă, deci se tastează 1 în
dreptul opţiunii VALUE din
câmpul OLD VALUE şi cifra 4 în
dreptul opţiunii VALUE din
câmpul NEW VALUE.

Se activează butonul ADD din


câmpul OLD→NEW. Apoi se tastează 2 în
câmpul de la opţiunea VALUE din câmpul
OLD VALUE şi cifra 3 în câmpul de la
opţiunea VALUE din câmpul NEW VALUE:

La fel se procedează şi pentru celelalte valori care trebuie recodificate. În final trebuie să avem
următoarele transformări în câmpul OLD→NEW:

162
ANALIZA COMPUTERIZATĂ A DATELOR

După activarea butonului CONTINUE şi butonului OK al ferestrei principale, baza de date va


conţine o nouă variabilă (GUV_R) care conţine valorile inversate ale itemului 2:

5. CALCULAREA SCORULUI TOTAL – COMANDA TRANSFORM COMPUTE

Pentru a calcula scorul total la atitudinea faţă de instituţiile statului, trebuie să însumăm
scorurile subiecţilor obţinute la cei trei itemi. Pentru a putea face acest lucru se foloseşte meniul
TRANSFORM, opţiunea COMPUTE:

3
1

Prezentăm caracteristicile principale ale acestei ferestre:


1. în câmpul TARGET VARIABLE se tastează numele noii variabile
2. în acest câmp sunt prezentate variabilele din baza de date
3. în câmpul NUMERIC EXPRESSION se introduce formula de calcul a noii variabile; sub acest
câmp se găsesc butoane cu cifre şi semne, dar şi un câmp cu funcţii complexe care pot fi utilizate
pentru calculul noilor variabile.
Pentru exemplu nostru vom numi noua variabila ATIT, deci vom tasta numele noii variabile în
câmpul TARGET VARIABLE:

163
RUXANDRA-LOREDANA GHERASIM

Apoi vom scrie formula de calcul care va consta în însumarea scorurilor obţinute la cele trei
variabile: PRES, GUV_R şi PARLAM. Variabile sunt trecute în câmpul NUMERIC EXPRESSION
folosind butonul de trecere. Semnul plus se introduce de la tastatură sau folosind butoanele care se
găsesc sub câmpul NUMERIC EXPRESSION:

După activarea butonului OK în baza de date apare o nouă variabila, cu numele ATIT.

Această nouă variabilă reprezintă atitudinea subiecţilor faţă de instituţiile statului şi reprezintă
suma răspunsurilor la cei trei itemi.

164
RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 5.
ELEMENTE DE STATISTICĂ INFERENŢIALĂ – ASPECTE GENERALE

1. DISTRIBUŢIA NORMALĂ

Variabilitatea rezultatelor urmează reguli care pot fi modelate matematic. Dacă un fenomen
social observat este urmărit o perioadă de timp mai îndelungată, distribuţia rezultatelor se va face după
o curbă normală, iar acest lucru poate fi demonstrat matematic.

IMPORTANT
Există trei parametri ai unei distribuţii: modalitatea (indică valorile în jurul cărora se grupează
scorurile subiecţilor), înclinarea (indică tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arată
cât de mult variază scorurile distribuţiei).

Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită. În
plus, curba normală mai posedă anumite proprietăţi speciale. Astfel, matematicienii au pus la punct
formule care permit calcularea diferitelor suprafeţe ale curbei.

EXEMPLU:
Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor
la un test de inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. În
imaginea de mai jos ilustrăm grafic această distribuţie:

34% 34%

14% 14%
2% 2%

Scoruri brute 68 84 100 116 132


Scoruri z -2 -1 0 +1 +2
Dacă urmăriţi cu atenţie forma curbei normale veţi constata prezenţa unor „puncte de
inflexiune”, puncte în care linia curbă îşi modifică forma. Aceste puncte corespund deviaţiilor standard.
Întrucât distribuţia normală este simetrică, exact 50% din cazuri vor avea scoruri sub valoarea medie.
Aproximativ 34% din cazuri se vor afla între medie şi o abatere standard la stânga sau la dreapta
mediei. Astfel, vom şti că 34% dintre subiecţi au scoruri cuprinse între medie (100) şi o deviaţie
standard. Având o deviaţie standard de 16, vom şti că 34% dintre indivizi vor avea scorul cuprins între
100 şi 116 (cei cu IQ situat deasupra mediei) sau între 84 şi 100 (cei cu IQ situat dedesubtul mediei).
Observaţi, de asemenea, că şi mai puţine cazuri sunt mai depărtate de medie. Abia 16% din populaţie
vor avea scoruri mai mici sau mai mari de o deviaţie standard. Cu alte cuvinte, numai 16% dintre
oameni au coeficientul de inteligenţă mai scăzut de 84 sau mai ridicat de 116. Mai mult, doar
aproximativ 2% dintre indivizi vor avea scoruri şi mai extreme, mai mici sau mai mari decât două deviaţii
standard faţă de medie (adică sub valoarea 68 sau peste valoarea 132).

166
ANALIZA COMPUTERIZATĂ A DATELOR

Există o strânsă legătură între scorurile standard (notele z) şi diferite procentaje sau frecvenţe
relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai
mici sau mai mari decât al subiectului investigat. Orice manual de statistică are la sfârşit un tabel care
permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare notă Z, este precizat un
procent, care arată câţi subiecţi au scorurile cuprinse între medie şi nota Z. Să presupunem că o
persoană obţine la testul de inteligenţă scorul 125, putem calcula nota Z a acestui subiect, care are
valoarea 1,56 (după formula: (125-100)/16). Dacă vom consulta unul din tabelele de care aminteam
anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) şi
până la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arată că doar 5,94% dintre indivizi vor
avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât
subiectul ales de noi.

2. ETAPELE TESTĂRII UNEI IPOTEZE. TESTUL Z

Pentru a vedea cum se realizează inferenţa statistică, vom analiza cel mai simplu test, testul z.

DEFINIŢIE
Testul Z permite compararea unui eşantion format dintr-un singur caz cu o populaţie ai cărei
parametri sunt cunoscuţi.

Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a sintetizat
o vitamină care accelerează procesele de asimilaţie la copii nou-născuţi, aceştia dezvoltându-se mai
rapid. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciştii au dorit să
omologheze vitamina, dar pentru aceasta ei trebuie să demonstreze că într-adevăr vitamina
accelerează mersul copiilor. Farmaciştii au primit dreptul să administreze vitamina unui singur copil nou-
născut, ales aleatoriu din populaţie. Copilul respectiv, după administrarea vitaminei, a început să
meargă de la vârsta de 8 luni. Pot farmaciştii să susţină că vârsta precoce la care a mers copilul se
datorează vitaminei, ştiind că vârsta la care merg copii prima dată, în populaţia normală este de 14 luni,
cu o abatere standard de 3 luni?
Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la
distribuţia normală a variabilei alese în cadrul populaţiei şi să respectăm anumite etape pentru
verificarea raţionamentului. Prezentăm în continuare curba normală corespunzătoare vârstei de debut
de la care copiii încep să meargă:

34% 34%

14% 14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni

Pentru testarea ipotezei trebuie să parcurgem mai multe etape:


Etapa I: Reformularea problemei în termenii populaţiilor de comparaţie. Deşi avem doar un singur caz
pe care trebuie să îl comparăm cu o populaţie ai cărei parametri sunt cunoscuţi, ipotezele trebuie

167
RUXANDRA-LOREDANA GHERASIM

reformulate în termenii generali ai populaţiilor de comparat pentru a putea face generalizarea


ulterioară. Astfel, în exemplul nostru avem de comparat două populaţii: P0 – populaţia copiilor
normali care nu iau vitaminele şi P1 - populaţia copiilor normali care iau vitaminele. Vom formula
două ipoteze:
Ipoteza de lucru (experimentală): afirmă că noii născuţi care iau vitamina vor merge mai repede
decât cei care nu iau vitamina (H1: P0 < P1)
Ipoteza de nul: Este ipoteza care descrie situaţia în care intervenţia noastră (vitamina) nu are nici
un efect. Dacă vitamina nu ar avea nici un efect, cele două populaţii de copii ar merge la aceeaşi
vârstă. H0: P0 = P1
Într-o cercetare se testează de fapt ipoteza de nul pentru că ea descrie situaţia deja existentă
înainte intervenţiei sau situaţia în care nu am obţine nici un efect. Dacă ipoteza de nul este
respinsă, atunci putem accepta ipoteza de lucru.
Etapa II: Stabilirea parametrilor populaţiei de comparaţie şi a distribuţiei de comparaţie. Această etapă
presupune cunoaşterea parametrilor (media şi abaterea standard) populaţiei la care ne raportăm (în
cazul nostru distribuţia copiilor care nu iau vitamina). În mod obişnuit, fără nici o altă intervenţie,
copiii din populaţia normală merg la vârsta de 14 luni, cu o abatere standard de 3 luni. Distribuţia
acestei variabile este normală.
Etapa III: Stabilirea pragului de semnificaţie şi a notei z a punctului de „tăiere”. Orice ipoteză, mai ales
în domeniul ştiinţelor sociale, este testată la un anumit prag de semnificaţie. Acest prag de
semnificaţie arată probabilitatea de eroare cu care noi testăm ipoteza. Pragul de semnificaţie poate
fi de 1% (când dorim să fim mai precişi) sau de 5% (atunci când putem fi mai puţin exacţi).
Pentru această cercetare vom stabili un prag de semnificaţie de 1% întrucât efectele ei sunt
importante. După stabilirea pragului, trebuie să vedem care este nota Z corespunzătoare acestuia. Am
precizat anterior că fiecărui punct de pe curba de distribuţie normală îi corespunde o anumită notă
standard şi o anume distribuţie a cazurilor din populaţie faţă de acel punct. De exemplu, la o valoare Z
de 1 (adică 17 luni) se constată că 84% dintre copii merg la vârste mai mici de 17 luni, abia 16%
mergând mai târziu de această vârstă.
Există două de valori Z de corespunzătoare pragului 1%, una referitoare la scorurile mici (în
partea stângă a distribuţiei), care arată cei 1% dintre copii care merg cel mai timpuriu şi o altă valoare
referitoare la scorurile mari (în partea dreaptă a distribuţiei) care arată acei 1% dintre copii care merg
cel mai târziu. Pe noi ne interesează prima dintre aceste valori.

34%
34%
-2,33 14%
14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
Note z -2 -1 0 +1 +2
În tabelele statistice găsim valoarea scorului z (z=2,33) corespunzătoare probabilităţii de 1%
(numită şi punct de tăiere). În cazul nostru ea va fi –2,33 pentru că ne referim la scorurile mai mici decât
media, aflate în partea stângă a curbei de distribuţie.

168
ANALIZA COMPUTERIZATĂ A DATELOR

Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor
înseamnă a observa vârsta la care va merge copilul pentru prima dată (8 luni). Vom transforma scorul
subiectului la variabila vârstă în scor Z, prin raportare la distribuţia populaţiei normale de comparat
folosind formula notei Z (X-M)/SD), adică pentru exemplu nostru: Z=(8-14)/3)=-2
Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. După obţinerea scorul Z
corespunzător datelor colectate, acesta trebuie comparat cu scorul Z corespunzător punctului de tăiere.
În cazul nostru, nota Z (-2) corespunzătoare scorului brut este mai mare decât a notei Z a punctului de
tăiere (–2,33). În ipoteza noastră experimentală ne aşteptam ca nota Z corespunzătoare scorului brut să
fie mai mică decât valoare Z a punctului de tăiere. În consecinţă, acceptăm ipoteza de nul, ipoteza
experimentală neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit să dovedească, la un prag de
probabilitate de 1% că vitamina lor are efectul scontat.
Am prezentat testul Z pentru a înţelege logica testării ipotezelor şi înţelesul pragului de
semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.

3. TESTUL T PENTRU COMPARAREA UNUI EŞANTION CU MEDIA POPULAŢIEI

Acest test se aplică atunci când dorim să comparăm rezultatele unui eşantion cu media
populaţiei (fără să avem informaţii despre varianţa rezultatelor populaţiei).

APLICAŢIE
Pentru a vedea cum anume se foloseşte programul SPSS în această situaţie vom crea o nouă
bază de date (baza7.sav), care conţine trei variabile: regiune (zona geografică, cu valorile: 1-
europeană, 2-asiatică şi 3-africană), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea
populaţiei pe km2). Prezentăm în continuare valorile acestor variabile:
dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5,
283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221
ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, -
0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9
reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2

Dorim să comparăm scorurile eşantionului la variabila indice demografic cu media populaţiei,


care are valoarea 2,3. Media eşantionului nostru este mai mare sau mai mică comparativ cu cea a
populaţiei cu valoarea 2,3? Deoarece nu avem acces la alţi parametri ai populaţiei, în afară de medie
va trebui să estimăm variabilitatea sa. Vom aplica testul t pentru a compara un eşantion cu o populaţie
la care cunoaştem media.
Ipoteza de cercetare: Indicele demografic al eşantionul nostru va avea o avea o valoare diferită
de indicele demografic al populaţiei
Ipoteza de nul: indicele demografic al eşantionului va avea aceeaşi valoare cu cel al populaţiei

Folosirea SPSS pentru compararea unui eşantion cu media unei populaţii


Aplicarea testului t se face activând din meniul ANALYZE-COMPARE MEANS opţiunea ONE
SAMPLE T TESTS:

169
RUXANDRA-LOREDANA GHERASIM

După activarea acestei comenzi pe ecran apare următoarea fereastră:

2
1

Această fereastră are trei elementele importante:


1. câmpul cu toate variabilele din baza de date;
2. câmpul unde vom introduce variabilele pe care vrem să le analizăm
3. câmpul în care se introduce valoarea medie a populaţiei cu care comparăm eşantionul (cu
valoarea 2,3 pentru exemplul nostru).
Activare butonului OPTIONS duce la deschiderea următoarei ferestre:

Se observă că automat calculatorul a ales un interval de încredere (CONFIDENCE INTERVAL)


de 95%, ceea ce implică un prag de semnificaţie de 5%. Nu vom modifica pragul de semnificaţie. După
activarea butonului CONTINUE şi apoi a butonului OK al ferestrei principale, pe ecran va apare
fereastra de OUTPUT:
1
One-Sample Statistics 2
Std. Error
N Mean Std. Deviation Mean 3
procentul de crestere
37 1,489 1,149 ,189
anuala a populatiei

170
ANALIZA COMPUTERIZATĂ A DATELOR

One-Sample Test

Test Value = 2.3


95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
procentul de crestere
-4,294 36 ,000 -,811 -1,195 -,428
anuala a populatiei

4 5 6 7 8

Rezultatele sunt grupate în două tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine
elemente de statistică descriptivă. Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t
propriu-zis. În continuare vom analiza elementele OUTPUT-ului:
1. în această celulă este afişată media eşantionului, în cazul nostru m=1,49
2. în această celulă este afişată abaterea standard a eşantionului, SD=1,1
3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane
de aceeaşi mărime cu al nostru (37), populaţie din care provine eşantionul nostru, m=0,19
4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (m) 2,3 şi abaterea
standard (m) de 0,19. Valoarea lui t este obţinută după formula t=(m-  m )/  m =(1,49-2,3)/0,19-
4,26. Valoarea nu este identică cu cea din tabel datorită aproximărilor făcute.
5. cuprinde gradele de liberate pentru care a fost calculată valoarea lui t şi probabilitatea de respingere
a ipotezei de nul; în cazul nostru df=36
6. prezintă pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dacă
respingem ipoteza de nul şi acceptăm ipoteza de cercetare. În exemplu nostru valoarea pragului de
semnificaţie este 0,000, dar se raportează ca un p0,001, pentru a arăta că probabilitatea de a
greşi este mai mică de 0,1% (calculatorul ne afişează doar primele trei zecimale).
7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raportăm.
8. prezintă intervalul de încredere al diferenţei dintre cele două medii (-1,1 şi -0,4) corespunzător
pragului de semnificaţie de 5%.
În interpretarea statistică a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de
acre trebuie să ţinem seama:
 pragul de semnificaţie: care ne indică probabilitatea de eroare atunci când respingem ipoteza de nul.
Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie să fie mai mic sau cel mult
egal cu 0,05 (adică eroarea nu trebuie să fie mai mare de 5%).
 gradul de libertate: arată care este mărimea eşantionului pe care s-a făcut testarea ipotezei. Cu cât
eşantionul este mai mare, cu atât putem avea mai multă încredere în rezultatele obţinute, indiferent
dacă ele confirmă sau nu ipoteza;
 sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arată în ce sens
apare diferenţa (care medie este mai mare).
Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3,
Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p0,001.
Aceste rezultate indică faptul că diferenţa dintre medii este semnificativă, în sensul că media
eşantionului nostru este semnificativ mai mică comparativ cu cea a populaţie. Putem afirmă că
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al
populaţiei.
Să analizăm acum dacă scorurile la variabila densitate din eşantionul nostru diferă de cea a
populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indică următoarele rezultate:

171
RUXANDRA-LOREDANA GHERASIM

One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
Numar de oameni/
37 261,797 895,096 147,153
kilometru patrat

One-Sample Test

Test Value = 90
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Numar de oameni/
1,167 36 ,251 171,797 -126,643 470,237
kilometru patrat

Mediile: Meş=261,7, Mpop=90


Valoarea lui t şi pragul de semnificaţie: t(36)=1,16, p=0,251.
Rezultatele indică faptul că nu există diferenţe semnificative între densitatea medie a
eşantionului şi cea a populaţie, cu valoarea 90 (dacă am accepta ipoteza de cercetare am greşi în
25,1% din cazuri). Putem spune că avem densitatea eşantionului studiat de noi este aceeaşi cu cea a
populaţiei.

APLICAŢIE
Comparaţi rezultatele subiecţilor din eşantion cu rezultatele subiecţilor din populaţia cu o medie
de 16,3 la variabila nivel sociabilitate (baza de date BD1).

172
RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 6.
TESTELE T PENTRU COMPARAREA A DOUĂ EŞANTIOANE

1. Grupe independente vs. grupe perechi

În psihologia experimentală se face distincţie între grupele independente şi dependente de


subiecţi. Atunci când cercetătorul împarte subiecţii în grupe în funcţie de variabila independentă, fiecărui
grup prezentându-i un grad de intensitate al variabilei independente, avem de a face cu grupe
independente de subiecţi. Pentru fiecare nivel al variabilei independente vom avea câte un grup de
subiecţi. Astfel, dacă variabila independentă are două grade de intensitate, subiecţii vor fi împărţiţi în
două grupe, în final comparându-se rezultatele subiecţilor. Fiecare subiect va face parte dintr-un singur
grup experimental. Să presupunem că variabila independentă este tipul de feed-back, cu două grade de
intensitate, pozitiv şi negativ. Subiecţii vor fi împărţiţi în două grupe, condiţia de feed-back pozitiv şi
respectiv condiţia de feed-back pozitiv.
Există posibilitatea ca toate nivelurile variabilei independente să fie prezentate aceluiaşi
eşantion de subiecţi. Aceeaşi subiecţi vor trece prin toate condiţiile experimentale. În această situaţie
vom avea grupe perechi sau dependente de subiecţi. Subiecţii cărora le măsurăm anxietatea înainte
şi după intervenţia terapeutică formează eşantioane perechi. Cea mai simplă situaţie de comparare a
eşantioanelor este în situaţia de test-retest. De exemplu, măsurăm nivelul anxietăţii subiecţilor înainte şi
după terapie, pentru a vedea schimbările care apar ca urmare a intervenţiei terapeutice.
Nu cunoaştem nivelul mediu anxietăţii populaţie de subiecţi anxioşi înainte de a veni la terapie
şi nici nivelul mediu al anxietăţii după terapie. Ceea ce ştim este nivelul anxietăţii subiecţilor care au
venit la terapie, înainte şi după intervenţia terapeutică. Ceea ce ne interesează pe noi este de fapt
diferenţa dintre cele două măsurători ale anxietăţii, înainte şi după terapie.
Ipoteza de cercetare: susţine că vor fi diferenţe între cele două măsurători; ne aşteptăm ca
nivelul anxietăţii după terapie să fie mai mic decât cel iniţial.
Ipoteza de nul: diferenţele dintre cele două măsurători sunt nule, nu există nici o diferenţă între
nivelul iniţial şi cel final al anxietăţii.
Diferenţele dintre mediile celor două eşantioane vor forma un eşantion de comparaţie. Acest
eşantion al diferenţelor se compară cu o populaţie la care cunoaştem media (media are valoarea 0
conform ipotezei de nul).

2. Testul T pentru două eşantioane perechi

Folosirea SPSS pentru compararea a două eşantioane perechi


Pentru a demonstra modul de utilizare a testului t
pentru eşantioane perechi, vom folosi baza de date
Baza1.sav. Se utilizează testul t pentru eşantioane perechi,
pentru că avem rezultatele aceloraşi subiecţi înainte şi după
terapie.
Aplicarea testului t se face activând din meniul
ANALYZE – COMPARE MEANS opţiunea PAIRED-
SAMPLES T TEST:

Odată activată comanda va apare fereastra de mai jos:

174
ANALIZA COMPUTERIZATĂ A DATELOR

2
3

Prezentăm principalele opţiuni ale ferestrei:


1. câmpul din stânga cuprinde variabilele din baza de date
2. indică selecţia curentă, variabilele selectate pentru analiză; pentru acest tip de test se
selectează o pereche de variabile;
3. câmpul în care se introduc cele două variabile pereche
După introducerea variabilelor în câmpul de analiză fereastra ar trebui să arate astfel:

Butonul OPTIONS este identic cu cel de la testul t care permite compararea unui eşantion cu o
populaţie. Vom păstra intervalul de încredere de 95%.
După apăsarea butonului OK fereastra OUTPUT ne va prezenta următoarele rezultate:
3 4
Paired Samples Statistics

2 Std. Error 5
Mean N Std. Deviation Mean
1 Pair nivelul anxietatii
107,9000 20 6,0166 1,3454
1 inainte de terapie
nivelul anxietatii
107,9500 20 5,3062 1,1865
dupa terapie

6
Paired Samples Correlations
7
N Correlation Sig.
Pair nivelul anxietatii inainte
1 de terapie & nivelul 20 -,259 ,270
anxietatii dupa terapie

175
RUXANDRA-LOREDANA GHERASIM

10 Paired Samples Test 11 13

Paired Differences 12
9 95% Confidence
8 Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair nivelul anxietatii ina
1 de terapie - nivelul -0.05 8,9940 2,0111 -4,2593 4,1593 -,025 19 ,980
anxietatii dupa tera
14 15

Rezultatele sunt organizate în trei tabele, pentru fiecare dintre acestea vom analiza celulele.
Tabelul PAIRED SAMPLES STATISTICS:
1. conţine perechea de variabile analizată; variabilele trebuie să fie perechi, adică să provină de la
aceeaşi subiecţi şi fie cuantificate cu aceeaşi unitate de măsură
2. conţine mediile celor două grupe analizate: Mini=107,9, Mfin=107,95
3. prezintă numărul de subiecţi din fiecare eşantion, N=20
4. conţine deviaţiile standard a scorurilor fiecărui eşantion: Sini=60,1, Sfin=5,3
5. conţine abaterile standard ale populaţiilor de eşantioane de N subiecţi din care provin
eşantioanele noastre
Tabelul PAIRED SAMPLES CORRELATIONS
6. coeficientul de corelaţie dintre cele două variabile pereche
7. pragul de semnificaţie al corelaţiei, adică probabilitatea de eroare dacă am afirma că există o
legătură între cele două variabile
Tabelul PAIRED SAMPLES TESTS
8. conţine numele perechii de variabile şi precizează diferenţa dintre variabile, în cazul nostru
anx1-anx2
9. cuprinde diferenţa medie dintre cele două grupe de subiecţi. Valoarea negativă indică faptul că
anxietatea iniţială este mai mică comparativ cu cea finală
10. cuprinde abaterea standard a eşantionului rezultat din diferenţele celor două eşantioane
11. indică abaterea standard a populaţiei de eşantioane care cuprinde toate eşantioanele de
aceeaşi mărime
12. indică intervalul de încredere de 95%al diferenţei dintre mediile celor două grupe
13. valoarea lui t, adică nota t a eşantionului de diferenţe în cadrul populaţiei de eşantioane:
t(19)=-0,02
14. gradele de libertate pentru care este calculată nota t, df=19
15. pragul de semnificaţie sau probabilitatea de eroare atunci când respingem ipoteza de nul:
p=0,980

EXEMPLU:
În continuare prezentăm rezultatele obţinute în urma analizei realizată anterior:
Mediile iniţiale şi finale ale subiecţilor: Mini=107,9, Mfin=107,95
Valoarea lui t şi a pragului de semnificaţie: t(19)=-0,02, p=0,980.
Interpretarea se face în funcţie de valoarea lui t şi pragul de semnificaţie. Reamintim că pentru
a respinge ipoteza de nul trebuie să avem cel mult 5% erori (p0,05). În cazul nostru se constată că nu
apare o diferenţă semnificativă între nivelul iniţial şi cel final al anxietăţii (dacă am respinge ipoteza de
nul am greşi în 98% din cazuri sau cu alte cuvinte valoarea lui t se plasează în zona de încredere a
ipotezei de nul). Subiecţii au acelaşi nivel al anxietăţii după intervenţia terapeutică, astfel că putem
spune că terapia nu a avut efect, nu a îmbunătăţit starea subiecţilor.

176
ANALIZA COMPUTERIZATĂ A DATELOR

Corelaţia ne arată dacă subiecţii îşi schimbă ierarhia unii faţă de alţii, nu numai nivelul variabilei
dependente. Avem trei situaţii posibile:
 lipsa corelaţiei semnificative: în acest caz nu există o legătură între ierarhia subiecţilor la prima cu
cea de al două măsurare. Putem afirma că diferenţele între măsurători nu sunt sistematice,
intervenţia acţionând oarecum haotic.
 corelaţie pozitivă semnificativă: indică faptul că ierarhia subiecţilor se păstrează de la o măsurare la
alta. Cei care aveau rezultate mici la prima măsurare au rezultate mici şi la a doua, iar cei care
aveau rezultate mari la prima măsurare au rezultate mari şi la a doua măsurare.
 corelaţie negativă, semnificativă: indică faptul că ierarhia subiecţilor se inversează de la o măsurare
la alta. Cei care aveau rezultate mici la prima măsurare au rezultate mari la a doua, iar cei care
aveau rezultate mari la prima măsurare au rezultate mici la a doua măsurare.
În exemplu nostru avem prima situaţie corelaţie nesemnificativă, r=-0,25, p=0,270, ceea ce
indică faptul că cele două variabile sunt independente una de cealaltă, deoarece diferenţele nu sunt
sistematice.

APLICAŢIE
Comparaţi rezultatele subiecţilor la variabilele nivel optimism cu cele obţinute la variabila nivel
sociabilitate (baza de date BD1).

3. TESTUL T PENTRU COMPARAREA A DOUĂ EŞANTIOANE INDEPENDENTE

IMPORTANT
Se foloseşte când dorim să analizăm influenţa unei variabile independente, care presupune
eşantioane independente de subiecţi.

Pentru a demonstra modul de utilizare a testului vom folosi datele din baza de date baza1.sav.
Vom analiza dacă genul subiecţilor influenţează nivelul iniţial al anxietăţii pacienţilor. În acest caz
variabila independentă este genul subiecţilor (cu două grade de intensitate, 1 - subiecţi de sex masculin
şi 2 – subiecţi de gen feminin), variabila dependentă fiind nivelul iniţial al anxietăţii. În funcţie de
variabila independentă se creează două grupe de subiecţi independenţi sau diferiţi (grupul 1 va fi format
numai din subiecţii de gen masculin, iar grupul 2 numai din subiecţi de gen feminin). Fiecare subiect va
putea face parte doar dintr-un singur grup.
Ipoteza de cercetare: subiecţii de sex masculin vor avea un nivel al anxietăţii iniţiale diferit de
cel al subiecţilor de gen feminin
Ipoteza de nul: subiecţii de gen masculin şi feminin vor avea acelaşi nivel al anxietăţii iniţiale.

Folosirea SPSS pentru compararea a două eşantioane independente


Aplicarea testului t pentru eşantioane independente se face activând meniul ANALYZE –
COMPARE MEANS, opţiunea INDEPENDENT SAMPLES T TEST:

177
RUXANDRA-LOREDANA GHERASIM

Vom introduce variabila dependentă (nivelul anxietăţii înainte terapiei) în câmpul TEST
VARIABLE şi variabila independentă în câmpul GROUPING VARIABLE:

2
3
4

Sunt trei câmpurile importante pe care trebuie să le avem în vedere:


1. câmpul cu variabilele din baza de date
2. câmpul în care vom introduce variabila dependentă, adică variabila asupra căreia dorim să
analizăm influenţa variabilei independente.
3. câmpul unde introducem variabila independentă sau variabila de grupare (cea după care
grupăm subiecţii).
4. butonul care permite precizarea celor două niveluri ale variabilei independente; chiar dacă
variabila independentă are mai multe grade de intensitate, se pot preciza doar două dintre acestea.
Activarea butonului DEFINE GROUPS deschide o fereastră unde vom trece valorile
corespunzătoare celor două grupuri alese pentru comparaţie (în acest caz variabila independentă are
doar două niveluri 1 şi 2):

178
ANALIZA COMPUTERIZATĂ A DATELOR

În fereastra OUTPUT sunt prezentate următoarele rezultate:

1 2 Group Statistics 3 4
5
Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 104,8889 2,5712 ,8571
inainte de terapie subiecti de gen feminin 11 110,3636 6,9753 2,1031

Independent Samples Test

Levene's Test for


6 Equality of Variances t-test for Equality of Means
7
5% Confidence Interv
Mean Std. Error of the Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
nivelul anxietati Equal variance
6,683 ,019 -2,225 18 ,039 -5,4747 2,4605 -10,6442 -,3053
inainte de terap assumed
Equal variance
-2,411 13,144 ,031 -5,4747 2,2711 -10,3756 -,5739
not assumed

8 9 10 11

Vom prezenta succint semnificaţia datelor din tabele:


1. celula indică variabila dependentă (nivelul anxietăţii înainte de terapie) care este analizată în funcţie
de nivelurile variabilei independente (sexul subiecţilor)
2. indică numărul de subiecţi din fiecare grup independent; în cazul nostru avem 9 subiecţi de sex
masculin şi 11 de gen feminin
3. conţine media fiecărui grup independent, se observă că media grupului de subiecţi de gen feminin
este mai mare: Mgr1=104,8, Mgr2=110,3
4. conţine deviaţia standard pentru fiecare grup în parte: Sgr1=2,5, Sgr2=6,9
5. precizează deviaţia standard pentru populaţiile de eşantioane de N subiecţi din care provin grupele
noastre
6. precizează cele două situaţii posibile în urma testării varianţei populaţiilor: varianţe egale (primul
rând) sau varianţe inegale (al doilea rând)
7. arată valoarea testului F, Levene. Înainte de a analiza al doilea tabel, vom preciza faptul că testul
LEVENE testează egalitatea varianţelor populaţiilor din care provin eşantioanele noastre. Testul,
notat cu F, testează ipoteza de nul care afirmă că varianţele populaţiilor din care provin eşantioanele
sunt egale
8. probabilitatea de eroare pentru respingerea ipotezei de nul în cazul testului Levene
9. celula conţine valorile lui t pentru varianţe egale sau inegale ale populaţiilor; semnul lui t ne indică
sensul diferenţei dintre medii, fapt de care ne putem da seama uitându-ne la valorile mediilor
10. arată gradele de libertate pentru care a fost calculată semnificaţia notei t; indiferent de rândul pe
care îl citim, în funcţie de testul Levene, convenţia este ca să raportăm gradele de libertate de pe
primul rând (în cazul nostru df=18)
11. conţine pragul de semnificaţie sau probabilitatea de eroare care apare atunci când respingem
ipoteza de nul şi acceptăm ipoteza de cercetare. Pentru a respinge ipoteza de nul pragul de
semnificaţie trebuie să fie cel mult egal cu 0,05.
Interpretarea rezultatelor obţinute:
Mediile: subiecţii de gen masculin - Mgr1=104,8, subiecţi de gen feminin - Mgr2=110,3
Testul Levene are valoarea F=6,6, p=0,019, ceea ce indică faptul că putem respinge ipoteza de nul
(care afirmă că varianţele sunt egale). Greşim doar în 1,9% din cazuri dacă respingem ipoteza de

179
RUXANDRA-LOREDANA GHERASIM

nul. Concluzia este că variantele celor două populaţii sunt diferite, vom extrage nota t şi semnificaţia
de pe rândul EQUAL VARIANCES NOT ASSUMED.
Valoarea lui t şi semnificaţia: t(18)=-2,4, p=0,031. Putem respinge ipoteza de nul, pentru că greşim doar
în 3,1% din cazuri şi s acceptăm ipoteza de cercetare. Deci, apar diferenţe semnificative între nivelul
anxietăţii iniţiale a subiecţilor de gen masculin şi feminin. Subiecţii de sex masculin au un nivel al
anxietăţii semnificativ mai mic comparativ cu a celor de gen feminin.
Vom analiza efectul variabilei gen asupra nivelului anxietăţii subiecţilor după terapie.
Rezultatele obţinute sunt:
Group Statistics

Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 106,1111 4,0449 1,3483
dupa terapie subiecti de gen feminin 11 109,4545 5,9053 1,7805

Independent Samples Test

Levene's Test for


quality of Variance t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df ig. (2-tailedDifferenceDifference Lower Upper
nivelul anxie Equal varian
1,326 ,265 -1,441 18 ,167 -3,3434 2,3201 -8,2178 1,5309
dupa terapieassumed
Equal varian
-1,497 17,545 ,152 -3,3434 2,2334 -8,0444 1,3575
not assumed

Mediile celor două grupe: Mgr1=106,1, Mgr2=109,4


Testul LEVENE (F=1,3, p=0,256) este nesemnificativ (am greşi în 26,5% din cazuri dacă am
respinge ipoteza de nul care afirmă ă varianţele sunt egale). Deci varianţele celor două populaţii sunt
egale şi vom extrage rezultatele din primul rând.
t(18)=1,44, p=0,167. Valoarea lui t este nesemnificativă (am greşi în 16,7% din cazuri dacă am
respinge ipoteza de nul şi am accepta ipoteza de cercetare). Deci nu apar diferenţe semnificative între
nivelul anxietăţii bărbaţilor şi femeilor după terapie.

APLICAŢIE
Comparaţi rezultatele subiecţilor de gen feminin cu cele ale subiecţilor de gen masculin la
variabila nivel optimism (baza de date BD1).

180
RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 7.
ANALIZA DE VARIANŢĂ - ANOVA UNIFACTORIAL

IMPORTANT
Se foloseşte atunci când vrem să analizăm efectul unei variabile independente, care are mai
mult de două grade de intensitate (sau nivele), asupra variabilei dependente.

Pentru a înţelege logica acestei metode să luăm un exemplu. Să presupunem că suntem


interesaţi dacă salariul românilor depinde de nivelul de studii (nivel general, mediu şi superior). Mai
precis ne aşteptăm ca subiecţii cu studii medii să aibă un salar mai mic comparativ cu cei cu studii, dar
să aibă un salariu mai mare comparativ cu cei cu studii generale.
Reprezentarea grafică a situaţiei descrisă anterior este prezentată în imaginea de mai jos:

x
a

M1 M2 M3

MG
Cele trei linii curbe mici descriu distribuţia salariilor pentru cele trei categorii de studii, iar linia
curbă mai mare descrie distribuţia salariului pentru toate cele trei niveluri de studii luate la un loc. M1,
M2 şi M3 reprezintă salariul mediu pentru fiecare nivel de studii, iar MG este salariul mediu total al
tuturor salariaţilor. Distanţa a reprezintă poziţia scorului x faţă de media grupului din care aparţine, iar
distanţa b exprimă poziţia scorului x faţă de valoarea medie a populaţiei totale (formată din cele trei
niveluri de studii la un loc).
Variaţia totală a salariului populaţiei poate fi descompusă în două părţi: o parte din variaţie se
datorează abaterilor fiecărui scor de la media grupului din care face parte (distanţa a), iar cealaltă parte
din variaţie este produsă de abaterile fiecărui scor de la media totală a populaţiei. Pentru a distinge între
grupuri ar trebui ca prima componentă a variaţiei să fie mai mică decât cea de a doua, adică persoanele
aflate în acelaşi grup să difere mai puţin între ele şi mai mult de subiecţii din celelalte grupe. Atunci când
variaţia intragrup este mai mică decât variaţia intergrup înseamnă grupele sunt diferite.
Analiza de varianţă (simbolul este F, coeficientul Fisher), calculează raportul între variaţia
provocată de diferenţele întergrupuri, MSB, şi variaţia cauzată de diferenţele intragrup, MSW, (formula de
calcul este F=MSB/MSW) şi stabileşte dacă acest raport este suficient de mare pentru a putea distinge
între grupe. Semnificaţia coeficientului F se stabileşte în funcţie de două grade de libertate: gradele de
libertate intergrup (valoare dată de numărul de grupuri minus 1) şi gradele de liberate intragrup (valoare
dată de suma gradelor de libertate a grupurilor sau de numărul total de subiecţi mai puţin numărul
grupurilor).

182
ANALIZA COMPUTERIZATĂ A DATELOR

Folosirea SPSS - ANOVA unifactorial


Vom folosi baza de date Baza7.sav şi vom analiza efectul variabilei regiune (care are trei grade
de intensitate: 1-europeană, 2-asiatică şi 3-africană) asupra indicelui de creştere al populaţie.
Ipoteza de cercetare: variabila regiune influenţează valoarea densităţii populaţie sau indicele de
creştere va varia în funcţie de regiune.
Ipoteza de nul: indicele de creştere (densitatea) va avea aceeaşi valoare, indiferent de zona
geografică.
Pentru realizarea acestei analize se deschide meniul ANALYZE – COMPARE MEANS,
opţiunea ONE WAY ANOVA:

Vom introduce variabila dependentă (procentul de creştere al populaţie) în câmpul


DEPENDENT LIST şi variabila independentă în câmpul FACTOR:

2
1

6
4
5
Să analizăm fereastra:
1. câmpul în care sunt afişate variabilele din baza de date;
2. câmpul în care sunt introduse variabilele dependente (în cazul nostru densitatea);
3. este câmpul în care se introduce variabila independentă sau factor (în exemplul nostru factorul este
regiunea);
4. butonul CONTRAST permite realizarea unor comparaţii între grupe în funcţie de variabila
independentă;
5. butonul POST HOC permite alegerea unui anumit tip de contrast post-hoc;
6. butonul OPTIONS conţine elemente de statistică descriptivă.
Vom descrie pe scurt opţiunile butonului POST-HOC:

183
RUXANDRA-LOREDANA GHERASIM

Toate testele de la această opţiune indică dacă diferenţele obţinute pe ansamblu prin analiza
testului F se regăsesc şi la nivelul comparaţiilor dintre grupuri luate două câte două. Pragurile de
semnificaţie a acestor teste sunt ajustate în funcţie de numărul de grupe. Testele sunt prezentate în
ordinea descrescătoare a puterii lor. Pentru a analiza efectul variabilei independente asupra celei
dependente se foloseşte testul BONFERRONI.
Activarea butonului descriptiv deschide următoarea casetă:

Opţiunile pe care le vom bifa sunt DESCRIPTIV pentru a vedea mediile celor trei grupe şi
reprezentarea grafică a efectului MEANS PLOT.
După activarea butonului OK al ferestrei principale în foia cu rezultate apr următoarele tabele:
Descriptives

procentul de crestere anuala a populatiei

N Mean Std. Deviation


europa 15 ,433 ,376
asia 11 1,724 ,956
africa 11 2,693 ,564
Total 37 1,489 1,149

1 2 ANOVA

procentul de crestere anuala a populatiei


Sum of
Squares df Mean Square F Sig.
Between Groups 33,261 2 16,630 39,532 ,000
Within Groups 14,303 34 ,421
Total 47,564 36

3 4 5 6

184
ANALIZA COMPUTERIZATĂ A DATELOR

Multiple Comparisons

Dependent Variable: procentul de crestere anuala a populatiei


Bonferroni 11
9
7 8
Mean
Difference 95% Confidence Interval
(I) regiunea geografic (J) regiunea geografic (I-J) Std. Error Sig. Lower Bound Upper Bound
europa asia -1,290* ,257 ,000 -1,939 -,642
africa -2,259* ,257 ,000 -2,908 -1,611
asia europa 1,290* ,257 ,000 ,642 1,939
africa -,969* ,277 ,004 -1,666 -,273
africa europa 2,259* ,257 ,000 1,611 2,908
10 asia ,969* ,277 ,004 ,273 1,666
*. The mean difference is significant at the .05 level.

Vom prezenta succint semnificaţia datelor din tabele:


1. în prima coloană sunt trecute cele două componente ale variaţiei totale: cea intergrup şi intragrup;
2. în a doua coloană sunt trecute deviaţiile pătratice care intră în componenţa fiecărui tip de varianţă
(intergrup şi intragrup);
3. în această coloană sunt prezentate gradele de libertate pentru care se calculează valoarea prag a lui
F, gradul de libertate intergrup (sau between) este 2 (3 grupe-1), iar cel intragrup este 34 (numărul
total de subiecţi este 37 minus 3 numărul de grupe);
4. în această coloană sunt prezentate componente ale testului F;
5. conţine valoarea testului F obţinută prin împărţirea mediei varianţei intragrup la media varianţei
intergrup (în exemplul nostru: 16,6/0,4=39,5);
6. conţine semnificaţia testului F sau probabilitatea de eroare când respingem ipoteza de nul.
Din datele pe care le avem până acum, F(2,34)=39,5, p0,001, putem concluziona că pe
ansamblu, regiunea influenţează valoarea indicelui demografic. Putem spune că doar pe ansamblu se
întâmplă acest lucru pentru că rezultatele analizei ANOVA se referă doar la existenţa diferenţelor globale
dintre grupe, fără a preciza care sunt grupele între care apar diferenţe semnificative.
Pentru a vedea diferenţele dintre grupuri trebuie să analizăm rezultatele prezentate în tabelul
POST HOC TESTS:
7. prima coloană indică nivelul de referinţă al variabilei independente, faţă de care se face comparaţia.
Coloana este notată cu I.
8. coloana a doua indică nivele variabilei independente care sunt comparate cu nivelurile de referinţă.
Coloana este notată cu J.
9. coloana afişează valorile diferenţelor dintre coloana I şi J.
10. steluţa care apare în dreptul diferenţelor dintre medii indică existenţa unor diferenţe semnificative
între acestea.
11. coloana conţine valoarea exactă a pragului de semnificaţie pentru fiecare diferenţă.
Astfel, în exemplul nostru observăm următoarele rezultate:
Mgr1(Europa)-Mgr2(Asia)=-1,2, p0,001
Mgr1(Europa)-Mgr3(Africa)=-2,2, p0,001
Mgr2(Asia)-Mgr3(Africa)=-0,96, p=0,004
Între toate grupele apar diferenţe semnificative, cea mai mare valoarea a indicelui demografic îl
are regiunea africană (indicele este semnificativ mai mare comparativ cu celelalte două regiuni),
urmează apoi regiunea asiatică (indicele este semnificativ mai mare decât cel al regiunii europene, dar
mai mici decât cel al regiunii africane). Pe ultimul loc se plasează Europa cu cel mai mic (semnificativ
mai mic comparativ cu zona asiatică şi africană) indice demografic.
În imaginea de mai jos apare grafică a efectului:

185
RUXANDRA-LOREDANA GHERASIM

În continuare vom analiza efectul variabilei regiune asupra densităţii. Rezultatele obţinute sunt
următoarele:

ANOVA

Numar de oameni/ kilometru patrat


Sum of
Squares df Mean Square F Sig.
Between Groups 3133461 2 1566730,638 2,072 ,142
Within Groups 25709646 34 756166,057
Total 28843107 36

Multiple Comparisons

Dependent Variable: Numar de oameni/ kilometru patrat


Bonferroni

Mean
Difference
(I) regiunea geografica (J) regiunea geografica (I-J) Std. Error Sig.
europa asia -627,447 345,186 ,234
africa 21,172 345,186 1,000
asia europa 627,447 345,186 ,234
africa 648,618 370,789 ,268
africa europa -21,172 345,186 1,000
asia -648,618 370,789 ,268

Din tabelul ANOVA extragem valoarea şi semnificaţia lui F: F(2,34)=2,07, p=0,142. Constăm nu
există un efect al variabilei regiune asupra densităţii populaţiei (nu putem respinge ipoteza de nul pentru
că am greşi în 14,2% din cazuri). Deci, densitatea populaţiei este aproximativ aceeaşi indiferent de
regiune: europeană, asiatică sau africană.

186
ANALIZA COMPUTERIZATĂ A DATELOR

Testul POST HOC Bonferroni ne semnalează diferenţe semnificative între cele trei grupe care
se formează în funcţie de intensităţile variabilei independente.

187
ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 8.
ANALIZA DE VARIANŢĂ ANOVA UNIVARIATE

Cele mai multe studii realizate în domeniul psihologiei studiază efectul mai multor factori
(variabile independente) asupra uneia sau mai multor variabile dependente. Metodele prezentate până
acum (testele t şi ANOVA unifactorial) permit doar evidenţierea influenţei separate a fiecărui factor.
Pentru a analiza efectelor mai multor variabile independente se poate folosi analiza de varianţă
factorială. Logica acestei metode este identică cu a modelului ANOVA unifactorial, la fel coeficientul F
măsoară raportul dintre variaţia cauzată de împărţirea pe grupuri şi variaţia intrinsecă a grupurilor.
Acest tip de analiză prezintă două tipuri de note F corespunzătoare celor două tipuri de efecte
pe care le măsoară.

DEFINIŢIE
Efectele principale măsoară influenţa unei variabile independente asupra variabilei dependente,
indiferent de acţiunea celorlalte variabile independente. Efectele de interacţiune măsoară influenţa
combinată a două sau mai multor variabile independente asupra variabilei dependente.

Folosirea SPSS - GENERAL LINEAR MODEL - UNIVARIATE

APLICAŢIE
Pentru a prezenta modul de folosire al programului SPSS pentru aplicarea acestei metode vom
crea o nouă bază de date (baza8.sav) care conţine trei variabile: nota (notele obţinute de studenţi la
examen), niv_stim (nivelul stimei de sine, cu două valori: 1 - nivel scăzut al stimei de sine şi 2 – nivel
ridicat al stimei de sine), niv_anx (nivelul de anxietate cu două valori: 1 - nivel scăzut de anxietate
scăzut şi 2 nivel ridicat de anxietate). Prezentăm mai jos datele care trebuie introduse în programul
SPSS:
Nota: 9, 9, 8, 10, 9, 10, 6, 8, 7, 7, 6, 5, 6, 7, 8, 8, 8, 7, 10, 7, 8, 7, 8, 9, 6, 5, 7, 5, 6, 5, 8
Niv_stim: 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2
Niv_anx: 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1,1, 1, 1, 2, 2, 2, 2, 2, 2, 2

În acest exemplu avem două variabile independente niv_stim (nivelul stimei de sine) şi niv_anx
(nivelul de anxietate), fiecare din ele având două grade de intensitate. Variabila dependentă este nota
obţinută la examen.
Vom analiza efectul de interacţiune (sau combinat) al nivelului de anxietate şi al stimei de sine
asupra notei obţinute la examen.
Pentru analiza efectului combinat voma activa meniul ANALYZE - GENERAL LINEAR MODEL
opţiunea UNIVARIATE. Odată activată comanda pe ecran apare următoarea fereastră:

189
RUXANDRA-LOREDANA GHERASIM

1
4

Vom explica această fereastră:


1. conţine variabilele din baza de date
2. în câmpul DEPENDENT VARIABLE se introduce variabila dependentă; se poate introduce o singură
variabilă dependentă
3. în câmpul FIXED RACTOR se introduc variabilele independente (sau factorii) a căror efect este
controlat (nu este cauzat de întâmplare)
4. în câmpul RANDOM FACTOR pot si trecute variabilele independente, care nu ne interesează în mod
direct sau a căror acţiune nu o putem controla
5. în câmpul COVARIATE pot fi trecute variabile independente sau variabile dependente care ar putea
avea o legătură sau un efect asupra variabilei dependente; astfel vom vedea dacă variabilele
noastre independente (trecute în câmpul FIXED FACTORS) influenţează variabila dependentă
indiferent de acţiunea factorilor covarianţi.
6. aici se trec valorile pe care le
putem folosi atunci când
bănuim că unele variabile
independente (factori) ar
corela între ele; este o opţiune
pentru utilizatorii avansaţi şi nu
recomandăm folosirea metodei
fără cunoaşterea precisă a
semnificaţiei sale.
Pentru exemplul nostru,
variabilele independente sunt
nivelul stimei de sine (NIV_STIM)
şi nivelul anxietăţii (NIV_ANX),
deci vom trece aceste variabile în
câmpul FIXED FACTORS.
Variabila dependentă este NOTA
(vom trece această variabilă în
câmpul DEPENDENT VARIABLE:

190
ANALIZA COMPUTERIZATĂ A DATELOR

În partea dreaptă fereastra principală există o serie de butoane care conţin opţiuni complexe de
analiză. Precizăm nu vom folosi în analiză toate opţiunile, acestea putând fi folosite pentru design-uri
experimentale mult mai complexe.
Butonul MODEL activează următoarea fereastră:
2

Opţiunile din această fereastră folosesc la construirea unor modele de analiză în condiţiile în
care situaţia investigată este complicată (conţine multe variabile independente). Să analizăm fereastra:
1. opţiunea FULL FACTORIAL este marcată implicit, ceea ce înseamnă că se vor lua în calcul toate
efectele principale şi combinaţiile posibile de factori. Pentru modelele simple se recomandată
utilizarea acestei opţiuni
2. opţiunea CUSTOM se foloseşte dacă se doreşte simplificarea modelul cu care se lucrează, bifarea
acestei opţiune activează automat câmpurile şi butoanele care se găsesc dedesubt, permiţând
calculul anumitor efecte pentru anumiţi factori
3. folosind opţiunile care se deschid din câmpul INTERACTION, putem alege efectele pe care vrem să
le analizăm; cu ajutorul butonului cu săgeată se pot selecta factorii pentru care dorim să se calculeze
efectele.
4. permite alegerea tipului de interacţiune dintre variabilele independente (cât de complexă să fie
interacţiunea) şi calculul unor coeficienţi de regresie ai modelului (există o legătură strânsă între
Regresia liniară şi analiza de varianţă).
Pentru exemplul nostru, vom păstra opţiunea marcată implicită FULL FACTORIAL. Se apasă
butonul CONTINUE pentru a reveni la fereastra principală.
Butonul CONTRAST deschide următoarea fereastră:

Opţiunile acestei ferestre permit compararea diferitelor grupuri rezultate din împărţirea
subiecţilor în funcţie de valorile sau categoriile variabilelor independente. Aici sunt trecute doar
variabilele independente. Se alege variabila independentă pentru care se doreşte calculul contrastul
(diferenţa dintre nivelele sale de variaţie). Apoi, se alege tipul de contrast din câmpul CONTRAST. Se
recomandă tipul de contrast DIFFERENCE.
Pentru exemplificare, am ales variabila NIV_STIM (nivelul stimei de sine).

191
RUXANDRA-LOREDANA GHERASIM

Prin tipul de contrast DIFFERENCE, se cere programului să analizeze dacă între cele două
nivele ale variabilei nivel al stimei de sine vor apărea diferenţe în ceea ce priveşte notele obţinute. Cu
alte cuvinte vom vedea dacă cei cu stimă de sine ridicată obţin note diferite de cei cu stimă de sine
scăzută). După alegerea tipului de contrast trebuie activat butonul CHANGE.

La fel se procedează şi pentru variabila independentă nivelul anxietăţii.

Butonul PLOTS activează o fereastră dedicată reprezentărilor grafice:

192
ANALIZA COMPUTERIZATĂ A DATELOR

Pe axa HORIZONTAL AXIS se introduce variabila independentă ale cărei categorii dorim să le
reprezentăm pe axa X.
Pe axa SEPARATE LINES se introduce variabila pentru care se vor trasa linii ce vor reprezenta
categorii diferite ale factorului.
SEPARATE PLOTS se foloseşte introducerea celui de al treilea factor, ceea ce permite
obţinerea mai multor grafice, care indică relaţia dintre variabilele introduse anterior pentru fiecare nivel
al factorului trei.
În exemplul nostru avem doar doi
factori. În consecinţă vom reprezenta notele la
examen în funcţie de nivelul stimei de sine,
NIV_STIM (pe care o vom trece pe axa X) şi
nivelul anxietăţii, NIV_ANX (reprezentată prin
linii separate), ca în imaginea alăturată:

Se activează butonul ADD. Acest buton


permite realizarea mai multor grafice, deoarece
în urma activării acestuia câmpurile ferestrei se
golesc.

Revenim din nou în fereastra principală pentru a activa butonul POST HOC care va deschide
fereastra:

Acest buton are opţiuni similare cu butonul POST HOC din fereastra ANOVA ONE-WAY.
Această opţiune se foloseşte doar când variabile independente au mai mult de două nivele de variaţie.
Pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.

193
RUXANDRA-LOREDANA GHERASIM

Pentru exemplul nostru nu avem nevoie de comparaţii POST HOC, deoarece ambele variabile
independente au doar două nivel. Vom reveni la fereastra principală fără a activa vreo opţiune.
Butonul SAVE activează următoarea fereastră:
Opţiunile la care face referire acest buton se referă la o
altă metodă statistică numită Regresia liniară. Nu vom mai
comenta aceste opţiuni, dar menţionăm că ele facilitează
tratarea analizei de variantă ca un model particular de regresie.
Recomandăm folosirea acestor opţiuni doar celor care cunosc
regresia.
Butonul OPTIONS activează o fereastră specifică
acestei analize de varianţă:

Prezentăm elementele principale ale ferestrei:


1. prezintă toate combinaţiile de factori pentru care avem grupuri diferite de subiecţi, permiţând
calcularea mediei pentru fiecare grup de subiecţi în parte. Opţiunea OVERALL se referă la media
calculată pentru toţi subiecţii, neîmpărţiţi în grupuri
2. este câmpul în care se trec factorii pentru care dorim să calculăm mediile grupurilor de subiecţi
3. prezintă opţiuni ce permit calcularea mai multor parametri. Dintre toate, ne interesează calculul
parametrilor descriptivi (media, deviaţia standard, minimul şi maximul), precum şi testele de
omogenitate (care trebuie să nu fie semnificative pentru a putea aplica acest model ANOVA).
După selecţia opţiunilor fereastră arată astfel:

194
ANALIZA COMPUTERIZATĂ A DATELOR

În continuare vom prezenta foaia cu rezultate. Primele elemente ale output-ului se referă la
parametrii descriptivi ai modelului. Primul tabel precizează numărul de subiecţi pentru fiecare grup
obţinut în funcţie de nivelurile fiecărei variabile independente. De exemplu, sunt 16 subiecţi în grupul
celor cu nivel scăzut al stimei de sine.

Al doilea tabel precizează mediile totale precum şi cele corespunzătoare fiecărui subgrup de
subiecţi, subgrup determinat de categoriile factorilor din model. Aceste date sunt rezultatul opţiunilor
marcate de noi din fereastra butonului OPTIONS.

Mai departe, în foaia de rezultate sunt prezentate elementele cele mai importante ale
outputului, rezultatele testului F.

Tabelul cu testul lui Levene reprezintă tocmai testul de omogenitate, care trebuie să fie
nesemnificativ pentru a utiliza această metodă.

3
4 2

Cele mai importante elemente ale tabelului se referă la testul F. Ne interesează numai liniile
marcate prin acolade.
1. arată variabilele ale căror efecte le luăm în calcul:

195
RUXANDRA-LOREDANA GHERASIM

 linia cu NIV_STIM arată efectul principal al factorului nivelul stimei de sine, indiferent de acţiunea
celuilalt factor;
 NIV_ANX arată efectul principal al factorului nivel de anxietate, indiferent de acţiunea celuilalt
factor;
 linia NIV_STIM*NIV_ANX se referă la efectul de interacţiune al celor două variabile asupra
variabilei dependente;
2. conţine notele F corespunzătoare efectelor principale şi de interacţiune;
3. conţine pragurile de semnificaţie ale testelor F.
4. conţine gradele de libertate between subjects şi within subjects
Pentru exemplu nostru s-a obţinut doar un singur F semnificativ (p<0,05) şi anume cel
corespunzător liniei NIV_STIM (F(1,30)=22,13, p<0,001). Deci apare un efect principal al variabilei
nivelul stimei de sine asupra notelor la examen. Restul efectelor sunt nesemnificative. Nu apare un
efect principal al variabilei nivelul anxietăţii (F(1,30)=2,7, p=0,107), deci notele subiecţilor nu depinde de
cât de anxioşi sunt aceştia. De asemenea, nu apare un efect de interacţiune al variabilelor
independente nivelul stimei de sine şi nivelul anxietăţii (F(1,30)=0,02, p=0,881), deci nota la examen nu
este influenţată de efectul combinat al nivelului de anxietate şi al stimei de sine.
Pentru a vedea modul
în care nivelul stimei de sine
(NIV_STIM) influenţează nota la
examen, trebuie să ne uităm în
tabelul de contrast:
Testul de contrast
calculează diferenţa între media
notelor obţinute de subiecţii cu
nivel ridicat al stimei de sine şi a
celor cu nivel scăzut al stimei
de sine (LEVEL 2 vs. LEVEL l).
Această diferenţă a fost comparată cu situaţia în care cele două grupuri ar fi obţinut valoarea zero
(HYPOTHESIZED VALUE). Pragul de semnificaţie (notat cu SIG) indică apariţia unei diferenţe
semnificative. Sensul diferenţei (-1,93) indică faptul că cei cu nivel ridicat al stimei de sine (LEVEL 2) au
obţinut note mai semnificativ mai mici comparativ cu cei cu nivel ridicat al stimei de sine (LEVEL 1).
Tabelul alăturat reia
analiza contrastelor pentru
factorul nivelul anxietăţii:
Aici nu mai apar
diferenţe semnificative (fapt
confirmat şi de lipsa unui efect
principal pentru această
variabilă), deci nivelul anxietăţii
nu afectează nota la examen
(Mdif=-0,68, p=0,107).
Următoarele tabelele
prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru fiecare factor în parte (tabelele
2 şi 3) şi cele pentru grupurile de subiecţi rezultat al combinării nivelurilor celor două variabile
independente. Aceste tabele ajută la interpretarea sensului diferenţelor la testele de contrast şi
interacţiunii variabilelor. Tabelele prezintă şi deviaţiile standard şi limitele valorii medii pentru un interval
de încredere de 95%.

196
ANALIZA COMPUTERIZATĂ A DATELOR

La finalul foii de rezultate apare reprezentarea grafică a interacţiunii dintre variabilele


independente:

Liniile graficului reprezintă nivelurile diferite de anxietate. Efectul principal al variabilei


NIV_STIM poate fi observat grafic cu uşurinţă: notele obţinute de subiecţii cu stimă de sine ridicată au
valoare mai mică comparativ cu cei care au stimă de sine scăzută. Putem concluziona, pentru exemplul
nostru, că nota la examen este influenţată de nivelul stimei de sine dar nu şi de nivelul anxietăţii. Mai
mult, nivelul stimei de sine acţionează asupra notei la examen în acelaşi mod indiferent de nivelul
anxietăţii.

197
ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 9.
ANALIZA DE VARIANŢĂ ANOVA REPEATED MEASURES

Modelul ANOVA UNIVARIATE prezentat anterior permite analiza efectului de interacţiune a


două variabile independente care presupun grupe independente de subiecţi.

IMPORTANT
Atunci când una dintre variabilele independente presupune eşantioane perechi sau măsurări
repetate, trebuie să utilizăm un alt model de analiză de varianţă, şi anume modelul ANOVA cu măsurări
repetate.

Acest model de analiză de varianţă se utilizează atunci când se doreşte analiza efectului de
interacţiune a două variabile independente, una presupunând eşantioane independente, iar cealaltă
măsurări repetate. La fel ca şi modelul de varianţă prezentat anterior şi acest tip de analiză prezintă
două tipuri de note F corespunzătoare tipurilor de efect măsurate. Efectele principale măsoară influenţa
fiecărei variabile independente asupra variabilei dependente, indiferent de acţiunea altei variabile
independente. Efectele de interacţiune măsoară influenţa combinată a două sau mai multor variabile
independente asupra variabilei dependente.

FOLOSIREA SPSS - GENERAL LINEAR MODEL – REPETED MEASURES

APLICAŢIE
Pentru a prezenta modul de utilizare a programului SPSS pentru aplicarea acestei metode vom
crea o nouă bază de date (baza 8.sav) care conţine trei variabile: ANX1 (scorurile pacienţilor la scala de
anxietate înaintea terapiei, ANX2 (scorurile pacienţilor la scala de anxietate după terapie), şi TERAPIE
(tipul de terapie utilizat, cu două valori care corespund celor două tipuri de intervenţii terapeutice 1- tip 1
de terapie şi 2 - tip 2 terapie). Prezentăm mai jos datele, care trebuie introduse în programul SPSS:
ANX1: 109, 110, 104, 106, 112, 105, 121, 102, 103, 104, 106, 104, 105, 108, 124, 115, 109,
103, 104, 104
ANX2: 110, 102, 103, 105, 115, 116, 110, 110, 112, 103, 102, 104, 110, 110, 102, 102, 102,
109, 115, 117
TERAPIE: 1, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2

Variabila dependentă este reprezentat de scorurile obţinute la scala de măsurare a anxietăţii


înainte şi după terapie. Variabila independentă tip de terapie (TERAPIE) are două nivele (tip 1 de
terapie şi tip 2 terapie) şi presupune eşantioane independente. Pentru a analiza efectul terapiei asupra
stării pacienţilor trebuie să comparăm nivelul iniţial şi cel final al anxietăţii pacienţilor. Astfel, se
formează o nouă variabilă independentă, cu măsurări repetate, pe care o vom denumit TRT. Această
variabilă independente se referă la momentul măsurării anxietăţii pacienţilor şi are două niveluri, 1 –
pretest (înainte terapiei) şi 2 posttest (după terapie). Scopul cercetării ar putea fi analiza eficienţei
intervenţiilor terapeutice asupra nivelului anxietăţii.

199
RUXANDRA-LOREDANA GHERASIM

Activarea comenzilor pentru acest model ANOVA se face din meniul ANALYZE - GENERAL
LINEAR MODEL opţiunea REPETED MEASURES. După activarea comenzii, pe ecran apare fereastra
alăturată:

Pentru a putea face analiza trebuie definită variabila care presupune măsurări repetate, în cazul
nostru această variabilă este măsurarea repetată a anxietăţii înainte şi după terapie (sau test-retest). Cu
alte cuvinte trebuie denumită variabila independentă care presupune măsurări repetate şi trebuie
precizate nivelurile acesteia. În locul denumirii generice a
variabilei care presupune măsurări repetate, care apare în
câmpul WITHIN-SUBJECTS FACTOR NAME (factor 1)
vom trece numele noii variabile TRT. În câmpul NUMBER
OF LEVEL trebuie trecut numărul de măsurători repetate.
Pentru exemplul nostru vom trece valoarea 2 pentru că
anxietatea este măsurată înainte şi după terapie (vezi
imaginea din dreapta):

Se activează butonul ADD, pentru a putea


utiliza metoda şi defini variabilele independente (vezi
imaginea din stânga):

După salvarea definirii factorului cu măsurări


repetate se activează butonul DEFINE, care activat
deschide o nouă fereastră:

Vom prezenta câmpurile acestei ferestre:

200
ANALIZA COMPUTERIZATĂ A DATELOR

1. este câmpul ce conţine variabilele din baza de date;


2. aici se introduc variabilele care reprezintă niveluri ale variabilei independente cu măsurări repetate;
3. în acest câmp introducem variabilele independente care presupun eşantioane independente;
4. se introduc variabile independente sau dependente care ar putea avea legătură sau ar influenţa
variabila dependentă.
În cazul nostru variabilele ANX1 şi ANX2 reprezintă nivelurile variabilei TRT, în consecinţă
aceste variabile se introduc în câmpul WITHIN-SUBJECTS VARIABLES (TRT).
Variabila tip de terapie (TERAPIE) se introduce în câmpul BETWEEN-SUBJECTS FACTOR,
această variabilă presupunând grupe independente de subiecţi şi reprezentând variabila factor.

În partea de jos a ferestrei principale apar o serie de butoane care conţin opţiuni complexe de
analiză. Opţiunile sunt similare celor care au apărut în modelul de analiză de varianţă prezentat anterior
ANOVA UNIVARIATE.
Butonul MODEL activează următoarea fereastră:

Opţiunile din această fereastră folosesc la construirea unor modele în condiţiile în care situaţia
investigată este prea complicată. Pentru exemplul nostru, vom păstra opţiunea selectată implicit FULL
FACTORIAL, ceea ce va însemna că în foia cu rezultate vor apărea atât efectele principale ale celor
două variabile independente cât şi efectul de interacţiune al acestora.

201
RUXANDRA-LOREDANA GHERASIM

Butonul CONTRAST activează următoarea casetă de dialog


(imaginea din dreapta):
Se observă că deja este selectat tipul de contrast pentru
variabila independentă care presupune măsurări repetate (TRT
Polynomial). Trebuie să alegem tipul de contrast pentru variabila
TERAPIE, care presupune două niveluri. Vom selecta tipul de
contrast Difference.
Butonul PLOTS activează o fereastră dedicată
reprezentărilor grafice. Vom reprezenta nivelul anxietăţii pacienţilor
în funcţie de tipul terapiei (pe care o vom trece pe axa X) şi
momentul evaluării anxietăţii TRT (reprezentată prin linii separate)
(imaginea din dreapta):
Se activează apoi butonul ADD pentru ca aplicaţia SPSS să
reţină reprezentarea grafică a interacţiunii dintre variabilele
independente:

Butonul POST HOC deschide următoarea fereastră:

Acest buton are opţiuni similare butonului POST HOC din fereastra ANOVA ONE-WAY şi
UNIVARIATE. Opţiunea se foloseşte atunci când variabile independente au mai mult de două nivele de
variaţie. De asemenea, pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparaţii POST-HOC, pentru că variabilele
independente au doar două niveluri. În consecinţă, vom reveni la fereastra principală fără a activa vreo
opţiune.

202
ANALIZA COMPUTERIZATĂ A DATELOR

Butonul SAVE activează următoarea fereastră:

La fel ca la ANOVA UNIVARIATE, butonul se referă la o altă metodă statistică numită Regresia
liniară, facilitând tratarea analizei de variantă ca un model particular de regresie. Recomandăm folosirea
acestor opţiuni doar celor care cunosc regresia.
Butonul OPTIONS activează o fereastră
specifică analizei de variantă:

La OPTIONS avem posibilitatea de a cere


calculatorului să ne afişeze mediile grupelor de
subiecţi în funcţie de fiecare variabilă
independentă, precum şi în funcţie ambele
variabile, deci pentru fiecare grup experimental.
În continuare vom prezenta foaia cu
rezultate. Primele elemente ale output-ului se
referă la parametrii descriptivi ai modelului. Primul
tabel precizează nivelurile (ANX1 şi ANX2)
variabilei cu măsurări repetate (TRT).

Al doilea tabel precizează numărul de subiecţi pentru fiecare grup obţinut în funcţie de nivelurile
factorului care presupune eşantioane independente:

Următorul tabel precizează mediile pentru fiecare subgrup de subiecţi format în funcţie de toate
categoriile factorilor din model.

203
RUXANDRA-LOREDANA GHERASIM

Următoarele două tabele prezintă efectele principale şi de interacţiune ale variabilelor


independente. La fel ca şi la modelul de analiză de varianţă anterior se extrag valorile coeficienţilor F,
pragul de semnificaţie şi gradele de libertate.

În primul tabel se constată că nu apare un efect al variabilei TRT (p>0,050), ceea ce indică
faptul că nivelului iniţial al anxietăţii pacienţilor nu diferă de nivelul final al anxietăţii pacienţilor după
terapie (F(1,18)=0,006, p=0,940). Faptul că subiecţii au acelaşi nivel al anxietăţii după intervenţia
terapeutică indică faptul că terapia utilizată nu a avut efect.
De asemenea, nu apare un efect combinat al variabilelor independente, TRT*TERAPIE
(F(1,18)=0,267, p=0,661). Deci subiecţii au acelaşi nivel al anxietăţii înainte şi după terapie, indiferent
de tipul de terapie utilizat.
Următorul tabel indică efectul variabilei independente tip de terapie, fără a ţine seama de
momentul măsurării F(1,18)=13,23, p=0,002. Se constată că apare un efect principal al acestei
variabilei independente asupra nivelului anxietăţii pacienţilor după terapie.
Pentru a vedea cum
influenţează tipul de terapie nivelul
anxietăţii pacienţilor vom analiza
tabelul Custom Hypothesis.
Astfel, pacienţii care au primit
tipul 2 de terapie au un nivel al
anxietăţii semnificativ mai ridicat
comparativ cu pacienţii care au primit
terapia de tip 1 (Mdif=4,40, p=0,002).

Următoarele tabelele prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru
fiecare factor în parte (tabelele 2 şi 3) şi pentru grupele de subiecţi obţinute în urma combinării
nivelurilor celor două variabile independente (tabelul 4). Aceste tabele ajută la interpretarea sensului

204
ANALIZA COMPUTERIZATĂ A DATELOR

diferenţelor la testele de contrast şi interacţiunii variabilelor. Tabelele prezintă şi deviaţiile standard şi


limitele valorii medii pentru un interval de încredere de 95%.

La finalul foii de rezultate apare reprezentarea grafică a interacţiunii dintre variabilele


independente:

Liniile graficului reprezintă momentele măsurării anxietăţii. Efectul principal al variabilei


TERAPIE poate fi observat grafic cu uşurinţă.

205
ANALIZA COMPUTERIZATĂ A DATELOR

Unitatea de învăţare 10.


DATELE NON-PARAMETRICE

Datele non-parametrice sunt mai frecvent utilizate în sociologie decât în psihologie, Deoarece
avem de a face cu scale nominale sau ordinale, parametrii obişnuiţi pe care i-am folosit până acum în
analiză, precum media sau abaterea standard, nu mai pot fi utilizaţi. În consecinţă, datele pe care le
obţinem folosind aceste scale de măsură nu mai pot fi analizate folosind metodele prezentate anterior.

IMPORTANT
Aceste date se analizează pornind de la frecvenţele de apariţie ale diferitelor categorii sau de la
probabilităţile de apariţie ale acestor categorii. Metodele statistice utilizate pentru analiza acestor date
sunt numite teste non-parametrice.

Aplicarea acestor teste este mai facilă decât folosirea testelor parametrice, deoarece nu există
restricţii cu privire la distribuirea normală a rezultatelor. Totuşi, aceste metode pot eşua mai uşor în
demonstrarea diferenţele, acolo unde acestea există în realitate. Din acest motiv, recomandăm
conceperea instrumentelor utilizând scalele de interval în locul celor nominale sau ordinale. De
exemplu, în locul măsurării preferinţei pentru un anume tip de muzică folosind o scală ordinală de tipul
„1-deloc, 2-puţin, 3-mediu, 4-mult, 5-foarte mult", este mai indicată măsurarea pe o scală de interval de
tipul „1-deloc -2-3-4-5 - foarte mult". În acest fel, pot fi uşor detectate diferenţele folosind metodele
parametrice.
Vom prezenta câteva dintre metodele non-parametrice, fără a intra în detaliile teoretice privind
aceste teste.

1. TESTUL CHI PĂTRAT

DEFINIŢIE
Testul chi-pătrat permite compararea distribuţiei frecvenţelor unei variabile pe mai multe
categorii, prin raportare la o distribuţie teoretică stabilită de cercetător.

Testul compară abaterile de la această distribuţie teoretică obţinute în realitate şi estimează


probabilitatea ca ele să apară aleatoriu.

Folosirea SPSS

APLICAŢIE
Pentru a demonstra modul de aplicare al acestei metode vom crea o nouă bază de date
(baza9.sav) care cuprinde următoarele variabile: VRST (vârsta subiecţilor), GEN (genul subiecţilor, cu
două valori: 1 semnifică subiecţi de gen masculin şi 2 subiecţi de gen feminin) şi VOT (cuprinde
răspunsurile subiecţilor la întrebarea „Cu cine aţi votat la ultimele alegeri prezidenţiale?, cu două valori:
1 indicând persoanele care au votat pe Geoană, iar 2 indicând pe cei care au votat Băsescu) şi variabila
GR_MULT (conţine răspunsurile subiecţilor la întrebarea „Cât de mulţumiţi sunteţi de situaţia actuală a

207
RUXANDRA-LOREDANA GHERASIM

ţării?”, cu două valori: 1 - deloc mulţumit, 2 - puţin mulţumit şi 3 - foarte mulţumit). Prezentăm scorurile
subiecţilor la cele patru variabile:
VRST: 45, 23, 54, 19, 22, 34, 37, 62, 36, 41, 47, 51, 38, 27, 35, 43, 32, 29
GEN: 1, 1, 2, 2, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2
VOT: 2, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 21, 2, 2, 2
GR_MULT: 1, 2, 3, 1, 1, 1, 3, 3, 3, 2, 2, 2, 1, 3, 2, 2, 2, 1

În exemplul nostru, dorim să vedem cu cine au votat alegătorii din lotul nostru la ultimele alegeri
prezidenţiale. Deci, vom compara frecvenţa cu care oamenii au votat cei doi candidaţi, folosind testul chi
pătrat.
Vom activa fereastra specifică testului din meniul ANALYZE - NONPARAMETRIC TESTS
opţiunea CHI-SQUARE:

Vom introduce variabila VOT în câmpul pentru analiză (TEST VARIABLES LIST).
Se observă faptul că în câmpul EXPECTED VALUES este bifată opţiunea ALL CATEGORIES
EQUAL, ceea ce semnifică faptul că se va compara situaţia reală a votului cu situaţia în care candidaţii
ar obţine acelaşi număr de voturi.
Dacă însă doream să comparăm distribuţia cu o alta, în care categoriile nu s-ar mai fi distribuit
egal, atunci foloseam opţiunea VALUES şi butonul ADD.
Rezultatele testului apar în foaia cu rezultate sub forma a două tabele:

În primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvenţa
observată, cea teoretică la care se face raportarea şi abaterile frecvenţei observate de la frecvenţa
teoretică (coloana RESIDUALS).

208
ANALIZA COMPUTERIZATĂ A DATELOR

Valoarea statistică a testului, prezentată în tabelul al doilea (  2  5,55 ), este semnificativă


(p=0,018) la un grad de libertate. Deci oamenii au votat în mod semnificativ diferit cei doi candidaţi la
preşedinţie. Semnificativ mai mulţi oameni au votat pe Băsescu ca preşedinte comparativ cu cei care l-
au votat pe Geoană.

2. TWO INDEPENDENT SAMPLES

Aceste teste sunt echivalentul testului t pentru eşantioane independente, doar că în acest caz
variabila dependentă măsurată nu este cantitativă, ci calitativă şi ordinală. Toate testele non-
parametrice ce compară două eşantioane independente au la bază comparaţii ale rangurilor diferitelor
intervale observate.

Folosirea SPSS
Pentru a ilustra aplicarea testului vom utiliza baza de date creată anterior (baza9.sav). Vom
analiza dacă apr diferenţe între subiecţii de gen masculin şi cei de gen feminin în ceea ce priveşte
gradul de mulţumire faţă de situaţia actuală a ţării.
Testul se activează din meniul ANALYZE - NON-PARAMETRIC TESTS opţiunea TWO
INDEPENDENT SAMPLES:

Fereastra care apare pe ecran semănă foarte mult cu cea care apare la activarea testului t
pentru eşantioane independente. Dintre cele patru tipuri de teste, vom folosi MANN-WHITNEY U, care
se bazează pe ierarhia rangurilor observaţiilor din cele două grupuri.
Vom trece variabila dependentă (GR_MULT) în câmpul TEST VARIABLE LIST, iar variabila
independentă (GEN) în câmpul GROUPING VARIABLE. Grupurile variabilei independente se definesc
folosind butonul DEFINE GROUPS, la fel ca şi în cazul testului t.
În foaia cu rezultate apar următoarele tabele:

209
RUXANDRA-LOREDANA GHERASIM

Observaţi că stilul de prezentare al rezultatelor este similar cu cel de la testul chi-pătrat. în


primul tabel este prezentată situaţia „descriptivă" (media rangurilor), iar valoarea pragului de
semnificaţie a testului este dată în tabelul al doilea (linia denumită ASYMP. SIG).
Astfel, rangul mediu pentru subiecţii de gen masculin are valoare 9,83, pentru cei de gen
feminin are valoarea 9,17. Valoarea pragului de semnificaţie (p=0,778) este mai mare de 0,050, deci
putem trage concluzia că femeile şi bărbaţii din studiul nostru nu diferă semnificativ în ceea ce priveşte
gradul de mulţumire cu privire la situaţia actuală a ţării.
Dacă diferenţele ar fi fost semnificative (p<0,05), sensul diferenţei ar fi fost dat de semnul notei
Z, scrisă imediat deasupra valorii pragului de semnificaţie.

3. TWO RELATED SAMPLES

Metodele care compară două eşantioane perechi sunt similare aplicării testului t pentru
eşantioane perechi.

APLICAŢIE
Pentru a ilustra aplicarea acestui test vom folosi o nouă bază de date (baza10.sav) care
cuprinde două variabile: ALINATA (cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia
alianţei în integrarea europeană”; variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă) şi PSD
(cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia alianţei în integrarea europeană”,
variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă). Prezentăm rezultatele subiecţilor:
Alinata: 1, 1, 2, 3, 1, 1, 3, 2, 2, 2, 1, 1, 2, 2, 3, 3, 1, 3, 1, 1, 3, 2, 2, 2, 2, 2
PSD: 2, 3, 1, 1, 3, 2, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2

Dorim să vedem dacă subiecţii au o părere mai bună despre unul dintre cele două partide
politice. Deoarece subiecţii răspund la ambele întrebări trebuie aplicată o metodă care să permită
compararea eşantioanelor perechi.
Se foloseşte din meniul NON PARAMETRIC TESTS opţiunea TWO RELATED SAMPLES.
Fereastra seamănă cu cea a testului t pentru eşantioane perechi. Ca şi la acest test, trebuie
selectată o pereche de variabile pentru analiză, pentru a se activa opţiunile ferestrei.
Pentru exemplul nostru vom selecta variabile ALIANTA şi PSD şi le vom trece în câmpul din
stânga:

210
ANALIZA COMPUTERIZATĂ A DATELOR

Vom utiliza testul WILCOXON, care se bazează pe rangul valorilor absolute al diferenţelor
dintre două variabile, comparând separat diferenţele pozitive şi negative.
Prezentarea rezultatelor testului, în foaia cu rezultate, se face în două tabele, unul pentru
valorile descriptive şi altul pentru semnificaţia testului, ca mai jos:

În primul tabel apare media şi suma rangurilor diferenţelor pozitive şi negative, precum şi
cazurile în care scorurile sunt la egalitate. Indicii de sub acest tabel arată sensul diferenţelor.
Din al doilea tabel observăm că testul este nesemnificativ (p=0,281). Aceste rezultat indică
faptul că oamenii consideră ca ambele partide contribuie la fel de mult la integrarea României în
Uniunea Europeană.

211

S-ar putea să vă placă și