Documente Academic
Documente Profesional
Documente Cultură
Unitatea de învăţare 1.
FAMILIARIZAREA CU PROGRAMUL SPSS 22.0
Variabile sunt definite ca proprietăţi ale fenomenelor, obiectelor sau proceselor, care pot lua
diferite valori. Există mai multe criterii în funcţie de care se pot clasifica variabilele:
1. după natura măsurii variabilele pot fi:
- cantitative (variază cantitativ, cum ar fi de exemplu greutatea sau vârsta subiecţilor)
- calitative (sunt cele care variază calitativ, cum ar fi genul sau etnia subiecţilor);
2. după felul variaţiei, variabilele pot fi:
- continui (teoretic pot lua orice valoarea, între două valori ale variabilei putând să apară o a treia
valoare; vârsta subiecţilor este un exemplu de variabilă continuă)
- discrete (pot avea numai anumite valori, între care nu mai apar altele; religia, tipurile
temperamentale sunt exemple de variabile discontinui);
3. după scopul folosirii lor în studii experimentale:
- independente (sunt variabilele manipulate de experimentator şi care se presupune că influenţează
variabila dependentă)
- dependente (reprezintă răspunsurile subiecţilor).
O variabilă poate lua diferite valori. Valoarea reprezintă o măsură calitativă sau cantitativă a
unui fenomen. În psihologie se face distincţia între valori şi scoruri. Scorul este valoarea obţinută de o
persoană, fenomen sau obiect atunci când ne referim la o anume variabilă.
EXEMPLU
Pentru variabila “nota şcolară” valorile acesteia sunt toate notele de la 1 la 10. Pentru variabila
“zilele săptămânii” valorile sunt toate cele şapte zile ale săptămânii. Nota pe care o obţine un elev la o
materie (să zicem 7) reprezintă scorul subiectului la variabila “nota şcolară”.
SPSS este numele unui pachet de programe care ajută la analiza datelor obţinute în
cercetările din domeniul ştiinţelor sociale.
Deschiderea programului se poate face cu ajutorul mouse-ului, cu dublu-click asupra
121
RUXANDRA-LOREDANA GHERASIM
Prima bară din partea de sus a ferestrei oferă informaţii despre denumirea aplicaţiei şi numele
fişierului cu care se lucrează. Urmează bara de meniuri a programului şi cea cu butoane.
Foia cu date este organizată tabelar. Întotdeauna coloanele tabelului reprezintă variabilele
studiului, în timp ce liniile, rândurile numerotate ale tabelului reprezintă subiecţii cercetării. În partea de
jos a ferestrei sunt două opţiuni: DATA
VIEW şi VARIABLE VIEW. Putem
vizualiza datele brute ale subiecţilor,
dacă este activă opţiunea DATA VIEW
sau putem vizualiza descrierea
variabilelor introduse în baza de date,
dacă este activată opţiunea VARIABLE
VIEW. De obicei, atunci când deschidem
programul, este activă opţiunea DATA
VIEW, cum se poate observa şi în
imaginea de mai sus. Printr-un simplu click
stânga pe opţiunea VARIABLE VIEW, pe
ecran apare un alt tabel care permite
definirea variabilelor din baza de date:
122
ANALIZA COMPUTERIZATĂ A DATELOR
Din meniul FILE putem alege comanda deschidere a unei noi baze de date (opţiunea NEW
DATA) sau a unei noi foi de rezultate (NEW OUTPUT):
Acest program prezintă rezultatele prelucrărilor statistice într-o pagină separată, numită
OUTPUT. Comenzile care sunt colorate în gri sunt comenzi inactive pentru că baza de date nu conţine,
deocamdată, nici o informaţie.
Din acest meniu putem deschide, folosind opţiunea
OPEN, o bază de date care a fost creată anterior (DATA) sau un
fişier cu rezultatele prelucrărilor statistice anteriore (OUTPUT).
Comanda SAVE permite salvarea obişnuită a fişierului cu
date sau cu rezultate, comanda SAVE AS permite salvarea unui
fişier modificându-i numele. Opţiunile RECENTLY USED DATA şi
RECENTLY USED FILES deschid bazele de date şi foile cu
rezultate recent create sau utilizate în programul SPSS.
Din meniul EDIT, comenzile COPY, CUT şi PASTE sunt
folosite pentru copierea sau mutarea datelor din celule, rânduri sau
coloane. Copierea sau mutarea datelor presupune selectarea
datelor, activarea comenzii COPY/CUT din meniul EDIT, plasarea
cursorului în noua locaţie şi apoi activarea comenzii PASTE.
Pentru deschiderea unei baze de date create anterior se activează meniul FILE/OPEN opţiunea
DATA. După activarea comenzii
pe ecran apare o casetă de
dialog care permite selectarea
directorului şi respectiv fişierului
care conţine baza de date. Vom
deschide fişierul opinii.sav (în
aplicaţia SPSS, fişierele cu
baze de date au întotdeauna
extensia sav) care se găseşte la
adresa C:\MY DOCUMENTS\EXEMPLE
SPSS. În momentul încărcării
bazei de date pe ecran va
apărea următoarea imagine:
123
RUXANDRA-LOREDANA GHERASIM
Valorile din baza de date reprezintă răspunsurile brute ale subiecţilor. Pe coloane sunt definite
variabilele. În această bază de date
avem pe coloană variabile (ca de
exemplu, gr_mult, prezent, viitor,
directie, guv, parlam), valorile
numerice din fiecare coloană
reprezentând scorurile subiecţilor la
aceste variabile. Rândurile conţin
răspunsurile subiecţilor la diferiţi
itemi. De exemplu, subiectul de pe
rândul 9 are valoare 3 la variabila
gr_mult, valoarea 3 la variabila
prezent, 4 la variabila viitor etc.
Pentru a vedea ce înseamnă
fiecare dintre aceste variabile trebuie
activată opţiunea VARIABLE VIEW:
Variabilele sunt aşezate pe rânduri, coloanele reprezentând diferite caracteristici ale
variabilelor. De exemplu, variabila gr_mult este o variabilă de tip numeric, cu 20 de caractere la partea
întreaga şi 0 zecimale, reprezentând itemul „Cât de mulţumit sunteţi în general de felul în care trăiţi?”.
Pentru a crea o nouă bază de date trebuie activată opţiunea DATA VIEW.
APLICAŢIE
Creaţi o baza de date care să conţină rezultatele la
anxietate obţinute de un număr de subiecţi, înainte şi după
intervenţia terapeutică (anxietatea a fost măsurată cu ajutorul
unei scale de anxietate). La studiu au participat subiecţi de
gen feminin şi masculin. Baza de date va conţine patru
variabile: numărul subiecţilor (nrsub), nivelul anxietăţii
subiecţilor înaintea terapiei (ANX1) şi nivelul anxietăţii
subiecţilor după terapie (ANX2) şi genul subiecţilor (1-subiecţi
de gen masculin şi 2-subiecţi de gen feminin).
124
ANALIZA COMPUTERIZATĂ A DATELOR
La fel se vor introduce şi celelalte valori ale primei variabile. Pentru a utiliza cu uşurinţă datele
este indicată definirea sau redenumirea variabilelor cu care lucrăm.
Definirea variabilelor presupune activarea câmpului VARIABLE VIEW, prin executarea unui
dublu click pe numele variabilei (în cazul nostru var0001) sau prin activarea butonului VARIABLE VIEW
din partea de jos a câmpului. Rezultatul va fi următorul:
Numele variabilei poate să cuprindă maxim opt caractere, fără spaţiu sau semne de
punctuaţie. Pentru a defini o variabilă, trebuie plasat cursorul în celula în care este trecut numele
(NAME) generic al variabilei (var0001), apoi se introduce numele variabilei NRSUB folosind tastatura.
Opţiunea TYPE permite specificarea tipului de date. Această opţiune poate fi activată cu
ajutorul mouse-ului cu un click stânga pe butonul gri din celula corespunzătoare variabilei.
Tipul NUMERIC permite introducerea valorilor cu sau fără zecimale. Tipurile COMMA şi DOT
permit introducerea valorilor cu orice număr de zecimale (mai mare de 16), reţinând întreaga valoare.
Tipul SCIENTIFIC NOTATION transformă logaritmic valorile introduse, DATE permite folosirea spaţiilor,
punctelor, virgulelor, a barelor de separarea pentru a delimita zilele, lunile şi anii, respectiv orele şi
minutele. Tipul DOLLAR inserează în faţa valorilor simbolul dolarului, iar CUSTOM CURRENCY permite
introducerea de valorilor pozitive dar şi a celor negative, cu sau fără separator pentru mii. Ultima opţiune
STRING permite introducerea variabilelor alfanumerice.
Este posibilă alegerea numărului de cifre pentru partea întreagă (WIDTH) şi a numărului de
zecimale (DECIMAL PLACES). Deşi sunt mai multe tipuri de variabile, în psihologie se utilizează două
tipuri de variabile, NUMERIC şi STRING (foarte rar). Automat la crearea unei noi baze de date, apare
selectat tipul NUMERIC, presupunându-se că noile variabile vor fi numerice. Opţiunea TYPE este de
obicei folosită pentru modifica acest tip de date.
Caracteristica LABELS permite definirea detaliată a variabilei (pot fi folosite până la maxim 256
caractere, inclusiv spaţiul). Definirea detaliată a variabilei apare în pagina de rezultate.
VALUE LABEL permite descrierea valorile pe care le poate lua o variabilă. Opţiunea este
folosită pentru variabile care folosesc coduri numerice pentru a reprezenta categorii (de exemplu, se pot
folosi valorile 1 şi 2 pentru a codifica genul feminin şi masculin).
MISSING VALUES permite stabilirea valorilor care nu vor fi luate în seamă la prelucrarea
datelor.
COLUMN permite specificarea numărului de caractere pentru o coloană, afectând vizualizarea
datelor.
ALIGNMENT permite modificarea modului în care sunt prezentate datele pe ecran, aliniate la
stânga, dreapta sau central.
În exemplu nostru, vom defini numele variabilei NRSUB şi vom detalia eticheta la opţiunea
LABEL ca în imaginea de mai jos:
125
RUXANDRA-LOREDANA GHERASIM
Vom introduce valorile şi vom defini şi următoarele variabile, ANX1, ANX2 şi Gen. Variabila Gen
este de tip categorial, în funcţie de această caracteristică subiecţii fiind împărţiţi în două categorii
distincte, femei şi bărbaţi. Din acest motiv trebuie precizată semnificaţia valorilor variabilei. Acest lucru
presupune atribuirea de valori şi etichete celor două grupuri de subiecţi. Astfel, subiecţii de sex masculin
îi vom codifica cu valoarea 1, iar pe cei de gen feminin cu valoarea 2. În acest scop vom activa opţiunea
VALUE:
Se trece valoarea în câmpul VALUE şi numele grupului sau categoriei în câmpul VALUE
LABEL, după care se apasă butonul ADD. Astfel, vom scrie „1” în câmpul VALUE şi „subiecţi de gen
masculin” în câmpul VALUE LABEL şi activăm butonul ADD, apoi vom scrie „2” în câmpul VALUE şi
„subiecţi de gen feminin” în câmpul VALUE LABEL şi activăm butonul ADD.
Această opţiune se foloseşte numai pentru variabilele categoriale, care împart subiecţii în
grupuri distincte.
126
ANALIZA COMPUTERIZATĂ A DATELOR
IMPORTANT
Salvarea fişierelor se face fie acţionând butonul SAVE care se găseşte în bara de instrumente,
fie din meniul FILE se alege opţiunea SAVE. Reamintim că trebuie ales mai întâi directorul în care
vream să salvăm fişierul si apoi scriem numele fişierului.
Pentru exemplu nostru, vom salva fişierul cu numele Baza1.sav în subdirectorul EXEMPLE
SPSS care se găseşte în directorul MY DOCUMENTS.
APLICAŢIE
Realizaţi, folosind aplicația SPSS, o baza de date pe care o salvaţi în My Documents cu numele
BD1 care va conţine următoarele variabile, NS (numele întreg al variabilei – nivel de sociabilitate), NO
(numele întreg al variabilei – nivel optimism) şi gen (cu valorile 1 – feminin şi 2 – masculin). Pentru toate
aceste variabile, stabiliţi 3 caractere la partea întreagă şi 2 la zecimale. Valorile variabilelor sunt
următoarele:
NS: 35, 12, 33, 11, 15, 13, 20, 17, 32, 11, 15, 21
NO: 17, 26, 17, 22, 31, 18, 24, 17, 9, 14, 6, 7
Gen: 1, 1, 2, 2, 2, 1, 2, 1, 1, 1, 2, 1
127
ANALIZA COMPUTERIZATĂ A DATELOR
Unitatea de învăţare 2.
ELEMENTE DE STATISTICĂ DESCRIPTIVĂ
1. ANALIZA FRECVENŢELOR
Tabelele de frecvenţă ajută la descrierea unui grup de scoruri, fiind cele mai simple procedee
ale statisticii descriptive, care permit înţelegerea tendinţei unui grup de scoruri. Tabelele de frecvenţa
grupează scorurile subiecţilor, informaţia devenind, astfel, mai comprehensibilă. Histogramele,
reprezentări grafice ale tabelelor de frecvenţă permit o mai bună înţelegere a tendinţei grupului de
rezultate. Acestea presupun transformarea intervalelor de frecvenţă în bare, înălţimea barelor
corespunzând frecvenţei fiecărui interval de frecvenţă din tabelul de frecvenţă. Poligoanele de
frecvenţă sunt o altă modalitate de reprezentare grafică a datelor din tabelele de frecvenţă. Acestea se
obţin, prin unirea mijloacelor părţilor superioare ale barelor histogramelor.
Tabelul de frecvenţă, histograma şi poligonul de frecvenţă descriu o distribuţie de frecvenţă,
prezentând modul în care se distribuie sau se împrăştie cazurile sau frecvenţele. Modalitatea,
înclinarea şi turtirea sunt indicatori care descriu forma distribuţiei scorurilor. Modalitatea indică câte
“vârfuri” are o distribuţie, cu alte cuvinte, arată valorile în jurul cărora se grupează rezultatele subiecţilor.
Din această perspectivă, distribuţiile pot fi unimodale (au un singur vârf), bimodale (au două vârfuri) sau
multimodale (au mai multe vârfuri). Înclinarea arată dacă în distribuţie apar mai multe valori mari sau
mai multe valori mici. Cele mai multe aspecte măsurate în psihologie prezintă un număr aproximativ
egal de cazuri de o parte şi de alta a mijlocului, distribuţiile fiind aproximativ simetrice (nu prezintă
tendinţă de înclinare). O distribuţie este înclinată atunci când are o extremă (o parte) mai împrăştiată şi
mai lungă. Atunci când înclinarea curbei este spre stânga, spunem că avem o distribuţie înclinată
negativ. Atunci când distribuţia este înclinată spre dreapta, spunem că aceasta este înclinată pozitiv.
Spre exemplu, notele şcolare au o distribuţie înclinată spre dreapta, adică elevii au tendinţa de a obţine
mai multe note mari. Turtirea unei distribuţii se raportează la curba normală. Faţă de curba normală o
distribuţie poate fi mai turtită (scorurile din cadrul ei variază foarte mult de la medie) sau mai ascuţită
(scorurile variază foarte puţin de la medie).
129
RUXANDRA-LOREDANA GHERASIM
câmpul din stânga variabila pe care vrem să analizăm apoi se activează butonul de trecere. Acest mod
de organizare în două câmpuri apare la aproape toate opţiunile de prelucrare a datelor.
Bifarea opţiunii DISPLAY FREQUECY TABLES are ca efect afişarea în foaia de rezultate a
tabelul de frecvenţă. Opţiunea STATISTICS deschide o fereastră cu opţiuni de prelucrare statistică,
butonul CHARTS permite afişarea histogramei de frecvenţă. Opţiunea FORMAT permite modificarea
formei de prezentare a datelor în foia cu rezultate (OUTPUT).
Pentru exemplul nostru, dorim
realizarea tabelului de frecvenţă şi
histogramei pentru variabila „nivelul
anxietăţii înainte de terapie” (ANX1). Se
selectează variabila ANX1 din câmpul din
stânga şi se activează butonul de trecere:
Pentru ca în foaia de rezultate să
apară tabelul de frecvenţă se selectează
opţiunea DISPLAY FREQUECY TABLES.
Pentru afişarea histogramei de frecvenţă se
activează butonul CHARTS:
Opţiunea CHART TYPE permite alegerea unui tip de grafic (cu bare, plăcintă sau histogramă).
CHART VALUES permite alegerea tipului de valori afişate în grafic (Frecvenţe sau Procentaje).
Pentru exemplul nostru se selectează opţiunea HISTOGRAMS, se bifează afişarea curbei
normale (WITH NORMAL CURVE), apoi se activează butonul CONTINUE.
Opţiunea FORMAT permite modificarea formei OUTPUT-ului. Activarea acestui buton are ca
efect apariţia următoarei casete de dialog:
Câmpul din stânga al ferestrei conţine opţiuni de aranjare a rezultatelor (în ordine
descrescătoare sau crescătoare a valorilor sau cantităţilor), iar cel din dreapta conţine opţiuni de
prezentare comparativă a rezultatelor şi de organizare separată a foii de rezultate, pentru fiecare
variabilă. Pentru exemplu nostru, vom păstra opţiunile selectate automat.
După selectarea opţiunilor de realizare a tabelului de frecvenţă şi histogramei, se activează
butonul OK al casetei FREQUENCIES. Pe ecran apare o fereastra cu rezultate, numită OUTPUT:
130
ANALIZA COMPUTERIZATĂ A DATELOR
Fereastra OUPUT este organizată în două câmpuri, cel din stânga, afişează structura sau
cuprinsul OUPUT-ului, iar cel din dreapta arată conţinutul foii cu rezultate. Rezultatele sunt organizate în
două tabele. În primul tabel se precizează numărul de subiecţi şi numărul de răspunsuri. Pentru
exemplul nostru, avem 20 de subiecţi care au răspuns la chestionar (nu lipseşte nici o valoare).
Al doilea tabel este organizat în cinci coloane. Coloana VALID prezintă valorile variabilei,
prezentate în ordine crescătoare (fără a ţine seama de cazurile lipsă). Coloana FREQUENCY prezintă
frecvenţa, adică numărul de subiecţi care obţin o anumită valoare.
Coloana PERCENT transformă frecvenţa obţinută pentru fiecare valoare în procentaj ţinând
cont de numărul total de subiecţi luaţi în calcul, indiferent dacă aceştia au sau nu scoruri la această
variabilă. Spre exemplu, doi subiecţi au obţinut scorul 103, ceea ce reprezintă 10% din totalul numărului
de răspunsuri obţinute. VALID PERCENT prezintă procentajul luând în calcul doar subiecţii care au
răspuns la această variabilă. În cazul nostru coloanele PERCENT şi VALID PERCENT sunt identice
deoarece toţi subiecţii au scoruri la această variabilă. Dacă unii subiecţi nu ar fi răspuns la chestionarul
de anxietate, atunci cele două coloane ar fi conţinut valori diferite.
Coloana CUMULATIVE PERCENT prezintă procentajul cumulat, de la cel mai mic scor la până
la cel mai mare. De exemplu, 60% dintre subiecţi au note mai mici sau egale cu 106.
Derulând pagina cu rezultate sau selectând HISTOGRAM în câmpul din stânga, putem
vizualiza reprezentarea grafică a frecvenţei scorurilor:
131
RUXANDRA-LOREDANA GHERASIM
APLICAŢIE
Pentru variabila nivel optimism din baza de date BD1, din Aplicaţia anterioară, realizaţi
histograma de frecvenţe.
Modul este indicatorul care este cel mai puţin afectat de schimbările structurii (modificări ale
numărului de scoruri sau mărimii scorurilor distribuţiei). Mediana este şi ea destul de puţin afectată de
modificările structurii distribuţiei. Media, însă, este cea mai “sensibilă” la modificarea numărului de
scoruri sau mărimii scorurilor, fiind indicatorul cel mai descriptiv (deoarece indică orice modificare
survenită în distribuţie). Se recomandă utilizarea mediei în distribuţiile simetrice şi unimodale. Mediana
şi modulul, care sunt mai stabile sunt recomandate pentru descrierea distribuţiilor asimetrice şi
multimodale. Cu toate acestea, media aritmetică rămâne metoda cel mai des utilizată pentru descrierea
tendinţei grupului de scoruri, acest indicator intrând în componenţa multor metodele statistice. Există
însă metode statistice (cum a fi testele non-parametrice) în care se utilizează doar mediana şi modul.
132
ANALIZA COMPUTERIZATĂ A DATELOR
Cunoaşterea acestor indicatori nu este suficientă pentru a descrie complet o distribuţie. Trebuie
să cunoaştem gradul de variabilitate a scorurilor noastre. Mai precis, trebuie să ştim cât de mult (sau cu
cât) se împrăştie scorurile în jurul valorii medii.
Varianţa (SD2=( (X-M)2/N) unei distribuţii arată cât de “împrăştiate” sunt scorurile în jurul
valorii centrale, indică gradul de variabilitate a unui grup de rezultate. Abaterea standard este rădăcina
pătrată a varianţei (SD = SD 2 ).
În intervalul cuprins între medie şi o abatere standard la stânga şi dreapta mediei găsim
aproximativ 2/3 din totalul scorurilor. Aceste rezultate sunt considerate tipice sau normale pentru o
distribuţie. Ilustrăm grafic acest lucru:
m-SD m m+SD
Scorurile care sunt mai mari decât media cu o abatere standard sunt considerare scoruri mari
iar cele mai mici decât media cu mai mult de o abatere standard sunt considerate ca fiind scoruri slabe.
Meniul din SPSS care permite calculul indicatorilor tendinţei centrale şi ai împrăştierii se
găseşte la ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES. Pentru analiză vom folosi baza
de date realizată anterior, „Baza1.sav”.
Vom calcula parametrii tendinţei
centrale şi ai variabilităţii pentru variabila
ANX1 (nivelul anxietăţii înaintea
terapiei). Se trece variabila în câmpul
din dreapta apoi se activează butonul
STATISTICS. După cum se poate vede
şi în imaginea de mai jos, casetă de
dialog care se deschide cuprinde patru
câmpuri cu opţiuni (tabelul alăturat):
133
RUXANDRA-LOREDANA GHERASIM
APLICAŢIE
Calculaţi parametrii tendinţei centrale şi ai variabilităţii pentru variabila ANX1 (nivelul anxietăţii
după terapiei).
La fel se calculează indicatorii tendinţei centrale şi de împrăştiere pentru variabila ANX2 (nivelul
anxietăţii subiecţilor după terapie). Rezultatele obţinute sunt următoarele:
134
ANALIZA COMPUTERIZATĂ A DATELOR
Comparând reprezentările
histogramele de frecvenţă pentru
variabilele ANX1 şi ANX2, putem analiza
variabilitatea rezultatelor la cele două variabile. Astfel, distribuţia scorurilor pentru prima variabilă este
mai ascuţită, valorile fiind mai grupate în jurul medie (şi varianţa şi abaterea standard au valori mai
mici). La variabila ANX2 se constată o mai mare variabilitate a rezultatelor, distribuţia fiind mai turtită (în
acest caz varianţa şi abaterea standard au valori mai mari).
APLICAŢIE
Pentru variabila nivel sociabilitate din baza de date BD1, din aplicaţia anterioară, calculaţi
parametrii tendinţei centrale şi ai variabilităţii.
5. SCORURILE Z
Nota Z indică deviaţia unui scor (x) de la medie (m) exprimată în deviaţii standard. Nota
standard Z arată cu câte deviaţii standard se abate un scor de la medie (Z=(X-M)/SD).
IMPORTANT
Distribuţia în note Z este o distribuţie ideală în care media are întotdeauna valoarea 0, iar
abaterea standard valoarea 1.
Schema de mai jos prezintă notele standard Z corespunzătoare mediei şi limitelor de variaţie
maximă şi minimă. Mediei îi corespunde întotdeauna mereu scorul standard 0, limitei minime de variaţie
135
RUXANDRA-LOREDANA GHERASIM
tipică îi corespunde scorul standard -1, iar limitei maxime de variaţie normală îi corespunde nota
standard +1.
m-SD m m+SD x
Aceasta distribuţie ne permite să stabilim cum este scorul x în raport cu media (care este 0) şi
abaterea standard (care are valoarea 1). Trebuie ţinut seama de o serie de reguli. Astfel, un scor x
raportat la distribuţia Z este considerat “mic”, dacă scorul său Z are valoare mai mică decât –1; un scor
x este considerat “mediu” dacă scorul său Z este cuprins în intervalul [–1, +1]; un scor x este considerat
“mare” raportat la distribuţia Z, dacă scorul său Z va fi mai mare decât +1.
APLICAŢIE
Interpretaţi un scor z care are valoarea 2,40!
IMPORTANT
Scorurile Z îndeplinesc o serie de funcţii:
1. Permit compararea unui scor cu o distribuţie la care cunoaştem parametrii (media şi deviaţia
standard), astfel, ne ajută să precizăm dacă un scor este mic, mediu sau mare.
2. Arată de câte ori acel scor este mai mare sau mai mic decât media (ţinând cont de
variabilitate). Spre exemplu, dacă scorurile la un test de inteligenţă într-o populaţia sunt descrise de
media m=100 şi deviaţia standard SD=15, o persoană cu scorul brut 130 este „de două ori mai deşteptă
ca media celorlalţi”, deoarece acestui scor îi corespunde un scor Z de +2 (ceea ce înseamnă că scorul
este mai mare ca media cu două deviaţii standard).
3. Permit compararea scorurilor obţinute de aceeaşi persoană la probe diferite, întrucât notele Z
arată raporturi şi sunt adimensionale (nu depind de ceea ce măsurăm).
136
ANALIZA COMPUTERIZATĂ A DATELOR
1
2
4
3
Automat sunt selectate de computer opţiunile de calcul ale mediei, abaterii standard şi ale
valorii minime şi maxime. Vom activa butonul CONTINUE şi apoi butonul OK al ferestrei pentru a putea
face analiza statistică. Rezultatele obţinute în urma comenzii DESCRIPTIVES sunt mai sumare şi
prezentate într-un singur tabel.
Vom vizualiza baza de date pentru a vedea dacă apare noua variabilă care conţine rezultatele
subiecţilor transformate în note Z.
137
RUXANDRA-LOREDANA GHERASIM
138
RUXANDRA-LOREDANA GHERASIM
Unitatea de învăţare 3.
ANALIZA LEGĂTURII DINTRE VARIABILE
Notele Z fac posibilă analiza legăturii dintre două variabile. De exemplu, putem analiza
legătura dintre nivelul stresului unui manager şi numărul de subordonaţi. Prin transformarea notelor
brute obţinute de subiecţi la cele două variabile putem să identificăm dacă exista sau nu o legătură între
aceste două variabile.
DEFINIŢIE
Corelaţia este o metodă statistică descriptivă (r=( ( Z1 * Z 2) / N ) care indică existenţa unei
legături între variabile.
Legătura poate fi pozitivă (când scorurile slabe la prima variabilă se asociază cu scoruri slabe la
a doua variabilă, scorurile medii la prima variabilă se asociază cu scoruri medii la a doua variabilă şi
scorurile mari la prima variabilă se asociază cu scoruri mari la a doua variabilă), negativă (când
scorurile slabe la prima variabilă se asociază cu scoruri mari la a doua variabilă, scorurile medii la prima
variabilă se asociază cu scoruri medii la a doua variabilă şi scorurile mari la prima variabilă se asociază
cu scoruri mici la a doua variabilă). Bineînţeles că între variabile poate să nu apară nici o legătură.
Coeficientul de corelaţie (r) indică gradul în care apare paternul unei relaţii între cele două
variabile. Acest coeficient poate lua valori de la -1 la +1, corelaţia pozitivă poate lua valori de la 0 la 1,
iar corelaţia negativă poate lua valori la de -1 la 0.
IMPORTANT
Analiza corelaţiei dintre două variabile nu permite stabilirea relaţiei de cauzalitate între aceste
variabile. Există trei modalităţi de interpretare a unui coeficient de corelaţie obţinut între două variabile
(x şi y): fie x poate fi cauză pentru y, fie y poate fi cauză pentru x, fie a apărut a o treia variabilă care a
determinat apariţia simultană a celor doua variabile.
IMPORTANT
În cercetarea ştiinţifică se lucrează de obicei cu două praguri de semnificaţie, corespunzătoare
procentajului de eroare: pragul de 0,01 (1% eroare) şi pragul de 0,05 (5% eroare).
140
ANALIZA COMPUTERIZATĂ A DATELOR
În general, când se fac predicţii pot să apară patru situaţii, prezentate în tabelul de mai jos:
Evenimentul
Apare Nu apare
Predicţia Apare Corect Eroarea I
Evenimentului Nu apare Eroarea II Corect
Sunt două situaţii în care se poate greşi: când afirmăm că un eveniment se va produce şi în
realitate acesta nu va apărea (eroare de tip I) sau când afirmăm că un eveniment nu se va produce şi
aceste va apare (Eroare de tip II). Situaţia I corespunde minciunii, iar situaţia II corespunde ignoranţei.
Dacă vrem să evităm primul tip de greşeală care are consecinţe mai grave (de a demonstra ceva ce nu
există în realitate), alegem pragul de semnificaţie de 0,010 (prag de eroare de 1%). Dacă dorim însă să
avem mai multe şanse în a demonstra ceva şi consecinţele nu sunt grave în caz de greşeală, atunci se
preferă pragul de eroare de 5% (deci un p=0,050). În concluzie, vom considera un test statistic ca fiind
semnificativ dacă pragul de semnificaţie este mai mic sau cel mult egal cu valoarea 0,050.
În psihologie se lucrează cu două modalităţi de formulare a ipotezelor (non-direcţionale sau
direcţional). Ipotezele non-direcţionale sunt cele în care nu se precizează tipul de relaţie dintre
variabile. În testarea acestor ipoteze probabilitatea de eroare de 1% sau 5% se împarte la cele
extremităţi (cozi) ale distribuţiei scorurilor. Testul de semnificaţie pentru verificarea acestui tip de ipoteză
este TWO-TAILED. În cazul nostru ipoteza ar putea fi formulată non-direcţional astfel: există o legătură
între salariul iniţial şi final al subiecţilor. Ipotezele direcţionale sunt cele în care se precizează tipul de
modificare, cercetătorul se aşteaptă la un anumit rezultat. Pentru aceste ipoteze probabilitatea de
eroare se stabileşte la una dintre extremităţile distribuţiei. Testul de semnificaţie pentru verificarea
acestui tip de ipoteză este ONE-TAILED. Ipoteza din exemplul nostru ar putea fi formulată direcţional,
astfel: legătura dintre salariul iniţial şi final este pozitivă, cu cât salariul iniţial este mai mare cu atât şi
salariul final va fi mai mare.
APLICAŢIE
Pentru a calcula acest coeficient de corelaţie cu ajutorul aplicaţiei SPSS vom crea o nouă bază
de date “Baza2.sav”, care va cuprinde 3 variabile: STUDII (nivelul de studii al subiecţilor) cu trei valori 1
(studii generale), 2 (studii medii) şi 3 (studii superioare), Sal_in (salariul iniţial al subiecţilor) şi sal_fin
(salariul final al subiecţilor). aceste variabile au următoarele valori:
- studii:1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3
- sal_in: 189, 198, 197, 168, 201, 185, 156, 175, 201, 220, 210, 214, 205, 301, 332, 341, 221,
206, 298, 301, 654, 214, 258, 245
- sal_fin: 201, 220, 205, 203, 185, 168, 178, 260, 280, 274, 298, 305, 582, 542, 392, 445, 401,
502, 403, 954, 425, 725, 625, 199
141
RUXANDRA-LOREDANA GHERASIM
4
5
142
ANALIZA COMPUTERIZATĂ A DATELOR
Coeficientul de corelaţie Pearson este selectat implicit de către calculator, la fel ca şi celelalte
opţiuni test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG
SIGNIFICANCE CORRELATIONS. După activarea butonului OK, în foaia OUTPUT sunt afişate
următoarele rezultate:
2
4
1
5
3
143
RUXANDRA-LOREDANA GHERASIM
IMPORTANT
Rezultatele din cele două celule sunt identice deoarece corelaţie este bidirecţională (corelaţia
dintre variabilele A şi B este acelaşi lucru cu cea dintre variabilele B şi A). În consecinţă rezultatul poate
fi extras din oricare din cele două celule.
Vom extrage datele pentru legătura dintre salariul iniţial şi salariul final al subiecţilor:
Interpretarea corelaţiei: r=0,81 (coeficientul de corelaţie), p0,001 (pragul de semnificaţie), N=24
(numărul de subiecţi).
IMPORTANT
Sunt mai multe elemente de care trebuie să se ţină seama în interpretarea corelaţiei:
semnul corelaţiei: arată natura legăturii care există pozitive (dacă semnul este pozitiv) sau negative
(dacă semnul este negativ). În cazul nostru, semnul este pozitiv, ceea ce înseamnă că un salar iniţial
mic se asociază, după cinci ani, cu un salariu tot mic, un salar iniţial mediu se asociază cu un salar
final mediu şi un salar mare iniţial se asociază cu salariu mare final.
mărimea absolută a coeficientului: descrie tăria legăturii care apare între variabile. Se consideră,
astfel, că legătura este slabă dacă valoarea absolută a lui r nu depăşeşte 0,30, legătura este medie
la o valoare a lui r cuprinsă între 0,30-0,50, legăturile puternice având o mărime absolută mai mare
de 0,50. În exemplul nostru, tăria legăturii este ridicată (r=0,81) coeficientul având valoare mi mare
de 0,50
pragul de semnificaţie dacă este mai mic de 0,05, atunci putem considera că există o relaţie între
variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raportează un
p0,001, pentru a arăta că probabilitatea de a greşi este mai mică decât 0,1% (calculatorul ne
afişează doar primele trei zecimale). Putem spune că există o legătură semnificativă între nivelul
iniţial şi final al salariului subiecţilor, pragul de semnificaţie fiind mai mic de 0,05.
proporţia de varianţă. Coeficientul de corelaţie ridicat la pătrat ne indică proporţia de varianţă
explicată de relaţia găsită. Proporţia de varianţă indică la ce procent din populaţia generală apare
relaţia. Pentru exemplu nostru proporţia de varianţă are valoarea 0,65 (r=0,81, deci r2=0,65). Se
observă că abia 65% din variaţia observată se întâlneşte în realitate, deci relaţia găsită este
prezentă la 65% dintre subiecţi.
144
ANALIZA COMPUTERIZATĂ A DATELOR
Vom alege un grafic simplu, care să ilustreze relaţia dintre două variabile, deci vom selecta
opţiunea SIMPLE. Se activează apoi butonul DEFINE, care deschide următoarea fereastră:
Se introduc cele două variabile în câmpurile axei X şi axei Y (nu contează ordinea în care se
introduc variabilele deoarece corelaţia este bidirecţională) şi apoi se apasă butonul OK.
145
RUXANDRA-LOREDANA GHERASIM
Reprezentarea grafică a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru
norul de puncte este ascendent crescător (din stânga-jos spre dreapta-sus) deoarece relaţia dintre
variabile este pozitivă, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are
valoare ridicată (r=0,81). Dacă relaţia ar fi fost invers proporţională, norul de puncte ar fi fost orientat
descrescător (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost
distribuite uniform pe grafic.
APLICAŢIE
Analizaţi legătura dintre variabilele nivel optimism şi nivel sociabilitate din baza de date BD1,
realizată în capitolul anterior.
DEFINIŢIE
Corelaţia Kendall`s Tau-B reprezintă o măsură non-parametrică a asocierii variabilelor ordinale
sau rangate care presupun cantităţi.
La fel ca şi în cazul corelaţiei Pearson, semnul coeficientului de corelaţie Kendall's tau-b indică
direcţia relaţiei, iar valoarea absolută a coeficientului indică puterea relaţiei. Cu cât valoarea
coeficientului este mai mare cu atât relaţia dintre variabile este mai mare. Acest coeficient de corelaţie
poate lua valori doar intre -1 şi 1.
146
ANALIZA COMPUTERIZATĂ A DATELOR
Pentru a analiza legătura dintre evaluarea făcută de primul profesorul şi evaluarea realizată de
al doilea profesor (prof_1 şi prof_2), trebuie să folosim coeficientul de corelaţie Kendall's.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE, apoi se introduc variabilele prof_1 şi prof_2 în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Kendall's:
Se constată că apare o asociere pozitivă între variabile (r=0,60), elevii clasaţi pe primele locuri
de către primul profesor ocupă tot o poziţie fruntaşă din perspectiva celui de al doilea profesor.
Asocierea nu este însă semnificativă, p=0,091 posibila explicaţie fiind numărul mic de subiecţi din baza
de date.
Dacă ar fi apărut o asociere negativă dintre variabile (coeficientul de corelaţie ar fi fost negativ)
s-ar fi interpretat astfel: elevii plasaţi pe primele locuri de către primul profesor s-ar fi plasat în coada
clasamentului din perspectiva celui de al doilea profesor.
DEFINIŢIE
Corelaţia Spearman este o măsurare non-parametrică a corelaţiei dintre două variabile ordinale.
147
RUXANDRA-LOREDANA GHERASIM
Pentru toate cazurile, valorile fiecărui tip de variabilă sunt rangate, de la cele mai mici la cele
mai mari. Se foloseşte atunci când nu este posibilă măsurarea caracteristicilor analizate ci doar
evaluarea lor, în asemenea manieră încât indivizii statistici să fie ordonaţi în funcţie de două criterii X şi
Y. Această evaluare presupune atribuirea de valori care indică ierarhia subiecţilor (cum ar fi primul, al
doilea, al treilea). Modalitatea de calcul a corelaţiei Spearman este similară coeficientului Pearson (de
fapt de aplică formula coeficientului Pearson). Acest coeficient de corelaţie mai este denumit şi
coeficient de corelaţie a rangurilor.
Pentru a analiza legătura dintre evaluarea interesului faţă de şcoală al elevilor şi evaluarea
relaţiilor cu ceilalţi colegi (eval_i şi eval_re) se foloseşte coeficientul de corelaţie Spearman.
Pentru calculul acestei corelaţii se activează opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE. Se introduc variabilele eval_i şi eval_re în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifează coeficientul de corelaţie Spearman:
148
ANALIZA COMPUTERIZATĂ A DATELOR
locuri după cel de al doilea criteriu, relaţii bune cu ceilalţi elevi. Inversarea clasamentului nu este
semnificativă, pragul de semnificaţie fiind mai mare de 0,050 (p=0,260).
149
ANALIZA COMPUTERIZATĂ A DATELOR
Unitatea de învăţare 4.
SELECTAREA, RECODAREA ŞI TRANSFORMAREA VARIABILELOR
Uneori este necesară selectarea anumitor cazuri din populaţie pentru a face o prelucrare
statistică. Spre exemplu, vrem să vedem dacă legătura dintre salariul iniţial şi salariul final are aceeaşi
valoare la subiecţii care au studii generale. Subiecţii sunt împărţiţi în grupe în funcţie de nivelul de studii
(studii), fiind codificaţi cu 1 în baza de date.
Pentru a selecta numai subiecţii care au studii generale, se foloseşte comanda SELECT
CASES din meniul DATA. Activarea meniului este urmată de apariţia următoarei ferestre:
În câmpul din stânga al ferestrei sunt prezentate toate variabilele din baza de date. În dreapta
ferestrei apar mai multe opţiuni. Pe noi ne interesează opţiunea IF CONDITION IS SATISFIED,
deoarece vrem să selectăm numai cazurile care îndeplinesc o anumită condiţie (să aibă valoarea 1 la
variabila studii adică să fie numai subiecţi cu studii generale).
Această opţiune se alege cu un simplu click stânga al mouse-ului:
151
RUXANDRA-LOREDANA GHERASIM
Se adăugă condiţia. Pentru exemplul nostru, variabila Studii trebuie să aibă numai valoarea 1
(STUDII=1). Se poate folosi tastatura sau se pot activa butoanele cu cifre şi semne ce se găsesc sub
acest câmp. Condiţia va arăta astfel:
Se activează butonul OK, baza de date modificându-se, cum se poate observa şi în imaginea
de mai jos:
La sfârşitul bazei de date apare o nouă variabilă, intitulată FILTER_$, care indică rezultatul
selecţiei. Cazurile neselectate sunt “tăiate”, adică ele vor fi ignorate de la analiză. În partea din dreapta-
152
ANALIZA COMPUTERIZATĂ A DATELOR
jos a ecranului apare anunţul FILTER ON, care avertizează utilizatorul cu privire la activarea unei
comenzi de selecţie .
IMPORTANT
Selectarea datelor nu implică şi efectuarea analizei statistice. După selecţie trebuie făcută prelucrarea
statistică a datelor.
EXEMPLU
În cazul nostru trebuie utilizată comanda de analiză a corelaţiei dintre salariul iniţial şi cel final.
Se obţine următorul tabel în fereastra cu rezultate:
Rezultatul obţinut este următorul: r=0,69, p=0,056. În continuare vom interpreta aceste
rezultate:
semnul corelaţiei: corelaţie pozitivă, legătura este direct proporţională. În cazul subiecţilor cu studii
generale se constată că nivelul mic al salariului iniţial se asociază cu un nivel mic al salariului final,
salariul iniţial mediu se asociază cu un salar final mediu, salariul iniţial mare se asociază cu un salar
final mare.
mărimea absolută a coeficientului: puterea legăturii dintre cele două variabile este ridicată, valoarea
lui r depăşeşte valoarea de 0,50.
pragul de semnificaţie: valoarea pragului de semnificaţie este mai mare de 0,050, deci nu există o
legătură semnificativă între salariul iniţial şi final al subiecţilor care au studii generale.
proporţia de varianţă explicată de relaţia este r2=0,47, deci relaţia găsită apare la 47% dintre
subiecţii cu studii generale. Explicaţia lipsei de semnificaţie a corelaţiei dintre cele două variabile (în
condiţiile în care coeficientul de corelaţie are valoare ridicată) este numărul mic de subiecţi. Numărul
de subiecţi din analiză influenţează valoarea pragului de semnificaţie al corelaţiei dar nu şi puterea
legăturii dintre variabile.
După folosirea acestui “filtru” este indicată dezactivarea. Pentru dezactivarea selecţiei, se
deschide din nou în meniul iniţial DATA - SELECT CASES. În partea de jos a ferestrei se găseşte buton
RESET. Se activează apoi butonul OK, astfel, comanda de filtrare a datelor dispare.
APLICAŢIE
Analizaţi legătura dintre variabilele nivel sociabilitate şi nivel optimism, doar pentru subiecţii de
gen feminin (baza de date BD1).
153
RUXANDRA-LOREDANA GHERASIM
Uneori însă dorim să vedem ce se întâmplă pentru fiecare subgrup de subiecţi în parte. Pentru
baza de date BAZA2.sav, vom analiza legătura dintre variabilele salariul iniţial şi salariul final pentru
toate categoriile de subiecţi în funcţie de variabila STUDII (nu numai pentru subiecţii cu studii generale
dar şi pentru cei cu studii medii şi superioare). Pentru a nu repeta comanda SELECT CASES de multe
ori se poate utiliza o altă comandă din meniul DATA, şi anume comanda SPLIT FILE. Activarea
comenzii SPLIT FILE deschide următoarea fereastră:
Dintre opţiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS şi apoi, cu ajutorul
săgeţii, introducem variabila de grupare (STUDII) în câmpul care se activează sub această opţiune:
După apăsarea butonului OK, în partea dreaptă-jos a bazei de date apare anunţul SPLIT FILE
ON, care avertizează utilizatorii că baza de date este împărţită în funcţie de condiţiile (nivelurile)
variabilei de grupare . La fel ca şi în cazul comenzii SELECT CASES, simpla împărţire a bazei de
date nu asigură prelucrarea statistică. De aceea, trebuie folosită comanda CORRELATIOS pentru a
analiza legătura dintre variabilele salariu iniţial şi final al subiecţilor.
Rezultatele analizei statistice sunt prezentate separat, în fişierul OUTPUT, pentru fiecare
condiţie a variabilei independente: studii generale, medii şi superioare:
nivelul de studii al subiecţilor = studii generale
154
ANALIZA COMPUTERIZATĂ A DATELOR
APLICAŢIE
Analizaţi legătura dintre variabilele nivel sociabilitate şi nivel optimism, atât pentru subiecţii de
gen feminin, cât şi pentru subiecţii de gen masculin (baza de date BD1).
3. RECODIFICAREA VARIABILELOR
Uneori este necesar ca scorurile brute obţinute de subiecţii unui studiu să fie transformate
pentru a putea verifica ipoteza studiului. Aplicaţia SPSS are o serie de comenzi care permit
transformarea sau recodificarea unei variabile cantitative într-o variabilă calitativă, prin crearea unei noi
variabile în baza de date sau modificarea valorilor unei variabile existente în baza de date.
EXEMPLU
Pentru a exemplifica utilizarea comenzilor de recodificare vom crea o nouă bază de date
(baza5.sav) care conţine mediile obţinute de elevi la sfârşitul anului şcolar. Valorile variabilei sunt:
Media: 8,03, 8,73, 9,19, 8,81, 7,88, 9,06, 9,04, 6,86, 7,69, 7,80, 8,06, 9,06, 7,71, 7,16, 8,88,
8,49, 7,78, 9,76, 8,10, 7,49, 7,79, 6,91, 6,81, 7,54
Vom împărţi elevii în două grupe (grupul elevilor cu performanţe bune şi grupul elevilor cu
performanţe slabe). Împărţirea elevilor în două grupe se realizează în funcţie de mediană, acest
indicator statistic împărţind şirul de scoruri în două parţi egale (proba medianei). Deci vom calcula mai
întâi valoarea medianei şi apoi vom împărţi subiecţii în grupe în funcţie de valoarea acestui indicator.
Pentru calculul medianei vom folosi comanda DESCRIPTIV STATISTICS– FREQUENCIES:
155
RUXANDRA-LOREDANA GHERASIM
Pentru exemplul nostru mediana are valoare 7,95. Subiecţii care au valori mai mici ca mediana
(7,95) vor forma grupul celor cu performanţe scăzute, iar subiecţii care au valori mai mari decât
mediana vor forma grupul celor cu performanţe ridicate. Pentru recodificarea variabilei MEDIA se
utilizează opţiunea RECODE care se găseşte la meniul TRANSFORM:
Comanda RECODE are două opţiuni de recodificare. Se poate păstra variabila ce urmează să
fie recodificată (INTO SAME VARIABLES) sau se poate crea o nouă variabilă (INTO DIFFERENT
VARIABLES).
3 2
1
5
4
Pentru ca noul nume al variabilei să apară în câmpul din mijloc INPUT VARIABLE →OUTPUT
VARIABLE şi astfel să aibă loc recodificarea, se activează butonul CHANGE din câmpul OUTPUT
VARIABLE:
156
ANALIZA COMPUTERIZATĂ A DATELOR
Se activează butonul OLD AND NEW VALUE pentru a defini valorile noii variabile. Activarea
acestui buton deschide următoarea casetă de dialog:
157
RUXANDRA-LOREDANA GHERASIM
Se apasă apoi butonul ADD al câmpului OLD→NEW, pentru a putea recodifica următoarele
valori. Apoi se activează opţiunea
RANGE, THROUGH HIGHEST din
câmpul OLD VALUE şi se trece în
câmpul activat valoarea medianei
(7,95). Această opţiune va însemna
că valorile mai mari de 7,95 ale
variabilei MEDIA vor fi recodificate în
variabila NIVPERF primind valoarea
2. În consecinţă, în câmpul NEW
VALUE, în câmpul de lângă opţiunea
VALUE, vom tasta valoarea 2, după
cum se poate observa şi în imaginea
din dreapta.
Pentru a fi reţinută şi această a doua condiţie de recodificare, se acţionează din nou butonul
ADD din câmpul OLD→NEW. În concluzie, scorurile mai mici de 7,95 ale variabilei MEDIA vor primi
valoarea 1 în cadrul variabilei
NIVPERF, iar valorile mai mari de
7,95 ale variabilei MEDIA vor
reprezenta valoarea 2 al variabilei
NIVPERF, imaginea din stânga.
Se activează apoi butonul
CONTINUE şi butonul OK al
ferestrei RECODE INTO A
DIFFERENT VARIABLES, ceea
ce duce la modificarea bazei de
date, cum se poate observa şi în
imaginea din stânga.
APLICAŢIE
Împărţiţi în două părţi scorurile subiecţilor la variabila nivel
sociabilitate, în care 1 va reprezenta nivel scăzut iar 2 va reprezenta nivel
ridicat (baza de date BD1).
EXEMPLU
Pentru exemplificare vom împărţi scorurile la variabila MEDIA în trei
parţi egale. Prima treime va alcătui grupul subiecţilor cu performanţă
scăzută, a doua treime grupul subiecţilor cu performanţă medie, iar ultima
treime grupul subiecţilor cu performanţă ridicată. Pentru a putea face
158
ANALIZA COMPUTERIZATĂ A DATELOR
împărţirea, mai întâi trebuie să calculăm valorile corespunzătoare percentilelor care împart şirul de
scoruri în 3 parţi egale (fiecare parte reprezentând 33,33% din total). Se foloseşte comanda
DESCRIPTIV STATISTICS– FREQUENCIES. Din câmpul PERCENTILE VALUES se bifează opţiunea
PERCENTILE şi se introduc centilele care împart şirul de scoruri în 3 parţi egale (adică 33,33% şi
66,66%).
Subiecţii cu valori mai mici de 7,73 vor forma grupul celor cu performanţa scăzută (grupul 1), cei
cu valori cuprinse între 7,73 şi 8,64 vor forma grupul subiecţilor cu performanţă de nivel mediu (grupul
2), iar cei cu medii mai mari de 8,64 vor reprezenta grupului cu performanţa ridicată (grupul 3).
Pentru a crea această nouă variabilă se activează meniul TRANSFORM – RECODE - INTO
DIFFERENT VARIABLES. Vom denumi noua variabila NIVPERF2, tastând noul nume în câmpul NAME
al câmpului OUT VARIABLE şi
apoi activând butonul CHANGE.
În acest exemplu, scorurile
mai mici de 7,73 ale variabilei
MEDIA vor forma primul grupului 1,
adică nivelul 1 al noii variabile
NIVPERF2. Vom activa opţiunea
RANGE, LOWEST THROUGH din
câmpul OLD VALUE şi vom trece
în câmpul activat valoarea 7,73, iar
în câmpul NEW VALUE vom trece
valoarea 1. Se activează apoi
butonul ADD al câmpului OLD→NEW, pentru a putea introduce următoarea condiţie.
Valorile variabilei MEDIE
cuprinse între 7,73 şi 8,64 vor
reprezenta nivelul 2 al
variabilei NIVPERF2. Se
activează prima opţiune
RANGE THROUGH şi se
tastează valorile minime şi
maxime. În câmpul NEW
VALUE se trece valoarea 2,
cum se poate observa şi în
imaginea alăturată.
Activăm apoi butonul
ADD al câmpului OLD→NEW. Pentru crearea ultimului grup, care cuprinde valori mai mari de 8,64 se
activează opţiunea RANGE, THROUGH HIGHEST din câmpul OLD VALUE. În câmpul NEW VALUE se
trece valoarea 3, apoi se activează butonul ADD.
Se activează apoi butonul CONTINUE şi butonul OK al ferestrei RECODE INTO A DIFFERENT
VARIABLES, ceea ce duce la modificarea bazei de date, cum se poate observa şi în imaginea
alăturată:
159
RUXANDRA-LOREDANA GHERASIM
În câmpul din stânga apar toate variabilele din baza de date, în câmpul din dreapta se introduc
variabilele pe care dorim să le recodificăm. În exemplu nostru vrem să recodificăm variabila Media.
Trecem variabila în câmpul din dreapta:
Se activează butonul OLD AND NEW VALUES, care are aceleaşi opţiuni ca în cazul opţiunii
anteriore de transformare într-o variabilă diferită:
160
ANALIZA COMPUTERIZATĂ A DATELOR
Recodificare se realiză la
fel ca în exemplu anterior, când am
utilizat opţiunea de recodificare
într-o altă variabilă (imaginea din
dreapta):
După confirmarea
recodificării să vedem modificările
din baza de date. Se constată că
s-au modificat valorile variabilei
MEDIA, aceasta având acum
aceleaşi valori ca şi variabila
NIVPERF. Acest lucru demonstrează că cele două opţiuni duc la acelaşi
rezultat (imaginea din dreapta).
TEMĂ DE REFLECŢIE
Comenzile Recode into different variables şi Recode into same
variables conduc la acelaşi rezultat. De ce ar fi uneori preferabil să folosim
Recode into different variable? Care este avantajul folosirii comenzii
Recode into same variable?
161
RUXANDRA-LOREDANA GHERASIM
Pentru recodificare ar putea fi utilizată oricare dintre cele două opţiuni prezentate anterior
RECODE INTO SAME
VARIABLES sau INTO
DIFFERENT VARIABLES. Vom
folosi comanda RECODE INTO
DIFFERENT VARIABLES pentru a
putea verifica dacă recodificarea a
fost realizată. Vom redenumi
variabila recodificată GUV_R:
Vom activa butonul OLD AND NEW VARIABLES. Pentru inversarea scalei de evaluare a
itemului vom folosi numai
opţiunile VALUE din câmpul
OLD VALUE şi NEW VALUE.
Astfel, valoarea 1 a vechii
variabile devine 4 pentru noua
variabilă, deci se tastează 1 în
dreptul opţiunii VALUE din
câmpul OLD VALUE şi cifra 4 în
dreptul opţiunii VALUE din
câmpul NEW VALUE.
La fel se procedează şi pentru celelalte valori care trebuie recodificate. În final trebuie să avem
următoarele transformări în câmpul OLD→NEW:
162
ANALIZA COMPUTERIZATĂ A DATELOR
Pentru a calcula scorul total la atitudinea faţă de instituţiile statului, trebuie să însumăm
scorurile subiecţilor obţinute la cei trei itemi. Pentru a putea face acest lucru se foloseşte meniul
TRANSFORM, opţiunea COMPUTE:
3
1
163
RUXANDRA-LOREDANA GHERASIM
Apoi vom scrie formula de calcul care va consta în însumarea scorurilor obţinute la cele trei
variabile: PRES, GUV_R şi PARLAM. Variabile sunt trecute în câmpul NUMERIC EXPRESSION
folosind butonul de trecere. Semnul plus se introduce de la tastatură sau folosind butoanele care se
găsesc sub câmpul NUMERIC EXPRESSION:
După activarea butonului OK în baza de date apare o nouă variabila, cu numele ATIT.
Această nouă variabilă reprezintă atitudinea subiecţilor faţă de instituţiile statului şi reprezintă
suma răspunsurilor la cei trei itemi.
164
RUXANDRA-LOREDANA GHERASIM
Unitatea de învăţare 5.
ELEMENTE DE STATISTICĂ INFERENŢIALĂ – ASPECTE GENERALE
1. DISTRIBUŢIA NORMALĂ
Variabilitatea rezultatelor urmează reguli care pot fi modelate matematic. Dacă un fenomen
social observat este urmărit o perioadă de timp mai îndelungată, distribuţia rezultatelor se va face după
o curbă normală, iar acest lucru poate fi demonstrat matematic.
IMPORTANT
Există trei parametri ai unei distribuţii: modalitatea (indică valorile în jurul cărora se grupează
scorurile subiecţilor), înclinarea (indică tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arată
cât de mult variază scorurile distribuţiei).
Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită. În
plus, curba normală mai posedă anumite proprietăţi speciale. Astfel, matematicienii au pus la punct
formule care permit calcularea diferitelor suprafeţe ale curbei.
EXEMPLU:
Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor
la un test de inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. În
imaginea de mai jos ilustrăm grafic această distribuţie:
34% 34%
14% 14%
2% 2%
166
ANALIZA COMPUTERIZATĂ A DATELOR
Există o strânsă legătură între scorurile standard (notele z) şi diferite procentaje sau frecvenţe
relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai
mici sau mai mari decât al subiectului investigat. Orice manual de statistică are la sfârşit un tabel care
permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare notă Z, este precizat un
procent, care arată câţi subiecţi au scorurile cuprinse între medie şi nota Z. Să presupunem că o
persoană obţine la testul de inteligenţă scorul 125, putem calcula nota Z a acestui subiect, care are
valoarea 1,56 (după formula: (125-100)/16). Dacă vom consulta unul din tabelele de care aminteam
anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) şi
până la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arată că doar 5,94% dintre indivizi vor
avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât
subiectul ales de noi.
Pentru a vedea cum se realizează inferenţa statistică, vom analiza cel mai simplu test, testul z.
DEFINIŢIE
Testul Z permite compararea unui eşantion format dintr-un singur caz cu o populaţie ai cărei
parametri sunt cunoscuţi.
Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a sintetizat
o vitamină care accelerează procesele de asimilaţie la copii nou-născuţi, aceştia dezvoltându-se mai
rapid. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciştii au dorit să
omologheze vitamina, dar pentru aceasta ei trebuie să demonstreze că într-adevăr vitamina
accelerează mersul copiilor. Farmaciştii au primit dreptul să administreze vitamina unui singur copil nou-
născut, ales aleatoriu din populaţie. Copilul respectiv, după administrarea vitaminei, a început să
meargă de la vârsta de 8 luni. Pot farmaciştii să susţină că vârsta precoce la care a mers copilul se
datorează vitaminei, ştiind că vârsta la care merg copii prima dată, în populaţia normală este de 14 luni,
cu o abatere standard de 3 luni?
Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la
distribuţia normală a variabilei alese în cadrul populaţiei şi să respectăm anumite etape pentru
verificarea raţionamentului. Prezentăm în continuare curba normală corespunzătoare vârstei de debut
de la care copiii încep să meargă:
34% 34%
14% 14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
167
RUXANDRA-LOREDANA GHERASIM
34%
34%
-2,33 14%
14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
Note z -2 -1 0 +1 +2
În tabelele statistice găsim valoarea scorului z (z=2,33) corespunzătoare probabilităţii de 1%
(numită şi punct de tăiere). În cazul nostru ea va fi –2,33 pentru că ne referim la scorurile mai mici decât
media, aflate în partea stângă a curbei de distribuţie.
168
ANALIZA COMPUTERIZATĂ A DATELOR
Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor
înseamnă a observa vârsta la care va merge copilul pentru prima dată (8 luni). Vom transforma scorul
subiectului la variabila vârstă în scor Z, prin raportare la distribuţia populaţiei normale de comparat
folosind formula notei Z (X-M)/SD), adică pentru exemplu nostru: Z=(8-14)/3)=-2
Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. După obţinerea scorul Z
corespunzător datelor colectate, acesta trebuie comparat cu scorul Z corespunzător punctului de tăiere.
În cazul nostru, nota Z (-2) corespunzătoare scorului brut este mai mare decât a notei Z a punctului de
tăiere (–2,33). În ipoteza noastră experimentală ne aşteptam ca nota Z corespunzătoare scorului brut să
fie mai mică decât valoare Z a punctului de tăiere. În consecinţă, acceptăm ipoteza de nul, ipoteza
experimentală neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit să dovedească, la un prag de
probabilitate de 1% că vitamina lor are efectul scontat.
Am prezentat testul Z pentru a înţelege logica testării ipotezelor şi înţelesul pragului de
semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.
Acest test se aplică atunci când dorim să comparăm rezultatele unui eşantion cu media
populaţiei (fără să avem informaţii despre varianţa rezultatelor populaţiei).
APLICAŢIE
Pentru a vedea cum anume se foloseşte programul SPSS în această situaţie vom crea o nouă
bază de date (baza7.sav), care conţine trei variabile: regiune (zona geografică, cu valorile: 1-
europeană, 2-asiatică şi 3-africană), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea
populaţiei pe km2). Prezentăm în continuare valorile acestor variabile:
dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5,
283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221
ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, -
0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9
reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2
169
RUXANDRA-LOREDANA GHERASIM
2
1
170
ANALIZA COMPUTERIZATĂ A DATELOR
One-Sample Test
4 5 6 7 8
Rezultatele sunt grupate în două tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine
elemente de statistică descriptivă. Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t
propriu-zis. În continuare vom analiza elementele OUTPUT-ului:
1. în această celulă este afişată media eşantionului, în cazul nostru m=1,49
2. în această celulă este afişată abaterea standard a eşantionului, SD=1,1
3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane
de aceeaşi mărime cu al nostru (37), populaţie din care provine eşantionul nostru, m=0,19
4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (m) 2,3 şi abaterea
standard (m) de 0,19. Valoarea lui t este obţinută după formula t=(m- m )/ m =(1,49-2,3)/0,19-
4,26. Valoarea nu este identică cu cea din tabel datorită aproximărilor făcute.
5. cuprinde gradele de liberate pentru care a fost calculată valoarea lui t şi probabilitatea de respingere
a ipotezei de nul; în cazul nostru df=36
6. prezintă pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dacă
respingem ipoteza de nul şi acceptăm ipoteza de cercetare. În exemplu nostru valoarea pragului de
semnificaţie este 0,000, dar se raportează ca un p0,001, pentru a arăta că probabilitatea de a
greşi este mai mică de 0,1% (calculatorul ne afişează doar primele trei zecimale).
7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raportăm.
8. prezintă intervalul de încredere al diferenţei dintre cele două medii (-1,1 şi -0,4) corespunzător
pragului de semnificaţie de 5%.
În interpretarea statistică a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de
acre trebuie să ţinem seama:
pragul de semnificaţie: care ne indică probabilitatea de eroare atunci când respingem ipoteza de nul.
Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie să fie mai mic sau cel mult
egal cu 0,05 (adică eroarea nu trebuie să fie mai mare de 5%).
gradul de libertate: arată care este mărimea eşantionului pe care s-a făcut testarea ipotezei. Cu cât
eşantionul este mai mare, cu atât putem avea mai multă încredere în rezultatele obţinute, indiferent
dacă ele confirmă sau nu ipoteza;
sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arată în ce sens
apare diferenţa (care medie este mai mare).
Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3,
Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p0,001.
Aceste rezultate indică faptul că diferenţa dintre medii este semnificativă, în sensul că media
eşantionului nostru este semnificativ mai mică comparativ cu cea a populaţie. Putem afirmă că
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al
populaţiei.
Să analizăm acum dacă scorurile la variabila densitate din eşantionul nostru diferă de cea a
populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indică următoarele rezultate:
171
RUXANDRA-LOREDANA GHERASIM
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
Numar de oameni/
37 261,797 895,096 147,153
kilometru patrat
One-Sample Test
Test Value = 90
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Numar de oameni/
1,167 36 ,251 171,797 -126,643 470,237
kilometru patrat
APLICAŢIE
Comparaţi rezultatele subiecţilor din eşantion cu rezultatele subiecţilor din populaţia cu o medie
de 16,3 la variabila nivel sociabilitate (baza de date BD1).
172
RUXANDRA-LOREDANA GHERASIM
Unitatea de învăţare 6.
TESTELE T PENTRU COMPARAREA A DOUĂ EŞANTIOANE
174
ANALIZA COMPUTERIZATĂ A DATELOR
2
3
Butonul OPTIONS este identic cu cel de la testul t care permite compararea unui eşantion cu o
populaţie. Vom păstra intervalul de încredere de 95%.
După apăsarea butonului OK fereastra OUTPUT ne va prezenta următoarele rezultate:
3 4
Paired Samples Statistics
2 Std. Error 5
Mean N Std. Deviation Mean
1 Pair nivelul anxietatii
107,9000 20 6,0166 1,3454
1 inainte de terapie
nivelul anxietatii
107,9500 20 5,3062 1,1865
dupa terapie
6
Paired Samples Correlations
7
N Correlation Sig.
Pair nivelul anxietatii inainte
1 de terapie & nivelul 20 -,259 ,270
anxietatii dupa terapie
175
RUXANDRA-LOREDANA GHERASIM
Paired Differences 12
9 95% Confidence
8 Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair nivelul anxietatii ina
1 de terapie - nivelul -0.05 8,9940 2,0111 -4,2593 4,1593 -,025 19 ,980
anxietatii dupa tera
14 15
Rezultatele sunt organizate în trei tabele, pentru fiecare dintre acestea vom analiza celulele.
Tabelul PAIRED SAMPLES STATISTICS:
1. conţine perechea de variabile analizată; variabilele trebuie să fie perechi, adică să provină de la
aceeaşi subiecţi şi fie cuantificate cu aceeaşi unitate de măsură
2. conţine mediile celor două grupe analizate: Mini=107,9, Mfin=107,95
3. prezintă numărul de subiecţi din fiecare eşantion, N=20
4. conţine deviaţiile standard a scorurilor fiecărui eşantion: Sini=60,1, Sfin=5,3
5. conţine abaterile standard ale populaţiilor de eşantioane de N subiecţi din care provin
eşantioanele noastre
Tabelul PAIRED SAMPLES CORRELATIONS
6. coeficientul de corelaţie dintre cele două variabile pereche
7. pragul de semnificaţie al corelaţiei, adică probabilitatea de eroare dacă am afirma că există o
legătură între cele două variabile
Tabelul PAIRED SAMPLES TESTS
8. conţine numele perechii de variabile şi precizează diferenţa dintre variabile, în cazul nostru
anx1-anx2
9. cuprinde diferenţa medie dintre cele două grupe de subiecţi. Valoarea negativă indică faptul că
anxietatea iniţială este mai mică comparativ cu cea finală
10. cuprinde abaterea standard a eşantionului rezultat din diferenţele celor două eşantioane
11. indică abaterea standard a populaţiei de eşantioane care cuprinde toate eşantioanele de
aceeaşi mărime
12. indică intervalul de încredere de 95%al diferenţei dintre mediile celor două grupe
13. valoarea lui t, adică nota t a eşantionului de diferenţe în cadrul populaţiei de eşantioane:
t(19)=-0,02
14. gradele de libertate pentru care este calculată nota t, df=19
15. pragul de semnificaţie sau probabilitatea de eroare atunci când respingem ipoteza de nul:
p=0,980
EXEMPLU:
În continuare prezentăm rezultatele obţinute în urma analizei realizată anterior:
Mediile iniţiale şi finale ale subiecţilor: Mini=107,9, Mfin=107,95
Valoarea lui t şi a pragului de semnificaţie: t(19)=-0,02, p=0,980.
Interpretarea se face în funcţie de valoarea lui t şi pragul de semnificaţie. Reamintim că pentru
a respinge ipoteza de nul trebuie să avem cel mult 5% erori (p0,05). În cazul nostru se constată că nu
apare o diferenţă semnificativă între nivelul iniţial şi cel final al anxietăţii (dacă am respinge ipoteza de
nul am greşi în 98% din cazuri sau cu alte cuvinte valoarea lui t se plasează în zona de încredere a
ipotezei de nul). Subiecţii au acelaşi nivel al anxietăţii după intervenţia terapeutică, astfel că putem
spune că terapia nu a avut efect, nu a îmbunătăţit starea subiecţilor.
176
ANALIZA COMPUTERIZATĂ A DATELOR
Corelaţia ne arată dacă subiecţii îşi schimbă ierarhia unii faţă de alţii, nu numai nivelul variabilei
dependente. Avem trei situaţii posibile:
lipsa corelaţiei semnificative: în acest caz nu există o legătură între ierarhia subiecţilor la prima cu
cea de al două măsurare. Putem afirma că diferenţele între măsurători nu sunt sistematice,
intervenţia acţionând oarecum haotic.
corelaţie pozitivă semnificativă: indică faptul că ierarhia subiecţilor se păstrează de la o măsurare la
alta. Cei care aveau rezultate mici la prima măsurare au rezultate mici şi la a doua, iar cei care
aveau rezultate mari la prima măsurare au rezultate mari şi la a doua măsurare.
corelaţie negativă, semnificativă: indică faptul că ierarhia subiecţilor se inversează de la o măsurare
la alta. Cei care aveau rezultate mici la prima măsurare au rezultate mari la a doua, iar cei care
aveau rezultate mari la prima măsurare au rezultate mici la a doua măsurare.
În exemplu nostru avem prima situaţie corelaţie nesemnificativă, r=-0,25, p=0,270, ceea ce
indică faptul că cele două variabile sunt independente una de cealaltă, deoarece diferenţele nu sunt
sistematice.
APLICAŢIE
Comparaţi rezultatele subiecţilor la variabilele nivel optimism cu cele obţinute la variabila nivel
sociabilitate (baza de date BD1).
IMPORTANT
Se foloseşte când dorim să analizăm influenţa unei variabile independente, care presupune
eşantioane independente de subiecţi.
Pentru a demonstra modul de utilizare a testului vom folosi datele din baza de date baza1.sav.
Vom analiza dacă genul subiecţilor influenţează nivelul iniţial al anxietăţii pacienţilor. În acest caz
variabila independentă este genul subiecţilor (cu două grade de intensitate, 1 - subiecţi de sex masculin
şi 2 – subiecţi de gen feminin), variabila dependentă fiind nivelul iniţial al anxietăţii. În funcţie de
variabila independentă se creează două grupe de subiecţi independenţi sau diferiţi (grupul 1 va fi format
numai din subiecţii de gen masculin, iar grupul 2 numai din subiecţi de gen feminin). Fiecare subiect va
putea face parte doar dintr-un singur grup.
Ipoteza de cercetare: subiecţii de sex masculin vor avea un nivel al anxietăţii iniţiale diferit de
cel al subiecţilor de gen feminin
Ipoteza de nul: subiecţii de gen masculin şi feminin vor avea acelaşi nivel al anxietăţii iniţiale.
177
RUXANDRA-LOREDANA GHERASIM
Vom introduce variabila dependentă (nivelul anxietăţii înainte terapiei) în câmpul TEST
VARIABLE şi variabila independentă în câmpul GROUPING VARIABLE:
2
3
4
178
ANALIZA COMPUTERIZATĂ A DATELOR
1 2 Group Statistics 3 4
5
Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 104,8889 2,5712 ,8571
inainte de terapie subiecti de gen feminin 11 110,3636 6,9753 2,1031
8 9 10 11
179
RUXANDRA-LOREDANA GHERASIM
nul. Concluzia este că variantele celor două populaţii sunt diferite, vom extrage nota t şi semnificaţia
de pe rândul EQUAL VARIANCES NOT ASSUMED.
Valoarea lui t şi semnificaţia: t(18)=-2,4, p=0,031. Putem respinge ipoteza de nul, pentru că greşim doar
în 3,1% din cazuri şi s acceptăm ipoteza de cercetare. Deci, apar diferenţe semnificative între nivelul
anxietăţii iniţiale a subiecţilor de gen masculin şi feminin. Subiecţii de sex masculin au un nivel al
anxietăţii semnificativ mai mic comparativ cu a celor de gen feminin.
Vom analiza efectul variabilei gen asupra nivelului anxietăţii subiecţilor după terapie.
Rezultatele obţinute sunt:
Group Statistics
Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 106,1111 4,0449 1,3483
dupa terapie subiecti de gen feminin 11 109,4545 5,9053 1,7805
APLICAŢIE
Comparaţi rezultatele subiecţilor de gen feminin cu cele ale subiecţilor de gen masculin la
variabila nivel optimism (baza de date BD1).
180
RUXANDRA-LOREDANA GHERASIM
Unitatea de învăţare 7.
ANALIZA DE VARIANŢĂ - ANOVA UNIFACTORIAL
IMPORTANT
Se foloseşte atunci când vrem să analizăm efectul unei variabile independente, care are mai
mult de două grade de intensitate (sau nivele), asupra variabilei dependente.
x
a
M1 M2 M3
MG
Cele trei linii curbe mici descriu distribuţia salariilor pentru cele trei categorii de studii, iar linia
curbă mai mare descrie distribuţia salariului pentru toate cele trei niveluri de studii luate la un loc. M1,
M2 şi M3 reprezintă salariul mediu pentru fiecare nivel de studii, iar MG este salariul mediu total al
tuturor salariaţilor. Distanţa a reprezintă poziţia scorului x faţă de media grupului din care aparţine, iar
distanţa b exprimă poziţia scorului x faţă de valoarea medie a populaţiei totale (formată din cele trei
niveluri de studii la un loc).
Variaţia totală a salariului populaţiei poate fi descompusă în două părţi: o parte din variaţie se
datorează abaterilor fiecărui scor de la media grupului din care face parte (distanţa a), iar cealaltă parte
din variaţie este produsă de abaterile fiecărui scor de la media totală a populaţiei. Pentru a distinge între
grupuri ar trebui ca prima componentă a variaţiei să fie mai mică decât cea de a doua, adică persoanele
aflate în acelaşi grup să difere mai puţin între ele şi mai mult de subiecţii din celelalte grupe. Atunci când
variaţia intragrup este mai mică decât variaţia intergrup înseamnă grupele sunt diferite.
Analiza de varianţă (simbolul este F, coeficientul Fisher), calculează raportul între variaţia
provocată de diferenţele întergrupuri, MSB, şi variaţia cauzată de diferenţele intragrup, MSW, (formula de
calcul este F=MSB/MSW) şi stabileşte dacă acest raport este suficient de mare pentru a putea distinge
între grupe. Semnificaţia coeficientului F se stabileşte în funcţie de două grade de libertate: gradele de
libertate intergrup (valoare dată de numărul de grupuri minus 1) şi gradele de liberate intragrup (valoare
dată de suma gradelor de libertate a grupurilor sau de numărul total de subiecţi mai puţin numărul
grupurilor).
182
ANALIZA COMPUTERIZATĂ A DATELOR
2
1
6
4
5
Să analizăm fereastra:
1. câmpul în care sunt afişate variabilele din baza de date;
2. câmpul în care sunt introduse variabilele dependente (în cazul nostru densitatea);
3. este câmpul în care se introduce variabila independentă sau factor (în exemplul nostru factorul este
regiunea);
4. butonul CONTRAST permite realizarea unor comparaţii între grupe în funcţie de variabila
independentă;
5. butonul POST HOC permite alegerea unui anumit tip de contrast post-hoc;
6. butonul OPTIONS conţine elemente de statistică descriptivă.
Vom descrie pe scurt opţiunile butonului POST-HOC:
183
RUXANDRA-LOREDANA GHERASIM
Toate testele de la această opţiune indică dacă diferenţele obţinute pe ansamblu prin analiza
testului F se regăsesc şi la nivelul comparaţiilor dintre grupuri luate două câte două. Pragurile de
semnificaţie a acestor teste sunt ajustate în funcţie de numărul de grupe. Testele sunt prezentate în
ordinea descrescătoare a puterii lor. Pentru a analiza efectul variabilei independente asupra celei
dependente se foloseşte testul BONFERRONI.
Activarea butonului descriptiv deschide următoarea casetă:
Opţiunile pe care le vom bifa sunt DESCRIPTIV pentru a vedea mediile celor trei grupe şi
reprezentarea grafică a efectului MEANS PLOT.
După activarea butonului OK al ferestrei principale în foia cu rezultate apr următoarele tabele:
Descriptives
1 2 ANOVA
3 4 5 6
184
ANALIZA COMPUTERIZATĂ A DATELOR
Multiple Comparisons
185
RUXANDRA-LOREDANA GHERASIM
În continuare vom analiza efectul variabilei regiune asupra densităţii. Rezultatele obţinute sunt
următoarele:
ANOVA
Multiple Comparisons
Mean
Difference
(I) regiunea geografica (J) regiunea geografica (I-J) Std. Error Sig.
europa asia -627,447 345,186 ,234
africa 21,172 345,186 1,000
asia europa 627,447 345,186 ,234
africa 648,618 370,789 ,268
africa europa -21,172 345,186 1,000
asia -648,618 370,789 ,268
Din tabelul ANOVA extragem valoarea şi semnificaţia lui F: F(2,34)=2,07, p=0,142. Constăm nu
există un efect al variabilei regiune asupra densităţii populaţiei (nu putem respinge ipoteza de nul pentru
că am greşi în 14,2% din cazuri). Deci, densitatea populaţiei este aproximativ aceeaşi indiferent de
regiune: europeană, asiatică sau africană.
186
ANALIZA COMPUTERIZATĂ A DATELOR
Testul POST HOC Bonferroni ne semnalează diferenţe semnificative între cele trei grupe care
se formează în funcţie de intensităţile variabilei independente.
187
ANALIZA COMPUTERIZATĂ A DATELOR
Unitatea de învăţare 8.
ANALIZA DE VARIANŢĂ ANOVA UNIVARIATE
Cele mai multe studii realizate în domeniul psihologiei studiază efectul mai multor factori
(variabile independente) asupra uneia sau mai multor variabile dependente. Metodele prezentate până
acum (testele t şi ANOVA unifactorial) permit doar evidenţierea influenţei separate a fiecărui factor.
Pentru a analiza efectelor mai multor variabile independente se poate folosi analiza de varianţă
factorială. Logica acestei metode este identică cu a modelului ANOVA unifactorial, la fel coeficientul F
măsoară raportul dintre variaţia cauzată de împărţirea pe grupuri şi variaţia intrinsecă a grupurilor.
Acest tip de analiză prezintă două tipuri de note F corespunzătoare celor două tipuri de efecte
pe care le măsoară.
DEFINIŢIE
Efectele principale măsoară influenţa unei variabile independente asupra variabilei dependente,
indiferent de acţiunea celorlalte variabile independente. Efectele de interacţiune măsoară influenţa
combinată a două sau mai multor variabile independente asupra variabilei dependente.
APLICAŢIE
Pentru a prezenta modul de folosire al programului SPSS pentru aplicarea acestei metode vom
crea o nouă bază de date (baza8.sav) care conţine trei variabile: nota (notele obţinute de studenţi la
examen), niv_stim (nivelul stimei de sine, cu două valori: 1 - nivel scăzut al stimei de sine şi 2 – nivel
ridicat al stimei de sine), niv_anx (nivelul de anxietate cu două valori: 1 - nivel scăzut de anxietate
scăzut şi 2 nivel ridicat de anxietate). Prezentăm mai jos datele care trebuie introduse în programul
SPSS:
Nota: 9, 9, 8, 10, 9, 10, 6, 8, 7, 7, 6, 5, 6, 7, 8, 8, 8, 7, 10, 7, 8, 7, 8, 9, 6, 5, 7, 5, 6, 5, 8
Niv_stim: 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2
Niv_anx: 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1,1, 1, 1, 2, 2, 2, 2, 2, 2, 2
În acest exemplu avem două variabile independente niv_stim (nivelul stimei de sine) şi niv_anx
(nivelul de anxietate), fiecare din ele având două grade de intensitate. Variabila dependentă este nota
obţinută la examen.
Vom analiza efectul de interacţiune (sau combinat) al nivelului de anxietate şi al stimei de sine
asupra notei obţinute la examen.
Pentru analiza efectului combinat voma activa meniul ANALYZE - GENERAL LINEAR MODEL
opţiunea UNIVARIATE. Odată activată comanda pe ecran apare următoarea fereastră:
189
RUXANDRA-LOREDANA GHERASIM
1
4
190
ANALIZA COMPUTERIZATĂ A DATELOR
În partea dreaptă fereastra principală există o serie de butoane care conţin opţiuni complexe de
analiză. Precizăm nu vom folosi în analiză toate opţiunile, acestea putând fi folosite pentru design-uri
experimentale mult mai complexe.
Butonul MODEL activează următoarea fereastră:
2
Opţiunile din această fereastră folosesc la construirea unor modele de analiză în condiţiile în
care situaţia investigată este complicată (conţine multe variabile independente). Să analizăm fereastra:
1. opţiunea FULL FACTORIAL este marcată implicit, ceea ce înseamnă că se vor lua în calcul toate
efectele principale şi combinaţiile posibile de factori. Pentru modelele simple se recomandată
utilizarea acestei opţiuni
2. opţiunea CUSTOM se foloseşte dacă se doreşte simplificarea modelul cu care se lucrează, bifarea
acestei opţiune activează automat câmpurile şi butoanele care se găsesc dedesubt, permiţând
calculul anumitor efecte pentru anumiţi factori
3. folosind opţiunile care se deschid din câmpul INTERACTION, putem alege efectele pe care vrem să
le analizăm; cu ajutorul butonului cu săgeată se pot selecta factorii pentru care dorim să se calculeze
efectele.
4. permite alegerea tipului de interacţiune dintre variabilele independente (cât de complexă să fie
interacţiunea) şi calculul unor coeficienţi de regresie ai modelului (există o legătură strânsă între
Regresia liniară şi analiza de varianţă).
Pentru exemplul nostru, vom păstra opţiunea marcată implicită FULL FACTORIAL. Se apasă
butonul CONTINUE pentru a reveni la fereastra principală.
Butonul CONTRAST deschide următoarea fereastră:
Opţiunile acestei ferestre permit compararea diferitelor grupuri rezultate din împărţirea
subiecţilor în funcţie de valorile sau categoriile variabilelor independente. Aici sunt trecute doar
variabilele independente. Se alege variabila independentă pentru care se doreşte calculul contrastul
(diferenţa dintre nivelele sale de variaţie). Apoi, se alege tipul de contrast din câmpul CONTRAST. Se
recomandă tipul de contrast DIFFERENCE.
Pentru exemplificare, am ales variabila NIV_STIM (nivelul stimei de sine).
191
RUXANDRA-LOREDANA GHERASIM
Prin tipul de contrast DIFFERENCE, se cere programului să analizeze dacă între cele două
nivele ale variabilei nivel al stimei de sine vor apărea diferenţe în ceea ce priveşte notele obţinute. Cu
alte cuvinte vom vedea dacă cei cu stimă de sine ridicată obţin note diferite de cei cu stimă de sine
scăzută). După alegerea tipului de contrast trebuie activat butonul CHANGE.
192
ANALIZA COMPUTERIZATĂ A DATELOR
Pe axa HORIZONTAL AXIS se introduce variabila independentă ale cărei categorii dorim să le
reprezentăm pe axa X.
Pe axa SEPARATE LINES se introduce variabila pentru care se vor trasa linii ce vor reprezenta
categorii diferite ale factorului.
SEPARATE PLOTS se foloseşte introducerea celui de al treilea factor, ceea ce permite
obţinerea mai multor grafice, care indică relaţia dintre variabilele introduse anterior pentru fiecare nivel
al factorului trei.
În exemplul nostru avem doar doi
factori. În consecinţă vom reprezenta notele la
examen în funcţie de nivelul stimei de sine,
NIV_STIM (pe care o vom trece pe axa X) şi
nivelul anxietăţii, NIV_ANX (reprezentată prin
linii separate), ca în imaginea alăturată:
Revenim din nou în fereastra principală pentru a activa butonul POST HOC care va deschide
fereastra:
Acest buton are opţiuni similare cu butonul POST HOC din fereastra ANOVA ONE-WAY.
Această opţiune se foloseşte doar când variabile independente au mai mult de două nivele de variaţie.
Pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.
193
RUXANDRA-LOREDANA GHERASIM
Pentru exemplul nostru nu avem nevoie de comparaţii POST HOC, deoarece ambele variabile
independente au doar două nivel. Vom reveni la fereastra principală fără a activa vreo opţiune.
Butonul SAVE activează următoarea fereastră:
Opţiunile la care face referire acest buton se referă la o
altă metodă statistică numită Regresia liniară. Nu vom mai
comenta aceste opţiuni, dar menţionăm că ele facilitează
tratarea analizei de variantă ca un model particular de regresie.
Recomandăm folosirea acestor opţiuni doar celor care cunosc
regresia.
Butonul OPTIONS activează o fereastră specifică
acestei analize de varianţă:
194
ANALIZA COMPUTERIZATĂ A DATELOR
În continuare vom prezenta foaia cu rezultate. Primele elemente ale output-ului se referă la
parametrii descriptivi ai modelului. Primul tabel precizează numărul de subiecţi pentru fiecare grup
obţinut în funcţie de nivelurile fiecărei variabile independente. De exemplu, sunt 16 subiecţi în grupul
celor cu nivel scăzut al stimei de sine.
Al doilea tabel precizează mediile totale precum şi cele corespunzătoare fiecărui subgrup de
subiecţi, subgrup determinat de categoriile factorilor din model. Aceste date sunt rezultatul opţiunilor
marcate de noi din fereastra butonului OPTIONS.
Mai departe, în foaia de rezultate sunt prezentate elementele cele mai importante ale
outputului, rezultatele testului F.
Tabelul cu testul lui Levene reprezintă tocmai testul de omogenitate, care trebuie să fie
nesemnificativ pentru a utiliza această metodă.
3
4 2
Cele mai importante elemente ale tabelului se referă la testul F. Ne interesează numai liniile
marcate prin acolade.
1. arată variabilele ale căror efecte le luăm în calcul:
195
RUXANDRA-LOREDANA GHERASIM
linia cu NIV_STIM arată efectul principal al factorului nivelul stimei de sine, indiferent de acţiunea
celuilalt factor;
NIV_ANX arată efectul principal al factorului nivel de anxietate, indiferent de acţiunea celuilalt
factor;
linia NIV_STIM*NIV_ANX se referă la efectul de interacţiune al celor două variabile asupra
variabilei dependente;
2. conţine notele F corespunzătoare efectelor principale şi de interacţiune;
3. conţine pragurile de semnificaţie ale testelor F.
4. conţine gradele de libertate between subjects şi within subjects
Pentru exemplu nostru s-a obţinut doar un singur F semnificativ (p<0,05) şi anume cel
corespunzător liniei NIV_STIM (F(1,30)=22,13, p<0,001). Deci apare un efect principal al variabilei
nivelul stimei de sine asupra notelor la examen. Restul efectelor sunt nesemnificative. Nu apare un
efect principal al variabilei nivelul anxietăţii (F(1,30)=2,7, p=0,107), deci notele subiecţilor nu depinde de
cât de anxioşi sunt aceştia. De asemenea, nu apare un efect de interacţiune al variabilelor
independente nivelul stimei de sine şi nivelul anxietăţii (F(1,30)=0,02, p=0,881), deci nota la examen nu
este influenţată de efectul combinat al nivelului de anxietate şi al stimei de sine.
Pentru a vedea modul
în care nivelul stimei de sine
(NIV_STIM) influenţează nota la
examen, trebuie să ne uităm în
tabelul de contrast:
Testul de contrast
calculează diferenţa între media
notelor obţinute de subiecţii cu
nivel ridicat al stimei de sine şi a
celor cu nivel scăzut al stimei
de sine (LEVEL 2 vs. LEVEL l).
Această diferenţă a fost comparată cu situaţia în care cele două grupuri ar fi obţinut valoarea zero
(HYPOTHESIZED VALUE). Pragul de semnificaţie (notat cu SIG) indică apariţia unei diferenţe
semnificative. Sensul diferenţei (-1,93) indică faptul că cei cu nivel ridicat al stimei de sine (LEVEL 2) au
obţinut note mai semnificativ mai mici comparativ cu cei cu nivel ridicat al stimei de sine (LEVEL 1).
Tabelul alăturat reia
analiza contrastelor pentru
factorul nivelul anxietăţii:
Aici nu mai apar
diferenţe semnificative (fapt
confirmat şi de lipsa unui efect
principal pentru această
variabilă), deci nivelul anxietăţii
nu afectează nota la examen
(Mdif=-0,68, p=0,107).
Următoarele tabelele
prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru fiecare factor în parte (tabelele
2 şi 3) şi cele pentru grupurile de subiecţi rezultat al combinării nivelurilor celor două variabile
independente. Aceste tabele ajută la interpretarea sensului diferenţelor la testele de contrast şi
interacţiunii variabilelor. Tabelele prezintă şi deviaţiile standard şi limitele valorii medii pentru un interval
de încredere de 95%.
196
ANALIZA COMPUTERIZATĂ A DATELOR
197
ANALIZA COMPUTERIZATĂ A DATELOR
Unitatea de învăţare 9.
ANALIZA DE VARIANŢĂ ANOVA REPEATED MEASURES
IMPORTANT
Atunci când una dintre variabilele independente presupune eşantioane perechi sau măsurări
repetate, trebuie să utilizăm un alt model de analiză de varianţă, şi anume modelul ANOVA cu măsurări
repetate.
Acest model de analiză de varianţă se utilizează atunci când se doreşte analiza efectului de
interacţiune a două variabile independente, una presupunând eşantioane independente, iar cealaltă
măsurări repetate. La fel ca şi modelul de varianţă prezentat anterior şi acest tip de analiză prezintă
două tipuri de note F corespunzătoare tipurilor de efect măsurate. Efectele principale măsoară influenţa
fiecărei variabile independente asupra variabilei dependente, indiferent de acţiunea altei variabile
independente. Efectele de interacţiune măsoară influenţa combinată a două sau mai multor variabile
independente asupra variabilei dependente.
APLICAŢIE
Pentru a prezenta modul de utilizare a programului SPSS pentru aplicarea acestei metode vom
crea o nouă bază de date (baza 8.sav) care conţine trei variabile: ANX1 (scorurile pacienţilor la scala de
anxietate înaintea terapiei, ANX2 (scorurile pacienţilor la scala de anxietate după terapie), şi TERAPIE
(tipul de terapie utilizat, cu două valori care corespund celor două tipuri de intervenţii terapeutice 1- tip 1
de terapie şi 2 - tip 2 terapie). Prezentăm mai jos datele, care trebuie introduse în programul SPSS:
ANX1: 109, 110, 104, 106, 112, 105, 121, 102, 103, 104, 106, 104, 105, 108, 124, 115, 109,
103, 104, 104
ANX2: 110, 102, 103, 105, 115, 116, 110, 110, 112, 103, 102, 104, 110, 110, 102, 102, 102,
109, 115, 117
TERAPIE: 1, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2
199
RUXANDRA-LOREDANA GHERASIM
Activarea comenzilor pentru acest model ANOVA se face din meniul ANALYZE - GENERAL
LINEAR MODEL opţiunea REPETED MEASURES. După activarea comenzii, pe ecran apare fereastra
alăturată:
Pentru a putea face analiza trebuie definită variabila care presupune măsurări repetate, în cazul
nostru această variabilă este măsurarea repetată a anxietăţii înainte şi după terapie (sau test-retest). Cu
alte cuvinte trebuie denumită variabila independentă care presupune măsurări repetate şi trebuie
precizate nivelurile acesteia. În locul denumirii generice a
variabilei care presupune măsurări repetate, care apare în
câmpul WITHIN-SUBJECTS FACTOR NAME (factor 1)
vom trece numele noii variabile TRT. În câmpul NUMBER
OF LEVEL trebuie trecut numărul de măsurători repetate.
Pentru exemplul nostru vom trece valoarea 2 pentru că
anxietatea este măsurată înainte şi după terapie (vezi
imaginea din dreapta):
200
ANALIZA COMPUTERIZATĂ A DATELOR
În partea de jos a ferestrei principale apar o serie de butoane care conţin opţiuni complexe de
analiză. Opţiunile sunt similare celor care au apărut în modelul de analiză de varianţă prezentat anterior
ANOVA UNIVARIATE.
Butonul MODEL activează următoarea fereastră:
Opţiunile din această fereastră folosesc la construirea unor modele în condiţiile în care situaţia
investigată este prea complicată. Pentru exemplul nostru, vom păstra opţiunea selectată implicit FULL
FACTORIAL, ceea ce va însemna că în foia cu rezultate vor apărea atât efectele principale ale celor
două variabile independente cât şi efectul de interacţiune al acestora.
201
RUXANDRA-LOREDANA GHERASIM
Acest buton are opţiuni similare butonului POST HOC din fereastra ANOVA ONE-WAY şi
UNIVARIATE. Opţiunea se foloseşte atunci când variabile independente au mai mult de două nivele de
variaţie. De asemenea, pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparaţii POST-HOC, pentru că variabilele
independente au doar două niveluri. În consecinţă, vom reveni la fereastra principală fără a activa vreo
opţiune.
202
ANALIZA COMPUTERIZATĂ A DATELOR
La fel ca la ANOVA UNIVARIATE, butonul se referă la o altă metodă statistică numită Regresia
liniară, facilitând tratarea analizei de variantă ca un model particular de regresie. Recomandăm folosirea
acestor opţiuni doar celor care cunosc regresia.
Butonul OPTIONS activează o fereastră
specifică analizei de variantă:
Al doilea tabel precizează numărul de subiecţi pentru fiecare grup obţinut în funcţie de nivelurile
factorului care presupune eşantioane independente:
Următorul tabel precizează mediile pentru fiecare subgrup de subiecţi format în funcţie de toate
categoriile factorilor din model.
203
RUXANDRA-LOREDANA GHERASIM
În primul tabel se constată că nu apare un efect al variabilei TRT (p>0,050), ceea ce indică
faptul că nivelului iniţial al anxietăţii pacienţilor nu diferă de nivelul final al anxietăţii pacienţilor după
terapie (F(1,18)=0,006, p=0,940). Faptul că subiecţii au acelaşi nivel al anxietăţii după intervenţia
terapeutică indică faptul că terapia utilizată nu a avut efect.
De asemenea, nu apare un efect combinat al variabilelor independente, TRT*TERAPIE
(F(1,18)=0,267, p=0,661). Deci subiecţii au acelaşi nivel al anxietăţii înainte şi după terapie, indiferent
de tipul de terapie utilizat.
Următorul tabel indică efectul variabilei independente tip de terapie, fără a ţine seama de
momentul măsurării F(1,18)=13,23, p=0,002. Se constată că apare un efect principal al acestei
variabilei independente asupra nivelului anxietăţii pacienţilor după terapie.
Pentru a vedea cum
influenţează tipul de terapie nivelul
anxietăţii pacienţilor vom analiza
tabelul Custom Hypothesis.
Astfel, pacienţii care au primit
tipul 2 de terapie au un nivel al
anxietăţii semnificativ mai ridicat
comparativ cu pacienţii care au primit
terapia de tip 1 (Mdif=4,40, p=0,002).
Următoarele tabelele prezintă media obţinută pe ansamblu (tabelul l), mediile obţinute pentru
fiecare factor în parte (tabelele 2 şi 3) şi pentru grupele de subiecţi obţinute în urma combinării
nivelurilor celor două variabile independente (tabelul 4). Aceste tabele ajută la interpretarea sensului
204
ANALIZA COMPUTERIZATĂ A DATELOR
205
ANALIZA COMPUTERIZATĂ A DATELOR
Datele non-parametrice sunt mai frecvent utilizate în sociologie decât în psihologie, Deoarece
avem de a face cu scale nominale sau ordinale, parametrii obişnuiţi pe care i-am folosit până acum în
analiză, precum media sau abaterea standard, nu mai pot fi utilizaţi. În consecinţă, datele pe care le
obţinem folosind aceste scale de măsură nu mai pot fi analizate folosind metodele prezentate anterior.
IMPORTANT
Aceste date se analizează pornind de la frecvenţele de apariţie ale diferitelor categorii sau de la
probabilităţile de apariţie ale acestor categorii. Metodele statistice utilizate pentru analiza acestor date
sunt numite teste non-parametrice.
Aplicarea acestor teste este mai facilă decât folosirea testelor parametrice, deoarece nu există
restricţii cu privire la distribuirea normală a rezultatelor. Totuşi, aceste metode pot eşua mai uşor în
demonstrarea diferenţele, acolo unde acestea există în realitate. Din acest motiv, recomandăm
conceperea instrumentelor utilizând scalele de interval în locul celor nominale sau ordinale. De
exemplu, în locul măsurării preferinţei pentru un anume tip de muzică folosind o scală ordinală de tipul
„1-deloc, 2-puţin, 3-mediu, 4-mult, 5-foarte mult", este mai indicată măsurarea pe o scală de interval de
tipul „1-deloc -2-3-4-5 - foarte mult". În acest fel, pot fi uşor detectate diferenţele folosind metodele
parametrice.
Vom prezenta câteva dintre metodele non-parametrice, fără a intra în detaliile teoretice privind
aceste teste.
DEFINIŢIE
Testul chi-pătrat permite compararea distribuţiei frecvenţelor unei variabile pe mai multe
categorii, prin raportare la o distribuţie teoretică stabilită de cercetător.
Folosirea SPSS
APLICAŢIE
Pentru a demonstra modul de aplicare al acestei metode vom crea o nouă bază de date
(baza9.sav) care cuprinde următoarele variabile: VRST (vârsta subiecţilor), GEN (genul subiecţilor, cu
două valori: 1 semnifică subiecţi de gen masculin şi 2 subiecţi de gen feminin) şi VOT (cuprinde
răspunsurile subiecţilor la întrebarea „Cu cine aţi votat la ultimele alegeri prezidenţiale?, cu două valori:
1 indicând persoanele care au votat pe Geoană, iar 2 indicând pe cei care au votat Băsescu) şi variabila
GR_MULT (conţine răspunsurile subiecţilor la întrebarea „Cât de mulţumiţi sunteţi de situaţia actuală a
207
RUXANDRA-LOREDANA GHERASIM
ţării?”, cu două valori: 1 - deloc mulţumit, 2 - puţin mulţumit şi 3 - foarte mulţumit). Prezentăm scorurile
subiecţilor la cele patru variabile:
VRST: 45, 23, 54, 19, 22, 34, 37, 62, 36, 41, 47, 51, 38, 27, 35, 43, 32, 29
GEN: 1, 1, 2, 2, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2
VOT: 2, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 21, 2, 2, 2
GR_MULT: 1, 2, 3, 1, 1, 1, 3, 3, 3, 2, 2, 2, 1, 3, 2, 2, 2, 1
În exemplul nostru, dorim să vedem cu cine au votat alegătorii din lotul nostru la ultimele alegeri
prezidenţiale. Deci, vom compara frecvenţa cu care oamenii au votat cei doi candidaţi, folosind testul chi
pătrat.
Vom activa fereastra specifică testului din meniul ANALYZE - NONPARAMETRIC TESTS
opţiunea CHI-SQUARE:
Vom introduce variabila VOT în câmpul pentru analiză (TEST VARIABLES LIST).
Se observă faptul că în câmpul EXPECTED VALUES este bifată opţiunea ALL CATEGORIES
EQUAL, ceea ce semnifică faptul că se va compara situaţia reală a votului cu situaţia în care candidaţii
ar obţine acelaşi număr de voturi.
Dacă însă doream să comparăm distribuţia cu o alta, în care categoriile nu s-ar mai fi distribuit
egal, atunci foloseam opţiunea VALUES şi butonul ADD.
Rezultatele testului apar în foaia cu rezultate sub forma a două tabele:
În primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvenţa
observată, cea teoretică la care se face raportarea şi abaterile frecvenţei observate de la frecvenţa
teoretică (coloana RESIDUALS).
208
ANALIZA COMPUTERIZATĂ A DATELOR
Aceste teste sunt echivalentul testului t pentru eşantioane independente, doar că în acest caz
variabila dependentă măsurată nu este cantitativă, ci calitativă şi ordinală. Toate testele non-
parametrice ce compară două eşantioane independente au la bază comparaţii ale rangurilor diferitelor
intervale observate.
Folosirea SPSS
Pentru a ilustra aplicarea testului vom utiliza baza de date creată anterior (baza9.sav). Vom
analiza dacă apr diferenţe între subiecţii de gen masculin şi cei de gen feminin în ceea ce priveşte
gradul de mulţumire faţă de situaţia actuală a ţării.
Testul se activează din meniul ANALYZE - NON-PARAMETRIC TESTS opţiunea TWO
INDEPENDENT SAMPLES:
Fereastra care apare pe ecran semănă foarte mult cu cea care apare la activarea testului t
pentru eşantioane independente. Dintre cele patru tipuri de teste, vom folosi MANN-WHITNEY U, care
se bazează pe ierarhia rangurilor observaţiilor din cele două grupuri.
Vom trece variabila dependentă (GR_MULT) în câmpul TEST VARIABLE LIST, iar variabila
independentă (GEN) în câmpul GROUPING VARIABLE. Grupurile variabilei independente se definesc
folosind butonul DEFINE GROUPS, la fel ca şi în cazul testului t.
În foaia cu rezultate apar următoarele tabele:
209
RUXANDRA-LOREDANA GHERASIM
Metodele care compară două eşantioane perechi sunt similare aplicării testului t pentru
eşantioane perechi.
APLICAŢIE
Pentru a ilustra aplicarea acestui test vom folosi o nouă bază de date (baza10.sav) care
cuprinde două variabile: ALINATA (cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia
alianţei în integrarea europeană”; variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă) şi PSD
(cuprinde răspunsurile subiecţilor la itemul „Evaluaţi contribuţia alianţei în integrarea europeană”,
variabila are trei valori 1 - importanta, 2 - medie şi 3 - slabă). Prezentăm rezultatele subiecţilor:
Alinata: 1, 1, 2, 3, 1, 1, 3, 2, 2, 2, 1, 1, 2, 2, 3, 3, 1, 3, 1, 1, 3, 2, 2, 2, 2, 2
PSD: 2, 3, 1, 1, 3, 2, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2
Dorim să vedem dacă subiecţii au o părere mai bună despre unul dintre cele două partide
politice. Deoarece subiecţii răspund la ambele întrebări trebuie aplicată o metodă care să permită
compararea eşantioanelor perechi.
Se foloseşte din meniul NON PARAMETRIC TESTS opţiunea TWO RELATED SAMPLES.
Fereastra seamănă cu cea a testului t pentru eşantioane perechi. Ca şi la acest test, trebuie
selectată o pereche de variabile pentru analiză, pentru a se activa opţiunile ferestrei.
Pentru exemplul nostru vom selecta variabile ALIANTA şi PSD şi le vom trece în câmpul din
stânga:
210
ANALIZA COMPUTERIZATĂ A DATELOR
Vom utiliza testul WILCOXON, care se bazează pe rangul valorilor absolute al diferenţelor
dintre două variabile, comparând separat diferenţele pozitive şi negative.
Prezentarea rezultatelor testului, în foaia cu rezultate, se face în două tabele, unul pentru
valorile descriptive şi altul pentru semnificaţia testului, ca mai jos:
În primul tabel apare media şi suma rangurilor diferenţelor pozitive şi negative, precum şi
cazurile în care scorurile sunt la egalitate. Indicii de sub acest tabel arată sensul diferenţelor.
Din al doilea tabel observăm că testul este nesemnificativ (p=0,281). Aceste rezultat indică
faptul că oamenii consideră ca ambele partide contribuie la fel de mult la integrarea României în
Uniunea Europeană.
211