Documente Academic
Documente Profesional
Documente Cultură
▪ ofer noţiuni, explicaţii şi aplicaţii pentru a înţelege şi opera eficient cu programul SPSS 10.0 în
scopul prelucr rii statistice a datelor.
EVALUARE
▪ 40% din nota final examen practic care presupune prelucrarea şi interpretarea datelor;
▪ 60% din nota final evalu rile de pe parcursul seminariilor, care vor presupune prelucr ri şi analize
statistice ale datelor.
OBSERVA IE !!!
Cursul nu epuizează opţiunile programului SPSS şi nu suplineşte lipsa informaţiilor statistice teoretice.
ANALIZA COMPUTERIZAT A DATELOR
Variabile sunt definite ca propriet ţi ale fenomenelor, obiectelor sau proceselor, care pot lua
diferite valori. Exist mai multe criterii în funcţie de care se pot clasifica variabilele: dup natura m surii
variabilele pot fi: cantitative (variaz cantitativ, cum ar fi de exemplu greutatea sau vârsta subiecţilor)
sau calitative (sunt cele care variaz calitativ, cum ar fi genul sau etnia subiecţilor); dup felul variaţiei,
variabilele pot fi: continui (teoretic pot lua orice valoarea, între dou valori ale variabilei putând s apar
o a treia valoare; vârsta subiecţilor este un exemplu de variabil continu ) sau discrete (pot avea numai
anumite valori, între care nu mai apar altele; religia, tipurile temperamentale sunt exemple de variabile
discontinui); dup scopul folosirii lor în studii experimentale: independente (sunt variabilele manipulate
de experimentator şi care se presupune c influenţeaz variabila dependent ) sau dependente
(reprezint r spunsurile subiecţilor).
O variabil poate lua diferite valori. Valoarea reprezint o m sur calitativ sau cantitativ a
unui fenomen. Spre exemplu, pentru variabila “nota şcolar ” valorile acesteia sunt toate notele de la 1 la
10. Pentru variabila “zilele s pt mânii” valorile sunt toate cele şapte zile ale s pt mânii. În psihologie se
face distincţia între valori şi scoruri. Scorul este valoarea obţinut de o persoan , fenomen sau obiect
atunci când ne referim la o anume variabil . Spre exemplu, nota pe care o obţine un elev la o materie
(s zicem 7) reprezint scorul subiectului la variabila “nota şcolar ”.
SPSS (în traducere Pachet statistic pentru ştiinţele sociale) este numele unui pachet de
programe care ajut la analiza datelor obţinute în cercet rile din domeniul ştiinţelor sociale.
Deschiderea programului se poate face cu ajutorul mouse-ului, cu dublu-click asupra
251
LOREDANA GHERASIM
Prima bar din partea de sus a ferestrei ofer informaţii despre denumirea aplicaţiei şi numele
fişierului cu care se lucreaz . Urmeaz bara de meniuri a programului şi cea cu butoane.
Foia cu date este organizat tabelar. Întotdeauna coloanele tabelului reprezint variabilele
studiului, în timp ce liniile, rândurile numerotate ale tabelului reprezint subiecţii cercet rii. În partea de
jos a ferestrei sunt dou opţiuni: DATA VIEW şi VARIABLE VIEW. Putem vizualiza datele brute ale
subiecţilor, dac este activ opţiunea DATA VIEW sau putem vizualiza descrierea variabilelor introduse
în baza de date, dac este
activat opţiunea
VARIABLE VIEW. De obicei,
atunci când deschidem
programul, este activ
opţiunea DATA VIEW, cum se
poate observa şi în imaginea
de mai sus. Printr-un simplu
click stânga pe opţiunea
VARIABLE VIEW, pe ecran
apare un alt tabel care permite
definirea variabilelor din baza
de date:
Din meniul FILE putem alege comanda deschidere a unei
noi baze de date (opţiunea NEW DATA) sau a unei noi foi de
rezultate (NEW OUTPUT):
Acest program prezint rezultatele prelucr rilor
statistice într-o pagin separat , numit OUTPUT. Comenzile
care sunt colorate în gri sunt comenzi inactive pentru c baza de
date nu conţine, deocamdat , nici o informaţie.
Din acest meniu putem deschide, folosind opţiunea
OPEN, o baz de date care a fost creat anterior (DATA) sau un
fişier cu rezultatele prelucr rilor statistice anteriore (OUTPUT).
252
ANALIZA COMPUTERIZAT A DATELOR
Pentru deschiderea unei baze de date create anterior se activeaz meniul FILE/OPEN opţiunea
DATA. Dup activarea comenzii
pe ecran apare o caset de
dialog care permite selectarea
directorului şi respectiv fişierului
care conţine baza de date. Vom
deschide fişierul opinii.sav (în
aplicaţia SPSS, fişierele cu
baze de date au întotdeauna
extensia sav) care se g seşte la
adresa C:\MY DOCUMENTS\EXEMPLE
SPSS. În momentul înc rc rii
bazei de date pe ecran va
ap rea urm toarea imagine:
Valorile din baza de
date reprezint r spunsurile brute ale subiecţilor. Pe coloane sunt definite variabilele. În aceast baz
de date avem pe coloan variabile
(ca de exemplu, gr_mult, prezent,
viitor, directie, guv, parlam), valorile
numerice din fiecare coloan
reprezentând scorurile subiecţilor la
aceste variabile. Rândurile conţin
r spunsurile subiecţilor la diferiţi
itemi. De exemplu, subiectul de pe
rândul 9 are valoare 3 la variabila
gr_mult, valoarea 3 la variabila
prezent, 4 la variabila viitor etc.
Pentru a vedea ce înseamn
fiecare dintre aceste variabile trebuie
activat opţiunea VARIABLE VIEW:
253
LOREDANA GHERASIM
Pentru a crea o nou baz de date trebuie activat opţiunea DATA VIEW. Vom crea o baza de
date care s conţin rezultatele la anxietate obţinute de un num r de subiecţi, înainte şi dup intervenţia
terapeutic (anxietatea a fost m surat cu ajutorul unei scale de anxietate). La studiu au participat
subiecţi de gen feminin şi masculin. Baza de date va conţine patru variabile: num rul subiecţilor (nrsub),
nivelul anxiet ţii subiecţilor înaintea terapiei (ANX1) şi nivelul
anxiet ţii subiecţilor dup terapie (ANX2) şi genul subiecţilor
(1-subiecţi de gen masculin şi 2-subiecţi de gen feminin).
Pentru introducerea datelor se plaseaz cursorul în
celul şi se introduce valoarea cu ajutorul tastelor. Spre
exemplificare, vom introduce prima valoare (1) a primei
variabile. Dup introducerea primei valori automat programul
a denumit prima variabil (var0001), iar indicativul primei linii
devine activ.
La fel se vor introduce şi celelalte valori ale primei variabile. Pentru a utiliza cu uşurinţ datele
este indicat definirea sau redenumirea variabilelor cu care lucr m.
Definirea variabilelor presupune activarea câmpului VARIABLE VIEW, prin executarea unui
dublu click pe numele variabilei (în cazul nostru var0001) sau prin activarea butonului VARIABLE VIEW
din partea de jos a câmpului. Rezultatul va fi urm torul:
Numele variabilei poate s cuprind maxim opt caractere, f r spaţiu sau semne de
punctuaţie. Pentru a defini o variabil , trebuie plasat cursorul în celula în care este trecut numele
(NAME) generic al variabilei (var0001), apoi se introduce numele variabilei NRSUB folosind tastatura.
Opţiunea TYPE permite specificarea tipului de date. Aceast opţiune poate fi activat cu
ajutorul mouse-ului cu un click stânga pe butonul gri din celula corespunz toare variabilei.
254
ANALIZA COMPUTERIZAT A DATELOR
Tipul NUMERIC permite introducerea valorilor cu sau f r zecimale. Tipurile COMMA şi DOT
permit introducerea valorilor cu orice num r de zecimale (mai mare de 16), reţinând întreaga valoare.
Tipul SCIENTIFIC NOTATION transform logaritmic valorile introduse, DATE permite folosirea spaţiilor,
punctelor, virgulelor, a barelor de separarea pentru a delimita zilele, lunile şi anii, respectiv orele şi
minutele. Tipul DOLLAR insereaz în faţa valorilor simbolul dolarului, iar CUSTOM CURRENCY permite
introducerea de valorilor pozitive dar şi a celor negative, cu sau f r separator pentru mii. Ultima opţiune
STRING permite introducerea variabilelor alfanumerice.
Este posibil alegerea num rului de cifre pentru partea întreag (WIDTH) şi a num rului de
zecimale (DECIMAL PLACES). Deşi sunt mai multe tipuri de variabile, în psihologie se utilizeaz dou
tipuri de variabile, NUMERIC şi STRING (foarte rar). Automat la crearea unei noi baze de date, apare
selectat tipul NUMERIC, presupunându-se c noile variabile vor fi numerice. Opţiunea TYPE este de
obicei folosit pentru modifica acest tip de date.
Caracteristica LABELS permite definirea detaliat a variabilei (pot fi folosite pân la maxim 256
caractere, inclusiv spaţiul). Definirea detaliat a variabilei apare în pagina de rezultate.
VALUE LABEL permite descrierea valorile pe care le poate lua o variabil . Opţiunea este
folosit pentru variabile care folosesc coduri numerice pentru a reprezenta categorii (de exemplu, se pot
folosi valorile 1 şi 2 pentru a codifica genul feminin şi masculin).
MISSING VALUES permite stabilirea valorilor care nu vor fi luate în seam la prelucrarea
datelor.
COLUMN permite specificarea num rului de caractere pentru o coloan , afectând vizualizarea
datelor.
ALIGNMENT permite modificarea modului în care sunt prezentate datele pe ecran, aliniate la
stânga, dreapta sau central.
În exemplu nostru, vom defini numele variabilei NRSUB şi vom detalia eticheta la opţiunea
LABEL ca în imaginea de mai jos:
Vom introduce valorile şi vom defini şi urm toarele variabile, ANX1, ANX2 şi Gen. Variabila Gen
este de tip categorial, în funcţie de aceast caracteristic subiecţii fiind împ rţiţi în dou categorii
distincte, femei şi b rbaţi. Din acest motiv trebuie precizat semnificaţia valorilor variabilei. Acest lucru
presupune atribuirea de valori şi etichete celor dou grupuri de subiecţi. Astfel, subiecţii de sex masculin
îi vom codifica cu valoarea 1, iar pe cei de gen feminin cu valoarea 2. În acest scop vom activa opţiunea
VALUE:
255
LOREDANA GHERASIM
Se trece valoarea în câmpul VALUE şi numele grupului sau categoriei în câmpul VALUE
LABEL, dup care se apas butonul ADD. Astfel, vom scrie „1” în câmpul VALUE şi „subiecţi de gen
masculin” în câmpul VALUE LABEL şi activ m butonul ADD, apoi vom scrie „2” în câmpul VALUE şi
„subiecţi de gen feminin” în câmpul VALUE LABEL şi activ m butonul ADD.
Aceast opţiune se foloseşte numai pentru variabilele categoriale, care împart subiecţii în
grupuri distincte.
Salvarea fişierelor se face fie acţionând butonul SAVE care se g seşte în bara de instrumente,
fie din meniul FILE se alege opţiunea SAVE. Reamintim c trebuie ales mai întâi directorul în care
vream s salv m fişierul si apoi scriem numele fişierului. Vom salva fişierul cu numele Baza1.sav în
subdirectorul EXEMPLE SPSS care se g seşte în directorul MY DOCUMENTS.
256
ANALIZA COMPUTERIZAT A DATELOR
Tabelele de frecvenţ ajut la descrierea unui grup de scoruri, fiind cele mai simple procedee
ale statisticii descriptive, care permit înţelegerea tendinţei unui grup de scoruri. Tabelele de frecvenţa
grupeaz scorurile subiecţilor, informaţia devenind, astfel, mai comprehensibil . Histogramele,
reprezent ri grafice ale tabelelor de frecvenţ permit o mai bun înţelegere a tendinţei grupului de
rezultate. Acestea presupun transformarea intervalelor de frecvenţ în bare, în lţimea barelor
corespunzând frecvenţei fiec rui interval de frecvenţ din tabelul de frecvenţ . Poligoanele de frecvenţ
sunt o alt modalitate de reprezentare grafic a datelor din tabelele de frecvenţ . Acestea se obţin, prin
unirea mijloacelor p rţilor superioare ale barelor histogramelor.
Tabelul de frecvenţ , histograma şi poligonul de frecvenţ descriu o distribuţie de frecvenţ ,
prezentând modul în care se distribuie sau se împr ştie cazurile sau frecvenţele. Modalitatea, înclinarea
şi turtirea sunt indicatori care descriu forma distribuţie scorurilor. Modalitatea indic câte “vârfuri” are o
distribuţie, cu alte cuvinte, arat valorile în jurul c rora se grupeaz rezultatele subiecţilor. Din aceast
perspectiv , distribuţiile pot fi unimodale (au un singur vârf), bimodale (au dou vârfuri) sau multimodale
(au mai multe vârfuri). Înclinarea arat dac în distribuţie apar mai multe valori mari sau mai multe valori
mici. Cele mai multe aspecte m surate în psihologie prezint un num r aproximativ egal de cazuri de o
parte şi de alta a mijlocului, distribuţiile fiind aproximativ simetrice (nu prezint tendinţ de înclinare). O
distribuţie este înclinat atunci când are o extrem (o parte) mai împr ştiat şi mai lung . Atunci când
curba este înclinat spre dreapta, distribuţia este înclinat pozitiv, iar când curba este înclinat spre
stânga, distribuţia este înclinat negativ. Spre exemplu, notele şcolare au o distribuţie înclinat spre
dreapta, adic elevii au tendinţa de a obţine mai multe note mari. Turtirea unei distribuţii se raporteaz
la curba normal . Faţ de curba normal o distribuţie poate fi mai turtit (scorurile din cadrul ei variaz
foarte mult de la medie) sau mai ascuţit (scorurile variaz foarte puţin de la medie).
257
LOREDANA GHERASIM
Opţiunea CHART TYPE permite alegerea unui tip de grafic (cu bare, pl cint sau histogram ).
CHART VALUES permite alegerea tipului de valori afişate în grafic (Frecvenţe sau Procentaje).
Pentru exemplul nostru se selecteaz opţiunea HISTOGRAMS, se bifeaz afişarea curbei
normale (WITH NORMAL CURVE), apoi se activeaz butonul CONTINUE.
Opţiunea FORMAT permite modificarea formei OUTPUT-ului. Activarea acestui buton are ca
efect apariţia urm toarei casete de dialog:
258
ANALIZA COMPUTERIZAT A DATELOR
Câmpul din stânga al ferestrei conţine opţiuni de aranjare a rezultatelor (în ordine
descresc toare sau cresc toare a valorilor sau cantit ţilor), iar cel din dreapta conţine opţiuni de
prezentare comparativ a rezultatelor şi de organizare separat a foii de rezultate, pentru fiecare
variabil . Pentru exemplu nostru, vom p stra opţiunile selectate automat.
Dup selectarea opţiunilor de realizare a tabelului de frecvenţ şi histogramei, se activeaz
butonul OK al casetei FREQUENCIES. Pe ecran apare o fereastra cu rezultate, numit OUTPUT:
Fereastra OUPUT este organizat în dou câmpuri, cel din stânga, afişeaz structura sau
cuprinsul OUPUT-ului, iar cel din dreapta arat conţinutul foii cu rezultate. Rezultatele sunt organizate în
dou tabele. În primul tabel se precizeaz num rul de subiecţi şi num rul de r spunsuri. Pentru
exemplul nostru, avem 20 de subiecţi care au r spuns la chestionar (nu lipseşte nici o valoare).
Al doilea tabel este organizat în cinci coloane. Coloana VALID prezint valorile variabilei,
prezentate în ordine cresc toare (f r a ţine seama de cazurile lips ). Coloana FREQUENCY prezint
frecvenţa, adic num rul de subiecţi care obţin o anumit valoare.
Coloana PERCENT transform frecvenţa obţinut pentru fiecare valoare în procentaj ţinând
cont de num rul total de subiecţi luaţi în calcul, indiferent dac aceştia au sau nu scoruri la aceast
variabil . Spre exemplu, doi subiecţi au obţinut scorul 103, ceea ce reprezint 10% din totalul num rului
de r spunsuri obţinute. VALID PERCENT prezint procentajul luând în calcul doar subiecţii care au
r spuns la aceast variabil . În cazul nostru coloanele PERCENT şi VALID PERCENT sunt identice
deoarece toţi subiecţii au scoruri la aceast variabil . Dac unii subiecţi nu ar fi r spuns la chestionarul
de anxietate, atunci cele dou coloane ar fi conţinut valori diferite.
Coloana CUMULATIVE PERCENT prezint procentajul cumulat, de la cel mai mic scor la pân
la cel mai mare. De exemplu, 60% dintre subiecţi au note mai mici sau egale cu 106.
Derulând pagina cu rezultate sau selectând HISTOGRAM în câmpul din stânga, putem
vizualiza reprezentarea grafic a frecvenţei scorurilor:
259
LOREDANA GHERASIM
Metodele descriptive pentru identificarea tendinţei centrale şi de împr ştiere indic tendinţa
central a unui grup de scoruri, folosind ca indicatori media, mediana şi modul şi tendinţa de împr ştiere
a grupului de scoruri, folosind ca indicatori varianţa şi abaterea standard.
Media aritmetic descrie tendinţa central într-un grup de rezultate, arat valoarea tipic ,
reprezentativ a unui grup de scoruri. Media este punctul faţ de care scorurile sunt egal dep rtate,
deoarece abaterile de la medie într-o direcţie (abaterile scorurilor mici de la medie) sunt egale cu
260
ANALIZA COMPUTERIZAT A DATELOR
abaterile în cealalt direcţie (abaterile scorurilor mari de la medie). Mediana împarte distribuţia în dou
p rţi egale, jum tate dintre scorurile distribuţie având valori mai mici ca mediana, iar cealalt jum tate
valori mai mari. Modul reprezint valoarea cu frecvenţa cea mai mare. Este indicatorul care este cel mai
puţin afectat de schimb rile structurii (modific ri ale num rului de scoruri sau m rimii scorurilor
distribuţiei). Mediana este şi ea destul de puţin afectat de modific rile structurii distribuţiei. Media, îns ,
este cea mai “sensibil ” la modificarea num rului de scoruri sau m rimii scorurilor, fiind indicatorul cel
mai descriptiv (deoarece indic orice modificare survenit în distribuţie). Se recomand utilizarea mediei
în distribuţiile simetrice şi unimodale. Mediana şi modulul, care sunt mai stabile sunt recomandate
pentru descrierea distribuţiilor asimetrice şi multimodale. Cu toate acestea, media aritmetic r mâne
metoda cel mai des utilizat pentru descrierea tendinţei grupului de scoruri, acest indicator intrând în
componenţa multor metodele statistice. Exist îns metode statistice (cum a fi testele neparametrice) în
care se utilizeaz doar mediana şi modul.
Cunoaşterea acestor indicatori nu este suficient pentru a descrie complet o distribuţie. Trebuie
s cunoaştem gradul de variabilitate a scorurilor noastre. Mai precis, trebuie s ştim cât de mult (sau cu
cât) se împr ştie scorurile în jurul valorii medii.
Varianţa (SD2=( ∑ (X-M)2/N) unei distribuţii arat cât de “împr ştiate” sunt scorurile în jurul
valorii centrale, indic gradul de variabilitate a unui grup de rezultate. Este o m sur a gradului de
variabilitate a scorurilor şi arat cât de mult se abat scorurile de la tendinţa central . Cu cât este mai
mare aceast valoare, cu atât mai mult se împr ştie scorurile în jurul valorii centrale. Pentru a cunoaşte
exact cu cât variaz scorurile în medie este nevoie s calcul m deviaţia standard. Abaterea standard ne
arat cu cât se împr ştie scorurile în jurul valorii centrale şi se m soar în aceleaşi unit ţi de m sur ca
şi scorurile iniţial. Abaterea standard este r d cina p trat a varianţei (SD = SD 2 ).
În intervalul cuprins între medie şi o abatere standard la stânga şi dreapta mediei g sim
aproximativ 2/3 din totalul scorurilor. Aceste rezultate sunt considerate tipice sau normale pentru o
distribuţie. Ilustr m grafic acest lucru:
m-SD m m+SD
Scorurile care sunt mai mari decât media cu o abatere standard sunt considerare scoruri mari
iar cele mai mici decât media cu mai mult de o abatere standard sunt considerate ca fiind scoruri slabe.
261
LOREDANA GHERASIM
Câmpul PERCENTILE VALUES conţine opţiuni care permit calculul valorilor corespunz toare
împ rţirii subiecţilor în grupuri egale, prin afişarea valorilor care delimiteaz aceste grupuri. Aceast
opţiune permite calculul cuartilelor (QUARTILES) sau altor cuartile (de exemplu CUT POINTS FOR 10
EQUAL GROUPS) sau centile (PERCENTILE).
Opţiunile din câmpul DISPERSION permit calcularea diferiţilor parametri referitori la dispersia
(împr ştierea) scorurilor în jurul valorii centrale: abatere standard (STD. DEVIATION), varianţ
(VARIANCE), amplitudine (RANGE), valori minime (MINIMUM) şi maxime (MAXIMUM) şi eroare
standard (S.E. MEAN care reprezint abaterea standard a distribuţii tuturor mediilor posibile calculate
pentru eşantioane aleatoare repetate).
CENTRAL TENDENCY conţine opţiunile folosite pentru calculul indicatorilor tendinţei centrale
ale distribuţiei: media (MEAN), mediana (MEDIAN), mod (MODE) şi suma valorilor seriei (SUM).
Câmpul DISTRIBUTION ofer posibilitatea afl rii indicatorilor de turtire (KURTOSIS)şi înclinare
ai unei distribuţii în comparaţie cu cea normal (SKEWNESS).
Pentru exemplu nostru ne intereseaz calculul parametrilor tendinţei centrale ai distribuţiei şi de
împr ştiere. În consecinţ se bifeaz (cu un simplu click stânga al mouse-ului) opţiunile MEAN,
MEDIAN, MODE din câmpul CENTRAL TENDENCY şi opţiunile STD DEVIATION şi VARIANCE din
câmpul DISPERSION:
262
ANALIZA COMPUTERIZAT A DATELOR
Astfel, M=107,90, Med=105,5, Mod=104, ceea ce însemn c distribuţia este unimodal (apare
o singur valoare la mod) şi uşor înclinat spre dreapta spre valorile mai mari ale variabilei (valoarea
mediei este mai mare decât a medianei). Reprezentarea grafic indic apariţia unui singur vârf
(distribuţie unimodal ) şi o alungire şi împr ştiere a extremei drepte a distribuţiei (distribuţie înclinat
spre dreapta).
La fel se calculeaz indicatorii tendinţei centrale şi de împr ştiere pentru variabila ANX2 (nivelul
anxiet ţii subiecţilor dup terapie). Rezultatele obţinute sunt urm toarele:
Astfel, M=107,95, Med=109,5, Mod=102, Mod=110 (a doua valoare a modul se extrage din
tabelul de frecvenţ ). Distribuţia scorurilor este bimodal (apar dou valori cu frecvenţa cea mai mare)
şi înclinat spre valorile mici ale variabilei (media este mai mic decât mediana). Distribuţia scorurilor
subiecţilor la aceast variabil indic aceeaşi form .
263
LOREDANA GHERASIM
Comparând reprezent rile histogramele de frecvenţ pentru variabilele ANX1 şi ANX2, putem
analiza variabilitatea rezultatelor la cele dou variabile. Astfel, distribuţia scorurilor pentru prima
variabil este mai ascuţit , valorile fiind mai grupate în jurul medie (şi varianţa şi abaterea standard au
valori mai mici). La variabila ANX2 se constat o mai mare variabilitate a rezultatelor, distribuţia fiind
mai turtit (în acest caz varianţa şi abaterea standard au valori mai mari).
II.3. SCORURILE Z
Nota Z indic deviaţia unui scor (x) de la medie (m) exprimat în deviaţii standard. Nota
standard Z arat cu câte deviaţii standard se abate un scor de la medie (Z=(X-M)/SD). Distribuţia în
note Z este o distribuţie ideal în care media are întotdeauna valoarea 0, iar abaterea standard valoarea
1.
Schema de mai jos prezint notele standard Z corespunz toare mediei şi limitelor de variaţie
maxim şi minim . Mediei îi corespunde întotdeauna mereu scorul standard 0, limitei minime de variaţie
tipic îi corespunde scorul standard -1, iar limitei maxime de variaţie normal îi corespunde nota
standard +1.
m-SD m m+SD x
264
ANALIZA COMPUTERIZAT A DATELOR
1
2
4
3
Automat sunt selectate de computer opţiunile de calcul al mediei, abaterii standard şi al valorii
minime şi maxime. Vom activa butonul CONTINUE şi apoi butonul OK al ferestrei pentru a putea face
265
LOREDANA GHERASIM
analiza statistic . Rezultatele obţinute în urma comenzii DESCRIPTIVES sunt mai sumare şi prezentate
într-un singur tabel.
Vom vizualiza baza de date pentru a vedea dac apare noua variabil care conţine rezultatele
subiecţilor transformate în note Z.
Notele Z fac posibil analiza legăturii dintre dou variabile. De exemplu, putem analiza leg tura
dintre nivelul stresului unui manager şi num rul de subordonaţi. Prin transformarea notelor brute
obţinute de subiecţi la cele dou variabile putem s identific m dac exista sau nu o leg tur între
aceste dou variabile.
Corelaţia este o metod statistic descriptiv , întrucât ea descrie ce se petrece într-un grup de
rezultate (r=( ∑( Z1 * Z 2) / N ). Corelaţia indic existenţa unei leg turi între variabile, leg tur care
poate fi pozitiv (când scorurile slabe la prima variabil se asociaz cu scoruri slabe la a doua variabil ,
scorurile medii la prima variabil se asociaz cu scoruri medii la a doua variabil şi scorurile mari la
266
ANALIZA COMPUTERIZAT A DATELOR
prima variabil se asociaz cu scoruri mari la a doua variabil ), negativ (când scorurile slabe la prima
variabil se asociaz cu scoruri mari la a doua variabil , scorurile medii la prima variabil se asociaz
cu scoruri medii la a doua variabil şi scorurile mari la prima variabil se asociaz cu scoruri mici la a
doua variabil ). Bineînţeles c între variabile poate s nu apar nici o leg tur .
Coeficientul de corelaţie (r) indic gradul în care apare paternul unei relaţii între cele dou
variabile. Acest coeficient poate lua valori de la -1 la +1, corelaţia pozitiv poate lua valori de la 0 la 1,
iar corelaţia negativ poate lua valori la de -1 la 0.
Analiza corelaţiei dintre dou variabile nu permite stabilirea relaţiei de cauzalitate între aceste
variabile. Exist trei modalit ţi de interpretare a unui coeficient de corelaţie obţinut între dou variabile
(x şi y): fie x poate fi cauz pentru y, fie y poate fi cauz pentru x, fie a ap rut a o treia variabil care a
determinat apariţia simultan a celor doua variabile.
Sunt dou situaţii în care se poate greşi: când afirm m c un eveniment se va produce şi în
realitate acesta nu va ap rea (eroare de tip I) sau când afirm m c un eveniment nu se va produce şi
aceste va apare (Eroare de tip II). Situaţia I corespunde minciunii, iar situaţia II corespunde ignoranţei.
Dac vrem s evit m primul tip de greşeal care are consecinţe mai grave (de a demonstra ceva ce nu
exist în realitate), alegem pragul de semnificaţie de 0,010 (prag de eroare de 1%). Dac dorim îns s
avem mai multe şanse în a demonstra ceva şi consecinţele nu sunt grave în caz de greşeal , atunci se
prefer pragul de eroare de 5% (deci un p=0,050). În concluzie, vom considera un test statistic ca fiind
semnificativ dac pragul de semnificaţie este mai mic sau cel mult egal cu valoarea 0,050.
În psihologie se lucreaz cu dou modalit ţi de formulare a ipotezelor (non-direcţionale sau
direcţional). Ipotezele non-direcţionale sunt cele în care nu se precizeaz tipul de relaţie dintre variabile.
În testarea acestor ipoteze probabilitatea de eroare de 1% sau 5% se împarte la cele extremit ţi (cozi)
ale distribuţiei scorurilor. Testul de semnificaţie pentru verificarea acestui tip de ipotez este
TWO-TAILED. În cazul nostru ipoteza ar putea fi formulat non-direcţional astfel: exist o leg tur între
salariul iniţial şi final al subiecţilor. Ipotezele direcţionale sunt cele în care se precizeaz tipul de
modificare, cercet torul se aşteapt la un anumit rezultat. Pentru aceste ipoteze probabilitatea de
eroare se stabileşte la una dintre extremit ţile distribuţiei. Testul de semnificaţie pentru verificarea
acestui tip de ipotez este ONE-TAILED. Ipoteza din exemplul nostru ar putea fi formulat direcţional,
267
LOREDANA GHERASIM
astfel: leg tura dintre salariul iniţial şi final este pozitiv , cu cât salariul iniţial este mai mare cu atât şi
salariul final va fi mai mare.
4
5
268
ANALIZA COMPUTERIZAT A DATELOR
Coeficientul de corelaţie Pearson este selectat implicit de c tre calculator, la fel ca şi celelalte
opţiuni test de semnificaţie TWO-TAILED şi marcarea cu asterisc a corelaţiilor semnificative FLAG
SIGNIFICANCE CORRELATIONS. Dup activarea butonului OK, în foaia OUTPUT sunt afişate
urm toarele rezultate:
269
LOREDANA GHERASIM
2
4
1
5
3
270
ANALIZA COMPUTERIZAT A DATELOR
mare de 0,50. În exemplul nostru, t ria leg turii este ridicat (r=0,81) coeficientul având valoare mi
• pragul de semnificaţie dac este mai mic de 0,05, atunci putem considera c există o relaţie
mare de 0,50
între variabilele studiate. În exemplu nostru, valoarea este 0,000. În aceste situaţii se raporteaz un
p<0,001, pentru a ar ta c probabilitatea de a greşi este mai mic decât 0,1% (calculatorul ne afişeaz
doar primele trei zecimale). Putem spune c exist o leg tur semnificativ între nivelul iniţial şi final al
explicat de relaţia g sit . Proporţia de varianţ indic la ce procent din populaţia general apare
relaţia. Pentru exemplu nostru proporţia de varianţ are valoarea 0,65 (r=0,81, deci r2=0,65). Se
observ c abia 65% din variaţia observat se întâlneşte în realitate, deci relaţia g sit este prezent la
65% dintre subiecţi.
Toate aceste elemente trebuie s apar în interpretare, pentru ca ea s fie complet .
În câmpul din stânga al ferestrei sunt prezentate toate variabilele din baza de date. În dreapta
ferestrei apar mai multe opţiuni. Pe noi ne intereseaz opţiunea IF CONDITION IS SATISFIED,
deoarece vrem s select m numai cazurile care îndeplinesc o anumit condiţie (s aib valoarea 1 la
variabila studii adic s fie numai subiecţi cu studii generale).
Aceast opţiune se alege cu un simplu click stânga al mouse-ului:
271
LOREDANA GHERASIM
Se selecteaz variabila în funcţie de cre se face selecţia şi se trece în câmpul dintre dreapta
sus. În cazul nostru se selecteaz variabila STUDII şi se trece în câmpul din dreapta:
Se ad ug condiţia. Pentru exemplul nostru, variabila Studii trebuie s aib numai valoarea 1
(STUDII=1). Se poate folosi tastatura sau se pot activa butoanele cu cifre şi semne ce se g sesc sub
acest câmp. Condiţia va ar ta astfel:
Se activeaz butonul OK, baza de date modificându-se, cum se poate observa şi în imaginea
de mai jos:
272
ANALIZA COMPUTERIZAT A DATELOR
La sfârşitul bazei de date apare o nou variabil , intitulat FILTER_$, care indic rezultatul
selecţiei. Cazurile neselectate sunt “t iate”, adic ele vor fi ignorate de la analiz . În partea din dreapta-
jos a ecranului apare anunţul FILTER ON, care avertizeaz utilizatorul cu privire la activarea unei
comanzi de selecţie
Aten ie! Selectarea datelor nu implică şi efectuarea analizei statistice. Dup selecţie
trebuie f cut prelucrarea statistic a datelor. În cazul nostru trebuie utilizat comanda de analiz a
corelaţiei dintre salariul iniţial şi cel final. Se obţine urm torul tabel în fereastra cu rezultate:
Rezultatul obţinut este urm torul: r=0,69, p=0,056. În continuare vom interpreta aceste
• semnul corelaţiei: corelaţie pozitiv , leg tura este direct proporţional . În cazul subiecţilor cu studii
rezultate:
generale se constat c nivelul mic al salariului iniţial se asociaz cu un nivel mic al salariului final,
salariul iniţial mediu se asociaz cu un salar final mediu, salariul iniţial mare se asociaz cu un salar
• mărimea absolută a coeficientului: puterea leg turii dintre cele dou variabile este ridicat , valoarea
final mare.
273
LOREDANA GHERASIM
Dup folosirea acestui “filtru” este indicat dezactivarea. Pentru dezactivarea selecţiei, se
deschide din nou în meniul iniţial DATA - SELECT CASES. În partea de jos a ferestrei se g seşte buton
RESET. Se activeaz apoi butonul OK, astfel, comanda de filtrare a datelor dispare.
Dintre opţiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS şi apoi, cu ajutorul
s geţii, introducem variabila de grupare (STUDII) în câmpul care se activeaz sub aceast opţiune:
Dup ap sarea butonului OK, în partea dreapt -jos a bazei de date apare anunţul SPLIT FILE
ON, care avertizeaz utilizatorii c baza de date este împ rţit în funcţie de condiţiile (nivelurile)
variabilei de grupare . La fel ca şi în cazul comenzii SELECT CASES, simpla împ rţire a bazei de
date nu asigur prelucrarea statistic . De aceea, trebuie folosit comanda CORRELATIOS pentru a
analiza leg tura dintre variabilele salariu iniţial şi final al subiecţilor.
Rezultatele analizei statistice sunt prezentate separat, în fişierul OUTPUT, pentru fiecare
condiţie a variabilei independente: studii generale, medii şi superioare:
274
ANALIZA COMPUTERIZAT A DATELOR
Vom alege un grafic simplu, care s ilustreze relaţia dintre dou variabile, deci vom selecta
opţiunea SIMPLE. Se activeaz apoi butonul DEFINE, care deschide urm toarea fereastr :
275
LOREDANA GHERASIM
Se introduc cele dou variabile în câmpurile axei X şi axei Y (nu conteaz ordinea în care se
introduc variabilele deoarece corelaţia este bidirecţional ) şi apoi se apas butonul OK.
Reprezentarea grafic a corelaţiei apare sub forma unui nor de puncte. Pentru exemplul nostru
norul de puncte este ascendent cresc tor (din stânga-jos spre dreapta-sus) deoarece relaţia dintre
variabile este pozitiv , iar punctele sunt apropiate, grupate deoarece coeficientul de corelaţie are
valoare ridicat (r=0,81). Dac relaţia ar fi fost invers proporţional , norul de puncte ar fi fost orientat
276
ANALIZA COMPUTERIZAT A DATELOR
descresc tor (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relaţie, punctele ar fi fost
distribuite uniform pe grafic.
Pentru a analiza leg tura dintre evaluarea f cut de primul profesorul şi evaluarea realizat de
al doilea profesor (prof_1 şi prof_2), trebuie s folosim coeficientul de corelaţie Kendall's.
Pentru calculul acestei corelaţii se activeaz opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE, apoi se introduc variabilele prof_1 şi prof_2 în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifeaz coeficientul de corelaţie Kendall's:
277
LOREDANA GHERASIM
Se constat c apare o asociere pozitiv între variabile (r=0,60), elevii clasaţi pe primele locuri
de c tre primul profesor ocup tot o poziţie fruntaş din perspectiva celui de al doilea profesor.
Asocierea nu este îns semnificativ , p=0,091 posibila explicaţie fiind num rul mic de subiecţi din baza
de date.
Dac ar fi ap rut o asociere negativ dintre variabile (coeficientul de corelaţie ar fi fost negativ)
s-ar fi interpretat astfel: elevii plasaţi pe primele locuri de c tre primul profesor s-ar fi plasat în coada
clasamentului din perspectiva celui de al doilea profesor.
Este o m surare non-parametric a corelaţiei dintre dou variabile ordinale. Pentru toate
cazurile, valorile fiec rui tip de variabil sunt rangate, de la cele mai mici la cele mai mari. Se foloseşte
atunci când nu este posibil m surarea caracteristicilor analizate ci doar evaluarea lor, în asemenea
manier încât indivizii statistici s fie ordonaţi în funcţie de dou criterii X şi Y. Aceast evaluare
presupune atribuirea de valori care indic ierarhia subiecţilor (cum ar fi primul, al doilea, al treilea).
Modalitatea de calcul a corelaţiei Spearman este similar coeficientului Pearson (de fapt de aplic
formula coeficientului Pearson). Acest coeficient de corelaţie mai este denumit şi coeficient de corelaţie
a rangurilor.
Pentru a analiza leg tura dintre evaluarea interesului faţ de şcoal al elevilor şi evaluarea
relaţiilor cu ceilalţi colegi (eval_i şi eval_re) se foloseşte coeficientul de corelaţie Spearman.
Pentru calculul acestei corelaţii se activeaz opţiunea BIVARIATE din meniul ANALIZE-
CORRELATE. Se introduc variabilele eval_i şi eval_re în câmpul din dreapta. Din câmpul
CORRELATION COEFFICIENTS se bifeaz coeficientul de corelaţie Spearman:
278
ANALIZA COMPUTERIZAT A DATELOR
Uneori este necesar ca scorurile brute obţinute de subiecţii unui studiu s fie transformate
pentru a putea verifica ipoteza studiului. Aplicaţia SPSS are o serie de comenzi care permit
transformarea sau recodificarea unei variabile cantitative într-o variabil calitativ , prin crearea unei noi
variabile în baza de date sau modificarea valorilor unei variabile existente în baza de date.
Pentru a exemplifica utilizarea comenzilor de recodificare vom crea o nou baz de date
(baza5.sav) care conţine mediile obţinute de elevi la sfârşitul anului şcolar. Valorile variabilei sunt:
Media: 8,03, 8,73, 9,19, 8,81, 7,88, 9,06, 9,04, 6,86, 7,69, 7,80, 8,06, 9,06, 7,71, 7,16, 8,88,
8,49, 7,78, 9,76, 8,10, 7,49, 7,79, 6,91, 6,81, 7,54
Vom împ rţi elevii în dou grupe (grupul elevilor cu performanţe bune şi grupul elevilor cu
performanţe slabe). Împ rţirea elevilor în dou grupe se realizeaz în funcţie de median , acest
indicator statistic împ rţind şirul de scoruri în dou parţi egale (proba medianei). Deci vom calcula mai
întâi valoarea medianei şi apoi vom împ rţi subiecţii în grupe în funcţie de valoarea acestui indicator.
Pentru calculul medianei vom folosi comanda DESCRIPTIV STATISTICS– FREQUENCIES:
279
LOREDANA GHERASIM
Pentru exemplul nostru mediana are valoare 7,95. Subiecţii care au valori mai mici ca mediana
(7,95) vor forma grupul celor cu performanţe sc zute, iar subiecţii care au valori mai mari decât
mediana vor forma grupul celor cu performanţe ridicate. Pentru recodificarea variabilei MEDIA se
utilizeaz opţiunea RECODE care se g seşte la meniul TRANSFORM:
Comanda RECODE are dou opţiuni de recodificare. Se poate p stra variabila ce urmeaz s
fie recodificat (INTO SAME VARIABLES) sau se poate crea o nou variabil (INTO DIFFERENT
VARIABLES).
3 2
1
5
4
280
ANALIZA COMPUTERIZAT A DATELOR
Pentru ca noul nume al variabilei s apar în câmpul din mijloc INPUT VARIABLE →OUTPUT
VARIABLE şi astfel s aib loc recodificarea, se activeaz butonul CHANGE din câmpul OUTPUT
VARIABLE:
Se activeaz butonul OLD AND NEW VALUE pentru a defini valorile noii variabile. Activarea
acestui buton deschide urm toarea caset de dialog:
281
LOREDANA GHERASIM
Se apas apoi butonul ADD al câmpului OLD→NEW, pentru a putea recodifica urm toarele
valori. Apoi se activeaz opţiunea RANGE, THROUGH HIGHEST din câmpul OLD VALUE şi se trece în
câmpul activat valoarea medianei
(7,95). Aceast opţiune va însemna
c valorile mai mari de 7,95 ale
variabilei MEDIA vor fi recodificate în
variabila NIVPERF primind valoarea
2. În consecinţ , în câmpul NEW
VALUE, în câmpul de lâng opţiunea
VALUE, vom tasta valoarea 2, dup
cum se poate observa şi în imaginea
din dreapta.
Pentru a fi reţinut şi aceast a doua condiţie de recodificare, se acţioneaz din nou butonul
ADD din câmpul OLD→NEW. În concluzie, scorurile mai mici de 7,95 ale variabilei MEDIA vor primi
valoarea 1 în cadrul variabilei NIVPERF, iar valorile mai mari de 7,95 ale variabilei MEDIA vor
reprezenta valoarea 2 al variabilei
NIVPERF, imaginea din stânga.
Se activeaz apoi butonul
CONTINUE şi butonul OK al
ferestrei RECODE INTO A
DIFFERENT VARIABLES, ceea
ce duce la modificarea bazei de
date, cum se poate observa şi în
imaginea din mai jos.
Se observ c în baza de
date apare noua variabil NIVPERF, cu dou valori. Puteţi verifica dac
recodificarea a fost corect realizat .
Exist posibilitatea de a împ rţi valorile unei variabile în mai mult de
dou grupe. Pentru exemplificare vom împ rţi scorurile la variabila MEDIA în
trei parţi egale. Prima treime va alc tui grupul subiecţilor cu performanţ
sc zut , a doua treime grupul subiecţilor cu performanţ medie, iar ultima
treime grupul subiecţilor cu performanţ ridicat . Pentru a putea face
împ rţirea, mai întâi trebuie s calcul m valorile corespunz toare percentilelor
care împart şirul de scoruri în 3 parţi egale (fiecare parte reprezentând 33,33%
din total). Se foloseşte comanda
DESCRIPTIV STATISTICS–
FREQUENCIES. Din câmpul
PERCENTILE VALUES se bifeaz
opţiunea PERCENTILE şi se introduc
centilele care împart şirul de scoruri în 3
parţi egale (adic 33,33% şi 66,66%).
Subiecţii cu valori mai mici de 7,73 vor forma grupul celor cu performanţa sc zut (grupul 1), cei
cu valori cuprinse între 7,73 şi 8,64 vor forma grupul subiecţilor cu performanţ de nivel mediu (grupul
2), iar cei cu medii mai mari de 8,64 vor reprezenta grupului cu performanţa ridicat (grupul 3).
282
ANALIZA COMPUTERIZAT A DATELOR
Pentru a crea aceast nou variabil se activeaz meniul TRANSFORM – RECODE - INTO
DIFFERENT VARIABLES. Vom denumi noua variabila NIVPERF2, tastând noul nume în câmpul NAME
al câmpului OUT VARIABLE şi
apoi activând butonul CHANGE.
În acest exemplu, scorurile
mai mici de 7,73 ale variabilei
MEDIA vor forma primul grupului 1,
adic nivelul 1 al noii variabile
NIVPERF2. Vom activa opţiunea
RANGE, LOWEST THROUGH din
câmpul OLD VALUE şi vom trece
în câmpul activat valoarea 7,73, iar
în câmpul NEW VALUE vom trece
valoarea 1. Se activeaz apoi butonul ADD al câmpului OLD→NEW, pentru a putea introduce
urm toarea condiţie.
Valorile variabilei MEDIE
cuprinse între 7,73 şi 8,64 vor
reprezenta nivelul 2 al
variabilei NIVPERF2. Se
activeaz prima opţiune
RANGE THROUGH şi se
tasteaz valorile minime şi
maxime. În câmpul NEW
VALUE se trece valoarea 2,
cum se poate observa şi în
imaginea al turat .
283
LOREDANA GHERASIM
În câmpul din stânga apar toate variabilele din baza de date, în câmpul din dreapta se introduc
variabilele pe care dorim s le recodific m. În exemplu nostru vrem s recodific m variabil Media.
Trecem variabila în câmpul din dreapta:
Se activeaz butonul OLD AND NEW VALUES, care are aceleaşi opţiuni ca în cazul opţiunii
anteriore de transformare într-o variabil diferit :
284
ANALIZA COMPUTERIZAT A DATELOR
Dup confirmarea recodific rii s vedem modific rile din baza de date. Se constat c s-au
modificat valorile variabilei MEDIA, aceasta având acum aceleaşi valori ca şi variabila NIVPERF. Acest
lucru demonstreaz c cele dou opţiuni duc la acelaşi rezultat.
285
LOREDANA GHERASIM
acest lucru ar trebui ca r spunsurile de la itemul 2 s fie transformate, pentru ca scala de evaluare s
aib aceeaşi semnificaţie cu a ceilalţi doi itemi (valoarea 1 s însemne foarte puţin iar valoare 4 s
însemne foarte mult).
Recodificarea în acest caz presupune inversarea scalei de evaluare pentru itemul 2, adic
valoarea 1 a itemului s devin 4 (ceea ce înseamn foarte mult), valoarea 2 s devin 3, valoarea 3 s
devin 2, iar valoarea 4 a itemului s devin 1 (ceea ce înseamn foarte puţin).
Pentru recodificare ar putea fi utilizat oricare dintre cele dou opţiuni prezentate anterior
RECODE INTO SAME
VARIABLES sau INTO
DIFFERENT VARIABLES. Vom
folosi comanda RECODE INTO
DIFFERENT VARIABLES pentru a
putea verifica dac recodificarea a
fost realizat . Vom redenumi
variabila recodificat GUV_R:
Vom activa butonul OLD AND NEW VARIABLES. Pentru inversarea scalei de evaluare a
itemului vom folosi numai
opţiunile VALUE din câmpul
OLD VALUE şi NEW VALUE.
Astfel, valoarea 1 a vechii
variabile devine 4 pentru noua
variabil , deci se tasteaz 1 în
dreptul opţiunii VALUE din
câmpul OLD VALUE şi cifra 4 în
dreptul opţiunii VALUE din
câmpul NEW VALUE.
Se activeaz butonul
ADD din câmpul OLD→NEW. Apoi se tasteaz 2 în câmpul de la opţiunea VALUE din câmpul OLD
VALUE şi cifra 3 în câmpul de la opţiunea VALUE din câmpul NEW VALUE:
La fel se procedeaz şi pentru celelalte valori care trebuie recodificate. În final trebuie s avem
urm toarele transform ri în câmpul OLD→NEW:
286
ANALIZA COMPUTERIZAT A DATELOR
3
1
287
LOREDANA GHERASIM
3. în câmpul NUMERIC EXPRESSION se introduce formula de calcul a noii variabile; sub acest
câmp se g sesc butoane cu cifre şi semne, dar şi un câmp cu funcţii complexe care pot fi utilizate
pentru calculul noilor variabile.
Pentru exemplu nostru vom numi noua variabila ATIT, deci vom tasta numele noii variabile în
câmpul TARGET VARIABLE:
Apoi vom scrie formula de calcul care va consta în însumarea scorurilor obţinute la cele trei
variabile: PRES, GUV_R şi PARLAM. Variabile sunt trecute în câmpul NUMERIC EXPRESSION
folosind butonul de trecere. Semnul plus se introduce de la tastatur sau folosind butoanele care se
g sesc sub câmpul NUMERIC EXPRESSION:
Dup activarea butonului OK în baza de date apare o nou variabila, cu numele ATIT.
Aceast nou variabil reprezint atitudinea subiecţilor faţ de instituţiile statului şi reprezint
suma r spunsurilor la cei trei itemi.
288
ANALIZA COMPUTERIZAT A DATELOR
Variabilitatea rezultatelor urmeaz reguli care pot fi modelate matematic. Dac un fenomen
social observat este urm rit o perioad de timp mai îndelungat , distribuţia rezultatelor se va face dup
o curb normal , iar acest lucru poate fi demonstrat matematic.
Exist trei parametri ai unei distribuţii: modalitatea (indic valorile în jurul c rora se grupeaz
scorurile subiecţilor), înclinarea (indic tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arat
cât de mult variaz scorurile distribuţiei). Din perspectiva celor trei parametri, curba normal este
unimodală, simetrică şi mediu turtită. În plus, curba normal mai posed anumite propriet ţi speciale.
Astfel, matematicienii au pus la punct formule care permit calcularea diferitelor suprafeţe ale curbei.
Pentru a înţelege mai uşor despre ce este vorba, s lu m drept exemplu distribuţia rezultatelor
la un test de inteligenţ . La acest test media rezultatelor este 100, iar deviaţia standard este 16. În
imaginea de mai jos ilustr m grafic aceast distribuţie:
34% 34%
14% 14%
2% 2%
Dac urm riţi cu atenţie forma curbei normale veţi constata prezenţa unor „puncte de
inflexiune”, puncte în care linia curb îşi modific forma. Aceste puncte corespund deviaţiilor standard.
Întrucât distribuţia normal este simetric , exact 50% din cazuri vor avea scoruri sub valoarea medie.
Aproximativ 34% din cazuri se vor afla între medie şi o abatere standard la stânga sau la dreapta
mediei. Astfel, vom şti c 34% dintre subiecţi au scoruri cuprinse între medie (100) şi o deviaţie
standard. Având o deviaţie standard de 16, vom şti c 34% dintre indivizi vor avea scorul cuprins între
100 şi 116 (cei cu IQ situat deasupra mediei) sau între 84 şi 100 (cei cu IQ situat dedesubtul mediei).
Observaţi, de asemenea, c şi mai puţine cazuri sunt mai dep rtate de medie. Abia 16% din populaţie
vor avea scoruri mai mici sau mai mari de o deviaţie standard. Cu alte cuvinte, numai 16% dintre
oameni au coeficientul de inteligenţ mai sc zut de 84 sau mai ridicat de 116. Mai mult, doar
aproximativ 2% dintre indivizi vor avea scoruri şi mai extreme, mai mici sau mai mari decât dou deviaţii
standard faţ de medie (adic sub valoarea 68 sau peste valoarea 132).
Exist o strâns leg tur între scorurile standard (notele z) şi diferite procentaje sau frecvenţe
relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai
289
LOREDANA GHERASIM
mici sau mai mari decât al subiectului investigat. Orice manual de statistic are la sfârşit un tabel care
permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare not Z, este precizat un
procent, care arat câţi subiecţi au scorurile cuprinse între medie şi nota Z. S presupunem c o
persoan obţine la testul de inteligenţ scorul 125, putem calcula nota Z a acestui subiect, care are
valoarea 1,56 (dup formula: (125-100)/16). Dac vom consulta unul din tabelele de care aminteam
anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamn c de la medie (100) şi
pân la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arat c doar 5,94% dintre indivizi vor
avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât
subiectul ales de noi.
Pentru a vedea cum se realizeaz inferenţa statistic , vom analiza cel mai simplu test, testul z,
în care se compar un eşantion format dintr-un singur caz cu o populaţie a c rei parametri sunt
cunoscuţi. Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a
sintetizat o vitamin care accelereaz procesele de asimilaţie la copii nou-n scuţi, aceştia
dezvoltându-se mai rapid. Unul dintre efecte este sc derea vârstei la care copii încep s mearg .
Farmaciştii au dorit s omologheze vitamina, dar pentru aceasta ei trebuie s demonstreze c
într-adev r vitamina accelereaz mersul copiilor. Farmaciştii au primit dreptul s administreze vitamina
unui singur copil nou-n scut, ales aleatoriu din populaţie. Copilul respectiv, dup administrarea
vitaminei, a început s mearg de la vârsta de 8 luni. Pot farmaciştii s susţin c vârsta precoce la
care a mers copilul se datoreaz vitaminei, ştiind c vârsta la care merg copii prima dat , în populaţia
normal este de 14 luni, cu o abatere standard de 3 luni?
Pentru a r spunde cu dovezi statistice la o astfel de întrebare, trebuie s facem apel la
distribuţia normal a variabilei alese în cadrul populaţiei şi s respect m anumite etape pentru
verificarea raţionamentului. Prezent m în continuare curba normal corespunz toare vârstei de debut
de la care copiii încep s mearg :
34% 34%
14% 14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
290
ANALIZA COMPUTERIZAT A DATELOR
normali care nu iau vitaminele şi P1 - populaţia copiilor normali care iau vitaminele. Vom formula
dou ipoteze:
Ipoteza de lucru (experimental ): afirm c noii n scuţi care iau vitamina vor merge mai repede
decât cei care nu iau vitamina (H1: P0 < P1)
Ipoteza de nul: Este ipoteza care descrie situaţia în care intervenţia noastr (vitamina) nu are nici
un efect. Dac vitamina nu ar avea nici un efect, cele dou populaţii de copii ar merge la aceeaşi
vârst . H0: P0 = P1
Într-o cercetare se testeaz de fapt ipoteza de nul pentru c ea descrie situaţia deja existent
înainte intervenţiei sau situaţia în care nu am obţine nici un efect. Dac ipoteza de nul este
respins , atunci putem accepta ipoteza de lucru.
Etapa II: Stabilirea parametrilor populaţiei de comparaţie şi a distribuţiei de comparaţie. Aceast etap
presupune cunoaşterea parametrilor (media şi abaterea standard) populaţiei la care ne raport m (în
cazul nostru distribuţia copiilor care nu iau vitamina). În mod obişnuit, f r nici o alt intervenţie,
copiii din populaţia normal merg la vârsta de 14 luni, cu o abatere standard de 3 luni. Distribuţia
acestei variabile este normal .
Etapa III: Stabilirea pragului de semnificaţie şi a notei z a punctului de „tăiere”. Orice ipotez , mai ales în
domeniul ştiinţelor sociale, este testat la un anumit prag de semnificaţie. Acest prag de
semnificaţie arat probabilitatea de eroare cu care noi test m ipoteza. Pragul de semnificaţie poate
fi de 1% (când dorim s fim mai precişi) sau de 5% (atunci când putem fi mai puţin exacţi).
Pentru aceast cercetare vom stabili un prag de semnificaţie de 1% întrucât efectele ei sunt
importante. Dup stabilirea pragului, trebuie s vedem care este nota Z corespunz toare acestuia. Am
precizat anterior c fiec rui punct de pe curba de distribuţie normal îi corespunde o anumit not
standard şi o anume distribuţie a cazurilor din populaţie faţ de acel punct. De exemplu, la o valoare Z
de 1 (adic 17 luni) se constat c 84% dintre copii merg la vârste mai mici de 17 luni, abia 16%
mergând mai târziu de aceast vârst .
Exist dou de valori Z de corespunz toare pragului 1%, una referitoare la scorurile mici (în
partea stâng a distribuţiei), care arat cei 1% dintre copii care merg cel mai timpuriu şi o alt valoare
referitoare la scorurile mari (în partea dreapt a distribuţiei) care arat acei 1% dintre copii care merg
cel mai târziu. Pe noi ne intereseaz prima dintre aceste valori.
34%
34%
-2,33 14%
14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
Note z -2 -1 0 +1 +2
În tabelele statistice g sim valoarea scorului z (z=2,33) corespunz toare probabilit ţii de 1%
(numit şi punct de t iere). În cazul nostru ea va fi –2,33 pentru c ne referim la scorurile mai mici decât
media, aflate în partea stâng a curbei de distribuţie.
Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor
înseamn a observa vârsta la care va merge copilul pentru prima dat (8 luni). Vom transforma scorul
291
LOREDANA GHERASIM
subiectului la variabila vârst în scor Z, prin raportare la distribuţia populaţiei normale de comparat
folosind formula notei Z (X-M)/SD), adic pentru exemplu nostru: Z=(8-14)/3)=-2
Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. Dup obţinerea
scorul Z corespunz tor datelor colectate, acesta trebuie comparat cu scorul Z corespunz tor punctului
de t iere. În cazul nostru, nota Z (-2) corespunz toare scorului brut este mai mare decât a notei Z a
punctului de t iere (–2,33). În ipoteza noastr experimental ne aşteptam ca nota Z corespunz toare
scorului brut s fie mai mic decât valoare Z a punctului de t iere. În consecinţ , accept m ipoteza de
nul, ipoteza experimental neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit s dovedeasc , la
un prag de probabilitate de 1% c vitamina lor are efectul scontat.
Am prezentat testul Z pentru a înţelege logica test rii ipotezelor şi înţelesul pragului de
semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.
Acest test se aplic atunci când dorim s compar m rezultatele unui eşantion cu media
populaţiei (f r s avem informaţii despre varianţa rezultatelor populaţiei).
Pentru a vedea cum anume se foloseşte programul SPSS în aceast situaţie vom crea o nou
baz de date (baza7.sav), care conţine trei variabile: regiune (zona geografic , cu valorile: 1-
european , 2-asiatic şi 3-african ), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea
populaţiei pe km2). Prezent m în continuare valorile acestor variabile:
dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5,
283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221,
ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, -
0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9
reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2
Dorim s compar m scorurile eşantionului la variabila indice demografic cu media populaţiei,
care are valoarea 2,3. Media eşantionului nostru este mai mare sau mai mic comparativ cu cea a
populaţiei cu valoarea 2,3? Deoarece nu avem acces la alţi parametri ai populaţiei, în afar de medie
va trebui s estim m variabilitatea sa. Vom aplica testul t pentru a compara un eşantion cu o populaţie
la care cunoaştem media.
Ipoteza de cercetare: Indicele demografic al eşantionul nostru va avea o avea o valoare diferit
de indicele demografic al populaţiei
Ipoteza de nul: indicele demografic al eşantionului va avea aceeaşi valoare cu cel al populaţiei
Folosirea SPSS pentru compararea unui eşantion cu media unei popula ii
Aplicarea testului t se face activând din meniul ANALYZE-COMPARE MERANS opţiunea ONE
SIMPLE T TESTS:
292
ANALIZA COMPUTERIZAT A DATELOR
2
1
1
One-Sample Statistics 2
Std. Error
N Mean Std. Deviation Mean 3
procentul de crestere
37 1,489 1,149 ,189
anuala a populatiei
293
LOREDANA GHERASIM
One-Sample Test
4 5 6 7 8
Rezultatele sunt grupate în dou tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine
elemente de statistic descriptiv . Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t
propriu-zis. În continuare vom analiza elementele OUTPUT-ului:
1. în aceast celul este afişat media eşantionului, în cazul nostru m=1,49
2. în aceast celul este afişat abaterea standard a eşantionului, SD=1,1
3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane
de aceeaşi m rime cu al nostru (37), populaţie din care provine eşantionul nostru, σm=0,19
4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (µm) 2,3 şi abaterea
standard (σm) de 0,19. Valoarea lui t este obţinut dup formula t=(m- µ m )/ σ m =(1,49-2,3)/0,19≈-
4,26. Valoarea nu este identic cu cea din tabel datorit aproxim rilor f cute.
5. cuprinde gradele de liberate pentru care a fost calculat valoarea lui t şi probabilitatea de respingere
a ipotezei de nul; în cazul nostru df=36
6. prezint pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dac
respingem ipoteza de nul şi accept m ipoteza de cercetare. În exemplu nostru valoarea pragului de
semnificaţie este 0,000, dar se raporteaz ca un p<0,001, pentru a ar ta c probabilitatea de a
greşi este mai mic de 0,1% (calculatorul ne afişeaz doar primele trei zecimale).
7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raport m.
8. prezint intervalul de încredere al diferenţei dintre cele dou medii (-1,1 şi -0,4) corespunz tor
pragului de semnificaţie de 5%.
În interpretarea statistic a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de
acre trebuie s ţinem seama:
• pragul de semnificaţie: care ne indic probabilitatea de eroare atunci când respingem ipoteza de
nul. Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie s fie mai mic sau cel
mult egal cu 0,05 (adic eroarea nu trebuie s fie mai mare de 5%).
• gradul de libertate: arat care este m rimea eşantionului pe care s-a f cut testarea ipotezei. Cu cât
eşantionul este mai mare, cu atât putem avea mai mult încredere în rezultatele obţinute, indiferent
dac ele confirm sau nu ipoteza;
• sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arat în ce sens
apare diferenţa (care medie este mai mare).
Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3,
Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p<0,001.
Aceste rezultate indic faptul c diferenţa dintre medii este semnificativ , în sensul c media
eşantionului nostru este semnificativ mai mic comparativ cu cea a populaţie. Putem afirm c
294
ANALIZA COMPUTERIZAT A DATELOR
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al
populaţiei.
S analiz m acum dac scorurile la variabila densitate din eşantionul nostru difer de cea a
populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indic urm toarele rezultate:
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
Numar de oameni/
37 261,797 895,096 147,153
kilometru patrat
One-Sample Test
Test Value = 90
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Numar de oameni/
1,167 36 ,251 171,797 -126,643 470,237
kilometru patrat
295
LOREDANA GHERASIM
venit la terapie, înainte şi dup intervenţia terapeutic . Ceea ce ne intereseaz pe noi este de fapt
diferenţa dintre cele dou m sur tori ale anxiet ţii, înainte şi dup terapie.
Ipoteza de cercetare: susţine c vor fi diferenţe între cele dou m sur tori; ne aştept m ca
nivelul anxiet ţii dup terapie s fie mai mic decât cel iniţial.
Ipoteza de nul: diferenţele dintre cele dou m sur tori sunt nule, nu exist nici o diferenţ între
nivelul iniţial şi cel final al anxiet ţii.
Diferenţele dintre mediile celor dou eşantioane vor forma un eşantion de comparaţie. Acest
eşantion al diferenţelor se compar cu o populaţie la care cunoaştem media (media are valoarea 0
conform ipotezei de nul).
Folosirea SPSS pentru compararea a dou eşantioane perechi
Pentru a demonstra modul de utilizare a testului t pentru eşantioane perechi, vom folosi baza
de date Baza1.sav. Se utilizeaz testul t pentru eşantioane perechi, pentru c avem rezultatele
aceloraşi subiecţi înainte şi dup terapie.
Aplicarea testului t se face activând din meniul ANALYZE – COMPARE MEANS opţiunea
PAIRED-SAMPLES T TEST:
2
3
296
ANALIZA COMPUTERIZAT A DATELOR
Butonul OPTIONS este identic cu cel de la testul t care permite compararea unui eşantion cu o
populaţie. Vom p stra intervalul de încredere de 95%.
Dup ap sarea butonului OK fereastra OUTPUT ne va prezenta urm toarele rezultate:
3 4
Paired Samples Statistics
2 Std. Error 5
Mean N Std. Deviation Mean
1 Pair nivelul anxietatii
107,9000 20 6,0166 1,3454
1 inainte de terapie
nivelul anxietatii
107,9500 20 5,3062 1,1865
dupa terapie
6
Paired Samples Correlations
7
N Correlation Sig.
Pair nivelul anxietatii inainte
1 de terapie & nivelul 20 -,259 ,270
anxietatii dupa terapie
Paired Differences 12
9 95% Confidence
8 Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair nivelul anxietatii ina
1 de terapie - nivelul -0.05 8,9940 2,0111 -4,2593 4,1593 -,025 19 ,980
anxietatii dupa tera
14 15
Rezultatele sunt organizate în trei tabele, pentru fiecare dintre acestea vom analiza celulele.
Tabelul PAIRED SAMPLES STATISTICS:
1. conţine perechea de variabile analizat ; variabilele trebuie s fie perechi, adic s provin de la
aceeaşi subiecţi şi fie cuantificate cu aceeaşi unitate de m sur
2. conţine mediile celor dou grupe analizate: Mini=107,9, Mfin=107,95
3. prezint num rul de subiecţi din fiecare eşantion, N=20
4. conţine deviaţiile standard a scorurilor fiec rui eşantion: Sini=60,1, Sfin=5,3
297
LOREDANA GHERASIM
5. conţine abaterile standard ale populaţiilor de eşantioane de N subiecţi din care provin
eşantioanele noastre
Tabelul PAIRED SAMPLES CORRELATIONS
6. coeficientul de corelaţie dintre cele dou variabile pereche
7. pragul de semnificaţie al corelaţiei, adic probabilitatea de eroare dac am afirma c exist o
leg tur între cele dou variabile
Tabelul PAIRED SAMPLES TESTS
8. conţine numele perechii de variabile şi precizeaz diferenţa dintre variabile, în cazul nostru
anx1-anx2
9. cuprinde diferenţa medie dintre cele dou grupe de subiecţi. Valoarea negativ indic faptul c
anxietatea iniţial este mai mic comparativ cu cea final
10. cuprinde abaterea standard a eşantionului rezultat din diferenţele celor dou eşantioane
11. indic abaterea standard a populaţiei de eşantioane care cuprinde toate eşantioanele de
aceeaşi m rime
12. indic intervalul de încredere de 95%al diferenţei dintre mediile celor dou grupe
13. valoarea lui t, adic nota t a eşantionului de diferenţe în cadrul populaţiei de eşantioane:
t(19)=-0,02
14. gradele de libertate pentru care este calculat nota t, df=19
15. pragul de semnificaţie sau probabilitatea de eroare atunci când respingem ipoteza de nul:
p=0,980
298
ANALIZA COMPUTERIZAT A DATELOR
Acest test se foloseşte când dorim s analiz m influenţa unei variabile independente, care
presupune eşantioane independente de subiecţi. Pentru a demonstrat modul de utilizare a testului vom
folosi datele din baza de date baza1.sav. Vom analiza dac genul subiecţilor influenţeaz nivelul iniţial
al anxiet ţii pacienţilor. În acest caz variabila independent este genul subiecţilor (cu dou grade de
intensitate, 1 - subiecţi de sex masculin şi 2 – subiecţi de gen feminin), variabila dependent fiind nivelul
iniţial al anxiet ţii. În funcţie de variabila independent se creeaz dou grupe de subiecţi independenţi
sau diferiţi (grupul 1 va fi format numai din subiecţii de gen masculin, iar grupul 2 numai din subiecţi de
gen feminin). Fiecare subiect va putea face parte doar dintr-un singur grup.
Ipoteza de cercetare: subiecţii de sex masculin vor avea un nivel al anxiet ţii iniţiale diferit de
cel al subiecţilor de gen feminin
Ipoteza de nul: subiecţii de gen masculin şi feminin vor avea acelaşi nivel al anxiet ţii iniţiale.
Vom introduce variabila dependent (nivelul anxiet ţii înainte terapiei) în câmpul TEST
VARIABLE şi variabila independent în câmpul GROUPING VARIABLE:
2
3
4
299
LOREDANA GHERASIM
3. câmpul unde introducem variabila independent sau variabila de grupare (cea dup care
grup m subiecţii).
4. butonul care permite precizarea celor dou niveluri ale variabilei independente; chiar dac
variabila independent are mai multe grade de intensitate, se pot preciza doar dou dintre acestea.
Activarea butonului DEFINE GROUPS deschide o fereastr unde vom trece valorile
corespunz toare celor dou grupuri alese pentru comparaţie (în acest caz variabila independent are
doar dou niveluri 1 şi 2):
1 2 Group Statistics 3 4
5
Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 104,8889 2,5712 ,8571
inainte de terapie subiecti de gen feminin 11 110,3636 6,9753 2,1031
8 9 10 11
300
ANALIZA COMPUTERIZAT A DATELOR
5. precizeaz deviaţia standard pentru populaţiile de eşantioane de N subiecţi din care provin
grupele noastre
6. precizeaz cele dou situaţii posibile în urma test rii varianţei populaţiilor: varianţe egale
(primul rând) sau varianţe inegale (al doilea rând)
7. arat valoarea testului F, Levene. Înainte de a analiza al doilea tabel, vom preciza faptul c
testul LEVENE testeaz egalitatea varianţelor populaţiilor din care provin eşantioanele noastre. Testul,
notat cu F, testeaz ipoteza de nul care afirm c varianţele populaţiilor din care provin eşantioanele
sunt egale
8. probabilitatea de eroare pentru respingerea ipotezei de nul în cazul testului Levene
9. celula conţine valorile lui t pentru varianţe egale sau inegale ale populaţiilor; semnul lui t ne
indic sensul diferenţei dintre medii, fapt de care ne putem da seama uitându-ne la valorile mediilor
10. arat gradele de libertate pentru care a fost calculat semnificaţia notei t; indiferent de
rândul pe care îl citim, în funcţie de testul Levene, convenţia este ca s raport m gradele de libertate de
pe primul rând (în cazul nostru df=18)
11. conţine pragul de semnificaţie sau probabilitatea de eroare care apare atunci când
respingem ipoteza de nul şi accept m ipoteza de cercetare. Pentru a respinge ipoteza de nul pragul de
semnificaţie trebuie s fie cel mult egal cu 0,05.
Interpretarea rezultatelor obţinute:
Mediile: subiecţii de gen masculin - Mgr1=104,8, subiecţi de gen feminin - Mgr2=110,3
Testul Levene are valoarea F=6,6, p=0,019, ceea ce indic faptul c putem respinge ipoteza de
nul (care afirm c varianţele sunt egale). Greşim doar în 1,9% din cazuri dac respingem ipoteza de
nul. Concluzia este c variantele celor dou populaţii sunt diferite, vom extrage nota t şi semnificaţia de
pe rândul EQUAL VARIANCES NOT ASSUMED.
Valoarea lui t şi semnificaţia: t(18)=-2,4, p=0,031. Putem respinge ipoteza de nul, pentru c
greşim doar în 3,1% din cazuri şi s accept m ipoteza de cercetare. Deci, apar diferenţe semnificative
între nivelul anxiet ţii iniţiale a subiecţilor de gen masculin şi feminin. Subiecţii de sex masculin au un
nivel al anxiet ţii semnificativ mai mic comparativ cu a celor de gen feminin.
Vom analiza efectul variabilei gen asupra nivelului anxiet ţii subiecţilor dup terapie.
Rezultatele obţinute sunt:
Group Statistics
Std. Error
sexul subiectilor N Mean Std. Deviation Mean
nivelul anxietatii subiecti de gen masculin 9 106,1111 4,0449 1,3483
dupa terapie subiecti de gen feminin 11 109,4545 5,9053 1,7805
301
LOREDANA GHERASIM
Se foloseşte atunci când vrem s analiz m efectul unei variabile independente, care are mai
mult de dou grade de intensitate (sau nivele), asupra variabilei dependente. Pentru a înţelege logica
acestei metode s lu m un exemplu. S presupunem c suntem interesaţi dac salariul românilor
depinde de nivelul de studii (nivel general, mediu şi superior). Mai precis ne aştept m ca subiecţii cu
studii medii s aib un salar mai mic comparativ cu cei cu studii, dar s aib un salariu mai mare
comparativ cu cei cu studii generale.
Reprezentarea grafic a situaţiei descris anterior este prezentat în imaginea de mai jos:
x
a
M1 M2 M3
MG
Cele trei linii curbe mici descriu distribuţia salariilor pentru cele trei categorii de studii, iar linia
curb mai mare descrie distribuţia salariului pentru toate cele trei niveluri de studii luate la un loc. M1,
M2 şi M3 reprezint salariul mediu pentru fiecare nivel de studii, iar MG este salariul mediu total al
tuturor salariaţilor. Distanţa a reprezint poziţia scorului x faţ de media grupului din care aparţine, iar
distanţa b exprim poziţia scorului x faţ de valoarea medie a populaţiei totale (format din cele trei
niveluri de studii la un loc).
Variaţia total a salariului populaţiei poate fi descompus în dou p rţi: o parte din variaţie se
datoreaz abaterilor fiec rui scor de la media grupului din care face parte (distanţa a), iar cealalt parte
din variaţie este produs de abaterile fiec rui scor de la media total a populaţiei. Pentru a distinge între
grupuri ar trebui ca prima component a variaţiei s fie mai mic decât cea de a doua, adic persoanele
aflate în acelaşi grup s difere mai puţin între ele şi mai mult de subiecţii din celelalte grupe. Atunci când
variaţia intragrup este mai mic decât variaţia intergrup înseamn grupele sunt diferite.
302
ANALIZA COMPUTERIZAT A DATELOR
Analiza de varianţ (simbolul este F, coeficientul Fisher), calculeaz raportul între variaţia
provocat de diferenţele întergrupuri, MSB, şi variaţia cauzat de diferenţele intragrup, MSW, (formula de
calcul este F=MSB/MSW) şi stabileşte dac acest raport este suficient de mare pentru a putea distinge
între grupe. Semnificaţia coeficientului F se stabileşte în funcţie de dou grade de libertate: gradele de
libertate intergrup (valoare dat de num rul de grupuri minus 1) şi gradele de liberate intragrup (valoare
dat de suma gradelor de libertate a grupurilor sau de num rul total de subiecţi mai puţin num rul
grupurilor).
2
1
6
4
5
S analiz m fereastra:
1. câmpul în care sunt afişate variabilele din baza de date;
2. câmpul în care sunt introduse variabilele dependente (în cazul nostru densitatea);
3. este câmpul în care se introduce variabila independent sau factor (în exemplul nostru
factorul este regiunea);
303
LOREDANA GHERASIM
4. butonul CONTRAST permite realizarea unor comparaţii între grupe în funcţie de variabila
independent ;
5. butonul POST HOC permite alegerea unui anumit tip de contrast post-hoc;
6. butonul OPTIONS conţine elemente de statistic descriptiv .
Vom descrie pe scurt opţiunile butonului POST-HOC:
Toate testele de la aceast opţiune indic dac diferenţele obţinute pe ansamblu prin analiza
testului F se reg sesc şi la nivelul comparaţiilor dintre grupuri luate dou câte dou . Pragurile de
semnificaţie a acestor teste sunt ajustate în funcţie de num rul de grupe. Testele sunt prezentate în
ordinea descresc toare a puterii lor. Pentru a analiza efectul variabilei independente asupra celei
dependente se foloseşte testul BONFERRONI.
Activarea butonului descriptiv deschide urm toarea caset :
Opţiunile pe care le vom bifa sunt DESCRIPTIV pentru a vedea mediile celor trei grupe şi
reprezentarea grafic a efectului MEANS PLOT.
Dup activarea butonului OK al ferestrei principale în foia cu rezultate apr urm toarele tabele:
Descriptives
304
ANALIZA COMPUTERIZAT A DATELOR
1 2 ANOVA
3 4 5 6
Multiple Comparisons
305
LOREDANA GHERASIM
10. steluţa care apare în dreptul diferenţelor dintre medii indic existenţa unor diferenţe
semnificative între acestea.
11. coloana conţine valoarea exact a pragului de semnificaţie pentru fiecare diferenţ .
Astfel, în exemplul nostru observ m urm toarele rezultate:
Mgr1(Europa)-Mgr2(Asia)=-1,2, p<0,001
Mgr1(Europa)-Mgr3(Africa)=-2,2, p<0,001
Mgr2(Asia)-Mgr3(Africa)=-0,96, p=0,004
Între toate grupele apa diferenţe semnificative, cea mai mare valoarea a indicelui demografic îl
are regiunea african (indicele este semnificativ mai mare comparativ cu celelalte dou regiuni),
urmeaz apoi regiunea asiatic (indicele este semnificativ mai mare decât cel al regiunii europene, dar
mai mici decât cel al regiunii africane). Pe ultimul loc se plaseaz Europa cu cel mai mic (semnificativ
mai mic comparativ cu zona asiatic şi african ) indice demografic.
În imaginea de mai jos apare grafic a efectului:
În continuare vom analiza efectul variabilei regiune asupra densit ţii. Rezultatele obţinute sunt
urm toarele:
ANOVA
306
ANALIZA COMPUTERIZAT A DATELOR
Multiple Comparisons
Mean
Difference
(I) regiunea geografica (J) regiunea geografica (I-J) Std. Error Sig.
europa asia -627,447 345,186 ,234
africa 21,172 345,186 1,000
asia europa 627,447 345,186 ,234
africa 648,618 370,789 ,268
africa europa -21,172 345,186 1,000
asia -648,618 370,789 ,268
Din tabelul ANOVA extragem valoarea şi semnificaţia lui F: F(2,34)=2,07, p=0,142. Const m nu
exist un efect al variabilei regiune asupra densit ţii populaţiei (nu putem respinge ipoteza de nul pentru
c am greşi în 14,2% din cazuri). Deci, densitatea populaţiei este aproximativ aceeaşi indiferent de
regiune: european , asiatic sau african .
Testul POST HOC Bonferroni nu semnaleaz diferenţe semnificative între cele trei grupe care
se formeaz în funcţie de intensit ţile variabilei independente.
Cele mai multe studii realizate în domeniul psihologiei studiaz efectul mai multor factori
(variabile independente) asupra uneia sau mai multor variabile dependente. Metodele prezentate pân
acum (testele t şi ANOVA unifactorial) permit doar evidenţierea influenţei separate a fiec rui factor.
Pentru a analiza efectelor mai multor variabile independente se poate folosi analiza de varianţ
factorial . Logica acestei metode este identic cu a modelului ANOVA unifactorial, la fel coeficientul F
m soar raportul dintre variaţia cauzat de împ rţirea pe grupuri şi variaţia intrinsec a grupurilor.
Acest tip de analiz prezint dou tipuri de note F corespunz toare celor dou tipuri de efecte
pe care le m soar . Efectele principale m soar influenţa unei variabile independente asupra variabilei
dependente, indiferent de acţiunea celorlalte variabile independente. Efectele de interacţiune m soar
influenţa combinat a dou sau mai multor variabile independente asupra variabilei dependente.
307
LOREDANA GHERASIM
În acest exemplu avem dou variabile independente niv_stim (nivelul stimei de sine) şi niv_anx
(nivelul de anxietate), fiecare din ele având dou grade de intensitate. Variabila dependent este nota
obţinut la examen.
Vom analiza efectul de interacţiune (sau combinat) al nivelului de anxietate şi al stimei de sine
asupra notei obţinute la examen.
Pentru analiza efectului combinat voma activa meniul ANALYZE - GENERAL LINEAR MODEL
opţiunea UNIVARIATE. Odat activat comanda pe ecran apare urm toarea fereastr :
1
4
308
ANALIZA COMPUTERIZAT A DATELOR
În partea dreapt fereastra principal exist o serie de butoane care conţin opţiuni complexe de
analiz . Preciz m nu vom folosi în analiz toate opţiunile, acestea putând fi folosite pentru design-uri
experimentale mult mai complexe.
Butonul MODEL activeaz urm toarea fereastr :
2
Opţiunile din aceast fereastr folosesc la construirea unor modele de analiz în condiţiile în
care situaţia investigat este complicat (conţine multe variabile independente). S analiz m fereastra:
1. opţiunea FULL FACTORIAL este marcat implicit, ceea ce înseamn c se vor lua în calcul
toate efectele principale şi combinaţiile posibile de factori. Pentru modelele simple se recomandat
utilizarea acestei opţiuni
2. opţiunea CUSTOM se foloseşte dac se doreşte simplificarea modelul cu care se lucreaz ,
bifarea acestei opţiune activeaz automat câmpurile şi butoanele care se g sesc dedesubt, permiţând
calculul anumitor efecte pentru anumiţi factori
3. folosind opţiunile care se deschid din câmpul INTERACTION, putem alege efectele pe care
vrem s le analiz m; cu ajutorul butonului cu s geat se pot selecta factorii pentru care dorim s se
calculeze efectele.
309
LOREDANA GHERASIM
Opţiunile acestei ferestre permit compararea diferitelor grupuri rezultate din împ rţirea
subiecţilor în funcţie de valorile sau categoriile variabilelor independente. Aici sunt trecute doar
variabilele independente. Se alege variabila independent pentru care se doreşte calculul contrastul
(diferenţa dintre nivelele sale de variaţie). Apoi, se alege tipul de contrast din câmpul CONTRAST. Se
recomand tipul de contrast DIFFERENCE.
Pentru exemplificare, am ales variabila NIV_STIM (nivelul stimei de sine).
Prin tipul de contrast DIFFERENCE, se cere programului s analizeze dac între cele dou
nivele ale variabilei nivel al stimei de sine vor ap rea diferenţe în ceea ce priveşte notele obţinute. Cu
alte cuvinte vom vedea dac cei cu stim de sine ridicat obţin note diferite de cei cu stim de sine
sc zut ). Dup alegerea tipului de contrast trebuie activat butonul CHANGE.
310
ANALIZA COMPUTERIZAT A DATELOR
Pe axa HORIZONTAL AXIS se introduce variabila independent ale c rei categorii dorim s le
reprezent m pe axa X.
Pe axa SEPARATE LINES se introduce variabila pentru care se vor trasa linii ce vor reprezenta
categorii diferite ale factorului.
SEPARATE PLOTS se foloseşte introducerea celui de al treilea factor, ceea ce permite
obţinerea mai multor grafice, care indic relaţia dintre variabilele introduse anterior pentru fiecare nivel
al factorului trei.
În exemplul nostru avem doar doi factori. În consecinţ vom reprezenta notele la examen în
funcţie de nivelul stimei de sine, NIV_STIM (pe care o vom trece pe axa X) şi nivelul anxiet ţii,
NIV_ANX (reprezentat prin linii separate), ca în imaginea de mai jos:
311
LOREDANA GHERASIM
Se activeaz butonul ADD. Acest buton permite realizarea mai multor grafice, deoarece în urma
activ rii acestuia câmpurile ferestrei se golesc.
Revenim din nou în fereastra principal pentru a activa butonul POST HOC care va deschide
fereastra:
Acest buton are opţiuni similare cu butonul POST HOC din fereastra ANOVA ONE-WAY.
Aceast opţiune se foloseşte doar când variabile independente au mai mult de dou nivele de variaţie.
Pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparaţii POST HOC, deoarece ambele variabile
independente au doar dou nivel. Vom reveni la fereastra principal f r a activa vreo opţiune.
Butonul SAVE activeaz urm toarea fereastr :
Opţiunile la care face referire acest buton se refer la o
alt metod statistic numit Regresia liniar . Nu vom mai
comenta aceste opţiuni, dar menţion m c ele faciliteaz
tratarea analizei de variant ca un model particular de regresie.
Recomand m folosirea acestor opţiuni doar celor care cunosc
regresia.
Butonul OPTIONS activeaz o fereastr specific
acestei analize de varianţ :
312
ANALIZA COMPUTERIZAT A DATELOR
În continuare vom prezenta foaia cu rezultate. Primele elemente ale output-ului se refer la
parametrii descriptivi ai modelului. Primul tabel precizeaz num rul de subiecţi pentru fiecare grup
obţinut în funcţie de nivelurile fiec rei variabile independente. De exemplu, sunt 16 subiecţi în grupul
celor cu nivel sc zut al stimei de sine.
313
LOREDANA GHERASIM
Al doilea tabel precizeaz mediile totale precum şi cele corespunz toare fiec rui subgrup de
subiecţi, subgrup determinat de categoriile factorilor din model. Aceste date sunt rezultatul opţiunilor
marcate de noi din fereastra butonului OPTIONS.
Mai departe, în foaia de rezultate sunt prezentate elementele cele mai importante ale
outputului, rezultatele testului F.
Tabelul cu testul lui Levene reprezint tocmai testul de omogenitate, care trebuie s fie
nesemnificativ pentru a utiliza aceast metod .
3
4 2
Cele mai importante elemente ale tabelului se refer la testul F. Ne intereseaz numai liniile
marcate prin acolade.
1. arat variabilele ale c ror efecte le lu m în calcul:
314
ANALIZA COMPUTERIZAT A DATELOR
• linia cu NIV_STIM arat efectul principal al factorului nivelul stimei de sine, indiferent de
acţiunea celuilalt factor;
• NIV_ANX arat efectul principal al factorului nivel de anxietate, indiferent de acţiunea
celuilalt factor;
• linia NIV_STIM*NIV_ANX se refer la efectul de interacţiune al celor dou variabile
asupra variabilei dependente;
2. conţine notele F corespunz toare efectelor principale şi de interacţiune;
3. conţine pragurile de semnificaţie ale testelor F.
4. conţine gradele de libertate between subjects şi within subjects
Pentru exemplu nostru s-a obţinut doar un singur F semnificativ (p<0,05) şi anume cel
corespunz tor liniei NIV_STIM (F(1,30)=22,13, p<0,001). Deci apare un efect principal al variabilei
nivelul stimei de sine asupra notelor la examen. Restul efectelor sunt nesemnificative. Nu apare un
efect principal al variabilei nivelul anxiet ţii (F(1,30)=2,7, p=0,107), deci notele subiecţilor nu depinde de
cât de anxioşi sunt aceştia. De asemenea, nu apare un efect de interacţiune al variabilelor
independente nivelul stimei de sine şi nivelul anxiet ţii (F(1,30)=0,02, p=0,881), deci nota la examen nu
este influenţat de efectul
combinat al nivelului de
anxietate şi al stimei de sine.
Pentru a vedea modul
în care nivelul stimei de sine
(NIV_STIM) influenţeaz nota la
examen, trebuie s ne uit m în
tabelul de contrast:
Testul de contrast
calculeaz diferenţa între media
notelor obţinute de subiecţii cu
nivel ridicat al stimei de sine şi a celor cu nivel sc zut al stimei de sine (LEVEL 2 vs. LEVEL l). Aceast
diferenţ a fost comparat cu situaţia în care cele dou grupuri ar fi obţinut valoarea zero
(HYPOTHESIZED VALUE). Pragul de semnificaţie (notat cu SIG) indic apariţia unei diferenţe
semnificative. Sensul diferenţei
(-1,93) indic faptul c cei cu
nivel ridicat al stimei de sine
(LEVEL 2) au obţinut note mai
semnificativ mai mici
comparativ cu cei cu nivel
ridicat al stimei de sine (LEVEL
1).
Tabelul al turat reia
analiza contrastelor pentru
factorul nivelul anxiet ţii:
Aici nu mai apar diferenţe semnificative (fapt confirmat şi de lipsa unui efect principal pentru
aceast variabil ), deci nivelul anxiet ţii nu afecteaz nota la examen (Mdif=-0,68, p=0,107).
Urm toarele tabelele prezint media obţinut pe ansamblu (tabelul l), mediile obţinute pentru
fiecare factor în parte (tabelele 2 şi 3) şi cele pentru grupurile de subiecţi rezultat al combin rii nivelurilor
celor dou variabile independente. Aceste tabele ajut la interpretarea sensului diferenţelor la testele de
315
LOREDANA GHERASIM
contrast şi interacţiunii variabilelor. Tabelele prezint şi deviaţiile standard şi limitele valorii medii pentru
un interval de încredere de 95%.
316
ANALIZA COMPUTERIZAT A DATELOR
Pentru a putea face analiza trebuie definit variabila care presupune m sur ri repetate, în cazul
nostru aceast variabil este m surarea repetat a anxiet ţii înainte şi dup terapie (sau test-retest). Cu
alte cuvinte trebuie denumit variabila independent care presupune m sur ri repetate şi trebuie
precizate nivelurile acesteia. În locul denumirii generice a variabilei care presupune m sur ri repetate,
care apare în câmpul WITHIN-SUBJECTS FACTOR NAME (factor 1) vom trece numele noii variabile
317
LOREDANA GHERASIM
Dup salvarea definirii factorului cu m sur ri repetate se activeaz butonul DEFINE, care
activat deschide o nou fereastr :
318
ANALIZA COMPUTERIZAT A DATELOR
În partea de jos a ferestrei principale apar o serie de butoane care conţin opţiuni complexe de
analiz . Opţiunile sunt similare celor care au ap rut în modelul de analiz de varianţ prezentat anterior
ANOVA UNIVARIATE.
Butonul MODEL activeaz urm toarea fereastr :
Opţiunile din aceast fereastr folosesc la construirea unor modele în condiţiile în care situaţia
investigat este prea complicat . Pentru exemplul nostru, vom
p stra opţiunea selectat implicit FULL FACTORIAL, ceea ce
va însemna c în foia cu rezultate vor ap rea atât efectele
principale ale celor dou variabile independente cât şi efectul
de interacţiune al acestora.
Butonul CONTRAST activeaz urm toarea caset de
dialog:
319
LOREDANA GHERASIM
Se observ c deja este selectat tipul de contrast pentru variabila independent care presupune
m sur ri repetate (TRT Polynomial). Trebuie s alegem tipul de
contrast pentru variabila TERAPIE, care presupune dou
niveluri. Vom selecta tipul de contrast Difference.
Butonul PLOTS activeaz o fereastr dedicat
reprezent rilor grafice. Vom reprezenta nivelul anxiet ţii
pacienţilor în funcţie de tipul terapiei (pe care o vom trece pe
axa X) şi momentul evalu rii anxiet ţii TRT (reprezentat prin
linii separate):
Se activeaz apoi butonul ADD pentru ca aplicaţia SPSS s reţin reprezentarea grafic a
interacţiunii dintre variabilele independente:
Acest buton are opţiuni similare butonului POST HOC din fereastra ANOVA ONE-WAY şi
UNIVARIATE. Opţiunea se foloseşte atunci când variabile independente au mai mult de dou nivele de
variaţie. De asemenea, pentru a analiza diferenţele dintre grupe se foloseşte testul Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparaţii POST-HOC, pentru c variabilele
independente au dor dou niveluri. În consecinţ , vom reveni la fereastra principal f r a activa vreo
opţiune.
320
ANALIZA COMPUTERIZAT A DATELOR
Al doilea tabel precizeaz num rul de subiecţi pentru fiecare grup obţinut în funcţie de nivelurile
factorului care presupune eşantioane independente:
Urm torul tabel precizeaz mediile pentru fiecare subgrup de subiecţi format în funcţie de toate
categoriile factorilor din model.
321
LOREDANA GHERASIM
Urm toarele dou tabele prezint efectele principale şi de interacţiune ale variabilelor
independente. La fel ca şi la modelul de analiz de varianţ anterior se extrag valorile coeficienţilor F,
pragul de semnificaţie şi gradele de libertate.
În primul tabel se constat c nu apare un efect al variabilei TRT (p>0,050), ceea ce indic
faptul c nivelului iniţial al anxiet ţii pacienţilor nu difer de nivelul final al anxiet ţii pacienţilor dup
terapie (F(1,18)=0,006, p=0,940). Faptul c subiecţii au acelaşi nivel al anxiet ţii dup intervenţia
terapeutic indic faptul c terapia utilizat nu a avut efect.
De asemenea, nu apare un efect combinat al variabilelor independente, TRT*TERAPIE
(F(1,18)=0,267, p=0,661). Deci subiecţii au acelaşi nivel al anxiet ţii înainte şi dup terapie, indiferent
de tipul de terapie utilizat.
Urm torul tabel indic efectul variabilei independente tip de terapie, f r a ţine seama de
momentul m sur rii F(1,18)=13,23, p=0,002. Se constat c apare un efect principal al acestei
variabilei independente asupra nivelului anxiet ţii pacienţilor dup terapie.
Pentru a vedea cum
influenţeaz tipul de terapie nivelul
anxiet ţii pacienţilor vom analiza
tabelul Custom Hypothesis.
Astfel, pacienţii care au primit
tipul 2 de terapie au un nivel al
anxiet ţii semnificativ mai ridicat
comparativ cu pacienţii care au primit
terapia de tip 1 (Mdif=4,40, p=0,002).
322
ANALIZA COMPUTERIZAT A DATELOR
Urm toarele tabelele prezint media obţinut pe ansamblu (tabelul l), mediile obţinute pentru
fiecare factor în parte (tabelele 2 şi 3) şi pentru grupele de subiecţi obţinute în urma combin rii
nivelurilor celor dou variabile independente (tabelul 4). Aceste tabele ajut la interpretarea sensului
diferenţelor la testele de contrast şi interacţiunii variabilelor. Tabelele prezint şi deviaţiile standard şi
limitele valorii medii pentru un interval de încredere de 95%.
Liniile graficului reprezint momentele m sur rii anxiet ţii. Efectul principal al variabilei
TERAPIE poate fi observat grafic cu uşurinţ .
323
LOREDANA GHERASIM
Datele non-parametrice sunt mai frecvent utilizate în sociologie decât în psihologie, Deoarece
avem de a face cu scale nominale sau ordinale, parametrii obişnuiţi pe care i-am folosit pân acum în
analiz , precum media sau abaterea standard, nu mai pot fi utilizaţi. În consecinţ , datele pe care le
obţinem folosind aceste scale de m sur nu mai pot fi analizate folosind metodele prezentate anterior.
Aceste date se analizeaz pornind de la frecvenţele de apariţie ale diferitelor categorii sau de la
probabilit ţile de apariţie ale acestor categorii. Metodele statistice utilizate pentru analiza acestor date
sunt numite teste neparametrice.
Aplicarea acestor teste este mai facil decât folosirea testelor parametrice, deoarece nu exist
restricţii cu privire la distribuirea normal a rezultatelor. Totuşi, aceste metode pot eşua mai uşor în
demonstrarea diferenţele, acolo unde acestea exist în realitate. Din acest motiv, recomand m
conceperea instrumentelor utilizând scalele de interval în locul celor nominale sau ordinale. De
exemplu, în locul m sur rii preferinţei pentru un anume tip de muzic folosind o scal ordinal de tipul
„1-deloc, 2-puţin, 3-mediu, 4-mult, 5-foarte mult", este mai indicat m surarea pe o scal de interval de
tipul „1-deloc -2-3-4-5 - foarte mult". În acest fel, pot fi uşor detectate diferenţele folosind metodele
parametrice.
Vom prezenta câteva dintre metodele neparametrice, f r a intra în detaliile teoretice privind
aceste teste.
Testul chi-p trat permite compararea distribuţiei frecvenţelor unei variabile pe mai multe
categorii, prin raportare la o distribuţie teoretic stabilit de cercet tor. Testul compar abaterile de la
aceast distribuţie teoretic obţinute în realitate şi estimeaz probabilitatea ca ele s apar aleatoriu.
Folosirea SPSS
Pentru a demonstrat modul de aplicare a acestei metode vom crea o nou baz de date
(baza9.sav) care cuprinde urm toarele variabile: VRST (vârsta subiecţilor), GEN (genul subiecţilor, cu
dou valori: 1 semnific subiecţi de gen masculin şi 2 subiecţi de gen feminin) şi VOT (cuprinde
r spunsurile subiecţilor la întrebarea „Cu cine aţi votat la ultimele alegeri prezidenţiale?, cu dou valori:
1 indicând persoanele care au votat pe Geoan , iar 2 indicând pe cei care au votat B sescu) şi variabila
GR_MULT (conţine r spunsurile subiecţilor la întrebarea „Cât de mulţumiţi sunteţi de situaţia actual a
ţ rii?”, cu dou valori: 1 - deloc mulţumit, 2 - puţin mulţumit şi 3 - foarte mulţumit). Prezent m scorurile
subiecţilor la cele patru variabile:
324
ANALIZA COMPUTERIZAT A DATELOR
VRST: 45, 23, 54, 19, 22, 34, 37, 62, 36, 41, 47, 51, 38, 27, 35, 43, 32, 29
GEN: 1, 1, 2, 2, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2
VOT: 2, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 21, 2, 2, 2
GR_MULT: 1, 2, 3, 1, 1, 1, 3, 3, 3, 2, 2, 2, 1, 3, 2, 2, 2, 1
În exemplul nostru, dorim s vedem cu cine au votat aleg torii din lotul nostru la ultimele alegeri
prezidenţiale. Deci, vom compara frecvenţa cu care oamenii au votat cei doi candidaţi, folosind testul chi
p trat.
Vom activa fereastra specific testului din meniul ANALYZE - NONPARAMETRIC TESTS
opţiunea CHI-SQUARE:
Vom introduce variabila VOT în câmpul pentru analiz (TEST VARIABLES LIST).
Se observ faptul c în câmpul EXPECTED VALUES este bifat opţiunea ALL CATEGORIES
EQUAL, ceea ce semnific faptul c se va compara situaţia real a votului cu situaţia în care candidaţii
ar obţine acelaşi num r de voturi.
Dac îns doream s compar m distribuţia cu o alta, în care categoriile nu s-ar mai fi distribuit
egal, atunci foloseam opţiunea VALUES şi butonul ADD.
Rezultatele testului apar în foaia cu rezultate sub forma a dou tabele:
În primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvenţa
observat , cea teoretic la care se face raportarea şi abaterile frecvenţei observate de la frecvenţa
teoretic (coloana RESIDUALS).
325
LOREDANA GHERASIM
Aceste teste sunt echivalentul testului t pentru eşantioane independente, doar c în acest caz
variabila dependent m surat nu este cantitativ , ci calitativ şi ordinal . Toate testele neparametrice
ce compar dou eşantioane independente au la baz comparaţii ale rangurilor diferitelor intervale
observate.
Folosirea SPSS
Pentru a ilustra aplicarea testului vom utiliza baza de date creat anterior (baza9.sav). Vom
analiza dac apr diferenţe între subiecţii de gen masculin şi cei de gen feminin în ceea ce priveşte
gradul de mulţumire faţ de situaţia actual a ţ rii.
Testul se activeaz din meniul ANALYZE - NON-PARAMETRIC TESTS opţiunea TWO
INDEPENDENT SAMPLES:
Fereastra care apare pe ecran sem n foarte mult cu cea care apare la activarea testului t
pentru eşantioane independente. Dintre cele patru tipuri de teste, vom folosi MANN-WHITNEY U, care
se bazeaz pe ierarhia rangurilor observaţiilor din cele dou grupuri.
Vom trece variabila dependent (GR_MULT) în câmpul TEST VARIABLE LIST, iar variabila
independent (GEN) în câmpul GROUPING VARIABLE. Grupurile variabilei independente se definesc
folosind butonul DEFINE GROUPS, la fel ca şi în cazul testului t.
În foaia cu rezultate apar urm toarele tabele:
326
ANALIZA COMPUTERIZAT A DATELOR
Observaţi c stilul de prezentare al rezultatelor este similar cu cel de la testul chi-p trat. în
primul tabel este prezentat situaţia „descriptiv " (media rangurilor), iar valoarea pragului de
semnificaţie a testului este dat în tabelul al doilea (linia denumit ASYMP. SIG).
Astfel, rangul mediu pentru subiecţii de gen masculin are valoare 9,83, pentru cei de gen
feminin are valoarea 9,17. Valoarea pragului de semnificaţie (p=0,778) este mai mare de 0,050, deci
putem trage concluzia c femeile şi b rbaţii din studiul nostru nu difer semnificativ în ceea ce priveşte
gradul de mulţumire cu privire la situaţia actual a ţ rii.
Dac diferenţele ar fi fost semnificative (p<0,05), sensul diferenţei ar fi fost dat de semnul notei
Z, scris imediat deasupra valorii pragului de semnificaţie.
Metodele care compar dou eşantioane perechi sunt similare aplic rii testului t pentru
eşantioane perechi. Pentru a ilustra aplicarea acestui test vom folosi o nou baz de date (baza10.sav)
care cuprinde dou variabile: ALINATA (cuprinde r spunsurile subiecţilor la itemul „Evaluaţi contribuţia
alianţei în integrarea europeană”; variabila are trei valori 1 - importanta, 2 - medie şi 3 - slab ) şi PSD
(cuprinde r spunsurile subiecţilor la itemul „Evaluaţi contribuţia alianţei în integrarea europeană”,
variabila are trei valori 1 - importanta, 2 - medie şi 3 - slab ). Prezent m rezultatele subiecţilor:
Alinata: 1, 1, 2, 3, 1, 1, 3, 2, 2, 2, 1, 1, 2, 2, 3, 3, 1, 3, 1, 1, 3, 2, 2, 2, 2, 2
PSD: 2, 3, 1, 1, 3, 2, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2
Dorim s vedem dac subiecţii au o p rere mai bun despre unul dintre cele dou partide
politice. Deoarece subiecţii r spund la ambele întreb ri trebuie aplicat o metod care s permit
compararea eşantioanelor perechi.
Se foloseşte din meniul NON PARAMETRIC TESTS opţiunea TWO RELATED SAMPLES.
Fereastra seam n cu cea a testului t pentru eşantioane perechi. Ca şi la acest test, trebuie
selectat o pereche de variabile pentru analiz , pentru a se activa opţiunile ferestrei.
Pentru exemplul nostru vom selecta variabile ALIANTA şi PSD şi le vom trece în câmpul din
stânga:
327
LOREDANA GHERASIM
Vom utiliza testul WILCOXON, care se bazeaz pe rangul valorilor absolute al diferenţelor
dintre dou variabile, comparând separat diferenţele pozitive şi negative.
Prezentarea rezultatelor testului, în foaia cu rezultate, se face în dou tabele, unul pentru
valorile descriptive şi altul pentru semnificaţia testului, ca mai jos:
În primul tabel apare media şi suma rangurilor diferenţelor pozitive şi negative, precum şi
cazurile în care scorurile sunt la egalitate. Indicii de sub acest tabel arat sensul diferenţelor.
Din al doilea tabel observ m c testul este nesemnificativ (p=0,281). Aceste rezultat indic
faptul c oamenii consider ca ambele partide contribuie la fel de mult la integrarea României în
Uniunea European .
328