Documente Academic
Documente Profesional
Documente Cultură
SPSS
SPSS prezentare generala
"SPSS for Windows" este un pachet de programe destinat analizei statistice a
datelor. Desi exista o varietate de programe de acest gen (SAS, Statistica for
Windows, GraphPad, MS Excel, care are si el functii statistice), SPSS se distinge prin
structurarea riguroasa si usurinta utilizarii, chiar si pentru începatori.
Cea mai recenta versiune disponibila la aceasta data este SPSS 12.0. Acest
manual nu acopera în mod special o anumita versiune, ci face referire în general la
versiunile sub Windows. În esenta, toate versiunile sub Windows ofera acelasi pachet
de functii statistice iar diferentele, chiar daca sunt, nu sunt relevante la nivelul unui
curs introductiv de statistica.
Particularitatea principala a interfetei de lucru cu SPSS este aceea ca rezerva fiecareia dintre
functiile de mai sus un domeniu special ("ecran", sau "fereastra"). Astfel, la lansarea programului,
acesta deschide automat o fereastra rezervata editarii datelor (Data Editor) si una afisarii rezultatelor
(Viewer). Putem numi aceste ferestre si domenii de lucru, deoarece la nivelul fiecaruia avem la
dispozitie o varietate de functii si optiuni specifice. Ca sa întelegem mai bine, trebuie sa ne imaginam
"domeniile de lucru" ca fiind "ferestre" distincte, similare celor ale documentelor Word, cu deosebirea
ca, în acest caz, fiecare fereastra acopera functii specifice.
Pentru a deschide o alta baza de date, sau a crea una noua, cea aflata în lucru va fi închisa.
Programul solicita salvarea ei prealabila, daca acest lucru nu a fost deja efectuat.
Daca vrem sa prelucram date aflate în baze de date (fisiere) diferite, este necesara aducerea
lor în aceeasi baza de date (procedura DATA-Merge files, care va fi descrisa mai târziu).
Meniurile ferestrei Data Editor nu se vor activa integral decât atunci când va
exista cel putin o variabila definita si valori pentru cel putin un caz.
Baza de date SPSS poate fi creata direct, cu ajutorul structurii (ferestrei) Data
Editor, sau poate fi deschisa cu ajutorul comenzii File-Open, asa cum vom
exemplifica mai târziu.
SPSS depune rezultatele prelucrarilor într-o sectiune aparte a domeniului de lucru. Aceasta
cuprinde toate tipurile de rezultate, atât de tip numeric cât si de tip grafic. Fereastra respectiva (Viewer)
este organizata în doua zone distincte: una pentru navigare (în partea stânga) si alta pentru afisarea
rezultatelor (în partea dreapta).
SPSS permite, în afara operarii prin intermediul mediurilor, si lucrul direct cu proceduri
definite de utilizator. Aceasta se face în interiorul unei ferestre speciale, care permite, pe de o parte,
editarea procedurilor, iar pe de alta parte, lansare lor în executie.
Imaginea de mai jos reda comenzile SPSS pentru calcularea procedurii de calcul indicatorilor
statistici descriptivi, redati mai sus, în fereastra SPSS Viewer.
Meniurile SPSS
Meniurile de tip lista se aseamana cu meniurile altor programe sub Windows. Fara a intra în amanunte,
iata o prezentare succinta a meniurilor pentru fereastra DATA EDITOR:
Optiuni:
1 Introducerea datelor
(b) Deschiderea unui fisier de date SPSS (extensia .SAV)
(c) Importarea unui fisier de format diferit (se alege din caseta
File open/File of type)
Corectia erorilor, selectii, recodificari, transformarea variabilelor
2 Pregatirea datelor prin calcule, declararea valorilor lipsa, combinarea datelor din
doua fisiere diferite (meniurile Data, Transform)
Selectarea procedurii
3 Meniurile Statistics (sau Analyze) si Graphs
satistice
Selectarea variabilelor ce
În conformitate cu configuratia casetei de dialog care este afisata
4 urmeaza a fi supuse
la fiecare procedura
prelucrarii
Se actioneaza butonul OK din caseta de dialog a procedurii
5 Rularea procedurii
Butonul devine activ numai atunci când sunt întrunite
conditiile presupuse de procedura respectiva
Rezultatele prelucrarilor sunt afisate într-o fereastra specifica
6 Analiza rezultatelor (SPSS Viewer), cu functiuni de editare grafica sau de tip text, în
functie de versiune.
7 Editarea rezultatelor Se editeaza rezultatele afisate în Viewer, aducându-le la forma
dorita sub aspect grafic
SPSS este un program puternic de analiza statistica a datelor. Utilizarea lui optima presupune, în
mod necesar, stapânirea de catre operator a cunostintelor teoretice de statistica.
Asa cum un program de editare grafica nu compenseaza lipsa de talent la desen, nici SPSS nu
poate fi cu adevarat exploatat de catre cei care nu au cunostinte de statistica. În lipsa acestora, nici
alegerea procedurilor si nici interpretarea rezultatelor nu va fi cu adevarat posibila.
Editarea datelor
O baza de date în SPSS este o structura formata din linii si coloane, la intersectia carora se
formeaza celulele care contin, fiecare, o anumita unitate de informatie.
Existenta unei baze de date deschisa în fereastra Data Editor este o conditie obligatorie pentru
operarea cu SPSS
În linii generale, pentru crearea unei baze de date proprii în SPSS, se procedeaza astfel:
Se lanseaza SPSS
Definirea variabilelor
Ca urmare a operatiei de mai sus, apare o caseta de dialog ca în imaginea de mai jos (forma ei
nu difera substantial de la o versiune de SPSS la alta). Daca privim caseta, vom observa urmatoarele
elemente:
• Change Settings, este o zona care cuprinde butoane de comenzi pentru modificarea
setarilor implicite:
În versiunile mai recente de SPSS editarea variabilei nu presupune acest tip de caseta, dar
toatele elementele ei constitutive se regasesc.
Numele variabilei:
Orice variabila SPSS trebuie sa aiba un nume. Cele mai importante aspecte legate de
denumirea variabilelor sunt urmatoarele:
În cazul utilizarii unor caractere improprii, apare un mesaj de eroare si se permite corectarea
numelui.
Alegerea numelui este la latitudinea operatorului. Respectarea anumitor conventii poate fi,
însa, extrem de utila, mai ales daca avem de a face cu o baza de date cu multe variabile. Iata
câteva recomandari utile în acest sens (ele nu sunt obligatorii):
Exista o serie de cuvinte "rezervate", a caror utilizare ca nume de variabile nu este acceptata
de program. Acestea sunt: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, THRU, TO,
WITH.
Definirea "tipului" de variabila
Asa cum se observa în caseta Define Variable Type din imaginea de mai sus, SPSS poate opera cu o
varietate de tipuri de variabile. Fiecarui tip îi corespund anumite proprietati (caracteristici) care trebuie
definite de operator. Cele mai uzuale sunt tipurile:
Proprietati:
• numarul de "zecimale"
EXEMPLE:
Pentru o variabila în care vom introduce vârsta în ani împliniti, vom defini Type Numeric cu
Width 2 (presupunând ca nu avem subiecti cu vârsta peste 100 de ani) si Decimal Places 0.
[Caracter] (String), care cuprind valori exprimate sub forma de caractere alfanumerice (litere sau chiar
cifre).
Proprietati
• numarul de caractere rezervat, care este fixat implicit la 8, dar poate fi modificat
dupa dorinta.
SPSS face distinctie între variabile de tip caracter "scurte" (Short string) si "lungi" (Long string).
Primele au maxim 8 caractere si pot fi incluse în unele proceduri statistice (semnificatia diferentei
între medii, de exemplu), pe când celelalte nu pot fi utilizate decât în operatii de listare (cazul
variabilei de genul "nume", de ex.).
Desi permisa, utilizarea variabilelor "string" nu este de preferat. Toate variabilele care suporta
codificari vor fi, de preferinta, introduse cu valori numerice. Utilizarea acestora în proceduri
statistice nu este limitata de nici o restrictie.
Unitati de timp calendaristic sau orar [Date], care pot include valori de timp într-un format
specificat, asa cum se vede în imagine.
Proprietati
• formatul de întroducere, care poate fi unul din cele evidentiate în caseta Define
Variable Type/Date
Exista o mare varietate de formate pentru acest tip de variabila, acoperind, practic, orice
cerinta posibila din partea utilizatorului.
Nu vom prezenta si celelalte tipuri de variabile, ele fiind mai putin folosite, dar facem
precizarea ca semnificatia lor poate fi gasita în Help-ul casetei Define Variable Type.
Tipul unei variabile poate fi schimbat ulterior prin simpla redefinire a acesteia. Se va
acorda atentie mesajelor care pot sa apara si care avertizeaza asupra eventualelor pierderi
de informatie prin schimbarea tipului.
Optiunile din zona Measurement (Scale, Ordinal, Nominal), care se regasesc doar la
versiuni SPSS de la 7.0 în sus, nu au întotdeauna o utilitate practica dar marcarea lor
corecta este necesara pentru anumite proceduri statistice sau grafice.
Pentru etichetare se apasa butonul Labels de pe caseta Define Variable. Se deschide o noua
caseta (Define Labels), care contine spatii pentru eticheta variabilei (Variable Label) si pentru
etichetele valorilor (Value labels).
Eticheta variabilei nu se supune restrictiilor pentru nume, putând contine oricâte caractere
(max. 255), dar si spatii sau alte semne grafice tiparibile.
Desi nimic nu ne obliga sa aplicam etichete variabilelor si valorilor, este foarte recomandabil ca ele
sa fie atribuite.
Etichetele ajuta la citirea mai usoara a rezultatelor (deoarece apar alaturi de acestea). În plus,
etichetele sunt asociate prelucrarilor grafice (histograme, bare, etc.) fapt care reduce necesitatea
de a le introduce ulterior prin editarea respectivelor grafice.
Pentru a sti cum sa declaram etichetele, este bine sa ni le imaginam ca fiind înscrise pe axele de
referinta ale unui grafic. Daca "se potrivesc", atunci au fost bine definite.
Oricum, ele vor putea fi modificate ulterior sau editate direct în SPSS Viewer.
valori lipsa de sistem (system missing values) adica valori care lipsesc din baza de date (nu au
fost introduse). Forma lor de evidentiere pe ecran este un punct plasat în celula respectiva.
valori lipsa declarate de utilizator (user missing values) adica valori pe care utilizatorul le
declara ca atare. Acestea pot exista în baza de date dar utilizatorul, din diverse motive, nu
doreste sa fie luate în calcul. Atentie, odata declarate, aceste valori nu sunt sterse si nici nu
sunt marcate în mod evident pe ecran.
Pentru declararea valorilor lipsa se actioneaza butonul Missing Values din caseta Define
Variables, care genereaza aparitia casetei de dialog alaturate.
declararea unui domeniu la care se poate adauga si o valoare distincta (Range plus one
discrete missing value)
Desi nu pare foarte evidenta acum, utilitatea functiei de declarare a valorilor lipsa nu trebuie
subestimata. Foarte adesea suntem nevoiti sa scoatem din prelucrari anumite valori (care nu
pot fi totusi, pur si simplu, sterse). Sa ne gândim numai la valorile extreme ale unei distributii,
a caror mentinere în anumite prelucrari poate determina modifcari semnificative a
rezultatelor.
stergerea unei variabile se face prin selectarea acesteia (clic pe capul de variabila) si
actionarea tastei Delete (sau se comanda din meniul Edit-Cut).
Inserarea unei variabile se face prin plasarea cursorului-celula pe coloana variabilei în stânga
careia dorim sa inseram noua variabila (sau prin selectarea variabilei respective), dupa care se
comanda, din meniul Data-Insert variable. Dupa aceasta, se defineste variabila inserata
(nume, tip, etichete).
stergerea cazurilor se face în mod similar variabilelor, prin selectarea acestora (clic pe capul
de linie) si tasta Delete (sau Edit-Cut). Se pot selecta mai multe cazuri simultan (drag cu
mouse-ul pe capul liniilor) dupa care se sterg ca mai sus.
Inserarea cazurilor se face dupa plasarea cursorului pe linia deasupra careia dorim sa inseram
un nou caz, dupa care se actioneaza în meniul Data-Insert case.
Pentru versiunile de SPSS de la 7 în sus, clic dreapta pe capul de coloana sau de linie, produce
un meniu contextual care permite un acces mai rapid la functiile de inserare/stergere.
SPSS nu permite Undo (în meniul Edit) decât limitat la ultima actiune. Din acest motiv,
stergerea variabilelor sau a cazurilor trebuie sa se faca cu atentie, pentru ca datele pot fi
definitiv pierdute. Se va retine, totusi, ca baza de date se actualizeaza pe hard disk numai dupa
salvarea comandata de utilizator. Ca urmare...
Orice modificare efectuata nu produce efecte decât asupra datelor din memoria de lucru,
fisierul ramânând nemodificat.
În cazul unei actiuni care produce efecte nedorite asupra bazei de date, exista solutia închiderii
bazei de date, fara a se accepta salvarea ceruta de program, dupa care se deschide fisierul
respectiv din nou.
Erori frecvente
- Aparitia unor cazuri inutile, (umplute cu system missing values) la sfârsitul unei baze de
date.
Explicatie: Introducerea inutila a unei valori într-o variabila, valoare care apoi este stearsa. Cu
toate acestea, SPSS a creat deja un caz nou, pe care l-a umplut cu system missing values.
Solutie: Selectarea cazului prin apasarea pe capul de linie si actionarea tastei Delete (sau Edit-
Cut).
Explicatie: La introducerea din greseala a unei valori într-o variabila nedefinita în prealabil,
SPSS creeaza automat o variabila implicita, pe care o denumeste VAR00001.
Pentru fiecare dintre informatiile pe care dorim sa le introducem în baza de date vom crea câte o
variabila.
Se observa faptul ca pentru variabile ale caror nume exprima exact continutul (SEX,
VÂRSTA) se poate utiliza fara nici un inconvenient numele si ca eticheta. Pentru a fi mai expliciti, sa
spunem ca numele variablei este util în primul rând SPSS-ului pentru a manipula variabilele, în timp ce
etichetele sunt necesare mai ales utilizatorului pentru a întelege cu usurinta la ce se refera o variabila al
carui nume prea scurt
Avem alaturat, imaginea DATA EDITOR pentru primii trei subiecti introdusi cu variabilele
de mai sus:
Insistam pe declararea, cu precadere, a variabilelor de tip numeric: SPSS este un program de
prelucrare statistica, fapt care implica date numerice. Desi el poate opera si cu date de tip caracter,
acestea nu sunt acceptate pentru toate tipurile de proceduri statistice. Pentru a nu avea surprize,
este recomandabil sa fie utilizate variabile de tip numeric în toate cazurile. De exemplu, variabila
sex, poate fi declarata de tip caracter (cu valorile M si F) dar, la fel de bine, de tip numeric (cu
valorile conventionale 1 si, respectiv, 2). În acest din urma caz, pentru explicitarea valorilor se vor
folosi etichetele de valoare (value label).
Introducerea unei variabile care sa contina numele subiectilor poate fi necesara doar daca ne
propunem realizarea unor liste ale subiectilor din baza de date. Altfel, identificarea numerica a
fiecarei înregistrari este suficienta (si absolut necesara), scutind un mare volum de munca pe care
l-ar implica introducerea numelor. Vom avea grija însa, ca pe documentul original sa scriem codul
numeric aferent fiecarui subiect, astfel încât, la nevoie, sa se poata identifica numele (pentru
corectii, de ex.)
Variabile multiple pentru întrebari cu raspuns multiplu: De obicei, o întrebare prezinta un singur
raspuns, dar pot fi situatii în care o întrebare prezinta raspunsuri multiple care pot fi alese în
acelasi timp. De exemplu: "Ce activitati preferati pentru timpul liber? 1. sport; 2. filme; 3.
petreceri cu prieteni...", etc. Într-un asemenea caz ne putem astepta sa avem mai multe raspunsuri
la aceeasi întrebare. Solutia pentru introducerea datelor este, de aceea, crearea mai multor
variabile, câte una pentru fiecare varianta de raspuns. Astfel, vom avea variabila "SPORT" care
poate primi doua valori, sa zicem "1" daca este aleasa si "0" daca nu este aleasa, si asa mai departe.
În acest mod vom putea analiza frecventa alegerilor pentru fiecare varianta de raspuns în parte.
Evitarea variabilelor redundante: Daca la un test nu sunt posibile, de exemplu, decât raspunsuri
corecte sau gresite, atunci nu este necesar sa declaram o variabila pentru "corecte" si una pentru
"gresite" daca suma lor da totalul raspunsurilor.
O baza de date aflata în lucru nu are un corespondent într-un fisier decât dupa ce se executa o
salvare a acesteia. Acest lucru nu trebuie niciodata uitat. Spre deosebire de WORD de exemplu, SPSS
nu are o functie de salvare automata dupa un interval de timp prestabilit. Cu alte cuvinte, indiferent ce
modificari facem în Data Editor pe ecran, datele respective vor fi salvate numai la comanda explicita a
operatorului.
Pentru o baza de date nou creata, salvarea se face în mod similar cu orice alt program
cunoscut: File-Save as, care deschide urmatoarea caseta de dialog:
Se verifica tipul de fisier (formatul implicit pentru baze de date SPSS are extensia .sav)
Se actioneaza Save
O baza de date creata cu SPSS se deschide cu comanda File-Open, care activeaza urmatoarea
caseta de dialog:
Se actioneaza Open
În cazul
deschiderii
unui fisier
de alt tip
decât
SPSS, se
va alege
tipul
respectiv
din lista
Files of
type. În cazul în care SPSS nu recunoaste tipul de fisier în care se afla datele noastre,
putem încerca transformarea lor prealabila din formatul original într-un format
recunoscut de SPSS. Desi exista riscul pierderii unor aspecte ce tin de formatul de
reprezentare a datelor, operatiunea scuteste totusi un mare volum de munca.
Operatii de transformare a variabilelor
Daca privim variabilele SPSS din punctul de vedere al modului în care au fost create, putem
distinge doua categorii:
b) variabile "primare" care includ valori rezultate direct din cercetare si au fost introduse, de
regula, de la tastatura.
• Avem mai multe variabile "primare" care contin raspunsurile la întrebarile unei
scale de tip Lickert si suntem interesati sa calculam (într-o variabila
"secundara") suma raspunsurilor.
• Avem o variabila care contine data nasterii si dorim sa cream pe baza ei o alta
variabila, care sa contina vârsta.
• Dorim sa transformam variabila care contine vârsta, într-o alta variabila care
contine valori pentru categorii de vârsta.
Pentru toate aceste situatii, care sunt unele dintre cele mai des întâlnite, dar si pentru multe
altele înca, SPSS ofera proceduri de transformare în meniul Transform.
În continuare, vom prezenta câteva dintre cele mai frecvent utilizate functii de transformare a
variabilelor.
Se utilizeaza atunci când dorim sa obtinem o variabila prin adunarea valorilor din doua sau
mai multe variabile.
Imaginea de mai jos prezinta o tabela de date SPSS care cuprinde scorurile la trei examene
partiale (scor_1, scor_2 si scor_3). Dorim sa realizam o variabila care sa cuprinda un scor general, prin
însumarea celor trei variabile. Se poate observa ca unii dintre subiecti nu au valori la toate cele trei
scoruri (valori lipsa de sistem).
Deoarece prin calculare, o noua variabila este plasata dupa toate variabilele existente, am
preferat sa inseram o noua variabila imediat dupa cele trei pe care dorim sa le însumam. În acest fel
avem si posibilitatea sa controlam usor corectitudinea operatiei de însumare
Daca variabilele ce vor fi însumate se afla în baza de date una dupa alta, ca în cazul
exemplului nostru, atunci avem posibilitatea sa scriem o expresie de însumare
simplificata, astfel SUM (prima_variabila TO ultima_variabila). În acest caz, clauza
TO va fi cuprinsa între spatii, pentru a nu fi confundata cu un nume de variabila.
Aceasta optiune ne sugereaza cât de important poate fi sa aranjam corespunzator
variabilele în structura unei tabele SPSS.
3. Se apasa butonul OK
4. Deoarece variabila total exista, SPSS ne întreaba daca dorim sa modificam continutul
acesteia. Daca nu ar exista o variabila cu acest nume, rezultatul operatiei de calcul ar fi depus
într-o variabila creata automat si amplasata dupa ultima variabila din baza de date.
Raspundem OK, deoarece stim ca am creat Rezultatul operatiei se vede în imaginea de mai jos:
aceasta variabila tocmai pentru a depune în ea
suma.
Presupunând ca în loc de suma, ne-ar interesa media valorilor de la mai multe variabile, se
procedeaza în mod similar. Expresia de calcul a mediei este MEAN (expresie_numerica,
expresie_numerica, ...), unde ... arata ca putem pune oricâte variabile (sau valori) numerice, cu virgula
între ele. Ca si în cazul sumei, se poate realiza o expresie cu clauza TO, cu conditia ca variabilele
pentru care se realizeaza media sa se afle una dupa alta în tabela SPSS.
Reamintim ca functia MEAN poate fi scrisa de la tastatura sau poate fi adusa din lista de
functii, prin selectare si actionarea butonului ▲.
Este de la sine înteles ca expresia de calcul poate fi realizata si într-o maniera simpla si
directa, fara utilizarea functiilor (SUM sau MEAN), astfel:
Se va face o distinctie clara între suma sau media astfel obtinute, care se refera la suma sau
media valorilor de la mai multe variabile, pentru acelasi subiect, si suma sau media pe care am
calcula-o pe verticala, la nivelul fiecarei variabile în parte, pe întreaga distributie
Se pot realiza diverse alte functii de transformare, utilizându-se marea varietate de functii care
se gasesc în lista Functions si a caror semnificatie se poate afla din Help-ul casetei Compute.
SPSS ofera functii de transformare cu variabilele de tip cronologic. Dintre acestea, vom
exemplifica cu realizarea unei variabile care sa contina anul nasterii, sa zicem, scos dintr-o variabila
care contine data nasterii. Imaginea de mai jos este extrasa din baza de date Employee data.sav
Observam ca variabila bdate, care contine data nasterii. Pentru a avea vârsta, trebuie sa
calculam diferenta dintre anul curent (sa zicem, 2000) si anul nasterii: Pentru aceasta trebuie sa facem
diferenta dintre anul curent (2000) si anul nasterii, care se afla în câmpul bdate.
Pentru a avea variabila ce urmeaza a fi creata în apropierea variabilei bdate, vom insera o
variabila (denumind-o "virsta", de tip numeric, cu doi întregi). Apoi utilizam procedura Compute din
meniul Transform:
În zona Numeric Expression vom scrie expresia de transformare, care se bazeaza pe functia
XDATE.YEAR().
Aceasta functie are ca rezultat extragerea valorii care reprezinta anul dintr-o variabila de tip
data calendaristica. În cazul nostru, XDATE.YEAR(bdate)=anul nasterii
Posibilitatile de transformare a variabilelor oferite de SPSS permit crearea unor noi variabile
pe baza celor existente, în functie de necesitatile de prelucrare pe care le avem. În toate
cazurile, însa, nu se va alege solutia modificarii valorilor dintr-o variabila "primara" peste
valorile deja existente. Cu alte cuvinte, este recomandabil sa cream prin transformare variabile
noi, si nu sa modificam valorile existente din variabilele "primare" a caror pierdere ar necesita
reintroducerea lor, în caz de necesitate.
Recodificarea variabilelor
• Se face diferenta dintre valoarea cea mai mare si valoarea cea mai mica a unei distributii
• Se împarte valoarea obtinuta la marimea posibila (estimata) a intervalului
• Se selecteaza marimea intervalului care conduce la un numar de clase cuprins între 5 si 15
• Se determina limita inferioara a primului interval (trebuie sa fie un multiplu al marimii
intervalului)
• Se determina limita superioara a primului interval
• Se construiesc intervalele de clasa pentru fiecare interval, fiind atenti sa avem clase
"suprapuse" sau "intervale neacoperite"
În principiu, desi este recomandabila obtinerea unei grupari de frecvente pe 5-15 clase, se
poate opta pentru un numar de clase care serveste cel mai bine interesul de cercetare. De exemplu, în
cazul unei distributii de vârsta exprimata în ani, este preferabil sa se opteze pentru clase "cincinale"
sau "decade", acestea având si o anumita semnificatie "psihologica".
Atentie, se poate alege si optiune Into Same Variables, dar nu este recomandabila deoarece, în
cazul unei erori, nu mai avem la dispozitie variabila initiala pentru o noua recodificare.
• se trece variabila virsta în zona Numeric Variable → Output Variable. Semnul întrebarii
arata ca se asteapta numele variabilei ce urmeaza sa fie creata prin recodificare.
• Acest nume se scrie în zona: Name, dupa care se apasa butonul Change.
Desi relativ complicata, caseta de declarare a noilor valori în functie de cele vechi este usor de înteles.
În zona Old value, se alege una dintre variantele de definire a valorilor de la care se
pleaca. Sa zicem ca am ales solutia sa recodificam anii pe intervale de zece ani, primul
interval fiind 29-39, al doilea 40-49, s.a.m.d.
Pentru aceasta activam optiunea Range si scriem valorile limite al intervalului dorit.
Dupa aceasta, în zona New value oValue, scriem care este valoarea pe care o asignam
acestei clase.
relua.
Transformarea operata pe variabila vîrsta nu este de loc inutila. Daca am fi dorit sa vedem în
ce masura este o relatie între nivelul salariului si vârsta, ar fi fost oarecum impropriu (fara a fi propriu-
zis o greseala ) sa utilizam o statistica parametrica (corelatia). În analizele statistice pe vârste este
recomandabil, totusi, sa operam cu grupe de vârsta.
Asa cum am spus în cuprinsul primei parti a acestui volum, este posibil sa ne
confruntam cu o variabila cantitativa ale carei valori nu respecta conditiile unei statistici parametrice
(vezi figura din stânga, unde valoarea 250 este excesiva). Într-o situatie de acest gen, una din solutiile
posibile este transformarea de rang, cu procedura Transform-Rank cases (caseta din dreapta):
Variabila vizata (scor) este trecuta în lista Variable(s), se seteaza modul de ordonare (am ales
atribuirea rangului 1 valorii celei mai mari) iar apoi am actionat butonul OK. Procedura permite fixarea
unor parametri de transformare cu ajutorul butoanelor Rank si Ties, asupra carora nu insistam aici.
Se poate efectua sortarea simultana dupa mai multe variabile, fiecare în sensul dorit, de
exemplu: grup(Ascending) si scor(Descending).
Împartirea bazei de date în subgrupuri
Baza de date SPSS poate fi împartita în subgrupuri, pentru analiza distincta. Atunci când
datele sunt astfel organizate, orice procedura de analiza se va efectua distinct pentru fiecare subgrup.
Procedura este: Data-Split File iar caseta de dialog este cea de mai jos:
Optiunile sunt:
• Analyze all cases, do not create groups (pentru analiza integrala a datelor)
• Compare groups (rezultatele vor fi afisate astfel încât sa poata fi usor comparate)
• Organize output by groups (rezultatele vor fi afisate în Viewer, separat pe grupuri)
Operatia nu produce nici o modificare vizibila asupra bazei de date. Singurul efect se vede în
zona de afisare a rezultatelor, unde toate procedurile de analiza vor fi afisate pentru fiecare
subgrup în parte.
Selectarea unui set de date permite aplicarea procedurilor de analiza numai pe cazurile
selectate. Daca nu se opteaza pentru stergerea datelor neselectate, ele vor fi pastrate si vor putea fi
reintroduse în analiza. Procedura este Data-Select Cases....
Pentru exemplificare, sa ne propunem selectarea din baza de date din imaginea de mai sus a
cazurilor apartinând grupului 1.
Imaginea prezinta:
All cases este setarea implicita si înseamna ca toate datele intra în analiza
o Random sample of cases, permite selectarea unui set aleator de cayuri din baya de
date
o Based on time por case range, permite selectarea cazurilor în functie de pozitia din
baza de date.
Dupa finalizarea operatiei de selectare de mai sus, baza de date se prezinta în felul urmator:
Se observa:
Selectarea este utilizata în mod obisnuit, pentru alegerea temporara a unui set de date. Adesea
se uita anularea unei selectari existente, atunci când se doreste revenirea al analiza tuturor
cazurilor. Efectul este obtinerea unor rezultate pe date partiale.
Optiunile SPSS pentru organizarea datelor sunt mult mai numeroase decât cele descrise mai
sus. Fara a le trata în amanunt, ne vom multumi sa le prezentam sumar:
• Agregarea cazurilor, atunci când exista înregistrari multiple pentru fiecare subiect si se
doreste pastrarea uneia singure (Data-Agregate)
• Adaugarea unor cazuri din alta baza de date SPSS (Data-Merge Files-Add cases...)
• Adaugarea unor variabile din alta baza de date SPSS (Data-Merge Files-Add variables...)
• Inversarea liniilor cu coloanele (Data-Transpose...)
Calcularea indicatorilor statistici descriptivi
Reamintim faptul ca statistica descriptiva are ca obiectiv analiza caracteristicilor variabilelor.
Principalele elemente de statistica descriptiva sunt:
SPSS ofera posibilitati variate de reprezentare si de calcul a acestor indicatori. În acest sens
exista, pe de o parte, proceduri specializate si, pe de alta parte, optiuni care pot fi accesate din interiorul
altor proceduri. Fie si acest aspect numai, ar trebui sa sugereze ca analiza statistica descriptiva, în ciuda
caracterului ei "elementar", este o componenta indispensabila a analizei statistice.
Aceste proceduri ofera prelucrari distincte dar contin si rezultate comune. Alegerea uneia sau
alteia dintre ele depinde de necesitatile de analiza.
Procedura Frequencies
Se va observa pe caseta de mai sus bifarea optiunii pentru tabela de frecvente, care este
functia specifica a acestei proceduri. În plus, prin actionarea butoanelor din partea de jos a casetei se
pot seta alte analize, astfel:
Rezultatele sunt afisate în SPSS Viewer în forma de mai jos (dar unele sub altele, nu alaturat,
asa cum sunt aranjati aici):
Procedura Explore este cea mai complexa dintre toate procedurile statisticii descriptive si se
poate utiliza atunci când se doreste o analiza exhaustiva a variabilei (sau variabilelor).
Utilizare
Testul z pentru un singur esantion este utilizat pentru se testa diferenta dintre media unui
esantion fata de media cunoscuta a populatiei din care face parte. Atunci când volumul esantionului
este mic (N<30) este utilizata o varianta denumita testul t pentru un singur esantion.
Utilizarea acestui test statistic este conditionata de cunoasterea mediei populatiei. Daca
populatia are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor în care exista studii
speciale, cum sunt cele antropometrice, de exemplu). Dintre variabilele psihologice ale carei medii
pentru populatie este cunoscuta, este inteligenta, exprimata în unitati QI (μ=100). Testul poate fi
utilizat, însa, atunci când populatia are o extindere mai redusa. De exemplu, daca a fost evaluat nivelul
de satisfactie într-o organizatie, se poate testa diferenta dintre nivelul de satisfactie la nivelul unei sectii
fata de media satisfactiei la nivelul întregii organizatii (populatie).
Conditii de aplicare
Aranjarea datelor
Datele supuse testarii trebuie sa fie incluse într-o variabila SPSS de tip numeric.
Caseta principala
Caseta Options permite alegerea
pragului de semnificatie.
Variabila testata este trecuta în lista Test
Variabila testata Variable(s)
Confidence Interval 95% este
echivalent cu p=0.05 si este implicit
În zona Test Value se înscrie media
pentru toate testele statistice
populatiei (100 în cazul nostru)
Rezultate
Primul tabel include statistica descriptiva a variabilei testate (N, media, ab.std, eroarea
standard a mediei)
Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03, diferenta fata de
media populatiei (22.6) si limitele inferioara (12.57) si superioara (32.63) ale intervalului de încredere
pentru media populatiei estimata de esantionul de cercetare.
Utilizare
Conditii
Aranjarea datelor
În primul tabel (Group Statistics) avem statistica descriptiva a celor doua grupuri. Se va
observa ca programul descrie grupurile prin intermediul etichetelor valorilor. Daca acestea nu ar fi fost
definite, în loc de "institutie" si "familie" ar fi aparut 1, respectiv, 2.
Al doilea tabel are doua linii:
Pe prima avem rezultatele testului t pentru cazul asumarii omogenitatii variantei (Levene's
Test for Equality of Variances). În cazul nostru, ele sunt egale (Sig.=0.666, ceea ce se traduce ca o
valoare p=0.666, deci mai mare de 0.05 pentru distributia F a testului Levene, pe care nu o discutam
aici). Ca urmare, vom citi pe aceasta linie rezultatul testului: t=-2.42, df=12, Sig.=0.045.
Pe a doua linie avem rezultatele testului t pentru cazul în care nu s-ar întruni conditia de
omogenitate a variantei pentru cele doua grupuri. Daca semnificatia testului Levene ar fi fost mai mica
sau egala cu 0.05, rezultatului testului t s-ar fi citit pe aceasta linie.
Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetarii, conform
careia copiii crescuti în mediu familial sunt mai sociabili (m=22.00) decât cei crescuti în mediu
institutional (m=17.71).
Testul t pentru esantioane dependente (perechi)
Utilizare
Exemplu: Un grup de subiecti efectueaza operatii aritmetice în conditii de liniste si, ulterior,
în conditii de zgomot puternic. Ipoteza cercetarii este ca zgomotul determina o reducere a capacitatii de
calcul numeric.
Conditii
Aranjarea datelor
Vor fi create doua variabile distincte, ambele cantitative, masurate pe scala de tip I/R, care
primesc câte o valoare pentru fiecare subiect.
Procedura: Statistics-Compare Means-Paired Sample T Test...
Rezultate
În fine, ultimul tabel prezinta rezultatul testului: t=5.076, df=9, p=0.001. Acesta permite
respingerea ipotezei de nul si acceptarea ipotezei cercetarii, zgomotul afecteaza capacitatea de calcul
aritmetic.
Utilizare
Corelatia Pearson (r) masoara gradul de asociere dintre variabile. Aceasta se refera la gradul si
sensul de variatie concomitenta a valorilor unei variabile în raport cu cealalta, dupa un model de tip
liniar.
Domeniul de variatie a coeficientului de corelatie Pearson (r) este între r=-1 (corelatie perfecta
negativa) si r=+1 (corelatie perfecta pozitiva). Absenta oricarei legaturi (corelatii) dintre variabile se
traduce prin r=0.
Exemplu: Testul de corelatie implica doua variabile dar, adesea, într-o cercetare psihologica
numarul variabilelor supuse corelatiei este mai mare de doua. Acest fapt conduce la ceea ce se numeste
o matrice de corelatii care este un tabel ale caror celule cuprind corelatiile dintre perechile de variabile.
Pentru exemplificare, sa luam în considerare situatia în care se urmareste evidentierea legaturii
(asocierii) dintre anxietate si agresivitate, pe de o parte, si preferinta pentru risc pe de alta parte.
Conditii
Testele neparametrice alternative, pentru cazul în care conditiile pentru utilizarea testului
Pearson nu se îndeplinesc, sunt: testul chi-patrat (pentru date nominale) sau coeficientii de corelatie
Spearman sau Kendall (pentru date ordinale).
Aranjarea datelor
Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul
(Kendall sau Spearman), daca datele sunt neparametrice.
Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege unilateral
(daca exista o justificare solida).
Rezultate
Tabelul rezultatelor cuprinde matricea de corelatii a variabilelor analizate. El este redundant,
deoarece prezinta aceleasi corelatii de doua ori, odata deasupra diagonalei, odata sub diagonala.
Corelatiile variabilelor cu ele însele sunt perfect pozitive (r=1) si nu prezinta, desigur, nici un interes.
• valoarea lui r
• nivelul p
Dezavantajul acestui tip de tabel consta în faptul ca avem de fapt o dubla prezentare a
corelatiilor, deasupra diagonalei si sub diagonala. Pentru corelatii implicând multe variabile tabelul se
va cit cu relativa dificultate.
inserati WITH
Mai departe, se selecteaza întreaga procedura (cu ajutorul mouse-ului) si se apasa pe butonul
Run (►) de pe bara de comenzi a ferestrei
Este evident ca aceasta modalitate se poate aplica pentru oricât variabile, daca avem grija sa le
asezam separat în lista si sa includem clauza WITH între cele doua categorii de variabile. Nu pot fi
incluse mai multe clauze WITH în aceeasi procedura.
Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu File-Close), salvând sau nu
procedura astfel modificata.
Aceasta se lanseaza din meniul principal Graphs-Scatter... care deschide urmatoarea caseta de
dialog:
Trecem variabila Agresivitate pe axa Y si variabila Preferinta pentru risc pe axa Z (se poate la
fel de bine si invers). Se apasa OK si se obtine graficul din imaginea urmatoare, care sugereaza foarte
clar existenta unei asocieri de tip liniar între cele doua variabile.
Reprezentarea grafica este sursa de informatii cu privire la natura relatiei dintre variabile,
motiv pentru care este recomandabila utilizarea frecventa a acesteia. Mai mult, ea este necesara în
special atunci când valoarea corelatiei este redusa, sau nesemnificativa, deoarece graficul poate scoate
în evidenta o legatura de alt tip decât liniara.
O corelatie r=0.92, ca cea obtinuta mai sus, între agresivitate si preferinta pentu risc, este
improbabil sa se întâlneasca într-un studiu real. De fapt, daca s-ar întâmpla sa apara, ar
trebui sa concluzionam mai degraba ca cele doua variabile se confunda, decât ca sunt
distincte.
Regresia liniara simpla
Utilizare
Analiza de regresie este o aplicatie a corelatiei, utilizata în scopuri de predictie. Daca evaluam
agresivitatea ca trasatura de personalitate si preferinta pentru risc ca expresie a numarului de incidente
în trafic, la conducatorii auto, se poate estima pe baza agresivitatii riscul de accident înca înainte de
dobândirea carnetului de sofer. Acest tip de regresie, în care exista o singura variabila predictor
(agresivitatea) si o variabila criteriu (tendinta spre risc) se numeste regresie liniara simpla. Mai
frecvent utilizata este regresia multipla, care efectueaza predictii bazate pe mai multe variabile
predictor asupra unei variabile criteriu. Vom prezenta mai jos regresia liniara simpla, ca o forma de
introducere în analiza de regresie, mai usor de înteles.
Conditii
Din punct de vedere statistic, conditiile variabilelor care sunt supuse analizei de regresie sunt
aceleasi ca în cazul corelatiei, deoarece regresia liniara este o aplicatie a acesteia.
Aranjarea datelor
Pe baza acestor concluzii se poate trece la analiza de regresie a carei finalitate este aceea de
obtinere a coeficientilor a (termenul liber, sau originea dreptei de regresie) si b (panta dreptei de
regresie), cu ajutorul carora se poate estima în viitor performanta la statistica pe baza rezultatului la un
test de cunostinte matematice aplicat în prima zi de scoala. Neîndoielnic, o astfel de procedura s-ar
justifica mai ales pentru identificarea studentilor cu potentiale dificultati si care, tocmai fiind avertizati
în legatura cu aceste dificultati vor putea sa acorde statisticii o atentie sporita, în vederea obtinerii unui
rezultat peste nivelul celui prezis.
Valorile reziduale se calculeaza ca diferenta între valorile variabilei criteriu si cele prezise
pe baza modelului de regresie.
Analiza rezultatelor
Tabelul Model Summary ofera valoarea coeficientului de regresie, notat cu R, care este
identic cu coeficientul de corelatie dintre cele doua variabile. Daca modelul de regresie ar fi avut mai
multe variabile predictor, R ar fi fost coeficientul de corelatie multipla dintre predictori si criteriu.
Interpretarea este similara coeficientului de corelatie simpla, la fel ca si pentru R 2, care este
coeficientul de determinare al lui R. Valoarea lui ne spune ca 55% din variatia performantei la
statistica este explicata de variatia variabilei "cunostinte de matematica". "Adjusted R Square" este o
corectie a lui R2 în functie de numarul de predictori si numarul de subiecti.
unde 3.406 este originea iar 0.854 este panta dreptei de regresie.
Sau, daca predictia se face pe baza unui scor standardizat z al variabilei mat_in (sa
zicem, 0.93), atunci:
În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri
standardizate se afla în 0.
Desigur, scorurile astfel prezise sunt estimari, atâta timp cât corelatia dintre variabile
nu este perfecta. Iar estimarile contin cu atât mai multa eroare cu cât corelatia dintre variabile
este mai mica (punctele graficului de corelatie fiind mai îndepartate de dreapta de regresie).
La finalul procedurii analizei de regresie, cu setarile de mai sus, în baza de date apar
câteva variabile noi, asa cum se vede în imaginea de mai jos.
Variabilele lici_1 si lici_2, contin limitele inferioara si superioara ale intervalului de încredere
pentru fiecare valoare în parte. Pentru a întelege mai bine problema limitelor, sa privim prima valoare
prezisa de pe coloana pre_1 (25.598). Cu un nivel de încredere de 95% (echivalent cu o probabilitate
de eroare de 0.05), putem spune ca valoarea adevarata pentru stat_fin prezisa pe baza valorii
mat_in=26, s-ar afla în intervalul 21.77 si 29.41.
În fine, rezultatele contin si imaginea scatterplot a relatiei dintre valorile mat_in si scorurile z
ale variabilei pre_1.
Imaginea este identica cu ceea ce am prezentat în cazul corelatiei. Singura deosebire este data
de trasarea dreptei. Aceasta se face de catre operator, în felul urmator:
- se actioneaza dublu clic de mouse pe imaginea graficului din Viewer. prin care...
- se executa procedura Chart-Options-Fit Line- Fit Options. La capatul acestei serii de actiuni
apare caseta de mai jos unde se marcheaza Linear regression.
Corelatia si regresia liniara sunt similare si, de aceea, usor de confundat. În unele situatii pot fi
utilizate ambele proceduri.
• atunci când exista doua variabile masurate pe aceiasi subiecti si se doreste evaluarea gradului
de asociere între variabile
• atunci când distributiile de esantionare ale celor doua variabile sunt normale (atunci când cel
putin una dintre variabile este manipulata, nu se calculeaza corelatia Pearson)
• atunci când una dintre variabile precede si poate fi cauza celeilalte variabile
• atunci când una dintre variabile este manipulata, se calculeaza regresia
• atentie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în ecuatia de
regresie se va obtine o linie de regresie diferita, în timp ce daca se inverseaza ordinea
variabilelor în calcularea corelatiei, se obtine acelasi coeficient r.
Teste neparametrice nominale
Testul z al proportiei pentru un singur esantion
Utilizare
Testul z pentru proportii pentru un esantion, este utilizat în cazul variabilelor dihotomice
pentru a testa diferenta dintre proportiile valorilor în esantion prin comparatie cu proportia la nivelul
populatiei.
Conditii
Cunoasterea proportiei la nivelul populatiei pentru valorile variabilei testate. În cazul nostru,
raportul femei/barbati este cunoscut din studiile demografice (51%/49%)
Aranjarea datelor
• În zona Define Dichotomy se alege Get from data, daca variabila este dihotomica, sau
Cut point, daca variabila este continua, prin fixarea unei valori care împarte
distributia în doua categorii.
Rezultate
Utilizare
Testul semnelor este utilizat pentru a testa diferenta dintre valori, utilizându-se semnul
diferentei si nu valoarea acesteia, atunci când ambele valori sunt masurate pentru aceiasi subiecti .
Daca nu ar exista nici o diferenta între valorile perechi, atunci numarul diferentelor pozitive ar trebui sa
fie egal cu cel al diferentelor negative. Cu cât numarul diferentelor de un anumit semn este mai mare
comparativ cu cel al diferentelor de semn opus, cu atât creste posibilitatea ca diferenta dintre variabile
sa fie statistic semnificativa.
Conditii
Variabilele vor fi de tip numeric, iar valorile exprimate în aceeasi unitate de masura, pentru a
se putea face diferenta lor.
Aranjarea datelor
Imaginea de mai jos contine variabilele "inainte" si "dupa", care vor fi analizate.
Variabila "semn", contine semnul diferentei. Ambele sunt prezentate numai pentru a face mai
evident baza de calcul a testului deoarece, în fapt, nu sunt relevante sub aspectul procedurii SPSS.
În prima faza, cele doua variabile sunt selectate, Apoi, perechea de variabile este trecuta în lista
pe rând, prin clic de mouse pe fiecare,
constituindu-se în pereche. Acest fapt se observa Test Pair(s) List: prin actionarea butonului ►.
în partea de jos a casetei, în zona Current
Selections. Daca este necesar, se pot testa simultan mai
multe perechi de variabile.
Se bifeaza Sign în zona Test Type.
Rezultate
Tabelul Sign Test cuprinde numarul diferentelor pozitive, respectiv negative, pentru cazurile
din baza de date. În cazul nostru, exista 7 diferente pozitive si nici o diferenta negativa.
Tabelul Test Statistics, prezinta semnificatia testului (p=0.016). Ipoteza de nul se respinge
daca valoarea lui p este mai mica decât pragul fixat si care, implicit, este 0.05. În exemplul dat, ipoteza
de nul se respinge, acceptându-se ipoteza cercetarii (motivarea stimuleaza memorarea).
Testul Chi-patrat al asocierii (independetei)
Utilizare
Testul chi-patrat este utilizat pentru evidentierea gradului de asociere între doua variabile
categoriale.
Femei Barbati
PTSD 20 10
Non-PTSD 30 40
Conditii
Aranjarea datelor
În aceasta situatie, se introduc frecventele PTSD pentru toate combinatiile valorilor celor doua
variabile analizate si frecventele asociate fiecareia. Pentru a se realiza corespondenta dintre variabilele
sex si PTSD cu variabila frecv, se apeleaza la procedura Data-Wheight Cases...:
Facem precizarea ca în tabelele de date din imaginile de mai sus variabilele au fost codificate
numeric cu 1 respectiv 2, atât pentru sex cât si pentru PTSD, valorile fiind etichetate. Faptul ca în
celule apar etichetele si nu valorile, se obtine prin setarea Data-Value Labels.
Procedura Chi-patrat accepta si variabile de tip caracter (string) dar reamintim recomandarea
de principiu ca toate variabilele sa fie declarate de tip numeric.
Procedura: Statistics-Summarize-Crosstabs...
Rezultate
Imaginea prezinta tabelul de corespondenta, având pe linii valorile caracteristicii de sex iar pe
coloane valorile aferente variabilei PTSD. În celulele tabelului se afla valorile solicitate prin
configurarea casetelor. Vom exemplifica pentru celula "feminin/da":
Valoarea testului chi-patrat fiind mai mica decât nivelul alfa 0.05, se respinge ipoteza de nul si
se confirma ipoteza cercetarii: exista o incidenta mai mare a reactiei de stres postraumatic la femei
decât la barbati.
Utilizare
Testul chi-patrat pentru gradul de corespondenta se utilizeaza atunci când dorim sa comparam
frecventele observate unei singure variabile categoriale cu frecventele asteptate, dinainte cunoscute.
Exemplul 2: Am solicitat unui grup de tineri sa îsi exprime genul muzical preferat si am
obtinut frecvente diferite pentru mai multe genuri de muzica. Problema este daca diferentele dintre
aceste frecvente sunt semnificative, presupunând ca, daca nu ar fi semnificative proportiile
preferintelor pentru genurilor muzicale, ar trebui sa fie identice (adica, daca ar fi trei genuri, fiecare ar
trebui sa întruneasca un procent de 33.33%).
Aranjarea datelor
Vom exemplifica pe o situatie corespunzatoare celui de-al doilea exemplu. Baza de date se
poate constitui fie prin înregistrarea fiecarui caz în parte (având o variabila pentru genul muzical si o
alta pentru exprimarea preferintei fata de acesta), fie, ca în exemplul anterior, prin înregistrarea
rezultatelor sintetice si ponderarea variabilei gen_muz cu variabila frecv prin operatia Data-Weight
cases...:
Procedura: Statstics-NonParametric-Tests-Chi-Square...
• În caseta Chi-Square Test se trece variabila analizata în zona Test Variable List.
• Se bifeaza All categories equal, acesta fiind modelul în raport cu care dorim sa
testam frecventele variabilei analizate