Sunteți pe pagina 1din 67

"SPSS for Windows" este un pachet de programe destinat

analizei statistice a datelor. Desi exista o varietate de programe de


acest gen (SAS, Statistica for Windows, GraphPad, MS Excel, care are
si el functii statistice), SPSS se distinge prin structurarea riguroasa si
usurinta utilizarii, chiar si pentru începatori.

Cea mai recenta versiune disponibila la aceasta data este SPSS


12.0. Acest manual nu acopera în mod special o anumita versiune, ci
face referire în general la versiunile sub Windows. În esenta, toate
versiunile sub Windows ofera acelasi pachet de functii statistice iar
diferentele, chiar daca sunt, nu sunt relevante la nivelul unui curs
introductiv de statistica.

    Simbolul care precede aceasta propozitie indica introducerea


unei informatii importante, care se impune a fi retinuta.

    Ne vom axa pe o prezentare sintetica, axata pe esential,


considerând cunoscute elementele de baza de operare în
mediul Windows.

Functii de baza ale SPSS

editarea datelor (construirea bazelor de date, transformari ale


variabilelor)

prelucrarea statistica a datelor (statistici descriptive, teste de


semnificatie)

prezentarea rezultatelor, sub forma numerica sau grafica

realizarea unor proceduri proprii de prelucrare sau de a modifica


procedurile standard SPSS. Aceasta optiune este rezervata
utilizatorilor avansati si nu va face obiectul prezentarii în
acest manual. 

Domeniile de lucru în SPSS

Particularitatea principala a interfetei de lucru cu SPSS este


aceea ca rezerva fiecareia dintre functiile de mai sus un domeniu
special ("ecran", sau "fereastra"). Astfel, la lansarea programului,
acesta deschide automat o fereastra rezervata editarii datelor (Data
Editor) si una afisarii rezultatelor (Viewer). Putem numi aceste ferestre
si domenii de lucru, deoarece la nivelul fiecaruia avem la dispozitie o
varietate de functii si optiuni specifice. Ca sa întelegem mai bine,
trebuie sa ne imaginam "domeniile de lucru" ca fiind "ferestre"
distincte, similare celor ale documentelor Word, cu deosebirea ca, în
acest caz, fiecare fereastra acopera functii specifice.

Trecerea de la o fereastra la alta se face într-unul din


urmatoarele moduri:

Din meniul SPSS/Windows, prin alegerea ferestrei dorite;

Utilizând butoanele din bara de comenzi directe a ferestrei


SPSS;

Utilizând butoanele de pe bara de sarcini a sistemului de


operare (din partea de jos a ecranului).

Domeniul bazei de date (Data Editor)

La lansarea programului SPSS se deschide fereastra domeniului de


editare a datelor (SPSS Data Editor). Ea se prezinta ca în imaginea de
mai jos, având caracteristicile obisnuite ale unei ferestre Windows, cu
o structura de linii si coloane:

pe coloane sunt variabilele (de ex., cod_sub, rezultat)

pe linii sunt cazurile (în acest caz, cinci subiecti

    O sesiune de lucru cu SPSS presupune, în mod necesar,


existenta unei baze de date.

    SPSS opereaza cu o singura baza de date la un moment dat.


    Pentru a deschide o alta baza de date, sau a crea una noua, cea
aflata în lucru va fi închisa. Programul solicita salvarea ei
prealabila, daca acest lucru nu a fost deja efectuat.

    Daca vrem sa prelucram date aflate în baze de date (fisiere)


diferite, este necesara aducerea lor în aceeasi baza de date
(procedura DATA-Merge files, care va fi descrisa mai târziu).

    Meniurile ferestrei Data Editor nu se vor activa integral decât


atunci când va exista cel putin o variabila definita si valori pentru
cel putin un caz.

      Baza de date SPSS poate fi creata direct, cu ajutorul structurii


(ferestrei) Data Editor, sau poate fi deschisa cu ajutorul
comenzii File-Open, asa cum vom exemplifica mai târziu

Domeniul afisarii rezultatelor (Viwer)

SPSS depune rezultatele prelucrarilor într-o sectiune aparte a


domeniului de lucru. Aceasta cuprinde toate tipurile de rezultate, atât
de tip numeric cât si de tip grafic. Fereastra respectiva (Viewer) este
organizata în doua zone distincte: una pentru navigare (în partea
stânga) si alta pentru afisarea rezultatelor (în partea dreapta).

    Fisierul rezultat prin salvarea acestei ferestre are extensia .SPO

    Un fisier cu rezultate SPSS nu poate fi deschis decât din SPSS

    Daca se doreste transmiterea rezultatelor în afara SPSS se va


proceda fie la "exportul" rezultatelor cu procedura
corespunzatoare din meniul File/Export, fie la transferarea
prin Select/Copy/Paste într-un editor grafic de tipul MS Word.

Domeniul de editare a procedurilor directe (Syntax)

SPSS permite, în afara operarii prin intermediul mediurilor, si lucrul


direct cu proceduri definite de utilizator. Aceasta se face în interiorul
unei ferestre speciale, care permite, pe de o parte, editarea
procedurilor, iar pe de alta parte, lansare lor în executie.

Imaginea de mai jos reda comenzile SPSS pentru calcularea


procedurii de calcul indicatorilor statistici descriptivi, redati mai sus, în
fereastra SPSS Viewer.

    Utilizarea directa a procedurilor impune aprofundarea SPSS

    Se poate seta afisarea procedurilor curente în SPSS Viewer,


concomitent cu rezultatele. (Edit/Options/Viewe/Display
commands in the log)

Meniurile SPSS

Meniurile de tip lista se aseamana cu meniurile altor programe sub


Windows. Fara a intra în amanunte, iata o prezentare succinta a
meniurilor pentru fereastra DATA EDITOR:

Meniul Functii principale Observatii


File Operatii de deschidere si salvare de fisiere
Operatii de Select/Copy/Cut/Paste, Find si, cel
Edit mai important, setarea caracteristicilor de lucru
ale SPSS (Options-în versiunile pt. Win 9X)
În cazul ferestrei Data Editor, seteaza modul
View de afisare: cu sau fara bara de butoane, cu sau
fara liniile despartitoare ale celulelor.
Data Functii de operare cu variabilele; definire, Importante pentru pregatirea
Meniul Functii principale Observatii
inserare, stergere, selectare, sortare, aditionare datelor în vederea
de fisiere, etc. prelucrarii
Importante pentru pregatirea
Functii de modificare a datelor prin calculare,
Transform datelor în vederea
recodificare.
prelucrarii
Prin optiunile fiecarei
Statistics proceduri se pot obtine si
Grupeaza procedurile de calcul statistic
(Analyze) reprezentari grafice
specifice
Graph Grupeaza procedurile de reprezentare grafica
Informatii despre variabile, structurare pe
Utilities
seturi de variabile
Lista ferestrelor deschise cu posibilitatea de
Window
selectie
Aici se afla un tutorial
extrem de sugestiv de
operare cu SPSS, iar de la
versiunea 7.5 în sus, o
Help Informatii de ajutor
procedura de sprijin în
alegerea tipului de
prelucrare statistica
(Statistic Coach) 
Pasii analizei statistice cu SPSS

În principiu, prelucrarea datelor cu SPSS presupune urmatoarele


etape:

Optiuni:

(a) Introducerea directa a datelor în DATA EDITOR


Introducerea datelor
(b) Deschiderea unui fisier de date SPSS (extensia .SAV)

(c) Importarea unui fisier de format diferit (se alege din


caseta File open/File of type)
Corectia erorilor, selectii, recodificari, transformarea
variabilelor prin calcule, declararea valorilor lipsa,
Pregatirea datelor
combinarea datelor din doua fisiere diferite
(meniurile Data, Transform)
Selectarea procedurii
Meniurile Statistics (sau Analyze) si Graphs
satistice
Selectarea variabilelor
În conformitate cu configuratia casetei de dialog care este
ce urmeaza a fi supuse
afisata la fiecare procedura
prelucrarii
Rularea procedurii Se actioneaza butonul OK din caseta de dialog a procedurii
    Butonul devine activ numai atunci când sunt întrunite
conditiile presupuse de procedura respectiva
Rezultatele prelucrarilor sunt afisate într-o fereastra
Analiza rezultatelor specifica (SPSS Viewer), cu functiuni de editare grafica sau
de tip text, în functie de versiune.  
Se editeaza rezultatele afisate în Viewer, aducându-le la
forma dorita sub aspect grafic
Editarea rezultatelor
    Dublu clic pe un element din Viewer conduce la intrarea
elementului respectiv în regim de editare)
Inserarea datelor într-un Rezultatele din SPSS Viewer se preiau cu Select/Copy si se
document depun cu Paste în orice tip de editor de documente.

    SPSS este un program puternic de analiza statistica a datelor.


Utilizarea lui optima presupune, în mod necesar, stapânirea de
catre operator a cunostintelor teoretice de statistica.

    Asa cum un program de editare grafica nu compenseaza lipsa de


talent la desen, nici SPSS nu poate fi cu adevarat exploatat de catre
cei care nu au cunostinte de statistica. În lipsa acestora, nici
alegerea procedurilor si nici interpretarea rezultatelor nu va fi cu
adevarat posibila.

Editarea datelor

O baza de date în SPSS este o structura formata din linii si coloane, la


intersectia carora se formeaza celulele care contin, fiecare, o anumita
unitate de informatie.

    Existenta unei baze de date deschisa în fereastra Data


Editor este o conditie obligatorie pentru operarea cu SPSS

    SPSS opereaza numai cu o singura baza de date deschisa la un


moment dat

În principiu, o baza de date SPSS se obtine pe una din urmatoarele


cai:

a)      Crearea ei prin operatiunea de definire a variabilelor si


introducerea datelor de la tastatura;

b)      Deschiderea unei baze de date SPSS, existente pe un suport de


memorie;

c)      Importarea unei baze de date din alt format decât SPSS


În continuare, vom trata
pe rând, fiecare din cele
trei situatii:

a)      Crearea unei
baze de date
SPSS

În linii generale,
pentru crearea unei baze de date proprii în SPSS, se procedeaza
astfel:

Se lanseaza SPSS

Se definesc variabilele bazei de date în domeniul Data Editor

Se introduc datele pentru fiecare caz (subiect) în parte

Se salveaza baza de date (extensia specifica este *.sav)

Definirea variabilelor

se actioneaza Define variable din meniul Data

solutie mai directa este dublu clic pe capul de coloana

    În versiunile de SPSS mai recente, editarea variabilelor se


face într-o fereastra speciala. Cu toate acestea, elementele de
baza ramân aceleasi ca al versiunile anterioare.

Ca urmare a operatiei de mai sus, apare o caseta de dialog ca în


imaginea de mai jos (forma ei nu difera substantial de la o versiune de
SPSS la alta). Daca privim caseta, vom observa urmatoarele
elemente:
Variable Name: zona de declarare a numelui de variabila.
VAR00001 este numele implicit al primei variabile. Acesta se
sterge, pentru a fi înlocuit cu numele pe care dorim sa îl dam
variabilei.

Variable Description, este o zona informativa în care sunt afisate


caracteristicile predefinite ale noii variabile. Aceste
caracteristici se pot seta în Edit-Options (sau Preferences, la
unele versiuni).

Change Settings, este o zona care cuprinde butoane de comenzi


pentru modificarea setarilor implicite:

În zona Measurement, se permite declararea tipului de masurare


specific variabilei: Scale (Interval/Raport); Ordinal; Nominal

Butoanele OK (pentru finalizarea definirii


variabilei, Cancel (pentru renuntarea la definirea variabilei,
Help (informatii legate de definirea variabilelor)

    În versiunile mai recente de SPSS editarea variabilei nu


presupune acest tip de caseta, dar toatele elementele ei
constitutive se regasesc.

Numele variabilei:

Orice variabila SPSS trebuie sa aiba un nume. Cele mai importante


aspecte legate de denumirea variabilelor sunt urmatoarele:
    Trebuie sa fie format din minim 1, maxim 8 caractere,

    Nu sunt suportate caractere "speciale" cum ar fi spatiu sau


semne de punctuatie

    În cazul utilizarii unor caractere improprii, apare un mesaj de


eroare si se permite corectarea numelui.

    Alegerea numelui este la latitudinea operatorului. Respectarea


anumitor conventii poate fi, însa, extrem de utila, mai ales daca
avem de a face cu o baza de date cu multe variabile. Iata câteva
recomandari utile în acest sens (ele nu sunt obligatorii):

Numele sa exprime, pe cât posibil, continutul variabilei

Pentru variabile "înrudite", se va utiliza o schema de


denumire care sa exprime acest lucru. De exemplu,
daca avem variabile care cuprind valori ale timpului
de reactie masurat în mai multe conditii, putem
declara variabilele TR_1, TR_2, TR_3 s.a.m.d.,

caracterul underscore este recomandabil ca separator în


cadrul numelui de variabila). Daca într-o situatie de
acest gen am avea 10 sau mai multe "momente",
este de preferat sa se declare nume de genul TR_01,
TR_02,...TR_10, etc., deoarece ulterior SPSS
aranjeaza alfabetic variabilele în listele de selectie si,
astfel, se pastreaza ordinea dorita.

    Într-o baza de date nu pot exista doua variabile cu acelasi


nume!

    Exista o serie de cuvinte "rezervate", a caror utilizare ca nume


de variabile nu este acceptata de program. Acestea sunt: ALL,
AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, THRU, TO, WITH.

Definirea "tipului" de variabila

Tipul de variabila se refera la

Se actioneaza butonul Type de pe caseta Define Variable

Apare caseta Define Variable Type


, unde se marcheaza tipul variabilei si se declara caracteristicile
acesteia (Width, Decimal Places, în cazul variabilelor
numerice)

Se actioneaza butonul Continue, pentru a se reveni la


caseta Define Variable.

Asa cum se observa în caseta Define Variable Type din imaginea de


mai sus, SPSS poate opera cu o varietate de tipuri de variabile.
Fiecarui tip îi corespund anumite proprietati (caracteristici) care
trebuie definite de operator. Cele mai uzuale sunt tipurile:

Numeric], care cuprind valori de tip numeric cu sau fara zecimale.

Proprietati:

numarul de cifre necesare pentru exprimarea "întregilor"

numarul de "zecimale"

EXEMPLE:

Pentru o variabila în care vom introduce vârsta în ani împliniti,


vom defini Type Numeric cu Width 2 (presupunând ca nu avem
subiecti cu vârsta peste 100 de ani) si Decimal Places 0.

Pentru o variabila în care vom introduce rezultatul la un test


exprimat în scoruri T cu o zecimala, definim Type
Numeric cu Width 2 si Decimal Places 1.

Caracter] (String), care cuprind valori exprimate sub forma de


caractere alfanumerice (litere sau chiar cifre).

Proprietati
numarul de
caractere
rezervat,
care este
fixat implicit
la 8, dar poate fi modificat dupa dorinta.

    SPSS face distinctie între variabile de tip caracter "scurte" (Short


string) si "lungi" (Long string). Primele au maxim 8 caractere si pot
fi incluse în unele proceduri statistice (semnificatia diferentei între
medii, de exemplu), pe când celelalte nu pot fi utilizate decât în
operatii de listare (cazul variabilei de genul "nume", de ex.).

    Desi permisa, utilizarea variabilelor "string" nu este de preferat.


Toate variabilele care suporta codificari vor fi, de preferinta,
introduse cu valori numerice. Utilizarea acestora în proceduri
statistice nu este limitata de nici o restrictie.

Unitati de timp calendaristic sau orar [Date], care pot include


valori de timp într-un format specificat, asa cum se vede în imagine.

Proprietati

formatul de întroducere, care poate fi unul din cele


evidentiate în caseta Define Variable Type/Date

Exemplu: dd-mmm-yyyy presupune introducerea unor valori de


genul "21-FEB-2001" (luna fiind scrisa obligatoriu dupa prescurtarea ei
în engleza).

Exista o mare varietate de formate pentru acest tip de variabila,


acoperind, practic, orice cerinta posibila din partea utilizatorului.

    Variabilele de tip Date beneficiaza de functii speciale de


tratare si analiza în SPSS.

Nu vom prezenta si celelalte tipuri de variabile, ele fiind mai


putin folosite, dar facem precizarea ca semnificatia lor poate fi gasita
în Help-ul casetei Define Variable Type.

    Tipul unei variabile poate fi schimbat ulterior prin simpla


redefinire a acesteia. Se va acorda atentie mesajelor care pot
sa apara si care avertizeaza asupra eventualelor pierderi de
informatie prin schimbarea tipului.
    Optiunile din zona Measurement (Scale, Ordinal,
Nominal), care se regasesc doar la versiuni SPSS de la 7.0 în
sus, nu au întotdeauna o utilitate practica dar marcarea lor
corecta este necesara pentru anumite proceduri statistice sau
grafice. 

Etichetarea variabilelor si a valorilor

Etichetarea este o forma de descriere explicita a continutului


variabilei (având în vederea ca numele variabilei nu poate fi mai mare
de 8 caractere). Etichetarea se poate practica atât la nivelul variabilei
dar si la valorile pe care le contine, în cazul variabilelor de tip nominal
sau ordinal.

Pentru etichetare se apasa butonul Labels de pe caseta Define


Variable. Se deschide o noua caseta (Define Labels), care contine
spatii pentru eticheta variabilei (Variable Label) si pentru etichetele
valorilor (Value labels).

    Eticheta variabilei nu se supune restrictiilor pentru nume, putând


contine oricâte caractere (max. 255), dar si spatii sau alte
semne grafice tiparibile.

    Etichetele pentru valori vor fi introduse una câte una, astfel:

se plaseaza valorea etichetataîn zona Value

se introduce eticheta corespunzatoare în zona Value label

se actioneaza butonul Add

Operatiunea se reia pentru toate valorile pe care dorim sa le


etichetam.

Imaginea prezinta etichetarea valorilor unei variabile care se


refera la calificativul la un examen. Se observa ca valoarea 1 are
eticheta SLAB, valoarea 2, eticheta MEDIU iar valoarea 3, eticheta BUN
(înca nu a fost actionat butonul Add pentru a fi finalizata declaratia
etichetei acestei valori).
 

    Desi nimic nu ne obliga sa aplicam etichete variabilelor si valorilor,


este foarte recomandabil ca ele sa fie atribuite.

    Etichetele ajuta la citirea mai usoara a rezultatelor (deoarece apar


alaturi de acestea). În plus, etichetele sunt asociate prelucrarilor
grafice (histograme, bare, etc.) fapt care reduce necesitatea de a le
introduce ulterior prin editarea respectivelor grafice.

    Pentru a sti cum sa declaram etichetele, este bine sa ni le


imaginam ca fiind înscrise pe axele de referinta ale unui grafic.
Daca "se potrivesc", atunci au fost bine definite.

    Oricum, ele vor putea fi modificate ulterior sau editate direct în


SPSS Viewer.

Declararea valorilor lipsa (missing values)

Valorile lipsa sunt de doua tipuri:

valori lipsa de sistem (system missing values) adica valori care


lipsesc din baza de date (nu au fost introduse). Forma lor de
evidentiere pe ecran este un punct plasat în celula respectiva.

valori lipsa declarate de utilizator (user missing values) adica valori


pe care utilizatorul le declara ca atare. Acestea pot exista în baza
de date dar utilizatorul, din diverse motive, nu doreste sa fie
luate în calcul. Atentie, odata declarate, aceste valori nu sunt
sterse si nici nu sunt marcate în mod evident pe ecran.
Pentru declararea valorilor lipsa se actioneaza butonul Missing
Values din caseta Define Variables, care genereaza aparitia casetei de
dialog alaturate.

Se observa ca exista mai multe optiuni:

declararea a trei valori distincte ca fiind lipsa (Discrete missing


values)

declarea unui domeniu de valori lipsa (Range of missing values)

declararea unui domeniu la care se poate adauga si o valoare


distincta (Range plus one discrete missing value)

    Desi nu pare foarte evidenta acum, utilitatea functiei de


declarare a valorilor lipsa nu trebuie subestimata. Foarte adesea
suntem nevoiti sa scoatem din prelucrari anumite valori (care nu
pot fi totusi, pur si simplu, sterse). Sa ne gândim numai la
valorile extreme ale unei distributii, a caror mentinere în anumite
prelucrari poate determina modifcari semnificative a rezultatelor.

În concluzie, declararea variabilelor se compune din urmatoarele


operatiuni:

Atribuirea numelui (maxim 8 caractere)

Definirea tipului (numeric, caracter, data)

Atribuirea etichetei variabilei

Atribuirea etichetei valorilor, în cazul variabilelor masurate pe


scale nominale sau ordinale
Declararea valorilor lipsa (care nu au fost recoltate în procesul
de masurare, din diferite motive

stergerea si inserarea variabilelor

stergerea unei variabile se face prin selectarea acesteia (clic pe


capul de variabila) si actionarea tastei Delete (sau se comanda
din meniul Edit-Cut).

Inserarea unei variabile se face prin plasarea cursorului-celula pe


coloana variabilei în stânga careia dorim sa inseram noua
variabila (sau prin selectarea variabilei respective), dupa care se
comanda, din meniul Data-Insert variable. Dupa aceasta, se
defineste variabila inserata (nume, tip, etichete).

stergerea si inserarea cazurilor

stergerea cazurilor se face în mod similar variabilelor, prin


selectarea acestora (clic pe capul de linie) si
tasta Delete (sau Edit-Cut). Se pot selecta mai multe cazuri
simultan (drag cu mouse-ul pe capul liniilor) dupa care se sterg
ca mai sus.

Inserarea cazurilor se face dupa plasarea cursorului pe linia


deasupra careia dorim sa inseram un nou caz, dupa care se
actioneaza în meniul Data-Insert case.

    Pentru versiunile de SPSS de la 7 în sus, clic dreapta pe capul de


coloana sau de linie, produce un meniu contextual care permite
un acces mai rapid la functiile de inserare/stergere.

    SPSS nu permite Undo (în meniul Edit) decât limitat la ultima


actiune. Din acest motiv, stergerea variabilelor sau a cazurilor
trebuie sa se faca cu atentie, pentru ca datele pot fi definitiv
pierdute. Se va retine, totusi, ca baza de date se actualizeaza pe
hard disk numai dupa salvarea comandata de utilizator. Ca
urmare...

    Orice modificare efectuata nu produce efecte decât asupra


datelor din memoria de lucru, fisierul ramânând nemodificat.

    În cazul unei actiuni care produce efecte nedorite asupra bazei
de date, exista solutia închiderii bazei de date, fara a se accepta
salvarea ceruta de program, dupa care se deschide fisierul
respectiv din nou.

Erori frecvente

Aparitia unor cazuri inutile, (umplute cu system missing values)


la sfârsitul unei baze de date.

Explicatie: Introducerea inutila a unei valori într-o variabila,


valoare care apoi este stearsa. Cu toate acestea, SPSS a creat deja un
caz nou, pe care l-a umplut cu system missing values.

Solutie: Selectarea cazului prin apasarea pe capul de linie si


actionarea tastei Delete (sau Edit-Cut).

Aparitia unor variabile inutile (nedorite)

Explicatie: La introducerea din greseala a unei valori într-o


variabila nedefinita în prealabil, SPSS creeaza automat o variabila
implicita, pe care o denumeste VAR00001.

Solutie: Se selecteaza variabila resectiva (clic de mouse pe capul


de coloana) si se actioneaza tasta Delete (sau Edit-Cut).

Exemplu practic de realizare a unei baze de date

Sa ne imaginam ca am aplicat testul Eysenck Personality Inventory,


care vizeaza urmatoarele caracteristici de personalitate:
extraversiunea, nevrozismul si atitudinea defensiva (scala Lie). Pentru
analiza datelor suntem interesati sa raprtam rezultatele la o serie de
caracteristic demografice ale subiectilor, sa zicem: sexul si vârsta. În
plus, pentru a avea controlul datelor dorim sa inregistram si
identitatea subiectilor.

Pentru fiecare dintre informatiile pe care dorim sa le introducem în baza de date vom crea
câte o variabila.

Variabila Numele Tipul variabilei Eticheta Etichetele


variabilei variabilei valorilor
Identitatea COD (optam numeric, Width 2, Identitate Nu se aplica
subiectielor (esentialapentru un cod Decimal Places 0 etichete decât
pentru a asigura numeric daca (presupunem ca nu la valorile
identitatea fiecarei nu avem nevoie avem mai mult de 99 variabilelor
inregistrari inparte si de numele subiecti) de tip
pentru realizarea subiectilor) categorial
corespondentelor cu (nominale
alte baze de date in sau ordinale)
care avem informatii
cu privire la aceiasi
subiecti)
Sexul SEX Numeric, Width 1, Sex 1=feminin
Decimal Places 0 2=masculin
Vârsta (în ani VIRSTA Numeric, Width 2, Vârsta
împliniti; sau în luni Decimal Places 0
daca dorim mai multa (presupunem ca nu
precizie) avem subeicti cu
vârsta peste 99 de
ani)
Extraversiune EXTRAV Numeric, Width 2, Extraversiune
Decimal Places 0
(nu se poate obtine o
valoare mai mare de
100 si nu exista
zecimale)
Nevrozism NEVRO Numeric, Width 2, Nevrozism
Decimal Places 0
(nu se poate obtine o
valoare mai mare de
100 si nu exista
zecimale)
Lie LIE Numeric, Width 1, "Minciuna"
Decimal Places 0
(nu se poate obtine o
valoare mai mare de
9 si nu exista
zecimale)

Se observa faptul ca pentru variabile ale caror nume exprima


exact continutul (SEX, VÂRSTA) se poate utiliza fara nici un
inconvenient numele si ca eticheta. Pentru a fi mai expliciti, sa spunem
ca numele variablei este util în primul rând SPSS-ului pentru a
manipula variabilele, în timp ce etichetele sunt necesare mai ales
utilizatorului pentru a întelege cu usurinta la ce se refera o variabila al
carui nume prea scurt

Avem alaturat, imaginea DATA EDITOR pentru primii trei subiecti


introdusi cu variabilele de mai sus:
    Insistam pe
declararea,
cu
precadere, a
variabilelor
de tip
numeric: SPSS este un program de prelucrare statistica, fapt care
implica date numerice. Desi el poate opera si cu date de tip
caracter, acestea nu sunt acceptate pentru toate tipurile de
proceduri statistice. Pentru a nu avea surprize, este recomandabil
sa fie utilizate variabile de tip numeric în toate cazurile. De
exemplu, variabila sex, poate fi declarata de tip caracter (cu valorile
M si F) dar, la fel de bine, de tip numeric (cu valorile conventionale
1 si, respectiv, 2). În acest din urma caz, pentru explicitarea
valorilor se vor folosi etichetele de valoare (value label).

    Introducerea unei variabile care sa contina numele subiectilor poate


fi necesara doar daca ne propunem realizarea unor liste ale
subiectilor din baza de date. Altfel, identificarea numerica a fiecarei
înregistrari este suficienta (si absolut necesara), scutind un mare
volum de munca pe care l-ar implica introducerea numelor. Vom
avea grija însa, ca pe documentul original sa scriem codul numeric
aferent fiecarui subiect, astfel încât, la nevoie, sa se poata identifica
numele (pentru corectii, de ex.)

    Variabile multiple pentru întrebari cu raspuns multiplu: De obicei, o


întrebare prezinta un singur raspuns, dar pot fi situatii în care o
întrebare prezinta raspunsuri multiple care pot fi alese în acelasi
timp. De exemplu: "Ce activitati preferati pentru timpul liber? 1.
sport; 2. filme; 3. petreceri cu prieteni...", etc. Într-un asemenea
caz ne putem astepta sa avem mai multe raspunsuri la aceeasi
întrebare. Solutia pentru introducerea datelor este, de aceea,
crearea mai multor variabile, câte una pentru fiecare varianta de
raspuns. Astfel, vom avea variabila "SPORT" care poate primi doua
valori, sa zicem "1" daca este aleasa si "0" daca nu este aleasa, si
asa mai departe. În acest mod vom putea analiza frecventa
alegerilor pentru fiecare varianta de raspuns în parte.

    Evitarea variabilelor redundante: Daca la un test nu sunt posibile,


de exemplu, decât raspunsuri corecte sau gresite, atunci nu este
necesar sa declaram o variabila pentru "corecte" si una pentru
"gresite" daca suma lor da totalul raspunsurilor.

Salvarea bazei de date din Data Editor


O baza de date aflata în lucru nu are un corespondent într-un fisier
decât dupa ce se executa o salvare a acesteia. Acest lucru nu trebuie
niciodata uitat. Spre deosebire de
WORD de exemplu, SPSS nu are o
functie de salvare automata dupa un
interval de timp prestabilit. Cu alte
cuvinte, indiferent ce modificari facem
în Data Editor pe ecran, datele
respective vor fi salvate numai la
comanda explicita a operatorului.

Pentru o baza de date nou creata,


salvarea se face în mod similar cu orice
alt program cunoscut: File-Save as, care deschide urmatoarea caseta
de dialog:

Se alege locatia de salvare (Save in)

Se da un nume fisierului (File name)

Se verifica tipul de fisier (formatul implicit pentru baze de date


SPSS are extensia .sav)

Se actioneaza Save

    SPSS poate salva si în alte formate, dintre cele mai


importante fiind: Dbase sau FoxPro, Lotus 1-2-3, Excel.
Salvarea în aceste formate poate fi utila pentru transferul
datelor pentru prelucrari ulterioare în alte programe.

Deschiderea unei baze de date SPSS

O baza de date creata cu SPSS se deschide cu comanda File-


Open, care activeaza urmatoarea caseta de dialog:

Se alege locatia de citire (Look in)

Se indica fisierul dorit (selectarea cu mouse-ul) în fereastra


de cautare

Se indica tipul de fisier ce urmeaza a fi deschis (implicit este


de tip SPSS cu extensia .sav)

Se actioneaza Open
    În cazul deschiderii unui
fisier de alt tip decât
SPSS, se va alege tipul
respectiv din lista Files of
type. În cazul în care
SPSS nu recunoaste tipul
de fisier în care se afla
datele noastre, putem
încerca transformarea lor
prealabila din formatul original într-un format recunoscut de
SPSS. Desi exista riscul pierderii unor aspecte ce tin de
formatul de reprezentare a datelor, operatiunea scuteste
totusi un mare volum de munca.

Operatii de transformare a variabilelor

Daca privim variabilele SPSS din punctul de vedere al modului în care


au fost create, putem distinge doua categorii:

b)      variabile "primare" care includ valori rezultate direct din


cercetare si au fost introduse, de regula, de la tastatura.

c)      variabile "secundare" rezultate prin transformarile aplicate


variabilelor primare.

Exemple de situatii în care se impune transformarea variabilelor:

Avem mai multe variabile "primare" care contin


raspunsurile la întrebarile unei scale de tip Lickert si
suntem interesati sa calculam (într-o variabila
"secundara") suma raspunsurilor.

Avem un numar de variabile "primare" în care se afla


rezultatul partial pentru fiecare minut din cele 10 câte
dureaza un test de calcul aritmetic si dorim sa cream o
noua variabila ( "secundara") în care sa avem media
performantei pe cele 10 minute sau abaterea standard
a performantei pe cele 10 minute, pentru fiecare
subiect,

Avem o variabila care contine data nasterii si dorim sa


cream pe baza ei o alta variabila, care sa contina
vârsta.
Dorim sa transformam variabila care contine vârsta, într-o
alta variabila care contine valori pentru categorii de
vârsta.

Pentru toate aceste situatii, care sunt unele dintre cele mai des
întâlnite, dar si pentru multe altele înca, SPSS ofera proceduri de
transformare în meniul Transform.

În continuare, vom prezenta câteva dintre cele mai frecvent


utilizate functii de transformare a variabilelor.

Însumarea valorilor variabilelor

Se utilizeaza atunci când dorim sa obtinem o variabila prin


adunarea valorilor din doua sau mai multe variabile.

Imaginea de mai jos prezinta o tabela de date SPSS care


cuprinde scorurile la trei examene partiale (scor_1, scor_2 si scor_3).
Dorim sa realizam o variabila care sa cuprinda un scor general, prin
însumarea celor trei variabile. Se poate observa ca unii dintre subiecti
nu au valori la toate cele trei scoruri (valori lipsa de sistem).

Deoarece prin calculare, o noua variabila este plasata dupa toate


variabilele existente, am preferat sa inseram o noua variabila imediat
dupa cele trei pe care dorim sa le însumam. În acest fel avem si
posibilitatea sa controlam usor corectitudinea operatiei de însumare

Se apeleaza procedura Transform-Compute, care deschide


caseta de mai jos:
Se efectueaza urmatoarea succesiune de operatii:

1. Se introduce numele noii variabile în zona Target


Variable ("total").
2. Se scrie expresia de însumare în zona Numeric Expression.

Functia este SUM (expresie numerica, expresie


numerica, ...), asa cum se vede si în zona listei Functions:
Ea poate fi scrisa de la tastatura sau selectata din lista de
functii si "ridicata" prin actionarea butonului ▲. Atentie,
sintaxa fiecarei functii trebuie respectata întocmai. În cazul
nostru, variabilele numerice se vor scrie între paranteze,
una câte una, cu virgula între ele. Variabilele pot fi scrise
de la tastatura sau mutate la rândul lor din lista de
variabile cu butonul ►.

Daca variabilele ce vor fi însumate se afla în baza de date


una dupa alta, ca în cazul exemplului nostru, atunci avem
posibilitatea sa scriem o expresie de însumare simplificata,
astfel SUM (prima_variabila TO ultima_variabila). În acest
caz, clauza TO va fi cuprinsa între spatii, pentru a nu fi
confundata cu un nume de variabila. Aceasta optiune ne
sugereaza cât de important poate fi sa aranjam
corespunzator variabilele în structura unei tabele SPSS.

3. Se apasa butonul OK
4. Deoarece variabila total exista, SPSS ne întreaba daca dorim sa
modificam continutul acesteia. Daca nu ar exista o variabila cu
acest nume, rezultatul operatiei de calcul ar fi depus într-o
variabila creata automat si amplasata dupa ultima variabila din
baza de date.
Raspundem OK, deoarece stim ca am Rezultatul operatiei se vede în imaginea de mai
creat aceasta variabila tocmai pentru a jos:
depune în ea suma.

Calcularea mediei a doua sau mai multe variabile

Presupunând ca în loc de suma, ne-ar interesa media valorilor de


la mai multe variabile, se procedeaza în mod similar. Expresia de
calcul a mediei este MEAN (expresie_numerica,
expresie_numerica, ...), unde ... arata ca putem pune oricâte variabile
(sau valori) numerice, cu virgula între ele. Ca si în cazul sumei, se
poate realiza o expresie cu clauza TO, cu conditia ca variabilele pentru
care se realizeaza media sa se afle una dupa alta în tabela SPSS.

Reamintim ca functia MEAN poate fi scrisa de la tastatura sau


poate fi adusa din lista de functii, prin selectare si actionarea butonului
▲.

Este de la sine înteles ca expresia de calcul poate fi realizata si


într-o maniera simpla si directa, fara utilizarea functiilor (SUM sau
MEAN), astfel:

Pentru suma: scor_1+scor_2+scor_3


Pentru medie: (scor_1+scor_2+scor_3)/3

    Se va face o distinctie clara între suma sau media astfel


obtinute, care se refera la suma sau media valorilor de la mai
multe variabile, pentru acelasi subiect, si suma sau media pe
care am calcula-o pe verticala, la nivelul fiecarei variabile în
parte, pe întreaga distributie

    Se pot realiza diverse alte functii de transformare, utilizându-se


marea varietate de functii care se gasesc în lista Functions si a
caror semnificatie se poate afla din Help-ul casetei Compute.

Extragerea anului dintr-o variabila de tip cronologic (date)

SPSS ofera functii de transformare cu variabilele de tip


cronologic. Dintre acestea, vom exemplifica cu realizarea unei variabile
care sa contina anul nasterii, sa zicem, scos dintr-o variabila care
contine data nasterii. Imaginea de mai jos este extrasa din baza de
date Employee data.sav

Observam ca variabila bdate, care contine data nasterii. Pentru


a avea vârsta, trebuie sa calculam diferenta dintre anul curent (sa
zicem, 2000) si anul nasterii: Pentru aceasta trebuie sa facem
diferenta dintre anul curent (2000) si anul nasterii, care se afla în
câmpul bdate.

Pentru a avea variabila ce urmeaza a fi creata în apropierea


variabilei bdate, vom insera o variabila (denumind-o "virsta", de tip
numeric, cu doi întregi). Apoi utilizam procedura Compute din
meniul Transform:
În câmpul Target variable introducem numele noii variabile
(virsta).

În zona Numeric Expression vom scrie expresia de transformare,


care se bazeaza pe functia XDATE.YEAR().

Aceasta functie are ca rezultat extragerea valorii care reprezinta


anul dintr-o variabila de tip data calendaristica. În cazul nostru,
XDATE.YEAR(bdate)=anul nasterii

Ca urmare, putem scrie expresia astfel: 2000-


XDATE.YEAR(bdate)

Mai jos putem vedea rezultatul procedurii Compute:

Se observa în variabila virsta, valorile rezultate prin


transformare (corespunzatoare anului 2000).Desigur, transformarea
putea fi efectuata si în doua etape. Mai întâi prin extragerea anului
nasterii într-o variabila separata si, apoi, prin efectuarea unei noi
transformari realizarea diferentei dintre anul curent si anul nasterii.
Am preferat o solutie într-o "singura etapa" pentru ca este mai
operativa.

    Posibilitatile de transformare a variabilelor oferite de SPSS


permit crearea unor noi variabile pe baza celor existente, în
functie de necesitatile de prelucrare pe care le avem. În toate
cazurile, însa, nu se va alege solutia modificarii valorilor dintr-o
variabila "primara" peste valorile deja existente. Cu alte cuvinte,
este recomandabil sa cream prin transformare variabile noi, si nu
sa modificam valorile existente din variabilele "primare" a caror
pierdere ar necesita reintroducerea lor, în caz de necesitate.

Recodificarea variabilelor

Recodificarea unei variabile înseamna convertirea valorilor acesteia, cu


scopul obtinerii unei distributii bazata pe frecvente cumulate. Procesul
este similar cu crearea unei tabele de frecvente grupate si ne
reamintim ca poate fi derulat în maniera descrisa mai jos:

Pasi pentru gruparii de frecvente:

 Se face diferenta dintre valoarea cea mai mare si valoarea cea mai mica a unei
distributii
 Se împarte valoarea obtinuta la marimea posibila (estimata) a intervalului
 Se selecteaza marimea intervalului care conduce la un numar de clase cuprins între
5 si 15
 Se determina limita inferioara a primului interval (trebuie sa fie un multiplu al marimii
intervalului)
 Se determina limita superioara a primului interval
 Se construiesc intervalele de clasa pentru fiecare interval, fiind atenti sa avem clase
"suprapuse" sau "intervale neacoperite"

În principiu, desi este recomandabila obtinerea unei grupari de


frecvente pe 5-15 clase, se poate opta pentru un numar de clase care
serveste cel mai bine interesul de cercetare. De exemplu, în cazul unei
distributii de vârsta exprimata în ani, este preferabil sa se opteze
pentru clase "cincinale" sau "decade", acestea având si o anumita
semnificatie "psihologica".

În urma transformarii de mai sus, am obtinut variabila virsta.


Utilizarea ei ca atare în analize statistice este improprie, de aceea ar fi
foarte utila obtinerea unei variabile care sa asocieze anumite valori
conventionale pentru categorii de virsta. Pentru aceasta putem efectua
"recodificarea" variabilei virsta pentru a obtine o distributie grupata
de frecvente, astfel:
Se lanseaza procedura Recode - Into Defferent Variables din
meniul Transform:

Atentie, se poate alege si optiune Into Same Variables, dar nu


este recomandabila deoarece, în cazul unei erori, nu mai avem la
dispozitie variabila initiala pentru o noua recodificare.

Pasi de efectuat la aparitia casetei Recode into Defferent Variable:

se trece variabila virsta în zona Numeric Variable Output


Variable. Semnul întrebarii arata ca se asteapta numele
variabilei ce urmeaza sa fie creata prin recodificare.

Acest nume se scrie în zona: Name, dupa care se apasa


butonul Change.

Am ales, absolut conventional, ca nume al variabilei


recodificate, v_clase.

Urmeaza acum sa descriem limitele claselor de recodificare.


Pentru aceasta, se actioneaza butonul Old and New Values
Desi relativ complicata, caseta de declarare a noilor valori în functie de
cele vechi este usor de înteles.

În zona Old value, se alege una dintre variantele de definire a valorilor


de la care se pleaca. Sa zicem ca am ales solutia sa recodificam anii pe
intervale de zece ani, primul interval fiind 29-39, al doilea 40-49, s.a.m.d.

Pentru aceasta activam optiunea Range si scriem valorile limite al


intervalului dorit.

Dupa aceasta, în zona New value oValue, scriem care este valoarea pe


care o asignam acestei clase.

În fine, actionam butonul Add pentru a definitiva operatiunea si trecem


la definirea urmatoarei clase, pâna terminam.

În zona Old New se poate observa lista recodificarilor definite.

Se actioneaza butonul Continue si, la revenirea în caseta anterioara,


butonul OK. Rezultatul operatiuni se vede mai jos:
Se observa corespondenta dintre valoarea din variabila virsta, cu
valoarea din variabila v_clase. Pentru valoarea 71, avem missing
value în variabila v_clase, deoarece nu am definit un interval care sa
cuprinda aceasta vârsta. (De regula, aceasta situatie este determinata
de o eroare de definire a intervalelor de clasa. Pentru a o repara, ar
trebui sa intram din nou în procedura Recode si sa redefinim clasele).

relua.

Transformarea operata pe variabila vîrsta nu este de loc inutila. Daca


am fi dorit sa vedem în ce masura este o relatie între nivelul salariului
si vârsta, ar fi fost oarecum impropriu (fara a fi propriu-zis o greseala )
sa utilizam o statistica parametrica (corelatia). În analizele statistice
pe vârste este recomandabil, totusi, sa operam cu grupe de vârsta.

Ordonarea dupa rang a valorilor unei variabile

Asa cum am spus în cuprinsul primei parti a acestui volum, este


posibil sa ne confruntam cu o variabila cantitativa ale carei valori nu
respecta conditiile unei statistici parametrice (vezi figura din stânga,
unde valoarea 250 este excesiva). Într-o situatie de acest gen, una din
solutiile posibile este transformarea de rang, cu procedura Transform-
Rank cases (caseta din dreapta):

Variabila vizata (scor) este trecuta în lista Variable(s), se seteaza


modul de ordonare (am ales atribuirea rangului 1 valorii celei mai
mari) iar apoi am actionat butonul OK. Procedura permite fixarea unor
parametri de transformare cu ajutorul butoanelor Rank si Ties, asupra
carora nu insistam aici.

Organizarea datelor pentru analiza


SPSS permite efectuarea unor operatii de organizare a datelor care
prezinta un interes aparte pentru faza de analiza. Acestea sunt:
sortarea, împartirea fisierului în subgrupuri, selectarea unor seturi de
date, combinarea fisierelor (adaugarea de cazuri, adaugarea de
variabile). Le vom trece în revista, pe rând.

Sortarea bazei de date

Sortarea este operatia de aranjare a bazei de date în functie de


ordinea crescatoare/descrescatoare a valorilor unei variabile. Ea este
utila mai ales pentru inspectarea directa a valorilor de la extrema unei
distributii sau pentru listarea ordonata a bazei de date. Procedura
utilizata este: Data-Sort.

Baza de date nesortata Caseta Sort Cases

Imaginea din caseta descrie sortarea bazei de date, crescator


(Ascending), dupa valorile variabilei scor (rezultatul se vede în
imaginea de mai jos).
Se poate efectua sortarea simultana dupa mai multe variabile,
fiecare în sensul dorit, de exemplu: grup(Ascending) si
scor(Descending).

Împartirea bazei de date în subgrupuri

Baza de date SPSS poate fi împartita în subgrupuri, pentru analiza


distincta. Atunci când datele sunt astfel organizate, orice procedura de
analiza se va efectua distinct pentru fiecare subgrup.

Procedura este: Data-Split File iar caseta de dialog este cea de mai


jos:

Optiunile sunt:

 Analyze all cases, do not create groups (pentru analiza integrala


a datelor)
 Compare groups (rezultatele vor fi afisate astfel încât sa poata fi
usor comparate)
 Organize output by groups (rezultatele vor fi afisate în Viewer,
separat pe grupuri)

    Operatia nu produce nici o modificare vizibila asupra bazei de


date. Singurul efect se vede în zona de afisare a rezultatelor,
unde toate procedurile de analiza vor fi afisate pentru fiecare
subgrup în parte.

    Pentru a se reveni la analiza intergrala a datelor, se va reveni în


procedura Split File si se va seta optiunea Analyze all cases...

Selectarea unor seturi de date


Selectarea unui set de date permite aplicarea procedurilor de analiza
numai pe cazurile selectate. Daca nu se opteaza pentru stergerea
datelor neselectate, ele vor fi pastrate si vor putea fi reintroduse în
analiza. Procedura este Data-Select Cases....

Pentru exemplificare, sa ne propunem selectarea din baza de date din


imaginea de mai sus a cazurilor apartinând grupului 1.

Imaginea prezinta:

 În partea stânga, baza de date


 La mijloc, caseta principala Select Cases care are:

o       Zona listei de variabile

o       Zona fixare a conditiilor de selectare Select, unde:

All cases este setarea implicita si înseamna ca toate


datele intra în analiza

If condition is satisfied, se bifeaza atunci când se


doreste declararea unei conditii de selectare bazata
pe o functie

IF este butonul de deschidere a casetei pentru


declararea conditiei, care deschide caseta Select
Cases: if. În cazul nostru, am trecut variabila grup în
zona de editare a functie si am declarat-o egala cu 1.
Astfel, toate cazurile din baza de date care au
grup=1 vor fi analizate, celelalte fiind ignorate.
Exemplul se bazeaza pe o selectie simpla, dar sunt
permise selectii bazate pe functii mai complicate sau
care pot sa includa combinatii de variabile.

o       Random sample of cases, permite selectarea unui set


aleator de cayuri din baya de date

o       Based on time por case range, permite selectarea cazurilor


în functie de pozitia din baza de date.

o       Use filter variable, selecteaza pe baza valorile unei


variabile filtru
o       Unselected cases Are, permite optiunea de filtrare a
cazurilor neselctate (Filtered) sau de eliminare a lor
(Deleted). În acest din urmaa caz, cazurile neselectate vor
fi sterse, dar baza de date, dar actualizarea fisierului de pe
hard disk se va face numai dupa prima comanda Save.

Dupa finalizarea operatiei de selectare de mai sus, baza de date se


prezinta în felul urmator:

Se observa:

 Marcarea cu o diagonala a capului de linie corespunzator


cazurilor neselectate
 Aparitia unei variabile de sistem filter_$ care contine valoarea 0
pentru cazurile neselectate si valoarea 1 pentru cazurile
selectate. Aceasta variabila poate fi ulterior utilizata în
procedurile de analiza, ca variabila independenta (caz în care se
va anula situatia de selectare, prin bifarea optiunii All cases). 

    Selectarea este utilizata în mod obisnuit, pentru alegerea


temporara a unui set de date. Adesea se uita anularea unei
selectari existente, atunci când se doreste revenirea al analiza
tuturor cazurilor. Efectul este obtinerea unor rezultate pe date
partiale.

Alte operatii de organizare a datelor pentru analiza

Optiunile SPSS pentru organizarea datelor sunt mult mai numeroase


decât cele descrise mai sus. Fara a le trata în amanunt, ne vom
multumi sa le prezentam sumar:

 Agregarea cazurilor, atunci când exista înregistrari multiple


pentru fiecare subiect si se doreste pastrarea uneia singure
(Data-Agregate)
 Adaugarea unor cazuri din alta baza de date SPSS (Data-Merge
Files-Add cases...)
 Adaugarea unor variabile din alta baza de date SPSS (Data-
Merge Files-Add variables...)
 Inversarea liniilor cu coloanele (Data-Transpose...)

Calcularea indicatorilor statistici descriptivi

Reamintim faptul ca statistica descriptiva are ca obiectiv analiza


caracteristicilor variabilelor. Principalele elemente de statistica
descriptiva sunt:

 reprezentarea întregii distributii, pe cale:


o numerica (analiza de frecvente)
o grafica (bara, histograma, box-plot, stem and leaf)
 valorile tendintei centrale
o mod
o medie
o mediana
 valorile împrastierii
o amplitudine
o abatere standard
 valorile formei distributiei

o       indice de simetrie (skewness)

o       indice de boltire (kurtosis)

SPSS ofera posibilitati variate de reprezentare si de calcul a


acestor indicatori. În acest sens exista, pe de o parte, proceduri
specializate si, pe de alta parte, optiuni care pot fi accesate din
interiorul altor proceduri. Fie si acest aspect numai, ar trebui sa
sugereze ca analiza statistica descriptiva, în ciuda caracterului ei
"elementar", este o componenta indispensabila a analizei statistice.

În ceea ce priveste procedurile specializate, ele se lanseaza din


meniul Statistics-Summarize (sau Analyze-Descriptive statistics,
pentru versiunile mai noi de SPSS) si sunt grupate în trei
proceduri: Frequencies, Descriptives si Explore.

    Aceste proceduri ofera prelucrari distincte dar contin si rezultate


comune. Alegerea uneia sau alteia dintre ele depinde de
necesitatile de analiza.

Procedura Frequencies

Este singura care permite analiza de frecvente.

La aparitia casetei Frequencies, variabila pe care dorim sa o


supunem analizei va fi trecuta în lista de calcul Variable(s), prin
selectarea ei si actionarea butonului de transfer (►). Pot fi incluse mai
multe variabile în aceasta lista, rezultatele fiind afisate distinct, pentru
fiecare în parte.

Se va observa pe caseta de mai sus bifarea optiunii pentru tabela de frecvente, care este
functia specifica a acestei proceduri. În plus, prin actionarea butoanelor din partea de jos
a casetei se pot seta alte analize, astfel:
Butonul Statistics Butonul Chart Butonul Format
Se aleg indicatorii statisticiSe alege tipul de graficSe aleg diverse moduri de
descriptivi doriti dorit prezentare a rezultatelor

Rezultatele sunt afisate în SPSS Viewer în forma de mai jos (dar


unele sub altele, nu alaturat, asa cum sunt aranjati aici):

Indicatorii statistici Tabelul de frecvente Histograma


descriptivi

Procedura Descriptives

Aceasta procedura vizeaza doar indicatorii statistici descriptivi. La


lansare, Satistics-Descriptives, se deschide caseta
principala Descriptives.

Se trec variabilele vizate în lista Variable(s)


(daca dorim calcularea scorurilor z, se Se aleg indicatorii doriti din Options
bifeaza optiunea din stânga-jos a casetei )
Imaginea bazei de date, în care se vede
aparitia variabilei zscor (denumita automat
Rezultatul analizei, din Viewer
de progarm) cu valorile transformate în
scoruri z.

Procedura Explore

Procedura Explore este cea mai complexa dintre toate procedurile


statisticii descriptive si se poate utiliza atunci când se doreste o analiza
exhaustiva a variabilei (sau variabilelor).

Caseta principala Explore

 În Dependent List se includ variabilele de analizat


 În Factor List se includ eventualele variabile categoriale, în
functie de care se doreste analiza variabilei analizate
 Label cases by, permite etichetarea cazurilor la afisare (rar
utilizat)
 Display, permite alegerea optiunilor de afisare a rezultatelor
numerice (Statistics), grafice (Plots) sau ambele categorii (Both)
 Butonul Statistics deschide caseta pentru alegerea unor
indicatori (dar procedura analizeaza, implicit toti indicatorii
statistici descriptivi, de baza)
 Butonul Plots, permite alegerea reprezentarilor grafice dorite:

 Butonul Options, permite setarea modului de tratare a valorilor


lipsa

Rezultatele analizei Explore, definita mai sus, se prezinta astfel:

Indicatorii statistici Reprezentarea stem-and-leaf Reprezentarea Box plot

Teste parametrice
Testul z (t) pentru media unui singur esantion

Utilizare

Testul z pentru un singur esantion este utilizat pentru se testa


diferenta dintre media unui esantion fata de media cunoscuta a
populatiei din care face parte. Atunci când volumul esantionului este
mic (N<30) este utilizata o varianta denumita testul t pentru un singur
esantion.
Utilizarea acestui test statistic este conditionata de cunoasterea mediei
populatiei. Daca populatia are o extindere mare, acest lucru este dificil
de realizat (în afara cazurilor în care exista studii speciale, cum sunt
cele antropometrice, de exemplu). Dintre variabilele psihologice ale
carei medii pentru populatie este cunoscuta, este inteligenta,
exprimata în unitati QI (μ=100). Testul poate fi utilizat, însa, atunci
când populatia are o extindere mai redusa. De exemplu, daca a fost
evaluat nivelul de satisfactie într-o organizatie, se poate testa
diferenta dintre nivelul de satisfactie la nivelul unei sectii fata de media
satisfactiei la nivelul întregii organizatii (populatie).

Conditii de aplicare

Conditia teoretica de baza este normalitatea distributiei de


esantionare. În temeiul teoremei limitei centrale, cu cât volumul
esantionului este mai mare, cu atât normalitatea distributiei de
esantionare este mai sigura.

Aranjarea datelor

Datele supuse testarii trebuie sa fie incluse într-o variabila SPSS de tip
numeric.

Procedura: Statistics-Compare Means-One Sample T Test

Caseta principala
Caseta Options permite alegerea
pragului de semnificatie.
Variabila testata este trecuta în
Confidence Interval 95% este
Variabila testata lista Test Variable(s)
echivalent cu p=0.05 si este
implicit pentru toate testele
În zona Test Value se înscrie media
statistice
populatiei (100 în cazul nostru)

Rezultate
Primul tabel include statistica descriptiva a variabilei testate (N, media,
ab.std, eroarea standard a mediei)

Al doilea tabel include rezultatele testului statistic: t=6.254, df=4,


p=0.03, diferenta fata de media populatiei (22.6) si limitele inferioara
(12.57) si superioara (32.63) ale intervalului de încredere pentru
media populatiei estimata de esantionul de cercetare.

Concluzia testului: media esantionului de cercetare difera semnificativ


de QI=100, ca medie a populatiei.

Testul t pentru esantioane independente

Utilizare

Testul t pentru esantioane independente este utilizat pentru


testarea diferentei dintre mediile aceleiasi variabile dependente
masurate pe doua grupuri, formate din subiecti diferiti. Exemplu:
testarea diferentei dintre media scorului la o scala de sociabilitate
aplicata unor copii crescuti în familie si unor copii crescuti în institutii
de ocrotire. În acest caz, scorul la sociabilitate este variabila
dependenta, masurata pe scala cantitativa (interval/raport) iar mediul
de educare este variabila independenta, exprimata pe scala nominala
dihotomica (familie/institutie de ocrotire)

Conditii

Teoretic, testul t poate fi utilizat pentru esantioane oricât de


mici, daca distributia de esantionare pentru cele doua grupuri este
normala si daca varianta valorilor în cele doua grupuri nu difera
semnificativ. În ce priveste conditia egalitatii variantei, ea este testata
cu un teste specifice. Unul dintre acestea este testul Levene, iar în
functie daca rezultatul sau programul calculeaza testul t pe doua cai,
asa cum vom vedea mai jos.

Daca variabila dependenta nu întruneste conditiile pentru testul t, se


poate apela la teste neparametrice, astfel:

Testul z pentru proportii (compararea procentului de "sociabili"


din cele doua grupuri)

Testul Mann-Whitney U, daca se transforma valorile variabilei


"sociabilitate" în valori de rang

Aranjarea datelor

Tabela de date SPSS va contine variabila dependenta, de tip numeric,


si variabila independenta, de tip nominal, cu doua valori, în functie de
apartenenta la un grup sau altul. Variabila independenta poate fi de tip
"string" (codificând cele doua grupuri cu valori de genul "A" si "B") sau
de tip numeric (cu codificarea conventionala 1 si 2). Din principiu, însa,
recomandam cea de a doua varianta.

Procedura: Statistics-Compare means-Indpendent Samples T


Test

În caseta principala se trece variabila dependenta (soc) în lista Test


Variable(s) (pot fi testate mai multe variabile simultan) iar variabila
independenta (grup), în zona Grouping Variable. În acest moment,
programul ataseaza variabilei dependente doua semne de întrebare,
sugerând introducerea valorilor care definesc cele doua grupuri.
Concomitent, se activeaza butonul Define Groups a carui actionare
deschide caseta secundara Define Groups, unde se introduc valorile
care definesc cele doua grupuri comparate (ordinea lor nu este
relevanta). Dupa actionarea butonului Continue, caseta principala
devine completa si se poate actiona OK pentru efectuarea testului.

Rezultate

În primul tabel (Group Statistics) avem statistica descriptiva a


celor doua grupuri. Se va observa ca programul descrie grupurile prin
intermediul etichetelor valorilor. Daca acestea nu ar fi fost definite, în
loc de "institutie" si "familie" ar fi aparut 1, respectiv, 2.

Al doilea tabel are doua linii:


Pe prima avem rezultatele testului t pentru cazul asumarii
omogenitatii variantei (Levene's Test for Equality of Variances). În
cazul nostru, ele sunt egale (Sig.=0.666, ceea ce se traduce ca o
valoare p=0.666, deci mai mare de 0.05 pentru distributia F a
testului Levene, pe care nu o discutam aici). Ca urmare, vom citi pe
aceasta linie rezultatul testului: t=-2.42, df=12, Sig.=0.045.

Pe a doua linie avem rezultatele testului t pentru cazul în care nu


s-ar întruni conditia de omogenitate a variantei pentru cele doua
grupuri. Daca semnificatia testului Levene ar fi fost mai mica sau egala
cu 0.05, rezultatului testului t s-ar fi citit pe aceasta linie.

Pentru exemplul nostru, rezultatul testului t permite acceptarea


ipotezei cercetarii, conform careia copiii crescuti în mediu familial sunt
mai sociabili (m=22.00) decât cei crescuti în mediu institutional
(m=17.71).

Testul t pentru esantioane dependente (perechi)

Utilizare

Testul t al diferentei mediilor a doua esantioane dependente


permite evaluarea semnificatiei variatiei unei anumite caracteristici la
aceeasi indivizi în doua situatii diferite (de exemplu, "înainte" si "dupa"
actiunea unei anumite conditii, ori în doua contexte diferite, indiferent
de momentul manifestarii acestora). Avantajul major al acestui model
statistic este acela ca surprinde variatia numita "intrasubiect", prin
faptul ca baza de calcul este diferenta dintre cele doua valori ale
fiecarui subiect în parte.

Exemplu: Un grup de subiecti efectueaza operatii aritmetice în


conditii de liniste si, ulterior, în conditii de zgomot puternic. Ipoteza
cercetarii este ca zgomotul determina o reducere a capacitatii de calcul
numeric.

Conditii

Conditia teoretica a testului este normalitatea distributiei de


esantionare a distributiei de diferente. Ca si în celelalte cazuri,
teorema limitei centrale determina normalizarea distributiei de
esantionare pe masura ce volumul esantionului creste.
În situatia în care conditia nu se îndeplineste, se pot utiliza teste
neparametrice echivalente: testul semnului (pentru date nominale)
sau testul Wilcoxon (pentru date ordinale).

Aranjarea datelor

Vor fi create doua variabile distincte, ambele cantitative,


masurate pe scala de tip I/R, care primesc câte o valoare pentru
fiecare subiect.

Procedura: Statistics-Compare Means-Paired Sample T Test...

Se selecteaza cu un clic de mouse, pe rând, O data constituita, perechea de variabile se


fiecare dintre cele doua variabile. Astfel se trece în lista Paired Variables cu butonul de
constituie perechea de variabile în transfer (►). Pot fi create mai multe perechi
zona Curent selection. de variabile si prelucrate simultan.
Caseta Options permite alegerea pragului de semnificatie
(implicit 0.05).

Rezultate

Primul tabel contine statistica descriptiva pentru cele doua


variabile.

Al doilea tabel contine testul de corelatie Pearson (r) dintre cele


doua variabile. Evaluarea intensitatea asocierii liniare dintre cele doua
variabile este legitima în acest context, dar ofera o informatie diferita
de testul diferentei dintre medii. Alegerea testului de corelatie sau al
testului t se decide în functie de obiectivul cercetarii.

În fine, ultimul tabel prezinta rezultatul testului: t=5.076, df=9,


p=0.001. Acesta permite respingerea ipotezei de nul si acceptarea
ipotezei cercetarii, zgomotul afecteaza capacitatea de calcul aritmetic.

Coeficientul de corelatie liniara Pearson (r)

Utilizare

Corelatia Pearson (r) masoara gradul de asociere dintre variabile.


Aceasta se refera la gradul si sensul de variatie concomitenta a
valorilor unei variabile în raport cu cealalta, dupa un model de tip
liniar.
Domeniul de variatie a coeficientului de corelatie Pearson (r) este între
r=-1 (corelatie perfecta negativa) si r=+1 (corelatie perfecta pozitiva).
Absenta oricarei legaturi (corelatii) dintre variabile se traduce prin r=0.

Exemplu: Testul de corelatie implica doua variabile dar, adesea, într-o


cercetare psihologica numarul variabilelor supuse corelatiei este mai
mare de doua. Acest fapt conduce la ceea ce se numeste o matrice de
corelatii care este un tabel ale caror celule cuprind corelatiile dintre
perechile de variabile. Pentru exemplificare, sa luam în considerare
situatia în care se urmareste evidentierea legaturii (asocierii) dintre
anxietate si agresivitate, pe de o parte, si preferinta pentru risc pe de
alta parte.

Conditii

Conditia principala pentru calcularea coeficientului de corelatie liniara


Pearson este ca variabilele implicate sa fie masurate pe scala de
interval/raport (alaturi de existenta unei forme a distributiei care nu se
abate sever de la curba normala).

Testele neparametrice alternative, pentru cazul în care conditiile


pentru utilizarea testului Pearson nu se îndeplinesc, sunt: testul chi-
patrat (pentru date nominale) sau coeficientii de corelatie Spearman
sau Kendall (pentru date ordinale).

Aranjarea datelor

Se creeaza variabile distincte pentru fiecare caracteristica supusa


testarii.

Procedura: Statistics-Corelate-Bivariate
Variabilele supuse corelatiei vor fi trecute în lista Variables:

Testul implicit, din zona Correlation Coefficients, este Pearson, dar se


poate bifa un altul (Kendall sau Spearman), daca datele sunt
neparametrice.

Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se


poate alege unilateral (daca exista o justificare solida).

Flag significant correlations, determina marcarea cu un asterisc a


coeficientilor semnificativi la p=0.05 si cu doua asteriscuri a celor
semnificativi la p=0.01. Acest lucru este util atunci când matricea de
corelatie este mare, pentru a scoate în evidenta valorile semnificative
ale lui r.

Rezultate

Tabelul rezultatelor cuprinde matricea de corelatii a variabilelor


analizate. El este redundant, deoarece prezinta aceleasi corelatii de
doua ori, odata deasupra diagonalei, odata sub diagonala. Corelatiile
variabilelor cu ele însele sunt perfect pozitive (r=1) si nu prezinta,
desigur, nici un interes.

Fiecare celula include urmatoarele informatii:

valoarea lui r

nivelul p

numarul de subiecti (N)

În cazul nostru, consemnam corelatii negative dar


nesemnificative între anxietate si agresivitate (r=-0.38, p=0.26), pe
de o parte, si între anxietate si preferinta pentru risc, pe de alta parte
(r=-0.40, p=0.24). În acelasi timp, se constata o corelatie
semnificativa (r=0.96, p<0.001) între agresivitate si preferinta pentru
risc. Precizam faptul ca raportarea coeficientilor de corelatie se face cu
doua zecimale, chiar daca programele îi calculeaza cu trei zecimale.

Dezavantajul acestui tip de tabel consta în faptul ca avem de


fapt o dubla prezentare a corelatiilor, deasupra diagonalei si sub
diagonala. Pentru corelatii implicând multe variabile tabelul se va cit cu
relativa dificultate.

Sa presupunem ca suntem interesati de corelatiile dintre


anxietate si agresivitate cu variabila preferinta pentru risc, nu si de
corelatia dintre anxietate si agresivitate. În acest caz, în caseta
principala, Bivariate Correlations, prezentata mai sus, variabilele vor fi
introduse astfel încât variabila "preferinta pentru risc" sa fie ultima din
lista. Apoi se apasa butonul Paste, al carui efect este deschiderea
domeniului Syntax, ca o fereastra distincta, în care se afla sintaxa
procedurii de corelatie. Acolo, pe linia /VARIABLES=anx agresiv risc,
se insereaza cuvântul WITH, având grija sa existe spatiu atât în stinga
cât si în dreapta sa.

inserati WITH

Mai
departe, se
selecteaza
întreaga
procedura (cu ajutorul mouse-ului) si se apasa pe butonul Run (►) de
pe bara de comenzi a ferestrei

Rezultatul din Viewer va arata ca mai jos:

Este evident ca aceasta modalitate se poate aplica pentru oricât


variabile, daca avem grija sa le asezam separat în lista si sa includem
clauza WITH între cele doua categorii de variabile. Nu pot fi incluse
mai multe clauze WITH în aceeasi procedura.

Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu


File-Close), salvând sau nu procedura astfel modificata.

Expresia grafica a corelatiei (Scatterplot)

Caracterul si intensitatea corelatiei dintre doua variabile se


evidentiaza extrem de sugestiv cu ajutorul unei proceduri grafice
specifice, numita scatterplot.

Aceasta se lanseaza din meniul principal Graphs-Scatter... care


deschide urmatoarea caseta de dialog:

În cazul nostru, sa presupunem ca dorim reprezentarea grafica a


corelatiei dintre agresivitate si preferinta pentru risc, singura
semnificativa. În acest scop, selectam pe
caseta Scatterplot optiunea Simple si apasam Define.
Trecem variabila Agresivitate pe axa Y si variabila Preferinta pentru
risc pe axa Z (se poate la fel de bine si invers). Se apasa OK si se
obtine graficul din imaginea urmatoare, care sugereaza foarte clar
existenta unei asocieri de tip liniar între cele doua variabile.

Reprezentarea grafica este sursa de informatii cu privire la natura


relatiei dintre variabile, motiv pentru care este recomandabila
utilizarea frecventa a acesteia. Mai mult, ea este necesara în special
atunci când valoarea corelatiei este redusa, sau nesemnificativa,
deoarece graficul poate scoate în evidenta o legatura de alt tip decât
liniara.
    O corelatie r=0.92, ca cea obtinuta mai sus, între agresivitate
si preferinta pentu risc, este improbabil sa se întâlneasca într-
un studiu real. De fapt, daca s-ar întâmpla sa apara, ar trebui
sa concluzionam mai degraba ca cele doua variabile se
confunda, decât ca sunt distincte.

Regresia liniara simpla

Utilizare

Analiza de regresie este o aplicatie a corelatiei, utilizata în scopuri de


predictie. Daca evaluam agresivitatea ca trasatura de personalitate si
preferinta pentru risc ca expresie a numarului de incidente în trafic, la
conducatorii auto, se poate estima pe baza agresivitatii riscul de
accident înca înainte de dobândirea carnetului de sofer. Acest tip de
regresie, în care exista o singura variabila predictor (agresivitatea) si o
variabila criteriu (tendinta spre risc) se numeste regresie liniara
simpla. Mai frecvent utilizata este regresia multipla, care efectueaza
predictii bazate pe mai multe variabile predictor asupra unei variabile
criteriu. Vom prezenta mai jos regresia liniara simpla, ca o forma de
introducere în analiza de regresie, mai usor de înteles.

Exemplu: Predictia rezultatului statistica pe baza cunostintelor de


matematica, evaluate anterior începerii cursului de statistica.

Conditii

Din punct de vedere statistic, conditiile variabilelor care sunt supuse


analizei de regresie sunt aceleasi ca în cazul corelatiei, deoarece
regresia liniara este o aplicatie a acesteia.

Din punct de vedere metodologic, predictia presupune, de regula,


evaluarea variabilei predictor anterior variabilei criteriu. Acest fapt
poate sugera o relatie de tip cauzal între variabile, dar numai daca
sunt întrunite si alte conditii (cum ar fi izolarea efectelor altor
variabile).

Aranjarea datelor

Structura de variabile este similara analizei de corelatie.


Procedura: În principiu, analiza de regresie începe cu coeficientul de
corelatie dintre variabile si vizualizarea imaginii scatterplot. În cazul
nostru, urmând procedura prezentata mai sus, am obtinut o corelatie
r=0.74 (p=0.002). Aceste valori confirma existenta unei legaturi
pozitive semnificative, între cunostintele de matematica si performanta
la statistica. O idee mai exacta ne ofera coeficientul de determinare
r2=0,5476. Acesta ne spune ca 54% din variatia "performantei la
statistica" este explicata de variatia valorilor la variabila "cunostinte de
matematica". Deducem ca restul de 46% din performanta la statistica
este explicata de alte variabile, necunoscute în aceasta faza .

Pe baza acestor concluzii se poate trece la analiza de regresie a carei


finalitate este aceea de obtinere a coeficientilor a (termenul liber, sau
originea dreptei de regresie) si b (panta dreptei de regresie), cu
ajutorul carora se poate estima în viitor performanta la statistica pe
baza rezultatului la un test de cunostinte matematice aplicat în prima
zi de scoala. Neîndoielnic, o astfel de procedura s-ar justifica mai ales
pentru identificarea studentilor cu potentiale dificultati si care, tocmai
fiind avertizati în legatura cu aceste dificultati vor putea sa acorde
statisticii o atentie sporita, în vederea obtinerii unui rezultat peste
nivelul celui prezis.

Lansarea procedurii: Statistics-Regression-Linear...
În caseta principala Linear Regression, se trece variabila criteriu în
zona Dependent iar variabila criteriu în zona Independent(s).

În caseta Regression Save, bifam Predicted


Values-Unstandardized si Residuals-
În caseta Statistics, bifam Estimates pentru
Unstandardized, care vor avea ca efect
obtinerea coeficientilor de regresie (optiune
crearea de variabile distincte în baza de date.
implicita)
Prediction interval (individual) va calcula
limitele de încredere pentru valorile prezise.

    Valorile prezise sunt valorile rezultate pe baza modelului de


predictie.

    Valorile reziduale se calculeaza ca diferenta între valorile


variabilei criteriu si cele prezise pe baza modelului de
regresie.

Analiza rezultatelor
Tabelul Model Summary ofera valoarea coeficientului de
regresie, notat cu R, care este identic cu coeficientul de corelatie dintre
cele doua variabile. Daca modelul de regresie ar fi avut mai multe
variabile predictor, R ar fi fost coeficientul de corelatie multipla dintre
predictori si criteriu. Interpretarea este similara coeficientului de
corelatie simpla, la fel ca si pentru R 2, care este coeficientul de
determinare al lui R. Valoarea lui ne spune ca 55% din variatia
performantei la statistica este explicata de variatia variabilei
"cunostinte de matematica". "Adjusted R Square" este o corectie a lui
R2 în functie de numarul de predictori si numarul de subiecti.

Tabelul Coefficients contine coeficientii B (nestandardizati) si


coeficientul beta (standardizat), care pot fi utilizati, la alegere, în ecuatia de
predictie.

Astfel, de exemplu, daca un student realizeaza un scor de 30 la testul


de cunostinte de matematica, se poate estima performanta finala la
statistica cu ajutorul relatiei:

unde 3.406 este originea iar 0.854 este panta dreptei de regresie.

Sau, daca predictia se face pe baza unui scor standardizat z al


variabilei mat_in (sa zicem, 0.93), atunci:
În acest caz termenul liber are valoarea 0, deoarece originea dreptei
pentru scoruri standardizate se afla în 0.

Desigur, scorurile astfel prezise sunt estimari, atâta timp cât corelatia
dintre variabile nu este perfecta. Iar estimarile contin cu atât mai multa
eroare cu cât corelatia dintre variabile este mai mica (punctele graficului de
corelatie fiind mai îndepartate de dreapta de regresie).

La finalul procedurii analizei de regresie, cu setarile de mai sus, în


baza de date apar câteva variabile noi, asa cum se vede în imaginea
de mai jos.

Variabila pre_1, contine valorile prezise pe baza modelului de


regresie.

Variabila res_1, contine diferenta dintre valoarea reala si valoarea


prezisa

Variabilele lici_1 si lici_2, contin limitele inferioara si superioara ale


intervalului de încredere pentru fiecare valoare în parte. Pentru a
întelege mai bine problema limitelor, sa privim prima valoare prezisa
de pe coloana pre_1 (25.598). Cu un nivel de încredere de 95%
(echivalent cu o probabilitate de eroare de 0.05), putem spune ca
valoarea adevarata pentru stat_fin prezisa pe baza valorii mat_in=26,
s-ar afla în intervalul 21.77 si 29.41.
În fine, rezultatele contin si imaginea scatterplot a relatiei dintre
valorile mat_in si scorurile z ale variabilei pre_1.

Imaginea este identica cu ceea ce am prezentat în cazul corelatiei.


Singura deosebire este data de trasarea dreptei. Aceasta se face de
catre operator, în felul urmator:

se actioneaza dublu clic de mouse pe imaginea graficului


din Viewer. prin care...

graficul este trecut deschis într-o fereastra individuala de editare, în


care...

se executa procedura Chart-Options-Fit Line- Fit Options. La capatul


acestei serii de actiuni apare caseta de mai jos unde se
marcheaza Linear regression.
Facem precizarea ca acest procedeu de trasare a liniei în interiorul
scatterplotului este utilizabil si în cazul corelatiei. Daca se alege alt
model decât cel liniar (de exemplu, Quadratic regression) se va obtine
linia de regresie sub forma curbilinie, punând în evidenta abaterile de
la modelul liniar. Acest lucru este cu deosebire util atunci când
corelatia este mica, fapt care se poate datora faptului ca relatia dintre
variabile nu urmeaza un model liniar (vezi exemplul din prima sectiune
a manualului, bazat pe corelatia dintre scorurile z si probabilitatile de
sub curba normala).

Ce utilizam, corelatia sau regresia?

Corelatia si regresia liniara sunt similare si, de aceea, usor de


confundat. În unele situatii pot fi utilizate ambele proceduri.

Se calculeaza corelatia liniara:

 atunci când exista doua variabile masurate pe aceiasi subiecti si


se doreste evaluarea gradului de asociere între variabile
 atunci când distributiile de esantionare ale celor doua variabile
sunt normale (atunci când cel putin una dintre variabile este
manipulata, nu se calculeaza corelatia Pearson)

Se calculeaza regresia liniara:

 atunci când una dintre variabile precede si poate fi cauza


celeilalte variabile
 atunci când una dintre variabile este manipulata, se calculeaza
regresia
 atentie, calculele regresiei nu sunt simetrice, ca urmare,
inversând variabilele în ecuatia de regresie se va obtine o linie
de regresie diferita, în timp ce daca se inverseaza ordinea
variabilelor în calcularea corelatiei, se obtine acelasi coeficient r.

Teste neparametrice nominale


Testul z al proportiei pentru un singur esantion

Utilizare

Testul z pentru proportii pentru un esantion, este utilizat în cazul


variabilelor dihotomice pentru a testa diferenta dintre proportiile
valorilor în esantion prin comparatie cu proportia la nivelul populatiei.
Exemplu: La întrebarea "cine se uita la telenovele?" raspund DA
7 subiecti, dintre care 5 femei si 2 barbati. Întrebarea cercetarii este
daca femeile se uita într-o proportie mai mare decât barbatii la
telenovele.

Conditii

Cunoasterea proportiei la nivelul populatiei pentru valorile


variabilei testate. În cazul nostru, raportul femei/barbati este cunoscut
din studiile demografice (51%/49%)

Aranjarea datelor

Se creeaza variabila dihotomica cu valori numerice. Variabilele


de tip "string" nu sunt acceptate de procedura SPSS. În cazul nostru,
valorile sunt 1 pentru feminin si 2 pentru masculin.

Procedura: Statistics-Non Patametric Tests-Binomial...

Variabila testata este trecuta în lista Test Variable List:

În zona Define Dichotomy se alege Get from data, daca


variabila este dihotomica, sau Cut point, daca variabila
este continua, prin fixarea unei valori care împarte
distributia în doua categorii.

În zona Test proportion se introduce proportia primei


categorii.

Butonul Options permite solicitarea statisticii descriptive


pentru variabila testata.

Rezultate

Rezultatul în cazul exemplului dat cuprinde frecventa pe


categorii, procentul si semnificatia testului în raport cu proportia la
nivelul populatiei (p=0.243). În acest caz, se accepta ipoteza de nul si
se respinge ipoteza cercetarii. Proportia femeilor care se uita la
telenovele nu difera semnificativ de proportia barbatilor, prin raportare
la proportia lor în populatie.

Testul semnelor

Utilizare

Testul semnelor este utilizat pentru a testa diferenta dintre


valori, utilizându-se semnul diferentei si nu valoarea acesteia, atunci
când ambele valori sunt masurate pentru aceiasi subiecti . Daca nu ar
exista nici o diferenta între valorile perechi, atunci numarul diferentelor
pozitive ar trebui sa fie egal cu cel al diferentelor negative. Cu cât
numarul diferentelor de un anumit semn este mai mare comparativ cu
cel al diferentelor de semn opus, cu atât creste posibilitatea ca
diferenta dintre variabile sa fie statistic semnificativa.

Exemplu: Într-un experiment cu privire la efectul motivarii


asupra memorarii, subiectilor li se cere sa memoreze cuvinte dintr-o
lista, înainte si dupa introducerea unui factor motivant. Dat fiind faptul
ca numarul subiectilor este prea mic pentru asumarea normalitatii
distributiei de esantionare, se alege testul semnului, în locul
testului t pentru esantioane dependente.

Conditii
Variabilele vor fi de tip numeric, iar valorile exprimate în aceeasi
unitate de masura, pentru a se putea face diferenta lor.

Aranjarea datelor

Imaginea de mai jos contine variabilele "inainte" si "dupa", care


vor fi analizate.

Variabila "dif" contine rezultatul diferentei "dupa-inainte".

Variabila "semn", contine semnul diferentei. Ambele sunt


prezentate numai pentru a face mai evident baza de calcul a testului
deoarece, în fapt, nu sunt relevante sub aspectul procedurii SPSS.

Daca nu se dispune de valorile variabilelor ci numai de semnul


diferentei, testul semnului va fi calculat manual, pe baza
formulei 4.7.

Procedura: Statisstics-Nonparametric Tests-2 Related


Samples...

În prima faza, cele doua variabile sunt


Apoi, perechea de variabile este trecuta în
selectate, pe rând, prin clic de mouse pe
lista Test Pair(s) List: prin actionarea
fiecare, constituindu-se în pereche. Acest
butonului ►.
fapt se observa în partea de jos a casetei, în
Daca este necesar, se pot testa simultan mai
zona Current Selections.
multe perechi de variabile.
Se bifeaza Sign în zona Test Type.
Rezultate

Tabelul Sign Test cuprinde numarul diferentelor pozitive, respectiv


negative, pentru cazurile din baza de date. În cazul nostru, exista 7
diferente pozitive si nici o diferenta negativa.

Tabelul Test Statistics, prezinta semnificatia testului (p=0.016).


Ipoteza de nul se respinge daca valoarea lui p este mai mica decât
pragul fixat si care, implicit, este 0.05. În exemplul dat, ipoteza de nul
se respinge, acceptându-se ipoteza cercetarii (motivarea stimuleaza
memorarea).

Testul Chi-patrat al asocierii (independetei)

Utilizare

Testul chi-patrat este utilizat pentru evidentierea gradului de


asociere între doua variabile categoriale.

Exemplu: Sa presupunem ca am evaluat numarul femeilor si al


barbatilor diagnosticati cu sindrom de stres postraumatic (PTSD) dintr-
un mic oras, afectat de un cutremur de pamânt, iar datele sunt cele
din urmatorul tabel de corespondenta:

Femei Barbati
PTSD
Non-PTSD
Problema cercetarii este daca incidenta PTSD este în legatura cu caracteristica de
sex.

Conditii

Cele doua variabile nu trebuie sa se "intersecteze" (sa nu existe subiecti care sa fie
inclusi în mai mult de o celula de tabel).

Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 5 (sau, cel putin,
în nu mai mult de 20% din celule).

Nici o celula nu trebuie sa aiba frecventa asteptata 0..

Aranjarea datelor

Datele pot fi incluse în Data Editor în doua moduri:

a.       Sub forma unor înregistrari distincte pentru fiecare caz

Acest mod poate fi extrem de dezavantajos atunci când sunt multe cazuri sau când exista
deja o statistica globala a fenomenului PTSD în raport cu sexul.

b.      Sub forma unor înregistrari distincte pentru valorile caracteristicii de sex:

În aceasta situatie, se introduc frecventele PTSD pentru toate combinatiile valorilor celor
doua variabile analizate si frecventele asociate fiecareia. Pentru a se realiza
corespondenta dintre variabilele sex si PTSD cu variabila frecv, se apeleaza la
procedura Data-Wheight Cases...:
Facem precizarea ca în tabelele de date din imaginile de mai sus variabilele au fost
codificate numeric cu 1 respectiv 2, atât pentru sex cât si pentru PTSD, valorile fiind
etichetate. Faptul ca în celule apar etichetele si nu valorile, se obtine prin setarea Data-
Value Labels.

    Procedura Chi-patrat accepta si variabile de tip caracter (string) dar reamintim


recomandarea de principiu ca toate variabilele sa fie declarate de tip numeric.

Procedura: Statistics-Summarize-Crosstabs...

Casetele de configurare sunt urmatoarele:

 În caseta principala Crosstabs se trec variabilele analizate în lista Row(s),


respectiv Columns(s). Pot fi analizate mai multe perechi de variabile simultan.
Rezultatul analizei nu depinde de modul de plasare a variabilelor pe linie sau pe
coloana. Daca de doreste crearea unui grafic al corespondentei dintre variabile, se
va bifa si Display clustered bar charts.
 În caseta Statistics se bifeaza Chi-Square.
 În caseta Cell Display se bifeaza Counts-Observed; Percentages-Row, Column,
Total si Residuals-Unstandardized (bifarea optiunilor este în functie de
informatiile pe care le doreste analistul).

Rezultate
Imaginea prezinta tabelul de corespondenta, având pe linii valorile caracteristicii de sex
iar pe coloane valorile aferente variabilei PTSD. În celulele tabelului se afla valorile
solicitate prin configurarea casetelor. Vom exemplifica pentru celula "feminin/da":

 Count 20 indica numarul femeilor cu PTSD


 %within Sex 40.0% indica procentul femeilor care au manifestat PTSD din totalul
femeilor
 %within PTSD indica procentul femeilor cu PTSD din totalul celor care au
manifestat PTSD
 % of Total indica procentul femeilor cu PTSD din totalul subiectilor
 Residual indica diferenta dintre numarul de femei cu PTSD (frecventa observata)
si frecventa asteptata (în cazul nostru, +10)

În tabelul Chi-Square Tests citim valoarea testului Pearson Chi-Square (16.66) si,


în special, pragul de semnificatie al acestuia (p=0.000 care va fi citit ca p<0.001). În
cazul particular al acestui exemplu, unde tabelul de corespondenta este format din doua
linii si doua coloane, valoarea lui chi-patrat poate fi luata de pe linia Continuitiy
Correction (15.04) cu valoarea aferenta a pragului de semnificatie: p<0.001.

Valoarea testului chi-patrat fiind mai mica decât nivelul alfa 0.05, se respinge
ipoteza de nul si se confirma ipoteza cercetarii: exista o incidenta mai mare a reactiei de
stres postraumatic la femei decât la barbati.

    În raportarea statisticii chi-patrat va fi inclusa valoarea gradelor de libertate (df) si


numarul cazurilor
    Valoarea lui chi-patrat se raporteaza cu doua zecimale

Graficul de tip bara permite vizualizarea relatiei dintre variabile.

Testul Chi-patrat pentru corespondenta (goodness of fit)

Utilizare

Testul chi-patrat pentru gradul de corespondenta se utilizeaza atunci când dorim


sa comparam frecventele observate unei singure variabile categoriale cu frecventele
asteptate, dinainte cunoscute.

Exemplul 1: Avem evaluarea nivelului de inteligenta pe cinci categorii valorice,


de la foarte slab, la foarte bun si dorim sa stim daca distributia acestor calificative se
supune curbei normale, procentele aferente pe curba normala fiind cunoscute (2.5%,
14%, 67%, 14%, 2.5%).

Exemplul 2: Am solicitat unui grup de tineri sa îsi exprime genul muzical preferat
si am obtinut frecvente diferite pentru mai multe genuri de muzica. Problema este daca
diferentele dintre aceste frecvente sunt semnificative, presupunând ca, daca nu ar fi
semnificative proportiile preferintelor pentru genurilor muzicale, ar trebui sa fie identice
(adica, daca ar fi trei genuri, fiecare ar trebui sa întruneasca un procent de 33.33%).

Aranjarea datelor

Vom exemplifica pe o situatie corespunzatoare celui de-al doilea exemplu. Baza


de date se poate constitui fie prin înregistrarea fiecarui caz în parte (având o variabila
pentru genul muzical si o alta pentru exprimarea preferintei fata de acesta), fie, ca în
exemplul anterior, prin înregistrarea rezultatelor sintetice si ponderarea
variabilei gen_muz cu variabila frecv prin operatia Data-Weight cases...:
Procedura: Statstics-NonParametric-Tests-Chi-Square...

În caseta Chi-Square Test se trece variabila analizata în zona Test Variable


List.

Se bifeaza All categories equal, acesta fiind modelul în raport cu care dorim


sa testam frecventele variabilei analizate

Daca am fi dorit sa le testam în raport cu alte frecvente cunoscute, am fi


bifat Values si, apoi, am fi introdus pe rând acele frecvente (scriindu-le în
dreptul lui Values si înregistrându-le prin butonul Add)

Rezultate

Cele doua tabele cu rezultate din Viewer prezinta:

Frecventele observate, frecventele asteptate si valorile reziduale (diferenta


dintre frecvente) pentru cele trei genuri muzicale

Valoarea testului Chi-patrat al corespondentei (12.17), df(2) si p=0.002


Acest rezultat justifica respingerea ipotezei de nul si acceptarea concluziei ca
subiectii diferentele dintre preferintele pentru cele trei genuri muzicale sunt semnificative
si nu se datoreaza variatiei întâmplatoare de esantionare.

S-ar putea să vă placă și