Sunteți pe pagina 1din 12

PARTEA II

ANALIZA DATELOR

87 88
În imaginea de mai înainte, în partea superioară se pot observa, ca şi în
I. INTRODUCERE ÎN SPSS programele Word sau Excel trei bare:
- Bara de titlu care poate include numele fişierului după ce va fi salvat
- Bara de meniuri (File, Edit, View, Data etc.)
- Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale
unor comenzi care se găsesc de fapt şi în meniuri).
Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit
Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor editor de date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte
cercetări de teren cât mai rapide etc., a impus dezvoltarea unor pachete statistice mare. În acest tabel identificăm:
performante. Au apărut astfel de-a lungul timpului diverse programe : SAS, SPSS, -coloanele (care reprezintă variabile statistice)
SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleaşi proceduri -liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii)
statistice de bază. În acest curs vom trece în revistă o serie de proceduri pe care le În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de
utilizează programul SPSS for Windows, varianta 11.5., program care a fost lansat de nominalizarea foilor de lucru din programul Excel:
către SPSS Inc. Chicago (alte informaţii puteţi afla pe site-ul www.spss.com).
Traducerea liberă a acestor iniţiale este « Statistical Package for Social Sciences ».
Odată lansat programul Windows, dacă SPSS 11.5 este instalat, programul se poate
deschide apelând la pictograma* specifică sau căutând fişierul executabil după
comenzile Start→Programs→ SPSS for Windows→ SPSS 11.5 for Windows :

Data View- compartimentul rezervat datelor introduse în Data Editor


Variable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:


File - conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere
cu care operează programul.
Edit - conţine comenzile pentru editarea, modificarea, copierea, căutarea textelor
Data - conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau
După executarea acestor comenzi va apare fereastra generală a programului cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date
SPSS: Transform - conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor.
Statistics - meniu cu procedurile statistice disponibile în program
Graphs - conţine procedurile pentru reprezentări grafice diverse
Utilities - conţine comenzi care pot da informaţii despre variabile, pot desemna un set
redus de variabile, organizarea meniurilor.
Window - conţine comenzi care permit lucrul cu ferestrele SPSS
Help - conţine informaţii despre program şi despre procedurile statistice folosite.

I.1. Lucrul cu programul SPSS. Deschiderea unei baze de date


Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse
*
Datorită specificului acestui demers explicativ ca şi în capitolul precedent am renunţat în această parte la din alte surse de către utilizator fie că sunt cele existente deja în cadrul programului.
numirea şi numerotarea figurilor sau tabelelor.

89 90
Dacă intenţionăm să deschidem o astfel de bază de date este necesar să urmăm paşii
următori: File→Open→Data după care apar toate bazele de date din program:

După cum se observă


bazele de date sunt
ordonate alfabetic iar din
ultimul rând se deduce
că bazele de date sunt
fişierele de tipul *.sav!

þ Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere
Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi
de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de
tip *.spo în care sunt incluse rezultatele cercetării statistice). putem observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de
identificare a individului care intră în baza de date), wrkstat (statusul ocupaţional),
Dacă deschidem însă rubrica Files of type apar următoarele specificaţii: marital (situaţia maritală), agewed (vârsta la prima căsătorie) etc. După cum se vede
fiecare variabilă are un nume prescurtat care poate include maximum 8 caractere (fără
Deducem de aici că spaţii şi fără anumite semne speciale) iar dacă vom opri cursorul mausului pe numele
SPSS poate citi şi multe unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde
alte tipuri de fişiere. De până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile putem
exemplu se pot citi alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de
fişiere de tip Spreadsheet asemenea submeniul File→ Display Data Info. Pentru înţelegerea informaţiilor astfel
(Excel, Lotus), de tip obţinute sau pentru construirea de noi baze de date trebuie cunoscută în amănunt
dBase, Ascii sau fişiere problematica variabilelor statistice.
din diverse alte programe
statistice. Pentru preci-
zări suplimentare se poate
consulta Help-ul pro-
I.2. Variabile. Elemente de statistică descriptivă
gramului sau Tutorialul
acestuia! Reluăm aici unele consideraţii de statistică descriptivă datorită utilităţii acestora
în cazul de faţă. După cum se ştie, în orice cercetare statistică se obţin date asupra unor
caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca
dorim să fie salvat după comenzile File→ Save As; putem deci hotărî formatul în care variind de la o unitate la alta de unde şi denumirea de variabilă. De exemplu dacă
va fi salvat. De asemenea cu comenzile File→Open Database putem să transferăm unităţile statistice sunt reprezentate de cetăţenii români cu drept de vot, între aceştia apar
diverse fişiere iar cu comezile File→Read Text Data putem transfera în SPSS chiar diferenţieri după sex, venit, apartenenţă religioasă, profesie, nivelul de educaţie, număr
texte din fişiere tip ASCII Data.. de copii, opţiunea politică etc. Toate acestea din urmă sunt caracteristici sau variabile
statistice. Fiecare din aceste variabile se distinge prin mulţimea valorilor pe care le ia.
După cum se vede şi din enumerarea de mai sus aceste variabile se exprimă prin mărimi
* * *
total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel, pentru
Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:
numele acesteia atunci va apare pe ecran o imagine de tipul următor: - calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
- cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)

91 92
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau confuzii. Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale
anumite valori pe două tipuri de scale: de intervale.
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi
doar într-una din situaţiile: necăsătorit, căsătorit, văduv, divorţat) Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin
2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de et al. [1995; 34]:
şeful dv. direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici
nemulţumit d). mult e).foarte mult. Clasificarea variabilelor după tip
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu Tip de varibilă Scala Exemple
există o relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi Calitativă Nominală Sex, profesiune
denumirea de scală nominală!), cuvinte care nu fac decât să împartă colectivitatea Ordinală Opinie
statistică în mai multe grupe sau categorii. În cel de al doilea caz subiectul care răspunde Cantitativă (discretă sau De intervale Discretă: anul de naştere
este rugat să se plaseze singur pe o treaptă a unei scale care poate fi ascendentă sau continuă) Continuă: temperatură
descendentă, dar în orice caz este presupusă aici o relaţie de ordine (fiecare din De rapoarte Discretă: nr. de copii, vârsta
variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie aleasă una). Continuă: înălţime, greutate
Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca în
exemplul următor:
Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?”
la distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru
Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună;
3). Destul de rar ; 4). Practic niciodată. variabilele calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim
Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala că în literatura de specialitate se întâlneşte noţiunea de variabilă categorială uneori cu
utilizată se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur sens calitativ alteori cu sens cantitativ.
numeric, cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de Generalizând, variabilele pot fi de două feluri : cantitative sau calitative iar
răspunsuri! Precizările acestea sunt foarte importante pentru a nu se confunda acest tip dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizări
de variabile cu cele cantitative! sunt importante pentru că procedurile statistice alese din cadrul programului SPSS
În concluzie se poate face distincţia între variabile calitative nominale şi depind de tipul de variabile şi de tipul scalelor. De exemplu pentru scale nominale sau
variabile calitative ordinale. ordinale sunt obligatorii proceduri sau teste non-parametrice în timp ce pentru scalele de
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este
exprimată printr-un număr cardinal şi se împart şi ele în două categorii: important de precizat că variabilele trebuie să îndeplinească anumite condiţii înainte de a
- variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice fi supuse cercetării. De exemplu se cere ca o variabilă cantitativă să respecte condiţiil :
valoare din intervalul [140, 220] cm.) distribuirea normală a valorilor în esantionul prelevat şi apropierea acestei distribuţii de
- variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, distribuţia din populaţia mare din care a fost extras eşantionul.
dar nu şi un număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
þ Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că
þ Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu
matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)! dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
Variabilele cantitative uzează de două tipuri de scale: răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere
formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.)
o scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)
că suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o
þ Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem
respectiv ratio scale). altă scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale carte 2. Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi
gradaţia de început (ex. 0 0 Celsius) este convenţională pe când în cazul scalei de raporturi tratată ca şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă.
gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O Diferenţa de interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În
altă diferenţă provine din faptul că scala de intervale nu ne permite să stabilim raporturi între fiecare caz rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.
valorile unei variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori
mai cald decât la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste O distincţie importantă este şi aceea dintre variabile independente şi variabile
raporturi (de ex. un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având dependente. Iată câteva exemple :
în vedere că diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite

93 94
După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a
celulei corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va
Variabila independentă Variabila dependentă apare următoarea fereastră :
Stilul managerului Productivitatea muncii
Sexul respondenţilor Opţiuni electorale
Virsta Preferinţe muzicale

După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia
inversă neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul
subiecţilor). Modul cum sunt desemnate aceste tipuri de variabile diferă de la o cercetare
la alta. Prin definiţie variabilele independente sunt cele care influenţează pe cele
dependente, fiind stabilite sau introduse de către cercetător. În cercetările prin chestionar
de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic
în funcţie de care se vor face analize privind celelalte variabile (întrebări). Legăturile
dintre astfel de variabile sunt mai des puse în evidenţă în experimentele sociologice.

I.3. Definirea variabilelor în SPSS


Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom
urma comenzile File→New→Data după care apare tabloul gol Data Editor. Vom da Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile
apoi dublu clic pe numele sav care apare în capul primei coloane. Automat se va după valorile pe care le pot lua acestea :
deschide cel de-al doilea registru numit Variable view în care putem defini variabilele:
- Numeric - opţiunea pentru valori numerice; se poate stabili câte cifre au aceste
numere, maximum 40 (Width) dar şi cifrele pentru partea zecimală, maximum 16
(Decimal Places). Opţiunile alese vor apare în următoarele două coloane ale tabloului !
- Comma - sau virgulă folosită uneori la separarea cifrelor de ordinul miilor,
milioanelor etc. ; în acest caz separatorul zecimal este un punct
- Dot - sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ;
în acest caz separatorul zecimal este un virgula
- Scientific notation - notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*103
- Date - notaţii pentru date calendaristice (conform unui format care poate fi ales).
- Dollar - simbolul monedei americane
- Custom currency - variabilă numerică cu date dispuse după formatul din
În prima coloană începând din colţul din stânga sus putem introduce numele Edit→Options→Currency
variabilelor. Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi - String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere
vom caracteriza respectivele variabile conform indicaţiilor care urmează : Type, Width, sau numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.
Decimals, Label etc. þ Obs : cele mai des folosite tipuri sunt Numeric şi String !
De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe
fiecare coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul - Label - putem desemna numele pe lung al variabilei cu până la 256 caractere
fiecărei coloane: - Values - pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul
variabilelor ordinale sau categoriale. După un clic în partea dreaptă a celulei corespun-
þ Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc zătoare din coloana cu acest titlu va apare fereastra de dialog următoare :
spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_» numit şi
underscore.

95 96
Value dă valoarea numerică a unei În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de
etichete iar Value Label va da tipul 97 (Nu ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing).
numele etichetei respective. După De asemenea se poate decide ca pe lângă valorile cuprinse între 97-99 să mai fie
aceste operaţii se apasă pe butonul adăugată o valoare din baza de date. Necesitatea unor astfel de operaţii este imediată : se
Add. Opţiunile pot fi apoi pot face analize eliminând pe moment anumite valori spaciale iar apoi se pot analiza
schimbate (Change) sau chiar separat chiar valorile considerate lipsă. În cazul variabilelor alfanumerice trebuie
şterse (Remove). Iata cum va arăta consemnat un spaţiu liber în căsuţa Discrete missing values deoarece programul
după aceste operaţii variabila sex consideră valide chiar şi celulele goale !
cu cele două alternative 1.
masculin, 2. feminin: - Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor
variabilei

Nu uitaţi: la finalul unor operaţiuni - Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane
de acest tip se alege invariabil OK
sau Continue, altfel setările dorite - Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de
nu vor fi preluate de către măsurare a variabilei. Astfel există trei opţiuni :
program! • Scale - opţiune pentru variabile numerice fie ele măsurate pe scale de interval
sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori
ale variabilei
• Ordinal - de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
- Missing - poate permite operatorului de a desemna valorile lipsă (Missing Values) • Nominal - opţiune pentru variabile alfanumerice în care nu există nici o relaţie
din cadrul unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă de ordine între valori (care pot fi cuvinte dar şi numere).
după cum apare în fereastra următoare :
þ Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri
statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !

Se poate
opta totuşi I.4. Introducerea variabilelor şi a datelor în SPSS
pentru
diverse Odată făcute precizările de până acum putem introduce datele în Data
variante: Editor ştiind că fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz
sau o persoană. Să presupunem că într-un chestionar avem în ordine următorii itemi :

- Codul chestionarului :………………


Q1. Cum trăiţi în prezent faţă de acum 3 ani?
1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rău 5. Mult mai rău 9. NS/NR
Q2. Care este principala problemă din localitate pe care fostul primar nu a
rezolvat-o?
..............................................................
Vom încerca să introducem itemii de mai înainte ca şi variabile în baza de date
apoi vom insera valorile pentru primii zece subiecţi interogaţi. Se observă că primul
item reprezintă o variabilă cantitativă, Q1 reprezintă o variabilă ordinală iar cea de a
treia este o variabilă nominală. Înainte de a introduce valorile în bază vom intra în
opţiunea Variable View şi vom defini variabilele cod, q1_trai, q2_probl. Pentru prima
variabilă putem face următoarele opţiuni:

97 98
Se observă că am optat pentru tipul numeric variabila având drept valori numere
cu până la trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de
persoane. Codul chestionarului este un număr întreg fără zecimale (Decimals=0),
numele pe lung al variabilei este „Cod chestionar”, măsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin
precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : „Mult mai bine”
apoi Add etc.).

Odată cu alegerea opţiunii String se impune precizarea numărului de caractere


pe care il poate avea răspunsul subiecţilor (în acest caz 100 de caractere). În final
această variabilă va avea caracteristicile de pe poziţia a treia :

Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere
nominale sau numerice. Modalitatea de măsurare este Nominal.
La final noua variabilă din rândul al doilea va avea următorii parametri : După aceste operaţii putem salva baza de date cu comenzile File→Save As şi
noua bază o putem numi bazaexemplu. Numele bazei va apare în bara de titlu :

Se observă că valorile rămân numerice dar cu precizarea că acele numere se


referă la valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o
singură cifră (Width=1). Numele pe lung al variabilei este chiar întrebarea din
chestionar : „Cum trăiţi în prezent faţă de acum 3 ani?”.Modalitatea de măsurare este
Ordinal, dar putea fi lăsată Scale fără să apară nici o confuzie.
Cea de a treia variabilă q2_probl este una nominală răspunsurile fiind
consemnate ca variante pentru o întrebare deschisă. Dacă în cazul anterior se vor În acest moment putem reveni în fereastra Data View pentru a introduce datele
introduce în baza de date doar numerele valori ale etichetelor în acest caz trebuie culese din chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare
introduse răspunsurile subiecţilor ca atare. Referitor la valorile variabilei tipul acesteia un chenar în jurul celulei) apoi se apasă tasta Enter. Să presupunem că am introdus
este String: primii zece subiecţi chestionaţi.

99 100
Pentru a vedea şi care
Thu Dec 25 13:42:07 2003 :journaling started
sunt etichetele ataşate GET
valorilor din coloana a FILE='C:\Documents and Settings\Adrian\My Documents\spss
doua putem urma curs'+
comenzile View → ' Id\bazaexemplu.sav'.
Value Label sau SAVE OUTFILE='C:\Documents and Settings\Adrian\My
putem da clic pe Documents\spss curs Id\bazaexemplu.sav'
/COMPRESSED.
butonul de pe
bara cu instrumente.
După o astfel de
operaţie vor apare în Un fişier sintaxă poate fi iniţiat după comenzile File→New→Syntax.
bază şi etichetele res- Chiar dacă nu lucrăm în limbaj sintaxă atunci putem salva comenzile folosite fie
pective : alegând comanda Paste în loc de OK în diverse aplicaţii pe care le efectuăm sau putem
sa le salvăm în outputul aplicaţiilor efectuând comenzile Edit→Option→Viewer→
Display Commands in the log. Să dăm un exemplu de astfel de comenzi salvate în
Output (fişier de rezutate) de exemplu pentru calcularea mediei vârstei respondenţilor
Se observă că în cea de a doua coloană apar doar valorile din baza de date GSS93 Subset:
numerice ale etichetelor (fapt ce ne arată că introducerea
datelor în acest caz este mult facilitat). În stânga sus se poate FREQUENCIES
vedea şi poziţionarea celulei active : coloana 2, rândul 11. VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .

În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă


recomandăm pentru cei interesaţi de exemplu volumul M. Norusis, SPSSx Advanced
Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor şi
proprietarilor programului www.spss.com sau la Help-ul programului.

I.5. Elemente de statistică univariată în SPSS


Vom analiza în acest capitol câteva din procedurile statistice elementare pe care
le putem aplica datelor statistice. Să deschidem una din bazele programului anume
GSS93 subset (obţinută în urma unei anchete pe un eşantion de 1500 de subiecţi):
þ Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice
necesare !

þ Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă.
Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de
date pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este
nevoie. Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al
aplicaţiilor care poate fi găsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi
deschis şi ca document Word.

Accesând acest document găsim următoarele specificaţii care rezumă de fapt


construcţia bazei de date anterioare:

101 102
Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale - Format - opţiuni privind modalităţi de afişare ale rezultatelor
cărei caracteristici de bază le putem identifica în fereastra Variable View: - Help - comandă de ajutor

Prin acţionarea butonului Statistics se va deschide o nouă fereastră de dialog :

Se obsevă împărţirea acestei ferestre pe o


serie de blocuri distincte referitoare la
percentile, dispersie, mărimile tendinţei
centrale şi mărimi legate de forma
distribuţiei statistice.
Variabila este considerată având valori numerice cu maximum două cifre, sunt Pentru calcularea acestor valori este
consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) necesar să selectăm procedurile care ne
şi 99 (NA, “no answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt interesează cu un clic al mausului în
consemnate valorile 97, 98, 99. Variabila este considerată ordinală dar din cele spuse pătrăţelele din faţă lor. Pentru deselectare
mai înainte ea poate fi la fel de bine considerate variabilă cantitativă discretă. vom da un clic în aceleaşi pătrăţele!
Pentru această variabilă vom încerca să calculăm principalele valori statistice. Vom discuta pe larg opţiunile acestei
Pentru aceasta vom apela comenzile următoare: Analyse→Descriptive Statistics→ ferestre în cele ce urmează.
Frequencies:
I. Percentile Values - comandă care împarte mulţimea valorilor statistice în mai multe
Se va deschide o nouă fereastră de grupe de date.
dialog care conţine două comparti- Există mai multe variante:
mente. Pentru ca o varibilă să Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%)
poate fi analizată trebuie trecută Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi
din coloana din stânga în cea din între 2 şi 100)
dreapta cu ajutorul săgeţii din Percntile(s)- se poate specifica o centilă anume.
mijloc (sau dublu clic) după selec-
tare. Săgeata se poate acţiona şi II. Dispersion - include comenzi pentru calcule privind analiza variaţiei
invers!
Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea
medie pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media
lor. Formula de calcul pentru serii cu frecvenţe este cea cunoscută din statistica descrip-
tivă deja parcursă:

∑ (x − x )
2
fi
SD =
i

∑f i

þ Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distri-
buţie valorile seriei sunt cuprinse în proporţie de 99% în intervalul [x − 3SD, x + 3SD] .

- Variance - o notăm SD2 este mărimea din care am obţinut deviaţia standard prin
Se observă în această fereastră şi alte elemente: extragerea radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei
anterioare:
- Display frequency tables - opţiune pentru afişarea tabelului frecvenţelor variabilei;
uneori putem renunţa la acest tabel (prin deselectarea opţiunii)
SD 2 =
∑ (x − x )
i
2
fi
- OK - comandă finală după ce am ales toate opţiunile de calcul
- Paste - comandă pentru salvarea comenzilor în modul sintaxă ∑f i

- Reset - comandă pentru anularea setărilor în curs - Range - sau “amplitudinea absolută” se calculează cu formula:
- Statistics - comandă pentru calculul principalelor valori statistice
- Charts -comandă pentru reprezentări grafice A = x max − x min , valori notate Minimum, Maximum.

103 104
- S.E. Mean - sau “standard error of mean” (eroarea standard a mediei) ne poate arată Asimetria se referă la măsura în care graficul (distribuţia) valorilor este
limitele între care variză media eşantionului (±) în cadrul unei populaţii de eşantioane. asimetric spre stînga sau spre dreapta faţă de valoarea medie. Pentru un coeficient, să îl
Se ştie că un astfel de interval este foarte util atunci când aproximăm valoarea mediei notăm sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile:
dintr-o populaţie. Această valoare nu este cunoscută decât în urma unor cercetări
exhaustive care sunt deosebit de complexe şi costisitoare. În practică majoritatea Sk>0, asimetrie la dreapta (grafic alungit spre dreapta)
estimărilor statistice se fac pe eşantioane iar rezultatele, sub condiţia reprezentativităţii, Sk<0, asimetrie la stînga (grafic alungit spre stânga)
sunt apoi inferate (extinse) la populaţia mare din care a fost extras eşantionul. Dacă Sk≈0, distribuţie simetrică
notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă cu Δx
(Δx=t.SE) putem conchide că, cu o anumită probabilitate, µ ∈ [x − ∆ x , x + ∆ x ] , Aplatizarea sau boltirea se referă la compararea distribuţiei cu o curbă normală.
Se poate calcula un coeficient de aplatizare (îl notăm cu k) iar valorile acestuia pot fi
interval în care x este media din eşantion. Atragem atenţia că în majoritatea tratatelor de
interpretate astfel:
statistică valorile care se referă la o populaţie statistică sunt notate cu litere greceşti iar
cele referitoare la eşantioane se vor nota cu litere latine.
k>0, distribuţie leptocurtică (peste o curbă normală)
k<0, distribuţie platicurtică (sub o curbă normală)
III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei
k≈0, distribuţie mezocurtică (tinde la o curbă normală)
centrale (acele mărimi care caracterizează îm medie întreaga mulţime a valorilor
statistice). Se calculează de obicei următoarele valori: þ Obs 1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].
þ Obs 2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de
- Mean - media aritmetică ( x ); este calculate cu formulele: clopot, perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea

x=
∑x i
, pentru serii simple şi x =
∑x f
i i
, pentru serii cu frecvenţe
statistică. Recomandăm şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

n ∑f i V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate
simetric în jurul unei valori anumite.
- Median - sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care
împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei
sunt mai mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie I.6. Calcule statistice în SPSS
această mărime se identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am
ordonat valorile respective. Pentru o serie cu intervale se foloseşte formula: Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice.
U me − ∑ f ia Vom seta toate variantele repective vom da OK şi vom obţine rezultatele într-o altă
Me = x 0 + d , formulă în care x0 este limita inferioară a fereastră Output1 (specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de
fm
tip *.spo):
intervalului median, d mărimea acelui interval, ∑f ia este frecvenţa cumulată anterioară
Din aceste date deducem că sunt valide 1496 de
intervalului median, iar fm este frecvenţa corespunzătoare acelui interval. Statistics
cazuri iar 4 sunt considerate lipsă (acele valori
Highest Year of School Completed
N Valid 1496 97,98 şi 99). Media anilor de studii-şcoală încheiată
- Mode - sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare Missing 4 din eşantion este de 13,04 ani iar SE of Mean=
dintr-o serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie Mean 13.04
0,079. Jumătate dintre subiecţi au media anilor de
Median 12.00
simplă este uşor de identificat iar pentru serii cu frecvenţe se foloseşte formula: Mode 12
studiu de până în 12 ani, restul de peste 12. Modul
∆1 Std. Deviation 3.074 este unic şi este Mo=12, cea mai des întâlnită
Mo = x0 + d , formula în care x0 este limita inferioară a intervalului Variance 9.450 valoare. Abaterea standard este de 3,074 ani.
∆1 + ∆ 2 Skewness -.309
Coeficientul de asimetrie este de -0,309 deci
Std. Error of Skewness .063
modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval, Kurtosis .708
distribuţia este alungită uşor spre stânga iar
Δ1 şi Δ2 sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a Std. Error of Kurtosis .126 coeficientul boltirii este de 0,708 deci distribuţia
frecvenţelor anterioară şi posterioară acesteia.
Range 20 este leptocurtică. Amplitudinea este de 20 ca
Minimum 0
rezultat din diferenţa Maximum-Minimum. Suma
- Sum - reprezintă suma valorilor seriei Maximum 20
tuturor valorilor este de 19504 ani. Primii 255
Sum 19504
Percentiles 25 12.00 dintre respondenţi au până în 123 ani de şcoală,
IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde două 50 12.00
primii 50% au tot până în 12 ani, primii 75% au
tipuri de valori: skewness (asimetria) şi kurtosis (aplatizarea). 75 15.75
până în 15,75 ani de şcoală.

105 106
Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta grafic seria după Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu
ce am ales setările care se potrivesc seriei noastre, din fereastra următoare: putem citi că 70% dintre respondenţii cu răspunsuri valide au până în 14 ani de şcoală.
Se observă că am ales graficul de tip Histogramă
care este specific variabilelor cantitative continue. Vom căuta să calculăm principalele valori statistice şi pentru o variabilă
Am ales şi varianta With normal curve deoarece categorială (fie ea ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă
prin comparaţie se poate stabili şi tendinţa bază de date BOP_mai-2003_Gallup FINAL.sav bază constituită în urma anchetei la
distribuţiei spre o curbă normală (dacă este cazul). nivel naţional intitulată Barometru de opinie. Această bază poate fi descărcată de pe site-
Se pot alege şi alte tipuri de grafice: Bar Charts ul www.osf.ro. Iată cum arată o porţiune din acastă bază:
(grafic cu bare) sau Pie charts (grafic de tip
placintă). Ultimele două tipuri de grafice sunt
recomandate atunci când variabilele sunt
categoriale pentru o mai bună vizualizare a acestora
(se recomandă ca numărul categoriilor să nu fie
foarte mare pentru a se păstra lizibilitatea). Pentru
aceste grafice există şi două opţiuni: Frequencies
şi Percentages.
După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:

Highest Year of School Completed


700 Se observă în acest grafic constatările din
600
primul tabel: distribuţia se apropie de o curbă
500
normală având o uşoară alungire spre stânga Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa
(sk<0) iar din punctul de vedere al boltirii dvs. în prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de
400
existând o tendinţă leptocurtică (k>0) adică răspuns: 1. Mult mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai
300
dacă am uni mijloacele dreptunghiurilor
200
histogramei tendinţa este de a depăşi o curbă
proastă 8. NS 9. NR. Să calculăm principalele valori statistice şi să reprezentăm grafic
seria. Vom urma comenzile Analyze→Descriptive statistics→Frequencies:
Freque ncy

100
Std. Dev = 3.07
Mean = 13.0
normală.
0
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0
N = 1496.00
În aceeaşi fereastră Output1 vom găsi şi
Highest Year of School Completed
tabelul frecvenţelor după cum urmează:

Highest Year of School Completed Prima coloană conţine valorile seriei respectiv
Cumulative anii de studii cu cifre cuprinse intre 0 şi 20 de ani
Frequency Percent Valid Percent Percent
Valid 0 2 .1 .1 .1
de studiu. Cea de a doua coloană cuprinde
2 4 .3 .3 .4 frecvenţele absolute la final adăugându-se şi
4 7 .5 .5 .9 numărul celor care au răspuns „don’t know”
5 7 .5 .5 1.3
6 20 1.3 1.3 2.7
(DK).
7 26 1.7 1.7 4.4 Cea de a treia coloană conţine frecvenţele relative
8 59 3.9 3.9 8.4 (procentuale). Cea de a patra coloană conţine
9 45 3.0 3.0 11.4
10 55 3.7 3.7 15.0
frecvenţele procentuale valide adică acele
11 81 5.4 5.4 20.5 frecvenţe recalculate în condiţiile în care valorile
12 445 29.7 29.7 50.2 speciale de tip 97, 98, 99 sau altele sunt declarate
13 135 9.0 9.0 59.2
„missing” sau „lipsă”. Diferenţele dintre De data aceasta valorile statistice care ne interesează sunt mult mai puţine
14 166 11.1 11.1 70.3
coloanele a treia şi a patra nu există datorită datorită variabilei care este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor
15 70 4.7 4.7 75.0
16 208 13.9 13.9 88.9 numărului foarte mic de valori missing. Dacă care este setat în prima fereastră. Graficul va fi de tipul Pie charts. Rezultatele le
17 46 3.1 3.1 92.0 numărul lor era mai mare diferenţa era vizibilă. obţinem tot în Output1:
18 71 4.7 4.7 96.7
19 24 1.6 1.6 98.3
Ultima coloană conţine frecvenţele cumulate
20 25 1.7 1.7 100.0 calculate după coloana din stânga. Algoritmul de
Total 1496 99.7 100.0 calcul este simplu: se scrie prima frecvenţă 0,1 şi
Missing DK 4 .3
se adună cu următoarea 0,3, rezultă 0,4 ş.a.m.d.
Total 1500 100.0

107 108
Statistics Se deduce din acest tabel că sunt 2100 de Din bara cu meniuri a
Cum este viaţa dvs. în prezent răspunsuri (chestionare) valide şi nu sunt ferestrei Chart1 se pot
NR
comparativ cu cea de acum un an? cazuri lipsă (missing). Mediana este 3 deci .3% selecta multe alte facilităţi
N Valid 2100 jumătate din respondenţi au răspunsuri cel mult NS pentru reprezentările grafice.
Missing 0 cu valoarea „aproximativ la fel”. Cel mai des .6% De exemplu pot fi eliminate
Median 3.00 întâlnit răspunds este tot 3 adică „aproximativ mult mai proastã ponderile foarte mici cum ar
Mode 3 la fel”. La fel se pot comenta şi quartilele. Se 7.8%
mult mai bunã
fi NS, NR pentru o mai bună
Percentiles 25 3.00 mai proastã 1.0% vizualizare a categoriilor
observă că în acest caz media aritmetică nu 31.2%
50 3.00 avea nici un sens chiar dacă ar fi fost calculată. mai bunã variabilei! De asemenea pot fi
75 4.00 14.7% adăugate/eliminate texte, pot
Mai explicit este însă tabelul frecvenţelor:
fi făcute diverse modificări
etc.După închiderea ferestrei
Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?
rezultatul este salvat în
aproximativ la fel
Cumulative Output.
Frequency Percent Valid Percent Percent 44.4% Meniul Help poate fi de
Valid mult mai bunã 21 1.0 1.0 1.0 ajutor în acest sens!
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1 þ Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine
mai proastã 656 31.2 31.2 91.3 şi dacă apelăm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile
mult mai proastã 163 7.8 7.8 99.1 respective le putem alege din meniul Options.
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0

Observăm în acest tabel semnificaţiile coloanelor după observaţiile făcute


anterior. Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru că
respectivele valori nu au fost considerate ca valori lipsă. Graficul de tip Pie Charts va
apare în Output, apoi putem da dublu clic pe acest grafic şi se va deschide o nouă
fereatră intitulată Chart1:

Fereastra Chart1 este special constituită pentru a face diverse modificări în graficul
respectiv. Aici nu vom aplica decât comenzile Chart→Options→Percent iar după
eliminarea titlului din fereastra anterioară graficul final va fi următorul:

109 110