Sunteți pe pagina 1din 24

ANALIZA STATISTICĂ A DATELOR

ÎN ŞTIINŢELE SOCIALE

87
88
I. INTRODUCERE ÎN SPSS*

Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor


cercetări de teren cât mai rapide etc., a impus dezvoltarea unor pachete statistice
performante. Au apărut astfel de-a lungul timpului diverse programe : SAS, SPSS,
SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleaşi proceduri
statistice de bază. În acest volum vom trece în revistă o serie de proceduri pe care le
utilizează programul SPSS for Windows, varianta 11.5 cu unele competări din versiunile
superioare, program care a fost lansat de către SPSS Inc. Chicago (alte informaţii puteţi
afla pe site-ul www.spss.com). Traducerea liberă a acestor iniţiale este «Statistical
Package for Social Sciences ». Odată lansat programul Windows, dacă SPSS 11.5 este
instalat, programul se poate deschide apelând la pictograma * specifică sau căutând
fişierul executabil după comenzile Start→Programs→ SPSS for Windows→ SPSS
11.5 for Windows :

După executarea acestor comenzi va apare fereastra generală a programului


SPSS:

*
Acest volum conţine capitole preluate şi adăugite din volumul autorului
*
Datorită specificului acestui demers explicativ ca şi în capitolul precedent am renunţat în această parte la
numirea şi numerotarea figurilor sau tabelelor.

89
În imaginea de mai înainte, în partea superioară se pot observa, ca şi în
programele Word sau Excel trei bare:
- Bara de titlu care poate include numele fişierului după ce va fi salvat
- Bara de meniuri (File, Edit, View, Data etc.)
- Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale
unor comenzi care se găsesc de fapt şi în meniuri).
Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit
editor de date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte
mare. În acest tabel identificăm:
-coloanele (care reprezintă variabile statistice)
-liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii)
În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de
nominalizarea foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse în Data Editor


Variable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:


File - conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere
cu care operează programul.
Edit - conţine comenzile pentru editarea, modificarea, copierea, căutarea textelor
Data - conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau
cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date
Transform - conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor.
Statistics - meniu cu procedurile statistice disponibile în program
Graphs - conţine procedurile pentru reprezentări grafice diverse
Utilities - conţine comenzi care pot da informaţii despre variabile, pot desemna un set
redus de variabile, organizarea meniurilor.
Window - conţine comenzi care permit lucrul cu ferestrele SPSS
Help - conţine informaţii despre program şi despre procedurile statistice folosite.

I.1. Lucrul cu programul SPSS. Deschiderea unei baze de date


Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse
din alte surse de către utilizator fie că sunt cele existente deja în cadrul programului.

90
Dacă intenţionăm să deschidem o astfel de bază de date este necesar să urmăm paşii
următori: File→Open→Data după care apar toate bazele de date din program:

După cum se observă


bazele de date sunt
ordonate alfabetic iar din
ultimul rând se deduce
că bazele de date sunt
fişierele de tipul *.sav!

þ Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere
de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de
tip *.spo în care sunt incluse rezultatele cercetării statistice).

Dacă deschidem însă rubrica Files of type apar următoarele specificaţii:

Deducem de aici că
SPSS poate citi şi multe
alte tipuri de fişiere. De
exemplu se pot citi
fişiere de tip Spreadsheet
(Excel, Lotus), de tip
dBase, Ascii sau fişiere
din diverse alte programe
statistice. Pentru preci-
zări suplimentare se poate
consulta Help-ul pro-
gramului sau Tutorialul
acestuia!

Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss
dorim să fie salvat după comenzile File→ Save As; putem deci hotărî formatul în care
va fi salvat. De asemenea cu comenzile File→Open Database putem să transferăm
diverse fişiere iar cu comezile File→Read Text Data putem transfera în SPSS chiar
texte din fişiere tip ASCII Data..

* * *

Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe
numele acesteia atunci va apare pe ecran o imagine de tipul următor:

91
Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi
putem observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de
identificare a individului care intră în baza de date), wrkstat (statusul ocupaţional),
marital (situaţia maritală), agewed (vârsta la prima căsătorie) etc. După cum se vede
fiecare variabilă are un nume prescurtat care poate include maximum 8 caractere (fără
spaţii şi fără anumite semne speciale) iar dacă vom opri cursorul mausului pe numele
unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde
până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile putem
alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de
asemenea submeniul File→ Display Data Info. Pentru înţelegerea informaţiilor astfel
obţinute sau pentru construirea de noi baze de date trebuie cunoscută în amănunt
problematica variabilelor statistice.

I.2. Variabile. Elemente de statistică descriptivă


Reluăm aici unele consideraţii de statistică descriptivă datorită utilităţii acestora
în cazul de faţă. După cum se ştie, în orice cercetare statistică se obţin date asupra unor
caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca
variind de la o unitate la alta de unde şi denumirea de variabilă. De exemplu dacă
unităţile statistice sunt reprezentate de cetăţenii români cu drept de vot, între aceştia apar
diferenţieri după sex, venit, apartenenţă religioasă, profesie, nivelul de educaţie, număr
de copii, opţiunea politică etc. Toate acestea din urmă sunt caracteristici sau variabile
statistice. Fiecare din aceste variabile se distinge prin mulţimea valorilor pe care le ia.
După cum se vede şi din enumerarea de mai sus aceste variabile se exprimă prin mărimi
total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel, pentru
Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:
- calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
- cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)

92
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau
anumite valori pe două tipuri de scale:
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi
doar într-una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de
şeful dv. direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici
nemulţumit d). mult e).foarte mult.
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu
există o relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi
denumirea de scală nominală!), cuvinte care nu fac decât să împartă colectivitatea
statistică în mai multe grupe sau categorii. În cel de al doilea caz subiectul care răspunde
este rugat să se plaseze singur pe o treaptă a unei scale care poate fi ascendentă sau
descendentă, dar în orice caz este presupusă aici o relaţie de ordine (fiecare din
variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie aleasă una).
Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca în
exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?”
Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună;
3). Destul de rar ; 4). Practic niciodată.
Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala
utilizată se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur
numeric, cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de
răspunsuri! Precizările acestea sunt foarte importante pentru a nu se confunda acest tip
de variabile cu cele cantitative!
În concluzie se poate face distincţia între variabile calitative nominale şi
variabile calitative ordinale.
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă,
exprimată printr-un număr cardinal şi se împart şi ele în două categorii:
- variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice
valoare din intervalul [140, 220] cm.)
- variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii,
dar nu şi un număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
þ Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în
matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)!
Variabilele cantitative uzează de două tipuri de scale:
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.)
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)
þ Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale
respectiv ratio scale).
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale
gradaţia de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi
gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O
altă diferenţă provine din faptul că scala de intervale nu ne permite să stabilim raporturi între
valorile unei variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori
mai cald decât la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste
raporturi (de ex. un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având
în vedere că diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite

93
confuzii. Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale
de intervale.

Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin


et al. [1995; 34]:

Clasificarea variabilelor după tip


Tip de varibilă Scala Exemple
Calitativă Nominală Sex, profesiune
Ordinală Opinie
Cantitativă (discretă sau De intervale Discretă: anul de naştere
continuă) Continuă: temperatură
De rapoarte Discretă: nr. de copii, vârsta
Continuă: înălţime, greutate

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt


la distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru
variabilele calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim
că în literatura de specialitate se întâlneşte noţiunea de variabilă categorială uneori cu
sens calitativ alteori cu sens cantitativ.
Generalizând, variabilele pot fi de două feluri : cantitative sau calitative iar
dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizări
sunt importante pentru că procedurile statistice alese din cadrul programului SPSS
depind de tipul de variabile şi de tipul scalelor. De exemplu pentru scale nominale sau
ordinale sunt obligatorii proceduri sau teste non-parametrice în timp ce pentru scalele de
interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este
important de precizat că variabilele trebuie să îndeplinească anumite condiţii înainte de a
fi supuse cercetării. De exemplu se cere ca o variabilă cantitativă să respecte condiţiil :
distribuirea normală a valorilor în esantionul prelevat şi apropierea acestei distribuţii de
distribuţia din populaţia mare din care a fost extras eşantionul.

þ Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că
distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu
dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere
formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe
o scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm
că suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o
reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem
altă scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O
carte 2. Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi
tratată ca şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă.
Diferenţa de interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În
fiecare caz rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.

O distincţie importantă este şi aceea dintre variabile independente şi variabile


dependente. Iată câteva exemple :

94
Variabila independentă Variabila dependentă
Stilul managerului Productivitatea muncii
Sexul respondenţilor Opţiuni electorale
Virsta Preferinţe muzicale

După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia
inversă neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul
subiecţilor). Modul cum sunt desemnate aceste tipuri de variabile diferă de la o cercetare
la alta. Prin definiţie variabilele independente sunt cele care influenţează pe cele
dependente, fiind stabilite sau introduse de către cercetător. În cercetările prin chestionar
de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic
în funcţie de care se vor face analize privind celelalte variabile (întrebări). Legăturile
dintre astfel de variabile sunt mai des puse în evidenţă în experimentele sociologice.

I.3. Definirea variabilelor în SPSS


Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom
urma comenzile File→New→Data după care apare tabloul gol Data Editor. Vom da
apoi dublu clic pe numele sav care apare în capul primei coloane. Automat se va
deschide cel de-al doilea registru numit Variable view în care putem defini variabilele:

În prima coloană începând din colţul din stânga sus putem introduce numele
variabilelor. Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi
vom caracteriza respectivele variabile conform indicaţiilor care urmează : Type, Width,
Decimals, Label etc.
De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe
fiecare coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul
fiecărei coloane:

þ Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc
spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_» numit şi
underscore.

95
După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a
celulei corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va
apare următoarea fereastră :

Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile
după valorile pe care le pot lua acestea :

- Numeric - opţiunea pentru valori numerice; se poate stabili câte cifre au aceste
numere, maximum 40 (Width) dar şi cifrele pentru partea zecimală, maximum 16
(Decimal Places). Opţiunile alese vor apare în următoarele două coloane ale tabloului !
- Comma - sau virgulă folosită uneori la separarea cifrelor de ordinul miilor,
milioanelor etc. ; în acest caz separatorul zecimal este un punct
- Dot - sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ;
în acest caz separatorul zecimal este un virgula
- Scientific notation - notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*103
- Date - notaţii pentru date calendaristice (conform unui format care poate fi ales).
- Dollar - simbolul monedei americane
- Custom currency - variabilă numerică cu date dispuse după formatul din
Edit→Options→Currency
- String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere
sau numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.
þ Obs : cele mai des folosite tipuri sunt Numeric şi String !
- Label - putem desemna numele pe lung al variabilei cu până la 256 caractere
- Values - pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul
variabilelor ordinale sau categoriale. După un clic în partea dreaptă a celulei corespun-
zătoare din coloana cu acest titlu va apare fereastra de dialog următoare :

96
Value dă valoarea numerică a unei
etichete iar Value Label va da
numele etichetei respective. După
aceste operaţii se apasă pe butonul
Add. Opţiunile pot fi apoi
schimbate (Change) sau chiar
şterse (Remove). Iata cum va arăta
după aceste operaţii variabila sex
cu cele două alternative 1.
masculin, 2. feminin:

Nu uitaţi: la finalul unor operaţiuni


de acest tip se alege invariabil OK
sau Continue, altfel setările dorite
nu vor fi preluate de către
program!

- Missing - poate permite operatorului de a desemna valorile lipsă (Missing Values)


din cadrul unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă
după cum apare în fereastra următoare :

Se poate
opta totuşi
pentru
diverse
variante:

97
În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de
tipul 97 (Nu ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing).
De asemenea se poate decide ca pe lângă valorile cuprinse între 97-99 să mai fie
adăugată o valoare din baza de date. Necesitatea unor astfel de operaţii este imediată : se
pot face analize eliminând pe moment anumite valori spaciale iar apoi se pot analiza
separat chiar valorile considerate lipsă. În cazul variabilelor alfanumerice trebuie
consemnat un spaţiu liber în căsuţa Discrete missing values deoarece programul
consideră valide chiar şi celulele goale !

- Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor


variabilei

- Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

- Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de


măsurare a variabilei. Astfel există trei opţiuni :
• Scale - opţiune pentru variabile numerice fie ele măsurate pe scale de interval
sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori
ale variabilei
• Ordinal - de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
• Nominal - opţiune pentru variabile alfanumerice în care nu există nici o relaţie
de ordine între valori (care pot fi cuvinte dar şi numere).

þ Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri
statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !

I.4. Introducerea variabilelor şi a datelor în SPSS


Odată făcute precizările de până acum putem introduce datele în Data
Editor ştiind că fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz
sau o persoană. Să presupunem că într-un chestionar avem în ordine următorii itemi :

- Codul chestionarului :………………


Q1. Cum trăiţi în prezent faţă de acum 3 ani?
1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rău 5. Mult mai rău 9. NS/NR
Q2. Care este principala problemă din localitate pe care fostul primar nu a
rezolvat-o?
..............................................................
Vom încerca să introducem itemii de mai înainte ca şi variabile în baza de date
apoi vom insera valorile pentru primii zece subiecţi interogaţi. Se observă că primul
item reprezintă o variabilă cantitativă, Q1 reprezintă o variabilă ordinală iar cea de a
treia este o variabilă nominală. Înainte de a introduce valorile în bază vom intra în
opţiunea Variable View şi vom defini variabilele cod, q1_trai, q2_probl. Pentru prima
variabilă putem face următoarele opţiuni:

98
Se observă că am optat pentru tipul numeric variabila având drept valori numere
cu până la trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de
persoane. Codul chestionarului este un număr întreg fără zecimale (Decimals=0),
numele pe lung al variabilei este „Cod chestionar”, măsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin
precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : „Mult mai bine”
apoi Add etc.).

La final noua variabilă din rândul al doilea va avea următorii parametri :

Se observă că valorile rămân numerice dar cu precizarea că acele numere se


referă la valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o
singură cifră (Width=1). Numele pe lung al variabilei este chiar întrebarea din
chestionar : „Cum trăiţi în prezent faţă de acum 3 ani?”.Modalitatea de măsurare este
Ordinal, dar putea fi lăsată Scale fără să apară nici o confuzie.
Cea de a treia variabilă q2_probl este una nominală răspunsurile fiind
consemnate ca variante pentru o întrebare deschisă. Dacă în cazul anterior se vor
introduce în baza de date doar numerele valori ale etichetelor în acest caz trebuie
introduse răspunsurile subiecţilor ca atare. Referitor la valorile variabilei tipul acesteia
este String:

99
Odată cu alegerea opţiunii String se impune precizarea numărului de caractere
pe care il poate avea răspunsul subiecţilor (în acest caz 100 de caractere). În final
această variabilă va avea caracteristicile de pe poziţia a treia :

Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere
nominale sau numerice. Modalitatea de măsurare este Nominal.
După aceste operaţii putem salva baza de date cu comenzile File→Save As şi
noua bază o putem numi bazaexemplu. Numele bazei va apare în bara de titlu :

În acest moment putem reveni în fereastra Data View pentru a introduce datele
culese din chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare
un chenar în jurul celulei) apoi se apasă tasta Enter. Să presupunem că am introdus
primii zece subiecţi chestionaţi.

100
Pentru a vedea şi care
sunt etichetele ataşate
valorilor din coloana a
doua putem urma
comenzile View →
Value Label sau
putem da clic pe

butonul de pe
bara cu instrumente.
După o astfel de
operaţie vor apare în
bază şi etichetele res-
pective :

Se observă că în cea de a doua coloană apar doar valorile


numerice ale etichetelor (fapt ce ne arată că introducerea
datelor în acest caz este mult facilitat). În stânga sus se poate
vedea şi poziţionarea celulei active : coloana 2, rândul 11.

þ Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice
necesare !

þ Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă.
Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de
date pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este
nevoie. Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al
aplicaţiilor care poate fi găsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi
deschis şi ca document Word.

Accesând acest document găsim următoarele specificaţii care rezumă de fapt


construcţia bazei de date anterioare:

101
Thu Dec 25 13:42:07 2003 :journaling started
GET
FILE='C:\Documents and Settings\Adrian\My Documents\spss
curs'+
' Id\bazaexemplu.sav'.
SAVE OUTFILE='C:\Documents and Settings\Adrian\My
Documents\spss curs Id\bazaexemplu.sav'
/COMPRESSED.

Un fişier sintaxă poate fi iniţiat după comenzile File→New→Syntax.


Chiar dacă nu lucrăm în limbaj sintaxă atunci putem salva comenzile folosite fie
alegând comanda Paste în loc de OK în diverse aplicaţii pe care le efectuăm sau putem
sa le salvăm în outputul aplicaţiilor efectuând comenzile Edit→Option→Viewer→
Display Commands in the log. Să dăm un exemplu de astfel de comenzi salvate în
Output (fişier de rezutate) de exemplu pentru calcularea mediei vârstei respondenţilor
din baza de date GSS93 Subset:

FREQUENCIES
VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .

În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă


recomandăm pentru cei interesaţi de exemplu volumul M. Norusis, SPSSx Advanced
Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor şi
proprietarilor programului www.spss.com sau la Help-ul programului.

I.5. Elemente de statistică univariată în SPSS


Vom analiza în acest capitol câteva din procedurile statistice elementare pe care
le putem aplica datelor statistice. Să deschidem una din bazele programului anume
GSS93 subset (obţinută în urma unei anchete pe un eşantion de 1500 de subiecţi):

102
Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale
cărei caracteristici de bază le putem identifica în fereastra Variable View:

Variabila este considerată având valori numerice cu maximum două cifre, sunt
consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”)
şi 99 (NA, “no answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt
consemnate valorile 97, 98, 99. Variabila este considerată ordinală dar din cele spuse
mai înainte ea poate fi la fel de bine considerate variabilă cantitativă discretă.
Pentru această variabilă vom încerca să calculăm principalele valori statistice.
Pentru aceasta vom apela comenzile următoare: Analyse→Descriptive Statistics→
Frequencies:
Se va deschide o nouă fereastră de
dialog care conţine două comparti-
mente. Pentru ca o varibilă să
poate fi analizată trebuie trecută
din coloana din stânga în cea din
dreapta cu ajutorul săgeţii din
mijloc (sau dublu clic) după selec-
tare. Săgeata se poate acţiona şi
invers!

Se observă în această fereastră şi alte elemente:


- Display frequency tables - opţiune pentru afişarea tabelului frecvenţelor variabilei;
uneori putem renunţa la acest tabel (prin deselectarea opţiunii)
- OK - comandă finală după ce am ales toate opţiunile de calcul
- Paste - comandă pentru salvarea comenzilor în modul sintaxă
- Reset - comandă pentru anularea setărilor în curs
- Statistics - comandă pentru calculul principalelor valori statistice
- Charts -comandă pentru reprezentări grafice

103
- Format - opţiuni privind modalităţi de afişare ale rezultatelor
- Help - comandă de ajutor

Prin acţionarea butonului Statistics se va deschide o nouă fereastră de dialog :

Se obsevă împărţirea acestei ferestre pe o


serie de blocuri distincte referitoare la
percentile, dispersie, mărimile tendinţei
centrale şi mărimi legate de forma
distribuţiei statistice.
Pentru calcularea acestor valori este
necesar să selectăm procedurile care ne
interesează cu un clic al mausului în
pătrăţelele din faţă lor. Pentru deselectare
vom da un clic în aceleaşi pătrăţele!
Vom discuta pe larg opţiunile acestei
ferestre în cele ce urmează.
I. Percentile Values - comandă care împarte mulţimea valorilor statistice în mai multe
grupe de date.
Există mai multe variante:
Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%)
Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi
între 2 şi 100)
Percntile(s)- se poate specifica o centilă anume.

II. Dispersion - include comenzi pentru calcule privind analiza variaţiei

Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea
medie pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media
lor. Formula de calcul pentru serii cu frecvenţe este cea cunoscută din statistica descrip-
tivă deja parcursă:
∑ (x − x )
2
fi
SD =
i

∑f i

þ Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distri-
buţie valorile seriei sunt cuprinse în proporţie de 99% în intervalul [x − 3SD, x + 3SD] .

- Variance - o notăm SD2 este mărimea din care am obţinut deviaţia standard prin
extragerea radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei
anterioare:

SD 2
=
∑ (x − x )
i
2
fi
∑f i
- Range - sau “amplitudinea absolută” se calculează cu formula:

A = x max − x min , valori notate Minimum, Maximum.

104
- S.E. Mean - sau “standard error of mean” (eroarea standard a mediei) ne poate arată
limitele între care variză media eşantionului (±) în cadrul unei populaţii de eşantioane.
Se ştie că un astfel de interval este foarte util atunci când aproximăm valoarea mediei
dintr-o populaţie. Această valoare nu este cunoscută decât în urma unor cercetări
exhaustive care sunt deosebit de complexe şi costisitoare. În practică majoritatea
estimărilor statistice se fac pe eşantioane iar rezultatele, sub condiţia reprezentativităţii,
sunt apoi inferate (extinse) la populaţia mare din care a fost extras eşantionul. Dacă
notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă cu Δx
(Δx=t.SE) putem conchide că, cu o anumită probabilitate, µ ∈ [x − ∆ x , x + ∆ x ] ,
interval în care x este media din eşantion. Atragem atenţia că în majoritatea tratatelor de
statistică valorile care se referă la o populaţie statistică sunt notate cu litere greceşti iar
cele referitoare la eşantioane se vor nota cu litere latine.

III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei


centrale (acele mărimi care caracterizează îm medie întreaga mulţime a valorilor
statistice). Se calculează de obicei următoarele valori:

- Mean - media aritmetică ( x ); este calculate cu formulele:

x=
∑x i
, pentru serii simple şi x =
∑x f
i i
, pentru serii cu frecvenţe
n ∑f i

- Median - sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care
împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei
sunt mai mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie
această mărime se identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am
ordonat valorile respective. Pentru o serie cu intervale se foloseşte formula:
U me − ∑ f ia
Me = x0 + d , formulă în care x0 este limita inferioară a
fm
intervalului median, d mărimea acelui interval, ∑f ia este frecvenţa cumulată anterioară
intervalului median, iar fm este frecvenţa corespunzătoare acelui interval.

- Mode - sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare
dintr-o serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie
simplă este uşor de identificat iar pentru serii cu frecvenţe se foloseşte formula:
∆1
Mo = x0 + d , formula în care x0 este limita inferioară a intervalului
∆1 + ∆ 2
modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval,
Δ1 şi Δ2 sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a
frecvenţelor anterioară şi posterioară acesteia.
- Sum - reprezintă suma valorilor seriei

IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde două
tipuri de valori: skewness (asimetria) şi kurtosis (aplatizarea).

105
Asimetria se referă la măsura în care graficul (distribuţia) valorilor este
asimetric spre stînga sau spre dreapta faţă de valoarea medie. Pentru un coeficient, să îl
notăm sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile:

Sk>0, asimetrie la dreapta (grafic alungit spre dreapta)


Sk<0, asimetrie la stînga (grafic alungit spre stânga)
Sk≈0, distribuţie simetrică

Aplatizarea sau boltirea se referă la compararea distribuţiei cu o curbă normală.


Se poate calcula un coeficient de aplatizare (îl notăm cu k) iar valorile acestuia pot fi
interpretate astfel:

k>0, distribuţie leptocurtică (peste o curbă normală)


k<0, distribuţie platicurtică (sub o curbă normală)
k≈0, distribuţie mezocurtică (tinde la o curbă normală)

þ Obs 1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].
þ Obs 2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de
clopot, perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea
statistică. Recomandăm şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate
simetric în jurul unei valori anumite.

I.6. Calcule statistice în SPSS


Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice.
Vom seta toate variantele repective vom da OK şi vom obţine rezultatele într-o altă
fereastră Output1 (specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de
tip *.spo):
Din aceste date deducem că sunt valide 1496 de
Statistics
cazuri iar 4 sunt considerate lipsă (acele valori
Highest Year of School Completed
N Valid 1496 97,98 şi 99). Media anilor de studii-şcoală încheiată
Missing 4 din eşantion este de 13,04 ani iar SE of Mean=
Mean 13.04 0,079. Jumătate dintre subiecţi au media anilor de
Median 12.00
Mode 12
studiu de până în 12 ani, restul de peste 12. Modul
Std. Deviation 3.074 este unic şi este Mo=12, cea mai des întâlnită
Variance 9.450 valoare. Abaterea standard este de 3,074 ani.
Skewness -.309
Std. Error of Skewness .063
Coeficientul de asimetrie este de -0,309 deci
Kurtosis .708 distribuţia este alungită uşor spre stânga iar
Std. Error of Kurtosis .126 coeficientul boltirii este de 0,708 deci distribuţia
Range 20
este leptocurtică. Amplitudinea este de 20 ca
Minimum 0
Maximum 20
rezultat din diferenţa Maximum-Minimum. Suma
Sum 19504 tuturor valorilor este de 19504 ani. Primii 255
Percentiles 25 12.00 dintre respondenţi au până în 123 ani de şcoală,
50 12.00
primii 50% au tot până în 12 ani, primii 75% au
75 15.75
până în 15,75 ani de şcoală.

106
Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta grafic seria după
ce am ales setările care se potrivesc seriei noastre, din fereastra următoare:
Se observă că am ales graficul de tip Histogramă
care este specific variabilelor cantitative continue.
Am ales şi varianta With normal curve deoarece
prin comparaţie se poate stabili şi tendinţa
distribuţiei spre o curbă normală (dacă este cazul).
Se pot alege şi alte tipuri de grafice: Bar Charts
(grafic cu bare) sau Pie charts (grafic de tip
placintă). Ultimele două tipuri de grafice sunt
recomandate atunci când variabilele sunt
categoriale pentru o mai bună vizualizare a acestora
(se recomandă ca numărul categoriilor să nu fie
foarte mare pentru a se păstra lizibilitatea). Pentru
aceste grafice există şi două opţiuni: Frequencies
şi Percentages.
După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:

Highest Year of School Completed


700 Se observă în acest grafic constatările din
600
primul tabel: distribuţia se apropie de o curbă
500
normală având o uşoară alungire spre stânga
(sk<0) iar din punctul de vedere al boltirii
400
existând o tendinţă leptocurtică (k>0) adică
300
dacă am uni mijloacele dreptunghiurilor
200
histogramei tendinţa este de a depăşi o curbă
Frequency

100
Std. Dev = 3.07
Mean = 13.0
normală.
0
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0
N = 1496.00
În aceeaşi fereastră Output1 vom găsi şi
Highest Year of School Completed
tabelul frecvenţelor după cum urmează:

Highest Year of School Completed Prima coloană conţine valorile seriei respectiv
Cumulative anii de studii cu cifre cuprinse intre 0 şi 20 de ani
Frequency Percent Valid Percent Percent
Valid 0 2 .1 .1 .1 de studiu. Cea de a doua coloană cuprinde
2 4 .3 .3 .4 frecvenţele absolute la final adăugându-se şi
4 7 .5 .5 .9
numărul celor care au răspuns „don’t know”
5 7 .5 .5 1.3
6 20 1.3 1.3 2.7
(DK).
7 26 1.7 1.7 4.4 Cea de a treia coloană conţine frecvenţele relative
8 59 3.9 3.9 8.4 (procentuale). Cea de a patra coloană conţine
9 45 3.0 3.0 11.4
10 55 3.7 3.7 15.0
frecvenţele procentuale valide adică acele
11 81 5.4 5.4 20.5 frecvenţe recalculate în condiţiile în care valorile
12 445 29.7 29.7 50.2 speciale de tip 97, 98, 99 sau altele sunt declarate
13 135 9.0 9.0 59.2
„missing” sau „lipsă”. Diferenţele dintre
14 166 11.1 11.1 70.3
15 70 4.7 4.7 75.0
coloanele a treia şi a patra nu există datorită
16 208 13.9 13.9 88.9 numărului foarte mic de valori missing. Dacă
17 46 3.1 3.1 92.0 numărul lor era mai mare diferenţa era vizibilă.
18 71 4.7 4.7 96.7
19 24 1.6 1.6 98.3
Ultima coloană conţine frecvenţele cumulate
20 25 1.7 1.7 100.0 calculate după coloana din stânga. Algoritmul de
Total 1496 99.7 100.0 calcul este simplu: se scrie prima frecvenţă 0,1 şi
Missing DK
Total 1500
4
100.0
.3
se adună cu următoarea 0,3, rezultă 0,4 ş.a.m.d.

107
Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu
putem citi că 70% dintre respondenţii cu răspunsuri valide au până în 14 ani de şcoală.

Vom căuta să calculăm principalele valori statistice şi pentru o variabilă


categorială (fie ea ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă
bază de date BOP_mai-2003_Gallup FINAL.sav bază constituită în urma anchetei la
nivel naţional intitulată Barometru de opinie. Această bază poate fi descărcată de pe site-
ul www.osf.ro. Iată cum arată o porţiune din acastă bază:

Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa
dvs. în prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de
răspuns: 1. Mult mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai
proastă 8. NS 9. NR. Să calculăm principalele valori statistice şi să reprezentăm grafic
seria. Vom urma comenzile Analyze→Descriptive statistics→Frequencies:

De data aceasta valorile statistice care ne interesează sunt mult mai puţine
datorită variabilei care este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor
care este setat în prima fereastră. Graficul va fi de tipul Pie charts. Rezultatele le
obţinem tot în Output1:

108
Statistics Se deduce din acest tabel că sunt 2100 de
Cum este viaţa dvs. în prezent răspunsuri (chestionare) valide şi nu sunt
comparativ cu cea de acum un an? cazuri lipsă (missing). Mediana este 3 deci
N Valid 2100 jumătate din respondenţi au răspunsuri cel mult
Missing 0 cu valoarea „aproximativ la fel”. Cel mai des
Median 3.00 întâlnit răspunds este tot 3 adică „aproximativ
Mode 3 la fel”. La fel se pot comenta şi quartilele. Se
Percentiles 25 3.00 observă că în acest caz media aritmetică nu
50 3.00 avea nici un sens chiar dacă ar fi fost calculată.
75 4.00 Mai explicit este însă tabelul frecvenţelor:

Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?

Cumulative
Frequency Percent Valid Percent Percent
Valid mult mai bunã 21 1.0 1.0 1.0
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1
mai proastã 656 31.2 31.2 91.3
mult mai proastã 163 7.8 7.8 99.1
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0

Observăm în acest tabel semnificaţiile coloanelor după observaţiile făcute


anterior. Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru că
respectivele valori nu au fost considerate ca valori lipsă. Graficul de tip Pie Charts va
apare în Output, apoi putem da dublu clic pe acest grafic şi se va deschide o nouă
fereatră intitulată Chart1:

Fereastra Chart1 este special constituită pentru a face diverse modificări în graficul
respectiv. Aici nu vom aplica decât comenzile Chart→Options→Percent iar după
eliminarea titlului din fereastra anterioară graficul final va fi următorul:

109
Din bara cu meniuri a
NR ferestrei Chart1 se pot
.3% selecta multe alte facilităţi
NS pentru reprezentările grafice.
.6% De exemplu pot fi eliminate
mult mai proastã ponderile foarte mici cum ar
7.8% fi NS, NR pentru o mai bună
mult mai bunã
mai proastã 1.0% vizualizare a categoriilor
31.2% mai bunã variabilei! De asemenea pot fi
14.7% adăugate/eliminate texte, pot
fi făcute diverse modificări
etc.După închiderea ferestrei
rezultatul este salvat în
aproximativ la fel
Output.
44.4% Meniul Help poate fi de
ajutor în acest sens!

þ Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine
şi dacă apelăm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile
respective le putem alege din meniul Options.

110

S-ar putea să vă placă și