Sunteți pe pagina 1din 24

I).

Probleme fundamentale ale unităţii de curs


1). Introducere în problematica informaticii
2). Noţiuni de bază ale programului SPSS 11.0
3). Calcularea principalelor valori statistice
4). Grafice în SPSS
5). Corelaţie şi asociere

II). Scopul unităţii de curs


a). Asumarea de către studenţi a cadrelor generale de studiu propuse de informatica aplicatã
b). Formarea unor abilităţi de discernere a principalelor metode folosite în cadrul
pachetului SPSS 11.0
c). Familiarizarea cu tehnicile fundamentale de lucru
d). Formarea unei imagini generale asupra rolului pe care îl are informatica statisticã
aplicatã în cadrul mai general al ştiinţelor sociale

III). Obiective operaţionale


a). Studenţii trebuie să distingă situaţiile în care pot folosi oportunitãţile oferite de
programul SPSS 11.0
b). Studenţii trebuie să delimiteze exact principalele metode şi tehnici pe care le utilizează
informatica statisticã aplicatã
c). Studenţii trebuie sã posede cunoştinţele de bazã în ce priveşte utilizarea computerului
d). Studenţii trebuie să ştie să utilizeze în mod practic tehnicile de lucru pe computer
e). Studenţii trebuie să aibă capacitatea sã utilizeze noţiunile predate pentru scopurilor
cercetării sociale

IV). Modalităţi de evaluare vor urmări:


a). Determinarea capacităţii studentului de a opera cu principalele concepte prin lucrãri
practice aplicative efectuate direct pe computer.
1. Introducere în SPSS

Necesitatea prelucrãrii unui volum din ce în ce mai mare de date, a unor cercetãri de teren
cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apãrut astfel de-a
lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative
de calcul pentru aceleaşi proceduri statistice de bazã. În acest curs vom trece în revistã o serie de
proceduri pe care le utilizeazã programul SPSS for Windows, varianta 11.5., program care a fost
lansat de cãtre SPSS Inc. Chicago (alte informaţii puteţi afla pe situl www.spss.com). Traducerea
liberã a acestor iniţiale este « Statistical Package for Social Sciences ». Odatã lansat programul
Windows, dacã SPSS 11.5 este instalat se poate deschide apelând la pictograma specificã sau
cãutând fişierul executabil dupã comenzile Start→Programs→ SPSS for Windows→ SPSS 11.5
for Windows :

Dupã executarea acestor comenzi va apare fereastra generalã a programului SPSS:


In imaginea de mai înainte, în partea superioarã se pot observa, ca şi în programele Word sau
Excel trei bare:
-Bara de titlu care poate include numele fişierului dupã ce va fi salvat
-Bara de meniuri (File, Edit, View, Data etc.)
-Bara cu instrumente (anumite pictograme care sunt de fapt „scurtãturi” ale unor comenzi
care se gãsesc de fapt şi în meniuri).
Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit editor de
date (Data Editor). Pe ecran apare doar o micã parte din acest tablou foarte mare. În acest tabel
identificãm:
-coloanele (care reprezintã variabile statistice)
-liniile (care reprezintã cazuri, persoane supuse cercetãrii, observaţii)
În partea inferioarã de pe ecran apar douã etichete care au funcţii apropiate de nominalizarea
foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse în Data Editor


Variable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:

File- conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care
opereazã programul.
Edit- conţine comenzile pentru editarea, modificarea, copierea, cãutarea textelor
Data- conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea,
alipirea, inversarea, agregarea, selectarea bazelor de date
Transform- conţine comenzi pentru transformãri ale variabilelor şi ale valorilor lor.
Statistics- meniu cu procedurile statistice disponibile în program
Graphs- conţine procedurile pentru reprezentãri grafice diverse
Utilities- conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de
variabile, organizarea meniurilor.
Window- conţine comenzi care permit lucrul cu ferestrele SPSS
Help- conţine informaţii despre program şi despre procedurile statistice folosite.
2. Lucrul cu programul SPSS. Elemente introductive

Obiectul de studiu îl reprezintã bazele de date, fie cã ele sunt create de cãtre utilizator fie cã
sunt utilizate cele existente deja în cadrul programului. Dacã intenţionãm sã deschidem o astfel de
bazã de date este necesar sã urmãm paşii urmãtori: File→Open→Data dupã care apar toate bazele
de date din program:

Dupã cum se observã


bazele de date sunt
ordonate alfabetic iar
din ultimul rând se
deduce cã bazele de
date sunt fişierele de
tipul *.sav!

Obs: înafarã de fişierele de tip *.sav care desemneazã bazele de date, SPSS utilizeazã şi fişiere de
tip *.sps (care conţin varianta scripticã a comenzilor sau fişiere sintaxã) precum şi fişiere de tip
*.spo în care sunt incluse rezultatele cercetãrii statistice).

Dacã deschidem însã rubrica Files of type apar urmãtoarele specificaţii:

Deducem de aici cã SPSS


poate citi şi multe alte
tipuri de fişiere. De
exemplu se pot citi fişiere
de tip Spreadsheet (Excel,
Lotus), de tip dBase, Ascii
sau fişiere din diverse alte
programe statistice. Pentru
precizãri suplimentare se
poate consulta Help-ul
programului sau
Tutorialul acestuia!

Dacã vom alege una din bazele incluse în program şi vom executa dublu clic pe numele
acesteia atunci va apare pe ecran o imagine de tipul urmãtor:
Se observã mai întâi cã este afişat numele bazei respective GSS93 subset apoi putem
observa dispunerea pe coloanã a unor variabile cum ar fi: id (numãr de identificare a individului
care intrã în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritalã), agewed
(vârsta la prima cãsãtorie) etc. Dupã cum se vede fiecare variabilã are un nume prescurtat care
poate include maximum 8 caractere (fãrã spaţii şi fãrã anumite semne speciale) iar dacã vom opri
cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care
se poate extinde pânã la 256 de caractere). Pentru a obţine informaţii amãnunţite despre variabile
putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Pentru aceste
informaţii sau pentru construirea de noi baze de date trebuie cunoscutã în amãnunt problematica
variabilelor statistice.

3. Variabile. Elemente de statisticã descriptivã

Reluãm aici unele consideraţii fãcute într-un curs anterior de statisticã descriptivã datoritã
utilitãţii acestora în cazul de faţã. Aminteam cu acel prilej cã în orice cercetare statistică se obţin
date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o
unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt
reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate
acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din variabile se distinge prin
mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus aceste variabile se
exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel,
pentru Michèle Colin et alii [1995; 32] variabilele sunt de două feluri:
-calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc. )
-cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc. )
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori pe două
tipuri de scale:
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-
una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2). Scală ordinală (ex. Răspunsul la întrebarea “ Cât de mulţumit sunteţi de şeful dv.
direct?”, răspuns: a). absolut de loc; b). puţin ; c) aşa şi aşa; d). mult e).foarte mult ).
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o
relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi denumirea de scală
nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau
categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă
a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie
de ordine (fiecare din variantele a, b, c, …e este plasatã pe un continuum crescător, din care
trebuie aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere
naturale ca în exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?” Răspuns: 1). Cel puţin
o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ; 4). Practic niciodată. Acest
exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată se distinge prin
folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric, cantitativ. Variantele
1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările acestea sunt foarte
importante pentru a nu se confunda acest tip de variabile cu cele cantitative!
În concluzie se poate face distincţia între variabile calitative nominale şi variabile
calitative ordinale.
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată
printr-un număr cardinal şi se împart şi ele în două categorii:
-variabile cantitative continui (ex. Înlţimea unei persoane poate fi orice valoare din
intervalul [140, 220] cm.)
-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un
număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în
matematică mulţimea R, a numerelor reale şi mulţimea N, a numerelor naturale!
Variabilele cantitative uzează de două tipuri de scale:
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc. )
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc. )
Obs : în literatura de specialitate le întâlnim uneori cu nume în limba englezã (interval scale
respectiv ratio scale).
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia
de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de
început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă
provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei
variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât
la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex.
un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune
totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după Michèle Colin
[1995;34]:

Clasificarea variabilelor după tip

Tip de varibilă Scala Exemple

Calitativă Nominală Sex, profesiune


Ordinală Opinie
Cantitativă (discretă sau continuă) De intervale Discretă: anul de naştere
Continuă: temperatură
De rapoarte Discretă: nr. de copii, vârsta
Continuă: înălţime, greutate

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt la


distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru variabilele
calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim că în literatura de
specialitate se întâlneşte noţiunea de variabilă categorială uneori cu sens calitativ alteori cu sens
cantitativ.
Generalizând, variabilele pot fi de douã feluri : cantitative sau calitative iar dintr-un alt
punct de vedere pot fi continue sau discrete (categoriale). Aceste precizãri sunt importante pentru
cã procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile şi de tipul
scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste non-
parametrice în timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste
parametrice. De asemenea este important de precizat cã variabilele trebuie sã îndeplineascã
anumite condiţii înainte de a fi supuse cercetãrii. De exemplu se cere ca o variabilã cantitativã sã
respecte condiţiile : distribuirea normalã a valorilor în esantionul prelevat şi apropierea acestei
distribuţii de distribuţia din populaţia mare din care a fost extras eşantionul.

Obs. : Existã uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauzã cã
distanţele între valorile acestor tipuri de scale sunt diferite pot apare însã confuzii. De exemplu
dacã ne referim la o scalã ordinalã datã de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
rãspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o pãrere
formatã, se pune problema dacã este legitim sã calculãm media aritmeticã a valorilor 1-4 ca şi pe o
scalã de intervale. Se pune deci problema dacã o medie de 1,75 ne poate îndreptãţi sã declarãm cã
suntem aproape mulţumiţi de şeful direct ? Fãrã doar şi poate cã o astfel de valoare are o
reprezentare intuitivã însã în sens strict statistic ea poate fi imprecisã. Sã presupunem cã avem altã
scalã ordinalã ataşatã întrebãrii « Cîte cãrţi de literaturã citiţi pe lunã ? » : 0. Niciuna 1. O carte 2.
Douã cãrţi 3. Trei cãrţi 4. Patru sau mai multe cãrţi. În acest caz o astfel de scalã poate fi tratatã ca
şi o scalã de interval şi deci o medie de, sã spunem, 1,5 cãrţi ni se pare plauzibilã. Diferenţa de
interpretare apare din faptul cã cea de a doua scalã ordinalã are intervale egale. În fiecare caz
rãmâne la latitudinea cercetãtorului de a decide interpretarea corectã a datelor.
O distincţie importantã este şi aceea dintre variabile independente şi variabile dependente. Iatã
câteva exemple :

Variabila independentã Variabila dependentã


Stilul managerului Productivitatea muncii
Sexul respondenţilor Opţiuni electorale
Virsta Preferinţe muzicale

Dupã cum se observã sensul legãturii dintre aceste variabile este univoc relaţia inversã
neputînd fi impusã (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum
sunt desemnate aceste tipuri de variabile diferã de la o cercetare la alta. Prin definiţie variabilele
independente sunt cele care influenţeazã pe cele dependente, fiind stabilite sau introduse de cãtre
cercetãtor. În cercetãrile prin chestionar de obicei se introduce un set de astfel de variabile cu
caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile
(întrebãri). Legãturile dintre astfel de variabile sunt fundamentale în experimentele sociologice.

4. Definirea variabilelor în SPSS

Sã presupunem cã dorim sã construim o nouã bazã de date. Pentru aceasta vom urma
comenzile File→New→Data dupã care apare tabloul gol Data Editor. Vom da apoi dublu clic pe
numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doile registru
numit Variable view în care putem defini variabilele :

În prima coloanã începând din colţul din stânga sus putem introduce numele variabilelor.
Este vorba de numele pe scurt al acestora cu pânã la opt caractere. Apoi vom caracteriza
respectivele variabile conform indicaţiilor care urmeazã : Type, Width, Decimals, Label etc.
De data aceasta tabelul conţine pe fiecare linie orizontalã câte o variabilã iar pe fiecare
coloanã putem caracteriza în amãnunt fiecare variabilã. Vom identifica rolul fiecãrei coloane :
 Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc
spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ).

Dupã ce am introdus numele în prima cãsuţã vom da clic în partea dreaptã a celulei
corespunzãtoare unei variabile şi care este în coloana cu titulatura Type. Va apare urmãtoarea
fereastrã :

Aceastã ferestrã conţine tipurile de variabile posibile mai precis tipurile de variabile dupã valorile
pe care le pot lua acestea :

Numeric-opţiunea pentru valori numerice ; se pot stabili câte cifre au aceste numere, maximum 40
(Width) dar şi cifrele pentru partea zecimalã, maximum 16 (Decimal Places). Opţiunile alese vor
apare în urmãtoarele douã coloane ale tabloului !
Comma- sau virgulã folositã uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în
acest caz separatorul zecimal este un punct
Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz
separatorul zecimal este un virgula
Scientific notation- notaţii speciale de tipul 1,2E3 ceea ce înseamnã 1,2*103
Date-notaţii pentru date calendaristice (conform unui format care poate fi ales).
Dollar-simbolul monedei americane
Custom currency- variabilã numericã cu date dispuse dupã formatul din
Edit→Options→Currency
String- configureazã variabile alfanumerice care pot conţine şiruri de caractere (litere sau
numere). Odatã aleasã aceastã opţiune poate fi indicat numarul de caractere ales.

Obs : cele mai des folosite tipuri sunt Numeric şi String !

 Label- putem desemna numele pe lung al variabilei cu pânã la 256 caractere

 Values- pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul variabilelor
ordinale sau categoriale. Dupã un clic în partea dreaptã a celulei corespunzãtoare din coloana cu
acest titlu va apare fereastra de dialog urmãtoare :
Value dã valoarea numericã a unei
etichete iar Value Label va da
numele etichetei respective. Dupã
aceste operaţii se apasã pe butonul
Add . Opţiunile pot fi apoi schimbate
(Change) sau chiar şterse (Remove).
Iata cum va arãta dupã aceste operaţii
variabila sex cu cele douã alternative
1. masculin, 2. feminin:

Nu uitaţi: la finalul
unor operaţiuni de
acest tip se alege
invariabil OK sau
Continue, altfel
setãrile dorite nu vor
fi preluate de cãtre
program!

 Missing – poate permite operatorului de a desemna valorile lipsã (Missing Values) din cadrul
unei variabile. Pentru inceput, programul are setatã opţiunea fãrã valori lipsã dupã cum apare în
fereastra urmãtoare :

Se poate
opta
totuşi
pentru
dverse
variante:
În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu
ştiu), 98 (Nu rãspund) 99 (Nu s-a aplicat) sã fie considerate lipsã (missing). De asemenea se poate
decide ca pe lângã valorile cuprinse între 97-99 sã mai fie adãugatã o valoare din baza de date.
Necesitatea unor astfel de operaţii este imediatã : se pot face analize eliminând pe moment anumite
valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsã. În cazul variabilelor
alfanumerice trebuie consemnat un spaţiu liber în cãsuţa Discrete missing values deoarece
programul considerã valide chiar şi celulele goale !

 Columns- se poate decide asupra formatului coloanelor în funcţie de mãrimea datelor variabilei

 Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

 Measure- opţiune deosebit de importantã în urma cãreia decidem asupra modalitãţii de


mãsurare a variabilei. Astfel existã trei opţiuni :

- Scale- opţiune pentru variabile numerice fie ele mãsurate pe scale de interval
sau de rapoarte (ratio)
- Ordinal- de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
- Nominal- opţiune pentru variabile alfanumerice în care nu existã nici o relaţie
de ordine între valori (care pot fi cuvinte dar şi numere).
Obs : precizarea corectã a opţiunii measurement este importantã deoarece o serie de proceduri
statistice se referã doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mãrimile tendinţei centrale (media, mediana, modul) nu are sens sã calculãm media !

5. Introducerea variabilelor şi a datelor în SPSS

Odatã fãcute precizãrile de pânã acum putem introduce datele în Data Editor ştiind cã
fiecare coloanã reprezintã o variabilã iar fiecare rînd reprezintã un caz sau o persoanã. Sã
presupunem cã într-un chestionar avem în ordine urmãtorii itemi :

-Codul chestionarului :………………


Q1. Cum trãiţi în prezent faţã de acum 3 ani?
1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rãu 5. Mult mai rãu 9. NS/NR
Q2. Care este principala problemã din localitate pe care fostul primar nu a rezolvat-o?
..............................................................
Vom încerca sã introducem itemii de mai înainte ca şi variabile în baza de date apoi vom
insera valorile pentru primii zece subiecţi interogaţi. Se observã cã primul item reprezintã o
variabilã cantitativã, Q1 reprezintã o variabilã ordinalã iar cea de a treia este o variabilã nominalã.
Înainte de a introduce valorile în bazã vom intra în opţiunea Variable View şi vom defini
variabilele cod, q1_trai, q2_probl. Pentru prima variabilã putem face urmãtoarele opţiuni:

Se observã cã am optat pentru tipul numeric variabila având drept valori numere cu pânã la
trei cifre (Width=3) considerând cã au fost interogate de exemplu 800 de persoane. Codul
chestionarului este un numãr întreg fãrã zecimale (Decimals=0), numele pe lung al variabilei este
„Cod chestionar”, mãsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie sã ţinã cont de specificul acesteia prin precizarea etichetelor
respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).

La final noua variabilã din rândul al doilea va avea urmãtorii parametri :


Se observã cã valorile rãmân numerice dar cu precizarea cã acele numere se referã la
valorile etichetelor : 1,2,3,4,5,9. Aceste numere sunt compuse dintr-o singurã cifrã (Width=1).
Numele pe lung al variabilei este chiar întrebarea din chestionar : „Cum trãiţi în prezent faţã de
acum 3 ani?”.Modalitatea de mãsurare este Ordinal.

Cea de a treia variabilã q2_probl este una nominalã rãspunsurile fiind consemnate ca variante
pentru o întrebare deschisã. Dacã în cazul anterior se vor introduce în baza de date doar numerele
valori ale etichetelor în acest caz trebuie introduse rãspunsurile subiecţilor ca atare. Referitor la
valorile variabilei tipul acesteia este String:

Odatã cu alegerea opţiunii String se impune precizarea numãrului de caractere pe care il


poate avea rãspunsul subiecţilor (în acest caz 100 de caractere). În final aceastã variabilã va avea
caracteristicile de pe poziţia a treia :

Cea de a treia variabilã este de tip String cu variante de pânã la 100 de caractere nominale
sau numerice. Modalitatea de mãsurare este Nominal.

Dupã aceste operaţii putem salva baza de date cu comenzile File→Save As şi noua bazã o putem
numi bazaexemplu. Numele bazei va apare în bara de titlu :
În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din
chestionare. Valorile se introduc în tabel acolo unde celula este activã (apare un chenar în jurul
celulei) apoi se apasã tasta Enter. Sã presupunem cã am introdus primii zece subiecţi chestionaţi.

Pentru a vedea şi
care sunt etichetele
ataşate valorilor
din coloana a doua
putem urma
comenzile View
→ Value Label
sau putem da clic

pe butonul
de pe bara cu
instrumente. Dupã
o astfel de operaţie
vor apare în bazã
şi etichetele
respective :

Se observã cã în cea de a doua coloanã apar doar valorile


numerice ale etichetelor (fapt ce ne aratã cã introducerea datelor
în acest caz este mult facilitatã). În stânga sus se poate vedea şi
poziţionarea celulei active : coloana 2, rândul 11.

 din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare !

 Toate comenzile de pînã acum pot fi executate şi într-un editor de texte sau fişier sintaxã. Acest
fişier care are termninaţia .sps este foarte util când se lucreazã frecvent cu baze mari de date pentru
cã respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie. Ceea ce
am întreprins pânã acum de exemplu putem sã regãsim într-un « jurnal » al aplicaţiilor care poate
fi gãsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi deschis şi ca document Word.
Accesând acest document gãsim urmãtoarele specificaţii care rezumã de fapt construcţia bazei de
date anterioare:
Thu Dec 25 13:42:07 2003 :journaling started
GET
FILE='C:\Documents and Settings\Adrian\My Documents\spss
curs'+
' Id\bazaexemplu.sav'.
SAVE OUTFILE='C:\Documents and Settings\Adrian\My
Documents\spss curs Id\bazaexemplu.sav'
/COMPRESSED.

Un fişier sintaxã poate fi iniţiat dupã comenzile File→New→Syntax.


Chiar dacã nu lucrãm în limbaj sintaxã atunci putem salva comenzile folosite fie alegând comanda
Paste în loc de OK în diverse aplicaţii pe care le efectuãm sau putem sa le salvãm în outputul
aplicaţiilor efectuând comenzile Edit→Option→Viewer→Display Commands in the log. Sã
dãm un exemplu de astfel de comenzi salvate în Output (fişier de rezutate) de exemplu pentru
calcularea mediei vârstei respondenţilor din baya de date GSS93 Subset:

FREQUENCIES
VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .

În acest curs nu vom insista pe aspecte legate de limbajul sintaxã însã recomandãm pentru cei
interesaţi de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995.
De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau
la Help-ul programului.
6. Elemente de statisticã univariatã în SPSS

Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem
aplica datelor statistice. Sã deschidem una din bazele programului anume GSS93 subset (obţinutã
în urma unei anchete pe un eşantion de 1500 de subiecţi):

Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cãrei
caracteristici de bazã le putem identifica în fereastra Variable View:
Variabila este consideratã având valori numerice cu maximum douã cifre, sunt consemnate
trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no
answer”, “non-rãspuns”). În cazul valorilor lipsã (missing values) sunt consemnate valorile 97, 98,
99. Variabila este consideratã ordinalã dar din considerentele spuse mai înainte ea poate fi la fel de
bine considerate variabilã cantitativã discretã.
Pentru aceastã variabilã vom încerca sã calculãm principalele valori statistice. Pentru
aceasta vom apela comenzile urmãtoare: Analyse→Descriptive Statistics→Frequencies:
Se va deschide o nouã
fereastrã de dialog care
conţine douã compartimente.
Pentru ca o varibilã sã poate
fi analizatã trebuie trecutã
din coloana din stânga în cea
din dreapta cu ajutorul
sãgeţii din mijloc (sau dublu
clic) dupã selectare. Sãgeata
se poate acţiona şi invers!

Se observã în aceastã fereastrã şi alte elemente:


 Display frequency tables- opţiune pentru afişarea tabelului frecvenţelor variabilei; uneori
putem renunţa la acest tabel (prin deselectarea opţiunii)
OK-comandã finalã dupã ce am ales toate opţiunile de calcul
Paste- comandã pentru salvarea comenzilor în modul sintaxã
Reset- comandã pentru anularea setãrilor în curs
Statistics- comandã pentru calculul principalelor valori statistice
Charts-comandã pentru reprezentãri grafice
Format- opţiuni privind modalitãţi de afişare ale rezultatelor
Help- comandã de ajutor
Prin acţionarea butonului Statistics se va deschide o nouã fereastrã de dialog :

Se obsevã împãrţirea acestei ferestre


pe o serie de blocuri distincte
I.referitoare
Percentilela Values- comandã
percentile, care
dispersie,
împarte
mãrimilemulţimea
tendinţeivalorilor
centrale statistice
şi mãrimiîn
mai multe grupe de date.
legate de forma distribuţiei statistice.
Existã mai
Pentru multe variante:
calcularea acestor valori este
Quartiles
necesar sã selectãm (împãrţim
procedurile care
mulţimea valorilor în patru
ne intereseazã cu un clic al mausului pãrţi
egale fiecare câte 25%
în pãtrãţelele din faţã lor. Pentru)
deselectare vom Cutdapoints
un clicfor 10 equal
în aceleaşi
groupsVom
pãtrãţele! (împãţire în 10pepãrţilarg
discuta dar
pot fi alese mãrimi între
opţiunile acestei ferestre în cele ce2 şi 100)
urmeazã. Percntile(s)-se poate
specifica o centilã anume.
II. Dispersion- include comenzi pentru calcule privind analiza variaţiei
Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea medie
pãtraticã”, mãrime care ne aratã cu cît se abat în medie valorile seriei de la media lor. Formula de
calcul pentru serii cu frecvenţe este cea cunoscutã din statistica descriptivã deja parcursã:

 x  x
2
i fi
SD 
f i

Obs: în cazul unei serii cu distribuţie normalã sau care se apropie de o astfel de distribuţie
valorile seriei sunt cuprinse în proporţie de 99% în intervalul  x  3SD, x  3SD  .

Variance-o notãm SD2 este mãrimea din care am obţinut deviaţia standard prin extragerea
radicalului. Formula de calcul este sugeratã de ridicarea la pãtrat a formulei anterioare:

 x  x
2
i fi
SD 2 
f i

Range- sau “amplitudinea absolutã” se calculeazã cu formula:

A  x max  x min , valori notate Minimum, Maximum.

S.E. Mean-sau “standard error of mean” (eroarea standard a mediei) ne poate aratã limitele între
care varizã media eşantionului () în cadrul unei populaţii de eşantioane. Se ştie cã un astfel de
interval este foarte util atunci când aproximãm valoarea mediei dintr-o populaţie. Aceastã valoare
nu este cunoscutã decît în urma unor cercetãri exhaustive care sunt deosebit de complexe şi
costisitoare. În practicã majoritatea estimãrilor statistice se fac pe eşantioane iar rezultatele, sub
condiţia reprezentativitãţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras
eşantionul. Dacã notãm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limitã admisã
cu Δx (Δx=t.SE) putem conchide cã, cu o anumitã probabilitate,    x   x , x   x  , interval în
care x este media din eşantion. Atragem atenţia cã în majoritatea tratatelor de statisticã valorile
care se referã la o populaţie statisticã sunt notate cu litere greceşti iar cele referitoare la eşantioane
se vor nota cu litere latine.

III. Central Tendency-grup de valori care poartã denumirea de mãrimile tendinţei centrale (acele
mãrimi care caracterizeazã îm medie întreaga mulţime a valorilor statistice). Se calculeazã de
obicei urmãtoarele valori:

Mean- media aritmeticã ( x ); este calculate cu formulele:

x
x i
, pentru serii simple şi x 
x f
i i
, pentru serii cu frecvenţe
n f i

Median-sau mediana (Me) reprezintã valoarea ataşatã individului sau cazului care împarte
milţimea statisticã în douã pãrţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai mici decât
Me, iar restul de 50% au valori care depãşesc Me. Dupã cum se ştie aceastã mãrime se identificã
uşor într-o serie simplã, la mijlocul acesteia, dupã ce am ordonat valorile respective. Pentru o serie
cu intervale se foloseşte formula:

U me   f ia
Me  x 0  d , formulã în care x0 este limita inferioarã a
fm
intervalului median, d mãrimea acelui interval,  f ia este frecvenţa cumulatã anterioarã
intervalului median, iar fm este frecvenţa corespunzãtoare acelui interval.

Mode-sau modul (dominanta), notat Mo, reprezintã cea mai des întâlnitã valoare dintr-o
serie statisticã sau valoarea care are cea mai mare frecvenţã. Pentru o serie simplã este uşor de
identificat iar pentru serii cu frecvenţe se foloseşte formula:

1
Mo  x0  d , formula în care x 0 este limita inferioarã a intervalului
1   2
modal (corespunzãtor celei mai mari frecvenţe), d este mãrimea respectivului interval, Δ1 şi Δ2 sunt
diferenţele obţinute prin scãderea din frecvenţa intervalului modal a frecvenţelor anterioarã şi
posterioarã acesteia.

Sum-reprezintã suma valorilor seriei

IV. Distribution- valori care se referã la forma distribuţiei statistice. Cuprinde duã tipuri de valori:
skewness (asimetria) şi kurtosis (aplatizarea).
Asimetria se referã la mãsura în care graficul (distribuţia) valorilor este asimetric spre
stînga sau spre dreapta faţã de valoarea medie. Pentru un coefficient, sã îl notãm sk (de fapt
coeficientul Pearson de oblicitate) putem avea valorile:

Sk>0, asimetrie la dreapta (graphic alungit spre dreapta)


Sk<0, asimetrie la stînga (graphic alungit spre stânga)
Sk≈0, distribuţie simetricã

Aplatizarea sau boltirea se referã la compararea distribuţiei cu o curbã normalã. Se poate


calcula un coeficient de aplatizare (îl notãm cu k) iar valorile acestuia pot fi interpretate astfel:

k>0, distribuţie leptocurticã (peste o curbã normalã)


Sk<0, distribuţie platicurticã (sub o curbã normalã)
Sk≈0, distribuţie mezocurticã (tinde la o curbãnormalã)

Obs1. Valorile sk şi k sunt considerate normale dacã se încadreazã în intervalul [-1,96; 1,96].
Obs2. Precizãm cã o curbã normalã este binecunoscuta distribuţie gaussianã, în formã de clopot,
perfect simetricã şi care se bucurã de o serie de proprietãţi fundamentale pentru cercetarea
statisticã. Recomandã şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

V. Values are group midpoints-opţiune utilizatã când valorile seriei sunt grupate simetric în jurul
unei valori anumite.

7. Calcule statistice în SPSS

Toate mãrimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta
toate variantele repective vom da OK şi vom obţine rezultatele într-o altã fereastrã Output1
(specificã afişãrii rezultatelor şi care poate fi salvatã ca şi un fişier de tip *.spo):

Statistics Din aceste date deducem cã sunt valide


1496 de cazuri iar 4 sunt considerate
Highest Year of School Completed
lipsã (acele valori 97,98 şi 99). Media
N Valid 1496
anilor de studii-şcoalã încheiatã din
Missing 4
eşantion este de 13,04 ani iar SE of
Mean 13.04
Mean= 0,079. Jumãtate dintre subiecţi
Std. Error of Mean .079
au media anilor de studiu de pânã în 12
Median 12.00
ani, restul de peste 12. Modul este
Mode 12
unic şi este Mo=12, cea mai des
Std. Deviation 3.074
întâlnitã valoare. Abaterea standard
Variance 9.450
este de 3,074 ani. Coeficientul de
Skewness -.309 asimetrie este de -0,309 deci distribuţia
Std. Error of Skewness .063 este alungitã uşor spre stânga iar
Kurtosis .708 coeficientul boltirii este de 0,708 deci
Std. Error of Kurtosis .126 distribuţia este leptocurticã.
Range 20 Amplitudinea este de 20 ca rezultat din
Minimum 0 diferenţa Maximum-Minimum. Suma
Maximum 20 tuturor valorilor este de 19504 ani.
Sum 19504 Primii 255 dintre respondenţi au pânã
Percentiles 25 12.00 în 123 ani de şcoalã, primii 50% au tot
50 12.00 pânã în 12 ani, primii 75% au pânã în
75 15.75 15,75 ani de scoala.
Dacã apelãm la butonul Charts din aceeaşi fereastrã putem reprezenta graphic seria dupã ce am
ales setãrile care se potrivesc seriei noastre, din fereastra urmãtoare:
Se observã cã am ales Graficul de tip Histogramã
care este specific variabilelor cantitative. Am ales
şi varianta With normal curve deoarece prin
comparaţie se poate stabili şi tendinţa distribuţiei
spre o curbã normalã. Se pot alege şi alte tipuri de
grafice: Bar Charts (grafic cu bare) sau Pie charts
(grafic de tip placintã). Ultimele douã tipuri de
grafice sunt recomandate atunci când variabilele
sunt categoriale pentru o mai bunã vizualizare a
acestora (se recomandã ca numãrul categoriilor sã
nu fie foarte mare pentru a se pãstra lizibilitatea).
Pentru aceste grafice existã şi douã opţiuni:
Frequencies şi Percentages.

Dupã apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:

Highest Year of School Completed


700

600
Se observã în acest grafic
constatãrile din primul tabel:
500 distribuţia se apropie de o curbã
normalã având o uşoarã alungire
400
spre stânga (sk<0) iar din
300
punctul de vedere al boltirii
existând o tendinţã leptocurticã
200 (k>0) adicã dacã am uni
mijloacele dreptunghiurilor
Frequency

Std. Dev = 3.07


100
Mean = 13.0
histogramei tendinţa este de a
0 N = 1496.00 depãşi o curbã normalã.
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

Highest Year of School Completed

În aceeaşi fereastrã Output1 vom gãsi şi tabelul frecvenţelor dupã cum urmeazã:
Highest Year of School Completed Prima coloanã conţine valorile seriei
Cumulative respectiv anii de studii cu cifre
Frequency Percent Valid Percent Percent cuprinse intre 0 şi 20 de ani de
Valid 0 2 .1 .1 .1 studiu. Cea de a doua coloanã
2 4 .3 .3 .4 cuprinde frecvenţele absolute la
4 7 .5 .5 .9 final adãugându-se şi numãrul celor
5 7 .5 .5 1.3 care au rãspuns „don’t know” (DK).
6 20 1.3 1.3 2.7 Cea de a treia coloanã conţine
7 26 1.7 1.7 4.4 frecvenţele relative (procentuale).
8 59 3.9 3.9 8.4 Cea de a patra coloanã conţine
9 45 3.0 3.0 11.4 frecvenţele procentuale valide adicã
10 55 3.7 3.7 15.0 acele frecvenţe recalculate în
11 81 5.4 5.4 20.5 condiţiile în care valorile speciale
12 445 29.7 29.7 50.2 de tip 97, 98, 99 sau altele sunt
13 135 9.0 9.0 59.2 declarate „missing” sau „lipsã”.
14 166 11.1 11.1 70.3 Diferenţele dintre coloanele a treia
15 70 4.7 4.7 75.0 şi a patra nu existã datoritã
16 208 13.9 13.9 88.9 numãrului foarte mic de valori
17 46 3.1 3.1 92.0 missing. Dacã numãrul lor era mai
18 71 4.7 4.7 96.7 mare diferenţa era vizibilã. Ultima
19 24 1.6 1.6 98.3 coloanã conţine frecvenţele
20 25 1.7 1.7 100.0 cumulate calculate dupã coloana din
Total 1496 99.7 100.0 stânga. Algoritmul de calcul este
Missing DK 4 .3 simplu: se scrie prima frecvenţã 0,1
Total 1500 100.0 şi se adunã cu urmãtoarea 0,3,
rezultã 0,4 ş.a.m.d.
Ultima coloanã ajutã la lectura mai rapidã a datelor statistice. De exemplu putem citi cã
70% dintre respondenţii cu rãspunsuri valide au pânã în 14 ani de şcoalã.

Vom cãuta sã calculãm principalele valori statistice şi pentru o variabilã categorialã (fie ea ordinalã
sau nominalã). Pentru acest exerciţiu vom apela la o altã bazã de date BOP_mai-2003_Gallup
FINAL.sav bazã constituitã în urma anchetei la nivel naţional intitulatã Barometru de opinie.
Aceastã bazã poate fi descãrcatã de pe site-ul www.osf.ro. Iatã cum aratã o porţiune din acastã
bazã:

Variabila a12 este o variabilã ordinalã şi reprezintã întrebarea „Cum este viaţa dvs. în
prezent comparativ cu cea de acum un an?”. Aceastã întrebare avea variantele de rãspuns: 1. Mult
mai bunã 2. Mai bunã 3. Aproximativ la fel 4. Mai proastã 5. Mult mai proastã 8. NS 9. NR. Sã
calculãm principalele valori statistice şi sã reprezentãm grafic seria. Vom urma comenzile
Analyze→Descriptive statistics→Frequencies:

De data aceasta valorile statistice care ne intereseazã sunt mult mai puţine datoritã variabilei care
este calitativã. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastrã.
Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:

Statistics Se deduce din acest tabel cã sunt 2100 de rãspunsuri


(chestionare) valide şi nu sunt cazuri lipsã (missing).
Cum este viata dvs. în prezent
comparativ cu cea de acum un Mediana este 3 deci jumãtate din respondenţi au
an?
N Valid 2100 rãspunsuri cel mult cu valoarea „aproximativ la fel”. Cel
Missing 0 mai des întâlnit rãspunds este tot 3 adicã „aproximativ la
Median 3.00 fel”. La fel se pot comenta şi quartilele. Se observã cã în
Mode 3 acest caz media aritmeticã nu avea nici un sens chiar
Percentiles 25 3.00 dacã ar fi fost calculatã. Mai explicit este însã tabelul
50 3.00 frecvenţelor:
75 4.00

Cum este viaþa dvs. în prezent comparativ cu cea de acum un an?

Cumulative
Frequency Percent Valid Percent Percent
Valid mult mai bunã 21 1.0 1.0 1.0
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1
mai proastã 656 31.2 31.2 91.3
mult mai proastã 163 7.8 7.8 99.1
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0

Observãm în acest tabel semnificaţiile coloanelor dupã observaţiile fãcute anterior.


Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru cã respectivele valori
nu au fost considerate ca valori lipsã. Graficul de tip Pie Charts va apare în Output, apoi putem
da dublu clic pe acest grafic şi se va deschide o nouã fereatrã intitulatã Chart1:

Fereastra Chart1 este special constituitã pentru a face diverse modificãri în graficul respectiv. Aici
nu vom aplica decât comenzile Chart→Options→Percent iar dupã eliminarea titlului din
fereastra anterioarã graficul final va fi urmãtorul:
Din bara cu meniuri a
NR ferestrei Chart1 se pot
.3%
selecta multe alte facilitãţi
NS
pentru reprezentãrile
grafice. De exemplu pot fi
.6%
eliminate ponderile foarte
mult mai proastã
mici cum ar fi NS, NR
7.8%
mult mai bunã pentru o mai bunã
mai proastã
1.0% vizualizare a categoriilor
31.2%
mai bunã variabilei! De asemenea
14.7%
pot fi adãugate/eliminate
texte, pot fi fãcute diverse
modificãri etc.Dupã
închiderea ferestrei
rezultatul este salvat în
aproximativ la fel Output.
44.4% Meniul Help poate fi de
ajutor în acest sens!

Obs: o bunã parte dn valorile statistice calculate pentru o variabilã sau mai multe se pot obţine şi
dacã apelãm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile respective
le putem alege din meniul Options.

S-ar putea să vă placă și