Sunteți pe pagina 1din 73

PROIECTAREA ŞI ANALIZA

BAZELOR DE DATE S.P.S.S.

Cornelia Mureşan
CUPRINS

PROIECTAREA ŞI
GESTIONAREA BAZELOR DE DATE ____________________________ 1

Modul 1. Aspecte elementare ___________________________________________ 4


1.1. Baze de date şi sistem de gestiune a bazelor de date (SGBD) ____________________ 4
1.2. Facilităţi oferite de un SGBD _____________________________________________ 5
1.3. Pachetul statistic SPSS __________________________________________________ 6
1.4. Procesul de analiză statistică a datelor ______________________________________ 8
Modul 2. Introducere în SPSS sub Windows _____________________________ 10
2.1. Pornirea SPSS ________________________________________________________ 10
2.2. Sistemul de meniuri ___________________________________________________ 11
2.3. Linia de pictograme ___________________________________________________ 12
2.4. Casetele de dialog _____________________________________________________ 12
2.5. Asistenţa “on-line” ____________________________________________________ 14
Modul 3. Proiectarea unei baze de date _________________________________ 15
3.1. Utilizarea Editorului de date SPSS ________________________________________ 15
3.2. Un exemplu__________________________________________________________ 15
3.3. Proiectarea schemei de codificare_________________________________________ 16
3.4. Definirea variabilelor __________________________________________________ 16
3.5. Atribuirea numelui variabilei ____________________________________________ 16
3.6. Schimbarea tipului variabilei ____________________________________________ 18
3.7. Adăugarea etichetelor descriptive pentru variabile şi valori _____________________ 20
3.8. Atribuirea valorilor omise_______________________________________________ 21
3.9. Valori omise sistem şi valori omise utilizator ________________________________ 23
3.10. Schimbarea formatului coloanei _________________________________________ 24
3.11. Definirea variabilelor adiţionale _________________________________________ 25
3.12. Introducerea datelor __________________________________________________ 25
3.13. Editarea datelor ______________________________________________________ 25
3.14. Examinarea informaţiilor în Editorul de date _______________________________ 25
3.15. Utilizarea etichetelor variabilelor în proceduri ______________________________ 26
3.16. Salvarea fişierului de date ______________________________________________ 27
3.17. Diferenţa dintre Save As şi Save ________________________________________ 28
3.18. Ieşirea din SPSS _____________________________________________________ 28
Modul 4. Utilizarea Editorului de date II. Facilităţi adiţionale ______________ 30
4.1. Utilizarea şabloanelor __________________________________________________ 30
4.2. Aplicarea unui dicţionar de date __________________________________________ 33
4.3. Obţinerea informaţiilor despre variabile ____________________________________ 34
4.4. Obţinerea unui catalog de coduri _________________________________________ 35
Modul 5. Căutarea erorilor şi analize statistice exploratorii_________________ 36
5.1. Procedura Frequencies _________________________________________________ 36
5.2. Procedura Crosstabs ___________________________________________________ 37
5.3. Procedura Descriptives _________________________________________________ 39
5.4. Procedura Means _____________________________________________________ 40
5.5. Procedura Explore ____________________________________________________ 42
5.6. Depistarea erorilor ____________________________________________________ 43

2
Modul 6. Gestionarea bazei de date_____________________________________ 47
6.1. Transformarea variabilelor cu procedura Recode _____________________________ 47
6.2. Recodificarea valorilor în aceeaşi variabilă _________________________________ 48
6.3. Căutarea datelor în Editorul de date _______________________________________ 50
6.4. Obţinerea unei variabile noi prin recodificare _______________________________ 51
6.5. Recodificarea automată_________________________________________________ 52
6.6. Obţinerea unor variabile noi prin calcul numeric _____________________________ 53
6.7. Obţinerea unor variabile noi prin calcul cu date calendaristice __________________ 56
6.8. Selectarea cazurilor după diverse criterii ___________________________________ 59
6.9. Împărţirea cazurilor în grupe de analizat ___________________________________ 60
6.10. Ordonarea cazurilor după diverse criterii __________________________________ 63
6.11. Ponderarea cazurilor __________________________________________________ 64
Modul 7. Întocmirea rapoartelor _______________________________________ 65
7.1. Rapoarte de tip listă ___________________________________________________ 66
7.2. Rapoarte cu informaţii rezumative pe linii __________________________________ 68
7.3. Rapoarte cu informaţii rezumative pe coloane _______________________________ 70
BIBLIOGRAFIE ____________________________________________________ 73

3
Modul 1. Aspecte elementare

1.1. Baze de date şi sistem de gestiune a bazelor de date (SGBD)

În esenţă o bază de date reprezintă informaţii organizate pentru a putea fi uşor


referite. Cărţile de telefon, mersul trenurilor, inventarele sunt baze de date. Ele pot fi
întâlnite în orice domeniu unde se gestionează volume mari de date: în domeniul
economic, cel ştiinţific sau în cel social.

În domeniul informaticii, termenul de “bază de date” are un sens mai larg decât
cel utilizat deja foarte curent în viaţa de zi cu zi. Aici, prin bază de date se înţelege
ansamblul fişierelor de date, a programelor de prelucrare şi a altor tipuri de fişiere care
acoperă necesităţile unei anumite aplicaţii. În cazul concret al unor aplicaţii de tip
dBASE, sau FoxPro sau Access, categoria de „alte tipuri de fişiere” este reprezentată
prin:

- fişiere de tip query (cerere), care permit realizarea unui view (vedere) sau
operaţiuni de actualizare asupra unuia sau mai multor fişier de date,

- fişiere de tip form (formular), care permit aranjarea într-o anumită formă, pe
ecran, a setului de câmpuri ce defineşte structura unui fişier de date,

- fişiere de tip report (raport), ce permit obţinerea unor rapoarte în formă


convenabilă,

- fişier de tip label (etichetă), ce permit obţinerea unor etichete folosind


înregistrările unui fişier de date.

Conceptele de bază utilizate în legătură cu bazele de date informatice sunt:


câmpul, data şi înregistrarea.

Câmp – unitate elementară a structurii unei baze de date.

Dată – valoarea introdusă într-un câmp.

Înregistrare – setul de date ale diferitelor câmpuri definite în structura unui fişier
de date, date care se referă la un anumit obiect.

Bazele de date au fost iniţial gestionate manual, pe hârtie, ceea ce însemna


completarea multor formulare şi organizarea acestora după anumite criterii (alfabetic,
tematic etc.). Operaţia de căutare într-o astfel de bază de date era anevoioasă iar criteriile
de căutare erau limitate la criteriile după care erau organizate informaţiile. Presupunând,
de exemplu, că organizarea se făcea alfabetic, dacă criteriul de căutare era tematic nu se
putea face o căutare eficientă. Aceste neajunsuri se soluţionează în cadrul unui sistem de
gestiune a bazelor de date (SGBD) cum sunt dBASE şi Fox - sub DOS - sau Access sub

4
Windows, unde înregistrările pot fi introduse în baza de date, apoi organizate rapid după
orice criteriu şi regăsite, într-un timp scurt.

Calculatoarele au o capacitate foarte mare de a memora informaţii. O singură


dischetă poate conţine informaţia din 20-40 de pagini de carte de telefon. Un disc poate
înmagazina informaţia mai multor zeci de cărţi, iar un CD-ROM poate stoca o bibliotecă.
Capacitatea de memorare nu este singurul aspect important care dă putere unui sistem de
gestiune a bazelor de date. La fel de importantă este posibilitatea gestionării şi
manipulării datelor (sortarea rapidă, căutarea după diverse criterii), precum şi viteza
prelucrării.

Sistem de gestiune a bazelor de date (SGBD) – totalitatea programelor utilizate


pentru crearea, interogarea şi întreţinerea unei baze de date. Prelucrarea datelor
stocate într-o bază de date se face sub controlul sistemului de gestiune a bazelor
de date.

1.2. Facilităţi oferite de un SGBD

În comparaţie cu bazele de date neinformatizate:


 Capacitate mare de stocare
 Putere şi viteză mare la regăsirea datelor
 Ocupă loc puţin, în comparaţie cu mobilierul necesar stocării datelor

Ajutor oferit la:


 Localizarea instantanee a informaţiei
 Actualizarea datelor
 Adăugarea unor înregistrări noi
 Punerea în ordine alfabetică, în ordinea priorităţilor etc.
 Adaptarea bazei de date la necesităţi şi / sau utilizatori noi
 Integrarea rezultatelor în alte pachete software

Programe pentru:
 Definirea unor forme (video-formulare) concepute de utilizator
 Efectuarea unor calcule statistice, ştiinţifice sau financiare
 Filtrarea datelor oferite unor categorii de utilizatori
 Sortări
 Obţinerea unor rapoarte
 Obţinerea etichetelor pentru corespondenţă

5
1.3. Pachetul statistic SPSS

În istoria dezvoltării sistemelor de gestiune a bazelor de date ultimele tipuri


apărute, dar şi cele care au devenit cele mai populare, gestionează aşa-numitele “baze de
date relaţionale”. Acestea se prezintă întotdeauna sub formă de tabele, în care
înregistrările ocupă o linie, iar câmpurile ocupă o coloană. La intersecţia rândului cu
coloana se va găsi data, sau valoarea particulară a unui un câmp pentru o anumită
înregistrare. Bazele de date relaţionale seamănă mult cu tabelele ce s-ar putea construi
într-o foaie de calcul, desigur respectând anumite structuri de date apriori definite.

Pachetul statistic Statistical Package for Social Sciences (SPSS), în varianta lui
sub Windows, aduce pentru prima dată un Editor pentru date care permite construirea
unei baze de date relaţionale. Deşi acest produs software nu este un SGBD consacrat, el
poate fi utilizat cu succes în aplicaţiile din domeniul ştiinţelor sociale.

Aici volumul datelor nu este atât de impresionant ca în cazul domeniului


economic, legăturile între diverse fişiere de date nu sunt chiar atât de complexe,
problemele de securitate legate de accesul partajat între mai mulţi utilizatori în timp real
nu se pun cu atâta acuitate, iar celelalte probleme legate de facilităţile oferite în mod
tradiţional de un SGBD sunt şi de SPSS rezolvate cu succes.

În plus, SPSS este dotat cu o serie de programe statistice extrem de puternice,


special construite pentru analiza statistică a datelor din domeniul social.

Iată de ce considerăm că pentru profesiunea de asistent social, unde se culeg,


prelucrează şi interpretează date sociale, este mai avantajoasă însuşirea pachetului SPSS,
chiar dacă pentru început suntem interesaţi doar de partea de management al datelor.
Odată definite structurile necesare, apoi completate fişierele cu informaţiile adecvate,
vom putea beneficia atât de partea de management al datelor oferite de Editorul de date
cât şi de partea de analiză statistică atât de necesară în domeniul social.

Terminologia folosită la SPSS diferă faţă de cea consacrată la un SGBD, dar


diferenţele sunt doar formale, pentru că în esenţă conceptele sunt aceleaşi.

Tabel 1.1. Echivalenţa terminologiei utilizate într-un SGBD şi în SPSS

un SGBD SPSS (lb.română) SPSS (lb.engleză)

Bază de date Fişier de date Data File

Înregistrare Caz Case

Câmp Variabilă Variable

Dată Valoare Value

6
-
Figura 1.1. Procesul de cercetare

Teorie
&
Practică

Ipoteze

Conceptualizare
Operaţionalizare

Selectarea subiecţilor

Anchetă/ Design
Design corelaţional experimental
 Grupuri experimentale ,
 Interviuri
grupuri de control
 Adminstrări de  Observaţii/administrare
chestionare teste sau chestionare

Colectare date

Analiză date (SPSS)

Interpretare rezultate

7
1.4. Procesul de analiză statistică a datelor

În principal, SPSS a fost conceput pentru duce la capăt un studiu de cercetare.


Desigur, într-o cercetare analiza statistică intervine mult mai târziu. Înainte de a ne aşeza
în faţa unui calculator şi a folosi un SGBD sau modulul Data Editor (Editorul de date) al
SPSS pentru a introduce datele, se presupune că am parcurs paşi importanţi în procesul
unei cercetări. Principalele faze ale unei cercetări sunt schiţate în Figura 1.1.

Computerul şi pachetul de programe SPSS intervine doar în partea de analiză a


datelor. În faţa calculatorului activitatea se desfăşoară practic în patru paşi care, de obicei,
se reiau de mai multe ori (vezi figura 1.2).

Aducerea Pas 1
datelor în
memoria
internă

Pas 2
Selectarea unei
proceduri

Pas 3
Selectarea
variabilelor

Transformări fişier de date Pas 4


Interpretarea
rezultatelor

Figura 1.2. Procesul de analiză a datelor

Pasul care ne interesează în prima fază este cel de introducere a datelor într-un
fişier de date sau, după caz, de aducere al datelor în memoria internă.

8
1. Aducerea datelor în memoria internă

 Datele de gestionat (sau, după caz, de analizat) pot fi date salvate


anterior într-un fişier de date SPSS.

 Se pot citi date din fişiere proprii altor produse software. Cele mai
cunoscute sunt bazele de date dBASE, FoxPro sau Access; fişierele tip
foaie de calcul produse cu tabelatorul Excel; sau fişiere simple de tip
text ASCII, produse cu orice editoare de texte. Desigur, pentru a
“importa” astfel de date, trebuie respectate nişte reguli clare şi trebuie
furnizate informaţii suplimentare de conversie, în cadrul procedurilor
iniţiate de SPSS.

 Se pot introduce direct datele în formatul propriu fişierelor de date


SPSS cu ajutorul modulului Data Editor.

2. Selectarea unei proceduri

Sistemul de meniuri al SPSS oferă o gamă de comenzi care permit selectarea şi


declanşarea a patru categorii de proceduri:

 Proceduri de gestionare a datelor

 Proceduri de obţinere a listelor şi rapoartelor

 Proceduri de construire a tabelelor statistice, de calcul a unor indicatori


statistici, de căutare a unor modele explicative

 Proceduri pentru crearea unor grafice

3. Selectarea variabilelor

Cele mai multe din procedurile SPSS cer precizarea variabilelor. Acestea sunt
listate în casetele de dialog ale procedurilor, iar utilizatorul va trebui să indice
variabilele care intră în analiză.

4. Interpretarea rezultatelor

După ce toate elementele de informaţii necesare execuţiei unei proceduri au fost


precizate de către utilizator, procedura se va declanşa şi va produce rezultatele.
Ele trebuie privite cu atenţie şi interpretate.

O şedinţă de lucru cu SPSS constă în mai multe reluări a celor patru faze: în mai
multe operaţiuni de management al datelor, sau mai multe proceduri de analiză a datelor.
De multe ori ceea ce hotărâm să facem în continuare depinde de rezultatele unei
operaţiuni anterioare. Utilizatorul (sau după caz, cercetătorul) foloseşte SPSS ca un
asistent docil, dar foarte puternic şi capabil, ale cărui performanţe depind de abilitatea
cercetătorului de a lua deciziile cele mai potrivite.

9
Modul 2. Introducere în SPSS sub Windows

SPSS sub Windows funcţionează sub controlul unui mediu grafic GUI (Graphical
User Interface), utilizând un sistem de meniuri descriptive şi casete de dialog care
uşurează mult interfaţa om-calculator. Cele mai multe operaţiuni sunt declanşate şi duse
la capăt prin punctare şi clic cu mouse-ul, chiar dacă lucrul cu tastatura este oricând o a
doua alternativă.

2.1. Pornirea SPSS

Ca orice produs sub Windows, SPSS se porneşte prin dublu-clic pe pictograma sa


aflată fie pe ecranul dispay-ului, fie în lista de Programe al meniului Start.

Figura 2.1. Ferestrele Data Editor şi Output Navigator

Ceea ce vom vedea prima dată va fi modulul Data Editor (vezi figura 2.1). În
afara acestui modul, SPSS mai are încă trei: modulul Output Navigator – modul care se

10
ocupă de afişarea rezultatelor prelucrărilor, precum şi de modificarea aspectului lor - ,
modulul Chart Editor – modul care facilitează manipularea şi gestionarea graficelor
obţinute prin SPSS – şi modulul Sintax - . pentru păstrarea comenzilor SPSS în vederea
repetării lor într-o altă şedinţă de lucru.

Fiecare fereastră are o linie de titlu. Sub ea se găseşte meniul principal al


aplicaţiei. Fereastra Editorului de date conţine datele de analizat sub forma unui tabel
asemănător unei foi de calcul, iar orice rezultat produs de o procedură SPSS se va
introduce în fereastra Output al Navigatorului de rezultate. Iniţial se va deschide doar
fereastra Editorului de date. Fereastra Navigatorului de rezultate se deschide îndată ce
vreo procedură produce rezultate. In afara acestor două ferestre mai pot apare, la nevoie,
alte două ferestre: fereastra Editorului de grafice sau fereastra Sintax .

2.2. Sistemul de meniuri

SPSS v7.5 poate lucra într-o varietate de moduri, dar majoritatea procedurilor pot
fi accesate făcând selecţii din meniuri. Meniul principal al Editorului de date, cea mai
utilizată componentă a pachetului, conţine nouă meniuri:

File. Se utilizează pentru a crea fişiere noi SPSS, pentru a deschide fişiere
existente, pentru a citi fişiere de tip spreadsheet sau bază de date create cu alte
programe software. Meniul File se mai utilizează pentru crearea şi deschiderea
altor fişiere SPSS, adică fişiere de grafice, de rezultate sau de sintaxă.

Edit. Se utilizează pentru a modifica sau copia texte din ferestrele de rezultate sau
de sintaxă.

View. Se utilizează pentru a modifica aspectul ecranului în funcţie de opţiunile


utilizatorului.

Data. Se utilizează pentru a face schimbări globale la fişierul de date, cum ar fi


agregarea datelor din mai multe fişiere, împărţirea cazurilor în subseturi. Aceste
schimbări sunt doar temporare şi nu afectează fişierul permanent cu excepţia
cazului când se cere explicit acest lucru (prin salvare).

Transform. Se utilizează pentru a face schimbări variabilelor selectate din


fişierul de date şi pentru a calcula variabile noi pe baza valorilor existente în alte
variabile. Nici aceste schimbări nu afectează fişierul permanent decât dacă
schimbările se salvează în mod explicit.

Statistics. Procedurile statistice se selectează din acest meniu. Cele mai comune
proceduri statistice sunt: tabelele de frecvenţe, tabelele de asociere, calculul
indicatorilor statistici descriptivi, analiza varianţei, corelaţia sau regresia liniară.

11
Graphs. Meniul Graphs se foloseşte pentru a crea diagrame de bare, diagrame
circulare, histograme, diagrame de împrăştiere şi alte grafice în culori şi de mare
rezoluţie. Chiar şi unele proceduri statistice pot genera grafice. Orice grafic poate
fi îmbunătăţit cu ajutorul Editorului de grafice (Chart Editor).

Utilities. Se foloseşte pentru a afişa informaţii despre variabilele din structura


fişierului de date, pentru a defini şi utiliza seturi restrânse de variabile, sau pentru
a deschide un index al comenzilor SPSS.

Window. Se utilizează pentru a aranja, a selecta şi a controla atributele diverselor


ferestre SPSS.

Help. Acesta deschide ferestre de asistenţă “on-line” cu manuale electronice,


demonstraţii, sfaturi contextuale şi programe de învăţare asistată de calculator de
tip “tutorial”.

2.3. Linia de pictograme

Cele mai comune comenzi SPSS, folosite în mod uzual, pot fi accesate prin
intermediul unor pictograme situate imediat sub linia de meniuri, în linia de pictograme
(Tool Bar). Această linie este prezentă la oricare din ferestrele modulelor SPSS, dar poate
conţine pictograme diferite, adaptate situaţiei (vezi figura 2.1).

Unele din pictograme s-ar putea întâmpla să nu fie eligibile în anumite situaţii
chiar dacă apar pe ecran. O scurtă explicaţie a ceea ce reprezintă ele poate fi obţinută
foarte simplu prin plasarea indicatorului mouse-ului pe ele.

2.4. Casetele de dialog

Cele mai multe proceduri SPSS afişează casete de dialog prin intermediul cărora
adună toate informaţiile necesare ducerii la bun sfârşit a operaţiunilor cerute de utilizator.

Pentru că aceste casete oferă informaţii utile în alegerile pe care utilizatorul le are
de făcut şi pentru că aceste casete sunt foarte asemănătoare între ele, să aruncăm o
privire, de exemplu, pe cea folosită la deschiderea unui fişier: figura 2.2

Această casetă conţine o zonă etichetată Look in unde va apare directorul curent
(BazeDate, în exemplu). Dacă fişierul căutat nu este în directorul curent, acesta poate fi
schimbat cu ajutorul pictogramelor din această zonă.

Fişierele sunt listate în zona cea mai întinsă a casetei de dialog. De exemplu, în
figura 2.2 putem vedea patru fişiere. Oricare dintre ele poate fi deschisă. Alegerea se face
prin pointare şi clic pe butonul stâng al mouse-ului.

12
Figura 2.2. Caseta de dialog Open File

Numele fişierului selectat va apare in zona File name. Această informaţie poate fi
şi tastată dacă se doreşte folosirea tastaturii şi nu a mouse-ului.

Nu toate fişierele din directorul curent sunt listate în casetă. Ele sunt filtrate cu
ajutorul extensiilor consacrate pentru diverse tipuri de fişiere. Observăm că în exemplu,
toate cele trei fişiere au extensia .sav. Zona Files of type oferă însă posibilitatea selectării
altor tipuri inclusiv a tuturor tipurilor, deci posibilitatea neutilizării filtrelor.

În partea dreapta jos a casetei se găsesc “butoanele”, adică acele zone care
declanşează acţiuni. Clic pe butonul Open produce deschiderea fişierului selectat. Clic pe
butonul Paste produce doar un text cu comanda de deschidere a fişierului selectat,
comandă ce se va scrie într-un fişier de tip sintaxă, în vederea folosirii lui ulterioare.
Butonul Cancel anulează operaţiunea în curs, fără să declanşeze procedura pentru care se
făceau pregătirile. După acţionarea butoanelor casetele de dialog dispar de pe ecran.

În majoritatea casetelor de dialog apare şi butonul Reset. Selectarea lui va anula


toate specificările făcute în caseta de dialog afişată, fără ca acesta să fie ştearsă de pe
ecran. Utilizatorul va putea face deci alte selecţii.

Unele casete de dialog pot conţine “butoane radio” şi / sau “căsuţe pentru bifare”
(check box). Ele nu declanşează acţiuni imediate dar permit optarea pentru anumite

13
variante ale procedurilor. Butoanele radio se deosebesc de căsuţele pentru bifare prin
faptul că numai unul dintr-o zonă poate fi ales şi una din alegeri este obligatorie. În cazul
căsuţelor pentru bifare, acestea pot fi bifate sau nu, indiferent câte sunt într-o casetă de
dialog. Butoanele radio au o aparenţă circulară iar opţiunea aleasă se marchează cu un
punct (). Căsuţele pentru bifare au aparenţă pătratică şi opţiunile alese vor fi marcate cu
o bifă [] .

2.5. Asistenţa “on-line”

Figura 2.3. Fereastra Tutorialului SPSS

Meniul Help oferă multiple posibilităţi de a obţine ajutor interactiv. Procedura


Topics permite accesul în manualul electronic pe baza unor opţiuni tematice, procedura
Tutorial este indicată pentru un prin contact cu SPSS (vezi figura 2.3), iar procedura
Statistics coach este un meditator pentru procedurile statistice. Unele din proceduri conţin
demonstraţii interactive, cele mai multe conţin ilustraţii şi toate conţin explicaţii textuale
în limba engleză.

14
Modul 3. Proiectarea unei baze de date

3.1. Utilizarea Editorului de date SPSS

Editorul de date (Data Editor) este un modul SPSS care afişează o fereastră tip
spreadsheet (foaie de calcul) utilizată la crearea şi editarea fişierelor de date SPSS. El se
foloseşte atât la introducerea datelor direct de pe un chestionar cât şi la vizualizarea
informaţiilor deja introduse, cum ar fi fişe medicale, baze de date cu angajaţii sau clienţii
unor agenţii, rezultate obţinute în urma unor testări şi multe altele. Fereastra Editorului de
date se deschide automat la începutul unei şedinţe de lucru SPSS, vezi figura 2.1.

Dacă nu se deschide un alt fişier de date, Editorul de date rămâne gol. Înainte de a
introduce date trebuie să avem în vedere câteva lucruri:

Liniile reprezintă cazuri

Fiecare linie reprezintă un caz, o observaţie sau un individ statistic. În fişierul de


date folosit de noi ca exemplu, vezi fundalul figurii 2.3, fiecare linie reprezintă un
respondent.

Coloanele reprezintă variabile

Fiecare coloană reprezintă o variabilă, o caracteristică sau o însuşire a individului


statistic. În exemplul nostru chestionarul a avut 133 itemi de completat. De aceea
Editorul de date va avea 133 de variabile.

Celulele conţin valori

O celulă conţine o singură valoare a unei variabile pentru un caz. De exemplu,


prima celulă din exemplul nostru conţine numărul de identificare al primului respondent.
Celulele conţin numai valori numerice, şiruri de caractere şi date calendaristice. Spre
deosebire de foile de calcul, celulele din Editorul de date nu conţin formule.

3.2. Un exemplu

Datele utilizate în acest curs aparţin bazei de date Martie97.sav. Ea conţine 1.298
cazuri, reprezentând un eşantion naţional al populaţiei României, iar variabilele conţinute
se referă la întrebări de opinie legate de situaţia socială, economică, politică a României,
reprezentând Barometrul de opinie editat de Fundaţia pentru o Societate Deschisă.
Fişierul de date conţine şi câteva caracteristici de identificare a subiecţilor şi
gospodăriilor din care fac parte (gen, vârstă, naţionalitate, domiciliu, nivel de educaţie
etc.). Ancheta de teren a avut loc în martie 1997.

15
Variabilele din Barometru acoperă toate scalele nivelelor de măsură şi permit
exemplificarea celor mai variaţi indicatori şi proceduri statistice.

3.3. Proiectarea schemei de codificare

Răspunsurile la câteva întrebări sunt numere: de exemplu, vârsta, numărul de


membrii în gospodărie, distanţa în kilometrii faţă de cel mai apropiat oraş, etc. Alte
câteva întrebări cer alegerea unor opţiuni din mai multe posibile (de exemplu ultima
şcoală absolvită, ocupaţia etc.) şi fac necesară întocmirea unei scheme de codificare.

O schemă de codificare este un mod de a asocia anumite valori unor răspunsuri


din chestionar. Codurile sunt ceea ce se introduce efectiv în fişierul de date.

În general schemele de codificare sunt arbitrare. De exemplu pentru întrebarea


“Sunteţi de sex masculin sau feminin?” codurile ar putea fi (1) pentru masculin şi (2)
pentru feminin. O altă posibilitate ar putea fi “m” pentru masculin şi “f” pentru feminin.
Ori de câte ori este posibil se recomandă folosirea codurilor numerice şi nu a caracterelor
alfanumerice (de exemplu literele). Ar fi fără sens a cere obţinerea mediei unui grup de
litere. (SPSS poate converti codurile alfabetice în coduri numerice prin utilizarea
procedurii Automatic Recode din meniul Transform).

3.4. Definirea variabilelor

Există 133 de itemi în chestionarul nostru. Aceasta înseamnă 133 de variabile


pentru Editorul de date. Cu alte cuvinte 133 coloane. Primul item este codul de
identificare (sau cod) şi constă în până la 4 caractere numerice. Al doilea item este genul
respondentului (sau gen) şi constă într-un cod alfabetic “m” sau “f”. Al treilea item este
vârsta respondentului (sau varsta) care constă în două cifre. Al patrulea item este nivelul
şcolii absolvite (sau ulscoala) care, dat fiind că există doar 5 posibilităţi de răspuns,
constă într-un caracter numeric. Al cincilea item este localitatea de domiciliu (sau
localit).

În caseta de dialog Define Variable din meniul Data putem gestiona 5 categorii de
informaţii: numele variabilei, tipul variabilei, etichetele, valorile omise şi formatul
coloanei. Aceste informaţii sunt tot atâtea aspecte ale structurii bazei de date şi se
definesc pentru fiecare variabilă în parte.

3.5. Atribuirea numelui variabilei

Înainte de a introduce informaţiile din chestionar în celulele Editorului de date,


trebuie furnizate nume unice de maximum 8 caractere pentru fiecare coloană din fişier.
Acesta va permite o referire uşor de memorat pentru fiecare coloană, sau variabilă, legată
de un item de chestionar. Prima coloană din Editorul de date este legată de un item ce nu

16
este inclus în chestionar, dar care va fi utilă în identificarea respondenţilor – codul
numeric al respondentului. Pentru a atribui un nume variabilei:

- faceţi clic pe orice celulă din prima coloană

- faceţi clic pe meniul Data din meniul principal

- faceţi clic pe Define Variable din meniul Data

Va apare o casetă de dialog ca în figura 3.1.

Figura 3.1. Caseta de dialog Define Variable

SPSS arată definiţiile curente pentru variabilă; în acest caz numele implicit al
variabilei este VAR00001. Până ce acesta este selectat se poate înlocui cu un nume nou,
mai uşor de recunoscut, ca reprezentând numărul de identificare al respondentului.

Tastaţi “cod” în căsuţa Variable Name.

Există câteva reguli ce trebuie respectate atunci când se atribuie nume


variabilelor. O parte din ele sunt:

17
 Numele trebuie să înceapă cu o literă
 Lungimea unui nume nu trebuie să depăşească 8 caractere
 Utilizarea spaţiilor şi a caracterelor speciale (! ? “ *) este interzisă
 Fiecare nume de variabilă trebuie să fie unic

Apoi se poate face clic pe butonul OK pentru a se schimba efectiv numele


variabilei în Editorul de date. Urmează acum alte schimbări ale caracteristicilor implicite
ale variabilei.

3.6. Schimbarea tipului variabilei

Caseta de dialog folosită pentru schimbarea numelui variabilei (Define Variable)


poate fi utilizată şi pentru specificarea tipului variabilei. Tipul variabilei se referă la
forma în care apar valorile în coloană (de exemplu când o informaţie este de tip text sau
una din formatele numerice) dar şi la dimensiunea memoriei alocată pentru stocarea
informaţiei. În figura 3.2 putem vedea că tipul variabilei “cod” este Numeric8.2.

Figura 3.2 Caseta de dialog Define Variable Type

18
Acesta este formatul implicit, definit în SPSS, şi semnifică faptul că informaţiile
sunt afişate numeric cu maximum 8 poziţii care includ un punct şi două cifre pentru
partea zecimală. De exemplu “1” se va afişa ca “1.00”. Aceasta mai înseamnă şi că
formatul de afişare a rezultatelor obţinute în urma procedurilor SPSS se vor afişa tot cu 8
poziţii şi 2 cifre pentru zecimale.

Pentru a schimba formatul de afişare al variabilei se face clic pe căsuţa de dialog


Type.

Apoi se poate schimba lungimea variabilei cod la 4 poziţii, fără cifre zecimale, ca
în figura 3.2.

După schimbări se va acţiona butonul Continue, iar schimbarea poate fi acum


sesizată în caseta Define Variable (vezi figura 3.3).

Figura 3.3. Definiţii modificate pentru variabila “cod”

19
3.7. Adăugarea etichetelor descriptive pentru variabile şi valori

Adăugarea etichetelor descriptive este foarte utilă, chiar dacă se poate lucra şi fără
ele. Etichetele adăugate variabilelor şi valorilor lor îmbunătăţesc mult listingurile cu
rezultate şi uşurează analiza.

Etichetele pentru variabile sunt extensii ale numelor variabilelor şi permit


ataşarea unor informaţii mai descriptive decât permit cele maximum 8 caractere impuse
pentru un nume de variabilă. Limita maximă pentru o etichetă de variabilă este de 120
caractere, dar trebuie să ţinem totuşi cont că multe proceduri afişează mai puţin de 120
caractere şi deci este bine să folosim o etichetă de o lungime cât mai scurtă.

Etichetele de valori se ataşează valorilor specifice ale variabilelor. Acestea sunt


avantajoase mai ales atunci când codurile valorilor nu au legături intrinseci cu categoriile
reprezentate de acestea. De exemplu, trebuie să codificăm ultima şcoală absolvită de
respondent utilizând coduri de la 1 la 5, dar fără utilizarea etichetelor pentru valori va fi
dificil să ţinem minte ce grup am codificat cu un anume număr. Etichetele de valori
trebuie să fie de maxim 60 caractere, dar şi aici este recomandabil să utilizăm denumiri
mai scurte pentru că multe proceduri nu pot afişa aceste etichete în extenso.

Tabelul 3.1 rezumă informaţiile descriptive pentru o parte a variabilelor din baza
de date Martie97. Un astfel de tabel se numeşte catalog de coduri.

Tabel 3.1. Catalog de coduri pentru câteva variabile ale Barometrului

Variabila Eticheta pentru variabilă Etichete pentru valori Tip variabilă

cod Serie chestionar nu Numeric 4.0


gen Genul m = masculin String 1
f = feminin
x = non-raspuns
varsta Varsta Nu Numeric 2.0
ulscoala Ultima şcoală absolvită 1 = maxim şc. generală Numeric 1.0
2 = şc. profesională
3 = liceu
4 = şc. postliceală
5 = învăţământ superior
localit Localitatea de reşedinţă nu String 15

Adăugarea etichetelor pentru variabile şi valorile lor se face tot prin intermediul
casetei de dialog Define Variable (figura 3.3), anume prin acţionarea butonului Labels.
Se va deschide o nouă casetă de dialog, ca cea din figura 3.4. După specificarea valorii şi
a etichetei corespunzătoare se utilizează butonul Add pentru a adăuga atribuirea în lista de

20
atribuiri. Se repetă adăugarea atribuirilor până se epuizează lista de valori, iar la urmă se
acţionează butonul Continue.

Figura 3.4. Caseta de dialog Define Labels pentru variabila “ulscoala”

Observaţie. Etichetarea se face de obicei la început, înainte de introducerea


datelor în fişier, dar această operaţiune poate fi cerută oricând în cadrul unei şedinţe de
lucru, fie pentru corectarea unor greşeli, fie pentru o etichetă mai grăitoare. Pentru a face
astfel de schimbări se va selecta atribuirea în cauză prin clic, se vor face modificările în
zonele Value sau Value Label , iar apoi se va acţiona butonul Change.

3.8. Atribuirea valorilor omise

Una din consecinţele cele mai nedorite ale colectării datelor prin intermediul
chestionarelor este lipsa unor informaţii sau incorectitudinea altora. Aceste situaţii pot
apare din diverse motive printre care ar fi: incapacitatea subiectului de a răspunde la o
întrebare, furnizarea unor răspunsuri inadecvate, omisiuni făcute de cei care codifică
datele etc.

21
O altă situaţie in care lipsesc valori este cea în care chiar chestionarul permite
răspunsuri ca “nu ştiu” sau “refuz să răspund” sau “nici unul din răspunsurile de mai
sus”. Şi pentru astfel de informaţii trebuie prevăzute coduri care să servească introducerii
în fişierul de date. Cu toate acestea vom dori să excludem aceşti subiecţi din anumite
analize sau anumite tabele. De exemplu, se întâmplă deseori ca o anumită proporţie a
respondenţilor să răspundă cu “nu ştiu” la o întrebare privind o opinie politică. Deşi
această proporţie este interesantă prin ea însăşi, putem cere un tabel care să arate
informaţii numai despre cei care şi-au exprimat o opinie.

Indiferent din ce raţiune, avem nevoie să înregistrăm apariţia uneia din aceste
situaţii prin atribuirea unei valori “omise”. O alternativă ar fi să lăsăm liberă celula
Editorului de date, dar acesta va genera o altă problemă potenţială: aceea de a nu mai fi
capabili să distingem între situaţiile ca cele descrise mai sus şi erorile făcute cu ocazia
introducerii datelor.

În exemplul nostru puteam să fi fost puşi în situaţia ca un respondent să nu-şi fi


declarat genul. Vom atribui eticheta “non-raspuns” valorii “x” a variabilei gen pentru
aceşti respondenţi şi vom face clic pe butonul Missing Values… a casetei de dialog
Define Variable.

Figura 3.5. Declararea valorii omise prin caseta de dialog Define Missing Values

22
Caseta de dialog Define Missing Values prevede o mulţime de situaţii alternative
pentru definirea valorilor omise. Implicit SPSS tratează toate valorile ca fiind valide.
Putem declara până la trei valori distincte, discrete, ca fiind valori omise, sau putem
specifica un interval (range în lb.engleză) de valori ca fiind omise, sau un interval şi o
valoare discretă. În exemplul nostru avem o valoare omisă “x”, dar pentru că este o
variabilă de tip şir (string în lb.engl.), este bine să atribuim şi valoarea blank (spaţiu) ca
valori omise. Aceasta este necesară pentru că spaţiul (blankul) este un caracter legitim
pentru variabilele de tip şir, spre deosebire de variabilele numerice, iar atribuirea lui ca
valoare omisă va preveni situaţiile în care cazurile invalide vor fi incluse în tabelele de
analiză.

Observaţie. Valorile omise, ca şi etichetele variabilelor şi ale valorilor sunt


senzitive la majuscule, aşa că o valoare “X” nu va fi recunoscută ca valoare omisă şi nici
nu va purta eticheta “non-raspuns”.

3.9. Valori omise sistem şi valori omise utilizator

Valorile omise pot fi de două tipuri diferite: sistem, care apar de fapt atunci când
există omisiuni în setul de date, şi utilizator, care sunt declarate ca atare în Editorul de
date. Nici una din ele nu sunt utilizate în analizele statistice.

Figura 3.6. Tabel de frecvenţe care arată tratarea valorilor omise sistem şi utilizator

23
Valori omise sistem

Când o celulă dintr-o variabilă numerică este lăsată necompletată, SPSS plasează
automat un punct zecimal în aceea celulă. Acest punct este referit întotdeauna ca valoare
omisă sistem. Cazurile cu valori omise sistem sunt excluse din majoritatea procedurilor
de analiză statistică şi de transformare a datelor.

Valori omise utilizator

Deseori este util a se face distincţia între motivele pentru care valorile sunt omise.
De exemplu, pentru variabila “mservici” din Barometrul opiniei publice din Martie97 s-a
atribuit valoarea omisă 0 , cu eticheta “NS / NR / NC” (abrevieri de la “nu ştiu”, “non-
raspuns” si “nu comentez”). Aceste situaţii sunt bine determinate şi nu coincid cu acelea
în care informaţia privind mulţumirea faţă de serviciu nu a fost în mod eronat introdusă în
baza de date.

În figura 3.6, care este listingul cu rezultate din fereastra Navigatorului de


rezultate, putem vedea că sunt semnalate 643 cazuri de non-răspuns , dar şi 3 cazuri cu
valori omise sistem, care au apărut cu siguranţă prin neatenţia celui care a introdus datele
în calculator.

3.10. Schimbarea formatului coloanei

Înainte de a termina definirea variabilei “gen” mai avem de explorat un ultim


buton al casetei de dialog Define Variable, şi anume Column Format. Această opţiune
controlează afişarea coloanei în Editorul de date. Fixând tipul variabilelor (deci şi
lungimea lor) lăţimea coloanelor din Editorul de date se schimbă în mod automat, iar, de
cele mai multe ori, numele variabilelor nu mai pot fi distinse din cauză că ele sunt de
obicei mai lungi decât lungimea declarată a variabilei. Pentru a rectifica această situaţie,
putem face următoarele:

 Clic pe Column Format


 Schimbăm 1 în 7
 Clic pe Continue

De regulă, cel mai bine este să declarăm lăţimea coloanei cu un caracter mai lung
decât numele variabilei, sau cu un caracter mai lung decât valoarea cea mai lungă. Dacă
avem variabile de tip şir lung (Long String), s-ar putea să nu dorim să vedem tot textul
afişat, aşa că vom alege o lăţime a coloanei mai mică.

Putem să schimbăm, pe această cale, inclusiv alinierea textului în coloană.

24
3.11. Definirea variabilelor adiţionale

Înainte de a introduce datele va trebui să definim şi celelalte variabile. Pentru a


defini celelalte 3 variabile din exemplul nostru (varsta, ulscoala şi localit) vom utiliza fie
aceeaşi procedură utilizată până acum (adică clic pe Data, Define Variable…) fie vom
putea alege o variantă mai rapidă, anume dublu-clic pe capul coloanei.

Se va deschide caseta de dialog Define Variable, unde vom completa mai în întâi
numele variabilei, apoi tipul, lungimea, etichetele pentru variabilă şi pentru valori,
formatul coloanei, valorile omise.

În cazul variabilei localit, care este de tip şir lung, vom vedea că butonul Missing
Values pentru valoarea omisă nu este un buton eligibil. Există o regulă în SPSS şi anume
că variabilele de tip şir lung (adică peste 8 caractere lungime) nu pot avea valori omise.
În multe alte situaţii în care contextul este de aşa natură că anumite opţiuni nu au sens,
SPSS face ineligibile anumite butoane şi zone din casetele de dialog, spre avantajul
utilizatorului care astfel este împiedicat să facă declaraţii fără sens.

3.12. Introducerea datelor

Odată ce variabilele au fost definite în concordanţă cu catalogul de coduri (tabelul


3.1), datele vor putea fi introduse fără nici o problemă. Cursorul se fixează pe celula ţintă
şi se introduc date direct din chestionar. Pentru deplasarea la câmpul următor se poate
folosi tasta Tab. Pentru un alt caz, procedeul se repetă.

Dacă într-o celulă nu se introduce nimic, iar aceasta aparţine unei variabile
numerice, va apare un punct zecimal şi se va atribui o valoare omisă sistem.

3.13. Editarea datelor

SPSS nu previne utilizatorul când acesta introduce date eronate. Singura validare
pe care totuşi o face este să nu permită introducerea caracterelor alfabetice în câmpurile
numerice. Dacă observaţi o informaţie greşit introdusă puneţi cursorul pe celula în care
apare acea informaţie şi retastaţi informaţia în mod corect. Dacă doriţi să faceţi o
corectură celula trebuie deschisă iar corectura se face în linia de editare (echivalentă liniei
pentru formule dintr-un tabelator). Deschiderea celulei active se face fie prin dublu-clic ,
fie prin apăsarea tastei F2.

3.14. Examinarea informaţiilor în Editorul de date

Cea ce s-a introdus până acum în fişierul de date sunt codurile valorilor din
chestionar. Etichetele, deşi definite, nu sunt de fapt afişate. Pentru a vedea etichete în loc
de coduri se poate cere comanda Value Labels din meniul Utilities.

25
Chiar şi în această situaţie, trebuie să reţinem că pentru introducerea datelor noi
folosim întotdeauna codurile şi nu etichetele. Avem însă o alternativă: să alegem o
etichetă de valoare dintr-o listă afişată pe ecran după ce facem clic pe celula în care vrem
să introducem informaţia cu butonul din dreapta al mouse-ului. Urmăriţi de exemplu lista
afişată pentru o celulă din coloana ulscoala, în figura 3.7.

Figura 3.7. Etichete de valori în Editorul de date

3.15. Utilizarea etichetelor variabilelor în proceduri

Etichetele pentru valori sunt utile nu numai în vizualizarea mai explicitată a


semnificaţiei codurilor valorilor în Editorul de date ci şi în rezultatele procedurilor. În
figura 3.6 aţi putut vedea cum etichetele pentru valorile variabilei mservici - mulţumirea
faţă de locul de muncă al respondenţilor au apărut în locul codurilor în tabelul de
frecvenţe produs de SPSS.

26
3.16. Salvarea fişierului de date

Dacă părăsiţi SPSS în acest punct al şedinţei de lucru, toate datele şi informaţiile
adiţionale atribuite variabilelor, valorilor variabilelor şi valorilor omise, se pierd. Toate
aceste informaţii put lua însă o formă permanentă dacă salvaţi fişierul de date după ce aţi
definit variabilele şi informaţiile adiţionale de descriere a lor.

Pentru a salva un fişier de date, fereastra Editorului de date trebuie să fie fereastra
activă. Salvarea pentru prima oară se face cu comanda Save As din meniul File, pentru că
acesta permite specificarea numelui fişierului în caseta de dialog care se deschide (vezi
figura 3.8). extensia implicită pentru un fişier de date SPSS este .sav. Ca să fim siguri că
salvăm un fişier de date şi nu unul din celelalte tipuri permise de SPSS trebuie să ne
asigurăm că zona Save as Type are ca şi conţinut SPSS (*.sav).

Figura 3.8. Caseta de dialog Save Data As

Dacă dorim să salvăm fişierul într-un alt director decât cel curent, care apare în
zona Save in, o putem face schimbând directorul prin intermediul butoanelor din partea
de sus a casetei de dialog.

27
3.17. Diferenţa dintre Save As şi Save

Comanda Save As a meniului File se utilizează când se doreşte schimbarea


numelui fişierului afişat în linia de titlu al Editorului de date sau când se doreşte
schimbarea formatului fişierului, de exemplu pentru a crea o versiune care să poată fi
citită în Microsoft Excel. Deasemenea dacă se doreşte schimbarea directorului în care se
salvează, altul decât cel definit implicit de SPSS se foloseşte tot Save As.

Save se foloseşte pentru a salva o versiune îmbunătăţită a fişierului curent, adică


cu ocazia actualizărilor bazei de date.

3.18. Ieşirea din SPSS

Pentru a termina o şedinţă de lucru şi a părăsi SPSS se va alege comanda Exit


SPSS din meniul File.

Figura 3.9. Cerere de salvare a fişierului cu rezultate Output1

SPSS ţine evidenţa ferestrelor deschise în timpul şedinţei. Dacă ceva din ceea ce
s-a produs nu a fost salvat, SPSS întreabă explicit dacă se doreşte salvarea. De exemplu,

28
dacă am declanşat procedura Frequencies pentru a obţine o tabelă de frecvenţe, acesta s-a
afişat în fereastra Output1al Navigatorului de rezultate. De aceea SPSS ne va întreba dacă
dorim să salvăm fişierul cu rezultate, vezi figura 3.9. Extensia implicită pentru fişierele
cu rezultate este .spo. Aceasta, împreună cu alte informaţii identice cu cele de la salvarea
unui fişier de date pot fi văzute în caseta de dialog care se deschide în cazul unui răspuns
afirmativ, ca în figura 3.10.

Figura 3.10. Caseta de dialog pentru salvarea fişierului de rezultate

29
Modul 4. Utilizarea Editorului de date II. Facilităţi adiţionale

4.1. Utilizarea şabloanelor

În procesul de definire a datelor există situaţii când este posibil să salvăm un timp
considerabil. O astfel de situaţie este cazul când avem mai multe variabile care au
aceleaşi caracteristici (etichete, valori, valori omise etc.), şi în care se pot utiliza
şabloanele pentru date. De exemplu, variabilele mmedic, mtranspo, mlocuit, mservici,
mbanii, mtara, mcuraten din Barometru conţin răspunsuri codificate identic şi cu acelaşi
cod pentru valoarea omisă pentru întrebări privind cât de mulţumit este respondentul în
legătură cu asistenţa medicală, transportul în comun, locuinţa în care trăieşte, banii pe
care îi are, viaţa politică sau curăţenia localităţii. Aceste variabile ar putea fi grupate în
aşa-numitele “atitudini curente”.

Figura 4.1. Caseta de dialog Template

Pentru a defini un şablon cu definiţiile comune, vom cere din meniul principal:

30
Data
Templates
Define

Caseta de dialog ce se afişează pe ecran include butoane pentru definirea tipului


informaţiei, a etichetelor pentru valori, a valorilor omise sau pentru formatul coloanelor,
care, prin acţionare, deschid casete de dialog similare cu cele de la Define Variable.
Primul pas în crearea unui şablon va fi selectarea şablonului DEFAULT (care de multe
ori este deja selectat, fiind şablonul implicit) iar apoi se va furniza un nume şablonului, ca
în figura 4.1.

Prin acţionarea butonului Value Labels vom putea defini etichetele pentru valori,
ca în figura 4.2, iar apoi valoarea omisă, ca în figura 4.3.

Figura 4.2. Definirea etichetelor valorilor pentru şablonul “ATIT.CURENTE”

O dată ce elementele comune au fost definite se salvează şablonul acţionând


butonul Add (vezi figura 4.1). Şabloanele definite sunt adăugate listei de şabloane a SPSS
şi rămân eligibile şi pentru alte aplicaţii decât cea curentă.

31
Figura 4.3. Definirea valorii omise pentru şablonul “ATIT.CURENTE”

Aplicarea unui şablon

Pentru a aplica un şablon unui set de variabile, acestea trebuie mai întâi selectate.
Vom ieşi deci din procedura de definire a şabloanelor, prin acţionarea butonului Close,
apoi vom selecta cele 7 variabile din setul “atitudini curente” prin clic pe numele primei
variabile din set şi extinderea selecţiunii prin tragere (drag, în lb.engleză). După ce
variabilele au fost selectate (figura 4.4) :

- se cere din nou din meniu Data, Template

- se selectează din lista de şabloane cel dorit (adică “ATIT.CURENTE”)

- se bifează căsuţele Value Labels din zona Apply

- se bifează căsuţe Missing values din zona Apply

- se acţionează butonul OK

32
Figura 4.4. Aplicarea şablonului “ATIT.CURENTE”

4.2. Aplicarea unui dicţionar de date

O altă situaţie în care procesul de definire a datelor poate fi accelerat este cea în
care deţinem deja un fişier de date cu aceleaşi variabile, caz tipic pentru fişierele generate
periodic, de exemplu lunar. Din moment ce procesul de definire a datelor este acelaşi ca
pentru prima oară, informaţiile de dicţionar (adică, etichetele pentru variabile şi pentru
valori, valorile omise, tipul variabilelor şi formatele de afişare în coloane) pot fi preluate
de la un alt fişier.

Informaţiile de dicţionar se aplică întotdeauna fişierului curent (cel deschis în


Editorul de date) pe baza coincidenţei numelor de variabile. Variabilele nu trebuie să fie
dispuse neapărat în aceeaşi ordine în ambele fişiere, iar variabilele care nu există în
ambele fişiere rămân neafectate. Ceea ce este important de reţinut este că informaţiile de
dicţionar aplicate se scriu peste (înlocuiesc) informaţiile de dicţionar existente până
atunci.

33
Pentru aplicarea unui dicţionar de date fişierului curent de date, se va cere din
linia de meniul File, Apply Data Dictionary, iar apoi se va alege fişierul sursă din lista de
fişiere SPSS care vor apare într-o casetă de dialog.

4.3. Obţinerea informaţiilor despre variabile

Fişierele de date reale, ca Martie97.sav, conţin de regulă foarte multe variabile.


Nu este deloc uşor să ţinem minte numele tuturor variabilelor şi nici celelalte informaţii
de dicţionar. SPSS are o procedură, din categoria utilitarelor, care afişează la cerere
aceste informaţii. Este vorba de procedura Variables din meniul Utilities (vezi figura
4.5).

Figura 4.5. Caseta de dialog Variables

Prin evidenţierea numelui variabilei în lista din partea stângă, apar informaţiile de
dicţionar corespunzătoare în partea dreaptă. După ce am citit informaţiile dorite, putem
ieşi acţionând butonul Close, putem copia informaţiile în fereastra de sintaxă cu butonul
Paste, sau putem să ne întoarcem în Editorul de date unde variabila să fie selectată,
acţionând butonul Go To.

34
4.4. Obţinerea unui catalog de coduri

Un catalog de coduri se creează în procesul de proiectare a bazei de date. De


obicei acesta are formă tabelară, ca exemplul din modulul 3 (Tabelul 3.1).

Informaţiile de dicţionar ale unui fişier de date SPSS, aşa cum au fost ele definite
cu ajutorul Editorului de date, pot fi obţinute şi prin procedura File Info din meniul
Utilities. Ele nu mai au o formă tabelară, dar conţin acelaşi tip de informaţii (vezi figura
4.6).

Figura 4.6. Catalog de coduri în fereastra Navigatorului de rezultate

Conţinutul acestui catalog de coduri, ca de altfel al oricărui rezultat din fereastra


Output1 al Navigatorului de date, poate fi salvat într-un fişier sau imprimat.

Pentru salvare se va alege comanda Save sau Save As, din meniul File, având
fereastra Navigatorului activă, şi elementul de rezultat selectat în panoul din stânga.

Şi pentru imprimare este necesar ca fereastra Navigatorului să fie activă şi


elementul de rezultat ce se doreşte a fi imprimat să fie selectat în panoul din stânga. După
aceea se va declanşa procedura Print din meniul File.

35
Modul 5. Căutarea erorilor şi analize statistice exploratorii

Vom explora în cele ce urmează câteva din cele mai comune căi de a descrie
datele dintr-o bază de date prin intermediul procedurilor de statistică elementară
Frequencies şi Descriptives. De foarte multe ori vom vedea că aceste două proceduri sunt
suficiente pentru a răspunde la multe din întrebările cercetării. Procedurile Crosstabs şi
Means sunt utile în investigarea unor posibile relaţii între două variabile. Aceste patru
proceduri, la care se adaugă şi procedura Explore, nu sunt numai tehnici puternice
descriptive, dar constituie tot atâtea mijloace de investigaţie necesare înaintea
întreprinderii unor analize statistice mai sofisticate.

5.1. Procedura Frequencies

Figura 5.1. Procedura Frequencies

Procedura Frequencies, furnizează tabele statistice şi reprezentări grafice.


Implicit, ea va genera o distribuţie de frecvenţe sub formă de tabel, în care pentru fiecare

36
valoare distinctă a variabilei selectate, se va afişa numărul de apariţii, procentul pe care
acesta-l reprezintă din întregul eşantion şi procentul cumulativ. Ca opţiuni, pot fi selectate
grafice ca diagrama de bare, histograma (care vor fi alese în funcţie de tipul variabilei),
valorile pentru anumite percentile sau indicatori statistici descriptivi.

În tabela de frecvenţe sau în diagramele de bare, valorile distincte pot fi ordonate


în ordine crescătoare sau descrescătoare. Generarea / afişarea tabelei de frecvenţe poate fi
eliminată dacă variabila are prea multe valori distincte. Unităţile de măsură folosite în
diagrame şi grafice pot fi sub formă de frecvenţe numerice (implicit) sau procente.

Indicatori statistici ce pot fi ceruţi: media, mediana, modul, suma, abaterea


standard, varianţa, amplitudinea, minimum şi maximum, eroarea standard a mediei,
oblicitatea (skewness) şi ascuţimea (kurtosis) (cu erorile lor standard), cuartile şi
percentile definite de utilizator, frecvenţe, procente, procente cumulate.

Pentru declanşarea procedurii se va alege din meniu:


Statistics
Summarize
Frequencies

5.2. Procedura Crosstabs

În cazul în care dorim să studiem o relaţie de asociere între variabile categoriale,


va fi utilă o tabelă care conţine frecvenţele combinaţiilor valorilor (categoriilor) celor
două variabile. Acestea sunt tot tabele de frecvenţe, dar se generează nu doar pentru o
variabilă, ci pentru combinaţia a două variabile. Vom numi o astfel de tabelă, tabelă de
frecvenţe între două variabile, tabelă de asociere sau tabelă de contingenţă. Ea se obţine
din meniu, alegând:

Statistics
Summarize
Crosstabs…

Pentru exemplificare, vom utiliza fişierul Martie97.sav, care conţine variabilele


gen şi mservici (satisfacţia in munca).

Putem studia relaţia între mservici şi venit, sau între orice alte variabile între care
bănuim că ar putea exista o legătură.

37
Figura 5.2. Procedura Crosstabs

m i

C
d e
e
ta
pu
l o
r
ot
t
t
t u
u
uu
t
2
1
0
6
9 Gm
0
0
8
5
3 f
2
1
8
1
2 T

Figura 5.3. Tabel de asociere între gen şi satisfacţia în muncă (frecvenţe absolute)

Conţinutul celulelor aşa cum apare sub formă de frecvenţe absolute (figura 5.3)
nu exprimă relaţia dintre cele două variabile. Pentru a putea compara diversele grupuri
între ele, trebuie să folosim o măsură independentă de numărul cazurilor cuprinse în
grupul respectiv; fiecare grup având un număr diferit de cazuri (359 persoane de sex
masculin şi 293 persoane de sex feminin). O exprimare în procente a frecvenţelor din
fiecare celulă permite comparaţiile dorite (figura 5.4).

38
m it

d e
o
s
e a
p
tlu
or
r
T
ul
ll
l
to
t
ttu
u
uu
t
2
1
06
9Gm
C
%
%
%
%
%
% G
r e
0
0
85
3 f
C e
%
%
%
%
%
% G
r e
2
1
81
2TC o
%
%
%
%
%
% G
r e

Figura 5.4. Tabel de asociere între gen şi satisfacţia în muncă (frecvenţe procentuale)

Procentajul pe coloane ne arată distribuţia variabilei de pe linii pentru fiecare


categorie a variabilei de pe coloane (ce procent din totalul cazurilor de pe o coloană este
distribuit pe fiecare linie). Tabelul din figura 5.4 nu afişează astfel de procente.

Procentajul pe linii ne arată distribuţia variabilei de pe coloane pentru fiecare


categorie a variabilei de pe linii (ce procent din totalul de cazuri de pe o linie este
distribuit în fiecare coloană). În tabelul din figura 5.4 putem vedea, de exemplu, că 8,9%
din persoanele de sex masculin (variabila gen este variabila de pe linii) se declară deloc
mulţumite de serviciul pe care îl au (variabila de pe coloane), 17% nu sunt prea
mulţumite, 52,9% sunt mulţumite şi 21,2% sunt foarte mulţumite.

Observaţie: Cum putem spune dacă într-un astfel de tabel procentele din
celule reprezintă procentajul pe linii sau pe coloane? Dacă în coloana numită
Total procentul înscris în fiecare celulă este 100%, avem de-a face cu procente pe
linii. Dacă pe linia numită Total procentul înscris în fiecare celulă este 100%,
avem de-a face cu procente pe coloane.

5.3. Procedura Descriptives

Această procedură calculează şi afişează indicatori statistici univariaţi (o variabilă


la un moment dat) pentru diferite variabile şi poate calcula valorile standardizate (scoruri
Z) pentru fiecare caz. Implicit, pentru fiecare variabilă ce se selectează se vor calcula
media, abaterea standard, minimum, maximum (vezi căsuţele bifate din caseta de dialog
Descriptives Options din figura 5.5.). Opţional mai pot fi cerute varianţa, amplitudinea,
eroarea standard a mediei, oblicitatea şi ascuţimea.

39
Observaţie: Mediana, modul, cuartilele şi percentilele nu pot fi calculate aici, ele
se determină cu procedura Frequencies.

Declanşarea procedurii se face din linia de meniu cu:


Statistics
Summarize
Descriptives

Figura 5.5. Procedura Descriptives

5.4. Procedura Means

Într-un grup de subiecţi putem distinge subgrupuri de cazuri în funcţie de diverse


criterii, subgrupuri între care este util să facem comparaţii în scopul stabilirii unor
diferenţe ce merită exploatate mai îndeaproape.

40
Putem studia de exemplu media notelor la matematică obţinute într-o clasă,
separat pentru fete şi băieţi. Sau putem studia diferenţele privind media de vârstă pentru
femei şi bărbaţi într-un eşantion reprezentativ al populaţiei României (vezi figura 5.6).

Subgrupurile pot fi formate atunci când cazurile pot fi divizate pe baza uneia sau
mai multor variabile de grupare.

Variabila sub studiu este deci de tip interval iar variabila de grupare este
categorială.

Declanşarea procedurii se face prin intermediul liniei de meniu:


Statistics
Compare Means
Means

Figura 5.6. Procedura Means

Rezultatul este o tabelă care afişează pentru variabila în cauză media, abaterea
standard şi efectivul fiecărei categorii de grupare.

În cazul în care se doreşte definirea grupurilor în funcţie de mai multe variabile de


grupare, variabilele categoriale vor fi puse în “straturi” (Layers) diferite.

41
5.5. Procedura Explore

Figura 5.7. Caseta de dialog al procedurii Explore

Poate fi folosită pentru a studia distribuţia unei variabile:

 Calculează indicatori statistici descriptivi pentru toate cazurile sau pentru subgrupuri
de cazuri.

 Identifică valorile extreme. Acestea se datorează uneori introducerii greşite a datelor


în calculator. Dacă sunt reale, atunci ele pot influenţa puternic deciziile pentru analiza
statistică ulterioară, de aceea este util să fie depistate.

 Calculează percentilele distribuţiei variabilei, atât pentru toate cazurile cât şi pentru
subgrupuri de cazuri;

 Generează o varietate de reprezentări grafice a datelor (stem and leaf, boxplot,


histograme) care ne arată vizual cum se distribuie valorile datelor.

42
Pentru declanşare vom alege din linia de meniu:
Statistics
Summarize
Explore

În Dependent List se trece variabila pe care dorim s-o explorăm (variabilă tip
interval). Variabila factor este o variabilă de grupare, care se alege în cazul în care dorim
să calculăm statistici pentru subgrupuri de cazuri ale variabilei numerice studiate.

100

1105
1097
834 968
90
766
80 953
1007
943 1117

60

40

20
vârsta

0
N= 72 121 338 121

deloc multumit destul de multumit


nu prea multumit foarte multumit

Multumit de - serviciu
Fig.5.8. Grafic boxplot pentru legătura dintre satisfacţia în muncă şi vârstă (Martie97)

În figura 5.8 putem vedea o diagramă “boxplot” produsă de procedura Explore


având ca şi variabilă factor mservici (satisfacţia în muncă) iar ca variabilă dependentă
vârsta. Caseta de dialog al procedurii Explore a fost completată ca în figura 5.7.

5.6. Depistarea erorilor

Este important să fim siguri că datele noastre sunt corecte. Avem aşadar interesul
să căutăm cât mai multe tipuri de erori posibile. Câteva din cele mai des utilizate metode
sunt tratate în cele ce urmează.

Erorile pot apare din mai multe motive şi în mai multe faze ale unei cercetări. Cu
cât există mai multe faze cu atât posibilitatea apariţiei unui nou tip de erori creşte. Erorile

43
pot apare încă din faza de aplicare a chestionarului: respondentul sau operatorul de
interviu bifează o altă căsuţă decât cea corectă. În etapa de codificare a chestionarului, în
cazurile când codificarea nu apare direct pe formularul chestionar, se pot introduce erori
suplimentare. O altă sursă de erori este etapa de introducere a datelor în baza de date.

Cele mai des utilizate proceduri de localizare a erorilor sunt Case Summaries,
Frequencies şi Descriptives. Dar şi procedurile Crosstabs şi Explore pot fi utile.

Comanda Frequencies poate fi utilizată pentru a localiza valori inadecvate


pentru variabile cu un număr mic de categorii distincte (caz tipic pentru variabilele de tip
nominal şi ordinal).

În exemplul din figura 5.9 se poate vedea un tabel de frecvenţe pentru variabila
temere1 (temerile românilor) unde apare un cod (9) care nu face parte din valorile
prevăzute.

mau l
r
r
r
u c
c
ce
8
6
7
7V
1
9
7
7
52
8
6
7
23
4
3
4
54
3
3
4
95
1
2
2
16
2
5
5
57
8
4
4
98
1
1
1
09
4
6
0T
5
4M
0
5
4T
9
0T o

Figura 5.9. Tabel de frecvenţe pentru ”temere1”

Problema constă în faptul că în afara celor 8 valori admisibile (codificate de la 1


la 8) mai apar şi valorile 0 şi 9. Valoarea 0 este atribuită valorilor omise, deci este
acceptabilă. În schimb valoarea 9 trebuie să fie o eroare de un fel sau altul. Soluţia ideală
ar fi să se caute valorile şi să se înlocuiască valoarea eronată cu versiunea corectă. În
multe cazuri acest lucru nu este posibil şi atunci se poate atribui codului 9 rolul valorii
omise (vezi secţiunea 9 din modulul 3). Această valoare omisă poate fi una de tip
utilizator sau una de tip sistem (vezi modulul 6). În acest mod valoarea incorectă va fi
exclusă din majoritatea analizelor statistice care utilizează variabila temere1.

44
Comanda Descriptives este utilă pentru depistarea erorilor similare, dar pentru
variabile continue, măsurate pe scale de nivel interval sau rapoarte. Această procedură
furnizează valorile minime şi cele maxime întâlnite în baza de date şi astfel putem vedea
dacă apar valori neplauzibile. De exemplu, dacă ştim că eşantionul era compus din
indivizi majori (cum este cazul la Barometrul opiniei publice), o vârstă minimă de 10 ani
nu putea să apară decât dintr-o eroare. Un nivel de educaţie de 0 ani este la fel de
improbabil (deşi nu imposibil).

t d
N
ei
imm
a
8
8
2
0
5 V
9
0
4
4
8 N
8V

Figura 5.10. Indicatori statistici descriptivi pentru variabilele “vârsta” şi “nringosp”

În cazul exemplului din figura 5.10 vârstele minimă (18) şi maximă (92) întâlnite
în eşantion sunt plauzibile, dar pentru variabila nringosp (număr de indivizi în
gospodărie) valoarea zero (0) nu are sens.

Comanda Case Summaries este un instrument extrem de util prin faptul că


permite listarea valorilor mai multor variabile pentru fiecare caz. Aceasta permite o
abordare a căutării erorilor mai sofisticată, pentru găsirea cazurilor în care fiecare
variabilă are valori perfect justificate, dar pentru care combinaţia de valori pentru două
sau mai multe variabile este ridicolă. Aşa de exemplu, pentru cineva în vârstă de 10 ani ar
fi ridicol să apară că ar conduce maşina 50.000 km pe an. Comanda Case Summaries
permite detectarea erorilor de acest tip. Utilizarea acestei metode este mare consumatoare
de timp, aşa că se preferă de multe ori listarea numai a anumitor părţi din baza de date.

Pentru declanşarea procedurii se utilizează meniul principal:


Statistics
Summarize
Case Summaries

În figura 5.11 se poate vedea un exemplu de listare a variabilelor autoturi,


mcuraten şi mtranspo pentru 15 cazuri.

45
u a
m

l t u
v
ne i a
t
o u- cr
12
32
22
34
32
31
42
21
51
32
61
11
72
22
81
23
92
42
12
13 0
12
32 1
12
32 2
12
21 3
12
32 4
11
23 5
5
55T
N o
a
L .
i

Figura 5.11. Lista a 4 variabile pentru un set de 15 cazuri

Ce putem face dacă găsim erori

Unele erori pot fi tratate mai uşor decât altele. În exemplul de la procedura
Frequencies, dacă am fi găsit o vârstă de 99 ani, probabil că problema se putea rezolva
prin declararea codului 99 ca valoare omisă. Acest tip de eroare este uşor de corectat.

Erorile apărute în etapa de codificare sau în cea de introducere a datelor pot fi


corectate prin reexaminarea chestionarelor originale, dacă ele mai există. Pentru aceste
cazuri este importantă includerea unui număr de serie atât pe formularul de chestionar cât
şi în fişierul de date, astfel ca valorile să poată fi controlate. Dacă nu avem un astfel de
număr (sau cod) de identificare, localizarea formularelor pentru cazurile cu valori eronate
este deosebit de dificilă.

Dacă nu putem descoperi nicicum adevărata valoare care ar fi trebuit să fie în


fişier, cea mai bună metodă este cea de introduce în locul ei valoarea omisă sistem
(punctul zecimal) tuturor valorilor suspecte. Procedura folosită în acest caz este
procedura Recode (vezi modulul 6).

46
Modul 6. Gestionarea bazei de date

6.1. Transformarea variabilelor cu procedura Recode

Datele cu care lucrăm pot proveni din surse diferite şi pot fi într-o stare care nu
este perfectă pentru noi. Deseori există valori ne-valide, anumite valori vrem să le
excludem din anumite calcule, sau vrem să creăm variabile noi pe bază de calcule. Aceste
probleme pot fi soluţionate utilizând proceduri din meniul Transform (vezi figura 6.1).

Figura 6.1. Meniul Transform

Când observăm erori în date (cum este codul 9 pentru variabila temere1 din vezi
modulul 5) vom dori să corectăm valoarea eronată şi să o transformăm într-una corectă.
Dacă altfel nu este posibil, poate vom dori să o transformăm în valoare omisă sistem.

De multe ori avem variabile continue cu foarte multe valori distincte, cum este de
exemplu vârsta. Pentru anumite proceduri grupele de vârstă, cu mai puţine clase, sunt

47
mai convenabile. Vom dori să obţinem o variabilă nouă grvârsta, prin conversia valorilor
din variabila vârsta.

Una din procedurile din meniul Transform este Recode. Scopul ei este să schimbe
valorile existente într-o variabilă. Se pot schimba valorile existente într-o anumită
variabilă şi înlocui valorile originale, sau se pot schimba valorile pentru o anumită
variabilă într-o variabilă nouă. Totul depinde dacă avem interesul să păstrăm valorile
“vechi” – caz în care vom folosi Recode into Diferent Variables -, sau nu avem acest
interes (de exemplu datele care conţin erori) - caz în care vom utiliza varianta Recode
into Same Variables.

6.2. Recodificarea valorilor în aceeaşi variabilă

Setul de date poate conţine valori care nu corespund nici unuia din răspunsurile
valide din chestionar, cum este cazul variabilei temere1. Putem corecta răspunsul, dacă
avem datele originale, sau putem să transformăm codul invalid într-o valoare diferită.

Figura 6.2. Caseta de dialog Recode into Same Variables

48
După cererea Transform, Recode, Into Same Variable, vom trece variabila
temere1 din lista din stânga în lista din dreapta numită Numeric Variables (vezi figura
6.2). Pentru a specifica valoarea care trebuie modificată vom acţiona butonul Old and
New Values… .

SPSS va deschide caseta de dialog corespunzătoare acestui buton (vezi figura 6.3)
unde vom specifica valoarea pe care dorim să o schimbăm şi noua valoare care o va
înlocui. Dacă avem mai multe astfel de valori le vom specifica pe toate şi le vom adăuga
în lista transformări din dreapta casetei numită Old -> New, cu ajutorul butonului Add.

Figura 6.3. Caseta de dialog Old and New Values

Putem alege şapte opţiuni diferite de tratare a valorilor “vechi”.

Value - pentru specificarea valorilor individuale de convertit

System-missing - transformă valorile omise sistem

System- or user-missing - transformă ambele tipuri de valori omise, de tip sistem


sau utilizator

Range - pentru specificarea unui interval de valori de convertit

49
Range, Lowest through - pentru transformarea unui interval de valori de la
valoarea întâlnită cea mai mică şi până la valoarea
specificată

Range, Highest through - pentru transformarea unui interval de valori de la


valoarea specificată şi până la cea mai mare valoare
întâlnită

All other values - pentru conversia tuturor valorilor care nu au fost


specificate altfel

De cealaltă parte a casetei de dialog există două opţiuni pentru valorile “noi”. Acestea
sunt:

Value - toate valorile specificate în partea de valori “vechi”


sunt convertite în această valoare

System-missing - toate valorile specificate în partea de valori “vechi”


sunt convertite în valori omise sistem

În exemplul nostru, pentru că am avut o singură valoare de convertit (9) lista


conţine această unică transformare. Vom acţiona butonul Continue, apoi OK, şi
transformarea se va efectua.

6.3. Căutarea datelor în Editorul de date

Putem verifica dacă transformarea a avut loc, căutând codul 9 în variabila


temere1. O putem face dând pagină de pagină în Editorul de date sau, mai elegant, cu
ajutorul procedurii Find… din meniul Edit. Acesta permite specificarea valorii căutate şi
poziţionarea cursorului de la un caz la altul înainte, sau înapoi, cum se vede şi în opţiunile
din figura 6.4.

Dacă transformarea din procedura Recode a avut loc cu succes, nici o valoare 9 nu
ar trebui să mai existe în fişierul nostru de date, iar SPSS ar trebui să dea un mesaj care să
indice că această valoare nu a fost găsită. Astfel, valoarea 13 va fi eliminată permanent
din această versiune a fişierului.

Pentru a scoate caseta de dialog Search for Data de pe ecran va trebui să acţionăm
butonul OK pentru preluarea mesajului, iar apoi butonul Close pentru terminarea
căutărilor.

50
Figura 6.4. Caseta de dialog Search for Data

6.4. Obţinerea unei variabile noi prin recodificare

De foarte multe ori suntem în situaţia de a dori utilizarea uneia din variabilele
noastre dar într-o formă diferită, cum ar fi grupele de vârstă în locul vârstei exacte. În loc
să schimbăm valorile iniţiale în valori noi, putem crea o variabilă noua, adiţională, care să
conţină noile coduri, şi în acelaşi timp să păstrăm şi valorile vechi în variabila originală.

Vom utiliza o tehnică identică cu cea de mai sus, dar vom cere varianta Into
Different Variables al procedurii Recode. Figura 6.5 arată cum putem transforma valorile
variabilei vârsta în valorile variabilei noi grvarsta.

După recodificare noua variabilă grvârsta se va adăuga la fişierul de date într-o


coloană nouă, cea mai din dreapta. Pentru a defini etichete noilor valori se poate utiliza
procedura Define Variabile din meniul Data (cum am văzut în modulul 3).

51
Figura 6.5. Caseta de dialog Recode into Different Variables şi caseta de dialog Old and
New Variables pentru variabila nouă “grvarsta”

6.5. Recodificarea automată

Procedura Automatic Recode se găseşte în acelaşi meniu Transform (figura 6.1).


Ea face acelaşi lucru ca şi procedurile Recode, cu specificul de a transforma variabilele
alfanumerice (de tip String) în variabile numerice. Procedura Automatic Recode va citi
datele din variabila (variabilele) selectată, va ordona fiecare valoare găsită, apoi va
atribui valori întregi (1, 2, 3, …) fiecărei valori originare şi le va plasa într-o variabilă
nouă. Etichetele valorilor originare vor fi transferate noilor valori numerice, iar dacă nu
existau astfel de etichete, atunci primele 20 de caractere din valorile datelor originare se
vor utiliza pe post de etichete.

Dacă se doreşte permanentizarea datelor obţinute prin recodificare fişierul trebuie


salvat din nou fie cu comanda Save – dacă nu se doreşte păstrarea vechiului fişier -, fie cu
Save As - în caz contrar – care permite specificarea unui nume nou pentru fişierul nou.

52
6.6. Obţinerea unor variabile noi prin calcul numeric

De cele mai multe ori apare momentul în care manipularea datelor devine o
chestiune esenţială. Trebuie introduse variabile noi, obţinute prin calcule mai mult sau
mai puţin complexe, trebuie ordonate datele după diverse criterii, sau cazurile trebuie
împărţite în grupuri care să fie examinate într-un mod asemănător, dar separat unele de
altele.

SPSS poate crea variabile noi ale căror valori să fie obţinute din valorile
variabilelor deja existente, cu ajutorul unor formule de calcul. Aceste formule pot conţine
operatori aritmetici şi logici, funcţii aritmetice, pentru şiruri, pentru date calendaristice
sau de timp, şi o multitudine de funcţii statistice. În cele ce urmează vom compara
funcţiile aritmetice şi cele statistice pentru a vedea diferenţele între ele.

Fişierul de date pe care îl vom utiliza, Fracturi.sav, este un fişier care conţine
informaţii privind internările într-un spital. Un pacient poate avea nevoie de mai mult
decât o vizită, cum putem vedea în figura 6.6.

Figura 6.6. Fişierul de date Fracturi.sav

53
Calcule aritmetice

Pentru a utiliza procedura de calcul vom selecta Compute din meniul Transform
(figura 6.1). Acesta generează o casetă de dialog ca în figura 6.7. Aici vom specifica
numele variabilei ţintă (care poate fi o variabilă nouă dar poate fi şi una deja existentă).

Figura 6.7. Procedura de calcul al numărului mediu de zile spitalizare “spitmed”

Caseta de dialog mai are butoane pentru o serie de operaţii aritmetice, relaţionale
şi logice. Semnele pentru operanţii sunt următoarele:

+ adunare < mai mic > mai mare


- scădere <= mai mic sau egal >= mai mare sau egal
* înmulţire = egal ~= diferit de
/ împărţire & şi | sau
** ridicare la putere ~ negare

În urma executării procedurii din exemplu vom obţine o variabilă nouă spitmed,
reprezentând numărul mediu de zile de spitalizare pentru fiecare caz internat (figura 6.8).
Observăm că multe din cazuri nu au valori pentru variabila nouă. Acest lucru se
datorează faptului că multe din cele trei variabile spitaliz_ conţin valori omise sistem, şi
calculele nu pot fi efectuate.

54
Figura 6.8. Medii calculate cu operaţii aritmetice standard

Utilizarea funcţiilor SPSS

Dacă dorim să obţinem numărul mediu de zile spitalizare, bazat numai pe valorile
valide ale fiecărui caz, putem apela la funcţiile statistice ale SPSS. Procedura Compute
permite accesul la o mare varietate de funcţii predefinite care lucrează cu variabile
numerice, alfanumerice, date calendaristice sau care generează valori aleatoare după
distribuţii statistice standard.

Vom utiliza aici funcţia MEAN care calculează media zilelor de spitalizare ţinând
cont de valorile efectiv existente pentru fiecare caz. Noua variabilă rezultată o vom numi
spitmean, pentru a face distincţie de cea calculată înainte prin operaţii aritmetice. Funcţia
MEAN poate fi găsită în lista de funcţii a casetei de dialog Compute Variable prin clic
pe zona Functions, apoi prin defilare până la litera M.

În final caseta de dialog va arăta ca în figura 6.9.

55
Figura 6.9. Calculul mediei “spitmean” cu funcţia MEAN

6.7. Obţinerea unor variabile noi prin calcul cu date calendaristice

SPSS are o mare varietate de proceduri de calcul şi de funcţii destinate altor date
decât cele numerice. Chiar dacă datele numerice sunt pe de departe cele mai cunoscute
tipuri de date pentru majoritatea dintre noi, datele de tip text şi / sau dată calendaristică
sunt foarte frecvent utilizate în seturile de date. Din acest motiv, este foarte util ca cel
care gestionează fişierele de date să cunoască ceea ce poate face cu ele.

Datele calendaristice pot fi afişate într-o varietate de forme, care sunt definite în
caseta Define Variable Type din procedura Define Variable (vezi modulul 3). Aceste
forme se referă la formatul în care vedem datele pe ecranul monitorului (de exemplu,
ll/zz/aa, zz.ll.aaaa etc.) dar, intern, datele calendaristice sunt memorate sub forma unor
numere întregi care reprezintă numărul de secunde scurse de la 14 octombrie 1582 (data
introducerii calendarului Gregorian). Astfel, calculele cu datele calendaristice constau în
calcule matematice cu secunde şi convertirea acestora în intervale de timp (minute, ore,
zile etc.) după cum cere natura variabilei. Totodată există câteva funcţii predefinite, cu
ajutorul cărora se pot extrage anumite informaţii (de exemplu, luna) din datele
calendaristice.

56
Calculul duratelor pe baza a două date calendaristice

În spitale se înregistrează în mod uzual informaţii ca data naşterii, data internării;


iar vârsta în momentul internării sau durata spitalizării (când se cunoaşte deja data
externării) pot fi calculate uşor cu SPSS. Pentru calculul duratei avem nevoie să facem o
scădere, anume din data externării să scădem data internării, apoi să transformăm
rezultatul în număr de zile, folosind o funcţie adecvată. Rezultatul, numărul de nopţi
petrecute în spital, îl vom reţine într-o variabilă nou, să zicem “zilespit”.

Vom folosi pentru exemplificare fişierul Spitaliz.sav. Primul pas în construirea


formulei care calculează durata spitalizării va fi o scădere:

dataext – dataint

Dacă ne limităm doar la atât, noua variabilă va măsura durata spitalizării în


secunde, ceea ce nu ne convine. Aşa că vom aplica funcţia CTIME.DAYS (din lista de
funţii a SPSS) asupra rezultatului scăderii. În final caseta de dialog Compute Variable va
fi completată ca în figura 6.10. Toate funcţiile care se aplică datelor calendaristice sunt
prefixate cu CTIME şi urmate cu intervalul de dată dorit (CTIME.HOURS,
CTIME.MINUTES, CTIME.SECONDS).

Figura 6.10. Pasul 2 în calculul duratei spitalizării şi variabila rezultat “zilespit”

57
Calculul vârstei pe baza a două date calendaristice

Fişele pacienţilor unui spital conţin şi vârsta lor. Această informaţie poate fi şi ea
calculată din data naşterii (datanas) şi data internării (dataint). Ca şi durata spitalizării,
vârsta se calculează după formula:

vârsta = CTIME.DAYS ( dataint – datanas)

Problema e că vârsta nu dorim să o avem în număr de zile ci în ani împliniţi la


ultima aniversare. De aceea vom avea nevoie să împărţim rezultatul la 365.24, câte zile
sunt într-un an, iar apoi să reţinem doar partea întreagă a acestui rezultat. Vom aplica
funcţia TRUNC (trunchiere) pentru a îndepărta partea fracţionară a rezultatului. În final
formula va arăta ca în figura 6.11:

vârsta = TRUNC ( CTIME.DAYS (dataint – datanas ) / 365.24 )

Figura 6.11. Calculul vârstei şi variabila rezultat

58
6.8. Selectarea cazurilor după diverse criterii

Pentru anumite proceduri putem utiliza subseturi de cazuri, sau putem reţine doar
anumite cazuri în Editorul de date. Acest procedeu de “filtrare” nu înlătură cazurile care
nu ne interesează în momentul respectiv. Toate cazurile rămân în Editorul de date, dar
numai cele care satisfac criteriile de filtrare sunt utilizate în analiză. Există bineînţeles şi
opţiunea de “ştergere” a cazurilor înlăturate, dar acest lucru nu se face decât la o cerere
explicită. Dacă dorim să analizăm un grup selectat de cazuri vom utiliza filtrarea, dacă
dorim să lucrăm intensiv cu cazuri selectate, ştergerea este probabil mai eficientă.

Filtrarea se poate cere prin intermediul comenzii Select Cases din meniul Data.
Caseta de dialog Select Cases din figura 6.12 arată faptul că, iniţial, toate cazurile sunt
selectate (All cases este ales). Prin alegerea butonului If condition is satisfied, numai
cazurile care îndeplinesc criteriile din caseta If… vor fi selectate. Alegerea butonului
Random sample of cases va permite formarea unui eşantion aleator dintre cazurile
fişierului. Utilizarea unei variabile filtru Use filter variable permite reţinerea pentru
analiză doar a cazurilor care au valori diferite de 0 pentru variabila specificată. Starea
implicită este fără variabilă filtru, întrucât toate cazurile sunt selectate în mod curent (All
cases este ales).

Figura 6.12. Caseta de dialog Select Cases

59
În zona Unselected cases putem indica dacă dorim să filtrăm doar cazurile
(Filtered) sau dorim să ştergem cazurile neselectate (Deleted).

În figura 6.13 putem vedea cum în fişierul Martie97.sav s-au selectat numai
respondenţii de genul feminin de vârstă sub 30 ani.

Figura 6.13. Caseta de dialog If… şi cazurile filtrate

6.9. Împărţirea cazurilor în grupe de analizat

Dacă dorim să repetăm aceleaşi analize pentru subgrupuri separate de cazuri, o


metodă ar fi aplicarea unei serii de filtre asupra fişierului de date. Această metodă este
mare consumatoare de timp, iar SPSS oferă o soluţie mai simplă. Opţiunea Split Files din
meniul Data poate împărţii cazurile în subgrupe de analizat, cu condiţia ca aceste
subgrupe să fie mutual exclusive. Dacă desemnăm o variabilă ca variabilă de grupare
toate tabelele şi graficele vor fi generate de atâtea ori câte valori distincte are acea
variabilă în fişier.

60
De exemplu, dacă dorim să generăm tabele de frecvenţe pentru variabila mtrai,
care exprim cât de mulţumiţi sunt respondenţii Barometrului opiniei publice de traiul lor,
dar separat pentru fiecare gen, vom împărţi fişierul Martie97 în subgrupe determinate de
variabila gen, apoi vom cere generarea tabelului de frecvenţe pentru variabila mtrai.

Figura 6.14. Caseta de dialog Split File

Cele două tabele de frecvenţe vor apare în fereastra Navigatorului de rezultate.


Examinându-le (vezi tabelele de mai jos) mai cu atenţie vom vedea ca femeile sunt în
general mai puţin mulţumite.

61
Frequencies
Genul respondentului = masculin

Statisticsa

N
Valid Missing
Multumit de felul in care trãieste 624 0
a. Genul respondentului = 1 mas culin

a
Multumit de felul in care trã ieste

Valid Cumulative
Frequency Percent Percent Percent
Valid 0 NS / NR 2 .3 .3 .3
1 deloc multumit 61 9.8 9.8 10.1
2 nu prea multumit 250 40.1 40.1 50.2
3 des tul de multumit 293 47.0 47.0 97.1
4 foarte multumit 18 2.9 2.9 100.0
Total 624 100.0 100.0
Total 624 100.0
a. Genul respondentului = 1 mas culin

Genul respondentului = feminin

Statisticsa

N
Valid Missing
Multumit de felul in care trãieste 674 0
a. Genul respondentului = 2 feminin

a
Multumit de felul in care trã ieste

Valid Cumulative
Frequency Percent Percent Percent
Valid 0 NS / NR 2 .3 .3 .3
1 deloc multumit 87 12.9 12.9 13.2
2 nu prea multumit 295 43.8 43.8 57.0
3 des tul de multumit 267 39.6 39.6 96.6
4 foarte multumit 23 3.4 3.4 100.0
Total 674 100.0 100.0
Total 674 100.0
a. Genul respondentului = 2 feminin

62
6.10. Ordonarea cazurilor după diverse criterii

Procedura Sort cases din meniul Data permite ordonarea cazurilor din fişierul de
date după diverse criterii, în ordine ascendentă sau descendentă.

Dacă dorim să punem respondenţii în ordine alfabetică după judeţul de domiciliu,


câmpul de sortare va fi judeţ. Dacă dorim să-i punem în ordinea descrescătoare a vârstei,
câmpul de sortare va fi vârsta, dar va mai trebui să bifăm şi căsuţa Descending. Dacă
dorim să-i aşezăm în ordine alfabetică după judeţul în care locuiesc şi, în acelaşi timp
după vârsta pe care o au, vom avea două criterii de sortare: primul va fi variabila judeţ,
iar al doilea variabila vârsta (ca în figura 6.15).

Figura 6.15. Alegerea criteriilor de sortare în caseta de dialog

63
6.11. Ponderarea cazurilor

Dacă fiecare linie din baza de date reprezintă mai multe cazuri cu aceleaşi valori
pentru fiecare variabilă, putem specifica acest lucru prin intermediul procedurii Weight
Cases din meniul Data. Prin ponderare cazurile sunt tratate diferit. Unele sunt luate în
considerare de mai multe ori, altele de mai puţine ori. Ponderarea se utilizează pentru a
obţine estimaţii ale unei populaţii când unele categorii au fost sub-reprezentate în
eşantion. Ponderarea se mai poate utiliza în raportări despre o populaţie pe baza unui
eşantion.

O situaţie frecventă în care trebuie utilizată ponderarea este atunci când dorim să
introducem date în fişier nu pe baza unor cazuri individuale, ci din tabele de frecvenţe.
Fiecare linie valoare posibilă a variabilei se va introduce o singură dată, apoi se va
introduce frecvenţa cu care apare. După aceea urmează o declarare a câmpului cu
frecvenţele ca variabilă ce serveşte pentru ponderare.

De exemplu, figura 6.16 arată cum s-au atribuit valorile ratelor de fertilitate (fx)
realizate de fiecare grupă de vârstă fertilă (grvr), în diverşi ani calendaristici (an),
populaţiei feminine a judeţelor din România (judeţ).

Figura 6.16. Ponderarea fişierului Fertjud.sav

64
Modul 7. Întocmirea rapoartelor

Nu putem încheia seria de module SPSS fără să vedem cum se întocmesc


rapoartele. Spre deosebire de procedurile de analiză statistică care urmăresc să surprindă
generalul, ceea ce este comun tuturor cazurilor statistice; rapoartele furnizează mai
degrabă informaţii despre cazurile individuale combinate cu informaţii rezumative la
nivel de subgrupuri.

Am văzut deja în modulul 3, secţiunea despre depistarea erorilor, că putem obţine


o listă a cazurilor, completă sau nu, cu ajutorul comenzii Case Summaries, din meniul
Statistics, Summarize (vezi figura 7.1).

Figura 7.1. Alegerea procedurilor de întocmire a rapoartelor

Deşi util din multe puncte de vedere, mai ales pentru căutarea erorilor, procedura
Case Summaries este restricţionară într-un anumit sens: ea nu permite controlul cazurilor
afişate. Pentru a deţine un astfel de control trebuie să utilizăm una din procedurile Report
Summaries in Row sau Report Summaries in Columns, ale aceluiaşi meniu (figura 7.1). În

65
definirea unui raport se utilizează două categorii de variabile: variabile de raportare şi
variabile de întrerupere.

Variabile de raportare

Sunt variabilele care se doresc a fi listate şi pentru care se cer satisticile. Aceste
variabile sunt afişate în coloane separate.

Variabile de întrerupere

Aceste variabile împart datele în grupe şi sunt afişate in coloanele de întrerupere


din partea stângă a raportului.

7.1. Rapoarte de tip listă

Rapoartele de tip listă sunt similare celor obţinute cu procedura Case Summaries.
Lista cazurilor afişează valorile variabilelor sau etichetele lor, iar cazurile pot fi aşezate în
altă ordine decât cea existentă în fişier.

Figura 7.2. Caseta de dialog Report Summaries in Row – raport listă

66
De exemplu, pentru a produce o listă a internărilor pacienţilor din fişierul
Fracturi.sav vom trece în zona variabilelor de întrerupere Break Columns variabila după
care dorim să ordonăm cazurile. Este vorba de variabila care identifică pacienţii “id”.
Observăm că valorile acestui câmp se repetă, pentru că un acelaşi pacient a fost internat
de mai multe ori şi fiecare internare a fost însoţită de o nouă înregistrare în baza de date.
Vom dori să avem toate datele legate de un pacient grupate în raport şi nu disparate aşa
cum ele apar în fişierul de date. Paranteza (A) care însoţeşte numele variabilei id(A) se
referă la ordinea de sortare: dacă este (A) cazurile vor apare în ordine crescătoare a
valorilor (Ascending), iar dacă este (D) cazurile vor apare în ordine descrescătoare a
valorilor (Descending). În exemplul nostru pacienţii nu vor fi puşi în ordine alfabetică de
la A la Z cum ar trebui să fie ordonarea crescătoare a câmpurilor de tip text, pentru că id
este de fapt un câmp numeric, iar numele pacienţilor sunt doar etichetele valorilor
numerice.

În zona Data Columns, vom trece variabilele de raportare, adică, în exemplul


nostru data internării dataint şi durata totală a spitalizării spitot.

Ceea ce este esenţial în producerea unui raport de tip listă este alegerea bifarea
căsuţei Display Cases din partea stângă jos a casetei de dialog. Apoi se acţionează
butonul OK. Raportul obţinut este ilustrat în figura 7.3.

Figura 7.3. Raport listă în fereastra Navigatorului de rezultate

67
7.2. Rapoarte cu informaţii rezumative pe linii

Informaţiile rezumative, ca de exemplu totalul general al zilelor de internare sau


numărul de internări ale unui pacient, se pot obţine utilizând opţiunile oferite de
butoanele din categoria Summary de pe caseta Report Summaries in Row.

Observăm în figura 7.2 că există două butoane Summary: unul aparţine zonei
variabilelor de întrerupere Break Columns, iar celălalt, din partea dreaptă, aparţine zonei
Report valabil la nivelul întregului raport. Dacă statisticile rezumative dorim să le
obţinem pentru fiecare grup de cazuri vom utiliza butonul Summary de la variabilele de
întrerupere, iar dacă le dorim pentru întregul fişier vom utiliza butonul Summary general.

În exemplul nostru, unde însumările vrem să le facem pentru fiecare pacient vom
acţiona butonul Summary de la Break Variable, vezi figura 7.4. Pentru ca acesta să fie
eligibil id(A) trebuie mai întâi selectat.

Figura 7.4. Selectarea statisticilor rezumative la nivelul variabilei de întrerupere

Dintre indicatorii statistici ce pot fi calculaţi bifăm suma valorilor (Sum of values)
şi numărul de cazuri (Number of cases). S-ar mai putea selecta media, minimul, maximul,
procente sub / peste / între o valoare specificată, abaterea standard, varianţa, oblicitatea

68
sau ascuţimea (vezi figura 7.4). Pentru exemplul nostru aceşti ultimi indicatori nu au
sens.

Raportul generat va arăta ca cel din figura 7.5.

Figura 7.5. Raport combinaţie de listă cu indicatori rezumativi pe linii

Observăm că la fiecare pacient au mai fost introduse două linii unul de Sum, cu
suma valorilor variabilelor de raportare, şi alta cu N, un contor al numărul de valori
afişate. Acesta este formatul unui raport cu informaţii rezumative pe linii.

Suma datelor de internare produce un număr fără sens, iar numărul de valori
pentru duratele de spitalizare este o informaţie redundantă. Dacă dorim să le eliminăm
din raport o putem face cu ajutorul editorului Navigatorului de rezultate. Acest editor
permite modificarea oricărui rezultat produs în fereastra Navigatorului de rezultate.
Trebuie doar să facem dublu-clic în aria raportului. Apoi putem opera toate modificările
în stilul unui procesor de texte. Ceea ce putem obţine este, de exemplu, un raport
modificat ca cel din figura 7.6.

69
Figura 7.6. Raport modificat în fereastra Navigatorului de rezultate

Butoanele Options, Format, Layout şi Titles care mai apar în caseta de dialog
Report Summaries in Rows permit rafinarea formatelor de afişare în raport, alinierea
coloanelor, introducerea titlurilor, a antetelor şi subsolurilor, a datei curente, schimbarea
paginării etc., la nivelul variabilelor de întrerupere sau al întregului raport. Lăsăm
cititorului care dispune de un calculator înzestrat cu SPSS să exploreze aceste posibilităţi.

7.3. Rapoarte cu informaţii rezumative pe coloane

Procedura Report Summaries in Columns funcţionează pe baza aceloraşi principii


ca şi Report Summaries in Row, cu deosebirea că informaţiile rezumative se afişează în
coloane. În acest tip de raport cazurile individuale nu mai pot apărea. Toate informaţiile
sunt de tip rezumativ.

Raportul care se pregăteşte în figura 7.7 este unul declanşat cu comanda Report
Summaries in Columns. După cum putem observa în zona Data Columns se specifică

70
numele variabilelor de raportare, dar şi tipul informaţiei rezumative corespunzătoare.
Rezumatele nu se vor repeta identic pentru fiecare variabilă, ca în cazul rapoartelor
rezumative pe linii, ceea ce ne scuteşte de a mai introduce o etapă suplimentară de
modificări ale raportului generat.

Dataint:n din zona Data Columns semnifică faptul că se cere numărarea


apariţiilor valorilor în coloana dataint, cu alte cuvinte numărul de episoade de spitalizare
pentru fiecare pacient; spitot:sum va calcula totalul general al zilelor de spitalizare pentru
fiecare pacient, iar spitot:mean va calcula şi afişa un număr mediu de zile spitalizare la
internări pentru fiecare pacient.

În zona variabilelor de întrerupere avem acelaşi id(A), adică numărul de


identificare al pacientului, ceea ce va genera câte o linie de informaţii rezumative ori de
câte ori se schimbă numărul de identificare al pacientului, deci pentru fiecare pacient.

Figura 7.7. Generarea unui raport cu informaţii rezumative pe coloane

Raportul rezultat poate fi văzut în figura 7.8.

71
Figura 7.8. Raport cu informaţii rezumative pe coloane

72
BIBLIOGRAFIE

Babbie, Earl, 1991 – The Practice of Social Research, Wadsworth publishing Company,
Belmont, California, 493 p.
Bryman, Alan & Cramer, Duncan, 1992 – Quantitative data analysis for social scientists,
Routledge Edition, 294 p.

Mioriţa, Ilie, 1993 – dBASEB IV Sistemul de meniuri pe înţelesul tuturor, Editura Teora,
Bucureşti, 216 p.
Mureşan, Cornelia & colab., 1990 - Totul despre dBASE, vol. 1, Editura TDB, Cluj-
Napoca, 320 p.
Mureşan, Cornelia & colab., 1991 - Totul despre dBASE, vol. 2, Editura TDB, Cluj-
Napoca, 200 p.
Norusis, J. Marija, 1992 – SPSS for Windows. Basw System User’s Guide, SPSS Inc.,
672 p.

Rotariu T., Bădescu G., Culic I., Mezei E., Mureşan C., 1999 – Metode statistice aplicate
în ştiinţele sociale, Editura Polirom, Iaşi, 335 p.

73

S-ar putea să vă placă și