Documente Academic
Documente Profesional
Documente Cultură
Capitolul I - Masurarea in Stiintele Socio-Umane PDF
Capitolul I - Masurarea in Stiintele Socio-Umane PDF
Noiuni teoretice
Analiza de date se bazeaz, evident, pe date. Ce sunt ns datele, cum se
clasific ele, ce putem face cu ele i cum le utilizm n mod corect, toate acestea
sunt probleme pe care vom ncerca s le lmurim pe parcursul ntregii lucrri.
ntr-o prim instan, vom studia ce sunt datele, de unde le putem culege, cum
se mpart, cum se pot organiza i, n definitiv, care este disciplina tiinific ce se
ocup de asemenea lucruri. Nu n ultimul rnd, vom vedea ce nseamn, de fapt,
a msura. Este posibil ca acest cuvnt s semnifice i altceva fa de ceea ce
tiai.
I.1
Cristian Opariuc-Dan
Cristian Opariuc-Dan
I.2
Cristian Opariuc-Dan
10
Cristian Opariuc-Dan
12
Cristian Opariuc-Dan
Dac n loc s msoare cu ruleta, msoar cu metrul de stof, atunci s-ar putea
ca dimensiunea real s fie de 19,75 centimetri, chiar dac nea Costic nu are
probleme cu vederea. n fine, chiar dac folosete un instrument de msur
precis, limea mesei ar putea fi 20,00545 centimetri, situndu-ne, dup cum
intuii, la o clas de precizie diferit. Dac tot am vorbit despre metru, ar fi bine
s precizm c acesta reprezint, conform definiiei metrologice, distana
parcurs de lumin ntr-un interval de timp de 1/299.792.458 dintr-o secund, prin
urmare nivelurile de precizie sunt, practic, infinite.
n tiinele socio-umane lucrurile nu mai sunt att de limpezi. Cum am
putea msura, spre exemplu, inteligena? Nu avem la dispoziie, n acest caz,
nici ruleta i nici mcar o unitate de msur, nu putem spune c avem 20 de
kilograme sau 20 de centimetri de inteligen. Poate v gndii c msurm
inteligena n IQ, ns coeficientul de inteligen nu este o unitate de msur, ci
un raport ntre vrsta mintal i vrsta cronologic ( =
100). Cu alte
23
15
acesteia, putem spune c o persoan este mai anxioas, o alta mai puin
anxioas, chiar i c o persoan este mai anxioas n comparaie cu alta, ns nu
avem de unde ti ce cantitate de anxietate posed un om. Din acest motiv, vom
aprecia c factorii psihici, dar i alte obiecte de acest tip, au un caracter latent,
i i vom putea denumi factori (caracteristici) latente, n sensul c
exist ntr-o anumit cantitate, doar c aceast cantitate nu poate
fi observat i msurat n mod direct. Orice persoan are, la un
moment dat, o anumit cantitate de anxietate sau de depresie, un anumit
nivel de trai sau o anumit ncredere n clasa politic. Toat chestiunea este c
nu avem uniti de msur pentru aceste cantiti i nici instrumente precise
pentru a le msura. Putem presupune c orice caracteristic latent, din punct
de vedere al cantitii, poate lua orice valoare ntre minus i plus infinit, de la
valori infinit de mici la valori infinit de mari. Acest concept l ntlnim sub numele
de continuum al factorului latent, nelegerea sa condiionnd nelegerea
msurrii n tiinele socio-umane.
Dac aceti factori lateni nu pot fi cunoscui n mod direct, cum ar putea
fi, totui, msurai? S presupunem c vom ntreba persoanele crora dorim s
le cunoatem anxietatea dac le-ar fi team atunci cnd ar sta pe un cmp de
lupt sub focul mitralierelor. Un asemenea comportament ar presupune o
cantitate foarte mic de anxietate la rspunsul pozitiv. Tuturor ne este team
de rzboi, de armele de foc, prin urmare rspunsul da ar fi perfect normal. Din
contra, un rspuns negativ ar putea fi indicatorul unei patologii psihice. n
termeni tehnici, aceast ntrebare s-ar situa undeva spre polul negativ al
continuumului factorului latent, comportamentul vizat saturnd foarte puin
anxietatea. Acelorai persoane le punem i o a doua ntrebare, dac le este fric
s stea n cas pe ntuneric atunci cnd se ntrerupe curentul electric. De data
aceasta, rspunsul normal ar fi negativ, un rspuns eventual pozitiv indicnd o
15
Cristian Opariuc-Dan
cantitate mare de anxietate. Dac se ntrerupe seara curentul, te poi cel mult
enerva n cazul n care ai ceva de fcut, n niciun caz nu i va genera o senzaie
de team. Un astfel de comportament l putem considera saturat n anxietate,
situndu-se nspre polul pozitiv al continuumului factorului latent. n fine,
ntrebnd persoanele dac le place pizza cu ton, msurm orice altceva, numai
anxietatea nu. Asta deoarece preferina ctre un sortiment de pizza nu are nicio
legtur cu anxietatea, n termeni tehnici ntrebarea fiind situat n afara
continuumului factorului latent.
Astfel de ntrebri se numesc eantioane de comportamente. Deoarece
nu putem observa direct factorul latent, l vom observa indirect, prin
intermediul unor eantioane de comportamente extrase dintr-un univers
practic nelimitat de comportamente specifice. Pe baza modului n care
persoanele ar reaciona la aceste comportamente i cunoscnd zona n care
acestea se situeaz n continuumul factorului latent, se poate aprecia, subiectiv,
nivelul factorului latent al persoanei, fr a spune c msurm exact cantitatea
de factor latent. Acesta este modul n care efectum msurtori n domeniul
socio-uman, iar trecerea de la o dimensiune latent general, abstract, la
indicatori, componente concrete ale dimensiunii i apoi la eantioane de
comportamente (numite i itemi n literatura de specialitate) poart numele de
operaionalizare a constructelor latente.
Chiar dac am operaionalizat foarte bine constructele i am conceput
un instrument de msur foarte bun, msurarea n tiinele sociale rmne
inexact i limitat, din mai multe motive. n primul rnd, nu putem construi
instrumente de msur care s acopere ntregul continuum al factorului latent.
Un test de inteligen, de exemplu, se adreseaz zonei medii a inteligenei.
Acesta va putea diferenia destul de bine persoanele cu o inteligen de la
16
Cristian Opariuc-Dan
persoan este de dou ori mai anxioas sau mai inteligent dect o alt
persoan, c are un nivel de trai de trei ori mai bun sau mai slab. Convenional,
valoarea zero n tiinele socio-umane este media, faptul c o persoan nu se
distinge
de
majoritatea
oamenilor
privind
caracteristica
msurat.
un
instrument
de
msur,
decidem
asupra
18
Noiunea de variabil
tim bine de acum c obiectele, n sensul general al termenului, pot fi
Cristian Opariuc-Dan
I.3
Niveluri de msur
Dincolo de distincia calitativ-cantitativ, desigur foarte important,
lum,
spre
exemplu,
genul
Cristian Opariuc-Dan
I.3.1.1
22
ntre
categorii,
baza
aib vreo semnificaie, aici nu mai putem proceda la fel, deoarece ordinea
categoriilor conteaz. Regula de baz este aceea conform creia o categorie
23
Cristian Opariuc-Dan
25
Cristian Opariuc-Dan
26
Nivelul de raport
cu una avnd nlimea de 210 centimetri, dar i de dou ori mai scund, pentru
c dac lum dou persoane nalte de 105 centimetri i le punem una n capul
celeilalte, ajungem s msoare exact ct persoana cu nlimea de 210 de
centimetri. n psihologie nu atingem acest nivel de msur n mod curent, rar se
ntmpl s msurm la acest nivel n alte domenii socio-umane, poate doar n
tiinele economice. Psihofiziologia mai opereaz cu asemenea scale, iar n
domeniul instrumentelor de diagnostic psihologic putem fora nivelul de
raport n teoria rspunsului la item.
27
Cristian Opariuc-Dan
Aplicaii
I.4
01.ibm.com/software/analytics/spss/products/statistics/downloads.html,
compania
IBM
la
posibilitatea
de
descrcare a programului de
instalare.
Implicit,
pentru
numit
Download
recomandm
apsai
Cristian Opariuc-Dan
de
operare
procedee
specifice
de
instalare.
Putei
citi
Numele legturii sau aspectul paginii sunt preluate de la adresa oficial a paginii proiectului.
Aceste elemente pot s aib o alt prezentare sau o versiune diferit.
30
Cristian Opariuc-Dan
Cristian Opariuc-Dan
34
http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html
35
Cristian Opariuc-Dan
36
vom
Deducer
cuta
pachetele
DeducerExtras,
loaded
pentru
coloan,
cea
numit
default. Astfel, putem ncrca sau elimina orice alt pachet n aceast interfa
grafic, iar atunci cnd am terminat lucrul cu pachetele putem apsa butonul
Close pentru a iei din procedura de gestiune a pachetelor R.
Cristian Opariuc-Dan
I.5
38
Nume
Tip
Nivel
Codare dummy
varsta
N(3)
Scalar
gen
N(1)
Nominal
Nivelul
educaional
niv_edu
N(1)
Ordinal
Coeficient de
inteligen
iq
N(3)
Scalar
1 Masculin
2 - Feminin
1 Fr studii
2 Primare (1-4)
3 Gimnaziu (5-8)
4 Liceu (9-12)
5 Bacalaureat
6 Universitare
(Licen)
7 Universitare
(Master)
8 Doctorat
9 - Postdoctorale
-
Scop
Demografic, posibil
independent
Demografic, posibil
independent
Demografic,
independent
Dependent
39
Cristian Opariuc-Dan
40
10) solicitau acest lucru, dar cum nu putem ti ce fel de program ar folosi un
eventual colaborator, v recomand s inei cont de aceast regul. Nu vom
numi o variabil nivel_educational, i nici NivelEducational sau
nivelEducational, deoarece am depi limita celor 8 caractere; vom prefera s
scriem, ca mai sus, niv_edu (7 caractere), NivEdu sau nivEdu (6 caractere).
O alt regul important spune c fiecare variabil trebuie
s ocupe o coloan distinct n baza de date, iar fiecare subiect va
ocupa un singur rnd (va avea o singur nregistrare) (Field, 2005).
Dac ar trebui, de exemplu, s msurm coeficientul de inteligen,
avnd, astfel, o testare iniial, apoi s aplicm o tehnic de dezvoltare a
inteligenei i, dup 6 luni sau un an, s realizm o testare final, cum am
proceda? Exist o singur variabil, coeficientul de inteligen, msurat n dou
momente diferite de timp, situaie foarte bine cunoscut n cazul cercetrilor cu
msurri repetate. Pentru a nu nclca aceast regul, vom crea dou variabile
n baza de date, i nu una singur, de exemplu iq_ini pentru msurarea iniial
i iq_fin pentru cea final, respectnd astfel prima parte a regulii, dar i cea
de-a doua parte, n care o persoan ocup un singur rnd.
Tipul i nivelul de msur a variabilelor sunt alte informaii, foarte
importante, atunci cnd proiectm baza de date. Pentru a putea vorbi despre
msurare, n adevratul sens al definiiei, tim c trebuie s asociem numere
atributelor obiectelor i fenomenelor studiate. De aceea, nc de la nceput,
trebuie s decidem care dintre variabile exprim caliti i care exprim
cantiti, adic s stabilim nivelul lor de msur. Variabilele iq i varsta se
refer, evident, la cantiti, i se exprim, n mod natural, prin numere. n primul
caz vorbim despre coeficientul de inteligen, un numr situat la un nivel de
msur de interval, iar n al doilea caz tot despre un numr, vrsta, exprimat
41
Cristian Opariuc-Dan
dou variabile exprim cantiti, msurate prin numere, aadar vor fi definite ca
numerice (N), ns de cte cifre vom avea nevoie pentru a stoca toate valorile
posibile? n cazul vrstei, exprimat n ani, cu o singur cifr vom putea memora
scoruri de la 0 la 9 ani, total insuficient avnd n vedere persoanele pe care
urmeaz s le evalum. Stm mult mai bine dac am folosi dou cifre, deoarece
am putea nregistra persoane cu vrsta cuprins ntre 0 i 99 de ani, dar ce ne
facem dac includem n studiu i bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depi 999 de ani, ct este
maximum teoretic al amplitudinii valorilor. n cazul n care variabila nu comport
numere zecimale, am putea nota acest lucru de forma N(3), adic o variabil
de tip numr ntreg, format din 3 cifre, cu o amplitudine de la 0 la 999. n cazul
n care am fi proiectat un studiu specific tiinelor economice i administrative
i am fi avut o variabil n care s stocm, spre exemplu, preul unor produse,
am fi preferat o reprezentare zecimal, notnd tipul variabilei cu N(4.3), adic
o variabil de tip numr zecimal, format din 4 cifre pentru a reprezenta ntregii
i 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
n cazul coeficientului de inteligen, putem proiecta variabila tot de tip
N(3), asigurnd o amplitudine suficient pentru a permite nregistrarea scorului
oricrei persoane, deoarece am stoca valori ale coeficientului de inteligen
cuprinse ntre 0 i 999. Iat c am ajuns la o nou regul, i anume
aceea conform creia categoriile create trebuie s fie exhaustive,
adic suficiente pentru a permite oricrui caz particular s poat
fi inclus ntr-o categorie.
Dac n cazul celor dou variabile discutate lucrurile sunt destul de clare,
deoarece exprim, natural, cantiti, variabilele gen i niv_edu exprim
caliti. Genul biologic se situeaz la un nivel nominal (categorial) de msurare,
43
Cristian Opariuc-Dan
deoarece nu putei pune, nici mcar n glum, o relaie de ordine ntre cele dou
categorii, iar nivelul de educaie poate fi tratat ca o variabil situat la un nivel
de msur ordinal, deoarece o persoan care a terminat doar gimnaziul are un
nivel de educaie inferior celeia care a absolvit liceul.
Toat problema este c orice program de analiz de date prefer s
ronie numere i nu litere. Din acest motiv, am ajuns la o nou
regul foarte important, aceea c toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
n baza de date, textul masculin i feminin, nici mcar M i F atunci cnd
nregistrm scorurile persoanelor la variabila gen. n primul rnd, nu am
respecta definiia msurrii, motiv suficient pentru a renuna la orice analiz de
date. n al doilea rnd, am pierde enorm de mult timp dac am scrie, de fiecare
dat, unul dintre cele dou texte, pentru fiecare persoan, ca s nu mai punem
la socoteal riscul crescut de a comite erori. Dac n loc de masculin am omite
o liter, spre exemplu am scrie masclin, fapt extrem de probabil, atunci nu am
mai avea dou categorii ale variabilei, ci trei: masculin, masclin i feminin.
Folosind litere, putem calcula, cel mult, de cte ori apare un cuvnt, fapt care ar
limita puterea analizei de date la cea dat de numrarea scorurilor din fiecare
categorie. Dar nu ne oprete nimeni s notm cu 1 categoria masculin i cu 2
categoria feminin, sau invers. Astfel, respectm definiia msurtorii,
reducem riscul de a comite o eroare i crem posibilitatea unor analize de date
mai puternice. O asemenea atribuire poart numele de codare dummy, pentru
a arta c numerele alocate au doar o valoare de etichet, nu ndeplinesc funcia
lor normal. Pur i simplu, n loc de masculin vom tasta 1 (sau 2, 7, 5, dup
cum dorim), iar n loc de feminin vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relaia de ordine ntre categorii nu exist.
44
Cristian Opariuc-Dan
s nu bifeze niciunul sau s scrie un alt partid, neinclus n lista standard. Cum
am putea proiecta o asemenea variabil deoarece, aa cum observai, codarea
dummy prezentat anterior permite alegerea doar a unei singure variante de
rspuns. ntr-o astfel de situaie, am putea regndi itemul unic, l-am putea privi
ca fiind format din mai muli itemi dihotomici, atia cte variante de rspuns
exist. De exemplu, Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PX?; Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PY? i aa mai departe. Ar rezulta un numr de variabile
dihotomice, de tipul nu_PX, nu_PY, nu_PZ, nu_NSNR i o variabil de tip
text, de genul nu_P_Alt, n ultimul caz stocnd ceea ce va scrie respondentul
i procednd, ulterior, la o analiz calitativ (Opariuc-Dan, 2009). Exceptnd
variabila calitativ, n celelalte cazuri putem proceda la o codare dummy de
genul 1 Adevrat i 0 Fals, sau putem folosi orice alt sistem de codare
dummy dihotomic dorim, rezolvnd, astfel, problema.
O alt regul, destul de important, susine prezena
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoan ar trebui s aib valori la
toate variabilele din baza de date. n situaia n care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lips, prezena lor putnd avea consecine serioase asupra unor
categorii de tehnici de analiz de date (spre exemplu, modelele de ecuaii
structurale). Nu este ntotdeauna posibil s evitm apariia cazurilor lips,
deoarece persoanele pot refuza sau pot omite s furnizeze unele rspunsuri.
Majoritatea programelor de analiz de date au proceduri puternice de gestiune
a cazurilor lips, unele dintre ele urmnd s le discutm i noi; tot ceea ce va
trebui s reinei n acest moment, este c un caz lips va fi reprezentat prin
46
absena datelor din celula respectiv, nu prin introducerea valorii zero. Dac vei
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide i le va include n analiz, fapt ce ar putea s conduc la rezultate
profund eronate.
n fine, ultima regul pe care o vom comenta se refer la
codarea variabilelor n concordan cu sensul scalei (Field, 2005).
Anumite ntrebri pot avea o scal de rspuns inversat. De
exemplu, rspunsul ntrebarea Ct de mulumit suntei de nivelul
dumneavoastr de venit? poate fi dat pe o scal de la 1 la 5, unde 1 nseamn
foarte puin mulumit i 5 nseamn foarte mulumit. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificaiei de mai
mult. La fel de bine am putea spune c 1 nseamn foarte mulumit i 5
foarte puin mulumit, dac ne gndim c 1 ar avea semnificaia primului loc,
iar 5 semnificaia ultimului loc. tim deja c rareori msurm o variabil prin
intermediul unui singur item; de multe ori sunt necesare mai multe ntrebri,
unele fiind operaionalizate astfel nct 5 s reprezinte mult, altele ca 1 s
reprezinte mult, aceasta fiind i o tehnic de pstrare a ateniei, folosit destul
de des n psihologie. Programul de analiz de date tie doar c 5 este mai mare
ca 1, neavnd habar i nefiind interesat de modul n care am construit noi scala
de rspuns. V dai seama c dac am msura o variabil prin intermediul unui
numr de 10 itemi, 5 avnd scale de rspuns cresctoare, 5 descresctoare, din
punct de vedere al analizei de date tendinele s-ar anula reciproc (cei care
rspund cu 4 la primii 5 itemi, adic n sensul de mult, vor rspunde cu 2 la
ultimii cinci, tot n sensul de mult). De obicei, atunci cnd efectum codarea
dummy la definirea variabilelor, respectm modul n care au fost proiectai
itemii, pentru a nu crea confuzie la introducerea datelor. Cnd iniiem ns
analiza de date, vom avea grij s aducem toi itemii n sensul natural al scalei,
47
Cristian Opariuc-Dan
principale (vezi Figura I-17). Butonul Data View comut n seciunea destinat
introducerii datelor, aceasta fiind seciunea implicit, activ atunci cnd pornii
programul. Doar c, pentru a putea introduce datele, va trebui s fi definit n
prealabil variabilele. Nu este cazul nostru, din acest motiv va trebui s efectum
click pe butonul Variable View pentru a comuta n seciunea de definire a
variabilelor, practic o implementare computerizat a tabelului meta-datelor
discutat mai sus.
49
Cristian Opariuc-Dan
stabilirea
tipului
acesteia.
Ne
compus din trei cifre N(3). Dup ce am terminat de introdus numele variabilei
i am prsit celula, IBM SPSS Statistics a completat automat tipul variabilei, n
funcie de configuraia sa, definind-o drept N(8.2). Adic, o variabil numeric,
avnd 8 caractere ntregi i dou caractere zecimale. Dimensiunea este mult
prea mare fa de ce avem noi nevoie, prin urmare vom scrie, n celula
Decimals, n loc de 2 cifra 0, iar n celula Width, n loc de 8 cifra 3.
Rareori vom avea nevoie s
schimbm tipul variabilei, deoarece,
aa cum tim, n analiza de date se
impune
acestora.
codarea
Dac
numeric
dorim,
putem
), pe care
putem aps pentru a se afia fereastra din Figura I-20. Primele patru opiuni
reprezint diferite moduri de definire a numerelor, n partea dreapt putnd
50
stabili numrul de cifre ale ntregilor i numrul de cifre ale zecimalelor, la fel ca
mai sus.
Opiunea
Date
are
elementele
Width
calendaristic
solicitat
pentru
Cristian Opariuc-Dan
deschise,
Ce?
sau
de
genul
Altcineva.
Cristian Opariuc-Dan
realizate prin observare direct, din surse externe de date, aceasta fiind situaia
tuturor variabilelor din exemplul nostru. Opiunea Target are n vedere
realizarea variabilei din alte variabile, prin transformri sau calcule. De exemplu,
dac din variabila varsta construim o nou variabil, numit grup_varsta,
aceast nou variabil este considerat de acest tip. Atunci cnd o variabil se
poate realiza i direct, i prin calcul, opiunea aleas va fi Both. De exemplu,
variabila varsta poate fi de acest tip, dac iniial am introdus manual datele,
apoi am decis s eliminm valorile vrstei pentru toi subiecii minori, acest
lucru fiind obinut n urma unei operaiuni de transformare. Opiunea None
arat c variabilei nu i-a fost atribuit niciun rol sau c rolul su nu este bine
cunoscut. De obicei, se folosete atunci cnd datele sunt importate dintr-un alt
program sau am preluat o baz de date de la o persoan nefamiliarizat suficient
cu aceast aplicaie, i nu tim cum s-au obinut, astfel, datele. Opiunile
Partition i Split se folosesc n cazul variabilelor pe baza crora se scindeaz,
logic, fiierul de date, diferena dintre ele innd doar de modul n care s-au
mprit datele. Dac scindarea bazei de date s-a realizat folosind un criteriu de
selecie a cazurilor n care s-a inclus variabila, atunci aceasta are un rol de
partiionare. Dac este vorba despre o variabil categorial, pe baza categoriilor
acesteia mprindu-se fiierul, atunci avem de a face cu o variabil Split. Spre
exemplu, putem alege una dintre cele dou opiuni dac facem analize de date
separat pentru brbai i separat pentru femei (variabila gen fiind o variabil
cu rol de Split), sau dac alegem spre analiz doar brbaii cu vrsta peste 20
de ani (variabilele gen i varsta sunt variabile de partiionare).
Declararea rolului unei variabile nu are vreun efect asupra analizei de
date, aa cum tim, ns poate comunica unui alt cercettor modul n care au
fost obinute i prelucrate datele, fapt ce arat o tratare profesional i serioas
54
subiecilor:
I.5.1.1
IBM
SPSS
Statistics
Din
acest
motiv,
opiunea
Cristian Opariuc-Dan
variabile, adic s tratm aceste situaii drept cazuri lips. Minore sunt toate
persoanele cu vrsta cuprins ntre 0 i 18 ani, iar pentru persoanele care au
refuzat explicit s comunice vrsta, am ales codul 999. Realizai c ntr-o
asemenea situaie, n mod obligatoriu ar trebui s includem valoarea 999 ca
valoare discret pentru cazuri lips, altminteri ar rezulta o medie de vrst
matusalemic. Problema nu ine de aceast valoare unic, ci de intervalul de
vrst cuprins ntre 0 i 17 ani, prin urmare vom alege ultima opiune, Range
plus one optional discrete missing value. n primele dou casete putem stabili
intervalul de valori, specificnd 0 ani drept limit inferioar (Low) i 17 ani
drept limit superioar (High) iar n a treia caset (Discrete value) putem
56
introduce 999 ani, codul pentru situaia n care persoanele refuz s declare
vrsta. Problema a fost rezolvat, nu rmne dect s apsm butonul OK
pentru a memora configuraia sau Cancel pentru a prsi fereastra fr a
reine setrile.
I.5.1.2
asta. Aceast cale chiar exist, iar pentru a o accesa este suficient s apsai
butonul cu punctele de suspensie ce apare dac vei da click pe celula variabilei
gen, n dreptul coloanei Values, ultima coloan nediscutat.
57
Cristian Opariuc-Dan
asociere
suplimentar, 3 Nedeterminat,
ns observm c, din neatenie, am
comis o greeal la denumirea
Figura I-30 Modificarea codrii unei categorii
vom selecta asocierea fcnd click pe elementul corespunztor din list. n acel
moment, se vor ncrca, n cele dou casete de sus, valoarea i eticheta codrii
selectate. Vom opera modificrile dorite, apoi vom apsa butonul Change
pentru a le memora.
n cazul n care dup selecie
nu se modific nimic n cele dou
casete,
se
activeaz
butonul
efect
tergerea
categoriei
Figura I-33 Tabelul complet al meta-datelor variabilelor, implementat n IBM SPSS Statistics
I.5.1.3
Cristian Opariuc-Dan
mausul circa 2 secunde deasupra unui nume, vei putea afla, ntr-o etichet
ajuttoare, i denumirea sa.
n acest moment, ne vom
deplasa n celula primului rnd din
Figura I-35 Baz de date completat cu scoruri n prima coloan i vom introduce
modul de afiare al valorilor
vrsta primei persoane, n cazul
nostru, 23 de ani. Apsm apoi tasta Tab sau sgeata orientat nspre dreapta
pentru a introduce genul biologic. Cum acea persoan este brbat, vom scrie
cifra 1, iar n urmtoarea coloan vom scrie cifra 3, deoarece subiectul a absolvit
doar gimnaziul. n fine, acesta pare a fi un geniu, chiar dac nu a mai urmat
liceul, deoarece coeficientul su de inteligen este 125. O nou apsare a tastei
Tab ne va conduce la prima coloan a celui de-al doilea rnd, pregtind
introducerea unui al doilea subiect.
Acest mod de vizualizare i introducere a datelor poart numele de
vizualizare bazat pe valori, deoarece se afieaz, n cazul
Figura I-36 Mod de
vizualizare bazat
pe valori
prezentate
sub
form
calitativ, conform codrii dummy. Chiar dac dumneavoastr vei tasta numere
n continuare, acestea vor fi prezentate ca etichete asociate. Putei alege orice
variant dorii, fiecare are avantaje i dezavantaje, ns modul de vizualizare
bazat pe valori este considerat a fi mai rapid.
Dup ce ai creat o baz de date, v recomandm s o
salvai ntr-un fiier pe disc. Putei face acest lucru foarte
Figura I-38 Salvarea
simplu, apsnd butonul de forma unei dischete albastre,
i ncrcarea bazei
de date
situat pe bara de instrumente sau accesnd opiunea Save
ori Save As din meniul File. Dac baza de date este nou creat, vi se va
solicita numele fiierului, toate bazele de date IBM SPSS Statistics, indiferent de
versiune, avnd extensia sav. ncrcarea unei baze de date IBM SPSS Statistics
se poate face apsnd butonul sub forma unui dosar galben sau accesnd
meniul File, submeniul Open i opiunea Data. Nu intrm n detalii,
deoarece operaiunile de salvare i ncrcare a fiierelor reprezint lucruri
cunoscute, sarcinii curente ale utilizatorilor de computere.
n continuare, ai putea petrece un timp cu baza de date nou creat i s
o completai cu date, astfel nct s reuii s strngei circa 30-40 de
nregistrri. Nu uitai s salvai, din cnd n cnd, deoarece riscai s pierdei tot
ce ai lucrat n cazul n care vi se blocheaz computerul sau se ntrerupe curentul
electric.
61
Cristian Opariuc-Dan
I.5.1.4
ajutorul creia se pot efectua diferite aciuni. O parte a sintaxei este nativ SPSS,
provenind de la versiunile mai vechi, o alt parte putnd reprezenta cod n
adevratul sens al cuvntului, deoarece versiunile noi IBM SPSS Statistics au
implementat i limbajul de programare Python, pe care l putei accesa doar
dac ai optat i pentru instalarea acestuia atunci cnd a fost instalat IBM SPSS
Statistics.
Pentru ceea ce ne intereseaz, sintaza nativ SPSS este suficient, prin
urmare nu vom lungi expunerea cu alte limbaje de programare. Vom da click n
fereastra de editare a codului i vom ncerca s definim prima variabil, genul
biologic.
* DEFINIRE VARIABILA "gen".
63
Cristian Opariuc-Dan
64
Doar att? Exact! Sunt suficiente dou linii pentru a crea 420 de variabile,
linii pe care le putem scrie n 20 de secunde, dar care ne pot salva cel puin o zi
de munc. i ca s sintetizm, ntregul cod necesar pentru a crea baza de date
este scris astfel:
* DEFINIRE VARIABILA "gen".
NUMERIC gen (F1.0).
VARIABLE LABELS gen 'Genul biologic al subiecilor'.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
VARIABLE LEVEL gen (NOMINAL).
* DEFINIRE VARIABILA "varsta".
NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vrsta subiecilor n ani mplinii'.
VARIABLE LEVEL varsta (SCALE).
* DEFINIRE VARIABILA niv_edu.
NUMERIC niv_edu (F1.0).
VARIABLE LABELS niv_edu 'Nivelul educaional'.
VALUE LABELS niv_edu 1 'Fr studii' 2 'Primare (1-4)' 3
'Gimnaziu (5-8)' 4 'Liceu (9-12)' 5 'Bacalaureat' 6
'Universitate (Licen)' 7 'Universitate (Master)' 8 'Doctorat'
9 'Postdoctorale'.
VARIABLE LEVEL niv_edu (ORDINAL).
* DEFINIRE ITEMI SCALA DE ANXIETATE.
NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).
Acest cod poate fi salvat ntr-un fiier (avnd extensia sps) i poate fi
executat n totalitate alegnd, din meniul Run, comanda All. Aceast aciune
ar trebui s funcioneze cel puin teoretic, doar c genereaz erori la ncercarea
de creare a unei baze de date noi. Din acest motiv, nainte de a rula codul, vom
crea o variabil oarecare n baza de date, folosind modul tradiional, Variable
View, chiar dac ulterior o vom terge:
65
Cristian Opariuc-Dan
Acum putem rula liniti sintaxa, accesnd comanda de mai sus, i n doar
cteva fraciuni de secund toate cele 423 de variabile ale bazei de date vor fi
create.
Figura I-42 Baz de date cu 423 de variabile creat prin sintax SPSS
66
67
Cristian Opariuc-Dan
numele
respectnd
setului
conveniile
de
de
date,
notare
text, putem alege tipul Character, variabilele discrete (nominale sau ordinale)
fiind reprezentate de tipul de date Factor.
n cazul variabilei varsta, lucrurile sunt foarte simple. Tot ceea ce avem
de fcut este s scriem numele acesteia i s alegem tipul ntreg de date. Nu mai
stabilim numrul de cifre i/sau de zecimale, aa cum am fi procedat n IBM SPSS
Statistics. Pentru nceput, vom defini toate cele patru variabile i vom stabili
tipul de date al variabilelor varsta i iq la numere ntregi (Integer), iar tipul
de date al variabilelor gen i niv_edu la factori (Factor).
Cristian Opariuc-Dan
factor level i apoi apsm OK fr a face vreo alt specificare. Nu este bine
s introducei diacritice sau alte caractere speciale. Vom prefera, n mediul R, s
folosim alfabetul latin standard, deoarece prin utilizarea de caractere speciale
riscm s apar erori destul de greu de identificat i tratat.
Dup
apsarea
butonului
OK,
click pe numele ei n lista Levels, apoi o putem muta n sus sau n jos, folosind
butoanele de tip sgeat albastr. n fine, o putem elimina, apsnd butonul
minus (-) de culoare roie.
Deoarece avem destul de multe categorii, vom proceda n alt fel.
Selectm cele dou categorii incluse pn acum i le eliminm, folosind butonul
70
minus (-) de culoare roie, apoi apsm butonul plus (+) de culoare verde i
introducem ultima categorie (Postdoctorale). Continum la fel, descresctor,
pn la prima categorie (Fr studii).
Mai mult ca sigur, problema descris
anterior este o eroare de programare, ns acum
avei i metoda prin care o putei evita.
Introducnd
descresctor
categoriile
unei
n mod similar vom proceda i pentru a coda variabila gen, avnd grij
s nu mai bifm caseta Ordered, deoarece variabila este una categorial, astfel
nct nu mai conteaz nici ordinea n care introducem datele.
Tabelul meta-datelor este acum complet (vezi Figura I-53), rmne doar
s apsai butonul de forma unei dischete negre de pe bara de instrumente sau
s alegei opiunea Save Data, din meniul File, pentru a-l salva ntr-un fiier.
71
Cristian Opariuc-Dan
73
Cristian Opariuc-Dan
Chiar dac este o comand ceva mai lung, asta nu nseamn c poate
fi considerat i complicat. Practic, am spus mediului R s preia variabila
existent gen, s includ categoriile Masculin i Feminin, fr a crea o
relaie de ordine ntre ele, apoi s memoreze rezultatul n variabila cu acelai
nume, adic tot n variabila gen.
Indiferent c variabila este nominal sau ordinal, ordinea n care vom
introduce etichetele va da ordinea de atribuire automat a valorilor. n cazul
prezentat, valoarea pentru masculin va fi 1, iar cea pentru feminin va fi doi. Dac
dorii ca femininul s fie codat cu 1 i masculinul cu 2, atunci va trebui s
inversai ordinea celor dou etichete dintre parantezele comenzii levels. n R,
faptul c am scris c(), arat c ntregul coninut cuprins ntre cele dou
paranteze va fi tratat ca ir de caractere, ca text.
Sarcina dumneavoastr va fi s implementai codarea dummy n cazul
ultimei variabile, niv_edu. Vei avea nou categorii i va trebui s fii ateni la
ordinea n care le scriei, deoarece, de aceast dat, avem de a face cu o
variabil ordinal. Nu trebuie s uitm, n final, s nlocuim ordered=FALSE cu
ordered=TRUE, pentru a comunica mediului R c are de a face cu un factor
ordonat.
75
Cristian Opariuc-Dan
ntre paranteze vom scrie numele obiectului pe care dorim s-l tergem,
dup care executm comanda prin apsarea tastei Enter. Pentru a verifica,
folosii, din nou, comanda ls(). Vei putea reine mai uor aceste comenzi dac
vei ti c ls provine de la list structure iar rm de la remove; deja pare s
aib alt sens.
Am cam terminat de configurat baza de date. Pentru a rezuma, vom
prezenta ntregul cod, scris n R, pentru a crea o baz de date cu 423 de variabile,
dintre care doi factori codai dummy:
76
I.6
77
Cristian Opariuc-Dan
IBM SPSS Statistics, R, STATA, SAS, Statistica i alte programe de acest tip sunt
instrumente, nu reprezint nici statistica, nici analiza de date. Utilizarea acestor
instrumente este condiionat de nsuirea principiilor analizei de date, altminteri
se poate ajunge la situaii delicate sub aspectul corectitudinii demersului cercetrii
tiinifice.
78
n IBM SPSS Statistics nu avem un limbaj de programare, ci doar unul de script, spre
deosebire de R, unde vorbim despre un adevrat limbaj de programare.
Indiferent de aplicaie, implementarea unei baze de date se face mai rapid i mai
uor folosit codul, mai ales atunci cnd aceasta conine un numr mare de variabile.
I.6.1
Exerciii i probleme
79