Sunteți pe pagina 1din 76

Cristian Opariuc-Dan

Msurarea n tiinele socio-umane


CONCEPTE I TEME NOI
Ce legtur exist ntre statistic, analiz de date, IBM SPSS
Statistics i R;
Ce neles are conceptul a msura i care este specificul
acestuia n domeniul socio-uman;
Ce sunt variabilele i cum le putem clasifica;
La ce niveluri putem msura i care este precizia fiecrui
nivel de msur;
Ce nseamn IBM SPSS Statistics, cum l putem obine i cum
ncepem s lucrm cu acest program;
Cum se definesc variabilele i cum se proiecteaz corect o
baz de date n IBM SPSS Statistics;
Ce este R, cum se obine i cum ncepem s lucrm cu el;
Cum se definesc variabilele i cum se proiecteaz corect o baz de date n R;

CE CONINE ACEST CAPITOL?


Capitolul urmrete o introducere n analiza de
date i cuprinde trei pri. Prima parte este una
teoretic, n care vom ncerca s clarificm o serie de
concepte fundamentale nelegerii principiilor analizei
de date. A doua parte vizeaz prezentarea unor
principii de proiectare a bazelor de date, apoi o scurt
introducere n IBM SPSS Statistics n care se relev cteva noiuni de proiectare
corect a unor variabile i de construire a unei baze de date. n cea de-a treia
parte v vom iniia n R i vom vedea cum putem construi o baz de date folosind
acest program. Tehnicianul Sandu va face un efort i va demonstra cum se pot
crea baze de date cu foarte multe variabile n doar cteva minute. Capitolul se
ncheie cu o recapitulare, urmat de o serie de ntrebri de verificare i teme de
reflecie.
4

Msurarea n tiinele socio-umane

Noiuni teoretice
Analiza de date se bazeaz, evident, pe date. Ce sunt ns datele, cum se
clasific ele, ce putem face cu ele i cum le utilizm n mod corect, toate acestea
sunt probleme pe care vom ncerca s le lmurim pe parcursul ntregii lucrri.
ntr-o prim instan, vom studia ce sunt datele, de unde le putem culege, cum
se mpart, cum se pot organiza i, n definitiv, care este disciplina tiinific ce se
ocup de asemenea lucruri. Nu n ultimul rnd, vom vedea ce nseamn, de fapt,
a msura. Este posibil ca acest cuvnt s semnifice i altceva fa de ceea ce
tiai.

I.1

Statistic, analiz de date sau SPSS?


Majoritatea programelor de studiu ale facultilor socio-umane includ,

ca disciplin, statistica, fie c vorbim despre cea psihologic, sociologic,


economic i aa mai departe. Este i nu este corect, iar pentru a vedea exact
de ce, vom porni de la definiia dat de dicionare.
Conform DEX, termenul are mai multe
nelesuri, putnd nsemna: (1) Eviden numeric,
situaie cifric referitoare la diverse fenomene (izolate
sau generale), numrtoare; (2) Culegere, prelucrare
i valorificare a unor date legate de fenomene
generale; (3) tiin care culege, sintetizeaz, descrie
i interpreteaz date referitoare la fenomene
generale; (4) Ramur a matematicii care elaboreaz
noiunile i metodele folosite n statistic; (5) tiin care, folosind calculul
probabilitilor, studiaz fenomenele de mas din punct de vedere cantitativ
(Academia Romn, 2012).
Ultimele dou accepiuni (4 i 5) sunt cele mai apropiate de sensul real
al statisticii, ca disciplin matematic axat pe studiul probabilitilor. Din acest
punct de vedere, statistica este o perl a matematicii, sintetiznd mai multe
domenii, cum ar fi: probabiliti, calcul matriceal, combinatoric, analiz
matematic, inclusiv calcul diferenial i integral. Dac am studia o asemenea
5

Cristian Opariuc-Dan

tiin n cadrul unei faculti de psihologie, sociologie, tiine economice sau


tiine ale administraiei, n mod aproape sigur ar reprezenta un cui att de
mare pentru studeni, nct ar limita drastic numrul absolvenilor. De fapt, nici
facultile de matematic nu studiaz statistica dect n cadrul unor programe
masterale, unii prefernd studiul avansat al statisticii n cadrul programelor de
doctorat.
n tiinele socio-umane avem n vedere mai curnd nelesurile 2 i 3 ale
definiiei, chiar dac putem observa redundana acestora. Aadar, am putea
spune c statistica este, n aceast accepie, o modalitate de culegere,
prelucrare i valorificare a unor date legate de fenomene generale, sens care
ne apropie mai mult de cel al termenului de analiz de date.
n fine, primul sens al statisticii este cel comun, de eviden numeric.
Atunci cnd jurnalele de tiri spun c statisticile demonstreaz o reducere a
natalitii, avem n vedere, iat, sensul comun, popular al termenului. Dac ne
referim la modalitile de prelucrarea statistic a datelor n vederea realizrii
unui raport de cercetare, avem n vedere sensul analizei de date, iar dac vorbim
despre demonstrarea teoremei limitei centrale sau a asumpiei normalitii
reziduurilor, ne referim la adevratul sens al statisticii, acela de statistic
matematic.
Aadar, n sens comun, statistica nseamn o
numrtoare, o eviden numeric, situaie cifric
referitoare la diverse fenomene. n sensul analizei de
date, statistica are n vedere culegerea, sintetizarea,
descrierea i interpretarea datelor referitoare la
fenomene iar n sensul su propriu, de tiin,
statistica este o ramur a matematicii, care folosind
calculul probabilitilor, studiaz fenomenele de mas
din punct de vedere cantitativ.

Msurarea n tiinele socio-umane

Pornind de la cele trei definiii, putem observa cu uurin faptul c n


domeniul socio-uman nu studiem, n niciun caz, statistic, ci analiz de date,
vzut ca instrument, parte a metodologiei cercetrii tiinifice, care permite
utilizarea principiilor i a legilor statisticii n sintetizarea, descrierea i
interpretarea datelor colectate din cercetri.
Pentru a ne lmuri c avem dreptate, s
discutm dou dintre definiiile analizei, aa cum le
prezint dicionarul: (1) metod tiinific de cercetare
care se bazeaz pe studiul sistematic al fiecrui
element n parte; examinare amnunit a unei
probleme i (2) ramur a matematicii care studiaz
funciile, limitele, derivatele i aplicaiile lor. Exist,
desigur, mai multe sensuri (de exemplu analiza
substanelor chimice), dar care nu prezint interes pentru domeniul nostru.
Dac excludem nelesul analizei ca analiz matematic, prima definiie
sprijin ntrutotul ce-a de-a doua definiie a statisticii. Iat i motivele pentru
care preferm s spunem c n tiinele socio-umane nu studiem statistic
(ncetenit ca disciplin matematic), ci analiz de date (aplicaii ale
principiilor statistice n activitatea de cercetare). Prin analogie, atunci cnd
facei coala de oferi, nu studiai ingineria construciei autovehiculelor (analog
statisticii), nu v intereseaz s tii din ce aliaj este fcut arborele cotit. Dac
suntei ns un ofer cu pretenii de profesionist, atunci vei fi interesat de
modul cum funcioneaz ambreiajul sau de faptul c maina dumneavoastr
funcioneaz cu benzin (analog analizei de date). Asta ca s nu riscai s
alimentai cu motorin i s v distrugei motorul.
Cuvntul statistic are o etimologie interesant, i
merit s prezentm, pe scurt, evoluia acestui termen. n forma
actual, a fost folosit de ctre filosoful german Gottfried
Aschenwall (1719-1772), n lucrarea Vorbereitung zur
7

Cristian Opariuc-Dan

Staatswissenschaft, aprut n 1748, n care apare cuvntul Statistik, avnd


nelesul de tiin ce vizeaz studiul datelor referitoare la condiia unui stat
sau a unei comuniti (Harper, 2015). Printele statisticii nu a fost doar filosof,
ci a avut preocupri i n domeniul istoriei i economiei, fiind de profesie jurist,
prednd dreptul n cadrul Universitii din Gttingen.
n limba englez, cuvntul a fost introdus n 1829 de ctre
un politician scoian, Sir John Sinclair (1754-1835), avnd nelesul
de date numerice colectate i clasificate, rafinnd i
particulariznd sensul dat de profesorul german. Gnditorul
scoian a avut, i el, formaie economic, fiind preocupat de finane i
agricultur, dar i de drept.
Pare surprinztor faptul c ceea ce astzi atribuim aproape exclusiv
matematicii, a avut originea n domenii destul de diferite de matematic: drept,
economie, filozofie. n realitate, rdcina statisticii, n nelesul modern al
termenului, se regsete n scrierile economice, n activitatea de optimizare a
taxelor i de monitorizare a produciei. Originea termenului este, totui, mult
mai veche i ar proveni din latinescul status, avnd nelesul de rang, poziie,
organizare a comunitii, ordine public. Cuvntul latin a fost preluat n italiana
veche, rezultnd statista, ceea ce nseamn persoan specializat n treburile
statului, ce ajut statul s gestioneze politica de taxe, costurile rzboaielor,
evidena populaiei i alte sarcini de acest tip (Lungu, 2001). nelesul este cel
mai apropiat de sensul modern al termenului, afacerile statului din acea
perioad numindu-se i statisticum. Cunoscnd aceste elemente, devine
evident originea cuvntului i faptul c, n prezent, chiar dac are o important
ncrctur matematic, statistica provine din economie i din administraia
public.
8

Msurarea n tiinele socio-umane

Dac am lmurit c n domeniul socio-uman nu studiem statistic, n


sensul actual al termenului, ci analiz de date, vom continua cu o alt marot,
cea a nlocuirii studiului analizei de date cu SPSS. Revenind la analogia cu coala
de oferi, este ca i cum am spune c nvm s conducem Dacia Logan. Asta
ar nsemna, oare, c dac ne lum permisul de conducere, nu tim s conducem
BMW, Mercedes, Lamborghini sau Tico? Bineneles c odat ce avem
deprinderile necesare conducerii, le putem transfera, cu un minim efort, pe
orice automobil din acea clas, ba chiar i din clase diferite. n definitiv, de ce nu
am putea s conducem un microbuz sau chiar un camion?
Ideea central nu este s ne concentrm pe utilizarea unui anumit
produs, ci pe nsuirea principiilor, metodelor i tehnicilor de analiz de date.
Din moment ce cunoatem analiz de date, utilizarea unui produs informatic
este doar o chestiune de preferine.

I.2

Sensul i semnificaia termenului de msurare


Contactul nemijlocit al fiinei umane cu lumea nconjurtoare se

realizeaz prin simuri. Cu ajutorul acestora percepem obiectele, fenomenele,


persoanele, evenimentele. Observm n mod direct culoarea biroului la care ne
desfurm activitatea, distana dintre scaunul dumneavoastr i cel al
colegului, faptul c muzica pe care o ascult vecinul este prea tare sau timpul
rmas pn la terminarea programului de lucru. Toate acestea formeaz un
mediu n care ne aflm i pe care l putem caracteriza la un moment dat, mediu
populat, generic, de obiecte.
S ne imaginm camera n care nvai sau lucrai. Ce obiecte putei
remarca? Biroul, scaunul, televizorul, filtrul de cafea, bunica ce tricoteaz sau
colegul care joac Solitaire. Toate acestea le vom denumi obiecte. Dac v vei
gndi la biroul la care v redactai referatele, dumneavoastr, cititorul, vei avea
9

Cristian Opariuc-Dan

o imagine extrem de personalizat i care difer radical de imaginea pe care o


am eu fa de acelai obiect. Aadar, orict ar prea de ciudat, conceptul de
birou reprezint o abstraciune, care vehiculeaz imagini diferite la diferite
persoane. Eu am o imagine mintal a biroului, dumneavoastr avei o alt
imagine a biroului, alii au imagini mai mult sau mai puin diferite cnd se
gndesc la acelai obiect. Dac a dori s cunosc i s neleg biroul
dumneavoastr, v-a ruga s-l descriei. A afla, de exemplu, c are o lungime
cam de 2 metri, o lime de un metru i are culoarea albastr. Deja cunosc mai
bine obiectul la care v referii. Descriindu-l, practic, ce ai fcut? n primul rnd,
ai precizat o serie de caracteristici ale sale: lungimea, limea i culoarea. Apoi
ai specificat ce valori au caracteristicile n cazul obiectului dumneavoastr: 2, 1
i albastru. n fine, ai stabilit o regul n baza creia ai atribuit valori acestor
caracteristici, specificnd unitatea de msur metrul.
Totui, albastru, rou sau galben, un birou are ntotdeauna un obiect fizic
drept corespondent. Nu ntotdeauna lucrurile stau aa. Folosind raiunea i
capacitatea de abstractizare, putem anticipa sau cunoate elemente care nu au
o coresponden n lumea fizic. Ce-ar fi s descriem gradul de satisfacie pe
care l avem fa de perceperea taxelor locale? Sau anxietatea, ori
comportamentul prosocial? Aceste elemente sunt ct se poate de reale, ns nu
au drept corespondent obiecte fizice. Unii pot nelege, atunci cnd vorbesc
despre taxe, faa acr a funcionarului de la birou, alii faptul c a fost plimbat
pe la 20 de ghiee pentru a achita 10 lei, alii au scpat n 30 de secunde datorit
unui funcionar extrem de competent i eficient care tia ce s fac, n fine,
anumite voci sunt foarte mulumite pentru c-i achit impozitele prin Internet.
Anxietatea, la rndul ei, poate avea semnificaii diferite pentru diferite

10

Msurarea n tiinele socio-umane

persoane, asta ca s nu mai vorbim de comportamentul prosocial, patriotism,


integritate sau iubire.
Astfel de obiecte sunt prea generale pentru a fi cunoscute n mod
direct; ele vor trebui particularizate n cadrul unui proces specific, numit
operaionalizare. Aceast lung introducere a fost fcut pentru a nelege
faptul c msurarea reprezint, de fapt, o abstraciune i c nu putem cunoate
obiectele, dect dac stabilim o serie de caracteristici ale acestora. Rezumnd,
am putea spune c, la modul general, obiectele, fenomenele, evenimentele pot
fi msurate doar dac precizm o serie caracteristici (atribute),
prin caracteristic nelegnd o particularitate, o nsuire a
obiectului, fenomenului sau evenimentului ce urmeaz a fi
msurat. n cazul n care aceste atribute nu sunt specificate, un
obiect nu poate fi cunoscut. Cu ct exist mai multe atribute ce definesc un
obiect, cu att acel obiect este cunoscut mai bine. Dac am spune c biroul este
lung de 2 metri, cunoaterea obiectului se poate realiza strict pe baza acestui
atribut. n mod cert, este mai lung sau mai scurt comparativ cu alte birouri. ns
nu vom putea ti dac este mai greu, mai lat, mai nalt, dac are culoarea verde
cu roie sau dac este ptat de la vin. Pe msur ce crete numrul atributelor
specificate, cunoaterea obiectelor devine tot mai precis.
Faptul c am precizat caracteristica, nu este suficient pentru a vorbi
despre o msurare. Cum am putea, de exemplu, s msurm iubirea? Ce
caracteristici definitorii am putea gsi? Suma disponibil spre a fi cheltuit pe
care o pune la dispoziie iubitul (mai rar iubita) poate fi o caracteristic a iubirii?
Foarte discutabil. Emoia, fiorul, fluturii din stomac? Posibil, dar cum i putem
remarca? Avem aceeai problem dac ne propunem s msurm patriotismul,
integritatea, moralitatea sau sentimentele superioare.
11

Cristian Opariuc-Dan

Iat c, pentru a vorbi despre msurare, acele caracteristici


definite trebuie s fie cuantificabile, msurabile. n ciuda prerii
unora, exist obiecte, fenomene sau evenimente care nu pot fi
msurate. Se punea, la un moment dat, problema evalurii psihologice a unor
funcionari publici n vederea stabilirii integritii. Au aprut chiar i metodologii
de evaluare, s-au construit chestionare i alte instrumente n acest sens,
psihologii au nceput s oferteze servicii de evaluare psihologic pentru
integritate, ignorndu-se un lucru esenial acest concept nu este msurabil.
Dac am putea msura integritatea unor persoane, probabil c nu am mai avea
nevoie de o ntreag categorie de procurori, decizia de integru sau corupt fiind
dat imediat de ctre psiholog. Una este s vorbim despre opinia unor persoane
fa de comportamente care in de integritate, i cu totul altceva s msurm
nivelul de integritate al unei persoane. Orice am face, persoanele evaluate nu
vor rspunde la ntrebri dect n sensul unor oameni integri, indiferent dac
este sau nu este n joc serviciul lor.
Chiar dac un atribut poate fi msurat, acest concept se concretizeaz n
momentul n care, pentru un anumit obiect, atributul dobndete o anumit
valoare, n termeni de specialitate valoarea pe care o are atributul pentru un
anumit obiect numindu-se i scor. Dac am spune c atributul lime al unei
mese are scorul 20, am concretizat o operaie de msurare doar dac am
meniona i ce nseamn acel scor. Ne referim la centimetri, la inch, la picioare
sau la alte uniti de msur? Pentru a msura n adevratul sens
al cuvntului, trebuie s stabilim o regul sau un set de reguli pe
baza crora putem atribui valori caracteristicilor msurate. Iat c,
am msurat cu adevrat atributul lime al mesei atunci cnd am spus c are
20 de centimetri, stabilind i regula de atribuire, n cazul nostru o subdiviziune

12

Msurarea n tiinele socio-umane

a scalei metrice. Dac nu precizm regula, riscm ca scorul s aib o anumit


semnificaie pentru un chinez, o alta pentru un englez i o cu totul alt
semnificaie pentru un american.
n acest moment, am putea prezenta una dintre
cele mai cunoscute definiii a msurrii ca atribuire
de numere evenimentelor sau obiectelor n
concordan cu o anumit regul (Stevens, 1959).
Conform acestei abordri, msurarea dobndete un
sens extrem de larg i extinde semnificaia conceptului
de numr dincolo de operaiile matematice
tradiionale, n funcie de modul de stabilire a regulii.
Se poate observa destul de uor c msurarea poate fi considerat o
funcie, prin care unui atribut al unui obiect i poate fi acordat un numr i numai
unul, la o anumit msurare. Aceast funcie se face pe baza unei anumite
reguli, suficient de clar pentru a fi neleas i suficient de simpl pentru a fi
aplicat (Vasilescu, 1992), regulile determinnd ceea ce numim niveluri (scale)
de msur. Problematica msurrii, dei considerat ca fiind baza analizei de
date, nu este studiat de statistic, nici de matematic, ci de o alt tiin,
numit metrologie.
I.2.1

Specificul msurrii n tiinele socio-umane


n domeniul tiinelor fizice, msurarea este destul de precis. De obicei,

regula este simpl i clar, instrumentele sunt puternic standardizate, valorile


sunt relativ stabile. Ai putea crede c atunci cnd msurm limea unei mese
i spunem c aceasta este de 20 de centimetri, ntre dou msurtori valoarea
se conserv perfect, deoarece ne aflm n zona msurtorilor fizice, precise. De
fapt, ntre dou msurtori ar putea exista diferene determinate de
instrument, de clasa de precizie, de condiiile de mediu, ba chiar i de persoana
care face msurtoarea. Dac nea Costic este puin miop, atunci sunt anse
mari ca cei 20 de centimetri s fie, de fapt, 20,5 centimetri sau 19,5 centimetri.
13

Cristian Opariuc-Dan

Dac n loc s msoare cu ruleta, msoar cu metrul de stof, atunci s-ar putea
ca dimensiunea real s fie de 19,75 centimetri, chiar dac nea Costic nu are
probleme cu vederea. n fine, chiar dac folosete un instrument de msur
precis, limea mesei ar putea fi 20,00545 centimetri, situndu-ne, dup cum
intuii, la o clas de precizie diferit. Dac tot am vorbit despre metru, ar fi bine
s precizm c acesta reprezint, conform definiiei metrologice, distana
parcurs de lumin ntr-un interval de timp de 1/299.792.458 dintr-o secund, prin
urmare nivelurile de precizie sunt, practic, infinite.
n tiinele socio-umane lucrurile nu mai sunt att de limpezi. Cum am
putea msura, spre exemplu, inteligena? Nu avem la dispoziie, n acest caz,
nici ruleta i nici mcar o unitate de msur, nu putem spune c avem 20 de
kilograme sau 20 de centimetri de inteligen. Poate v gndii c msurm
inteligena n IQ, ns coeficientul de inteligen nu este o unitate de msur, ci
un raport ntre vrsta mintal i vrsta cronologic ( =

100). Cu alte

cuvinte, dac o persoan de 15 de ani (VC=15) rezolv probleme pe care le pot


rezolva cei de 23 de ani (VM=23), atunci are un coeficient de inteligen de

23
15

100 = 153, un geniu. Problema, n acest caz, nu ar fi vrsta cronologic, ci


vrsta mintal. Cum decidem asupra vrstei mintale, cum aflm aceast
valoare? Cum selectm acele probleme pe care le rezolv persoanele de 23 de
ani i nu le pot rezolva cele de 15 ani? Rspunsul la acest gen de ntrebri
depete specificul analizei de date i ine de o alt disciplin tiinific, numit
psihometrie.
Dac n cazul inteligenei, unde putem propune, n definitiv, o serie de
probleme, lucrurile sunt destul de complicate, cum am putea msura
anxietatea, depresia sau alte asemenea trsturi, mult mai vagi? Cert este faptul
c, n cazul anxietii de exemplu, oamenii au diferite grade de intensitate a
14

Msurarea n tiinele socio-umane

acesteia, putem spune c o persoan este mai anxioas, o alta mai puin
anxioas, chiar i c o persoan este mai anxioas n comparaie cu alta, ns nu
avem de unde ti ce cantitate de anxietate posed un om. Din acest motiv, vom
aprecia c factorii psihici, dar i alte obiecte de acest tip, au un caracter latent,
i i vom putea denumi factori (caracteristici) latente, n sensul c
exist ntr-o anumit cantitate, doar c aceast cantitate nu poate
fi observat i msurat n mod direct. Orice persoan are, la un
moment dat, o anumit cantitate de anxietate sau de depresie, un anumit
nivel de trai sau o anumit ncredere n clasa politic. Toat chestiunea este c
nu avem uniti de msur pentru aceste cantiti i nici instrumente precise
pentru a le msura. Putem presupune c orice caracteristic latent, din punct
de vedere al cantitii, poate lua orice valoare ntre minus i plus infinit, de la
valori infinit de mici la valori infinit de mari. Acest concept l ntlnim sub numele
de continuum al factorului latent, nelegerea sa condiionnd nelegerea
msurrii n tiinele socio-umane.
Dac aceti factori lateni nu pot fi cunoscui n mod direct, cum ar putea
fi, totui, msurai? S presupunem c vom ntreba persoanele crora dorim s
le cunoatem anxietatea dac le-ar fi team atunci cnd ar sta pe un cmp de
lupt sub focul mitralierelor. Un asemenea comportament ar presupune o
cantitate foarte mic de anxietate la rspunsul pozitiv. Tuturor ne este team
de rzboi, de armele de foc, prin urmare rspunsul da ar fi perfect normal. Din
contra, un rspuns negativ ar putea fi indicatorul unei patologii psihice. n
termeni tehnici, aceast ntrebare s-ar situa undeva spre polul negativ al
continuumului factorului latent, comportamentul vizat saturnd foarte puin
anxietatea. Acelorai persoane le punem i o a doua ntrebare, dac le este fric
s stea n cas pe ntuneric atunci cnd se ntrerupe curentul electric. De data
aceasta, rspunsul normal ar fi negativ, un rspuns eventual pozitiv indicnd o
15

Cristian Opariuc-Dan

cantitate mare de anxietate. Dac se ntrerupe seara curentul, te poi cel mult
enerva n cazul n care ai ceva de fcut, n niciun caz nu i va genera o senzaie
de team. Un astfel de comportament l putem considera saturat n anxietate,
situndu-se nspre polul pozitiv al continuumului factorului latent. n fine,
ntrebnd persoanele dac le place pizza cu ton, msurm orice altceva, numai
anxietatea nu. Asta deoarece preferina ctre un sortiment de pizza nu are nicio
legtur cu anxietatea, n termeni tehnici ntrebarea fiind situat n afara
continuumului factorului latent.
Astfel de ntrebri se numesc eantioane de comportamente. Deoarece
nu putem observa direct factorul latent, l vom observa indirect, prin
intermediul unor eantioane de comportamente extrase dintr-un univers
practic nelimitat de comportamente specifice. Pe baza modului n care
persoanele ar reaciona la aceste comportamente i cunoscnd zona n care
acestea se situeaz n continuumul factorului latent, se poate aprecia, subiectiv,
nivelul factorului latent al persoanei, fr a spune c msurm exact cantitatea
de factor latent. Acesta este modul n care efectum msurtori n domeniul
socio-uman, iar trecerea de la o dimensiune latent general, abstract, la
indicatori, componente concrete ale dimensiunii i apoi la eantioane de
comportamente (numite i itemi n literatura de specialitate) poart numele de
operaionalizare a constructelor latente.
Chiar dac am operaionalizat foarte bine constructele i am conceput
un instrument de msur foarte bun, msurarea n tiinele sociale rmne
inexact i limitat, din mai multe motive. n primul rnd, nu putem construi
instrumente de msur care s acopere ntregul continuum al factorului latent.
Un test de inteligen, de exemplu, se adreseaz zonei medii a inteligenei.
Acesta va putea diferenia destul de bine persoanele cu o inteligen de la
16

Msurarea n tiinele socio-umane

mediu-inferior la mediu-superior, ns va fi inexact i aproape inutil n cazul


persoanelor foarte inteligente sau foarte puin inteligente. n asemenea cazuri,
va trebui s apelam la alte instrumente, demers mare consumator de resurse,
n special de timp. Pe de alt parte, cu ct crete timpul unei evaluri, cu att
scade precizia msurtorii, indiferent de calitatea instrumentului folosit, asta
deoarece intervin i ali factori, precum plictiseala i oboseala. Chiar dac exist
i alte modele de msurare care pot evalua pe ntregul continuum al factorului
latent (numite modele de rspuns la item), astfel de instrumente sunt dificil de
construit iar evaluarea se face de obicei computerizat, aprnd, n plus, i alte
surse de eroare.
Multe instrumente de msur specifice domeniului socio-uman, n
special psihologiei i sociologiei, numite incorect teste, fac apel la auto-evaluare.
Persoana se auto-analizeaz nainte de a da un rspuns, neavnd aproape nicio
posibilitate de a controla dac acel rspuns este sau nu este reprezentativ
pentru persoana evaluat. n cazul n care miza evalurii este benefic pentru
individ, acesta va avea tendina s se pun ntr-o lumin favorabil sau, din
contra, nefavorabil dac urmrete s evite scopul evalurii. n cazul unui
studiu privind nivelul de trai, o persoan va rspunde n sensul unui nivel de trai
sczut dac scopul perceput este stabilirea cuantumului taxelor, ori n sensul
unui nivel de trai ridicat dac scopul ar fi obinerea unui anumit credit. Aceast
abordare, numit tendin de faad, este comun tuturor instrumentelor
bazate pe auto-evaluare. Chiar dac exist anumite mecanisme de control, aanumitele scale de minciun, eficiena lor este discutabil.
Dac n tiinele naturii putem vorbi de un zero absolut, n domeniul
socio-uman nu avem o inteligen zero, o anxietate zero, o depresie zero sau
opinii zero. Din acest motiv, nu putem raporta cantiti, nu putem spune c o
17

Cristian Opariuc-Dan

persoan este de dou ori mai anxioas sau mai inteligent dect o alt
persoan, c are un nivel de trai de trei ori mai bun sau mai slab. Convenional,
valoarea zero n tiinele socio-umane este media, faptul c o persoan nu se
distinge

de

majoritatea

oamenilor

privind

caracteristica

msurat.

Imposibilitatea de raportare permite doar s spunem c o persoan este mai


mult sau mai puin inteligent sau anxioas n comparaie cu o alt persoan
sau n comparaie cu majoritatea persoanelor, i nu de cte ori i nici cu ct. O
asemenea limitare nu ofer o putere prea mare msurtorilor socio-umane, ele
situndu-se departe de specificul msurtorilor fizice, chiar dac prin forarea
matematicii se tinde ctre o apropiere de acestea.
Construind

un

instrument

de

msur,

decidem

asupra

comportamentelor pe care le selectm din universul infinit de comportamente


posibile, relaionate factorului latent. Aceast selecie poate induce noi surse de
eroare pentru c ceea ce pare relevant pentru un grup de persoane, poate s
nu fie relevant pentru un alt grup. Un instrument construit pentru militari s-ar
putea s nu aib o valoare prea mare n cazul agenilor de vnzri, chiar dac
dorim s msurm acelai factor latent, asta ca s nu mai spunem c anumite
comportamente alese pentru populaia din America aproape sigur vor avea o
alt relevan pentru populaia din Romnia sau din China. Astfel, dependena
cultural a instrumentelor impune revizii importante ale acestora ori de cte ori
urmeaz s le folosim pe alte populaii dect cele pe care au fost construite
iniial. Mai mult, majoritatea atributelor sufer modificri n timp, unele fiind
mai sensibile, altele mai puin sensibile la acest factor. Anxietatea, de exemplu,
ar putea fi o stare, diminundu-se relativ rapid dup dispariia evenimentului
anxiogen, sau o trstur, persistnd mai mult timp, uneori accentundu-se cu
trecerea timpului. Mai mult, unele comportamente saturate n factorul latent

18

Msurarea n tiinele socio-umane

ntr-o anumit perioad de timp i pierd saturaia n prezent i trebuie nlocuite.


Imaginai-v doar c foarte multe dintre comportamentele normale ale tinerilor
din prezent ar fi atras cu siguran internarea ntr-un ospiciu dac s-ar fi
manifestat n anii 30 ai secolului XX.
Iat c msurarea n tiinele socio-umane este posibil, ns nu are
caracteristicile unei msurri fizice, fiind imprecis, indirect, puternic limitat
att ca posibilitate de abordare a atributului, ct i ca semnificaie general.
I.2.2

Noiunea de variabil
tim bine de acum c obiectele, n sensul general al termenului, pot fi

msurate pe baza atributelor cuantificabile. nlimea este un atribut


cuantificabil al tuturor persoanelor, ns nu are aceleai valori. Vasile poate avea
nlimea de 178 centimetri, Ion poate avea o nlime de 192 centimetri iar
Maria poate avea 168 de centimetri la aceast caracteristic.
Iat c, aceast particularitate, comun
tuturor fiinelor umane, prezint diferene interindividuale, n termeni tehnici afirmnd c exprim
variaia caracteristicii msurate. Am ajuns la a defini
conceptul de variabil ca fiind particularitatea,
nsuirea unui fenomen care constituie obiectul
msurrii i care exprima variaia inter-individual a
acestei caracteristici.
nlimea oamenilor reprezint o variabil deoarece exprim modul n
care variaz aceast caracteristic, de la cel mai scund om din lume, la cel mai
nalt. La fel putem spune i despre greutate, ritm cardiac, nivel de venit, culoarea
ochilor, gen biologic i aa mai departe, toate aceste atribute avnd n comun o
mulime de valori, numit i mulime (domeniu) de definiie sau
categorii. Domeniul de definiie, la rndul su, poate fi teoretic i
empiric, iar cnd categoriile se pot ordona, poart numele de
amplitudine (teoretic i empiric).
19

Cristian Opariuc-Dan

Variabila gen biologic, de exemplu, poate avea doar dou valori,


domeniul de definiie teoretic fiind format din categoriile masculin i
feminin. Variabila culoarea ochilor poate avea patru categorii, vorbind
despre ochi cprui, ochi albatri, ochi negri i ochi verzi. Prin urmare,
domeniul de definiie teoretic are patru valori, iar dac nu se afl nicio persoan
cu ochi albatri n lotul de studiu, spunem c domeniul empiric de definiie are
doar trei categorii.
O alt variabil exemplu titlul universitar, are tot patru categorii
asistent, lector, confereniar i profesor , ns acestea pot fi ordonate
de la asistent la profesor. Astfel, putem vorbi despre o amplitudine teoretic de
patru valori, cuprins ntre valoarea minim asistent i valoarea maxim,
profesor.
Valorile unei variabile, tim deja, se numesc i scoruri, iar atribuirea de
scoruri fiecrui element (n cazul de fa, fiecrei persoane) al variabilei poart
numele, tim i asta, de modalitatea de realizare a variabilei.
Definiia msurrii susine c este vorba despre atribuirea de numere
obiectelor i fenomenelor, ns, n exemplele de mai sus, observm c mulimile
de valori nu se exprim prin numere, ci prin anumite caliti. Nu putem spune
c titlul universitar al unui cadru didactic universitar este 3, ci confereniar.
Culoarea ochilor 2 nu are niciun sens, prefernd menionarea categoriei ochi
albatri, dar la fel de bine am putea s includem orice alt categorie. Unele
variabile nu se exprim natural sub form numeric, acestea fiind
denumite variabile calitative. Altele, precum nlimea, greutatea,
vrsta, au valori natural numerice, din acest motiv numindu-se
variabile cantitative, aceasta fiind prima i cea mai simpl
clasificare a variabilelor.
20

Msurarea n tiinele socio-umane

I.3

Niveluri de msur
Dincolo de distincia calitativ-cantitativ, desigur foarte important,

exist o clasificare i mai important, de fapt baza ierarhizrii i a puterii


procesului de msurare. Vorbim despre nivelurile de msur, numite i scale de
msur, ns vom prefera utilizarea termenului de nivel i nu de scal pentru a
nu se crea confuzie, chiar dac, n analiza de date, sunt sinonime.
I.3.1

Variabile discrete (discontinui, neparametrice)


Am neles deja c orice variabil posed un domeniu teoretic de

definiie. Uneori, aceast mulime de definiie a valorilor este una finit, n


sensul c se pot numra categoriile, iar ntre dou categorii nu se
poate interpune, la nesfrit, o categorie intermediar. Convenim
astfel s denumim variabilele discrete acele variabile pentru care
mulimea de definiia a valorilor este una discontinu, finit (Vasilescu, 1992).
Dac

lum,

spre

exemplu,

genul

biologic, observm c mulimea de valori


conine doar dou categorii, masculin i
feminin, fiind, prin urmare, o mulime
Figura I-1 Variabila discret gen
biologic

numrabil, finit, discontinu. ntre cele dou


categorii am putea include, cel mult, categoria

hermafrodit, ns nu am putea continua incluznd, la nesfrit, noi categorii.


Lucrurile stau la fel i n cazul variabilei titlul universitar. Mulimea de
valori conine doar patru categorii fiind, din nou, numrabil, finit. ntre
lector i profesor am putea include categoria confereniar, ns nu putem
vorbi, la infinit, despre categorii intermediare ntre confereniar i profesor.
Nu exist categoriile confereniaro-profesor i confereniaro-confereniaroprofesor i aa, la infinit. Iat de ce spunem c asemenea variabile sunt
discontinui, discrete, la rndul lor situndu-se pe dou niveluri de msur.
21

Cristian Opariuc-Dan
I.3.1.1

Nivelul nominal (de clasificare sau topologic)

Reprezint nivelul de baz, cea mai slab scal de msur i presupune


construcia unui set omogen de categorii disjuncte pe baza atributului care
urmeaz s fie msurat, acordarea de numere fiecrei categorii i includerea
subiecilor n categorii pe baz de apartenen (Opariuc-Dan, 2009). Avem de a
face cu o simpl operaiune ce clasificare, n absena oricrei posibiliti de a
pune o relaie de ordine ntre categorii, de aceea nivelul se mai numete i nivel
categorial sau de clasificare.
Exist o serie de caracteristici ale acestui
nivel de msur. n primul rnd, exhaustivitatea.
Categoriile create trebuie s permit includerea
oricrui subiect, s nu existe situaii n care unii
subieci nu i-ar gsi locul ntr-o anumit
Figura I-2 Variabil discret
nominal gen biologic

categorie. Recent, n Germania, s-a dat o lege


conform creia genul biologic nu mai are dou

categorii, ci 3 masculin, feminin i nedeterminat. Astfel, clasificarea


permite i includerea celor nemulumii de sexul lor. Chiar dac biologic o
asemenea clasificare nu-i are rostul dect n cazul hermafrodiilor, social s-a
considerat c este util.
Singura regul de atribuire o reprezint apartenena la categorie. Eti
brbat, vei fi clasificat n categoria masculin; eti femeie, vei fi inclus n
categoria feminin; habar nu ai ce eti sau vrei sa fii altceva, te incluzi n
nedeterminat. Aceast regul este una mutual exclusiv, adic un subiect i
poate gsi locul ntr-o singur categorie i numai n una. Nu poi ncadra
subiectul i la masculin i la feminin.

22

Msurarea n tiinele socio-umane

Ct despre relaia de ordine, nici nu poate fi vorba. ncercai doar s


punei pe primul loc unul dintre genurile biologice i vei vedea ce reacie
declanai la sexul opus. Categoriile calitative ale unei variabile nominale trebuie
s primeasc valori numerice, pentru a respecta sensul definiiei msurrii, doar
c acestea se acord pe baza unei atribuiri arbitrare. Putem da valoarea 1
categoriei masculin, valoarea 2 categoriei feminin i valoarea 3 categoriei
nedeterminat. La fel de bine putem spune 1 nedeterminat, 2 masculin i 3
feminin fr ca acest lucru s influeneze n vreun fel includerea subiecilor n
categorii. Bineneles, pentru a vorbi despre o variabil va trebui s avem cel
puin dou categorii, altminteri avem de a face cu o constant. Dac ntr-un
studiu am utiliza doar brbai, atunci genul biologic nu ar mai avea sens s-l
includem ca variabil deoarece nu mai exprim variaia acestei caracteristici.
La acest nivel de msur se situeaz, de exemplu, sondajele de opinie
politice. Avem categoriile determinate de candidai sau de partide i am putea
analiza cte persoane prefer un anumit candidat sau ce candidat este cel mai
bine plasat.
I.3.1.2

Nivelul ordinal (de rang sau ierarhic)

Acest nivel se bazeaz pe cel descris


anterior, cu toate caracteristicile sale, doar
c putem vorbi, n acest caz, de o relaie de
ordine

ntre

categorii,

baza

caracteristicilor atributului msurat. Dac


Figura I-3 Variabil discret ordinal
titlul didactic

la nivelul nominal puteam pune pe primul


loc orice categorie, fr ca acest lucru s

aib vreo semnificaie, aici nu mai putem proceda la fel, deoarece ordinea
categoriilor conteaz. Regula de baz este aceea conform creia o categorie

23

Cristian Opariuc-Dan

este superioar sau inferioar alteia, fr ns a se putea specifica nici cu ct,


nici de cte ori.
S lum, de exemplu, titlurile didactice universitare. Acestea pot fi puse
ntr-o ordine: asistent, lector, confereniar i profesor. Este foarte clar faptul c
asistentul reprezint cel mai mic grad, iar profesorul cel mai mare grad deoarece
are vechime i experien. Dar nu putem spune c un profesor face ct 4
asisteni, deoarece nu exist un interval fix, constant ntre aceste grade. La acest
nivel de msur funcia de atribuire a persoanelor n categorii este o funcie
cresctoare.
Majoritatea cercetrilor n care sunt msurai factori lateni, n special
cele psihologice, folosesc acest nivel de msur, fapt care ne permite s
apreciem c msurarea n psihologie are caracterul unei scale ordinale. Chiar
dac probele psihologice au pretenia unui nivel de interval, n realitate, dac
este s fim strici, ele nu depesc scala ordinal.
I.3.2

Variabile continui (scalare, parametrice)


n cazul altor variabile, mulimea de
definiie a valorilor nu este una finit,
numrabil. S luam cazul variabilei nlime
i vom observa c mulimea de valori este

Figura I-4 Variabila continu


nlimea

infinit. Amplitudinea teoretic este cuprins


ntre 0 centimetri, deoarece nu poate exista

vreun om cu nlime negativ i ntotdeauna exist posibilitatea identificrii


unei persoane mai scunde dect cel mai scund om din lume i infinit, deoarece
oricnd putem gsi pe cineva mai nalt dect cel mai nalt om din lume.
Amplitudinea empiric s-ar putea situa, spre exemplu, ntre 100 de centimetri
i 210 centimetri, n funcie de persoanele incluse n cercetare.
24

Msurarea n tiinele socio-umane

Totodat, ntre dou valori succesive putem gsi, oricnd, o valoare


intermediar. De exemplu, ntre o persoan cu nlimea de 179 centimetri i
una de 178 centimetri, putem gsi o persoan de 178,5 centimetri, apoi una de
178,25 centimetri i, tot aa, la infinit. Iat de ce vom spune c o
variabil continu este aceea la care mulimea de definiie a
valorilor este nenumrabil, infinit (Vasilescu, 1992). i aceste
variabile, la rndul lor, se pot msura pe dou niveluri.
I.3.2.1

Nivelul de interval (al intervalelor egale)

De aceast dat, categoriile nu numai c sunt ordonate, ca n cazul


nivelului ordinal, dar intervalele dintre categorii sunt constante. Astfel, la acest
nivel putem spune nu numai c A este mai mare dect B, ci i cu ct este mai
mare. Un exemplu clasic l reprezint scala de temperatur Celsius. ntre 0 i 100
de grade Celsius exist un numr de 100 de intervale egale, corespunztoare
unui grad Celsius. Un grad Celsius nseamn acelai lucru, fie c ne referim la
distana dintre gradul 3 i gradul 4, fie la distana dintre gradul 90 i gradul 91.
Prin extensie, unii consider c scorurile standardizate ale probelor psihologice
au aceast caracteristic. Matematic au dreptate, ns psihologic nu este chiar
aa. S considerm, de exemplu, scala IQ. Intervalele sunt egale, putem spune
c un subiect este cu 2 puncte IQ mai inteligent dect un alt subiect. Toat
problema const n faptul c semnificaia nu are o constan pe ntreaga scal,
aa cum se ntmpl la scala Celsius. Diferena dintre un IQ de 55 i unul de 56
are o anumit semnificaie, n timp ce diferena dintre un IQ de 100 i un IQ de
101 are o alt semnificaie. Este ca n vorba aceea: toi oamenii sunt egali, ns
unii oameni sunt mai egali dect alii. Practic, scala IQ este tot o scal ordinal,
puin forat i mbuntit.

25

Cristian Opariuc-Dan

Figura I-5 Variabil continu de interval, temperatura

Folosind acest nivel de msur, putem spune cu ct o cantitate este mai


mare sau mai mic n comparaie cu o alt cantitate, ns nu i de cte ori, asta
deoarece nu avem de a face cu un zero absolut ci cu un zero convenional. Ca s
nelegem, s facem o comparaie ntre scala Celsius i scala Fahrenheit. Scala
Celsius tim cum s-a construit; zero grade Celsius nseamn temperatura de
nghe a apei la presiunea atmosferic de la nivelul mrii iar 100 de grade Celsius
reprezint temperatura de fierbere a apei la aceeai presiune atmosferic. Se
crede c scala Fahrenheit este bazat pe temperatura la care un amestec masic
echivalent de ghea i sare se topete (0 grade Fahrenheit), respectiv
temperatura intern a corpului uman (100 de grade Fahrenheit). Pornind de la
aceste informaii, zero grade Celsius corespund la aproximativ 38 de grade
Fahrenheit iar 100 de grade Celsius nseamn cam 212 grade Fahrenheit. O
gleat cu ap avnd temperatura de 10 grade Celsius nseamn o temperatur
a apei de 50 de grade Fahrenheit iar o gleat cu ap avnd temperatura de 20
de grade Celsius nu nseamn o temperatur a apei de 100 de grade Fahrenheit
ci doar de 68 de grade Fahrenheit. Aadar, temperatura apei din prima gleat
nu este de dou ori mai rece ci doar cu 10 grade Celsius, respectiv cu 18 grade
Fahrenheit mai rece. Absena acestui zero absolut nu ne permite s raportm
cantitile.

26

Msurarea n tiinele socio-umane

Faptul c poate fi atribuit un zero arbitrar a fost speculat de psihologi,


astfel nct instrumentele de diagnostic psihologic ridic pretenia unui nivel de
interval. Valoarea zero este, n general, cea a unui nivel mediu al factorului
latent n conformitate cu tip special de distribuie a datelor, valorile mai mici de
zero fiind caracteristice unui nivel mai sczut iar cele mai mari de zero unui nivel
mai ridicat. Dup cum tii, zero n psihologie nu nseamn absena cantitii
factorului latent (cine ar putea s defineasc inteligena zero), ci valoarea medie
a acesteia la nivelul populaiei, amplitudinea domeniului factorului latent fiind
extins la infinit. Chiar dac nivelul de msur permite acest lucru, fundamentul
tehnicilor psihometrice clasice este reprezentat tot de comparaie i de relaii
de ordine
I.3.2.2

Nivelul de raport

Reprezint cel mai nalt nivel de msur, n


acest caz putem spune nu numai cu ct o cantitate
este mai mare, ci i de cte ori. Este cazul
msurtorilor fizice, cum ar fi lungimea, greutatea,
volumul sau temperatura exprimat n grade
Figura I-6 Variabil continu de
interval, nlimea

Kelvin. O persoan cu nlimea de 105 centimetri


este cu 105 centimetri mai scund n comparaie

cu una avnd nlimea de 210 centimetri, dar i de dou ori mai scund, pentru
c dac lum dou persoane nalte de 105 centimetri i le punem una n capul
celeilalte, ajungem s msoare exact ct persoana cu nlimea de 210 de
centimetri. n psihologie nu atingem acest nivel de msur n mod curent, rar se
ntmpl s msurm la acest nivel n alte domenii socio-umane, poate doar n
tiinele economice. Psihofiziologia mai opereaz cu asemenea scale, iar n
domeniul instrumentelor de diagnostic psihologic putem fora nivelul de
raport n teoria rspunsului la item.
27

Cristian Opariuc-Dan

Aplicaii
I.4

Obinerea programelor de analiz de date


Efectuarea calculelor necesare analizei de date prin aplicarea formulelor

statistice este interesant n scop didactic, dac dorii s ptrundei


mecanismele interne ale principiilor, s v apropiai de adevratul neles al
statisticii. n activitatea concret, de cercetare, ar fi extrem de neproductiv s
procedai n aa fel, deoarece v-ar lua foarte mult timp i, n mod sigur, vei
comite nenumrate erori de calcul. Ceea ce ai lucra n zile sau sptmni, ai
putea face n doar cteva clipe, utiliznd o aplicaie computerizat.
Vom folosi dou aplicaii specializate n efectuarea calculelor pentru
analiza de date, una prietenoas i uor de utilizat, ns destul de scump, IBM
SPSS Statistics, alta gratuit, foarte puternic, ns ceva mai greu de folosit,
adresabil adevrailor profesioniti i numit, simplu, R. Pentru nceput, s
vedem cum le obinem.
I.4.1

Obinerea programului IBM SPSS Statistics


Versiunea de ncercare a aplicaiei se poate obine de la adresa http://www-

01.ibm.com/software/analytics/spss/products/statistics/downloads.html,

compania

IBM

cumprnd, cu ceva timp n urm, acest pachet de aplicaii, dezvoltndu-l


ulterior pe parcursul unui numr de 3 sau 4 versiuni. Desigur, pe pagina de
descrcare a programelor de ncercare exist mai multe aplicaii. Suntem
interesai de IBM SPSS Statistics i nu de altceva, prin urmare vom efectua click
pe legtura SPSS Statistics.
Poate unul dintre principalele avantaje ale prelurii acestor programe de
ctre IBM, este faptul c acum exist variante pentru mai multe sisteme de
operare. Iniial, programul rula doar pe sistemul de operare Windows de la
Microsoft. Acum avem i varianta pentru Mac OS de la Apple, dar i varianta
28

Msurarea n tiinele socio-umane

pentru Linux. Vom alege sistemul de operare instalat pe computer i apsm


apoi butonul Continue.
n acest moment, v putei face un cont pe site-ul IBM sau v putei
autentifica n cazul n care avei deja un cont. De obicei, vei folosi aceast
variant dac avei o licen valid. Astfel, folosind contul, vei putea actualiza
licena atunci cnd expir, vei putea descrca actualizri ale programului i
multe altele. n cazul n care nu dorii s v autentificai, putei apsa butonul
Proceed without an IBM ID. Politica firmei IBM este de a colecta datele
personale ale celor care descarc versiunea de ncercare. Nu avei ce s facei,
toate cmpurile marcate cu un asterisc rou trebuie completate, altfel nu vei
putea trece mai departe. Dup completarea tuturor informaiilor obligatorii, va
trebui s apsai butonul Submit pentru urmtoarea etap.
Ai ajuns, dup acest
efort,

la

posibilitatea

de

descrcare a programului de
instalare.

Implicit,

pentru

descrca, se va folosi o aplicaie


special,

numit

Download

director. Chiar dac are anumite


avantaje, pentru a nu v ncrca
inutil calculatorul, dac tot avei o
conexiune rapid la Internet, v
Figura I-7 Descrcarea programului IBM SPSS
Statistics

recomandm

apsai

Download using http pentru a

descrca direct ceea ce dorii. Alegei pachetul de instalare n funcie de tipul


sistemului de operare (pe 32 de bii sau pe 64 de bii dac nu tii, alegei
29

Cristian Opariuc-Dan

versiunea pe 32 de bii. Aceasta funcioneaz pe 64 de bii, nu ns i invers) i


apsai butonul I agree pentru a iniia descrcarea. n cteva clipe, browserul
dumneavoastr de Internet va iniia descrcarea programului i este posibil s
ateptai ceva vreme pn cnd se va obine copia. Programul de instalare este
destul de mare, aproape 1GB, iar serverele de descrcare sunt n Statele Unite
ale Americii, prin urmare este posibil s dureze ceva timp. Dup descrcare, vei
instala programul fcnd dublu click pe kitul de instalare, n cazul n care folosii
sistemul de operare Microsoft Windows. Nu vom intra n detalii, deoarece
presupunem c tii s instalai un program n Windows. Nu trebuie dect s
urmai instruciunile de pe ecran, alegnd, atunci cnd vi de solicit, licena de
ncercare de 30 de zile.
I.4.2

Obinerea i instalarea programului R


Din fericire, obinerea aplicaiei R este mult mai simpl. n primul rnd,

vom naviga la http://cran.r-project.org/bin/windows/base n cazul n care avei


sistemul

de

operare

Microsoft Windows. Pentru


alte sisteme de operare sunt
Figura I-8 Descrcarea aplicaiei R pentru Windows

procedee

specifice

de

instalare.

Putei

citi

informaiile relevante de pe pagina oficial a produsului, iar pentru a descrca


programul de instalare, efectuai click pe legtura Download R 3.1.0 for
Windows 1. Se va iniia imediat descrcarea aplicaiei, fr a vi se solicita alte
informaii. Kitul de instalare este destul de redus ca dimensiune, din acest motiv
i durata descrcrii va fi mai mic. Similar altor programe pe care le-ai mai

Numele legturii sau aspectul paginii sunt preluate de la adresa oficial a paginii proiectului.
Aceste elemente pot s aib o alt prezentare sau o versiune diferit.

30

Msurarea n tiinele socio-umane

folosit, putei instala R efectund dublu click pe numele pachetului de instalare


descrcat i urmai instruciunile de pe ecran.
Dup instalare, pe suprafaa de lucru vei putea gsi pictograma de
lansare a programului R for Windows, pe care vom efectua dublu click n
vederea lansrii n execuie.

Figura I-9 Fereastra principal R

Iat cum, n Figura I-9, putei observa ntreaga aplicaie R, programul


oferindu-ne doar o linie de comand n care tastm text. Desigur, putem lucra
i aici fr nicio problem, n cazul n care tim foarte bine R. Dac nu ne
descurcm, putem instala, suplimentar, o interfa vizual, indiferent dac
suntem programatori sau simpli utilizatori. Fiind o aplicaie gratuit i dezvoltat
voluntar de o comunitate internaional de programatori pasionai, R are destul
de multe variante de interfa vizual, recomandate fiind Deducer
(http://www.deducer.org), o interfa vizual destul de complex, dar care
funcioneaz doar dup ce ai instalat n prealabil Java, R Commander
31

Cristian Opariuc-Dan

(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr), o interfa puternic, foarte uor de


instalat i configurat, care nu necesit nimic suplimentar pe computer i RGtk
(http://www.omegahat.org/RGtk), interfa complex, intuitiv i uor de folosit, ns
disponibil doar pentru sistemele Linux sau alte sisteme bazate pe UNIX.
Mediul R se poate dezvolta aproape nelimitat, instalnd diferite module,
cunoscute sub numele de pachete, toate interfeele vizuale menionate, dar i
alte funcii mai complexe, fiind cuprinse n acestea. Pentru a putea folosi un
pachet, acesta trebuie mai nti instalat, apoi ncrcat n mediul R, instalarea
pachetelor R fcndu-se prin intermediul comenzii:
install.packages(nume pachet)

Pentru a instala, spre exemplu, R Commander, vom tasta comanda:


install.packages(Rcmdr)

Apsm apoi tasta Enter, pentru a valida execuia comenzii, moment


n care pachetele R se descarc i se instaleaz automat ntr-o bibliotec situat
pe calculatorul dumneavoastr. Deoarece acesta este primul pachet instalat,
biblioteca de pachete nu este configurat. Prin urmare, programul v ntreab
dac dorii s v personalizai biblioteca de pachete (Would you like to use a
personal library instead?). V recomandm s apsai butonul Yes pentru a
defini propria dumneavoastr bibliotec, situat n directorul personal al
documentelor. Dac apsai No, se va
folosi biblioteca implicit a programului.
Nu v sugerm a doua variant, deoarece
s-ar putea s avei probleme cu drepturile
Figura I-10 Alegerea bibliotecii personale
de pachete

de scriere pe disc. Dup apsarea


butonului Yes, programul va afia

locaia n care se vor scrie fiierele n biblioteca personal de pachete, implicit


32

Msurarea n tiinele socio-umane

n directorul personal de documente. Va trebui s apsm, din nou, butonul


Yes, pentru a confirma aceast opiune.
Pachetele R sunt disponibile n diferite locaii din Internet, aceste locaii
fiind cunoscute sub denumirea de CRAN Comprehensive R Archive Network.
Cu ct aceste locaii sunt mai apropiate de dumneavoastr, cu att descrcarea
pachetelor va dura mai puin. Dup instalare, programul nu tie unde v aflai,
din acest motiv invitndu-v s alegei locaia CRAN optim.
n Figura I-11 apar i locaii CRAN din
Romnia, ns exist o mare probabilitate ca
actualizrile s se fac ntrziat, astfel nct
unele pachete s fie nvechite, nefuncionnd
corespunztor. Deoarece la momentul actual
viteza conexiunii nu prea pune probleme, v
recomandm s alegei opiunea de cloud
(cea prestabilit, 0-Cloud) i s apsai butonul
OK.
Instalarea pachetului dureaz destul
Figura I-11 Alegerea locaiei CRAN

de puin, n fereastra de comenzi R afinduse o serie de mesaje informative, care arat ce

pachete se descarc i se instaleaz, precum i alte lucruri importante, cum ar fi


apariia unor erori. Configurarea librriei personale se face doar n momentul
instalrii primului pachet, modificarea locaiei acesteia fcndu-se, ulterior, din
setrile programului. Alegerea serverului CRAN se face o singur dat per
sesiune (la pornirea programului R), atunci cnd instalai un pachet.
Instalarea unui pachet nseamn doar c programul R s-a conectat la
serverul CRAN specificat, a cutat ultima versiune disponibil i a descrcat
33

Cristian Opariuc-Dan

fiierele necesare n biblioteca specificat. Este suficient s instalai o singur


dat un pachet pe computer, nu trebuie s repetai operaiunea de fiecare dat
cnd dorii s-l utilizai. Totui, instalarea unui pachet nu presupune automat i
utilizarea sa. Pentru a-l folosi, trebuie ca orice pachet s fie mai nti ncrcat n
R. ncrcarea pachetelor n R se face cu ajutorul comenzii:
library(nume_pachet)

nlocuind numele pachetului cu ceea ce am descrcat anterior, rezult


c va trebui s scriem:
library(Rcmdr)

Este posibil ca la ncercarea de ncrcare n memorie i lansare a unui


pachet, s apar un alt mesaj, prin care s vi se solicite instalarea altor pachete
suplimentare, care nu au fost descrcate i instalate iniial. Acceptai acest lucru
prin apsarea butonului Yes, ateptai ca procesul s se finalizeze i vei obine
rezultatul dorit.

Figura I-12 Interfaa vizual R Commander

34

Msurarea n tiinele socio-umane

Am vzut c, uneori, pentru a lansa n execuie un pachet R este nevoie


s instalm i alte pachete suplimentare, numite pachete suport. Nu v
impacientai, procesul se desfoar automat. Aplicaia va solicita unele
informaii suplimentare din timp n timp, va cuta pachetele de care are nevoie
i le va instala. Nu este nevoie dect s urmrii mesajele de pe ecran, fiind
necesar apsarea, din timp n timp, a butonului Yes. Este
important s reinei c n comenzile R, literele mici difer de
majuscule. Dac n loc s scriei Rcmdr ai fi scris rcmdr, s-ar
obine un mesaj de eroare, deoarece cele dou texte difer.
Interfaa R Commander este suficient de puternic pentru a efectua
majoritatea operaiunilor de analiz de date, pentru a importa sau pentru a
exporta baze de date din sau n alte programe, inclusiv IBM SPSS Statistics, are
chiar i comenzi n limba romn, ns nu se descurc prea bine la definirea
variabilelor i la introducerea datelor. Dac avei instalat n computer maina
virtual Java (Java SE Runtime Environment), putei iniia descrcarea i
instalarea pachetelor pentru Deducer. n caz contrar, v recomandm s
descrcai i apoi s instalai maina virtual Java de pe site-ul Oracle 2.
Iniial, va trebui s instalm interfaa grafic unificat Java pentru R, aanumitul pachet JGR (Java GUI for R), cunoscut i sub numele de Jaguar. n
fereastra de comenzi R, vom tasta:
install.packages(JGR)

Dup descrcarea i instalarea pachetelor Jaguar, vom repeta


operaiunea pentru a instala pachetele Deducer, tastnd n fereastra R,
succesiv, comenzile prezentate n continuare, n acest caz fiind necesar o

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

35

Cristian Opariuc-Dan

ateptare ceva mai lung, programul descrcnd i instalnd un numr destul


de mare de pachete:
install.packages(Deducer)
install.packages(DeducerExtras)

ncrcarea n memorie a interfeei grafice unice Jaguar se face prin


comanda cunoscut, dar de aceast dat va fi necesar o comand suplimentar
pentru a porni programul. Aadar, pentru a porni Jaguar, a vom tasta succesiv,
n fereastra de comenzi R, urmtoarele:
library(JGR)
JGR()

Figura I-13 Interfaa grafic Jaguar

36

Msurarea n tiinele socio-umane

Am obinut o fereastr de comenzi R ceva mai prietenoas, cu mai multe


posibiliti de definire a variabilelor i de introducere a datelor, ns destul de
rudimentar n raport cu preteniile noastre. Pentru a ncrca Deducer, va
trebui s accesm meniul Packages & Data, apoi s alegem opiunea Package
Manager.
n fereastra de configurare
a pachetelor ce vor fi ncrcate n
Jaguar,

vom

Deducer

cuta

pachetele

DeducerExtras,

apoi vom bifa cele dou casete din


coloana

loaded

pentru

comunica aplicaiei R s le ncarce.


Dac dorim ca cele dou pachete
s se ncarce automat atunci cnd
pornim Jaguar, bifm i cele dou
Figura I-14 Configurarea pachetelor ncrcate n
Jaguar

casete corespunztoare din a


doua

coloan,

cea

numit

default. Astfel, putem ncrca sau elimina orice alt pachet n aceast interfa
grafic, iar atunci cnd am terminat lucrul cu pachetele putem apsa butonul
Close pentru a iei din procedura de gestiune a pachetelor R.

Figura I-15 Interfaa Jaguar cu pachetele Deducer

Faptul c pachetele Deducer au fost ncrcate este reflectat n noul


meniu Jaguar. Dup cum se poate observa, au aprut elemente noi, specifice
37

Cristian Opariuc-Dan

analize de date i reprezentrilor grafice, precum i funcii noi, avansate, inclusiv


pentru definirea variabilelor i introducerea datelor. Att Deducer, ct i R
Commander, permit importul/exportul bazelor de date, operaiunea putnd fi
efectuat i n line de comand. Au fost instalate ambele interfee, deoarece v
va permite familiarizarea cu dou stiluri de lucru relativ diferite.

I.5

Proiectarea unei baze de date


Am crede, n mod greit, c putem deschide imediat o aplicaie de analiz

de date i ncepem s configurm variabilele. n realitate, structura unei baze de


date trebuie mai nti gndit, proiectat pe hrtie, apoi vom trece la
implementarea acesteia ntr-un program. S presupunem c desfurm un
studiu folosind un test de inteligen i dorim s colectm datele necesare. Ce
variabile am putea reine? n mod evident, rezultatele persoanelor la testul de
inteligen, exprimate, spre a uura nelegerea, sub forma coeficientului de
inteligen. Iat i o prim variabil. Apoi, cror persoane le va fi administrat
testul de inteligen? Elevilor de liceu, studenilor, elevilor din coala general
sau unei categorii de populaie mai largi? Ne intereseaz educaia acestor
persoane? Dac da, ne putem gndi la o alt variabil, pe care am numi-o nivel
de educaie. Indivizii care vor rezolva problemele testului, cel mai probabil, vor
avea vrste diferite, vom folosi att brbai, ct i femei, asta dac nu cumva
preferm s administrm testul doar fetelor dintr-o singur clas. Iat c putem
avea n vedere alte dou variabile, vrsta subiecilor i genul biologic.
Orice studiu trebuie gndit nainte de a fi implementat i
de a trece la definirea variabilelor. n mod normal, acest demers
are loc n momentul n care construim planul de cercetare, vizeaz
o analiz a tuturor variabilelor care ar putea afecta ceea ce msurm, reinerea

38

Msurarea n tiinele socio-umane

celor relevante i includerea unor variabile demografice, de caracterizare a


lotului de cercetare.
Dup ce am stabilit ce anume vom msura, adic n urma reinerii
variabilelor ce vor fi folosite n studiu, este recomandat s le centralizai ntr-un
tabel, numit tabelul meta-datelor 3.
Tabel I-1 Meta-datele variabilelor
Etichet
Vrsta
subiecilor
Genul
biologic

Nume

Tip

Nivel

Codare dummy

varsta

N(3)

Scalar

gen

N(1)

Nominal

Nivelul
educaional

niv_edu

N(1)

Ordinal

Coeficient de
inteligen

iq

N(3)

Scalar

1 Masculin
2 - Feminin
1 Fr studii
2 Primare (1-4)
3 Gimnaziu (5-8)
4 Liceu (9-12)
5 Bacalaureat
6 Universitare
(Licen)
7 Universitare
(Master)
8 Doctorat
9 - Postdoctorale
-

Scop
Demografic, posibil
independent
Demografic, posibil
independent

Demografic,
independent

Dependent

O prim informaie despre variabile se refer la eticheta acestora, prin


etichet nelegnd denumirea lor, aa cum o percep i cum o neleg oamenii.
n cazul de fa, ceea ce am decis s reinem mai sus, reprezint exact etichetele
unor variabile, denumirea acestora n limbajul uman. Numele variabilei se
refer tot la denumire, ns nu aa cum o nelege omul, ci computerul. Unele
programe ne permit s definim numele variabilei la fel cum definim eticheta
acesteia, altele impun condiii speciale. Deoarece nu dorim s fim dependeni
de un singur program, mai ales atunci cnd colaborm cu ali cercettori, vom
prefera s respectm regulile de denumire a variabilelor.

Meta-datele se refer la informaiile despre variabile, a caracteristicile acestora

39

Cristian Opariuc-Dan

n primul rnd, orice nume de variabil poate conine doar


litere i cifre, i va ncepe, n mod obligatoriu, cu o liter. n cazul
n care dorii ca numele variabilei s nceap cu o cifr, va trebui
s folosii liniua de subliniere (de exemplu, corect este _18ani i nu 18ani).
Dac variabila conine spaii (de exemplu nivel educaional), avei mai multe
metode pe care le putei utiliza, cea mai frecvent fiind aceea n care apelai tot
la liniua de subliniere (putei denumi, de exemplu, niv_edu), modalitate
cunoscut sub numele de notaie underscore_case. Singura problem a
acestei notaii este includerea unui caracter suplimentar (liniua de subliniere),
care ar putea genera, dup cum vom vedea, unele dificulti. Dac preferai,
putei folosi una dintre notaiile cunoscute sub denumirea de Camel Case, n
care fiecare cuvnt ncepe cu liter mare (UpperCamelCase) sau n care doar
primul cuvnt ncepe cu liter mic, celelalte cu majuscule (lowerCamelCase).
n cazul de fa, am putea numi variabila fie NivEdu (n stilul
UpperCamelCase), fie nivEdu (n stilul lowerCamelCase). Toate cele trei
convenii de notare constituie standarde de definire a variabilelor folosite n
programare, i este bine s v obinuii cu ele, pentru a nelege lumea
aplicaiilor computerizate dincolo de utilizarea programelor de analiz de date.
Este inutil s insistm asupra faptului c n denumirea unei variabile nu au ce
cuta diacriticele romneti (, , , etc.), i nici alte caractere speciale,
exceptnd liniua de subliniere (_).
O a doua regul ine de respectarea numrului maxim de 8
caractere n denumirea unei variabile. Aceast condiie provine de
pe vremea sistemului de operare MS-DOS, atunci cnd denumirea
fiierelor nu putea s depeasc 8 caractere, fiind rar impus de vreo aplicaie
din zilele noastre. Versiunile vechi de SPSS for Windows (nainte de versiunea

40

Msurarea n tiinele socio-umane

10) solicitau acest lucru, dar cum nu putem ti ce fel de program ar folosi un
eventual colaborator, v recomand s inei cont de aceast regul. Nu vom
numi o variabil nivel_educational, i nici NivelEducational sau
nivelEducational, deoarece am depi limita celor 8 caractere; vom prefera s
scriem, ca mai sus, niv_edu (7 caractere), NivEdu sau nivEdu (6 caractere).
O alt regul important spune c fiecare variabil trebuie
s ocupe o coloan distinct n baza de date, iar fiecare subiect va
ocupa un singur rnd (va avea o singur nregistrare) (Field, 2005).
Dac ar trebui, de exemplu, s msurm coeficientul de inteligen,
avnd, astfel, o testare iniial, apoi s aplicm o tehnic de dezvoltare a
inteligenei i, dup 6 luni sau un an, s realizm o testare final, cum am
proceda? Exist o singur variabil, coeficientul de inteligen, msurat n dou
momente diferite de timp, situaie foarte bine cunoscut n cazul cercetrilor cu
msurri repetate. Pentru a nu nclca aceast regul, vom crea dou variabile
n baza de date, i nu una singur, de exemplu iq_ini pentru msurarea iniial
i iq_fin pentru cea final, respectnd astfel prima parte a regulii, dar i cea
de-a doua parte, n care o persoan ocup un singur rnd.
Tipul i nivelul de msur a variabilelor sunt alte informaii, foarte
importante, atunci cnd proiectm baza de date. Pentru a putea vorbi despre
msurare, n adevratul sens al definiiei, tim c trebuie s asociem numere
atributelor obiectelor i fenomenelor studiate. De aceea, nc de la nceput,
trebuie s decidem care dintre variabile exprim caliti i care exprim
cantiti, adic s stabilim nivelul lor de msur. Variabilele iq i varsta se
refer, evident, la cantiti, i se exprim, n mod natural, prin numere. n primul
caz vorbim despre coeficientul de inteligen, un numr situat la un nivel de
msur de interval, iar n al doilea caz tot despre un numr, vrsta, exprimat
41

Cristian Opariuc-Dan

n ani mplinii, variabila fiind situat chiar la un nivel de raport. n analiza de


date nu facem o distincie att fin ntre variabilele parametrice (continui), prin
urmare att cele situate la un nivel de interval, ct i cele ale nivelului de raport,
sunt tratate unitar, ca variabile scalare, cele mai puternice variabile cu care
putem lucra.
n acest moment, putem discuta despre o nou regul
foarte important i mult ignorat, i anume c fiecare variabil
trebuie codat astfel nct s se obin maximum de informaii
(Opariuc-Dan, 2009). S lum cazul vrstei, o variabil pe care o putem exprima
n ani, luni, zile, minute sau secunde, cum dorim, avnd un punct zero
convenional n momentul naterii, ba chiar i un zero absolut n momentul
concepiei. Altfel spus, o variabil scalar n adevratul sens al cuvntului, i ar
fi o mare greeal s o tratm, spre exemplu, ca pe o variabil ordinal. Atunci
cnd o vom proiecta, ne vom gndi s stocm vrsta n ani sau luni, i nu s
crem categorii de vrst (de exemplu, ntre 10 i 15 ani, ntre 15 i 20 de
ani i aa mai departe), transformnd-o ntr-o variabil ordinal, mult mai
slab. Idealul oricrui cercettor este s msoare la un nivel ct mai puternic,
de preferin cu zero absolut. Dac variabila este natural scalar, o vom folosi
exact aa, la cel mai nalt nivel de precizie, garantnd obinerea maximului
posibil de informaie. Ulterior, dac dorim, putem transforma foarte uor o
variabil continu ntr-una discret, ordinal sau nominal, mult mai slab din
punct de vedere al informaiilor i al puterii analizelor permise; invers, ca s
ajungem de la o variabil discret la una continu, este ns imposibil (OpariucDan, 2009).
Din moment ce am stabilit nivelul de msur ca fiind cel scalar, n
urmtoarea etap vom urmri s identificm tipul variabilei. Este limpede, cele
42

Msurarea n tiinele socio-umane

dou variabile exprim cantiti, msurate prin numere, aadar vor fi definite ca
numerice (N), ns de cte cifre vom avea nevoie pentru a stoca toate valorile
posibile? n cazul vrstei, exprimat n ani, cu o singur cifr vom putea memora
scoruri de la 0 la 9 ani, total insuficient avnd n vedere persoanele pe care
urmeaz s le evalum. Stm mult mai bine dac am folosi dou cifre, deoarece
am putea nregistra persoane cu vrsta cuprins ntre 0 i 99 de ani, dar ce ne
facem dac includem n studiu i bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depi 999 de ani, ct este
maximum teoretic al amplitudinii valorilor. n cazul n care variabila nu comport
numere zecimale, am putea nota acest lucru de forma N(3), adic o variabil
de tip numr ntreg, format din 3 cifre, cu o amplitudine de la 0 la 999. n cazul
n care am fi proiectat un studiu specific tiinelor economice i administrative
i am fi avut o variabil n care s stocm, spre exemplu, preul unor produse,
am fi preferat o reprezentare zecimal, notnd tipul variabilei cu N(4.3), adic
o variabil de tip numr zecimal, format din 4 cifre pentru a reprezenta ntregii
i 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
n cazul coeficientului de inteligen, putem proiecta variabila tot de tip
N(3), asigurnd o amplitudine suficient pentru a permite nregistrarea scorului
oricrei persoane, deoarece am stoca valori ale coeficientului de inteligen
cuprinse ntre 0 i 999. Iat c am ajuns la o nou regul, i anume
aceea conform creia categoriile create trebuie s fie exhaustive,
adic suficiente pentru a permite oricrui caz particular s poat
fi inclus ntr-o categorie.
Dac n cazul celor dou variabile discutate lucrurile sunt destul de clare,
deoarece exprim, natural, cantiti, variabilele gen i niv_edu exprim
caliti. Genul biologic se situeaz la un nivel nominal (categorial) de msurare,
43

Cristian Opariuc-Dan

deoarece nu putei pune, nici mcar n glum, o relaie de ordine ntre cele dou
categorii, iar nivelul de educaie poate fi tratat ca o variabil situat la un nivel
de msur ordinal, deoarece o persoan care a terminat doar gimnaziul are un
nivel de educaie inferior celeia care a absolvit liceul.
Toat problema este c orice program de analiz de date prefer s
ronie numere i nu litere. Din acest motiv, am ajuns la o nou
regul foarte important, aceea c toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
n baza de date, textul masculin i feminin, nici mcar M i F atunci cnd
nregistrm scorurile persoanelor la variabila gen. n primul rnd, nu am
respecta definiia msurrii, motiv suficient pentru a renuna la orice analiz de
date. n al doilea rnd, am pierde enorm de mult timp dac am scrie, de fiecare
dat, unul dintre cele dou texte, pentru fiecare persoan, ca s nu mai punem
la socoteal riscul crescut de a comite erori. Dac n loc de masculin am omite
o liter, spre exemplu am scrie masclin, fapt extrem de probabil, atunci nu am
mai avea dou categorii ale variabilei, ci trei: masculin, masclin i feminin.
Folosind litere, putem calcula, cel mult, de cte ori apare un cuvnt, fapt care ar
limita puterea analizei de date la cea dat de numrarea scorurilor din fiecare
categorie. Dar nu ne oprete nimeni s notm cu 1 categoria masculin i cu 2
categoria feminin, sau invers. Astfel, respectm definiia msurtorii,
reducem riscul de a comite o eroare i crem posibilitatea unor analize de date
mai puternice. O asemenea atribuire poart numele de codare dummy, pentru
a arta c numerele alocate au doar o valoare de etichet, nu ndeplinesc funcia
lor normal. Pur i simplu, n loc de masculin vom tasta 1 (sau 2, 7, 5, dup
cum dorim), iar n loc de feminin vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relaia de ordine ntre categorii nu exist.

44

Msurarea n tiinele socio-umane

Pe de alt parte, variabila niv_edu comport o altfel de abordare, fiind


ordinal. De aceast dat vom acorda numere n ordine, acestea reprezentnd
tot etichete ale categoriilor, dar au, n plus, calitatea de a indica poziia
categoriei. Vom ti ce categorie este superioar sau inferioar alteia, dar nu vom
putea vorbi despre cantiti, doar despre ordine. Aadar, orice proces de codare
dummy presupune dou elemente: un numr, denumit valoare, care va fi
introdus n baza de date, precum i o etichet, ce nu va fi introdus n baza de
date, dar care reprezint, de fapt, proprietatea calitativ msurat.
Legat de procesul de codare dummy, apar reguli noi. Una
dintre acestea susine c toate codurile categoriilor unei variabile
trebuie s fie mutual exclusive (Field, 2005). Trebuie gsite nu doar
suficiente categorii pentru a include orice caz posibil, ci trebuie i respectat
regula ca o valoare, pentru o persoan, s poat fi ncadrat ntr-o singur
categorie i numai n una, cu alte cuvinte s nu se suprapun categoriile. Nu
putem defini, spre exemplu, o variabil n care s stocm categoria de vrst,
una dintre categorii fiind 10-15 ani, iar cealalt 15-20 de ani. O persoan, care
are exact 15 ani, unde va fi inclus, mai ales dac mplinete acea vrst fix n
ziua evalurii? Ar fi mai corect s construim categorii de genul 10-15 ani, 16-20
de ani si aa mai departe, n care limita inferioar a unei categorii este strict mai
mare dect limita superioar a categoriei anterioare.
Uneori, la proiectarea unei variabile, este mai dificil s respectm
aceast regul. S presupunem c desfurm un sondaj de opinii politice, n
care avem urmtoarea ntrebare: Dac duminic ar fi alegeri parlamentare, cu
care dintre urmtoarele partide n mod sigur NU vei vota?. Ca variante de
rspuns, am putea avea PX, PY, PZ, NS/NR i varianta deschis, Altul.
Care?. Un respondent poate bifa un partid, dou, le poate bifa pe toate, poate
45

Cristian Opariuc-Dan

s nu bifeze niciunul sau s scrie un alt partid, neinclus n lista standard. Cum
am putea proiecta o asemenea variabil deoarece, aa cum observai, codarea
dummy prezentat anterior permite alegerea doar a unei singure variante de
rspuns. ntr-o astfel de situaie, am putea regndi itemul unic, l-am putea privi
ca fiind format din mai muli itemi dihotomici, atia cte variante de rspuns
exist. De exemplu, Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PX?; Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PY? i aa mai departe. Ar rezulta un numr de variabile
dihotomice, de tipul nu_PX, nu_PY, nu_PZ, nu_NSNR i o variabil de tip
text, de genul nu_P_Alt, n ultimul caz stocnd ceea ce va scrie respondentul
i procednd, ulterior, la o analiz calitativ (Opariuc-Dan, 2009). Exceptnd
variabila calitativ, n celelalte cazuri putem proceda la o codare dummy de
genul 1 Adevrat i 0 Fals, sau putem folosi orice alt sistem de codare
dummy dihotomic dorim, rezolvnd, astfel, problema.
O alt regul, destul de important, susine prezena
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoan ar trebui s aib valori la
toate variabilele din baza de date. n situaia n care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lips, prezena lor putnd avea consecine serioase asupra unor
categorii de tehnici de analiz de date (spre exemplu, modelele de ecuaii
structurale). Nu este ntotdeauna posibil s evitm apariia cazurilor lips,
deoarece persoanele pot refuza sau pot omite s furnizeze unele rspunsuri.
Majoritatea programelor de analiz de date au proceduri puternice de gestiune
a cazurilor lips, unele dintre ele urmnd s le discutm i noi; tot ceea ce va
trebui s reinei n acest moment, este c un caz lips va fi reprezentat prin

46

Msurarea n tiinele socio-umane

absena datelor din celula respectiv, nu prin introducerea valorii zero. Dac vei
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide i le va include n analiz, fapt ce ar putea s conduc la rezultate
profund eronate.
n fine, ultima regul pe care o vom comenta se refer la
codarea variabilelor n concordan cu sensul scalei (Field, 2005).
Anumite ntrebri pot avea o scal de rspuns inversat. De
exemplu, rspunsul ntrebarea Ct de mulumit suntei de nivelul
dumneavoastr de venit? poate fi dat pe o scal de la 1 la 5, unde 1 nseamn
foarte puin mulumit i 5 nseamn foarte mulumit. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificaiei de mai
mult. La fel de bine am putea spune c 1 nseamn foarte mulumit i 5
foarte puin mulumit, dac ne gndim c 1 ar avea semnificaia primului loc,
iar 5 semnificaia ultimului loc. tim deja c rareori msurm o variabil prin
intermediul unui singur item; de multe ori sunt necesare mai multe ntrebri,
unele fiind operaionalizate astfel nct 5 s reprezinte mult, altele ca 1 s
reprezinte mult, aceasta fiind i o tehnic de pstrare a ateniei, folosit destul
de des n psihologie. Programul de analiz de date tie doar c 5 este mai mare
ca 1, neavnd habar i nefiind interesat de modul n care am construit noi scala
de rspuns. V dai seama c dac am msura o variabil prin intermediul unui
numr de 10 itemi, 5 avnd scale de rspuns cresctoare, 5 descresctoare, din
punct de vedere al analizei de date tendinele s-ar anula reciproc (cei care
rspund cu 4 la primii 5 itemi, adic n sensul de mult, vor rspunde cu 2 la
ultimii cinci, tot n sensul de mult). De obicei, atunci cnd efectum codarea
dummy la definirea variabilelor, respectm modul n care au fost proiectai
itemii, pentru a nu crea confuzie la introducerea datelor. Cnd iniiem ns
analiza de date, vom avea grij s aducem toi itemii n sensul natural al scalei,
47

Cristian Opariuc-Dan

n cazul nostru transformnd, prin inversare, scorurile a 5 dintre ei, operaiune


cunoscut sub numele de recodare, astfel nct variabila final s aib acelai
sens.
Dac vom proceda inteligent, planificnd i proiectnd baza de date n
conformitate cu regulile menionate n acest capitol, vom obine, la final, un
tabel al meta-datelor clar, logic i consistent, fcnd implementarea definiiilor
o plcere, indiferent de programul n care lucrai. Dac ne vom grbi, am obine,
n cel mai fericit caz, o baz de date greu de neles, murdar, dezorganizat
i dezordonat, care pune probleme, de multe ori, chiar i persoanei care a
creat-o. n situaia cea mai neplcut, am putea constata c, dup ce am
introdus foarte multe date, unele variabile au fost proiectate greit. Abia atunci
ai putea avea motive serioase de frustrare, deoarece ai muncit degeaba.
I.5.1

Definirea variabilelor i introducerea datelor n IBM SPSS Statistics

Figura I-16 Fereastra principal IBM SPSS Statistics

IBM SPSS Statistics a ajuns la versiunea 22 n momentul n care scriem


aceste rnduri i ofer faciliti avansate de procesare statistic a datelor,
folosind o interfa grafic foarte prietenoas, relativ uor de nvat, elemente
care au stat la baza popularitii sale.
48

Msurarea n tiinele socio-umane

Pentru nceput, vom observa asemnarea cu un alt program, mult mai


bine cunoscut, i anume Microsoft Excel. Chiar dac se pot face analize de date
suficient de elaborate folosind Microsoft Excel, utilizarea unei aplicaii
specializate n analiza de date ofer o mai mare flexibilitatea i o mai bun
claritate. Microsoft Excel este, totui, un program pentru foi de calcul tabelar i
nu o aplicaie dedicat analizei de date.
n IBM SPSS Statistics, ca n orice alt aplicaie de analiz de date,
variabilele sunt reprezentate pe coloane iar datele se introduc pe rnduri.
Numele variabilelor se afieaz n capul de
tabel, fiind, implicit, var. Primul lucru pe
care va trebui s-l remarcm este tabulatorul
de comutare ntre modul de vizualizare a
Figura I-17 Tabulatorul de comutare a
modului de vizualizare

datelor i modul de definire a variabilelor,


situat n colul din dreapta jos al ferestrei

principale (vezi Figura I-17). Butonul Data View comut n seciunea destinat
introducerii datelor, aceasta fiind seciunea implicit, activ atunci cnd pornii
programul. Doar c, pentru a putea introduce datele, va trebui s fi definit n
prealabil variabilele. Nu este cazul nostru, din acest motiv va trebui s efectum
click pe butonul Variable View pentru a comuta n seciunea de definire a
variabilelor, practic o implementare computerizat a tabelului meta-datelor
discutat mai sus.

Figura I-18 Structura tabelului meta-datelor n IBM SPSS Statistics

Prima coloan a tabelului meta-datelor, Name, se refer la numele


variabilei, acel nume inteligibil pentru computer, nu pentru om. n conformitate

49

Cristian Opariuc-Dan

cu specificaiile prevzute n tabelul meta-datelor proiectat (vezi Tabel I-1), aici


vom introduce varsta pentru a denumi variabila Vrsta subiecilor, gen
pentru a denumi variabila Gen biologic, niv_edu pentru nivelul educaional,
i aa mai departe.
Urmtoarele trei coloane (Type, Width i Decimals) permit, toate
trei,

stabilirea

tipului

acesteia.

Ne

reamintim c variabila varsta a fost


Figura I-19 Definirea tipului unei variabile

definit ca numeric, fr zecimale,

compus din trei cifre N(3). Dup ce am terminat de introdus numele variabilei
i am prsit celula, IBM SPSS Statistics a completat automat tipul variabilei, n
funcie de configuraia sa, definind-o drept N(8.2). Adic, o variabil numeric,
avnd 8 caractere ntregi i dou caractere zecimale. Dimensiunea este mult
prea mare fa de ce avem noi nevoie, prin urmare vom scrie, n celula
Decimals, n loc de 2 cifra 0, iar n celula Width, n loc de 8 cifra 3.
Rareori vom avea nevoie s
schimbm tipul variabilei, deoarece,
aa cum tim, n analiza de date se
impune
acestora.

codarea
Dac

numeric
dorim,

putem

efectua click n celula Type din


Figura I-20 Modificarea tipului de variabil

dreptul variabilei pe care o definim,


moment n care, n partea dreapt,

se va afia un buton ce conine trei puncte de suspensie (

), pe care

putem aps pentru a se afia fereastra din Figura I-20. Primele patru opiuni
reprezint diferite moduri de definire a numerelor, n partea dreapt putnd

50

Msurarea n tiinele socio-umane

stabili numrul de cifre ale ntregilor i numrul de cifre ale zecimalelor, la fel ca
mai sus.
Opiunea

Date

are

vedere date de tip calendaristic.


Dac o alegem, n partea dreapt
dispar

elementele

Width

Decimals i apare o list din care


putei selecta formatul de dat
Figura I-21 Configurarea tipului calendaristic de
date

calendaristic

solicitat

pentru

introducerea scorurilor. Tipul de

dat calendaristic se poate folosi, de exemplu, dac dorim s stocm data


naterii, pentru ca ulterior, la analiza datelor, s putem calcula vrsta exact a
persoanelor n ani, luni, zile i ore, n funcie de nivelul de precizie solicitat.
Datele calendaristice se utilizeaz mai mult n medicin sau acolo unde putem
vorbi despre analiza seriilor temporare, ori n cercetrile experimentale de
supravieuire din industria farmaceutic.
Opiunile Dollar i Custom
currency intuii la ce se refer; n
mod cert la monede. Dac alegei
dolar, sumele vor fi exprimate n
moneda american, fiind precedate
de simbolul $. n definitiv, o
Figura I-22 Configurarea tipului monetar de date

moned este tot un numr, aa c, la


configurarea opiunii, alturi de lista

de alegere a modului de reprezentare, reapar elementele Width i Decimal


Places. Cealalt opiune permite definirea unei alte monede, exceptnd
51

Cristian Opariuc-Dan

dolarul. Putem alege formatul de reprezentare, numrul de ntregi i numrul


de zecimale, la fel ca n cazul monedei americane.
Opiunea String definete
iruri de caractere, texte, fiind
folosit atunci cnd avem itemi cu
rspunsuri
Altceva.

deschise,
Ce?

sau

de

genul

Altcineva.

Care? i permite introducerea de


Figura I-23 Configurarea tipului text de date

text brut. Singura modalitate de


configurare ine de numrul de

caractere acceptate, valoare pe care o putem introduce n caseta Characters.


Dup cum tii deja, un astfel de tip de date este nerecomandat n analiz, din
acest motiv fiind foarte rar folosit. Singura utilizare oarecum pertinent ar fi
aceea n care am stoca numele persoanelor, n vederea unei identificri
ulterioare.
Ultimul tip de date, Restricted Numeric, este un numr ntreg, fr
zecimale, dar la care se completeaz cu zero valorile din fa. De exemplu, dac
l-am defini ca N(3), atunci valoarea 9 va fi reprezentat ca 009 i nu simplu,
9.
Dup ce am terminat configurarea tipului variabilei, putem apsa
butonul OK pentru a memora aceste setri, sau butonul Cancel dac dorim
s prsim formularul i s revenim la configuraia iniial, fr a reine noua
configuraie.
Dac numele variabilei, aa cum l recunoate computerul, a fost
introdus n celula coloanei Name, denumirea acesteia, inteligibil pentru om,
se va introduce n celula coloanei Label. n cazul nostru, acolo vom scrie,
52

Msurarea n tiinele socio-umane

pentru variabila varsta, eticheta Vrsta subiecilor. Dac lsm


necompletat aceast celul, n rapoartele generate de IBM SPSS Statistic se va
folosi numele variabilei. Acesta va fi nlocuit dac exist informaii despre
etichet, fapt care permite o afiare mult mai elegant i mai comprehensibil
a informaiilor. Iat de ce v recomandm s completai ntotdeauna celula
Label.
Coloanele Columns i Align nu afecteaz definiia variabilelor, ci
felul n care sunt afiate datele. n celula Align putem specifica modul n care
se aliniaz textul: la dreapta (Right) n cazul numerelor, la stnga (Left) sau
centrat (Center) n cazul textelor, ns aceast convenie poate fi ignorat. n
definitiv, putei configura aspectul dup preferinele dumneavoastr. Celula
Columns permite stabilirea limii coloanei de date. Cu ct numrul este mai
mare, cu att limea coloanei variabilei respective va fi, i ea, mai mare. Nu ar
trebui s v facei probleme privind aceast valoare, deoarece putei s
modificai limea unei coloane trgnd cu mausul de linia de separaie dintre
dou coloane, ca la orice tabel.
Coloana Measure permite definirea unei caracteristici foarte
importante pentru o variabil, i anume nivelul de msur. La crearea unei
variabile, nivelul de msur nu este precizat (Unknown). Putem alege nivelul
de interval sau de raport n cazul variabilelor continui, parametrice, alegnd
opiunea Scale. Dac variabila este una discret i are categorii ordonate, vom
alege opiunea Ordinal, iar dac avem n vedere o variabil categorial,
opiunea ce va trebui aleas este Nominal.
Ultima coloan, Role, corespunde oarecum scopului variabilei din
tabelul meta-datelor (Tabel I-1). Opiunea implicit este Input i vizeaz o
variabil ale crei valori sunt introduse manual. Vorbim, astfel, de variabile
53

Cristian Opariuc-Dan

realizate prin observare direct, din surse externe de date, aceasta fiind situaia
tuturor variabilelor din exemplul nostru. Opiunea Target are n vedere
realizarea variabilei din alte variabile, prin transformri sau calcule. De exemplu,
dac din variabila varsta construim o nou variabil, numit grup_varsta,
aceast nou variabil este considerat de acest tip. Atunci cnd o variabil se
poate realiza i direct, i prin calcul, opiunea aleas va fi Both. De exemplu,
variabila varsta poate fi de acest tip, dac iniial am introdus manual datele,
apoi am decis s eliminm valorile vrstei pentru toi subiecii minori, acest
lucru fiind obinut n urma unei operaiuni de transformare. Opiunea None
arat c variabilei nu i-a fost atribuit niciun rol sau c rolul su nu este bine
cunoscut. De obicei, se folosete atunci cnd datele sunt importate dintr-un alt
program sau am preluat o baz de date de la o persoan nefamiliarizat suficient
cu aceast aplicaie, i nu tim cum s-au obinut, astfel, datele. Opiunile
Partition i Split se folosesc n cazul variabilelor pe baza crora se scindeaz,
logic, fiierul de date, diferena dintre ele innd doar de modul n care s-au
mprit datele. Dac scindarea bazei de date s-a realizat folosind un criteriu de
selecie a cazurilor n care s-a inclus variabila, atunci aceasta are un rol de
partiionare. Dac este vorba despre o variabil categorial, pe baza categoriilor
acesteia mprindu-se fiierul, atunci avem de a face cu o variabil Split. Spre
exemplu, putem alege una dintre cele dou opiuni dac facem analize de date
separat pentru brbai i separat pentru femei (variabila gen fiind o variabil
cu rol de Split), sau dac alegem spre analiz doar brbaii cu vrsta peste 20
de ani (variabilele gen i varsta sunt variabile de partiionare).
Declararea rolului unei variabile nu are vreun efect asupra analizei de
date, aa cum tim, ns poate comunica unui alt cercettor modul n care au
fost obinute i prelucrate datele, fapt ce arat o tratare profesional i serioas

54

Msurarea n tiinele socio-umane

a acestor sarcini. Iat cum am

reuit s definim prima variabil, vrsta

subiecilor:

Figura I-24 Definirea complet a variabilei varsta

I.5.1.1

Definirea valorilor ce vor fi tratate drept cazuri lips

Au rmas doar dou coloane pe care nu le-am discutat, una dintre


acestea fiind coloana Missing, ce nu se refer la tratarea situaiilor n care
lipsesc valori din baza de date, ci la momentele cnd anumite valori ar trebui
tratate drept cazuri lips. Pentru a defini asemenea situaii, vom apsa pe
acelai buton cu puncte de suspensie, ce va putea fi observat atunci cnd
efectum click n celula variabilei, din coloana Missing.
Implicit,

IBM

SPSS

Statistics

presupune c nu dorim s definim valori ce


vor fi tratate drept cazuri lips, asemenea
situaii innd doar de absena efectiv a
scorurilor.
Figura I-25 Definirea valorilor tratate
drept cazuri lips

Din

acest

motiv,

opiunea

selectat atunci cnd deschidei formularul


este No missing values. Am putea, spre

exemplu, desfura un sondaj de opinie, n care anumite ntrebri s aib


variantele de rspuns Nu tiu i Nu rspund. De multe ori, studiile
sociologice, mai ales n cazul opiniilor politice, presupun excluderea variantelor
de tip Nu tiu/Nu rspund, tocmai pentru a se putea sesiza distribuia
preferinelor persoanelor hotrte. Iat de ce asemenea variante de rspuns
primesc, de obicei, coduri numerice 99 sau 98, pentru o asemenea codare
optnd i n exemplul de fa. Nu putem renuna de tot la cele dou variante,
lsnd celulele necompletate, deoarece situaia nehotrilor ar putea fi
55

Cristian Opariuc-Dan

solicitat n vederea unei alte analize, ns putem alege opiunea Discrete


missing values. Se activeaz cele trei casete, corespunztoare introducerii unui
numr maxim de trei valori unice, acestea fiind tratate drept cazuri lips.
n situaia n care am dori ca ambele
Figura I-26 Tratarea unor valori
unice drept cazuri lips

categorii, att Nu tiu (98) ct i Nu rspund


(99), s fie tratate drept cazuri lips, computerul

ignorndu-le ca i cnd ar fi celule necompletate, am include codurile acestora


n dou dintre cele trei caste de text, ca n Figura I-26. Dac am mai avea o
variant de rspuns, de exemplu Niciunul (9), am putea include i aceast
valoare n cea de-a treia caset. IBM SPSS Statistics nu permite introducerea a
mai mult de trei valori care s fie tratate drept cazuri lips, ns sunt foarte rare
situaiile n care chiar am avea nevoie de aa ceva.
Un alt scenariu ar fi acela n care ni s-ar
solicita s tratm minorii i persoanele care nu
Figura I-27 Tratarea unui interval de au vrut, n mod explicit, s declare vrsta, ca i
valori i a unei valori unice drept
cazuri lips
cnd nu ar fi completat celulele acestei

variabile, adic s tratm aceste situaii drept cazuri lips. Minore sunt toate
persoanele cu vrsta cuprins ntre 0 i 18 ani, iar pentru persoanele care au
refuzat explicit s comunice vrsta, am ales codul 999. Realizai c ntr-o
asemenea situaie, n mod obligatoriu ar trebui s includem valoarea 999 ca
valoare discret pentru cazuri lips, altminteri ar rezulta o medie de vrst
matusalemic. Problema nu ine de aceast valoare unic, ci de intervalul de
vrst cuprins ntre 0 i 17 ani, prin urmare vom alege ultima opiune, Range
plus one optional discrete missing value. n primele dou casete putem stabili
intervalul de valori, specificnd 0 ani drept limit inferioar (Low) i 17 ani
drept limit superioar (High) iar n a treia caset (Discrete value) putem
56

Msurarea n tiinele socio-umane

introduce 999 ani, codul pentru situaia n care persoanele refuz s declare
vrsta. Problema a fost rezolvat, nu rmne dect s apsm butonul OK
pentru a memora configuraia sau Cancel pentru a prsi fereastra fr a
reine setrile.
I.5.1.2

Definirea categoriilor variabilelor calitative.

Din moment ce am terminat definirea variabilei varsta, vom trece la


urmtoarea variabil, i anume gen. Avem deja cunotinele necesare pentru
a face acest lucru, prin urmare nu vom relua toate operaiunile.

Figura I-28 Definirea meta-datelor pentru variabila gen

Tipul variabilei este, n mod cert, numeric, avnd nevoie de o singur


cifr pentru a stoca cele dou categorii, convenind s notm cu 1 genul
masculin i cu 2 genul feminin (vezi Tabel I-1). Nu uitm, desigur, s specificm
nivelul de msur, n cazul de fa cel nominal.
Toat chestiunea este c
aceast codare dummy am realizato noi, n tabelul meta-datelor, iar
IBM SPSS Statistics habar nu are c
brbaii sunt notai cu 1 i femeile
cu 2, atta vreme ct nu gsim o
Figura I-29 Codarea dummy a unei categorii

cale prin care s-i putem comunica

asta. Aceast cale chiar exist, iar pentru a o accesa este suficient s apsai
butonul cu punctele de suspensie ce apare dac vei da click pe celula variabilei
gen, n dreptul coloanei Values, ultima coloan nediscutat.

57

Cristian Opariuc-Dan

O codare dummy presupune, aa cum am menionat mai sus, stabilirea


valorii (un numr) i a etichetei (calitatea). Pentru genul masculin, valoarea este
1, acest numr urmnd a fi introdus n caseta Value. Eticheta acestei valori
(calitatea) este, n mod evident, Masculin, textul urmnd a fi introdus n caseta
Label. Pentru a memora aceast codare, va trebui s apsm butonul Add,
care, ntre timp, s-a activat. Vom observa cum informaiile din cele dou casete
se terg, iar asocierea valoare-etichet a fost nregistrat n lista central.
Operaiunea se repet i
pentru asocierea 2 Feminin,
introducnd

asociere

suplimentar, 3 Nedeterminat,
ns observm c, din neatenie, am
comis o greeal la denumirea
Figura I-30 Modificarea codrii unei categorii

genului feminin. Pentru a o corecta,

vom selecta asocierea fcnd click pe elementul corespunztor din list. n acel
moment, se vor ncrca, n cele dou casete de sus, valoarea i eticheta codrii
selectate. Vom opera modificrile dorite, apoi vom apsa butonul Change
pentru a le memora.
n cazul n care dup selecie
nu se modific nimic n cele dou
casete,

se

activeaz

butonul

Remove, apsarea acestuia avnd


ca

efect

tergerea

categoriei

selectate. Dac am considera c


Figura I-31 tergerea unei categorii

includerea celei de-a treia categorii,

Nedeterminat, nu reprezint o idee prea bun, am putea selecta acest


58

Msurarea n tiinele socio-umane

element i apsa butonul menionat. Imediat, asocierea va fi eliminat din list,


categoria fiind, i ea, tears.
Desigur, toate aceste operaiuni, pe care le-am efectuat pn n acest
moment, au un caracter temporar. Ele devin permanente numai dup apsarea
butonului OK. n cazul n care apsai butonul Cancel, codarea dummy va fi
ignorat.
n acest fel vei defini i
variabila niv_edu, inclusiv codarea
dummy, innd cont c acesta are
categorii ordonate, prin urmare vei
alege nivelul de msur ordinal.
A mai rmas o singur
Figura I-32 Codarea dummy n cazul variabilei
niv_edu

variabil de definit, iq, variabila n


care vom memora scorurile pentru

coeficientul de inteligen i care nu pune niciun fel de probleme dac ai neles


cele prezentate pn n acest moment. Prin urmare, ne putem acum bucura de
tabelul meta-datelor, implementat n IBM SPSS Statistics.

Figura I-33 Tabelul complet al meta-datelor variabilelor, implementat n IBM SPSS Statistics

I.5.1.3

Realizarea variabilelor i salvarea bazei de date

Am ajuns la jumtatea drumului, ns avem satisfacia de a fi creat o baz


de date cu variabile foarte bine definite i care respect exigenele oricrui nivel
de cercetare. Nu rmne dect s trecem la cea de a doua etap, la realizarea
acestor variabile, adic la introducerea scorurilor. Folosind tabulatorul de
59

Cristian Opariuc-Dan

comutare a modului de vizualizare, acela situat n colul din stnga-jos al


ferestrei principale, vom apsa pe Data View pentru a prsi modul de
configurare a variabilelor i a intra n modul de introducere a datelor.
Baza de date este goal, doar
nu v-ai fi ateptat s se populeze
Figura I-34 Structura bazei de date n modul de
vizualizare a datelor

singur. Capul de tabel conine


numele variabilelor, iar dac vei ine

mausul circa 2 secunde deasupra unui nume, vei putea afla, ntr-o etichet
ajuttoare, i denumirea sa.
n acest moment, ne vom
deplasa n celula primului rnd din
Figura I-35 Baz de date completat cu scoruri n prima coloan i vom introduce
modul de afiare al valorilor
vrsta primei persoane, n cazul

nostru, 23 de ani. Apsm apoi tasta Tab sau sgeata orientat nspre dreapta
pentru a introduce genul biologic. Cum acea persoan este brbat, vom scrie
cifra 1, iar n urmtoarea coloan vom scrie cifra 3, deoarece subiectul a absolvit
doar gimnaziul. n fine, acesta pare a fi un geniu, chiar dac nu a mai urmat
liceul, deoarece coeficientul su de inteligen este 125. O nou apsare a tastei
Tab ne va conduce la prima coloan a celui de-al doilea rnd, pregtind
introducerea unui al doilea subiect.
Acest mod de vizualizare i introducere a datelor poart numele de
vizualizare bazat pe valori, deoarece se afieaz, n cazul
Figura I-36 Mod de
vizualizare bazat
pe valori

variabilelor discrete, valorile categoriilor, exprimate numeric.


Pe bara de instrumente, n zona din dreapta, se afl butonul
de comutare ntre modul de vizualizare bazat pe valori (cazul

n care butonul nu este apsat) i modul de vizualizare bazat pe etichete (cazul


60

Msurarea n tiinele socio-umane

n care butonul apare ca fiind apsat), acionarea succesiv a acestuia


comutnd, n mod repetat, ntre cele dou moduri.
n vizualizarea bazat pe
etichete, variabilele discrete nu mai
Figura I-37 Baz de date completat cu scoruri n sunt
modul de afiare al etichetelor

prezentate

sub

form

numeric, ci direct n varianta

calitativ, conform codrii dummy. Chiar dac dumneavoastr vei tasta numere
n continuare, acestea vor fi prezentate ca etichete asociate. Putei alege orice
variant dorii, fiecare are avantaje i dezavantaje, ns modul de vizualizare
bazat pe valori este considerat a fi mai rapid.
Dup ce ai creat o baz de date, v recomandm s o
salvai ntr-un fiier pe disc. Putei face acest lucru foarte
Figura I-38 Salvarea
simplu, apsnd butonul de forma unei dischete albastre,
i ncrcarea bazei
de date
situat pe bara de instrumente sau accesnd opiunea Save

ori Save As din meniul File. Dac baza de date este nou creat, vi se va
solicita numele fiierului, toate bazele de date IBM SPSS Statistics, indiferent de
versiune, avnd extensia sav. ncrcarea unei baze de date IBM SPSS Statistics
se poate face apsnd butonul sub forma unui dosar galben sau accesnd
meniul File, submeniul Open i opiunea Data. Nu intrm n detalii,
deoarece operaiunile de salvare i ncrcare a fiierelor reprezint lucruri
cunoscute, sarcinii curente ale utilizatorilor de computere.
n continuare, ai putea petrece un timp cu baza de date nou creat i s
o completai cu date, astfel nct s reuii s strngei circa 30-40 de
nregistrri. Nu uitai s salvai, din cnd n cnd, deoarece riscai s pierdei tot
ce ai lucrat n cazul n care vi se blocheaz computerul sau se ntrerupe curentul
electric.
61

Cristian Opariuc-Dan
I.5.1.4

Utilizarea sintaxei pentru crearea unei baze de date

Procedeele descrise anterior sunt foarte bune atunci cnd avem de


definit un numr relativ redus de variabile. Exist i cercetri n care putem lucra
cu sute sau mii de variabile, mai ales n domeniul psihometriei, la construcia
sau adaptarea instrumentelor de diagnostic psihologic. n cazul n care am lucra
cu un chestionar avnd 400 sau 500 de itemi, ne-ar lua foarte mult timp pentru
a defini, urmnd etapele de mai sus, toate aceste variabile.
Ne putem pune problema dac nu cumva ar exista o modalitate mai
rapid, mai eficient de a face acest lucru, iar rspunsul l vom gsi doar dac
apelm la limbajul de script al IBM SPSS Statistic i nvm s lucrm cu fiierele
de sintax.
S considerm cazul n care am avea de studiat
proprietile unei scale de anxietate format din 420
de ntrebri dihotomice (cu rspuns de tip Da/Nu),
urmnd, de asemenea, s stocm vrsta subiecilor,
genul biologic i nivelul educaional. Pe lng
variabilele gen, varsta i niv_edu, definite deja,
vom avea alte 420 de variabile, de la anx001 la
anx420. n total, un numr de 423 de variabile pe
care va trebui s le definim pentru a construi o baz de date, iar dac ne-am
apuca s o facem folosind modul Variable View, este posibil s dureze cel puin
o zi ntreag.
Ar fi mai simplu i mai
rapid dac am accesa meniul
File, am alege submeniul
New i opiunea Syntax
pentru a crea un nou fiier de
sintax, n care s putem scrie
comenzi fr a trebui s nvm
programare.
Figura I-39 Aplicaia IBM SPSS Statistics destinat
introducerii de sintax

Cea mai mare parte a


ferestrei
este
destinat
introducerii codului SPSS, aplicaia beneficiind i de o bar de instrumente cu
62

Msurarea n tiinele socio-umane

ajutorul creia se pot efectua diferite aciuni. O parte a sintaxei este nativ SPSS,
provenind de la versiunile mai vechi, o alt parte putnd reprezenta cod n
adevratul sens al cuvntului, deoarece versiunile noi IBM SPSS Statistics au
implementat i limbajul de programare Python, pe care l putei accesa doar
dac ai optat i pentru instalarea acestuia atunci cnd a fost instalat IBM SPSS
Statistics.
Pentru ceea ce ne intereseaz, sintaza nativ SPSS este suficient, prin
urmare nu vom lungi expunerea cu alte limbaje de programare. Vom da click n
fereastra de editare a codului i vom ncerca s definim prima variabil, genul
biologic.
* DEFINIRE VARIABILA "gen".

n mod sigur v-ai fi ateptat la altceva mai complicat. n realitate nu am


scris nicio linie de sintaz, doar am introdus un comentariu. n SPSS, comentariile
ncep cu o stelu (*) i in pn cnd ntlnim semnul punct (.).
NUMERIC gen (F1.0).

Iat prima comand real n SPSS, pe care o scriem pe urmtoarea linie.


n acest moment am definit o variabil numit gen (este numele tiut de
computer, echivalentul coloanei Name), am definit tipul numeric (echivalentul
coloanei Type) i am precizat numrul de cifre (1) i numrul de zecimale (0),
folosind expresia (F1.0), litera F provenind de la Format. Evident, comanda
se ncheie cu semnul punct (.).
VARIABLE LABELS gen 'Genul biologic al subiecilor'.

A venit momentul s stabilim denumirea, echivalentul coloanei Label.


Pe a treia linie, vom scrie comanda de mai sus, urmat de numele variabilei
creia dorim s-i atribuim o etichet (variabila gen) i de textul etichetei, ntre
ghilimele simple, sintaxa terminndu-se, din nou, cu semnul punct (.). Astfel, am
stabilit i denumirea variabilei n limbaj inteligibil pentru om.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.

Desigur, urmeaz codarea dummy, echivalentul coloanei Values.


Lucrurile par a fi chiar mai simple n comparaie cu metoda descris anterior.
Observm c trebuie s scriem comanda, urmat de numele variabilei pe care o
vom coda, apoi categoriile, una dup alta, nti valoarea, apoi eticheta ntre
ghilimele simple. Nu uitm s scriem aceast comand pe o linie nou i s o
ncheiem cu semnul punct (.).
VARIABLE LEVEL gen (NOMINAL).

63

Cristian Opariuc-Dan

Ultimul lucru pe care l mai avem de fcut este s stabilim nivelul de


msur. Astfel, vom scrie pe o linie nou comanda specificat mai sus, urmat
de numele variabilei i de precizarea, ntre paranteze, a nivelului de msur, n
cazul de fa fiind vorba despre nivelul nominal. Nu uitm s nchidem comanda
folosind semnul punct (.).
Dac au fost respectate toate cele expuse mai sus, n fiierul
dumneavoastr de sintax va trebui s avei urmtoarele comenzi pentru a
defini variabila gen:

Figura I-40 Comenzi necesare definirii variabilei gen

Definirea variabilei varsta este chiar mai simpl, aceasta fiind o


variabil continu, fr codare, i nu ar trebui s v pun niciun fel de probleme.
* DEFINIRE VARIABILA "varsta".
NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vrsta subiecilor n ani mplinii'.
VARIABLE LEVEL varsta (SCALE).

n cazul variabilei niv_edu, s urmrim o situaie interesant i care ne


va clarifica rolul semnului punct (.):

Codarea dummy, n cazul acestei variabile, implic destul de multe


categorii. Dac le-am pune pe o singur linie, am risca s pierdem irul i s ne
ncurcm. Iat c, sintaxa SPSS permite scrierea unei comenzi pe mai multe linii,
programul considernd o comand ncheiat atunci cnd ntlnete punctul.

64

Msurarea n tiinele socio-umane

Pn n acest moment lucrurile sunt destul de clare i suficient de simple.


Urmeaz partea cea mai mare consumatoare de timp, aceea n care va trebui s
crem cele 420 de variabile dihotomice, corespunztoare celor 420 de itemi ai
scalei de anxietate.
* DEFINIRE ITEMI SCALA DE ANXIETATE.
NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).

Doar att? Exact! Sunt suficiente dou linii pentru a crea 420 de variabile,
linii pe care le putem scrie n 20 de secunde, dar care ne pot salva cel puin o zi
de munc. i ca s sintetizm, ntregul cod necesar pentru a crea baza de date
este scris astfel:
* DEFINIRE VARIABILA "gen".
NUMERIC gen (F1.0).
VARIABLE LABELS gen 'Genul biologic al subiecilor'.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
VARIABLE LEVEL gen (NOMINAL).
* DEFINIRE VARIABILA "varsta".
NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vrsta subiecilor n ani mplinii'.
VARIABLE LEVEL varsta (SCALE).
* DEFINIRE VARIABILA niv_edu.
NUMERIC niv_edu (F1.0).
VARIABLE LABELS niv_edu 'Nivelul educaional'.
VALUE LABELS niv_edu 1 'Fr studii' 2 'Primare (1-4)' 3
'Gimnaziu (5-8)' 4 'Liceu (9-12)' 5 'Bacalaureat' 6
'Universitate (Licen)' 7 'Universitate (Master)' 8 'Doctorat'
9 'Postdoctorale'.
VARIABLE LEVEL niv_edu (ORDINAL).
* DEFINIRE ITEMI SCALA DE ANXIETATE.
NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).

Acest cod poate fi salvat ntr-un fiier (avnd extensia sps) i poate fi
executat n totalitate alegnd, din meniul Run, comanda All. Aceast aciune
ar trebui s funcioneze cel puin teoretic, doar c genereaz erori la ncercarea
de creare a unei baze de date noi. Din acest motiv, nainte de a rula codul, vom
crea o variabil oarecare n baza de date, folosind modul tradiional, Variable
View, chiar dac ulterior o vom terge:

Figura I-41 Prezena unei variabile oarecare nainte de rularea sintaxei

65

Cristian Opariuc-Dan

Acum putem rula liniti sintaxa, accesnd comanda de mai sus, i n doar
cteva fraciuni de secund toate cele 423 de variabile ale bazei de date vor fi
create.

Figura I-42 Baz de date cu 423 de variabile creat prin sintax SPSS

Mai rmne un singur lucru de fcut: s dm click pe primul rnd al


tabelului meta-datelor pentru a selecta variabila creat manual (n cazul de fa
variabila numit de_sters, apoi s apsm tasta Delete pentru a o terge.
Iat c am reuit cu un efort minim, de doar cteva minute, c crem o baz de
date cu foarte multe variabile, apelnd la puterea ascuns n sintaxa
programului IBM SPSS Statistics.
Sintagma nu conteaz ct munceti, ci cum munceti i arat
veridicitatea i n acest caz. Am fi putut petrece ore sau zile definind variabilele
bazei de date, sau am fi apelat la sintaz, ntregul proces durnd doar cteva
minute. Din acest motiv, pare a fi o idee bun s includem, acolo unde va fi cazul,
i sintaza SPSS, dumneavoastr alegnd stilul de lucru care v convine cel mai
mult.
I.5.2

Definirea variabilelor i introducerea datelor n R cu Deducer


Dup lansarea mediului R, va trebui s introducem secvena de comenzi

pe care o cunoatei deja pentru a porni Jaguar. Desigur, exist i o modalitate


prin care putem iniia automat Jaguar, atunci cnd lansm R, ns pe aceasta o
vom discuta ntr-un alt curs.
library(JGR)
JGR()

66

Msurarea n tiinele socio-umane

Dac ai ales s porneasc automat cele dou pachete Deducer, aa cum


am prezentat n capitolul I.4.2, interfaa Jaguar va lansa ecranul de pornire:

Figura I-43 Ecranul de pornire al interfeei Jaguar cu Deducer

Am putea ncepe prin a apsa butonul


New Data, pentru a crea o nou baz de
date R, tehnic numit set de date (Data Set).
n prima etap nu avem prea multe de fcut,

Figura I-44 Denumirea setului de date


dect s dm un nume bazei de date, optnd,
n Jaguar

de exemplu, pentru denumirea Laborator01, apoi vom confirma acest lucru


apsnd butonul OK.
Jaguar va lansa fereastra
de vizualizare a setului de date,
n care putem remarca cele dou
butoane de comutare a modului
de vizualizare, Data View i
Variable View. Se pare c
Figura I-45 Modul de definire a variabilelor n Jaguar

Markus Helbig, creatorul acestei

interfeei, nu este strin de IBM SPSS Statistics.

67

Cristian Opariuc-Dan

Mediul R este gndit mai mult ca un mediu de programare, adresabil


profesionitilor, fiind axat pe putere i flexibilitate i nu pe interfee frumoase i
prietenoase. Avnd n vedere faptul c este mult mai puternic dect IBM SPSS
Statistic la analiza datelor i, ceea ce este cel mai important, este absolut gratuit,
merit efortul de a-l nva. n cazul n care dorii s creai un set de date fr a
mai face click pe butoane, putei lansa comanda:
Laborator01 <- data.frame()

n partea din stnga a formulei ai


introdus

numele

respectnd

setului

conveniile

de
de

date,
notare

Figura I-46 Crearea unui set de date n linia


specificate n capitolul I.5, iar n partea
de comand

dreapt am specificat tipul obiectului ce va fi creat sub acel nume. n limbaj


uman, e ca i cum am spune mediului R creeaz-mi un obiect nou de tip set de
date (data.frame) i denumete-l (stocheaz-l n) Laborator01, sgeata la
stnga i semnul minus (<-) fcnd legtur dintre cele dou pri, artnd,
practic, sensul.
Proiectarea variabilelor este mult mai simpl comparativ cu procedura
descris anterior. n coloana Variable va trebui s introducem numele
variabilei, acel nume inteligibil pentru computer. Nu avem posibilitatea de a
stabili o etichet, un rol sau un nivel de msur, aa cum am procedat n cazul
aplicaiei anterioare.
Coloana Type permite selectarea tipului variabilei. Atunci cnd nu
avem zecimale, putem alege tipul Integer, iar dac variabila are zecimale, vom
alege tipul Double. n cazul unei variabile dihotomice, cu valori 0 i 1, am putea
alege tipul Logical, iar datele calendaristice i timpul sunt reprezentate de
variabile de tip Date, respectiv Time. Desigur, dac dorim s introducem un
68

Msurarea n tiinele socio-umane

text, putem alege tipul Character, variabilele discrete (nominale sau ordinale)
fiind reprezentate de tipul de date Factor.
n cazul variabilei varsta, lucrurile sunt foarte simple. Tot ceea ce avem
de fcut este s scriem numele acesteia i s alegem tipul ntreg de date. Nu mai
stabilim numrul de cifre i/sau de zecimale, aa cum am fi procedat n IBM SPSS
Statistics. Pentru nceput, vom defini toate cele patru variabile i vom stabili
tipul de date al variabilelor varsta i iq la numere ntregi (Integer), iar tipul
de date al variabilelor gen i niv_edu la factori (Factor).

Figura I-47 Definirea numelui variabilelor i a tipului de date folosind Jaguar

Spre deosebire de IBM SPSS Statistics, n R toate variabilele


discrete se vor declara ca factori. n cazul n care avem de a face
cu o variabil ordinal, aceasta se va numi factor ordonat. n
situaia noastr, variabila gen este un factor, iar variabila niv_edu este un
factor ordonat. Singura problem pe care va
trebui s o rezolvm este aceea a realizrii
codrilor dummy. Folosind o variabila definit ca
factor, spre exemplu niv_edu, vom efectua
click n celula din coloana Factor Levels a
acelei variabile pentru a deschide formularul de
codare. Fiind o variabil ordinal, n primul rnd
va trebui s specificm acest lucru prin bifarea
Figura I-48 Codarea dummy
folosind Jaguar

casetei Ordered. Apoi, vom putea folosi


butonul plus (+) de culoare verde pentru a
69

Cristian Opariuc-Dan

introduce, pe rnd, toate asocierile, aa cum au fost ele precizate n tabelul


meta-datelor.
Adugarea unui categorii se realizeaz
foarte simplu, prin scrierea etichetei calitative
i apsarea butonului OK. n cazul nostru,
prima categorie este Fr studii. Am scris
Figura I-49 Adugarea unei
categorii n codarea dummy

acest text n caseta Please enter the new

factor level i apoi apsm OK fr a face vreo alt specificare. Nu este bine
s introducei diacritice sau alte caractere speciale. Vom prefera, n mediul R, s
folosim alfabetul latin standard, deoarece prin utilizarea de caractere speciale
riscm s apar erori destul de greu de identificat i tratat.
Dup

apsarea

butonului

OK,

formularul de introducere a noii categorii se


nchide, aceasta fiind adugat n lista Levels.
Apsnd din nou butonul plus (+), vom putea
aduga cea de-a doua categorie, n cazul nostru
vorbind despre cei cu studii primare. n
momentul n care am adugat aceast etichet,
observm c Jaguar a trecut-o pe primul loc.
Figura I-50 Lista categoriilor unei
variabile discrete

Fiind o variabil ordinal, acest lucru ne poate


pune probleme. Putem selecta categoria, fcnd

click pe numele ei n lista Levels, apoi o putem muta n sus sau n jos, folosind
butoanele de tip sgeat albastr. n fine, o putem elimina, apsnd butonul
minus (-) de culoare roie.
Deoarece avem destul de multe categorii, vom proceda n alt fel.
Selectm cele dou categorii incluse pn acum i le eliminm, folosind butonul
70

Msurarea n tiinele socio-umane

minus (-) de culoare roie, apoi apsm butonul plus (+) de culoare verde i
introducem ultima categorie (Postdoctorale). Continum la fel, descresctor,
pn la prima categorie (Fr studii).
Mai mult ca sigur, problema descris
anterior este o eroare de programare, ns acum
avei i metoda prin care o putei evita.
Introducnd

descresctor

categoriile

unei

variabile ordinale, vei renuna s facei, mai


apoi, alte modificri. Iat, din nou, utilitatea unei
bune proiectri a bazei de date. Fr s avem n
fa tabelul meta-datelor, ne-ar fi fost mult mai
Figura I-51 Codarea categoriilor n
cazul unei variabile ordinale

greu s realizm aceste operaiuni, mai ales c

lucrm descresctor cu un numr destul de mare de categorii. Pentru a memora


toate aceste modificri, vom apsa butonul OK i putem observa, n tabelul
meta-datelor, cum s-a operat codarea dummy.

Figura I-52 Codarea dummy operat n tabelul meta-datelor.

n mod similar vom proceda i pentru a coda variabila gen, avnd grij
s nu mai bifm caseta Ordered, deoarece variabila este una categorial, astfel
nct nu mai conteaz nici ordinea n care introducem datele.
Tabelul meta-datelor este acum complet (vezi Figura I-53), rmne doar
s apsai butonul de forma unei dischete negre de pe bara de instrumente sau
s alegei opiunea Save Data, din meniul File, pentru a-l salva ntr-un fiier.

71

Cristian Opariuc-Dan

Figura I-53 Tabelul complet al meta-datelor implementat n Jaguar

Seturile de date n R au extensia rda sau rdata, astfel nct va trebui


s alegei opiunea corect (R (*.rda, *.rdata)) atunci cnd selectai tipul
fiierului ce va fi salvat.
I.5.2.1

Realizarea variabilelor n Jaguar

Figura I-54 Baza de date complet n R

Modul de introducere a datelor n baza de date nou proiectat nu difer


fa de cele specificate n capitolul anterior. Putem folosi tasta Tab sau
sgeile pentru a naviga prin celule i a introduce date, asta dup ce, n prealabil,
am comutat n modul Data View. Ne putem da seama dac o variabil este
continu sau discret dup modul n care se aliniaz datele n celule. n cazul
variabilelor varsta i iq, numerele se aliniaz la dreapta, n timp ce pentru
variabilele gen i niv_edu, acestea au o aliniere la stnga, specific literelor.
72

Msurarea n tiinele socio-umane


I.5.2.2

Crearea unei baze de date n R folosind limbajul de programare

Am vzut deja beneficiile nsuii unei sintaxe i am demonstrat


convingtor c, fr s ne speriem prea tare de comenzi, folosind sintaxa, ne
putem face treaba mult mai repede, mai eficient i, mai ales, n condiii ideale
de control. Dac am czut de acord asupra acestui lucru, de ce s nu facem un
pas mai departe, n direcia nsuirii unui limbaj.
Vom relua situaia n care dorim construcia
bazei de date cu 423 de variabile, solicitat n procesul
de adaptare a scalei de anxietate. De data aceasta nu
mai avem la dispoziie IBM SPSS Statistics i va trebui
s ne mulumim cu R. Din pcate, orice interfa
vizual am utiliza, rezultatul ar fi acelai enorm de
mult timp consumat. Pentru eficien, va trebui s
apelm la limbajul R. ntr-adevr, R nu mai este un
limbaj de scripturi, o sintax n sensul celei pe care o are IBM SPSS Statistics,
ci un adevrat limbaj de programare, specializat n analiza de date.
Primul pas ar fi s crem un set de date, partea bun fiind aceea c deja
tii cum se face. Nu avem nevoie de Jaguar pentru asta, din acest motiv este
recomandat s nchidei complet R, apoi s-l repornii doar n fereastra sa de
comenzi (vezi Figura I-9), n care vom tasta o comand deja tiut:
Laborator01<- data.frame(t(rep(NA, 423)))

De aceast dat, nu mai dorim s crem un set gol, ci un set cu un numr


de 423 de variabile. Am comunicat mediului R s construiasc un tabel, adic s
adauge coloane, nu rnduri (folosind funcia t), repetnd un numr de 423 de
variabile neconfigurate (folosind funcia rep) i fr a se iniializa cu date,
adic fr nicio nregistrare (specificnd NA). Este chiar mai simplu dect n
sintaxa SPSS, dar dup apsarea tastei Enter, pentru a executa comanda, mediul
R pare s nu reacioneze, s nu fac nimic. n realitate, setul de date numit
Laborator01 a fost deja creat, iar dac vrei s v convingei, tastai numele
su:
Laborator01

73

Cristian Opariuc-Dan

ntr-adevr, s-au creat 423 de variabile, notate de la X1 la X423,


variabile pe care va trebui acum s le configurm n conformitate cu specificaiile
tabelului meta-datelor. Pentru nceput, va trebui s stabilim numele acestora,
deoarece ne va fi extrem de incomod s lucrm cu denumirile date de R. Primele
trei variabile sunt varsta, gen i, niv_edu, celelalte fiind denumite de la
anx_1 la anx_420, prefernd utilizarea liniei de subliniere pentru a spori
lizibilitatea. Dei pare o sarcin dificil, am putea s o facem cu doar dou
instruciuni:
colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu')
colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')

n prima instruciune am comunicat mediului R s redenumeasc primele


trei variabile ale setului de date Laborator01, folosind etichetele furnizate
ntre parantezele funciei c (se refer la un vector de caractere). Dup
apsarea tastei Enter i executarea instruciunii, putem tasta, din nou, numele
setului de date, pentru a vedea ce s-a ntmplat:

Observm c primele trei variabile au fost redenumite, n timp ce toate


celelalte au rmas neschimbate. A doua instruciune este ceva mai complex.
Am comunicat mediului R s redenumeasc toate variabile, de la a patra la a
423-a, construind, prin lipire (funcia paste), numele variabilei format din
cuvntul anx, i un numr succesiv, ntre 1 i 420, ntre cuvnt i numr
existnd separatorul liniu de subliniere, definit cu ajutorul parametrului sep.
Dup ce executm instruciunea i tastm numele setului de date, observm c
toate variabilele au fost redenumite n conformitate cu specificaiile noastre:

n momentul n care le-a creat automat, mediul R le-a stabilit ca fiind de


tipul logic (0 sau 1). Suntem interesai s le redefinim pe toate de tipul ntreg,
dou dintre ele urmnd s fie fcute factori (gen i niv_edu). Acest proces
de redefinire se face cu ajutorul unei singure instruciuni:
Laborator01[,1:423]<-as.integer(Laborator01[,1:423])

Modalitatea n care referim o celul ntr-un set de date R se face prin


specificarea, ntre paranteze ptrate, a rndurilor i coloanelor. De exemplu,
dac scriem Laborator01[5,4], nseamn c ne referim la scorul obinut de
ctre persoana de pe al cincilea rnd, la variabila situat n cea de-a patra
74

Msurarea n tiinele socio-umane

coloan. Similar, n instruciunea de mai sus, am comunicat programului R s


schimbe tipul de date stocat n coloanele de la 1 la 423, din tipul de date existent
(logic), n tipul de date numeric. Faptul c n faa virgulei nu se afl nicio alt
valoare ne spune c nu ne referim la vreun rnd, doar la coloane.
tim c dou dintre variabile vor trebui definite ca factori, fiind supuse,
dup cum probabil v-ai dat seama, operaiunii de codare dummy. Pentru a
putea s accepte aceast operaiune de codare, cele dou variabile vor fi
transformate din numere ntregi, n factori:
Laborator01$gen<-as.factor(Laborator01$gen)
Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)

Referirea unei variabile dintr-un set de date se face preciznd setul de


date, apoi numele variabilei, precedat de semnul dolar ($). Atunci cnd scriem
Laborator01$gen, am comunicat mediului R c avem n vedere variabila gen
din setul de date Laborator01. Codul de mai sus spune mediului R s preia o
variabil existent, s o transforme n variabil discret (factor) i s o
memoreze sub acelai nume. Am pregtit cele dou variabile, ns nu am definit
categoriile, nu am efectuat codarea dummy. n cazul variabilei gen, am putea
scrie:
Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",
"Feminin"), ordered=FALSE)

Chiar dac este o comand ceva mai lung, asta nu nseamn c poate
fi considerat i complicat. Practic, am spus mediului R s preia variabila
existent gen, s includ categoriile Masculin i Feminin, fr a crea o
relaie de ordine ntre ele, apoi s memoreze rezultatul n variabila cu acelai
nume, adic tot n variabila gen.
Indiferent c variabila este nominal sau ordinal, ordinea n care vom
introduce etichetele va da ordinea de atribuire automat a valorilor. n cazul
prezentat, valoarea pentru masculin va fi 1, iar cea pentru feminin va fi doi. Dac
dorii ca femininul s fie codat cu 1 i masculinul cu 2, atunci va trebui s
inversai ordinea celor dou etichete dintre parantezele comenzii levels. n R,
faptul c am scris c(), arat c ntregul coninut cuprins ntre cele dou
paranteze va fi tratat ca ir de caractere, ca text.
Sarcina dumneavoastr va fi s implementai codarea dummy n cazul
ultimei variabile, niv_edu. Vei avea nou categorii i va trebui s fii ateni la
ordinea n care le scriei, deoarece, de aceast dat, avem de a face cu o
variabil ordinal. Nu trebuie s uitm, n final, s nlocuim ordered=FALSE cu
ordered=TRUE, pentru a comunica mediului R c are de a face cu un factor
ordonat.
75

Cristian Opariuc-Dan

Nu ar exista motive s nu reuii. n acest moment, ar trebui s avei bine


definite cele patru variabile i setul de date. Pentru a vedea ce obiecte exist, la
un moment dat, n spaiul de memorie al mediului R, putei folosi o nou
comand:
ls()

ntr-adevr, obiectele create exist, dar a aprut i ceva n plus, un nou


obiect cu care ne-am jucat i am uitat de el, este vorba despre sterge_ma.
Dac ne ordon mediul R s o facem, atunci ar trebui s ne conformm. Vom
folosi, pentru a elimina obiecte, comanda:
rm(sterge_ma)

ntre paranteze vom scrie numele obiectului pe care dorim s-l tergem,
dup care executm comanda prin apsarea tastei Enter. Pentru a verifica,
folosii, din nou, comanda ls(). Vei putea reine mai uor aceste comenzi dac
vei ti c ls provine de la list structure iar rm de la remove; deja pare s
aib alt sens.
Am cam terminat de configurat baza de date. Pentru a rezuma, vom
prezenta ntregul cod, scris n R, pentru a crea o baz de date cu 423 de variabile,
dintre care doi factori codai dummy:

Laborator01<- data.frame(t(rep(NA, 423)))


colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu')
colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')
Laborator01[,1:423]<-as.integer(Laborator01[,1:423])
Laborator01$gen<-as.factor(Laborator01$gen)
Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)
Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",
"Feminin"), ordered=FALSE)
Laborator01$ niv_edu <-factor(Laborator01$ niv_edu, levels=
c("Fara studii", "Primare (1-4)", "Gimnaziu (5-8)", "Liceu
(9-12)", "Bacalaureat", "Universitare (Licenta)",
"Universitare (Master)", "Doctorat", "Postdoctorale"),
ordered=TRUE)

Pare simplu, pare complicat, dumneavoastr vei decide. n orice caz,


atunci cnd avem de a face cu foarte multe variabile, utilizarea interfeei grafice
este cea mai proast alegere, deoarece v consum enorm de mult timp. Prin
sintax sau prin cod, putei rezolva problema eficient. De fapt, poate ai fi
surprins s aflai c linia de comand reprezint, de multe ori, metoda preferat

76

Msurarea n tiinele socio-umane

a profesionitilor n analiza de date, mai ales atunci cnd au de rezolvat sarcini


complexe.
Ultimul lucru rmas este s salvm baza de date ntr-un fiier pe disc. Nu
cred c ai fi surprini dac ai afla c i aceast operaiune se realizeaz tot prin
intermediul unei singure linii:
save(Laborator01, file='D:/Set date R.Rda')

Mediul R a salvat baza de date n fiierul numit Set de date R, stocat pe


discul D. Pentru a vedea cum arat tabelul meta-datelor pe care tocmai l-am
creat, vom lansa interfaa grafic Jaguar i vom ncrca fiierul salvat.

Figura I-55 Tabelul meta-datelor pentru baza de date creat n cod R

Chiar dac unii consider c programul R este neprietenos, greu de


folosit, ai putut constata i singuri c lucrurile nu stau chiar aa. Cu toate c nu
are uurina n utilizare pe care ne-o ofer IBM SPSS Statistics i se apropie mai
mult de un limbaj de programare (ceea ce i este de fapt), R merit nvat
datorit puterii pe care o are i a faptului c este disponibil gratuit.

I.6

Concluzii, exerciii i probleme


Nu am putea s ncheiem acest capitol fr o
sintez a ceea ce am aflat, asta pentru a v ajuta s v
reamintii cele parcurse i, de asemenea, fr a v
propune o serie de exerciii, probleme i teme de
meditaie.

77

Cristian Opariuc-Dan

Am vzut c termenii de statistic i analiz de date sunt sinonimi pn la un punct,


dup care semnificaia lor este puin diferit, iar n domeniul tiinelor socio-umane
studiem mai curnd analiz de date dect statistic.

IBM SPSS Statistics, R, STATA, SAS, Statistica i alte programe de acest tip sunt
instrumente, nu reprezint nici statistica, nici analiza de date. Utilizarea acestor
instrumente este condiionat de nsuirea principiilor analizei de date, altminteri
se poate ajunge la situaii delicate sub aspectul corectitudinii demersului cercetrii
tiinifice.

Obiectele i fenomenele pot fi cunoscute prin menionarea caracteristicilor


acestora, fiind particularizate n momentul n care aceste caracteristici dobndesc
valori, acordate n baza unor reguli.

n domeniul socio-uman, obiectele i fenomenele nu pot fi cunoscute n mod direct,


ci prin intermediul unor comportamente manifeste asociate acestora. Trecerea de
la o dimensiune general, la indicatori ai dimensiunii i apoi la comportamente
directe, observabile, poart numele de operaionalizare a constructului

Pentru a vorbi despre o msurare, trebuie ca acel construct s poat fi cuantificat,


s se specifice caracteristice ce urmeaz a fi msurate (indicatorii) i s se gseasc
o regul pe baza creia s se poat atribui un numr caracteristicii msurate.

n tiinele socio-umane nu putem msura n mod direct, nu putem afla cantitatea


de construct, din acest motiv astfel de caracteristici numindu-se factori lateni;

n analiza de date, caracteristica msurat poart numele de variabil, definit


printr-o mulime de valori teoretic i o mulime de valori empiric, variabilele
putnd fi calitative sau cantitative, discrete, atunci cnd mulimea de valori este
finit, numrabil i continui, atunci cnd mulimea de valori este infinit,
nenumrabil.

Variabilele discrete se mai numesc i neparametrice sau calitative i pot fi nominale


(categoriale) atunci cnd nu se poate pune o relaie de ordine ntre categoriile lor
i ordinale (ierarhice) atunci cnd categoriile finite pot fi ordonate.

Variabilele continui se mai numesc i parametrice sau cantitative i pot fi de


interval, atunci cnd intervalele dintre dou categorii sunt egale dar nu exist un
zero absolut i de raport cnd exist un zero absolut.

IBM SPSS Statistics este o aplicaie de analiz de date puternic i prietenoas, cu


o interfa grafic uor de folosit, dar comercial i, prin urmare, costisitoare, n
timp ce R este un mediu foarte puternic de programare i de analiz de date, mai
puin prietenos, chiar dac accept mai multe interfee grafice, ns gratuit.

Analiza datelor nu ncepe cu definirea variabilelor ntr-un program, ci cu


proiectarea bazei de date i specificarea tabelului meta-datelor.

78

Msurarea n tiinele socio-umane

Proiectarea corect a unei baze de date se face n conformitate cu anumite reguli:


(a) denumirea variabilelor i distincia ntre nume i etichet; (b) numrul maxim
de caractere n numele variabilei; (c) rnduri i coloane unice; (d) codarea pentru
obinerea maximului de informaie; (e) exhaustivitatea categoriilor; (f) codarea
numeric a categoriilor (g) exclusivitatea mutual a codurilor; (h) absena cazurilor
lips; (i) codarea n sensul scalei.

Definirea variabilelor, indiferent c vorbim despre IBM SPSS Statistics sau R,


reprezint implementarea tabelului meta-datelor n aplicaia computerizat i se
poate realiza fie prin intermediul interfeei grafice, fie folosind codul.

n IBM SPSS Statistics nu avem un limbaj de programare, ci doar unul de script, spre
deosebire de R, unde vorbim despre un adevrat limbaj de programare.

Indiferent de aplicaie, implementarea unei baze de date se face mai rapid i mai
uor folosit codul, mai ales atunci cnd aceasta conine un numr mare de variabile.

I.6.1

Exerciii i probleme

79

S-ar putea să vă placă și