Capitolul I - Masurarea in Stiintele Socio-Umane PDF

Cristian Opariuc-Dan
Msurarea n tiinele socio-umane

CONCEPTE I TEME NOI
Ce legtur exist ntre statistic, analiz de date, IBM SPSS
Statistics i R;
Ce neles are conceptul a msura i care este specificul
acestuia n domeniul socio-uman;
Ce sunt variabilele i cum le putem clasifica;
La ce niveluri putem msura i care este precizia fiecrui
nivel de msur;
Ce nseamn IBM SPSS Statistics, cum l putem obine i cum
ncepem s lucrm cu acest program;
Cum se definesc variabilele i cum se proiecteaz corect o
baz de date n IBM SPSS Statistics;
Ce este R, cum se obine i cum ncepem s lucrm cu el;
Cum se definesc variabilele i cum se proiecteaz corect o baz de date n R;
CE CONINE ACEST CAPITOL?

Capitolul urmrete o introducere n analiza de
date i cuprinde trei pri. Prima parte este una
teoretic, n care vom ncerca s clarificm o serie de
concepte fundamentale nelegerii principiilor analizei
de date. A doua parte vizeaz prezentarea unor
principii de proiectare a bazelor de date, apoi o scurt
introducere n IBM SPSS Statistics n care se relev cteva noiuni de proiectare
corect a unor variabile i de construire a unei baze de date. n cea de-a treia
parte v vom iniia n R i vom vedea cum putem construi o baz de date folosind
acest program. Tehnicianul Sandu va face un efort i va demonstra cum se pot
crea baze de date cu foarte multe variabile n doar cteva minute. Capitolul se
ncheie cu o recapitulare, urmat de o serie de ntrebri de verificare i teme de
reflecie.
4
Noiuni teoretice
Analiza de date se bazeaz, evident, pe date. Ce sunt ns datele, cum se
clasific ele, ce putem face cu ele i cum le utilizm n mod corect, toate acestea
sunt probleme pe care vom ncerca s le lmurim pe parcursul ntregii lucrri.
ntr-o prim instan, vom studia ce sunt datele, de unde le putem culege, cum
se mpart, cum se pot organiza i, n definitiv, care este disciplina tiinific ce se
ocup de asemenea lucruri. Nu n ultimul rnd, vom vedea ce nseamn, de fapt,
a msura. Este posibil ca acest cuvnt s semnifice i altceva fa de ceea ce
tiai.
I.1
Statistic, analiz de date sau SPSS?

Majoritatea programelor de studiu ale facultilor socio-umane includ,
ca disciplin, statistica, fie c vorbim despre cea psihologic, sociologic,

economic i aa mai departe. Este i nu este corect, iar pentru a vedea exact
de ce, vom porni de la definiia dat de dicionare.
Conform DEX, termenul are mai multe
nelesuri, putnd nsemna: (1) Eviden numeric,
situaie cifric referitoare la diverse fenomene (izolate
sau generale), numrtoare; (2) Culegere, prelucrare
i valorificare a unor date legate de fenomene
generale; (3) tiin care culege, sintetizeaz, descrie
i interpreteaz date referitoare la fenomene
generale; (4) Ramur a matematicii care elaboreaz
noiunile i metodele folosite n statistic; (5) tiin care, folosind calculul
probabilitilor, studiaz fenomenele de mas din punct de vedere cantitativ
(Academia Romn, 2012).
Ultimele dou accepiuni (4 i 5) sunt cele mai apropiate de sensul real
al statisticii, ca disciplin matematic axat pe studiul probabilitilor. Din acest
punct de vedere, statistica este o perl a matematicii, sintetiznd mai multe
domenii, cum ar fi: probabiliti, calcul matriceal, combinatoric, analiz
matematic, inclusiv calcul diferenial i integral. Dac am studia o asemenea
5
tiin n cadrul unei faculti de psihologie, sociologie, tiine economice sau

tiine ale administraiei, n mod aproape sigur ar reprezenta un cui att de
mare pentru studeni, nct ar limita drastic numrul absolvenilor. De fapt, nici
facultile de matematic nu studiaz statistica dect n cadrul unor programe
masterale, unii prefernd studiul avansat al statisticii n cadrul programelor de
doctorat.
n tiinele socio-umane avem n vedere mai curnd nelesurile 2 i 3 ale
definiiei, chiar dac putem observa redundana acestora. Aadar, am putea
spune c statistica este, n aceast accepie, o modalitate de culegere,
prelucrare i valorificare a unor date legate de fenomene generale, sens care
ne apropie mai mult de cel al termenului de analiz de date.
n fine, primul sens al statisticii este cel comun, de eviden numeric.
Atunci cnd jurnalele de tiri spun c statisticile demonstreaz o reducere a
natalitii, avem n vedere, iat, sensul comun, popular al termenului. Dac ne
referim la modalitile de prelucrarea statistic a datelor n vederea realizrii
unui raport de cercetare, avem n vedere sensul analizei de date, iar dac vorbim
despre demonstrarea teoremei limitei centrale sau a asumpiei normalitii
reziduurilor, ne referim la adevratul sens al statisticii, acela de statistic
matematic.
Aadar, n sens comun, statistica nseamn o
numrtoare, o eviden numeric, situaie cifric
referitoare la diverse fenomene. n sensul analizei de
date, statistica are n vedere culegerea, sintetizarea,
descrierea i interpretarea datelor referitoare la
fenomene iar n sensul su propriu, de tiin,
statistica este o ramur a matematicii, care folosind
calculul probabilitilor, studiaz fenomenele de mas
din punct de vedere cantitativ.
Pornind de la cele trei definiii, putem observa cu uurin faptul c n

domeniul socio-uman nu studiem, n niciun caz, statistic, ci analiz de date,
vzut ca instrument, parte a metodologiei cercetrii tiinifice, care permite
utilizarea principiilor i a legilor statisticii n sintetizarea, descrierea i
interpretarea datelor colectate din cercetri.
Pentru a ne lmuri c avem dreptate, s
discutm dou dintre definiiile analizei, aa cum le
prezint dicionarul: (1) metod tiinific de cercetare
care se bazeaz pe studiul sistematic al fiecrui
element n parte; examinare amnunit a unei
probleme i (2) ramur a matematicii care studiaz
funciile, limitele, derivatele i aplicaiile lor. Exist,
desigur, mai multe sensuri (de exemplu analiza
substanelor chimice), dar care nu prezint interes pentru domeniul nostru.
Dac excludem nelesul analizei ca analiz matematic, prima definiie
sprijin ntrutotul ce-a de-a doua definiie a statisticii. Iat i motivele pentru
care preferm s spunem c n tiinele socio-umane nu studiem statistic
(ncetenit ca disciplin matematic), ci analiz de date (aplicaii ale
principiilor statistice n activitatea de cercetare). Prin analogie, atunci cnd
facei coala de oferi, nu studiai ingineria construciei autovehiculelor (analog
statisticii), nu v intereseaz s tii din ce aliaj este fcut arborele cotit. Dac
suntei ns un ofer cu pretenii de profesionist, atunci vei fi interesat de
modul cum funcioneaz ambreiajul sau de faptul c maina dumneavoastr
funcioneaz cu benzin (analog analizei de date). Asta ca s nu riscai s
alimentai cu motorin i s v distrugei motorul.
Cuvntul statistic are o etimologie interesant, i
merit s prezentm, pe scurt, evoluia acestui termen. n forma
actual, a fost folosit de ctre filosoful german Gottfried
Aschenwall (1719-1772), n lucrarea Vorbereitung zur
7
Staatswissenschaft, aprut n 1748, n care apare cuvntul Statistik, avnd

nelesul de tiin ce vizeaz studiul datelor referitoare la condiia unui stat
sau a unei comuniti (Harper, 2015). Printele statisticii nu a fost doar filosof,
ci a avut preocupri i n domeniul istoriei i economiei, fiind de profesie jurist,
prednd dreptul n cadrul Universitii din Gttingen.
n limba englez, cuvntul a fost introdus n 1829 de ctre
un politician scoian, Sir John Sinclair (1754-1835), avnd nelesul
de date numerice colectate i clasificate, rafinnd i
particulariznd sensul dat de profesorul german. Gnditorul
scoian a avut, i el, formaie economic, fiind preocupat de finane i
agricultur, dar i de drept.
Pare surprinztor faptul c ceea ce astzi atribuim aproape exclusiv
matematicii, a avut originea n domenii destul de diferite de matematic: drept,
economie, filozofie. n realitate, rdcina statisticii, n nelesul modern al
termenului, se regsete n scrierile economice, n activitatea de optimizare a
taxelor i de monitorizare a produciei. Originea termenului este, totui, mult
mai veche i ar proveni din latinescul status, avnd nelesul de rang, poziie,
organizare a comunitii, ordine public. Cuvntul latin a fost preluat n italiana
veche, rezultnd statista, ceea ce nseamn persoan specializat n treburile
statului, ce ajut statul s gestioneze politica de taxe, costurile rzboaielor,
evidena populaiei i alte sarcini de acest tip (Lungu, 2001). nelesul este cel
mai apropiat de sensul modern al termenului, afacerile statului din acea
perioad numindu-se i statisticum. Cunoscnd aceste elemente, devine
evident originea cuvntului i faptul c, n prezent, chiar dac are o important
ncrctur matematic, statistica provine din economie i din administraia
public.
8
Dac am lmurit c n domeniul socio-uman nu studiem statistic, n

sensul actual al termenului, ci analiz de date, vom continua cu o alt marot,
cea a nlocuirii studiului analizei de date cu SPSS. Revenind la analogia cu coala
de oferi, este ca i cum am spune c nvm s conducem Dacia Logan. Asta
ar nsemna, oare, c dac ne lum permisul de conducere, nu tim s conducem
BMW, Mercedes, Lamborghini sau Tico? Bineneles c odat ce avem
deprinderile necesare conducerii, le putem transfera, cu un minim efort, pe
orice automobil din acea clas, ba chiar i din clase diferite. n definitiv, de ce nu
am putea s conducem un microbuz sau chiar un camion?
Ideea central nu este s ne concentrm pe utilizarea unui anumit
produs, ci pe nsuirea principiilor, metodelor i tehnicilor de analiz de date.
Din moment ce cunoatem analiz de date, utilizarea unui produs informatic
este doar o chestiune de preferine.
I.2
Sensul i semnificaia termenului de msurare

Contactul nemijlocit al fiinei umane cu lumea nconjurtoare se
realizeaz prin simuri. Cu ajutorul acestora percepem obiectele, fenomenele,

persoanele, evenimentele. Observm n mod direct culoarea biroului la care ne
desfurm activitatea, distana dintre scaunul dumneavoastr i cel al
colegului, faptul c muzica pe care o ascult vecinul este prea tare sau timpul
rmas pn la terminarea programului de lucru. Toate acestea formeaz un
mediu n care ne aflm i pe care l putem caracteriza la un moment dat, mediu
populat, generic, de obiecte.
S ne imaginm camera n care nvai sau lucrai. Ce obiecte putei
remarca? Biroul, scaunul, televizorul, filtrul de cafea, bunica ce tricoteaz sau
colegul care joac Solitaire. Toate acestea le vom denumi obiecte. Dac v vei
gndi la biroul la care v redactai referatele, dumneavoastr, cititorul, vei avea
9
o imagine extrem de personalizat i care difer radical de imaginea pe care o

am eu fa de acelai obiect. Aadar, orict ar prea de ciudat, conceptul de
birou reprezint o abstraciune, care vehiculeaz imagini diferite la diferite
persoane. Eu am o imagine mintal a biroului, dumneavoastr avei o alt
imagine a biroului, alii au imagini mai mult sau mai puin diferite cnd se
gndesc la acelai obiect. Dac a dori s cunosc i s neleg biroul
dumneavoastr, v-a ruga s-l descriei. A afla, de exemplu, c are o lungime
cam de 2 metri, o lime de un metru i are culoarea albastr. Deja cunosc mai
bine obiectul la care v referii. Descriindu-l, practic, ce ai fcut? n primul rnd,
ai precizat o serie de caracteristici ale sale: lungimea, limea i culoarea. Apoi
ai specificat ce valori au caracteristicile n cazul obiectului dumneavoastr: 2, 1
i albastru. n fine, ai stabilit o regul n baza creia ai atribuit valori acestor
caracteristici, specificnd unitatea de msur metrul.
Totui, albastru, rou sau galben, un birou are ntotdeauna un obiect fizic
drept corespondent. Nu ntotdeauna lucrurile stau aa. Folosind raiunea i
capacitatea de abstractizare, putem anticipa sau cunoate elemente care nu au
o coresponden n lumea fizic. Ce-ar fi s descriem gradul de satisfacie pe
care l avem fa de perceperea taxelor locale? Sau anxietatea, ori
comportamentul prosocial? Aceste elemente sunt ct se poate de reale, ns nu
au drept corespondent obiecte fizice. Unii pot nelege, atunci cnd vorbesc
despre taxe, faa acr a funcionarului de la birou, alii faptul c a fost plimbat
pe la 20 de ghiee pentru a achita 10 lei, alii au scpat n 30 de secunde datorit
unui funcionar extrem de competent i eficient care tia ce s fac, n fine,
anumite voci sunt foarte mulumite pentru c-i achit impozitele prin Internet.
Anxietatea, la rndul ei, poate avea semnificaii diferite pentru diferite
10
persoane, asta ca s nu mai vorbim de comportamentul prosocial, patriotism,

integritate sau iubire.
Astfel de obiecte sunt prea generale pentru a fi cunoscute n mod
direct; ele vor trebui particularizate n cadrul unui proces specific, numit
operaionalizare. Aceast lung introducere a fost fcut pentru a nelege
faptul c msurarea reprezint, de fapt, o abstraciune i c nu putem cunoate
obiectele, dect dac stabilim o serie de caracteristici ale acestora. Rezumnd,
am putea spune c, la modul general, obiectele, fenomenele, evenimentele pot
fi msurate doar dac precizm o serie caracteristici (atribute),
prin caracteristic nelegnd o particularitate, o nsuire a
obiectului, fenomenului sau evenimentului ce urmeaz a fi
msurat. n cazul n care aceste atribute nu sunt specificate, un
obiect nu poate fi cunoscut. Cu ct exist mai multe atribute ce definesc un
obiect, cu att acel obiect este cunoscut mai bine. Dac am spune c biroul este
lung de 2 metri, cunoaterea obiectului se poate realiza strict pe baza acestui
atribut. n mod cert, este mai lung sau mai scurt comparativ cu alte birouri. ns
nu vom putea ti dac este mai greu, mai lat, mai nalt, dac are culoarea verde
cu roie sau dac este ptat de la vin. Pe msur ce crete numrul atributelor
specificate, cunoaterea obiectelor devine tot mai precis.
Faptul c am precizat caracteristica, nu este suficient pentru a vorbi
despre o msurare. Cum am putea, de exemplu, s msurm iubirea? Ce
caracteristici definitorii am putea gsi? Suma disponibil spre a fi cheltuit pe
care o pune la dispoziie iubitul (mai rar iubita) poate fi o caracteristic a iubirii?
Foarte discutabil. Emoia, fiorul, fluturii din stomac? Posibil, dar cum i putem
remarca? Avem aceeai problem dac ne propunem s msurm patriotismul,
integritatea, moralitatea sau sentimentele superioare.
11
Iat c, pentru a vorbi despre msurare, acele caracteristici

definite trebuie s fie cuantificabile, msurabile. n ciuda prerii
unora, exist obiecte, fenomene sau evenimente care nu pot fi
msurate. Se punea, la un moment dat, problema evalurii psihologice a unor
funcionari publici n vederea stabilirii integritii. Au aprut chiar i metodologii
de evaluare, s-au construit chestionare i alte instrumente n acest sens,
psihologii au nceput s oferteze servicii de evaluare psihologic pentru
integritate, ignorndu-se un lucru esenial acest concept nu este msurabil.
Dac am putea msura integritatea unor persoane, probabil c nu am mai avea
nevoie de o ntreag categorie de procurori, decizia de integru sau corupt fiind
dat imediat de ctre psiholog. Una este s vorbim despre opinia unor persoane
fa de comportamente care in de integritate, i cu totul altceva s msurm
nivelul de integritate al unei persoane. Orice am face, persoanele evaluate nu
vor rspunde la ntrebri dect n sensul unor oameni integri, indiferent dac
este sau nu este n joc serviciul lor.
Chiar dac un atribut poate fi msurat, acest concept se concretizeaz n
momentul n care, pentru un anumit obiect, atributul dobndete o anumit
valoare, n termeni de specialitate valoarea pe care o are atributul pentru un
anumit obiect numindu-se i scor. Dac am spune c atributul lime al unei
mese are scorul 20, am concretizat o operaie de msurare doar dac am
meniona i ce nseamn acel scor. Ne referim la centimetri, la inch, la picioare
sau la alte uniti de msur? Pentru a msura n adevratul sens
al cuvntului, trebuie s stabilim o regul sau un set de reguli pe
baza crora putem atribui valori caracteristicilor msurate. Iat c,
am msurat cu adevrat atributul lime al mesei atunci cnd am spus c are
20 de centimetri, stabilind i regula de atribuire, n cazul nostru o subdiviziune
12
a scalei metrice. Dac nu precizm regula, riscm ca scorul s aib o anumit

semnificaie pentru un chinez, o alta pentru un englez i o cu totul alt
semnificaie pentru un american.
n acest moment, am putea prezenta una dintre
cele mai cunoscute definiii a msurrii ca atribuire
de numere evenimentelor sau obiectelor n
concordan cu o anumit regul (Stevens, 1959).
Conform acestei abordri, msurarea dobndete un
sens extrem de larg i extinde semnificaia conceptului
de numr dincolo de operaiile matematice
tradiionale, n funcie de modul de stabilire a regulii.
Se poate observa destul de uor c msurarea poate fi considerat o
funcie, prin care unui atribut al unui obiect i poate fi acordat un numr i numai
unul, la o anumit msurare. Aceast funcie se face pe baza unei anumite
reguli, suficient de clar pentru a fi neleas i suficient de simpl pentru a fi
aplicat (Vasilescu, 1992), regulile determinnd ceea ce numim niveluri (scale)
de msur. Problematica msurrii, dei considerat ca fiind baza analizei de
date, nu este studiat de statistic, nici de matematic, ci de o alt tiin,
numit metrologie.
I.2.1
Specificul msurrii n tiinele socio-umane

n domeniul tiinelor fizice, msurarea este destul de precis. De obicei,
regula este simpl i clar, instrumentele sunt puternic standardizate, valorile

sunt relativ stabile. Ai putea crede c atunci cnd msurm limea unei mese
i spunem c aceasta este de 20 de centimetri, ntre dou msurtori valoarea
se conserv perfect, deoarece ne aflm n zona msurtorilor fizice, precise. De
fapt, ntre dou msurtori ar putea exista diferene determinate de
instrument, de clasa de precizie, de condiiile de mediu, ba chiar i de persoana
care face msurtoarea. Dac nea Costic este puin miop, atunci sunt anse
mari ca cei 20 de centimetri s fie, de fapt, 20,5 centimetri sau 19,5 centimetri.
13
Dac n loc s msoare cu ruleta, msoar cu metrul de stof, atunci s-ar putea
ca dimensiunea real s fie de 19,75 centimetri, chiar dac nea Costic nu are
probleme cu vederea. n fine, chiar dac folosete un instrument de msur
precis, limea mesei ar putea fi 20,00545 centimetri, situndu-ne, dup cum
intuii, la o clas de precizie diferit. Dac tot am vorbit despre metru, ar fi bine
s precizm c acesta reprezint, conform definiiei metrologice, distana
parcurs de lumin ntr-un interval de timp de 1/299.792.458 dintr-o secund, prin
urmare nivelurile de precizie sunt, practic, infinite.
n tiinele socio-umane lucrurile nu mai sunt att de limpezi. Cum am
putea msura, spre exemplu, inteligena? Nu avem la dispoziie, n acest caz,
nici ruleta i nici mcar o unitate de msur, nu putem spune c avem 20 de
kilograme sau 20 de centimetri de inteligen. Poate v gndii c msurm
inteligena n IQ, ns coeficientul de inteligen nu este o unitate de msur, ci
un raport ntre vrsta mintal i vrsta cronologic ( =
100). Cu alte
cuvinte, dac o persoan de 15 de ani (VC=15) rezolv probleme pe care le pot

rezolva cei de 23 de ani (VM=23), atunci are un coeficient de inteligen de
23
15
100 = 153, un geniu. Problema, n acest caz, nu ar fi vrsta cronologic, ci

vrsta mintal. Cum decidem asupra vrstei mintale, cum aflm aceast
valoare? Cum selectm acele probleme pe care le rezolv persoanele de 23 de
ani i nu le pot rezolva cele de 15 ani? Rspunsul la acest gen de ntrebri
depete specificul analizei de date i ine de o alt disciplin tiinific, numit
psihometrie.
Dac n cazul inteligenei, unde putem propune, n definitiv, o serie de
probleme, lucrurile sunt destul de complicate, cum am putea msura
anxietatea, depresia sau alte asemenea trsturi, mult mai vagi? Cert este faptul
c, n cazul anxietii de exemplu, oamenii au diferite grade de intensitate a
14
acesteia, putem spune c o persoan este mai anxioas, o alta mai puin
anxioas, chiar i c o persoan este mai anxioas n comparaie cu alta, ns nu
avem de unde ti ce cantitate de anxietate posed un om. Din acest motiv, vom
aprecia c factorii psihici, dar i alte obiecte de acest tip, au un caracter latent,
i i vom putea denumi factori (caracteristici) latente, n sensul c
exist ntr-o anumit cantitate, doar c aceast cantitate nu poate
fi observat i msurat n mod direct. Orice persoan are, la un
moment dat, o anumit cantitate de anxietate sau de depresie, un anumit
nivel de trai sau o anumit ncredere n clasa politic. Toat chestiunea este c
nu avem uniti de msur pentru aceste cantiti i nici instrumente precise
pentru a le msura. Putem presupune c orice caracteristic latent, din punct
de vedere al cantitii, poate lua orice valoare ntre minus i plus infinit, de la
valori infinit de mici la valori infinit de mari. Acest concept l ntlnim sub numele
de continuum al factorului latent, nelegerea sa condiionnd nelegerea
msurrii n tiinele socio-umane.
Dac aceti factori lateni nu pot fi cunoscui n mod direct, cum ar putea
fi, totui, msurai? S presupunem c vom ntreba persoanele crora dorim s
le cunoatem anxietatea dac le-ar fi team atunci cnd ar sta pe un cmp de
lupt sub focul mitralierelor. Un asemenea comportament ar presupune o
cantitate foarte mic de anxietate la rspunsul pozitiv. Tuturor ne este team
de rzboi, de armele de foc, prin urmare rspunsul da ar fi perfect normal. Din
contra, un rspuns negativ ar putea fi indicatorul unei patologii psihice. n
termeni tehnici, aceast ntrebare s-ar situa undeva spre polul negativ al
continuumului factorului latent, comportamentul vizat saturnd foarte puin
anxietatea. Acelorai persoane le punem i o a doua ntrebare, dac le este fric
s stea n cas pe ntuneric atunci cnd se ntrerupe curentul electric. De data
aceasta, rspunsul normal ar fi negativ, un rspuns eventual pozitiv indicnd o
15
cantitate mare de anxietate. Dac se ntrerupe seara curentul, te poi cel mult
enerva n cazul n care ai ceva de fcut, n niciun caz nu i va genera o senzaie
de team. Un astfel de comportament l putem considera saturat n anxietate,
situndu-se nspre polul pozitiv al continuumului factorului latent. n fine,
ntrebnd persoanele dac le place pizza cu ton, msurm orice altceva, numai
anxietatea nu. Asta deoarece preferina ctre un sortiment de pizza nu are nicio
legtur cu anxietatea, n termeni tehnici ntrebarea fiind situat n afara
continuumului factorului latent.
Astfel de ntrebri se numesc eantioane de comportamente. Deoarece
nu putem observa direct factorul latent, l vom observa indirect, prin
intermediul unor eantioane de comportamente extrase dintr-un univers
practic nelimitat de comportamente specifice. Pe baza modului n care
persoanele ar reaciona la aceste comportamente i cunoscnd zona n care
acestea se situeaz n continuumul factorului latent, se poate aprecia, subiectiv,
nivelul factorului latent al persoanei, fr a spune c msurm exact cantitatea
de factor latent. Acesta este modul n care efectum msurtori n domeniul
socio-uman, iar trecerea de la o dimensiune latent general, abstract, la
indicatori, componente concrete ale dimensiunii i apoi la eantioane de
comportamente (numite i itemi n literatura de specialitate) poart numele de
operaionalizare a constructelor latente.
Chiar dac am operaionalizat foarte bine constructele i am conceput
un instrument de msur foarte bun, msurarea n tiinele sociale rmne
inexact i limitat, din mai multe motive. n primul rnd, nu putem construi
instrumente de msur care s acopere ntregul continuum al factorului latent.
Un test de inteligen, de exemplu, se adreseaz zonei medii a inteligenei.
Acesta va putea diferenia destul de bine persoanele cu o inteligen de la
16
mediu-inferior la mediu-superior, ns va fi inexact i aproape inutil n cazul

persoanelor foarte inteligente sau foarte puin inteligente. n asemenea cazuri,
va trebui s apelam la alte instrumente, demers mare consumator de resurse,
n special de timp. Pe de alt parte, cu ct crete timpul unei evaluri, cu att
scade precizia msurtorii, indiferent de calitatea instrumentului folosit, asta
deoarece intervin i ali factori, precum plictiseala i oboseala. Chiar dac exist
i alte modele de msurare care pot evalua pe ntregul continuum al factorului
latent (numite modele de rspuns la item), astfel de instrumente sunt dificil de
construit iar evaluarea se face de obicei computerizat, aprnd, n plus, i alte
surse de eroare.
Multe instrumente de msur specifice domeniului socio-uman, n
special psihologiei i sociologiei, numite incorect teste, fac apel la auto-evaluare.
Persoana se auto-analizeaz nainte de a da un rspuns, neavnd aproape nicio
posibilitate de a controla dac acel rspuns este sau nu este reprezentativ
pentru persoana evaluat. n cazul n care miza evalurii este benefic pentru
individ, acesta va avea tendina s se pun ntr-o lumin favorabil sau, din
contra, nefavorabil dac urmrete s evite scopul evalurii. n cazul unui
studiu privind nivelul de trai, o persoan va rspunde n sensul unui nivel de trai
sczut dac scopul perceput este stabilirea cuantumului taxelor, ori n sensul
unui nivel de trai ridicat dac scopul ar fi obinerea unui anumit credit. Aceast
abordare, numit tendin de faad, este comun tuturor instrumentelor
bazate pe auto-evaluare. Chiar dac exist anumite mecanisme de control, aanumitele scale de minciun, eficiena lor este discutabil.
Dac n tiinele naturii putem vorbi de un zero absolut, n domeniul
socio-uman nu avem o inteligen zero, o anxietate zero, o depresie zero sau
opinii zero. Din acest motiv, nu putem raporta cantiti, nu putem spune c o
17
persoan este de dou ori mai anxioas sau mai inteligent dect o alt
persoan, c are un nivel de trai de trei ori mai bun sau mai slab. Convenional,
valoarea zero n tiinele socio-umane este media, faptul c o persoan nu se
distinge
de
majoritatea
oamenilor
privind
caracteristica
msurat.
Imposibilitatea de raportare permite doar s spunem c o persoan este mai

mult sau mai puin inteligent sau anxioas n comparaie cu o alt persoan
sau n comparaie cu majoritatea persoanelor, i nu de cte ori i nici cu ct. O
asemenea limitare nu ofer o putere prea mare msurtorilor socio-umane, ele
situndu-se departe de specificul msurtorilor fizice, chiar dac prin forarea
matematicii se tinde ctre o apropiere de acestea.
Construind
un
instrument
de
msur,
decidem
asupra
comportamentelor pe care le selectm din universul infinit de comportamente

posibile, relaionate factorului latent. Aceast selecie poate induce noi surse de
eroare pentru c ceea ce pare relevant pentru un grup de persoane, poate s
nu fie relevant pentru un alt grup. Un instrument construit pentru militari s-ar
putea s nu aib o valoare prea mare n cazul agenilor de vnzri, chiar dac
dorim s msurm acelai factor latent, asta ca s nu mai spunem c anumite
comportamente alese pentru populaia din America aproape sigur vor avea o
alt relevan pentru populaia din Romnia sau din China. Astfel, dependena
cultural a instrumentelor impune revizii importante ale acestora ori de cte ori
urmeaz s le folosim pe alte populaii dect cele pe care au fost construite
iniial. Mai mult, majoritatea atributelor sufer modificri n timp, unele fiind
mai sensibile, altele mai puin sensibile la acest factor. Anxietatea, de exemplu,
ar putea fi o stare, diminundu-se relativ rapid dup dispariia evenimentului
anxiogen, sau o trstur, persistnd mai mult timp, uneori accentundu-se cu
trecerea timpului. Mai mult, unele comportamente saturate n factorul latent
18
ntr-o anumit perioad de timp i pierd saturaia n prezent i trebuie nlocuite.

Imaginai-v doar c foarte multe dintre comportamentele normale ale tinerilor
din prezent ar fi atras cu siguran internarea ntr-un ospiciu dac s-ar fi
manifestat n anii 30 ai secolului XX.
Iat c msurarea n tiinele socio-umane este posibil, ns nu are
caracteristicile unei msurri fizice, fiind imprecis, indirect, puternic limitat
att ca posibilitate de abordare a atributului, ct i ca semnificaie general.
I.2.2
Noiunea de variabil
tim bine de acum c obiectele, n sensul general al termenului, pot fi
msurate pe baza atributelor cuantificabile. nlimea este un atribut

cuantificabil al tuturor persoanelor, ns nu are aceleai valori. Vasile poate avea
nlimea de 178 centimetri, Ion poate avea o nlime de 192 centimetri iar
Maria poate avea 168 de centimetri la aceast caracteristic.
Iat c, aceast particularitate, comun
tuturor fiinelor umane, prezint diferene interindividuale, n termeni tehnici afirmnd c exprim
variaia caracteristicii msurate. Am ajuns la a defini
conceptul de variabil ca fiind particularitatea,
nsuirea unui fenomen care constituie obiectul
msurrii i care exprima variaia inter-individual a
acestei caracteristici.
nlimea oamenilor reprezint o variabil deoarece exprim modul n
care variaz aceast caracteristic, de la cel mai scund om din lume, la cel mai
nalt. La fel putem spune i despre greutate, ritm cardiac, nivel de venit, culoarea
ochilor, gen biologic i aa mai departe, toate aceste atribute avnd n comun o
mulime de valori, numit i mulime (domeniu) de definiie sau
categorii. Domeniul de definiie, la rndul su, poate fi teoretic i
empiric, iar cnd categoriile se pot ordona, poart numele de
amplitudine (teoretic i empiric).
19
Variabila gen biologic, de exemplu, poate avea doar dou valori,

domeniul de definiie teoretic fiind format din categoriile masculin i
feminin. Variabila culoarea ochilor poate avea patru categorii, vorbind
despre ochi cprui, ochi albatri, ochi negri i ochi verzi. Prin urmare,
domeniul de definiie teoretic are patru valori, iar dac nu se afl nicio persoan
cu ochi albatri n lotul de studiu, spunem c domeniul empiric de definiie are
doar trei categorii.
O alt variabil exemplu titlul universitar, are tot patru categorii
asistent, lector, confereniar i profesor , ns acestea pot fi ordonate
de la asistent la profesor. Astfel, putem vorbi despre o amplitudine teoretic de
patru valori, cuprins ntre valoarea minim asistent i valoarea maxim,
profesor.
Valorile unei variabile, tim deja, se numesc i scoruri, iar atribuirea de
scoruri fiecrui element (n cazul de fa, fiecrei persoane) al variabilei poart
numele, tim i asta, de modalitatea de realizare a variabilei.
Definiia msurrii susine c este vorba despre atribuirea de numere
obiectelor i fenomenelor, ns, n exemplele de mai sus, observm c mulimile
de valori nu se exprim prin numere, ci prin anumite caliti. Nu putem spune
c titlul universitar al unui cadru didactic universitar este 3, ci confereniar.
Culoarea ochilor 2 nu are niciun sens, prefernd menionarea categoriei ochi
albatri, dar la fel de bine am putea s includem orice alt categorie. Unele
variabile nu se exprim natural sub form numeric, acestea fiind
denumite variabile calitative. Altele, precum nlimea, greutatea,
vrsta, au valori natural numerice, din acest motiv numindu-se
variabile cantitative, aceasta fiind prima i cea mai simpl
clasificare a variabilelor.
20
I.3
Niveluri de msur
Dincolo de distincia calitativ-cantitativ, desigur foarte important,
exist o clasificare i mai important, de fapt baza ierarhizrii i a puterii

procesului de msurare. Vorbim despre nivelurile de msur, numite i scale de
msur, ns vom prefera utilizarea termenului de nivel i nu de scal pentru a
nu se crea confuzie, chiar dac, n analiza de date, sunt sinonime.
I.3.1
Variabile discrete (discontinui, neparametrice)

Am neles deja c orice variabil posed un domeniu teoretic de
definiie. Uneori, aceast mulime de definiie a valorilor este una finit, n

sensul c se pot numra categoriile, iar ntre dou categorii nu se
poate interpune, la nesfrit, o categorie intermediar. Convenim
astfel s denumim variabilele discrete acele variabile pentru care
mulimea de definiia a valorilor este una discontinu, finit (Vasilescu, 1992).
Dac
lum,
spre
exemplu,
genul
biologic, observm c mulimea de valori

conine doar dou categorii, masculin i
feminin, fiind, prin urmare, o mulime
Figura I-1 Variabila discret gen
biologic
numrabil, finit, discontinu. ntre cele dou

categorii am putea include, cel mult, categoria
hermafrodit, ns nu am putea continua incluznd, la nesfrit, noi categorii.

Lucrurile stau la fel i n cazul variabilei titlul universitar. Mulimea de
valori conine doar patru categorii fiind, din nou, numrabil, finit. ntre
lector i profesor am putea include categoria confereniar, ns nu putem
vorbi, la infinit, despre categorii intermediare ntre confereniar i profesor.
Nu exist categoriile confereniaro-profesor i confereniaro-confereniaroprofesor i aa, la infinit. Iat de ce spunem c asemenea variabile sunt
discontinui, discrete, la rndul lor situndu-se pe dou niveluri de msur.
21
I.3.1.1
Nivelul nominal (de clasificare sau topologic)
Reprezint nivelul de baz, cea mai slab scal de msur i presupune

construcia unui set omogen de categorii disjuncte pe baza atributului care
urmeaz s fie msurat, acordarea de numere fiecrei categorii i includerea
subiecilor n categorii pe baz de apartenen (Opariuc-Dan, 2009). Avem de a
face cu o simpl operaiune ce clasificare, n absena oricrei posibiliti de a
pune o relaie de ordine ntre categorii, de aceea nivelul se mai numete i nivel
categorial sau de clasificare.
Exist o serie de caracteristici ale acestui
nivel de msur. n primul rnd, exhaustivitatea.
Categoriile create trebuie s permit includerea
oricrui subiect, s nu existe situaii n care unii
subieci nu i-ar gsi locul ntr-o anumit
Figura I-2 Variabil discret
nominal gen biologic
categorie. Recent, n Germania, s-a dat o lege

conform creia genul biologic nu mai are dou
categorii, ci 3 masculin, feminin i nedeterminat. Astfel, clasificarea

permite i includerea celor nemulumii de sexul lor. Chiar dac biologic o
asemenea clasificare nu-i are rostul dect n cazul hermafrodiilor, social s-a
considerat c este util.
Singura regul de atribuire o reprezint apartenena la categorie. Eti
brbat, vei fi clasificat n categoria masculin; eti femeie, vei fi inclus n
categoria feminin; habar nu ai ce eti sau vrei sa fii altceva, te incluzi n
nedeterminat. Aceast regul este una mutual exclusiv, adic un subiect i
poate gsi locul ntr-o singur categorie i numai n una. Nu poi ncadra
subiectul i la masculin i la feminin.
22
Ct despre relaia de ordine, nici nu poate fi vorba. ncercai doar s

punei pe primul loc unul dintre genurile biologice i vei vedea ce reacie
declanai la sexul opus. Categoriile calitative ale unei variabile nominale trebuie
s primeasc valori numerice, pentru a respecta sensul definiiei msurrii, doar
c acestea se acord pe baza unei atribuiri arbitrare. Putem da valoarea 1
categoriei masculin, valoarea 2 categoriei feminin i valoarea 3 categoriei
nedeterminat. La fel de bine putem spune 1 nedeterminat, 2 masculin i 3
feminin fr ca acest lucru s influeneze n vreun fel includerea subiecilor n
categorii. Bineneles, pentru a vorbi despre o variabil va trebui s avem cel
puin dou categorii, altminteri avem de a face cu o constant. Dac ntr-un
studiu am utiliza doar brbai, atunci genul biologic nu ar mai avea sens s-l
includem ca variabil deoarece nu mai exprim variaia acestei caracteristici.
La acest nivel de msur se situeaz, de exemplu, sondajele de opinie
politice. Avem categoriile determinate de candidai sau de partide i am putea
analiza cte persoane prefer un anumit candidat sau ce candidat este cel mai
bine plasat.
I.3.1.2
Nivelul ordinal (de rang sau ierarhic)
Acest nivel se bazeaz pe cel descris

anterior, cu toate caracteristicile sale, doar
c putem vorbi, n acest caz, de o relaie de
ordine
ntre
categorii,
baza
caracteristicilor atributului msurat. Dac

Figura I-3 Variabil discret ordinal
titlul didactic
la nivelul nominal puteam pune pe primul

loc orice categorie, fr ca acest lucru s
aib vreo semnificaie, aici nu mai putem proceda la fel, deoarece ordinea
categoriilor conteaz. Regula de baz este aceea conform creia o categorie
23
este superioar sau inferioar alteia, fr ns a se putea specifica nici cu ct,

nici de cte ori.
S lum, de exemplu, titlurile didactice universitare. Acestea pot fi puse
ntr-o ordine: asistent, lector, confereniar i profesor. Este foarte clar faptul c
asistentul reprezint cel mai mic grad, iar profesorul cel mai mare grad deoarece
are vechime i experien. Dar nu putem spune c un profesor face ct 4
asisteni, deoarece nu exist un interval fix, constant ntre aceste grade. La acest
nivel de msur funcia de atribuire a persoanelor n categorii este o funcie
cresctoare.
Majoritatea cercetrilor n care sunt msurai factori lateni, n special
cele psihologice, folosesc acest nivel de msur, fapt care ne permite s
apreciem c msurarea n psihologie are caracterul unei scale ordinale. Chiar
dac probele psihologice au pretenia unui nivel de interval, n realitate, dac
este s fim strici, ele nu depesc scala ordinal.
I.3.2
Variabile continui (scalare, parametrice)

n cazul altor variabile, mulimea de
definiie a valorilor nu este una finit,
numrabil. S luam cazul variabilei nlime
i vom observa c mulimea de valori este
Figura I-4 Variabila continu

nlimea
infinit. Amplitudinea teoretic este cuprins

ntre 0 centimetri, deoarece nu poate exista
vreun om cu nlime negativ i ntotdeauna exist posibilitatea identificrii

unei persoane mai scunde dect cel mai scund om din lume i infinit, deoarece
oricnd putem gsi pe cineva mai nalt dect cel mai nalt om din lume.
Amplitudinea empiric s-ar putea situa, spre exemplu, ntre 100 de centimetri
i 210 centimetri, n funcie de persoanele incluse n cercetare.
24
Totodat, ntre dou valori succesive putem gsi, oricnd, o valoare

intermediar. De exemplu, ntre o persoan cu nlimea de 179 centimetri i
una de 178 centimetri, putem gsi o persoan de 178,5 centimetri, apoi una de
178,25 centimetri i, tot aa, la infinit. Iat de ce vom spune c o
variabil continu este aceea la care mulimea de definiie a
valorilor este nenumrabil, infinit (Vasilescu, 1992). i aceste
variabile, la rndul lor, se pot msura pe dou niveluri.
I.3.2.1
Nivelul de interval (al intervalelor egale)
De aceast dat, categoriile nu numai c sunt ordonate, ca n cazul

nivelului ordinal, dar intervalele dintre categorii sunt constante. Astfel, la acest
nivel putem spune nu numai c A este mai mare dect B, ci i cu ct este mai
mare. Un exemplu clasic l reprezint scala de temperatur Celsius. ntre 0 i 100
de grade Celsius exist un numr de 100 de intervale egale, corespunztoare
unui grad Celsius. Un grad Celsius nseamn acelai lucru, fie c ne referim la
distana dintre gradul 3 i gradul 4, fie la distana dintre gradul 90 i gradul 91.
Prin extensie, unii consider c scorurile standardizate ale probelor psihologice
au aceast caracteristic. Matematic au dreptate, ns psihologic nu este chiar
aa. S considerm, de exemplu, scala IQ. Intervalele sunt egale, putem spune
c un subiect este cu 2 puncte IQ mai inteligent dect un alt subiect. Toat
problema const n faptul c semnificaia nu are o constan pe ntreaga scal,
aa cum se ntmpl la scala Celsius. Diferena dintre un IQ de 55 i unul de 56
are o anumit semnificaie, n timp ce diferena dintre un IQ de 100 i un IQ de
101 are o alt semnificaie. Este ca n vorba aceea: toi oamenii sunt egali, ns
unii oameni sunt mai egali dect alii. Practic, scala IQ este tot o scal ordinal,
puin forat i mbuntit.
25
Figura I-5 Variabil continu de interval, temperatura
Folosind acest nivel de msur, putem spune cu ct o cantitate este mai

mare sau mai mic n comparaie cu o alt cantitate, ns nu i de cte ori, asta
deoarece nu avem de a face cu un zero absolut ci cu un zero convenional. Ca s
nelegem, s facem o comparaie ntre scala Celsius i scala Fahrenheit. Scala
Celsius tim cum s-a construit; zero grade Celsius nseamn temperatura de
nghe a apei la presiunea atmosferic de la nivelul mrii iar 100 de grade Celsius
reprezint temperatura de fierbere a apei la aceeai presiune atmosferic. Se
crede c scala Fahrenheit este bazat pe temperatura la care un amestec masic
echivalent de ghea i sare se topete (0 grade Fahrenheit), respectiv
temperatura intern a corpului uman (100 de grade Fahrenheit). Pornind de la
aceste informaii, zero grade Celsius corespund la aproximativ 38 de grade
Fahrenheit iar 100 de grade Celsius nseamn cam 212 grade Fahrenheit. O
gleat cu ap avnd temperatura de 10 grade Celsius nseamn o temperatur
a apei de 50 de grade Fahrenheit iar o gleat cu ap avnd temperatura de 20
de grade Celsius nu nseamn o temperatur a apei de 100 de grade Fahrenheit
ci doar de 68 de grade Fahrenheit. Aadar, temperatura apei din prima gleat
nu este de dou ori mai rece ci doar cu 10 grade Celsius, respectiv cu 18 grade
Fahrenheit mai rece. Absena acestui zero absolut nu ne permite s raportm
cantitile.
26
Faptul c poate fi atribuit un zero arbitrar a fost speculat de psihologi,

astfel nct instrumentele de diagnostic psihologic ridic pretenia unui nivel de
interval. Valoarea zero este, n general, cea a unui nivel mediu al factorului
latent n conformitate cu tip special de distribuie a datelor, valorile mai mici de
zero fiind caracteristice unui nivel mai sczut iar cele mai mari de zero unui nivel
mai ridicat. Dup cum tii, zero n psihologie nu nseamn absena cantitii
factorului latent (cine ar putea s defineasc inteligena zero), ci valoarea medie
a acesteia la nivelul populaiei, amplitudinea domeniului factorului latent fiind
extins la infinit. Chiar dac nivelul de msur permite acest lucru, fundamentul
tehnicilor psihometrice clasice este reprezentat tot de comparaie i de relaii
de ordine
I.3.2.2
Nivelul de raport
Reprezint cel mai nalt nivel de msur, n

acest caz putem spune nu numai cu ct o cantitate
este mai mare, ci i de cte ori. Este cazul
msurtorilor fizice, cum ar fi lungimea, greutatea,
volumul sau temperatura exprimat n grade
Figura I-6 Variabil continu de
interval, nlimea
Kelvin. O persoan cu nlimea de 105 centimetri

este cu 105 centimetri mai scund n comparaie
cu una avnd nlimea de 210 centimetri, dar i de dou ori mai scund, pentru
c dac lum dou persoane nalte de 105 centimetri i le punem una n capul
celeilalte, ajungem s msoare exact ct persoana cu nlimea de 210 de
centimetri. n psihologie nu atingem acest nivel de msur n mod curent, rar se
ntmpl s msurm la acest nivel n alte domenii socio-umane, poate doar n
tiinele economice. Psihofiziologia mai opereaz cu asemenea scale, iar n
domeniul instrumentelor de diagnostic psihologic putem fora nivelul de
raport n teoria rspunsului la item.
27
Aplicaii
I.4
Obinerea programelor de analiz de date

Efectuarea calculelor necesare analizei de date prin aplicarea formulelor
statistice este interesant n scop didactic, dac dorii s ptrundei

mecanismele interne ale principiilor, s v apropiai de adevratul neles al
statisticii. n activitatea concret, de cercetare, ar fi extrem de neproductiv s
procedai n aa fel, deoarece v-ar lua foarte mult timp i, n mod sigur, vei
comite nenumrate erori de calcul. Ceea ce ai lucra n zile sau sptmni, ai
putea face n doar cteva clipe, utiliznd o aplicaie computerizat.
Vom folosi dou aplicaii specializate n efectuarea calculelor pentru
analiza de date, una prietenoas i uor de utilizat, ns destul de scump, IBM
SPSS Statistics, alta gratuit, foarte puternic, ns ceva mai greu de folosit,
adresabil adevrailor profesioniti i numit, simplu, R. Pentru nceput, s
vedem cum le obinem.
I.4.1
Obinerea programului IBM SPSS Statistics

Versiunea de ncercare a aplicaiei se poate obine de la adresa http://www-
01.ibm.com/software/analytics/spss/products/statistics/downloads.html,
compania
IBM
cumprnd, cu ceva timp n urm, acest pachet de aplicaii, dezvoltndu-l

ulterior pe parcursul unui numr de 3 sau 4 versiuni. Desigur, pe pagina de
descrcare a programelor de ncercare exist mai multe aplicaii. Suntem
interesai de IBM SPSS Statistics i nu de altceva, prin urmare vom efectua click
pe legtura SPSS Statistics.
Poate unul dintre principalele avantaje ale prelurii acestor programe de
ctre IBM, este faptul c acum exist variante pentru mai multe sisteme de
operare. Iniial, programul rula doar pe sistemul de operare Windows de la
Microsoft. Acum avem i varianta pentru Mac OS de la Apple, dar i varianta
28
pentru Linux. Vom alege sistemul de operare instalat pe computer i apsm

apoi butonul Continue.
n acest moment, v putei face un cont pe site-ul IBM sau v putei
autentifica n cazul n care avei deja un cont. De obicei, vei folosi aceast
variant dac avei o licen valid. Astfel, folosind contul, vei putea actualiza
licena atunci cnd expir, vei putea descrca actualizri ale programului i
multe altele. n cazul n care nu dorii s v autentificai, putei apsa butonul
Proceed without an IBM ID. Politica firmei IBM este de a colecta datele
personale ale celor care descarc versiunea de ncercare. Nu avei ce s facei,
toate cmpurile marcate cu un asterisc rou trebuie completate, altfel nu vei
putea trece mai departe. Dup completarea tuturor informaiilor obligatorii, va
trebui s apsai butonul Submit pentru urmtoarea etap.
Ai ajuns, dup acest
efort,
la
posibilitatea
de
descrcare a programului de
instalare.
Implicit,
pentru
descrca, se va folosi o aplicaie

special,
numit
Download
director. Chiar dac are anumite

avantaje, pentru a nu v ncrca
inutil calculatorul, dac tot avei o
conexiune rapid la Internet, v
Figura I-7 Descrcarea programului IBM SPSS
Statistics
recomandm
apsai
Download using http pentru a
descrca direct ceea ce dorii. Alegei pachetul de instalare n funcie de tipul

sistemului de operare (pe 32 de bii sau pe 64 de bii dac nu tii, alegei
29
versiunea pe 32 de bii. Aceasta funcioneaz pe 64 de bii, nu ns i invers) i

apsai butonul I agree pentru a iniia descrcarea. n cteva clipe, browserul
dumneavoastr de Internet va iniia descrcarea programului i este posibil s
ateptai ceva vreme pn cnd se va obine copia. Programul de instalare este
destul de mare, aproape 1GB, iar serverele de descrcare sunt n Statele Unite
ale Americii, prin urmare este posibil s dureze ceva timp. Dup descrcare, vei
instala programul fcnd dublu click pe kitul de instalare, n cazul n care folosii
sistemul de operare Microsoft Windows. Nu vom intra n detalii, deoarece
presupunem c tii s instalai un program n Windows. Nu trebuie dect s
urmai instruciunile de pe ecran, alegnd, atunci cnd vi de solicit, licena de
ncercare de 30 de zile.
I.4.2
Obinerea i instalarea programului R

Din fericire, obinerea aplicaiei R este mult mai simpl. n primul rnd,
vom naviga la http://cran.r-project.org/bin/windows/base n cazul n care avei

sistemul
de
operare
Microsoft Windows. Pentru

alte sisteme de operare sunt
Figura I-8 Descrcarea aplicaiei R pentru Windows
procedee
specifice
de
instalare.
Putei
citi
informaiile relevante de pe pagina oficial a produsului, iar pentru a descrca

programul de instalare, efectuai click pe legtura Download R 3.1.0 for
Windows 1. Se va iniia imediat descrcarea aplicaiei, fr a vi se solicita alte
informaii. Kitul de instalare este destul de redus ca dimensiune, din acest motiv
i durata descrcrii va fi mai mic. Similar altor programe pe care le-ai mai
Numele legturii sau aspectul paginii sunt preluate de la adresa oficial a paginii proiectului.
Aceste elemente pot s aib o alt prezentare sau o versiune diferit.
30
folosit, putei instala R efectund dublu click pe numele pachetului de instalare

descrcat i urmai instruciunile de pe ecran.
Dup instalare, pe suprafaa de lucru vei putea gsi pictograma de
lansare a programului R for Windows, pe care vom efectua dublu click n
vederea lansrii n execuie.
Figura I-9 Fereastra principal R
Iat cum, n Figura I-9, putei observa ntreaga aplicaie R, programul

oferindu-ne doar o linie de comand n care tastm text. Desigur, putem lucra
i aici fr nicio problem, n cazul n care tim foarte bine R. Dac nu ne
descurcm, putem instala, suplimentar, o interfa vizual, indiferent dac
suntem programatori sau simpli utilizatori. Fiind o aplicaie gratuit i dezvoltat
voluntar de o comunitate internaional de programatori pasionai, R are destul
de multe variante de interfa vizual, recomandate fiind Deducer
(http://www.deducer.org), o interfa vizual destul de complex, dar care
funcioneaz doar dup ce ai instalat n prealabil Java, R Commander
31
(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr), o interfa puternic, foarte uor de

instalat i configurat, care nu necesit nimic suplimentar pe computer i RGtk
(http://www.omegahat.org/RGtk), interfa complex, intuitiv i uor de folosit, ns
disponibil doar pentru sistemele Linux sau alte sisteme bazate pe UNIX.
Mediul R se poate dezvolta aproape nelimitat, instalnd diferite module,
cunoscute sub numele de pachete, toate interfeele vizuale menionate, dar i
alte funcii mai complexe, fiind cuprinse n acestea. Pentru a putea folosi un
pachet, acesta trebuie mai nti instalat, apoi ncrcat n mediul R, instalarea
pachetelor R fcndu-se prin intermediul comenzii:
install.packages(nume pachet)
Pentru a instala, spre exemplu, R Commander, vom tasta comanda:

install.packages(Rcmdr)
Apsm apoi tasta Enter, pentru a valida execuia comenzii, moment

n care pachetele R se descarc i se instaleaz automat ntr-o bibliotec situat
pe calculatorul dumneavoastr. Deoarece acesta este primul pachet instalat,
biblioteca de pachete nu este configurat. Prin urmare, programul v ntreab
dac dorii s v personalizai biblioteca de pachete (Would you like to use a
personal library instead?). V recomandm s apsai butonul Yes pentru a
defini propria dumneavoastr bibliotec, situat n directorul personal al
documentelor. Dac apsai No, se va
folosi biblioteca implicit a programului.
Nu v sugerm a doua variant, deoarece
s-ar putea s avei probleme cu drepturile
Figura I-10 Alegerea bibliotecii personale
de pachete
de scriere pe disc. Dup apsarea

butonului Yes, programul va afia
locaia n care se vor scrie fiierele n biblioteca personal de pachete, implicit

32
n directorul personal de documente. Va trebui s apsm, din nou, butonul

Yes, pentru a confirma aceast opiune.
Pachetele R sunt disponibile n diferite locaii din Internet, aceste locaii
fiind cunoscute sub denumirea de CRAN Comprehensive R Archive Network.
Cu ct aceste locaii sunt mai apropiate de dumneavoastr, cu att descrcarea
pachetelor va dura mai puin. Dup instalare, programul nu tie unde v aflai,
din acest motiv invitndu-v s alegei locaia CRAN optim.
n Figura I-11 apar i locaii CRAN din
Romnia, ns exist o mare probabilitate ca
actualizrile s se fac ntrziat, astfel nct
unele pachete s fie nvechite, nefuncionnd
corespunztor. Deoarece la momentul actual
viteza conexiunii nu prea pune probleme, v
recomandm s alegei opiunea de cloud
(cea prestabilit, 0-Cloud) i s apsai butonul
OK.
Instalarea pachetului dureaz destul
Figura I-11 Alegerea locaiei CRAN
de puin, n fereastra de comenzi R afinduse o serie de mesaje informative, care arat ce
pachete se descarc i se instaleaz, precum i alte lucruri importante, cum ar fi

apariia unor erori. Configurarea librriei personale se face doar n momentul
instalrii primului pachet, modificarea locaiei acesteia fcndu-se, ulterior, din
setrile programului. Alegerea serverului CRAN se face o singur dat per
sesiune (la pornirea programului R), atunci cnd instalai un pachet.
Instalarea unui pachet nseamn doar c programul R s-a conectat la
serverul CRAN specificat, a cutat ultima versiune disponibil i a descrcat
33
fiierele necesare n biblioteca specificat. Este suficient s instalai o singur

dat un pachet pe computer, nu trebuie s repetai operaiunea de fiecare dat
cnd dorii s-l utilizai. Totui, instalarea unui pachet nu presupune automat i
utilizarea sa. Pentru a-l folosi, trebuie ca orice pachet s fie mai nti ncrcat n
R. ncrcarea pachetelor n R se face cu ajutorul comenzii:
library(nume_pachet)
nlocuind numele pachetului cu ceea ce am descrcat anterior, rezult

c va trebui s scriem:
library(Rcmdr)
Este posibil ca la ncercarea de ncrcare n memorie i lansare a unui

pachet, s apar un alt mesaj, prin care s vi se solicite instalarea altor pachete
suplimentare, care nu au fost descrcate i instalate iniial. Acceptai acest lucru
prin apsarea butonului Yes, ateptai ca procesul s se finalizeze i vei obine
rezultatul dorit.
Figura I-12 Interfaa vizual R Commander
34
Am vzut c, uneori, pentru a lansa n execuie un pachet R este nevoie

s instalm i alte pachete suplimentare, numite pachete suport. Nu v
impacientai, procesul se desfoar automat. Aplicaia va solicita unele
informaii suplimentare din timp n timp, va cuta pachetele de care are nevoie
i le va instala. Nu este nevoie dect s urmrii mesajele de pe ecran, fiind
necesar apsarea, din timp n timp, a butonului Yes. Este
important s reinei c n comenzile R, literele mici difer de
majuscule. Dac n loc s scriei Rcmdr ai fi scris rcmdr, s-ar
obine un mesaj de eroare, deoarece cele dou texte difer.
Interfaa R Commander este suficient de puternic pentru a efectua
majoritatea operaiunilor de analiz de date, pentru a importa sau pentru a
exporta baze de date din sau n alte programe, inclusiv IBM SPSS Statistics, are
chiar i comenzi n limba romn, ns nu se descurc prea bine la definirea
variabilelor i la introducerea datelor. Dac avei instalat n computer maina
virtual Java (Java SE Runtime Environment), putei iniia descrcarea i
instalarea pachetelor pentru Deducer. n caz contrar, v recomandm s
descrcai i apoi s instalai maina virtual Java de pe site-ul Oracle 2.
Iniial, va trebui s instalm interfaa grafic unificat Java pentru R, aanumitul pachet JGR (Java GUI for R), cunoscut i sub numele de Jaguar. n
fereastra de comenzi R, vom tasta:
install.packages(JGR)
Dup descrcarea i instalarea pachetelor Jaguar, vom repeta

operaiunea pentru a instala pachetele Deducer, tastnd n fereastra R,
succesiv, comenzile prezentate n continuare, n acest caz fiind necesar o
http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html
35
ateptare ceva mai lung, programul descrcnd i instalnd un numr destul

de mare de pachete:
install.packages(Deducer)
install.packages(DeducerExtras)
ncrcarea n memorie a interfeei grafice unice Jaguar se face prin

comanda cunoscut, dar de aceast dat va fi necesar o comand suplimentar
pentru a porni programul. Aadar, pentru a porni Jaguar, a vom tasta succesiv,
n fereastra de comenzi R, urmtoarele:
library(JGR)
JGR()
Figura I-13 Interfaa grafic Jaguar
36
Am obinut o fereastr de comenzi R ceva mai prietenoas, cu mai multe

posibiliti de definire a variabilelor i de introducere a datelor, ns destul de
rudimentar n raport cu preteniile noastre. Pentru a ncrca Deducer, va
trebui s accesm meniul Packages & Data, apoi s alegem opiunea Package
Manager.
n fereastra de configurare
a pachetelor ce vor fi ncrcate n
Jaguar,
vom
Deducer
cuta
pachetele
DeducerExtras,
apoi vom bifa cele dou casete din

coloana
loaded
pentru
comunica aplicaiei R s le ncarce.

Dac dorim ca cele dou pachete
s se ncarce automat atunci cnd
pornim Jaguar, bifm i cele dou
Figura I-14 Configurarea pachetelor ncrcate n
Jaguar
casete corespunztoare din a

doua
coloan,
cea
numit
default. Astfel, putem ncrca sau elimina orice alt pachet n aceast interfa
grafic, iar atunci cnd am terminat lucrul cu pachetele putem apsa butonul
Close pentru a iei din procedura de gestiune a pachetelor R.
Figura I-15 Interfaa Jaguar cu pachetele Deducer
Faptul c pachetele Deducer au fost ncrcate este reflectat n noul

meniu Jaguar. Dup cum se poate observa, au aprut elemente noi, specifice
37
analize de date i reprezentrilor grafice, precum i funcii noi, avansate, inclusiv

pentru definirea variabilelor i introducerea datelor. Att Deducer, ct i R
Commander, permit importul/exportul bazelor de date, operaiunea putnd fi
efectuat i n line de comand. Au fost instalate ambele interfee, deoarece v
va permite familiarizarea cu dou stiluri de lucru relativ diferite.
I.5
Proiectarea unei baze de date

Am crede, n mod greit, c putem deschide imediat o aplicaie de analiz
de date i ncepem s configurm variabilele. n realitate, structura unei baze de

date trebuie mai nti gndit, proiectat pe hrtie, apoi vom trece la
implementarea acesteia ntr-un program. S presupunem c desfurm un
studiu folosind un test de inteligen i dorim s colectm datele necesare. Ce
variabile am putea reine? n mod evident, rezultatele persoanelor la testul de
inteligen, exprimate, spre a uura nelegerea, sub forma coeficientului de
inteligen. Iat i o prim variabil. Apoi, cror persoane le va fi administrat
testul de inteligen? Elevilor de liceu, studenilor, elevilor din coala general
sau unei categorii de populaie mai largi? Ne intereseaz educaia acestor
persoane? Dac da, ne putem gndi la o alt variabil, pe care am numi-o nivel
de educaie. Indivizii care vor rezolva problemele testului, cel mai probabil, vor
avea vrste diferite, vom folosi att brbai, ct i femei, asta dac nu cumva
preferm s administrm testul doar fetelor dintr-o singur clas. Iat c putem
avea n vedere alte dou variabile, vrsta subiecilor i genul biologic.
Orice studiu trebuie gndit nainte de a fi implementat i
de a trece la definirea variabilelor. n mod normal, acest demers
are loc n momentul n care construim planul de cercetare, vizeaz
o analiz a tuturor variabilelor care ar putea afecta ceea ce msurm, reinerea
38
celor relevante i includerea unor variabile demografice, de caracterizare a

lotului de cercetare.
Dup ce am stabilit ce anume vom msura, adic n urma reinerii
variabilelor ce vor fi folosite n studiu, este recomandat s le centralizai ntr-un
tabel, numit tabelul meta-datelor 3.
Tabel I-1 Meta-datele variabilelor
Etichet
Vrsta
subiecilor
Genul
biologic
Nume
Tip
Nivel
Codare dummy
varsta
N(3)
Scalar
gen
N(1)
Nominal
Nivelul
educaional
niv_edu
N(1)
Ordinal
Coeficient de
inteligen
iq
N(3)
Scalar
1 Masculin
2 - Feminin
1 Fr studii
2 Primare (1-4)
3 Gimnaziu (5-8)
4 Liceu (9-12)
5 Bacalaureat
6 Universitare
(Licen)
7 Universitare
(Master)
8 Doctorat
9 - Postdoctorale
-
Scop
Demografic, posibil
independent
Demografic, posibil
independent
Demografic,
independent
Dependent
O prim informaie despre variabile se refer la eticheta acestora, prin

etichet nelegnd denumirea lor, aa cum o percep i cum o neleg oamenii.
n cazul de fa, ceea ce am decis s reinem mai sus, reprezint exact etichetele
unor variabile, denumirea acestora n limbajul uman. Numele variabilei se
refer tot la denumire, ns nu aa cum o nelege omul, ci computerul. Unele
programe ne permit s definim numele variabilei la fel cum definim eticheta
acesteia, altele impun condiii speciale. Deoarece nu dorim s fim dependeni
de un singur program, mai ales atunci cnd colaborm cu ali cercettori, vom
prefera s respectm regulile de denumire a variabilelor.
Meta-datele se refer la informaiile despre variabile, a caracteristicile acestora
39
n primul rnd, orice nume de variabil poate conine doar

litere i cifre, i va ncepe, n mod obligatoriu, cu o liter. n cazul
n care dorii ca numele variabilei s nceap cu o cifr, va trebui
s folosii liniua de subliniere (de exemplu, corect este _18ani i nu 18ani).
Dac variabila conine spaii (de exemplu nivel educaional), avei mai multe
metode pe care le putei utiliza, cea mai frecvent fiind aceea n care apelai tot
la liniua de subliniere (putei denumi, de exemplu, niv_edu), modalitate
cunoscut sub numele de notaie underscore_case. Singura problem a
acestei notaii este includerea unui caracter suplimentar (liniua de subliniere),
care ar putea genera, dup cum vom vedea, unele dificulti. Dac preferai,
putei folosi una dintre notaiile cunoscute sub denumirea de Camel Case, n
care fiecare cuvnt ncepe cu liter mare (UpperCamelCase) sau n care doar
primul cuvnt ncepe cu liter mic, celelalte cu majuscule (lowerCamelCase).
n cazul de fa, am putea numi variabila fie NivEdu (n stilul
UpperCamelCase), fie nivEdu (n stilul lowerCamelCase). Toate cele trei
convenii de notare constituie standarde de definire a variabilelor folosite n
programare, i este bine s v obinuii cu ele, pentru a nelege lumea
aplicaiilor computerizate dincolo de utilizarea programelor de analiz de date.
Este inutil s insistm asupra faptului c n denumirea unei variabile nu au ce
cuta diacriticele romneti (, , , etc.), i nici alte caractere speciale,
exceptnd liniua de subliniere (_).
O a doua regul ine de respectarea numrului maxim de 8
caractere n denumirea unei variabile. Aceast condiie provine de
pe vremea sistemului de operare MS-DOS, atunci cnd denumirea
fiierelor nu putea s depeasc 8 caractere, fiind rar impus de vreo aplicaie
din zilele noastre. Versiunile vechi de SPSS for Windows (nainte de versiunea
40
10) solicitau acest lucru, dar cum nu putem ti ce fel de program ar folosi un
eventual colaborator, v recomand s inei cont de aceast regul. Nu vom
numi o variabil nivel_educational, i nici NivelEducational sau
nivelEducational, deoarece am depi limita celor 8 caractere; vom prefera s
scriem, ca mai sus, niv_edu (7 caractere), NivEdu sau nivEdu (6 caractere).
O alt regul important spune c fiecare variabil trebuie
s ocupe o coloan distinct n baza de date, iar fiecare subiect va
ocupa un singur rnd (va avea o singur nregistrare) (Field, 2005).
Dac ar trebui, de exemplu, s msurm coeficientul de inteligen,
avnd, astfel, o testare iniial, apoi s aplicm o tehnic de dezvoltare a
inteligenei i, dup 6 luni sau un an, s realizm o testare final, cum am
proceda? Exist o singur variabil, coeficientul de inteligen, msurat n dou
momente diferite de timp, situaie foarte bine cunoscut n cazul cercetrilor cu
msurri repetate. Pentru a nu nclca aceast regul, vom crea dou variabile
n baza de date, i nu una singur, de exemplu iq_ini pentru msurarea iniial
i iq_fin pentru cea final, respectnd astfel prima parte a regulii, dar i cea
de-a doua parte, n care o persoan ocup un singur rnd.
Tipul i nivelul de msur a variabilelor sunt alte informaii, foarte
importante, atunci cnd proiectm baza de date. Pentru a putea vorbi despre
msurare, n adevratul sens al definiiei, tim c trebuie s asociem numere
atributelor obiectelor i fenomenelor studiate. De aceea, nc de la nceput,
trebuie s decidem care dintre variabile exprim caliti i care exprim
cantiti, adic s stabilim nivelul lor de msur. Variabilele iq i varsta se
refer, evident, la cantiti, i se exprim, n mod natural, prin numere. n primul
caz vorbim despre coeficientul de inteligen, un numr situat la un nivel de
msur de interval, iar n al doilea caz tot despre un numr, vrsta, exprimat
41
n ani mplinii, variabila fiind situat chiar la un nivel de raport. n analiza de

date nu facem o distincie att fin ntre variabilele parametrice (continui), prin
urmare att cele situate la un nivel de interval, ct i cele ale nivelului de raport,
sunt tratate unitar, ca variabile scalare, cele mai puternice variabile cu care
putem lucra.
n acest moment, putem discuta despre o nou regul
foarte important i mult ignorat, i anume c fiecare variabil
trebuie codat astfel nct s se obin maximum de informaii
(Opariuc-Dan, 2009). S lum cazul vrstei, o variabil pe care o putem exprima
n ani, luni, zile, minute sau secunde, cum dorim, avnd un punct zero
convenional n momentul naterii, ba chiar i un zero absolut n momentul
concepiei. Altfel spus, o variabil scalar n adevratul sens al cuvntului, i ar
fi o mare greeal s o tratm, spre exemplu, ca pe o variabil ordinal. Atunci
cnd o vom proiecta, ne vom gndi s stocm vrsta n ani sau luni, i nu s
crem categorii de vrst (de exemplu, ntre 10 i 15 ani, ntre 15 i 20 de
ani i aa mai departe), transformnd-o ntr-o variabil ordinal, mult mai
slab. Idealul oricrui cercettor este s msoare la un nivel ct mai puternic,
de preferin cu zero absolut. Dac variabila este natural scalar, o vom folosi
exact aa, la cel mai nalt nivel de precizie, garantnd obinerea maximului
posibil de informaie. Ulterior, dac dorim, putem transforma foarte uor o
variabil continu ntr-una discret, ordinal sau nominal, mult mai slab din
punct de vedere al informaiilor i al puterii analizelor permise; invers, ca s
ajungem de la o variabil discret la una continu, este ns imposibil (OpariucDan, 2009).
Din moment ce am stabilit nivelul de msur ca fiind cel scalar, n
urmtoarea etap vom urmri s identificm tipul variabilei. Este limpede, cele
42
dou variabile exprim cantiti, msurate prin numere, aadar vor fi definite ca
numerice (N), ns de cte cifre vom avea nevoie pentru a stoca toate valorile
posibile? n cazul vrstei, exprimat n ani, cu o singur cifr vom putea memora
scoruri de la 0 la 9 ani, total insuficient avnd n vedere persoanele pe care
urmeaz s le evalum. Stm mult mai bine dac am folosi dou cifre, deoarece
am putea nregistra persoane cu vrsta cuprins ntre 0 i 99 de ani, dar ce ne
facem dac includem n studiu i bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depi 999 de ani, ct este
maximum teoretic al amplitudinii valorilor. n cazul n care variabila nu comport
numere zecimale, am putea nota acest lucru de forma N(3), adic o variabil
de tip numr ntreg, format din 3 cifre, cu o amplitudine de la 0 la 999. n cazul
n care am fi proiectat un studiu specific tiinelor economice i administrative
i am fi avut o variabil n care s stocm, spre exemplu, preul unor produse,
am fi preferat o reprezentare zecimal, notnd tipul variabilei cu N(4.3), adic
o variabil de tip numr zecimal, format din 4 cifre pentru a reprezenta ntregii
i 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
n cazul coeficientului de inteligen, putem proiecta variabila tot de tip
N(3), asigurnd o amplitudine suficient pentru a permite nregistrarea scorului
oricrei persoane, deoarece am stoca valori ale coeficientului de inteligen
cuprinse ntre 0 i 999. Iat c am ajuns la o nou regul, i anume
aceea conform creia categoriile create trebuie s fie exhaustive,
adic suficiente pentru a permite oricrui caz particular s poat
fi inclus ntr-o categorie.
Dac n cazul celor dou variabile discutate lucrurile sunt destul de clare,
deoarece exprim, natural, cantiti, variabilele gen i niv_edu exprim
caliti. Genul biologic se situeaz la un nivel nominal (categorial) de msurare,
43
deoarece nu putei pune, nici mcar n glum, o relaie de ordine ntre cele dou
categorii, iar nivelul de educaie poate fi tratat ca o variabil situat la un nivel
de msur ordinal, deoarece o persoan care a terminat doar gimnaziul are un
nivel de educaie inferior celeia care a absolvit liceul.
Toat problema este c orice program de analiz de date prefer s
ronie numere i nu litere. Din acest motiv, am ajuns la o nou
regul foarte important, aceea c toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
n baza de date, textul masculin i feminin, nici mcar M i F atunci cnd
nregistrm scorurile persoanelor la variabila gen. n primul rnd, nu am
respecta definiia msurrii, motiv suficient pentru a renuna la orice analiz de
date. n al doilea rnd, am pierde enorm de mult timp dac am scrie, de fiecare
dat, unul dintre cele dou texte, pentru fiecare persoan, ca s nu mai punem
la socoteal riscul crescut de a comite erori. Dac n loc de masculin am omite
o liter, spre exemplu am scrie masclin, fapt extrem de probabil, atunci nu am
mai avea dou categorii ale variabilei, ci trei: masculin, masclin i feminin.
Folosind litere, putem calcula, cel mult, de cte ori apare un cuvnt, fapt care ar
limita puterea analizei de date la cea dat de numrarea scorurilor din fiecare
categorie. Dar nu ne oprete nimeni s notm cu 1 categoria masculin i cu 2
categoria feminin, sau invers. Astfel, respectm definiia msurtorii,
reducem riscul de a comite o eroare i crem posibilitatea unor analize de date
mai puternice. O asemenea atribuire poart numele de codare dummy, pentru
a arta c numerele alocate au doar o valoare de etichet, nu ndeplinesc funcia
lor normal. Pur i simplu, n loc de masculin vom tasta 1 (sau 2, 7, 5, dup
cum dorim), iar n loc de feminin vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relaia de ordine ntre categorii nu exist.
44
Pe de alt parte, variabila niv_edu comport o altfel de abordare, fiind

ordinal. De aceast dat vom acorda numere n ordine, acestea reprezentnd
tot etichete ale categoriilor, dar au, n plus, calitatea de a indica poziia
categoriei. Vom ti ce categorie este superioar sau inferioar alteia, dar nu vom
putea vorbi despre cantiti, doar despre ordine. Aadar, orice proces de codare
dummy presupune dou elemente: un numr, denumit valoare, care va fi
introdus n baza de date, precum i o etichet, ce nu va fi introdus n baza de
date, dar care reprezint, de fapt, proprietatea calitativ msurat.
Legat de procesul de codare dummy, apar reguli noi. Una
dintre acestea susine c toate codurile categoriilor unei variabile
trebuie s fie mutual exclusive (Field, 2005). Trebuie gsite nu doar
suficiente categorii pentru a include orice caz posibil, ci trebuie i respectat
regula ca o valoare, pentru o persoan, s poat fi ncadrat ntr-o singur
categorie i numai n una, cu alte cuvinte s nu se suprapun categoriile. Nu
putem defini, spre exemplu, o variabil n care s stocm categoria de vrst,
una dintre categorii fiind 10-15 ani, iar cealalt 15-20 de ani. O persoan, care
are exact 15 ani, unde va fi inclus, mai ales dac mplinete acea vrst fix n
ziua evalurii? Ar fi mai corect s construim categorii de genul 10-15 ani, 16-20
de ani si aa mai departe, n care limita inferioar a unei categorii este strict mai
mare dect limita superioar a categoriei anterioare.
Uneori, la proiectarea unei variabile, este mai dificil s respectm
aceast regul. S presupunem c desfurm un sondaj de opinii politice, n
care avem urmtoarea ntrebare: Dac duminic ar fi alegeri parlamentare, cu
care dintre urmtoarele partide n mod sigur NU vei vota?. Ca variante de
rspuns, am putea avea PX, PY, PZ, NS/NR i varianta deschis, Altul.
Care?. Un respondent poate bifa un partid, dou, le poate bifa pe toate, poate
45
s nu bifeze niciunul sau s scrie un alt partid, neinclus n lista standard. Cum
am putea proiecta o asemenea variabil deoarece, aa cum observai, codarea
dummy prezentat anterior permite alegerea doar a unei singure variante de
rspuns. ntr-o astfel de situaie, am putea regndi itemul unic, l-am putea privi
ca fiind format din mai muli itemi dihotomici, atia cte variante de rspuns
exist. De exemplu, Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PX?; Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PY? i aa mai departe. Ar rezulta un numr de variabile
dihotomice, de tipul nu_PX, nu_PY, nu_PZ, nu_NSNR i o variabil de tip
text, de genul nu_P_Alt, n ultimul caz stocnd ceea ce va scrie respondentul
i procednd, ulterior, la o analiz calitativ (Opariuc-Dan, 2009). Exceptnd
variabila calitativ, n celelalte cazuri putem proceda la o codare dummy de
genul 1 Adevrat i 0 Fals, sau putem folosi orice alt sistem de codare
dummy dihotomic dorim, rezolvnd, astfel, problema.
O alt regul, destul de important, susine prezena
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoan ar trebui s aib valori la
toate variabilele din baza de date. n situaia n care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lips, prezena lor putnd avea consecine serioase asupra unor
categorii de tehnici de analiz de date (spre exemplu, modelele de ecuaii
structurale). Nu este ntotdeauna posibil s evitm apariia cazurilor lips,
deoarece persoanele pot refuza sau pot omite s furnizeze unele rspunsuri.
Majoritatea programelor de analiz de date au proceduri puternice de gestiune
a cazurilor lips, unele dintre ele urmnd s le discutm i noi; tot ceea ce va
trebui s reinei n acest moment, este c un caz lips va fi reprezentat prin
46
absena datelor din celula respectiv, nu prin introducerea valorii zero. Dac vei
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide i le va include n analiz, fapt ce ar putea s conduc la rezultate
profund eronate.
n fine, ultima regul pe care o vom comenta se refer la
codarea variabilelor n concordan cu sensul scalei (Field, 2005).
Anumite ntrebri pot avea o scal de rspuns inversat. De
exemplu, rspunsul ntrebarea Ct de mulumit suntei de nivelul
dumneavoastr de venit? poate fi dat pe o scal de la 1 la 5, unde 1 nseamn
foarte puin mulumit i 5 nseamn foarte mulumit. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificaiei de mai
mult. La fel de bine am putea spune c 1 nseamn foarte mulumit i 5
foarte puin mulumit, dac ne gndim c 1 ar avea semnificaia primului loc,
iar 5 semnificaia ultimului loc. tim deja c rareori msurm o variabil prin
intermediul unui singur item; de multe ori sunt necesare mai multe ntrebri,
unele fiind operaionalizate astfel nct 5 s reprezinte mult, altele ca 1 s
reprezinte mult, aceasta fiind i o tehnic de pstrare a ateniei, folosit destul
de des n psihologie. Programul de analiz de date tie doar c 5 este mai mare
ca 1, neavnd habar i nefiind interesat de modul n care am construit noi scala
de rspuns. V dai seama c dac am msura o variabil prin intermediul unui
numr de 10 itemi, 5 avnd scale de rspuns cresctoare, 5 descresctoare, din
punct de vedere al analizei de date tendinele s-ar anula reciproc (cei care
rspund cu 4 la primii 5 itemi, adic n sensul de mult, vor rspunde cu 2 la
ultimii cinci, tot n sensul de mult). De obicei, atunci cnd efectum codarea
dummy la definirea variabilelor, respectm modul n care au fost proiectai
itemii, pentru a nu crea confuzie la introducerea datelor. Cnd iniiem ns
analiza de date, vom avea grij s aducem toi itemii n sensul natural al scalei,
47
n cazul nostru transformnd, prin inversare, scorurile a 5 dintre ei, operaiune

cunoscut sub numele de recodare, astfel nct variabila final s aib acelai
sens.
Dac vom proceda inteligent, planificnd i proiectnd baza de date n
conformitate cu regulile menionate n acest capitol, vom obine, la final, un
tabel al meta-datelor clar, logic i consistent, fcnd implementarea definiiilor
o plcere, indiferent de programul n care lucrai. Dac ne vom grbi, am obine,
n cel mai fericit caz, o baz de date greu de neles, murdar, dezorganizat
i dezordonat, care pune probleme, de multe ori, chiar i persoanei care a
creat-o. n situaia cea mai neplcut, am putea constata c, dup ce am
introdus foarte multe date, unele variabile au fost proiectate greit. Abia atunci
ai putea avea motive serioase de frustrare, deoarece ai muncit degeaba.
I.5.1
Definirea variabilelor i introducerea datelor n IBM SPSS Statistics
Figura I-16 Fereastra principal IBM SPSS Statistics
IBM SPSS Statistics a ajuns la versiunea 22 n momentul n care scriem

aceste rnduri i ofer faciliti avansate de procesare statistic a datelor,
folosind o interfa grafic foarte prietenoas, relativ uor de nvat, elemente
care au stat la baza popularitii sale.
48
Pentru nceput, vom observa asemnarea cu un alt program, mult mai

bine cunoscut, i anume Microsoft Excel. Chiar dac se pot face analize de date
suficient de elaborate folosind Microsoft Excel, utilizarea unei aplicaii
specializate n analiza de date ofer o mai mare flexibilitatea i o mai bun
claritate. Microsoft Excel este, totui, un program pentru foi de calcul tabelar i
nu o aplicaie dedicat analizei de date.
n IBM SPSS Statistics, ca n orice alt aplicaie de analiz de date,
variabilele sunt reprezentate pe coloane iar datele se introduc pe rnduri.
Numele variabilelor se afieaz n capul de
tabel, fiind, implicit, var. Primul lucru pe
care va trebui s-l remarcm este tabulatorul
de comutare ntre modul de vizualizare a
Figura I-17 Tabulatorul de comutare a
modului de vizualizare
datelor i modul de definire a variabilelor,

situat n colul din dreapta jos al ferestrei
principale (vezi Figura I-17). Butonul Data View comut n seciunea destinat
introducerii datelor, aceasta fiind seciunea implicit, activ atunci cnd pornii
programul. Doar c, pentru a putea introduce datele, va trebui s fi definit n
prealabil variabilele. Nu este cazul nostru, din acest motiv va trebui s efectum
click pe butonul Variable View pentru a comuta n seciunea de definire a
variabilelor, practic o implementare computerizat a tabelului meta-datelor
discutat mai sus.
Figura I-18 Structura tabelului meta-datelor n IBM SPSS Statistics
Prima coloan a tabelului meta-datelor, Name, se refer la numele

variabilei, acel nume inteligibil pentru computer, nu pentru om. n conformitate
49
cu specificaiile prevzute n tabelul meta-datelor proiectat (vezi Tabel I-1), aici

vom introduce varsta pentru a denumi variabila Vrsta subiecilor, gen
pentru a denumi variabila Gen biologic, niv_edu pentru nivelul educaional,
i aa mai departe.
Urmtoarele trei coloane (Type, Width i Decimals) permit, toate
trei,
stabilirea
tipului
acesteia.
Ne
reamintim c variabila varsta a fost

Figura I-19 Definirea tipului unei variabile
definit ca numeric, fr zecimale,
compus din trei cifre N(3). Dup ce am terminat de introdus numele variabilei
i am prsit celula, IBM SPSS Statistics a completat automat tipul variabilei, n
funcie de configuraia sa, definind-o drept N(8.2). Adic, o variabil numeric,
avnd 8 caractere ntregi i dou caractere zecimale. Dimensiunea este mult
prea mare fa de ce avem noi nevoie, prin urmare vom scrie, n celula
Decimals, n loc de 2 cifra 0, iar n celula Width, n loc de 8 cifra 3.
Rareori vom avea nevoie s
schimbm tipul variabilei, deoarece,
aa cum tim, n analiza de date se
impune
acestora.
codarea
Dac
numeric
dorim,
putem
efectua click n celula Type din

Figura I-20 Modificarea tipului de variabil
dreptul variabilei pe care o definim,

moment n care, n partea dreapt,
se va afia un buton ce conine trei puncte de suspensie (
), pe care
putem aps pentru a se afia fereastra din Figura I-20. Primele patru opiuni
reprezint diferite moduri de definire a numerelor, n partea dreapt putnd
50
stabili numrul de cifre ale ntregilor i numrul de cifre ale zecimalelor, la fel ca
mai sus.
Opiunea
Date
are
vedere date de tip calendaristic.

Dac o alegem, n partea dreapt
dispar
elementele
Width
Decimals i apare o list din care

putei selecta formatul de dat
Figura I-21 Configurarea tipului calendaristic de
date
calendaristic
solicitat
pentru
introducerea scorurilor. Tipul de
dat calendaristic se poate folosi, de exemplu, dac dorim s stocm data

naterii, pentru ca ulterior, la analiza datelor, s putem calcula vrsta exact a
persoanelor n ani, luni, zile i ore, n funcie de nivelul de precizie solicitat.
Datele calendaristice se utilizeaz mai mult n medicin sau acolo unde putem
vorbi despre analiza seriilor temporare, ori n cercetrile experimentale de
supravieuire din industria farmaceutic.
Opiunile Dollar i Custom
currency intuii la ce se refer; n
mod cert la monede. Dac alegei
dolar, sumele vor fi exprimate n
moneda american, fiind precedate
de simbolul $. n definitiv, o
Figura I-22 Configurarea tipului monetar de date
moned este tot un numr, aa c, la

configurarea opiunii, alturi de lista
de alegere a modului de reprezentare, reapar elementele Width i Decimal

Places. Cealalt opiune permite definirea unei alte monede, exceptnd
51
dolarul. Putem alege formatul de reprezentare, numrul de ntregi i numrul

de zecimale, la fel ca n cazul monedei americane.
Opiunea String definete
iruri de caractere, texte, fiind
folosit atunci cnd avem itemi cu
rspunsuri
Altceva.
deschise,
Ce?
sau
de
genul
Altcineva.
Care? i permite introducerea de

Figura I-23 Configurarea tipului text de date
text brut. Singura modalitate de

configurare ine de numrul de
caractere acceptate, valoare pe care o putem introduce n caseta Characters.

Dup cum tii deja, un astfel de tip de date este nerecomandat n analiz, din
acest motiv fiind foarte rar folosit. Singura utilizare oarecum pertinent ar fi
aceea n care am stoca numele persoanelor, n vederea unei identificri
ulterioare.
Ultimul tip de date, Restricted Numeric, este un numr ntreg, fr
zecimale, dar la care se completeaz cu zero valorile din fa. De exemplu, dac
l-am defini ca N(3), atunci valoarea 9 va fi reprezentat ca 009 i nu simplu,
9.
Dup ce am terminat configurarea tipului variabilei, putem apsa
butonul OK pentru a memora aceste setri, sau butonul Cancel dac dorim
s prsim formularul i s revenim la configuraia iniial, fr a reine noua
configuraie.
Dac numele variabilei, aa cum l recunoate computerul, a fost
introdus n celula coloanei Name, denumirea acesteia, inteligibil pentru om,
se va introduce n celula coloanei Label. n cazul nostru, acolo vom scrie,
52
pentru variabila varsta, eticheta Vrsta subiecilor. Dac lsm

necompletat aceast celul, n rapoartele generate de IBM SPSS Statistic se va
folosi numele variabilei. Acesta va fi nlocuit dac exist informaii despre
etichet, fapt care permite o afiare mult mai elegant i mai comprehensibil
a informaiilor. Iat de ce v recomandm s completai ntotdeauna celula
Label.
Coloanele Columns i Align nu afecteaz definiia variabilelor, ci
felul n care sunt afiate datele. n celula Align putem specifica modul n care
se aliniaz textul: la dreapta (Right) n cazul numerelor, la stnga (Left) sau
centrat (Center) n cazul textelor, ns aceast convenie poate fi ignorat. n
definitiv, putei configura aspectul dup preferinele dumneavoastr. Celula
Columns permite stabilirea limii coloanei de date. Cu ct numrul este mai
mare, cu att limea coloanei variabilei respective va fi, i ea, mai mare. Nu ar
trebui s v facei probleme privind aceast valoare, deoarece putei s
modificai limea unei coloane trgnd cu mausul de linia de separaie dintre
dou coloane, ca la orice tabel.
Coloana Measure permite definirea unei caracteristici foarte
importante pentru o variabil, i anume nivelul de msur. La crearea unei
variabile, nivelul de msur nu este precizat (Unknown). Putem alege nivelul
de interval sau de raport n cazul variabilelor continui, parametrice, alegnd
opiunea Scale. Dac variabila este una discret i are categorii ordonate, vom
alege opiunea Ordinal, iar dac avem n vedere o variabil categorial,
opiunea ce va trebui aleas este Nominal.
Ultima coloan, Role, corespunde oarecum scopului variabilei din
tabelul meta-datelor (Tabel I-1). Opiunea implicit este Input i vizeaz o
variabil ale crei valori sunt introduse manual. Vorbim, astfel, de variabile
53
realizate prin observare direct, din surse externe de date, aceasta fiind situaia
tuturor variabilelor din exemplul nostru. Opiunea Target are n vedere
realizarea variabilei din alte variabile, prin transformri sau calcule. De exemplu,
dac din variabila varsta construim o nou variabil, numit grup_varsta,
aceast nou variabil este considerat de acest tip. Atunci cnd o variabil se
poate realiza i direct, i prin calcul, opiunea aleas va fi Both. De exemplu,
variabila varsta poate fi de acest tip, dac iniial am introdus manual datele,
apoi am decis s eliminm valorile vrstei pentru toi subiecii minori, acest
lucru fiind obinut n urma unei operaiuni de transformare. Opiunea None
arat c variabilei nu i-a fost atribuit niciun rol sau c rolul su nu este bine
cunoscut. De obicei, se folosete atunci cnd datele sunt importate dintr-un alt
program sau am preluat o baz de date de la o persoan nefamiliarizat suficient
cu aceast aplicaie, i nu tim cum s-au obinut, astfel, datele. Opiunile
Partition i Split se folosesc n cazul variabilelor pe baza crora se scindeaz,
logic, fiierul de date, diferena dintre ele innd doar de modul n care s-au
mprit datele. Dac scindarea bazei de date s-a realizat folosind un criteriu de
selecie a cazurilor n care s-a inclus variabila, atunci aceasta are un rol de
partiionare. Dac este vorba despre o variabil categorial, pe baza categoriilor
acesteia mprindu-se fiierul, atunci avem de a face cu o variabil Split. Spre
exemplu, putem alege una dintre cele dou opiuni dac facem analize de date
separat pentru brbai i separat pentru femei (variabila gen fiind o variabil
cu rol de Split), sau dac alegem spre analiz doar brbaii cu vrsta peste 20
de ani (variabilele gen i varsta sunt variabile de partiionare).
Declararea rolului unei variabile nu are vreun efect asupra analizei de
date, aa cum tim, ns poate comunica unui alt cercettor modul n care au
fost obinute i prelucrate datele, fapt ce arat o tratare profesional i serioas
54
a acestor sarcini. Iat cum am
reuit s definim prima variabil, vrsta
subiecilor:
Figura I-24 Definirea complet a variabilei varsta
I.5.1.1
Definirea valorilor ce vor fi tratate drept cazuri lips
Au rmas doar dou coloane pe care nu le-am discutat, una dintre

acestea fiind coloana Missing, ce nu se refer la tratarea situaiilor n care
lipsesc valori din baza de date, ci la momentele cnd anumite valori ar trebui
tratate drept cazuri lips. Pentru a defini asemenea situaii, vom apsa pe
acelai buton cu puncte de suspensie, ce va putea fi observat atunci cnd
efectum click n celula variabilei, din coloana Missing.
Implicit,
IBM
SPSS
Statistics
presupune c nu dorim s definim valori ce

vor fi tratate drept cazuri lips, asemenea
situaii innd doar de absena efectiv a
scorurilor.
Figura I-25 Definirea valorilor tratate
drept cazuri lips
Din
acest
motiv,
opiunea
selectat atunci cnd deschidei formularul

este No missing values. Am putea, spre
exemplu, desfura un sondaj de opinie, n care anumite ntrebri s aib

variantele de rspuns Nu tiu i Nu rspund. De multe ori, studiile
sociologice, mai ales n cazul opiniilor politice, presupun excluderea variantelor
de tip Nu tiu/Nu rspund, tocmai pentru a se putea sesiza distribuia
preferinelor persoanelor hotrte. Iat de ce asemenea variante de rspuns
primesc, de obicei, coduri numerice 99 sau 98, pentru o asemenea codare
optnd i n exemplul de fa. Nu putem renuna de tot la cele dou variante,
lsnd celulele necompletate, deoarece situaia nehotrilor ar putea fi
55
solicitat n vederea unei alte analize, ns putem alege opiunea Discrete

missing values. Se activeaz cele trei casete, corespunztoare introducerii unui
numr maxim de trei valori unice, acestea fiind tratate drept cazuri lips.
n situaia n care am dori ca ambele
Figura I-26 Tratarea unor valori
unice drept cazuri lips
categorii, att Nu tiu (98) ct i Nu rspund

(99), s fie tratate drept cazuri lips, computerul
ignorndu-le ca i cnd ar fi celule necompletate, am include codurile acestora

n dou dintre cele trei caste de text, ca n Figura I-26. Dac am mai avea o
variant de rspuns, de exemplu Niciunul (9), am putea include i aceast
valoare n cea de-a treia caset. IBM SPSS Statistics nu permite introducerea a
mai mult de trei valori care s fie tratate drept cazuri lips, ns sunt foarte rare
situaiile n care chiar am avea nevoie de aa ceva.
Un alt scenariu ar fi acela n care ni s-ar
solicita s tratm minorii i persoanele care nu
Figura I-27 Tratarea unui interval de au vrut, n mod explicit, s declare vrsta, ca i
valori i a unei valori unice drept
cazuri lips
cnd nu ar fi completat celulele acestei
variabile, adic s tratm aceste situaii drept cazuri lips. Minore sunt toate
persoanele cu vrsta cuprins ntre 0 i 18 ani, iar pentru persoanele care au
refuzat explicit s comunice vrsta, am ales codul 999. Realizai c ntr-o
asemenea situaie, n mod obligatoriu ar trebui s includem valoarea 999 ca
valoare discret pentru cazuri lips, altminteri ar rezulta o medie de vrst
matusalemic. Problema nu ine de aceast valoare unic, ci de intervalul de
vrst cuprins ntre 0 i 17 ani, prin urmare vom alege ultima opiune, Range
plus one optional discrete missing value. n primele dou casete putem stabili
intervalul de valori, specificnd 0 ani drept limit inferioar (Low) i 17 ani
drept limit superioar (High) iar n a treia caset (Discrete value) putem
56
introduce 999 ani, codul pentru situaia n care persoanele refuz s declare
vrsta. Problema a fost rezolvat, nu rmne dect s apsm butonul OK
pentru a memora configuraia sau Cancel pentru a prsi fereastra fr a
reine setrile.
I.5.1.2
Definirea categoriilor variabilelor calitative.
Din moment ce am terminat definirea variabilei varsta, vom trece la

urmtoarea variabil, i anume gen. Avem deja cunotinele necesare pentru
a face acest lucru, prin urmare nu vom relua toate operaiunile.
Figura I-28 Definirea meta-datelor pentru variabila gen
Tipul variabilei este, n mod cert, numeric, avnd nevoie de o singur

cifr pentru a stoca cele dou categorii, convenind s notm cu 1 genul
masculin i cu 2 genul feminin (vezi Tabel I-1). Nu uitm, desigur, s specificm
nivelul de msur, n cazul de fa cel nominal.
Toat chestiunea este c
aceast codare dummy am realizato noi, n tabelul meta-datelor, iar
IBM SPSS Statistics habar nu are c
brbaii sunt notai cu 1 i femeile
cu 2, atta vreme ct nu gsim o
Figura I-29 Codarea dummy a unei categorii
cale prin care s-i putem comunica
asta. Aceast cale chiar exist, iar pentru a o accesa este suficient s apsai
butonul cu punctele de suspensie ce apare dac vei da click pe celula variabilei
gen, n dreptul coloanei Values, ultima coloan nediscutat.
57
O codare dummy presupune, aa cum am menionat mai sus, stabilirea

valorii (un numr) i a etichetei (calitatea). Pentru genul masculin, valoarea este
1, acest numr urmnd a fi introdus n caseta Value. Eticheta acestei valori
(calitatea) este, n mod evident, Masculin, textul urmnd a fi introdus n caseta
Label. Pentru a memora aceast codare, va trebui s apsm butonul Add,
care, ntre timp, s-a activat. Vom observa cum informaiile din cele dou casete
se terg, iar asocierea valoare-etichet a fost nregistrat n lista central.
Operaiunea se repet i
pentru asocierea 2 Feminin,
introducnd
asociere
suplimentar, 3 Nedeterminat,
ns observm c, din neatenie, am
comis o greeal la denumirea
Figura I-30 Modificarea codrii unei categorii
genului feminin. Pentru a o corecta,
vom selecta asocierea fcnd click pe elementul corespunztor din list. n acel
moment, se vor ncrca, n cele dou casete de sus, valoarea i eticheta codrii
selectate. Vom opera modificrile dorite, apoi vom apsa butonul Change
pentru a le memora.
n cazul n care dup selecie
nu se modific nimic n cele dou
casete,
se
activeaz
butonul
Remove, apsarea acestuia avnd

ca
efect
tergerea
categoriei
selectate. Dac am considera c

Figura I-31 tergerea unei categorii
includerea celei de-a treia categorii,
Nedeterminat, nu reprezint o idee prea bun, am putea selecta acest

58
element i apsa butonul menionat. Imediat, asocierea va fi eliminat din list,

categoria fiind, i ea, tears.
Desigur, toate aceste operaiuni, pe care le-am efectuat pn n acest
moment, au un caracter temporar. Ele devin permanente numai dup apsarea
butonului OK. n cazul n care apsai butonul Cancel, codarea dummy va fi
ignorat.
n acest fel vei defini i
variabila niv_edu, inclusiv codarea
dummy, innd cont c acesta are
categorii ordonate, prin urmare vei
alege nivelul de msur ordinal.
A mai rmas o singur
Figura I-32 Codarea dummy n cazul variabilei
niv_edu
variabil de definit, iq, variabila n

care vom memora scorurile pentru
coeficientul de inteligen i care nu pune niciun fel de probleme dac ai neles

cele prezentate pn n acest moment. Prin urmare, ne putem acum bucura de
tabelul meta-datelor, implementat n IBM SPSS Statistics.
Figura I-33 Tabelul complet al meta-datelor variabilelor, implementat n IBM SPSS Statistics
I.5.1.3
Realizarea variabilelor i salvarea bazei de date
Am ajuns la jumtatea drumului, ns avem satisfacia de a fi creat o baz

de date cu variabile foarte bine definite i care respect exigenele oricrui nivel
de cercetare. Nu rmne dect s trecem la cea de a doua etap, la realizarea
acestor variabile, adic la introducerea scorurilor. Folosind tabulatorul de
59
comutare a modului de vizualizare, acela situat n colul din stnga-jos al

ferestrei principale, vom apsa pe Data View pentru a prsi modul de
configurare a variabilelor i a intra n modul de introducere a datelor.
Baza de date este goal, doar
nu v-ai fi ateptat s se populeze
Figura I-34 Structura bazei de date n modul de
vizualizare a datelor
singur. Capul de tabel conine

numele variabilelor, iar dac vei ine
mausul circa 2 secunde deasupra unui nume, vei putea afla, ntr-o etichet
ajuttoare, i denumirea sa.
n acest moment, ne vom
deplasa n celula primului rnd din
Figura I-35 Baz de date completat cu scoruri n prima coloan i vom introduce
modul de afiare al valorilor
vrsta primei persoane, n cazul
nostru, 23 de ani. Apsm apoi tasta Tab sau sgeata orientat nspre dreapta
pentru a introduce genul biologic. Cum acea persoan este brbat, vom scrie
cifra 1, iar n urmtoarea coloan vom scrie cifra 3, deoarece subiectul a absolvit
doar gimnaziul. n fine, acesta pare a fi un geniu, chiar dac nu a mai urmat
liceul, deoarece coeficientul su de inteligen este 125. O nou apsare a tastei
Tab ne va conduce la prima coloan a celui de-al doilea rnd, pregtind
introducerea unui al doilea subiect.
Acest mod de vizualizare i introducere a datelor poart numele de
vizualizare bazat pe valori, deoarece se afieaz, n cazul
Figura I-36 Mod de
vizualizare bazat
pe valori
variabilelor discrete, valorile categoriilor, exprimate numeric.

Pe bara de instrumente, n zona din dreapta, se afl butonul
de comutare ntre modul de vizualizare bazat pe valori (cazul
n care butonul nu este apsat) i modul de vizualizare bazat pe etichete (cazul

60
n care butonul apare ca fiind apsat), acionarea succesiv a acestuia

comutnd, n mod repetat, ntre cele dou moduri.
n vizualizarea bazat pe
etichete, variabilele discrete nu mai
Figura I-37 Baz de date completat cu scoruri n sunt
modul de afiare al etichetelor
prezentate
sub
form
numeric, ci direct n varianta
calitativ, conform codrii dummy. Chiar dac dumneavoastr vei tasta numere
n continuare, acestea vor fi prezentate ca etichete asociate. Putei alege orice
variant dorii, fiecare are avantaje i dezavantaje, ns modul de vizualizare
bazat pe valori este considerat a fi mai rapid.
Dup ce ai creat o baz de date, v recomandm s o
salvai ntr-un fiier pe disc. Putei face acest lucru foarte
Figura I-38 Salvarea
simplu, apsnd butonul de forma unei dischete albastre,
i ncrcarea bazei
de date
situat pe bara de instrumente sau accesnd opiunea Save
ori Save As din meniul File. Dac baza de date este nou creat, vi se va
solicita numele fiierului, toate bazele de date IBM SPSS Statistics, indiferent de
versiune, avnd extensia sav. ncrcarea unei baze de date IBM SPSS Statistics
se poate face apsnd butonul sub forma unui dosar galben sau accesnd
meniul File, submeniul Open i opiunea Data. Nu intrm n detalii,
deoarece operaiunile de salvare i ncrcare a fiierelor reprezint lucruri
cunoscute, sarcinii curente ale utilizatorilor de computere.
n continuare, ai putea petrece un timp cu baza de date nou creat i s
o completai cu date, astfel nct s reuii s strngei circa 30-40 de
nregistrri. Nu uitai s salvai, din cnd n cnd, deoarece riscai s pierdei tot
ce ai lucrat n cazul n care vi se blocheaz computerul sau se ntrerupe curentul
electric.
61
I.5.1.4
Utilizarea sintaxei pentru crearea unei baze de date
Procedeele descrise anterior sunt foarte bune atunci cnd avem de

definit un numr relativ redus de variabile. Exist i cercetri n care putem lucra
cu sute sau mii de variabile, mai ales n domeniul psihometriei, la construcia
sau adaptarea instrumentelor de diagnostic psihologic. n cazul n care am lucra
cu un chestionar avnd 400 sau 500 de itemi, ne-ar lua foarte mult timp pentru
a defini, urmnd etapele de mai sus, toate aceste variabile.
Ne putem pune problema dac nu cumva ar exista o modalitate mai
rapid, mai eficient de a face acest lucru, iar rspunsul l vom gsi doar dac
apelm la limbajul de script al IBM SPSS Statistic i nvm s lucrm cu fiierele
de sintax.
S considerm cazul n care am avea de studiat
proprietile unei scale de anxietate format din 420
de ntrebri dihotomice (cu rspuns de tip Da/Nu),
urmnd, de asemenea, s stocm vrsta subiecilor,
genul biologic i nivelul educaional. Pe lng
variabilele gen, varsta i niv_edu, definite deja,
vom avea alte 420 de variabile, de la anx001 la
anx420. n total, un numr de 423 de variabile pe
care va trebui s le definim pentru a construi o baz de date, iar dac ne-am
apuca s o facem folosind modul Variable View, este posibil s dureze cel puin
o zi ntreag.
Ar fi mai simplu i mai
rapid dac am accesa meniul
File, am alege submeniul
New i opiunea Syntax
pentru a crea un nou fiier de
sintax, n care s putem scrie
comenzi fr a trebui s nvm
programare.
Figura I-39 Aplicaia IBM SPSS Statistics destinat
introducerii de sintax
Cea mai mare parte a

ferestrei
este
destinat
introducerii codului SPSS, aplicaia beneficiind i de o bar de instrumente cu
62
ajutorul creia se pot efectua diferite aciuni. O parte a sintaxei este nativ SPSS,
provenind de la versiunile mai vechi, o alt parte putnd reprezenta cod n
adevratul sens al cuvntului, deoarece versiunile noi IBM SPSS Statistics au
implementat i limbajul de programare Python, pe care l putei accesa doar
dac ai optat i pentru instalarea acestuia atunci cnd a fost instalat IBM SPSS
Statistics.
Pentru ceea ce ne intereseaz, sintaza nativ SPSS este suficient, prin
urmare nu vom lungi expunerea cu alte limbaje de programare. Vom da click n
fereastra de editare a codului i vom ncerca s definim prima variabil, genul
biologic.
* DEFINIRE VARIABILA "gen".
n mod sigur v-ai fi ateptat la altceva mai complicat. n realitate nu am

scris nicio linie de sintaz, doar am introdus un comentariu. n SPSS, comentariile
ncep cu o stelu (*) i in pn cnd ntlnim semnul punct (.).
NUMERIC gen (F1.0).
Iat prima comand real n SPSS, pe care o scriem pe urmtoarea linie.

n acest moment am definit o variabil numit gen (este numele tiut de
computer, echivalentul coloanei Name), am definit tipul numeric (echivalentul
coloanei Type) i am precizat numrul de cifre (1) i numrul de zecimale (0),
folosind expresia (F1.0), litera F provenind de la Format. Evident, comanda
se ncheie cu semnul punct (.).
VARIABLE LABELS gen 'Genul biologic al subiecilor'.
A venit momentul s stabilim denumirea, echivalentul coloanei Label.

Pe a treia linie, vom scrie comanda de mai sus, urmat de numele variabilei
creia dorim s-i atribuim o etichet (variabila gen) i de textul etichetei, ntre
ghilimele simple, sintaxa terminndu-se, din nou, cu semnul punct (.). Astfel, am
stabilit i denumirea variabilei n limbaj inteligibil pentru om.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
Desigur, urmeaz codarea dummy, echivalentul coloanei Values.

Lucrurile par a fi chiar mai simple n comparaie cu metoda descris anterior.
Observm c trebuie s scriem comanda, urmat de numele variabilei pe care o
vom coda, apoi categoriile, una dup alta, nti valoarea, apoi eticheta ntre
ghilimele simple. Nu uitm s scriem aceast comand pe o linie nou i s o
ncheiem cu semnul punct (.).
VARIABLE LEVEL gen (NOMINAL).
63
Ultimul lucru pe care l mai avem de fcut este s stabilim nivelul de

msur. Astfel, vom scrie pe o linie nou comanda specificat mai sus, urmat
de numele variabilei i de precizarea, ntre paranteze, a nivelului de msur, n
cazul de fa fiind vorba despre nivelul nominal. Nu uitm s nchidem comanda
folosind semnul punct (.).
Dac au fost respectate toate cele expuse mai sus, n fiierul
dumneavoastr de sintax va trebui s avei urmtoarele comenzi pentru a
defini variabila gen:
Figura I-40 Comenzi necesare definirii variabilei gen
Definirea variabilei varsta este chiar mai simpl, aceasta fiind o

variabil continu, fr codare, i nu ar trebui s v pun niciun fel de probleme.
* DEFINIRE VARIABILA "varsta".
NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vrsta subiecilor n ani mplinii'.
VARIABLE LEVEL varsta (SCALE).
n cazul variabilei niv_edu, s urmrim o situaie interesant i care ne

va clarifica rolul semnului punct (.):
Codarea dummy, n cazul acestei variabile, implic destul de multe

categorii. Dac le-am pune pe o singur linie, am risca s pierdem irul i s ne
ncurcm. Iat c, sintaxa SPSS permite scrierea unei comenzi pe mai multe linii,
programul considernd o comand ncheiat atunci cnd ntlnete punctul.
64
Pn n acest moment lucrurile sunt destul de clare i suficient de simple.

Urmeaz partea cea mai mare consumatoare de timp, aceea n care va trebui s
crem cele 420 de variabile dihotomice, corespunztoare celor 420 de itemi ai
scalei de anxietate.
* DEFINIRE ITEMI SCALA DE ANXIETATE.
NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).
Doar att? Exact! Sunt suficiente dou linii pentru a crea 420 de variabile,
linii pe care le putem scrie n 20 de secunde, dar care ne pot salva cel puin o zi
de munc. i ca s sintetizm, ntregul cod necesar pentru a crea baza de date
este scris astfel:
* DEFINIRE VARIABILA "gen".
NUMERIC gen (F1.0).
VARIABLE LABELS gen 'Genul biologic al subiecilor'.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
VARIABLE LEVEL gen (NOMINAL).
* DEFINIRE VARIABILA "varsta".
NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vrsta subiecilor n ani mplinii'.
VARIABLE LEVEL varsta (SCALE).
* DEFINIRE VARIABILA niv_edu.
NUMERIC niv_edu (F1.0).
VARIABLE LABELS niv_edu 'Nivelul educaional'.
VALUE LABELS niv_edu 1 'Fr studii' 2 'Primare (1-4)' 3
'Gimnaziu (5-8)' 4 'Liceu (9-12)' 5 'Bacalaureat' 6
'Universitate (Licen)' 7 'Universitate (Master)' 8 'Doctorat'
9 'Postdoctorale'.
VARIABLE LEVEL niv_edu (ORDINAL).
* DEFINIRE ITEMI SCALA DE ANXIETATE.
NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).
Acest cod poate fi salvat ntr-un fiier (avnd extensia sps) i poate fi
executat n totalitate alegnd, din meniul Run, comanda All. Aceast aciune
ar trebui s funcioneze cel puin teoretic, doar c genereaz erori la ncercarea
de creare a unei baze de date noi. Din acest motiv, nainte de a rula codul, vom
crea o variabil oarecare n baza de date, folosind modul tradiional, Variable
View, chiar dac ulterior o vom terge:
Figura I-41 Prezena unei variabile oarecare nainte de rularea sintaxei
65
Acum putem rula liniti sintaxa, accesnd comanda de mai sus, i n doar
cteva fraciuni de secund toate cele 423 de variabile ale bazei de date vor fi
create.
Figura I-42 Baz de date cu 423 de variabile creat prin sintax SPSS
Mai rmne un singur lucru de fcut: s dm click pe primul rnd al

tabelului meta-datelor pentru a selecta variabila creat manual (n cazul de fa
variabila numit de_sters, apoi s apsm tasta Delete pentru a o terge.
Iat c am reuit cu un efort minim, de doar cteva minute, c crem o baz de
date cu foarte multe variabile, apelnd la puterea ascuns n sintaxa
programului IBM SPSS Statistics.
Sintagma nu conteaz ct munceti, ci cum munceti i arat
veridicitatea i n acest caz. Am fi putut petrece ore sau zile definind variabilele
bazei de date, sau am fi apelat la sintaz, ntregul proces durnd doar cteva
minute. Din acest motiv, pare a fi o idee bun s includem, acolo unde va fi cazul,
i sintaza SPSS, dumneavoastr alegnd stilul de lucru care v convine cel mai
mult.
I.5.2
Definirea variabilelor i introducerea datelor n R cu Deducer

Dup lansarea mediului R, va trebui s introducem secvena de comenzi
pe care o cunoatei deja pentru a porni Jaguar. Desigur, exist i o modalitate

prin care putem iniia automat Jaguar, atunci cnd lansm R, ns pe aceasta o
vom discuta ntr-un alt curs.
library(JGR)
JGR()
66
Dac ai ales s porneasc automat cele dou pachete Deducer, aa cum

am prezentat n capitolul I.4.2, interfaa Jaguar va lansa ecranul de pornire:
Figura I-43 Ecranul de pornire al interfeei Jaguar cu Deducer
Am putea ncepe prin a apsa butonul

New Data, pentru a crea o nou baz de
date R, tehnic numit set de date (Data Set).
n prima etap nu avem prea multe de fcut,
Figura I-44 Denumirea setului de date

dect s dm un nume bazei de date, optnd,
n Jaguar
de exemplu, pentru denumirea Laborator01, apoi vom confirma acest lucru

apsnd butonul OK.
Jaguar va lansa fereastra
de vizualizare a setului de date,
n care putem remarca cele dou
butoane de comutare a modului
de vizualizare, Data View i
Variable View. Se pare c
Figura I-45 Modul de definire a variabilelor n Jaguar
Markus Helbig, creatorul acestei
interfeei, nu este strin de IBM SPSS Statistics.
67
Mediul R este gndit mai mult ca un mediu de programare, adresabil

profesionitilor, fiind axat pe putere i flexibilitate i nu pe interfee frumoase i
prietenoase. Avnd n vedere faptul c este mult mai puternic dect IBM SPSS
Statistic la analiza datelor i, ceea ce este cel mai important, este absolut gratuit,
merit efortul de a-l nva. n cazul n care dorii s creai un set de date fr a
mai face click pe butoane, putei lansa comanda:
Laborator01 <- data.frame()
n partea din stnga a formulei ai

introdus
numele
respectnd
setului
conveniile
de
de
date,
notare
Figura I-46 Crearea unui set de date n linia

specificate n capitolul I.5, iar n partea
de comand
dreapt am specificat tipul obiectului ce va fi creat sub acel nume. n limbaj

uman, e ca i cum am spune mediului R creeaz-mi un obiect nou de tip set de
date (data.frame) i denumete-l (stocheaz-l n) Laborator01, sgeata la
stnga i semnul minus (<-) fcnd legtur dintre cele dou pri, artnd,
practic, sensul.
Proiectarea variabilelor este mult mai simpl comparativ cu procedura
descris anterior. n coloana Variable va trebui s introducem numele
variabilei, acel nume inteligibil pentru computer. Nu avem posibilitatea de a
stabili o etichet, un rol sau un nivel de msur, aa cum am procedat n cazul
aplicaiei anterioare.
Coloana Type permite selectarea tipului variabilei. Atunci cnd nu
avem zecimale, putem alege tipul Integer, iar dac variabila are zecimale, vom
alege tipul Double. n cazul unei variabile dihotomice, cu valori 0 i 1, am putea
alege tipul Logical, iar datele calendaristice i timpul sunt reprezentate de
variabile de tip Date, respectiv Time. Desigur, dac dorim s introducem un
68
text, putem alege tipul Character, variabilele discrete (nominale sau ordinale)
fiind reprezentate de tipul de date Factor.
n cazul variabilei varsta, lucrurile sunt foarte simple. Tot ceea ce avem
de fcut este s scriem numele acesteia i s alegem tipul ntreg de date. Nu mai
stabilim numrul de cifre i/sau de zecimale, aa cum am fi procedat n IBM SPSS
Statistics. Pentru nceput, vom defini toate cele patru variabile i vom stabili
tipul de date al variabilelor varsta i iq la numere ntregi (Integer), iar tipul
de date al variabilelor gen i niv_edu la factori (Factor).
Figura I-47 Definirea numelui variabilelor i a tipului de date folosind Jaguar
Spre deosebire de IBM SPSS Statistics, n R toate variabilele

discrete se vor declara ca factori. n cazul n care avem de a face
cu o variabil ordinal, aceasta se va numi factor ordonat. n
situaia noastr, variabila gen este un factor, iar variabila niv_edu este un
factor ordonat. Singura problem pe care va
trebui s o rezolvm este aceea a realizrii
codrilor dummy. Folosind o variabila definit ca
factor, spre exemplu niv_edu, vom efectua
click n celula din coloana Factor Levels a
acelei variabile pentru a deschide formularul de
codare. Fiind o variabil ordinal, n primul rnd
va trebui s specificm acest lucru prin bifarea
Figura I-48 Codarea dummy
folosind Jaguar
casetei Ordered. Apoi, vom putea folosi

butonul plus (+) de culoare verde pentru a
69
introduce, pe rnd, toate asocierile, aa cum au fost ele precizate n tabelul

meta-datelor.
Adugarea unui categorii se realizeaz
foarte simplu, prin scrierea etichetei calitative
i apsarea butonului OK. n cazul nostru,
prima categorie este Fr studii. Am scris
Figura I-49 Adugarea unei
categorii n codarea dummy
acest text n caseta Please enter the new
factor level i apoi apsm OK fr a face vreo alt specificare. Nu este bine
s introducei diacritice sau alte caractere speciale. Vom prefera, n mediul R, s
folosim alfabetul latin standard, deoarece prin utilizarea de caractere speciale
riscm s apar erori destul de greu de identificat i tratat.
Dup
apsarea
butonului
OK,
formularul de introducere a noii categorii se

nchide, aceasta fiind adugat n lista Levels.
Apsnd din nou butonul plus (+), vom putea
aduga cea de-a doua categorie, n cazul nostru
vorbind despre cei cu studii primare. n
momentul n care am adugat aceast etichet,
observm c Jaguar a trecut-o pe primul loc.
Figura I-50 Lista categoriilor unei
variabile discrete
Fiind o variabil ordinal, acest lucru ne poate

pune probleme. Putem selecta categoria, fcnd
click pe numele ei n lista Levels, apoi o putem muta n sus sau n jos, folosind
butoanele de tip sgeat albastr. n fine, o putem elimina, apsnd butonul
minus (-) de culoare roie.
Deoarece avem destul de multe categorii, vom proceda n alt fel.
Selectm cele dou categorii incluse pn acum i le eliminm, folosind butonul
70
minus (-) de culoare roie, apoi apsm butonul plus (+) de culoare verde i
introducem ultima categorie (Postdoctorale). Continum la fel, descresctor,
pn la prima categorie (Fr studii).
Mai mult ca sigur, problema descris
anterior este o eroare de programare, ns acum
avei i metoda prin care o putei evita.
Introducnd
descresctor
categoriile
unei
variabile ordinale, vei renuna s facei, mai

apoi, alte modificri. Iat, din nou, utilitatea unei
bune proiectri a bazei de date. Fr s avem n
fa tabelul meta-datelor, ne-ar fi fost mult mai
Figura I-51 Codarea categoriilor n
cazul unei variabile ordinale
greu s realizm aceste operaiuni, mai ales c
lucrm descresctor cu un numr destul de mare de categorii. Pentru a memora

toate aceste modificri, vom apsa butonul OK i putem observa, n tabelul
meta-datelor, cum s-a operat codarea dummy.
Figura I-52 Codarea dummy operat n tabelul meta-datelor.
n mod similar vom proceda i pentru a coda variabila gen, avnd grij
s nu mai bifm caseta Ordered, deoarece variabila este una categorial, astfel
nct nu mai conteaz nici ordinea n care introducem datele.
Tabelul meta-datelor este acum complet (vezi Figura I-53), rmne doar
s apsai butonul de forma unei dischete negre de pe bara de instrumente sau
s alegei opiunea Save Data, din meniul File, pentru a-l salva ntr-un fiier.
71
Figura I-53 Tabelul complet al meta-datelor implementat n Jaguar
Seturile de date n R au extensia rda sau rdata, astfel nct va trebui

s alegei opiunea corect (R (*.rda, *.rdata)) atunci cnd selectai tipul
fiierului ce va fi salvat.
I.5.2.1
Realizarea variabilelor n Jaguar
Figura I-54 Baza de date complet n R
Modul de introducere a datelor n baza de date nou proiectat nu difer

fa de cele specificate n capitolul anterior. Putem folosi tasta Tab sau
sgeile pentru a naviga prin celule i a introduce date, asta dup ce, n prealabil,
am comutat n modul Data View. Ne putem da seama dac o variabil este
continu sau discret dup modul n care se aliniaz datele n celule. n cazul
variabilelor varsta i iq, numerele se aliniaz la dreapta, n timp ce pentru
variabilele gen i niv_edu, acestea au o aliniere la stnga, specific literelor.
72

I.5.2.2
Crearea unei baze de date n R folosind limbajul de programare
Am vzut deja beneficiile nsuii unei sintaxe i am demonstrat

convingtor c, fr s ne speriem prea tare de comenzi, folosind sintaxa, ne
putem face treaba mult mai repede, mai eficient i, mai ales, n condiii ideale
de control. Dac am czut de acord asupra acestui lucru, de ce s nu facem un
pas mai departe, n direcia nsuirii unui limbaj.
Vom relua situaia n care dorim construcia
bazei de date cu 423 de variabile, solicitat n procesul
de adaptare a scalei de anxietate. De data aceasta nu
mai avem la dispoziie IBM SPSS Statistics i va trebui
s ne mulumim cu R. Din pcate, orice interfa
vizual am utiliza, rezultatul ar fi acelai enorm de
mult timp consumat. Pentru eficien, va trebui s
apelm la limbajul R. ntr-adevr, R nu mai este un
limbaj de scripturi, o sintax n sensul celei pe care o are IBM SPSS Statistics,
ci un adevrat limbaj de programare, specializat n analiza de date.
Primul pas ar fi s crem un set de date, partea bun fiind aceea c deja
tii cum se face. Nu avem nevoie de Jaguar pentru asta, din acest motiv este
recomandat s nchidei complet R, apoi s-l repornii doar n fereastra sa de
comenzi (vezi Figura I-9), n care vom tasta o comand deja tiut:
Laborator01<- data.frame(t(rep(NA, 423)))
De aceast dat, nu mai dorim s crem un set gol, ci un set cu un numr

de 423 de variabile. Am comunicat mediului R s construiasc un tabel, adic s
adauge coloane, nu rnduri (folosind funcia t), repetnd un numr de 423 de
variabile neconfigurate (folosind funcia rep) i fr a se iniializa cu date,
adic fr nicio nregistrare (specificnd NA). Este chiar mai simplu dect n
sintaxa SPSS, dar dup apsarea tastei Enter, pentru a executa comanda, mediul
R pare s nu reacioneze, s nu fac nimic. n realitate, setul de date numit
Laborator01 a fost deja creat, iar dac vrei s v convingei, tastai numele
su:
Laborator01
73
ntr-adevr, s-au creat 423 de variabile, notate de la X1 la X423,

variabile pe care va trebui acum s le configurm n conformitate cu specificaiile
tabelului meta-datelor. Pentru nceput, va trebui s stabilim numele acestora,
deoarece ne va fi extrem de incomod s lucrm cu denumirile date de R. Primele
trei variabile sunt varsta, gen i, niv_edu, celelalte fiind denumite de la
anx_1 la anx_420, prefernd utilizarea liniei de subliniere pentru a spori
lizibilitatea. Dei pare o sarcin dificil, am putea s o facem cu doar dou
instruciuni:
colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu')
colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')
n prima instruciune am comunicat mediului R s redenumeasc primele

trei variabile ale setului de date Laborator01, folosind etichetele furnizate
ntre parantezele funciei c (se refer la un vector de caractere). Dup
apsarea tastei Enter i executarea instruciunii, putem tasta, din nou, numele
setului de date, pentru a vedea ce s-a ntmplat:
Observm c primele trei variabile au fost redenumite, n timp ce toate

celelalte au rmas neschimbate. A doua instruciune este ceva mai complex.
Am comunicat mediului R s redenumeasc toate variabile, de la a patra la a
423-a, construind, prin lipire (funcia paste), numele variabilei format din
cuvntul anx, i un numr succesiv, ntre 1 i 420, ntre cuvnt i numr
existnd separatorul liniu de subliniere, definit cu ajutorul parametrului sep.
Dup ce executm instruciunea i tastm numele setului de date, observm c
toate variabilele au fost redenumite n conformitate cu specificaiile noastre:
n momentul n care le-a creat automat, mediul R le-a stabilit ca fiind de

tipul logic (0 sau 1). Suntem interesai s le redefinim pe toate de tipul ntreg,
dou dintre ele urmnd s fie fcute factori (gen i niv_edu). Acest proces
de redefinire se face cu ajutorul unei singure instruciuni:
Laborator01[,1:423]<-as.integer(Laborator01[,1:423])
Modalitatea n care referim o celul ntr-un set de date R se face prin

specificarea, ntre paranteze ptrate, a rndurilor i coloanelor. De exemplu,
dac scriem Laborator01[5,4], nseamn c ne referim la scorul obinut de
ctre persoana de pe al cincilea rnd, la variabila situat n cea de-a patra
74
coloan. Similar, n instruciunea de mai sus, am comunicat programului R s

schimbe tipul de date stocat n coloanele de la 1 la 423, din tipul de date existent
(logic), n tipul de date numeric. Faptul c n faa virgulei nu se afl nicio alt
valoare ne spune c nu ne referim la vreun rnd, doar la coloane.
tim c dou dintre variabile vor trebui definite ca factori, fiind supuse,
dup cum probabil v-ai dat seama, operaiunii de codare dummy. Pentru a
putea s accepte aceast operaiune de codare, cele dou variabile vor fi
transformate din numere ntregi, n factori:
Laborator01$gen<-as.factor(Laborator01$gen)
Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)
Referirea unei variabile dintr-un set de date se face preciznd setul de

date, apoi numele variabilei, precedat de semnul dolar ($). Atunci cnd scriem
Laborator01$gen, am comunicat mediului R c avem n vedere variabila gen
din setul de date Laborator01. Codul de mai sus spune mediului R s preia o
variabil existent, s o transforme n variabil discret (factor) i s o
memoreze sub acelai nume. Am pregtit cele dou variabile, ns nu am definit
categoriile, nu am efectuat codarea dummy. n cazul variabilei gen, am putea
scrie:
Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",
"Feminin"), ordered=FALSE)
Chiar dac este o comand ceva mai lung, asta nu nseamn c poate
fi considerat i complicat. Practic, am spus mediului R s preia variabila
existent gen, s includ categoriile Masculin i Feminin, fr a crea o
relaie de ordine ntre ele, apoi s memoreze rezultatul n variabila cu acelai
nume, adic tot n variabila gen.
Indiferent c variabila este nominal sau ordinal, ordinea n care vom
introduce etichetele va da ordinea de atribuire automat a valorilor. n cazul
prezentat, valoarea pentru masculin va fi 1, iar cea pentru feminin va fi doi. Dac
dorii ca femininul s fie codat cu 1 i masculinul cu 2, atunci va trebui s
inversai ordinea celor dou etichete dintre parantezele comenzii levels. n R,
faptul c am scris c(), arat c ntregul coninut cuprins ntre cele dou
paranteze va fi tratat ca ir de caractere, ca text.
Sarcina dumneavoastr va fi s implementai codarea dummy n cazul
ultimei variabile, niv_edu. Vei avea nou categorii i va trebui s fii ateni la
ordinea n care le scriei, deoarece, de aceast dat, avem de a face cu o
variabil ordinal. Nu trebuie s uitm, n final, s nlocuim ordered=FALSE cu
ordered=TRUE, pentru a comunica mediului R c are de a face cu un factor
ordonat.
75
Nu ar exista motive s nu reuii. n acest moment, ar trebui s avei bine

definite cele patru variabile i setul de date. Pentru a vedea ce obiecte exist, la
un moment dat, n spaiul de memorie al mediului R, putei folosi o nou
comand:
ls()
ntr-adevr, obiectele create exist, dar a aprut i ceva n plus, un nou

obiect cu care ne-am jucat i am uitat de el, este vorba despre sterge_ma.
Dac ne ordon mediul R s o facem, atunci ar trebui s ne conformm. Vom
folosi, pentru a elimina obiecte, comanda:
rm(sterge_ma)
ntre paranteze vom scrie numele obiectului pe care dorim s-l tergem,
dup care executm comanda prin apsarea tastei Enter. Pentru a verifica,
folosii, din nou, comanda ls(). Vei putea reine mai uor aceste comenzi dac
vei ti c ls provine de la list structure iar rm de la remove; deja pare s
aib alt sens.
Am cam terminat de configurat baza de date. Pentru a rezuma, vom
prezenta ntregul cod, scris n R, pentru a crea o baz de date cu 423 de variabile,
dintre care doi factori codai dummy:
Laborator01<- data.frame(t(rep(NA, 423)))

colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu')
colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')
Laborator01[,1:423]<-as.integer(Laborator01[,1:423])
Laborator01$gen<-as.factor(Laborator01$gen)
Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)
Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",
"Feminin"), ordered=FALSE)
Laborator01$ niv_edu <-factor(Laborator01$ niv_edu, levels=
c("Fara studii", "Primare (1-4)", "Gimnaziu (5-8)", "Liceu
(9-12)", "Bacalaureat", "Universitare (Licenta)",
"Universitare (Master)", "Doctorat", "Postdoctorale"),
ordered=TRUE)
Pare simplu, pare complicat, dumneavoastr vei decide. n orice caz,

atunci cnd avem de a face cu foarte multe variabile, utilizarea interfeei grafice
este cea mai proast alegere, deoarece v consum enorm de mult timp. Prin
sintax sau prin cod, putei rezolva problema eficient. De fapt, poate ai fi
surprins s aflai c linia de comand reprezint, de multe ori, metoda preferat
76
a profesionitilor n analiza de date, mai ales atunci cnd au de rezolvat sarcini

complexe.
Ultimul lucru rmas este s salvm baza de date ntr-un fiier pe disc. Nu
cred c ai fi surprini dac ai afla c i aceast operaiune se realizeaz tot prin
intermediul unei singure linii:
save(Laborator01, file='D:/Set date R.Rda')
Mediul R a salvat baza de date n fiierul numit Set de date R, stocat pe

discul D. Pentru a vedea cum arat tabelul meta-datelor pe care tocmai l-am
creat, vom lansa interfaa grafic Jaguar i vom ncrca fiierul salvat.
Figura I-55 Tabelul meta-datelor pentru baza de date creat n cod R
Chiar dac unii consider c programul R este neprietenos, greu de

folosit, ai putut constata i singuri c lucrurile nu stau chiar aa. Cu toate c nu
are uurina n utilizare pe care ne-o ofer IBM SPSS Statistics i se apropie mai
mult de un limbaj de programare (ceea ce i este de fapt), R merit nvat
datorit puterii pe care o are i a faptului c este disponibil gratuit.
I.6
Concluzii, exerciii i probleme

Nu am putea s ncheiem acest capitol fr o
sintez a ceea ce am aflat, asta pentru a v ajuta s v
reamintii cele parcurse i, de asemenea, fr a v
propune o serie de exerciii, probleme i teme de
meditaie.
77
Am vzut c termenii de statistic i analiz de date sunt sinonimi pn la un punct,

dup care semnificaia lor este puin diferit, iar n domeniul tiinelor socio-umane
studiem mai curnd analiz de date dect statistic.
IBM SPSS Statistics, R, STATA, SAS, Statistica i alte programe de acest tip sunt
instrumente, nu reprezint nici statistica, nici analiza de date. Utilizarea acestor
instrumente este condiionat de nsuirea principiilor analizei de date, altminteri
se poate ajunge la situaii delicate sub aspectul corectitudinii demersului cercetrii
tiinifice.
Obiectele i fenomenele pot fi cunoscute prin menionarea caracteristicilor

acestora, fiind particularizate n momentul n care aceste caracteristici dobndesc
valori, acordate n baza unor reguli.
n domeniul socio-uman, obiectele i fenomenele nu pot fi cunoscute n mod direct,

ci prin intermediul unor comportamente manifeste asociate acestora. Trecerea de
la o dimensiune general, la indicatori ai dimensiunii i apoi la comportamente
directe, observabile, poart numele de operaionalizare a constructului
Pentru a vorbi despre o msurare, trebuie ca acel construct s poat fi cuantificat,

s se specifice caracteristice ce urmeaz a fi msurate (indicatorii) i s se gseasc
o regul pe baza creia s se poat atribui un numr caracteristicii msurate.
n tiinele socio-umane nu putem msura n mod direct, nu putem afla cantitatea

de construct, din acest motiv astfel de caracteristici numindu-se factori lateni;
n analiza de date, caracteristica msurat poart numele de variabil, definit

printr-o mulime de valori teoretic i o mulime de valori empiric, variabilele
putnd fi calitative sau cantitative, discrete, atunci cnd mulimea de valori este
finit, numrabil i continui, atunci cnd mulimea de valori este infinit,
nenumrabil.
Variabilele discrete se mai numesc i neparametrice sau calitative i pot fi nominale

(categoriale) atunci cnd nu se poate pune o relaie de ordine ntre categoriile lor
i ordinale (ierarhice) atunci cnd categoriile finite pot fi ordonate.
Variabilele continui se mai numesc i parametrice sau cantitative i pot fi de

interval, atunci cnd intervalele dintre dou categorii sunt egale dar nu exist un
zero absolut i de raport cnd exist un zero absolut.
IBM SPSS Statistics este o aplicaie de analiz de date puternic i prietenoas, cu

o interfa grafic uor de folosit, dar comercial i, prin urmare, costisitoare, n
timp ce R este un mediu foarte puternic de programare i de analiz de date, mai
puin prietenos, chiar dac accept mai multe interfee grafice, ns gratuit.
Analiza datelor nu ncepe cu definirea variabilelor ntr-un program, ci cu

proiectarea bazei de date i specificarea tabelului meta-datelor.
78
Proiectarea corect a unei baze de date se face n conformitate cu anumite reguli:

(a) denumirea variabilelor i distincia ntre nume i etichet; (b) numrul maxim
de caractere n numele variabilei; (c) rnduri i coloane unice; (d) codarea pentru
obinerea maximului de informaie; (e) exhaustivitatea categoriilor; (f) codarea
numeric a categoriilor (g) exclusivitatea mutual a codurilor; (h) absena cazurilor
lips; (i) codarea n sensul scalei.
Definirea variabilelor, indiferent c vorbim despre IBM SPSS Statistics sau R,

reprezint implementarea tabelului meta-datelor n aplicaia computerizat i se
poate realiza fie prin intermediul interfeei grafice, fie folosind codul.
n IBM SPSS Statistics nu avem un limbaj de programare, ci doar unul de script, spre
deosebire de R, unde vorbim despre un adevrat limbaj de programare.
Indiferent de aplicaie, implementarea unei baze de date se face mai rapid i mai
uor folosit codul, mai ales atunci cnd aceasta conine un numr mare de variabile.
I.6.1
Exerciii i probleme
79

Capitolul I - Masurarea in Stiintele Socio-Umane PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Capitolul I - Masurarea in Stiintele Socio-Umane PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Cristian Opariuc-Dan

Msurarea n tiinele socio-umane

CE CONINE ACEST CAPITOL?

Msurarea n tiinele socio-umane

Statistic, analiz de date sau SPSS?

ca disciplin, statistica, fie c vorbim despre cea psihologic, sociologic,

tiin n cadrul unei faculti de psihologie, sociologie, tiine economice sau

Msurarea n tiinele socio-umane

Pornind de la cele trei definiii, putem observa cu uurin faptul c n

Staatswissenschaft, aprut n 1748, n care apare cuvntul Statistik, avnd

Msurarea n tiinele socio-umane

Dac am lmurit c n domeniul socio-uman nu studiem statistic, n

Sensul i semnificaia termenului de msurare

realizeaz prin simuri. Cu ajutorul acestora percepem obiectele, fenomenele,

o imagine extrem de personalizat i care difer radical de imaginea pe care o

Msurarea n tiinele socio-umane

persoane, asta ca s nu mai vorbim de comportamentul prosocial, patriotism,

Iat c, pentru a vorbi despre msurare, acele caracteristici

Msurarea n tiinele socio-umane

a scalei metrice. Dac nu precizm regula, riscm ca scorul s aib o anumit

Specificul msurrii n tiinele socio-umane

regula este simpl i clar, instrumentele sunt puternic standardizate, valorile

cuvinte, dac o persoan de 15 de ani (VC=15) rezolv probleme pe care le pot

100 = 153, un geniu. Problema, n acest caz, nu ar fi vrsta cronologic, ci

Msurarea n tiinele socio-umane

Msurarea n tiinele socio-umane

mediu-inferior la mediu-superior, ns va fi inexact i aproape inutil n cazul

Imposibilitatea de raportare permite doar s spunem c o persoan este mai

comportamentelor pe care le selectm din universul infinit de comportamente

Msurarea n tiinele socio-umane

ntr-o anumit perioad de timp i pierd saturaia n prezent i trebuie nlocuite.

msurate pe baza atributelor cuantificabile. nlimea este un atribut

Variabila gen biologic, de exemplu, poate avea doar dou valori,

Msurarea n tiinele socio-umane

exist o clasificare i mai important, de fapt baza ierarhizrii i a puterii

Variabile discrete (discontinui, neparametrice)

definiie. Uneori, aceast mulime de definiie a valorilor este una finit, n

biologic, observm c mulimea de valori

numrabil, finit, discontinu. ntre cele dou

hermafrodit, ns nu am putea continua incluznd, la nesfrit, noi categorii.

Nivelul nominal (de clasificare sau topologic)

Reprezint nivelul de baz, cea mai slab scal de msur i presupune

categorie. Recent, n Germania, s-a dat o lege

categorii, ci 3 masculin, feminin i nedeterminat. Astfel, clasificarea

Msurarea n tiinele socio-umane

Ct despre relaia de ordine, nici nu poate fi vorba. ncercai doar s

Nivelul ordinal (de rang sau ierarhic)

Acest nivel se bazeaz pe cel descris

caracteristicilor atributului msurat. Dac

la nivelul nominal puteam pune pe primul

este superioar sau inferioar alteia, fr ns a se putea specifica nici cu ct,

Variabile continui (scalare, parametrice)

Figura I-4 Variabila continu

infinit. Amplitudinea teoretic este cuprins

vreun om cu nlime negativ i ntotdeauna exist posibilitatea identificrii

Msurarea n tiinele socio-umane

Totodat, ntre dou valori succesive putem gsi, oricnd, o valoare

Nivelul de interval (al intervalelor egale)

De aceast dat, categoriile nu numai c sunt ordonate, ca n cazul

Figura I-5 Variabil continu de interval, temperatura

Folosind acest nivel de msur, putem spune cu ct o cantitate este mai

Msurarea n tiinele socio-umane

Faptul c poate fi atribuit un zero arbitrar a fost speculat de psihologi,