Sunteți pe pagina 1din 21

Cristian Opariuc-Dan

Aplicaii
I.4

Obinerea programelor de analiz de date


Efectuarea calculelor necesare analizei de date prin aplicarea formulelor

statistice este interesant n scop didactic, dac dorii s ptrundei


mecanismele interne ale principiilor, s v apropiai de adevratul neles al
statisticii. n activitatea concret, de cercetare, ar fi extrem de neproductiv s
procedai n aa fel, deoarece v-ar lua foarte mult timp i, n mod sigur, vei
comite nenumrate erori de calcul. Ceea ce ai lucra n zile sau sptmni, ai
putea face n doar cteva clipe, utiliznd o aplicaie computerizat.
Vom folosi dou aplicaii specializate n efectuarea calculelor pentru
analiza de date, una prietenoas i uor de utilizat, ns destul de scump, IBM
SPSS Statistics, alta gratuit, foarte puternic, ns ceva mai greu de folosit,
adresabil adevrailor profesioniti i numit, simplu, R. Pentru nceput, s
vedem cum le obinem.
I.4.1

Obinerea programului IBM SPSS Statistics


Versiunea de ncercare a aplicaiei se poate obine de la adresa http://www-

01.ibm.com/software/analytics/spss/products/statistics/downloads.html,

compania

IBM

cumprnd, cu ceva timp n urm, acest pachet de aplicaii, dezvoltndu-l


ulterior pe parcursul unui numr de 3 sau 4 versiuni. Desigur, pe pagina de
descrcare a programelor de ncercare exist mai multe aplicaii. Suntem
interesai de IBM SPSS Statistics i nu de altceva, prin urmare vom efectua click
pe legtura SPSS Statistics.
Poate unul dintre principalele avantaje ale prelurii acestor programe de
ctre IBM, este faptul c acum exist variante pentru mai multe sisteme de
operare. Iniial, programul rula doar pe sistemul de operare Windows de la
Microsoft. Acum avem i varianta pentru Mac OS de la Apple, dar i varianta
28

Msurarea n tiinele socio-umane

pentru Linux. Vom alege sistemul de operare instalat pe computer i apsm


apoi butonul Continue.
n acest moment, v putei face un cont pe site-ul IBM sau v putei
autentifica n cazul n care avei deja un cont. De obicei, vei folosi aceast
variant dac avei o licen valid. Astfel, folosind contul, vei putea actualiza
licena atunci cnd expir, vei putea descrca actualizri ale programului i
multe altele. n cazul n care nu dorii s v autentificai, putei apsa butonul
Proceed without an IBM ID. Politica firmei IBM este de a colecta datele
personale ale celor care descarc versiunea de ncercare. Nu avei ce s facei,
toate cmpurile marcate cu un asterisc rou trebuie completate, altfel nu vei
putea trece mai departe. Dup completarea tuturor informaiilor obligatorii, va
trebui s apsai butonul Submit pentru urmtoarea etap.
Ai ajuns, dup acest
efort,

la

posibilitatea

de

descrcare a programului de
instalare.

Implicit,

pentru

descrca, se va folosi o aplicaie


special,

numit

Download

director. Chiar dac are anumite


avantaje, pentru a nu v ncrca
inutil calculatorul, dac tot avei o
conexiune rapid la Internet, v
Figura I-7 Descrcarea programului IBM SPSS
Statistics

recomandm

apsai

Download using http pentru a

descrca direct ceea ce dorii. Alegei pachetul de instalare n funcie de tipul


sistemului de operare (pe 32 de bii sau pe 64 de bii dac nu tii, alegei
29

Cristian Opariuc-Dan

versiunea pe 32 de bii. Aceasta funcioneaz pe 64 de bii, nu ns i invers) i


apsai butonul I agree pentru a iniia descrcarea. n cteva clipe, browserul
dumneavoastr de Internet va iniia descrcarea programului i este posibil s
ateptai ceva vreme pn cnd se va obine copia. Programul de instalare este
destul de mare, aproape 1GB, iar serverele de descrcare sunt n Statele Unite
ale Americii, prin urmare este posibil s dureze ceva timp. Dup descrcare, vei
instala programul fcnd dublu click pe kitul de instalare, n cazul n care folosii
sistemul de operare Microsoft Windows. Nu vom intra n detalii, deoarece
presupunem c tii s instalai un program n Windows. Nu trebuie dect s
urmai instruciunile de pe ecran, alegnd, atunci cnd vi de solicit, licena de
ncercare de 30 de zile.
I.4.2

Obinerea i instalarea programului R


Din fericire, obinerea aplicaiei R este mult mai simpl. n primul rnd,

vom naviga la http://cran.r-project.org/bin/windows/base n cazul n care avei


sistemul

de

operare

Microsoft Windows. Pentru


alte sisteme de operare sunt
Figura I-8 Descrcarea aplicaiei R pentru Windows

procedee

specifice

de

instalare.

Putei

citi

informaiile relevante de pe pagina oficial a produsului, iar pentru a descrca


programul de instalare, efectuai click pe legtura Download R 3.1.0 for
Windows 1. Se va iniia imediat descrcarea aplicaiei, fr a vi se solicita alte
informaii. Kitul de instalare este destul de redus ca dimensiune, din acest motiv
i durata descrcrii va fi mai mic. Similar altor programe pe care le-ai mai

Numele legturii sau aspectul paginii sunt preluate de la adresa oficial a paginii proiectului.
Aceste elemente pot s aib o alt prezentare sau o versiune diferit.

30

Msurarea n tiinele socio-umane

folosit, putei instala R efectund dublu click pe numele pachetului de instalare


descrcat i urmai instruciunile de pe ecran.
Dup instalare, pe suprafaa de lucru vei putea gsi pictograma de
lansare a programului R for Windows, pe care vom efectua dublu click n
vederea lansrii n execuie.

Figura I-9 Fereastra principal R

Iat cum, n Figura I-9, putei observa ntreaga aplicaie R, programul


oferindu-ne doar o linie de comand n care tastm text. Desigur, putem lucra
i aici fr nicio problem, n cazul n care tim foarte bine R. Dac nu ne
descurcm, putem instala, suplimentar, o interfa vizual, indiferent dac
suntem programatori sau simpli utilizatori. Fiind o aplicaie gratuit i dezvoltat
voluntar de o comunitate internaional de programatori pasionai, R are destul
de multe variante de interfa vizual, recomandate fiind Deducer
(http://www.deducer.org), o interfa vizual destul de complex, dar care
funcioneaz doar dup ce ai instalat n prealabil Java, R Commander
31

Cristian Opariuc-Dan

(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr), o interfa puternic, foarte uor de


instalat i configurat, care nu necesit nimic suplimentar pe computer i RGtk
(http://www.omegahat.org/RGtk), interfa complex, intuitiv i uor de folosit, ns
disponibil doar pentru sistemele Linux sau alte sisteme bazate pe UNIX.
Mediul R se poate dezvolta aproape nelimitat, instalnd diferite module,
cunoscute sub numele de pachete, toate interfeele vizuale menionate, dar i
alte funcii mai complexe, fiind cuprinse n acestea. Pentru a putea folosi un
pachet, acesta trebuie mai nti instalat, apoi ncrcat n mediul R, instalarea
pachetelor R fcndu-se prin intermediul comenzii:
install.packages(nume pachet)

Pentru a instala, spre exemplu, R Commander, vom tasta comanda:


install.packages(Rcmdr)

Apsm apoi tasta Enter, pentru a valida execuia comenzii, moment


n care pachetele R se descarc i se instaleaz automat ntr-o bibliotec situat
pe calculatorul dumneavoastr. Deoarece acesta este primul pachet instalat,
biblioteca de pachete nu este configurat. Prin urmare, programul v ntreab
dac dorii s v personalizai biblioteca de pachete (Would you like to use a
personal library instead?). V recomandm s apsai butonul Yes pentru a
defini propria dumneavoastr bibliotec, situat n directorul personal al
documentelor. Dac apsai No, se va
folosi biblioteca implicit a programului.
Nu v sugerm a doua variant, deoarece
s-ar putea s avei probleme cu drepturile
Figura I-10 Alegerea bibliotecii personale
de pachete

de scriere pe disc. Dup apsarea


butonului Yes, programul va afia

locaia n care se vor scrie fiierele n biblioteca personal de pachete, implicit


32

Msurarea n tiinele socio-umane

n directorul personal de documente. Va trebui s apsm, din nou, butonul


Yes, pentru a confirma aceast opiune.
Pachetele R sunt disponibile n diferite locaii din Internet, aceste locaii
fiind cunoscute sub denumirea de CRAN Comprehensive R Archive Network.
Cu ct aceste locaii sunt mai apropiate de dumneavoastr, cu att descrcarea
pachetelor va dura mai puin. Dup instalare, programul nu tie unde v aflai,
din acest motiv invitndu-v s alegei locaia CRAN optim.
n Figura I-11 apar i locaii CRAN din
Romnia, ns exist o mare probabilitate ca
actualizrile s se fac ntrziat, astfel nct
unele pachete s fie nvechite, nefuncionnd
corespunztor. Deoarece la momentul actual
viteza conexiunii nu prea pune probleme, v
recomandm s alegei opiunea de cloud
(cea prestabilit, 0-Cloud) i s apsai butonul
OK.
Instalarea pachetului dureaz destul
Figura I-11 Alegerea locaiei CRAN

de puin, n fereastra de comenzi R afinduse o serie de mesaje informative, care arat ce

pachete se descarc i se instaleaz, precum i alte lucruri importante, cum ar fi


apariia unor erori. Configurarea librriei personale se face doar n momentul
instalrii primului pachet, modificarea locaiei acesteia fcndu-se, ulterior, din
setrile programului. Alegerea serverului CRAN se face o singur dat per
sesiune (la pornirea programului R), atunci cnd instalai un pachet.
Instalarea unui pachet nseamn doar c programul R s-a conectat la
serverul CRAN specificat, a cutat ultima versiune disponibil i a descrcat
33

Cristian Opariuc-Dan

fiierele necesare n biblioteca specificat. Este suficient s instalai o singur


dat un pachet pe computer, nu trebuie s repetai operaiunea de fiecare dat
cnd dorii s-l utilizai. Totui, instalarea unui pachet nu presupune automat i
utilizarea sa. Pentru a-l folosi, trebuie ca orice pachet s fie mai nti ncrcat n
R. ncrcarea pachetelor n R se face cu ajutorul comenzii:
library(nume_pachet)

nlocuind numele pachetului cu ceea ce am descrcat anterior, rezult


c va trebui s scriem:
library(Rcmdr)

Este posibil ca la ncercarea de ncrcare n memorie i lansare a unui


pachet, s apar un alt mesaj, prin care s vi se solicite instalarea altor pachete
suplimentare, care nu au fost descrcate i instalate iniial. Acceptai acest lucru
prin apsarea butonului Yes, ateptai ca procesul s se finalizeze i vei obine
rezultatul dorit.

Figura I-12 Interfaa vizual R Commander

34

Msurarea n tiinele socio-umane

Am vzut c, uneori, pentru a lansa n execuie un pachet R este nevoie


s instalm i alte pachete suplimentare, numite pachete suport. Nu v
impacientai, procesul se desfoar automat. Aplicaia va solicita unele
informaii suplimentare din timp n timp, va cuta pachetele de care are nevoie
i le va instala. Nu este nevoie dect s urmrii mesajele de pe ecran, fiind
necesar apsarea, din timp n timp, a butonului Yes. Este
important s reinei c n comenzile R, literele mici difer de
majuscule. Dac n loc s scriei Rcmdr ai fi scris rcmdr, s-ar
obine un mesaj de eroare, deoarece cele dou texte difer.
Interfaa R Commander este suficient de puternic pentru a efectua
majoritatea operaiunilor de analiz de date, pentru a importa sau pentru a
exporta baze de date din sau n alte programe, inclusiv IBM SPSS Statistics, are
chiar i comenzi n limba romn, ns nu se descurc prea bine la definirea
variabilelor i la introducerea datelor. Dac avei instalat n computer maina
virtual Java (Java SE Runtime Environment), putei iniia descrcarea i
instalarea pachetelor pentru Deducer. n caz contrar, v recomandm s
descrcai i apoi s instalai maina virtual Java de pe site-ul Oracle 2.
Iniial, va trebui s instalm interfaa grafic unificat Java pentru R, aanumitul pachet JGR (Java GUI for R), cunoscut i sub numele de Jaguar. n
fereastra de comenzi R, vom tasta:
install.packages(JGR)

Dup descrcarea i instalarea pachetelor Jaguar, vom repeta


operaiunea pentru a instala pachetele Deducer, tastnd n fereastra R,
succesiv, comenzile prezentate n continuare, n acest caz fiind necesar o

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

35

Cristian Opariuc-Dan

ateptare ceva mai lung, programul descrcnd i instalnd un numr destul


de mare de pachete:
install.packages(Deducer)
install.packages(DeducerExtras)

ncrcarea n memorie a interfeei grafice unice Jaguar se face prin


comanda cunoscut, dar de aceast dat va fi necesar o comand suplimentar
pentru a porni programul. Aadar, pentru a porni Jaguar, a vom tasta succesiv,
n fereastra de comenzi R, urmtoarele:
library(JGR)
JGR()

Figura I-13 Interfaa grafic Jaguar

36

Msurarea n tiinele socio-umane

Am obinut o fereastr de comenzi R ceva mai prietenoas, cu mai multe


posibiliti de definire a variabilelor i de introducere a datelor, ns destul de
rudimentar n raport cu preteniile noastre. Pentru a ncrca Deducer, va
trebui s accesm meniul Packages & Data, apoi s alegem opiunea Package
Manager.
n fereastra de configurare
a pachetelor ce vor fi ncrcate n
Jaguar,

vom

Deducer

cuta

pachetele

DeducerExtras,

apoi vom bifa cele dou casete din


coloana

loaded

pentru

comunica aplicaiei R s le ncarce.


Dac dorim ca cele dou pachete
s se ncarce automat atunci cnd
pornim Jaguar, bifm i cele dou
Figura I-14 Configurarea pachetelor ncrcate n
Jaguar

casete corespunztoare din a


doua

coloan,

cea

numit

default. Astfel, putem ncrca sau elimina orice alt pachet n aceast interfa
grafic, iar atunci cnd am terminat lucrul cu pachetele putem apsa butonul
Close pentru a iei din procedura de gestiune a pachetelor R.

Figura I-15 Interfaa Jaguar cu pachetele Deducer

Faptul c pachetele Deducer au fost ncrcate este reflectat n noul


meniu Jaguar. Dup cum se poate observa, au aprut elemente noi specifice
37

Cristian Opariuc-Dan

analize de date i reprezentrilor grafice, precum i funcii noi, avansate, inclusiv


pentru definirea variabilelor i introducerea datelor. Totui, Deducer este destul
de slab la importul/exportul bazelor de date. n aceast situaie, fie vom apela
la R Commander, fie vom efectua operaiunile n line de comand, acesta fiind
principalul motiv pentru care am preferat instalarea ambelor interfee grafice.

I.5

Proiectarea unei baze de date


Am crede, n mod greit, c putem deschide imediat o aplicaie de analiz

de date i ncepem s configurm variabilele. n realitate, structura unei baze de


date trebuie mai nti gndit, proiectat pe hrtie, apoi vom trece la
implementarea acesteia ntr-un program. S presupunem c desfurm un
studiu folosind un test de inteligen i dorim s colectm datele necesare. Ce
variabile am putea reine? n mod evident, rezultatele persoanelor la testul de
inteligen, exprimate, spre a uura nelegerea, sub forma coeficientului de
inteligen. Iat i o prim variabil. Apoi, cror persoane le va fi administrat
testul de inteligen? Elevilor de liceu, studenilor, elevilor din coala general
sau unei categorii de populaie mai largi? Ne intereseaz educaia acestor
persoane? Dac da, ne putem gndi la o alt variabil, pe care am numi-o nivel
de educaie. Indivizii care vor rezolva problemele testului, cel mai probabil, vor
avea vrste diferite, vom folosi att brbai, ct i femei, asta dac nu cumva
preferm s administrm testul doar fetelor dintr-o singur clas. Iat c putem
avea n vedere alte dou variabile, vrsta subiecilor i genul biologic.
Orice studiu trebuie gndit nainte de a fi implementat i
de a trece la definirea variabilelor. n mod normal, acest demers
are loc n momentul n care construim planul de cercetare, vizeaz
o analiz a tuturor variabilelor care ar putea afecta ceea ce msurm, reinerea

38

Msurarea n tiinele socio-umane

celor relevante i includerea unor variabile demografice, de caracterizare a


lotului de cercetare.
Dup ce am stabilit ce anume vom msura, adic n urma reinerii
variabilelor ce vor fi folosite n studiu, este recomandat s le centralizai ntr-un
tabel, numit tabelul meta-datelor 3.
Tabel I-1 Meta-datele variabilelor
Etichet
Vrsta
subiecilor
Genul
biologic

Nume

Tip

Nivel

Codare dummy

varsta

N(3)

Scalar

gen

N(1)

Nominal

Nivelul
educaional

niv_edu

N(1)

Ordinal

Coeficient de
inteligen

iq

N(3)

Scalar

1 Masculin
2 - Feminin
1 Fr studii
2 Primare (1-4)
3 Gimnaziu (5-8)
4 Liceu (9-12)
5 Bacalaureat
6 Universitare
(Licen)
7 Universitare
(Master)
8 Doctorat
9 - Postdoctorale
-

Scop
Demografic, posibil
independent
Demografic, posibil
independent

Demografic,
independent

Dependent

O prim informaie despre variabile se refer la eticheta acestora, prin


etichet nelegnd denumirea lor, aa cum o percep i cum o neleg oamenii.
n cazul de fa, ceea ce am decis s reinem mai sus, reprezint exact etichetele
unor variabile, denumirea acestora n limbajul uman. Numele variabilei se
refer tot la denumire, ns nu aa cum o nelege omul, ci computerul. Unele
programe ne permit s definim numele variabilei la fel cum definim eticheta
acesteia, altele impun condiii speciale. Deoarece nu dorim s fim dependeni
de un singur program, mai ales atunci cnd colaborm cu ali cercettori, vom
prefera s respectm regulile de denumire a variabilelor.

Meta-datele se refer la informaiile despre variabile, a caracteristicile acestora

39

Cristian Opariuc-Dan

n primul rnd, orice nume de variabil poate conine doar


litere i cifre, i va ncepe, n mod obligatoriu, cu o liter. n cazul
n care dorii ca numele variabilei s nceap cu o cifr, va trebui
s folosii liniua de subliniere (de exemplu, corect este _18ani i nu 18ani).
Dac variabila conine spaii (de exemplu nivel educaional), avei mai multe
metode pe care le putei utiliza, cea mai frecvent fiind aceea n care apelai tot
la liniua de subliniere (putei denumi, de exemplu, niv_edu), modalitate
cunoscut sub numele de notaie underscore_case. Singura problem a
acestei notaii este includerea unui caracter suplimentar (liniua de subliniere),
care ar putea genera, dup cum vom vedea, unele dificulti. Dac preferai,
putei folosi una dintre notaiile cunoscute sub denumirea de Camel Case, n
care fiecare cuvnt ncepe cu liter mare (UpperCamelCase) sau n care doar
primul cuvnt ncepe cu liter mic, celelalte cu majuscule (lowerCamelCase).
n cazul de fa, am putea numi variabila fie NivEdu (n stilul
UpperCamelCase), fie nivEdu (n stilul lowerCamelCase). Toate cele trei
convenii de notare constituie standarde de definire a variabilelor folosite n
programare, i este bine s v obinuii cu ele, pentru a nelege lumea
aplicaiilor computerizate dincolo de utilizarea programelor de analiz de date.
Este inutil s insistm asupra faptului c n denumirea unei variabile nu au ce
cuta diacriticele romneti (, , , etc.), i nici alte caractere speciale,
exceptnd liniua de subliniere (_).
O a doua regul ine de respectarea numrului maxim de 8
caractere n denumirea unei variabile. Aceast condiie provine de
pe vremea sistemului de operare MS-DOS, atunci cnd denumirea
fiierelor nu putea s depeasc 8 caractere, fiind rar impus de vreo aplicaie
din zilele noastre. Versiunile vechi de SPSS for Windows (nainte de versiunea

40

Msurarea n tiinele socio-umane

10) solicitau acest lucru, dar cum nu putem ti ce fel de program ar folosi un
eventual colaborator, v recomand s inei cont de aceast regul. Nu vom
numi o variabil nivel_educational, i nici NivelEducational sau
nivelEducational, deoarece am depi limita celor 8 caractere; vom prefera s
scriem, ca mai sus, niv_edu (7 caractere), NivEdu sau nivEdu (6 caractere).
O alt regul important spune c fiecare variabil trebuie
s ocupe o coloan distinct n baza de date, iar fiecare subiect va
ocupa un singur rnd (va avea o singur nregistrare) (Field, 2005).
Dac ar trebui, de exemplu, s msurm coeficientul de inteligen,
avnd, astfel, o testare iniial, apoi s aplicm o tehnic de dezvoltare a
inteligenei i, dup 6 luni sau un an, s realizm o testare final, cum am
proceda? Exist o singur variabil, coeficientul de inteligen, msurat n dou
momente diferite de timp, situaie foarte bine cunoscut n cazul cercetrilor cu
msurri repetate. Pentru a nu nclca aceast regul, vom crea dou variabile
n baza de date, i nu una singur, de exemplu iq_ini pentru msurarea iniial
i iq_fin pentru cea final, respectnd astfel prima parte a regulii, dar i cea
de-a doua parte, n care o persoan ocup un singur rnd.
Tipul i nivelul de msur a variabilelor sunt alte informaii, foarte
importante, atunci cnd proiectm baza de date. Pentru a putea vorbi despre
msurare, n adevratul sens al definiiei, tim c trebuie s asociem numere
atributelor obiectelor i fenomenelor studiate. De aceea, nc de la nceput,
trebuie s decidem care dintre variabile exprim caliti i care exprim
cantiti, adic s stabilim nivelul lor de msur. Variabilele iq i varsta se
refer, evident, la cantiti, i se exprim, n mod natural, prin numere. n primul
caz vorbim despre coeficientul de inteligen, un numr situat la un nivel de
msur de interval, iar n al doilea caz tot despre un numr, vrsta, exprimat
41

Cristian Opariuc-Dan

n ani mplinii, variabila fiind situat chiar la un nivel de raport. n analiza de


date nu facem o distincie att fin ntre variabilele parametrice (continui), prin
urmare att cele situate la un nivel de interval, ct i cele ale nivelului de raport,
sunt tratate unitar, ca variabile scalare, cele mai puternice variabile cu care
putem lucra.
n acest moment, putem discuta despre o nou regul
foarte important i mult ignorat, i anume c fiecare variabil
trebuie codat astfel nct s se obin maximum de informaii
(Opariuc-Dan, 2009). S lum cazul vrstei, o variabil pe care o putem exprima
n ani, luni, zile, minute sau secunde, cum dorim, avnd un punct zero
convenional n momentul naterii, ba chiar i un zero absolut n momentul
concepiei. Altfel spus, o variabil scalar n adevratul sens al cuvntului, i ar
fi o mare greeal s o tratm, spre exemplu, ca pe o variabil ordinal. Atunci
cnd o vom proiecta, ne vom gndi s stocm vrsta n ani sau luni, i nu s
crem categorii de vrst (de exemplu, ntre 10 i 15 ani, ntre 15 i 20 de
ani i aa mai departe), transformnd-o ntr-o variabil ordinal, mult mai
slab. Idealul oricrui cercettor este s msoare la un nivel ct mai puternic,
de preferin cu zero absolut. Dac variabila este natural scalar, o vom folosi
exact aa, la cel mai nalt nivel de precizie, garantnd obinerea maximului
posibil de informaie. Ulterior, dac dorim, putem transforma foarte uor o
variabil continu ntr-una discret, ordinal sau nominal, mult mai slab din
punct de vedere al informaiilor i al puterii analizelor permise; invers, ca s
ajungem de la o variabil discret la una continu, este ns imposibil (OpariucDan, 2009).
Din moment ce am stabilit nivelul de msur ca fiind cel scalar, n
urmtoarea etap vom urmri s identificm tipul variabilei. Este limpede, cele
42

Msurarea n tiinele socio-umane

dou variabile exprim cantiti, msurate prin numere, aadar vor fi definite ca
numerice (N), ns de cte cifre vom avea nevoie pentru a stoca toate valorile
posibile? n cazul vrstei, exprimat n ani, cu o singur cifr vom putea memora
scoruri de la 0 la 9 ani, total insuficient avnd n vedere persoanele pe care
urmeaz s le evalum. Stm mult mai bine dac am folosi dou cifre, deoarece
am putea nregistra persoane cu vrsta cuprins ntre 0 i 99 de ani, dar ce ne
facem dac includem n studiu i bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depi 999 de ani, ct este
maximum teoretic al amplitudinii valorilor. n cazul n care variabila nu comport
numere zecimale, am putea nota acest lucru de forma N(3), adic o variabil
de tip numr ntreg, format din 3 cifre, cu o amplitudine de la 0 la 999. n cazul
n care am fi proiectat un studiu specific tiinelor economice i administrative
i am fi avut o variabil n care s stocm, spre exemplu, preul unor produse,
am fi preferat o reprezentare zecimal, notnd tipul variabilei cu N(4.3), adic
o variabil de tip numr zecimal, format din 4 cifre pentru a reprezenta ntregii
i 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
n cazul coeficientului de inteligen, putem proiecta variabila tot de tip
N(3), asigurnd o amplitudine suficient pentru a permite nregistrarea scorului
oricrei persoane, deoarece am stoca valori ale coeficientului de inteligen
cuprinse ntre 0 i 999. Iat c am ajuns la o nou regul, i anume
aceea conform creia categoriile create trebuie s fie exhaustive,
adic suficiente pentru a permite oricrui caz particular s poat
fi inclus ntr-o categorie.
Dac n cazul celor dou variabile discutate lucrurile sunt destul de clare,
deoarece exprim, natural, cantiti, variabilele gen i niv_edu exprim
caliti. Genul biologic se situeaz la un nivel nominal (categorial) de msurare,
43

Cristian Opariuc-Dan

deoarece nu putei pune, nici mcar n glum, o relaie de ordine ntre cele dou
categorii, iar nivelul de educaie poate fi tratat ca o variabil situat la un nivel
de msur ordinal, deoarece o persoan care a terminat doar gimnaziul are un
nivel de educaie inferior celeia care a absolvit liceul.
Toat problema este c orice program de analiz de date prefer s
ronie numere i nu litere. Din acest motiv, am ajuns la o nou
regul foarte important, aceea c toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
n baza de date, textul masculin i feminin, nici mcar M i F atunci cnd
nregistrm scorurile persoanelor la variabila gen. n primul rnd, nu am
respecta definiia msurrii, motiv suficient pentru a renuna la orice analiz de
date. n al doilea rnd, am pierde enorm de mult timp dac am scrie, de fiecare
dat, unul dintre cele dou texte, pentru fiecare persoan, ca s nu mai punem
la socoteal riscul crescut de a comite erori. Dac n loc de masculin am omite
o liter, spre exemplu am scrie masclin, fapt extrem de probabil, atunci nu am
mai avea dou categorii ale variabilei, ci trei: masculin, masclin i feminin.
Folosind litere, putem calcula, cel mult, de cte ori apare un cuvnt, fapt care ar
limita puterea analizei de date la cea dat de numrarea scorurilor din fiecare
categorie. Dar nu ne oprete nimeni s notm cu 1 categoria masculin i cu 2
categoria feminin, sau invers. Astfel, respectm definiia msurtorii,
reducem riscul de a comite o eroare i crem posibilitatea unor analize de date
mai puternice. O asemenea atribuire poart numele de codare dummy, pentru
a arta c numerele alocate au doar o valoare de etichet, nu ndeplinesc funcia
lor normal. Pur i simplu, n loc de masculin vom tasta 1 (sau 2, 7, 5, dup
cum dorim), iar n loc de feminin vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relaia de ordine ntre categorii nu exist.

44

Msurarea n tiinele socio-umane

Pe de alt parte, variabila niv_edu comport o altfel de abordare, fiind


ordinal. De aceast dat vom acorda numere n ordine, acestea reprezentnd
tot etichete ale categoriilor, dar au, n plus, calitatea de a indica poziia
categoriei. Vom ti ce categorie este superioar sau inferioar alteia, dar nu vom
putea vorbi despre cantiti, doar despre ordine. Aadar, orice proces de codare
dummy presupune dou elemente: un numr, denumit valoare, care va fi
introdus n baza de date, precum i o etichet, ce nu va fi introdus n baza de
date, dar care reprezint, de fapt, proprietatea calitativ msurat.
Legat de procesul de codare dummy, apar reguli noi. Una
dintre acestea susine c toate codurile categoriilor unei variabile
trebuie s fie mutual exclusive (Field, 2005). Trebuie gsite nu doar
suficiente categorii pentru a include orice caz posibil, ci trebuie i respectat
regula ca o valoare, pentru o persoan, s poat fi ncadrat ntr-o singur
categorie i numai n una, cu alte cuvinte s nu se suprapun categoriile. Nu
putem defini, spre exemplu, o variabil n care s stocm categoria de vrst,
una dintre categorii fiind 10-15 ani, iar cealalt 15-20 de ani. O persoan, care
are exact 15 ani, unde va fi inclus, mai ales dac mplinete acea vrst fix n
ziua evalurii? Ar fi mai corect s construim categorii de genul 10-15 ani, 16-20
de ani si aa mai departe, n care limita inferioar a unei categorii este strict mai
mare dect limita superioar a categoriei anterioare.
Uneori, la proiectarea unei variabile, este mai dificil s respectm
aceast regul. S presupunem c desfurm un sondaj de opinii politice, n
care avem urmtoarea ntrebare: Dac duminic ar fi alegeri parlamentare, cu
care dintre urmtoarele partide n mod sigur NU vei vota?. Ca variante de
rspuns, am putea avea PX, PY, PZ, NS/NR i varianta deschis, Altul.
Care?. Un respondent poate bifa un partid, dou, le poate bifa pe toate, poate
45

Cristian Opariuc-Dan

s nu bifeze niciunul sau s scrie un alt partid, neinclus n lista standard. Cum
am putea proiecta o asemenea variabil deoarece, aa cum observai, codarea
dummy prezentat anterior permite alegerea doar a unei singure variante de
rspuns. ntr-o astfel de situaie, am putea regndi itemul unic, l-am putea privi
ca fiind format din mai muli itemi dihotomici, atia cte variante de rspuns
exist. De exemplu, Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PX?; Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PY? i aa mai departe. Ar rezulta un numr de variabile
dihotomice, de tipul nu_PX, nu_PY, nu_PZ, nu_NSNR i o variabil de tip
text, de genul nu_P_Alt, n ultimul caz stocnd ceea ce va scrie respondentul
i procednd, ulterior, la o analiz calitativ (Opariuc-Dan, 2009). Exceptnd
variabila calitativ, n celelalte cazuri putem proceda la o codare dummy de
genul 1 Adevrat i 0 Fals, sau putem folosi orice alt sistem de codare
dummy dihotomic dorim, rezolvnd, astfel, problema.
O alt regul, destul de important, susine prezena
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoan ar trebui s aib valori la
toate variabilele din baza de date. n situaia n care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lips, prezena lor putnd avea consecine serioase asupra unor
categorii de tehnici de analiz de date (spre exemplu, modelele de ecuaii
structurale). Nu este ntotdeauna posibil s evitm apariia cazurilor lips,
deoarece persoanele pot refuza sau pot omite s furnizeze unele rspunsuri.
Majoritatea programelor de analiz de date au proceduri puternice de gestiune
a cazurilor lips, unele dintre ele urmnd s le discutm i noi; tot ceea ce va
trebui s reinei n acest moment, este c un caz lips va fi reprezentat prin

46

Msurarea n tiinele socio-umane

absena datelor din celula respectiv, nu prin introducerea valorii zero. Dac vei
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide i le va include n analiz, fapt ce ar putea s conduc la rezultate
profund eronate.
n fine, ultima regul pe care o vom comenta se refer la
codarea variabilelor n concordan cu sensul scalei (Field, 2005).
Anumite ntrebri pot avea o scal de rspuns inversat. De
exemplu, rspunsul ntrebarea Ct de mulumit suntei de nivelul
dumneavoastr de venit? poate fi dat pe o scal de la 1 la 5, unde 1 nseamn
foarte puin mulumit i 5 nseamn foarte mulumit. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificaiei de mai
mult. La fel de bine am putea spune c 1 nseamn foarte mulumit i 5
foarte puin mulumit, dac ne gndim c 1 ar avea semnificaia primului loc,
iar 5 semnificaia ultimului loc. tim deja c rareori msurm o variabil prin
intermediul unui singur item; de multe ori sunt necesare mai multe ntrebri,
unele fiind operaionalizate astfel nct 5 s reprezinte mult, altele ca 1 s
reprezinte mult, aceasta fiind i o tehnic de pstrare a ateniei, folosit destul
de des n psihologie. Programul de analiz de date tie doar c 5 este mai mare
ca 1, neavnd habar i nefiind interesat de modul n care am construit noi scala
de rspuns. V dai seama c dac am msura o variabil prin intermediul unui
numr de 10 itemi, 5 avnd scale de rspuns cresctoare, 5 descresctoare, din
punct de vedere al analizei de date tendinele s-ar anula reciproc (cei care
rspund cu 4 la primii 5 itemi, adic n sensul de mult, vor rspunde cu 2 la
ultimii cinci, tot n sensul de mult). De obicei, atunci cnd efectum codarea
dummy la definirea variabilelor, respectm modul n care au fost proiectai
itemii, pentru a nu crea confuzie la introducerea datelor. Cnd iniiem ns
analiza de date, vom avea grij s aducem toi itemii n sensul natural al scalei,
47

Cristian Opariuc-Dan

n cazul nostru transformnd, prin inversare, scorurile a 5 dintre ei, operaiune


cunoscut sub numele de recodare, astfel nct variabila final s aib acelai
sens.
Dac vom proceda inteligent, planificnd i proiectnd baza de date n
conformitate cu regulile menionate n acest capitol, vom obine, la final, un
tabel al meta-datelor clar, logic i consistent, fcnd implementarea definiiilor
o plcere, indiferent de programul n care lucrai. Dac ne vom grbi, am obine,
n cel mai fericit caz, o baz de date greu de neles, murdar, dezorganizat
i dezordonat, care pune probleme, de multe ori, chiar i persoanei care a
creat-o. n situaia cea mai neplcut, am putea constata c, dup ce am
introdus foarte multe date, unele variabile au fost proiectate greit. Abia atunci
ai putea avea motive serioase de frustrare, deoarece ai muncit degeaba.

48

S-ar putea să vă placă și