Documente Academic
Documente Profesional
Documente Cultură
Laborator 1a - Obtinerea Programelor Si Proiectarea Bazei de Date
Laborator 1a - Obtinerea Programelor Si Proiectarea Bazei de Date
Aplicaii
I.4
01.ibm.com/software/analytics/spss/products/statistics/downloads.html,
compania
IBM
la
posibilitatea
de
descrcare a programului de
instalare.
Implicit,
pentru
numit
Download
recomandm
apsai
Cristian Opariuc-Dan
de
operare
procedee
specifice
de
instalare.
Putei
citi
Numele legturii sau aspectul paginii sunt preluate de la adresa oficial a paginii proiectului.
Aceste elemente pot s aib o alt prezentare sau o versiune diferit.
30
Cristian Opariuc-Dan
Cristian Opariuc-Dan
34
http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html
35
Cristian Opariuc-Dan
36
vom
Deducer
cuta
pachetele
DeducerExtras,
loaded
pentru
coloan,
cea
numit
default. Astfel, putem ncrca sau elimina orice alt pachet n aceast interfa
grafic, iar atunci cnd am terminat lucrul cu pachetele putem apsa butonul
Close pentru a iei din procedura de gestiune a pachetelor R.
Cristian Opariuc-Dan
I.5
38
Nume
Tip
Nivel
Codare dummy
varsta
N(3)
Scalar
gen
N(1)
Nominal
Nivelul
educaional
niv_edu
N(1)
Ordinal
Coeficient de
inteligen
iq
N(3)
Scalar
1 Masculin
2 - Feminin
1 Fr studii
2 Primare (1-4)
3 Gimnaziu (5-8)
4 Liceu (9-12)
5 Bacalaureat
6 Universitare
(Licen)
7 Universitare
(Master)
8 Doctorat
9 - Postdoctorale
-
Scop
Demografic, posibil
independent
Demografic, posibil
independent
Demografic,
independent
Dependent
39
Cristian Opariuc-Dan
40
10) solicitau acest lucru, dar cum nu putem ti ce fel de program ar folosi un
eventual colaborator, v recomand s inei cont de aceast regul. Nu vom
numi o variabil nivel_educational, i nici NivelEducational sau
nivelEducational, deoarece am depi limita celor 8 caractere; vom prefera s
scriem, ca mai sus, niv_edu (7 caractere), NivEdu sau nivEdu (6 caractere).
O alt regul important spune c fiecare variabil trebuie
s ocupe o coloan distinct n baza de date, iar fiecare subiect va
ocupa un singur rnd (va avea o singur nregistrare) (Field, 2005).
Dac ar trebui, de exemplu, s msurm coeficientul de inteligen,
avnd, astfel, o testare iniial, apoi s aplicm o tehnic de dezvoltare a
inteligenei i, dup 6 luni sau un an, s realizm o testare final, cum am
proceda? Exist o singur variabil, coeficientul de inteligen, msurat n dou
momente diferite de timp, situaie foarte bine cunoscut n cazul cercetrilor cu
msurri repetate. Pentru a nu nclca aceast regul, vom crea dou variabile
n baza de date, i nu una singur, de exemplu iq_ini pentru msurarea iniial
i iq_fin pentru cea final, respectnd astfel prima parte a regulii, dar i cea
de-a doua parte, n care o persoan ocup un singur rnd.
Tipul i nivelul de msur a variabilelor sunt alte informaii, foarte
importante, atunci cnd proiectm baza de date. Pentru a putea vorbi despre
msurare, n adevratul sens al definiiei, tim c trebuie s asociem numere
atributelor obiectelor i fenomenelor studiate. De aceea, nc de la nceput,
trebuie s decidem care dintre variabile exprim caliti i care exprim
cantiti, adic s stabilim nivelul lor de msur. Variabilele iq i varsta se
refer, evident, la cantiti, i se exprim, n mod natural, prin numere. n primul
caz vorbim despre coeficientul de inteligen, un numr situat la un nivel de
msur de interval, iar n al doilea caz tot despre un numr, vrsta, exprimat
41
Cristian Opariuc-Dan
dou variabile exprim cantiti, msurate prin numere, aadar vor fi definite ca
numerice (N), ns de cte cifre vom avea nevoie pentru a stoca toate valorile
posibile? n cazul vrstei, exprimat n ani, cu o singur cifr vom putea memora
scoruri de la 0 la 9 ani, total insuficient avnd n vedere persoanele pe care
urmeaz s le evalum. Stm mult mai bine dac am folosi dou cifre, deoarece
am putea nregistra persoane cu vrsta cuprins ntre 0 i 99 de ani, dar ce ne
facem dac includem n studiu i bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depi 999 de ani, ct este
maximum teoretic al amplitudinii valorilor. n cazul n care variabila nu comport
numere zecimale, am putea nota acest lucru de forma N(3), adic o variabil
de tip numr ntreg, format din 3 cifre, cu o amplitudine de la 0 la 999. n cazul
n care am fi proiectat un studiu specific tiinelor economice i administrative
i am fi avut o variabil n care s stocm, spre exemplu, preul unor produse,
am fi preferat o reprezentare zecimal, notnd tipul variabilei cu N(4.3), adic
o variabil de tip numr zecimal, format din 4 cifre pentru a reprezenta ntregii
i 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
n cazul coeficientului de inteligen, putem proiecta variabila tot de tip
N(3), asigurnd o amplitudine suficient pentru a permite nregistrarea scorului
oricrei persoane, deoarece am stoca valori ale coeficientului de inteligen
cuprinse ntre 0 i 999. Iat c am ajuns la o nou regul, i anume
aceea conform creia categoriile create trebuie s fie exhaustive,
adic suficiente pentru a permite oricrui caz particular s poat
fi inclus ntr-o categorie.
Dac n cazul celor dou variabile discutate lucrurile sunt destul de clare,
deoarece exprim, natural, cantiti, variabilele gen i niv_edu exprim
caliti. Genul biologic se situeaz la un nivel nominal (categorial) de msurare,
43
Cristian Opariuc-Dan
deoarece nu putei pune, nici mcar n glum, o relaie de ordine ntre cele dou
categorii, iar nivelul de educaie poate fi tratat ca o variabil situat la un nivel
de msur ordinal, deoarece o persoan care a terminat doar gimnaziul are un
nivel de educaie inferior celeia care a absolvit liceul.
Toat problema este c orice program de analiz de date prefer s
ronie numere i nu litere. Din acest motiv, am ajuns la o nou
regul foarte important, aceea c toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
n baza de date, textul masculin i feminin, nici mcar M i F atunci cnd
nregistrm scorurile persoanelor la variabila gen. n primul rnd, nu am
respecta definiia msurrii, motiv suficient pentru a renuna la orice analiz de
date. n al doilea rnd, am pierde enorm de mult timp dac am scrie, de fiecare
dat, unul dintre cele dou texte, pentru fiecare persoan, ca s nu mai punem
la socoteal riscul crescut de a comite erori. Dac n loc de masculin am omite
o liter, spre exemplu am scrie masclin, fapt extrem de probabil, atunci nu am
mai avea dou categorii ale variabilei, ci trei: masculin, masclin i feminin.
Folosind litere, putem calcula, cel mult, de cte ori apare un cuvnt, fapt care ar
limita puterea analizei de date la cea dat de numrarea scorurilor din fiecare
categorie. Dar nu ne oprete nimeni s notm cu 1 categoria masculin i cu 2
categoria feminin, sau invers. Astfel, respectm definiia msurtorii,
reducem riscul de a comite o eroare i crem posibilitatea unor analize de date
mai puternice. O asemenea atribuire poart numele de codare dummy, pentru
a arta c numerele alocate au doar o valoare de etichet, nu ndeplinesc funcia
lor normal. Pur i simplu, n loc de masculin vom tasta 1 (sau 2, 7, 5, dup
cum dorim), iar n loc de feminin vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relaia de ordine ntre categorii nu exist.
44
Cristian Opariuc-Dan
s nu bifeze niciunul sau s scrie un alt partid, neinclus n lista standard. Cum
am putea proiecta o asemenea variabil deoarece, aa cum observai, codarea
dummy prezentat anterior permite alegerea doar a unei singure variante de
rspuns. ntr-o astfel de situaie, am putea regndi itemul unic, l-am putea privi
ca fiind format din mai muli itemi dihotomici, atia cte variante de rspuns
exist. De exemplu, Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PX?; Dac duminic ar fi alegeri parlamentare, n mod sigur NU
vei vota cu PY? i aa mai departe. Ar rezulta un numr de variabile
dihotomice, de tipul nu_PX, nu_PY, nu_PZ, nu_NSNR i o variabil de tip
text, de genul nu_P_Alt, n ultimul caz stocnd ceea ce va scrie respondentul
i procednd, ulterior, la o analiz calitativ (Opariuc-Dan, 2009). Exceptnd
variabila calitativ, n celelalte cazuri putem proceda la o codare dummy de
genul 1 Adevrat i 0 Fals, sau putem folosi orice alt sistem de codare
dummy dihotomic dorim, rezolvnd, astfel, problema.
O alt regul, destul de important, susine prezena
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoan ar trebui s aib valori la
toate variabilele din baza de date. n situaia n care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lips, prezena lor putnd avea consecine serioase asupra unor
categorii de tehnici de analiz de date (spre exemplu, modelele de ecuaii
structurale). Nu este ntotdeauna posibil s evitm apariia cazurilor lips,
deoarece persoanele pot refuza sau pot omite s furnizeze unele rspunsuri.
Majoritatea programelor de analiz de date au proceduri puternice de gestiune
a cazurilor lips, unele dintre ele urmnd s le discutm i noi; tot ceea ce va
trebui s reinei n acest moment, este c un caz lips va fi reprezentat prin
46
absena datelor din celula respectiv, nu prin introducerea valorii zero. Dac vei
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide i le va include n analiz, fapt ce ar putea s conduc la rezultate
profund eronate.
n fine, ultima regul pe care o vom comenta se refer la
codarea variabilelor n concordan cu sensul scalei (Field, 2005).
Anumite ntrebri pot avea o scal de rspuns inversat. De
exemplu, rspunsul ntrebarea Ct de mulumit suntei de nivelul
dumneavoastr de venit? poate fi dat pe o scal de la 1 la 5, unde 1 nseamn
foarte puin mulumit i 5 nseamn foarte mulumit. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificaiei de mai
mult. La fel de bine am putea spune c 1 nseamn foarte mulumit i 5
foarte puin mulumit, dac ne gndim c 1 ar avea semnificaia primului loc,
iar 5 semnificaia ultimului loc. tim deja c rareori msurm o variabil prin
intermediul unui singur item; de multe ori sunt necesare mai multe ntrebri,
unele fiind operaionalizate astfel nct 5 s reprezinte mult, altele ca 1 s
reprezinte mult, aceasta fiind i o tehnic de pstrare a ateniei, folosit destul
de des n psihologie. Programul de analiz de date tie doar c 5 este mai mare
ca 1, neavnd habar i nefiind interesat de modul n care am construit noi scala
de rspuns. V dai seama c dac am msura o variabil prin intermediul unui
numr de 10 itemi, 5 avnd scale de rspuns cresctoare, 5 descresctoare, din
punct de vedere al analizei de date tendinele s-ar anula reciproc (cei care
rspund cu 4 la primii 5 itemi, adic n sensul de mult, vor rspunde cu 2 la
ultimii cinci, tot n sensul de mult). De obicei, atunci cnd efectum codarea
dummy la definirea variabilelor, respectm modul n care au fost proiectai
itemii, pentru a nu crea confuzie la introducerea datelor. Cnd iniiem ns
analiza de date, vom avea grij s aducem toi itemii n sensul natural al scalei,
47
Cristian Opariuc-Dan
48