Sunteți pe pagina 1din 5

Capitolul 5

Operaţii cu date şi variabile

Se pot întâlni în practicǎ foarte multe situaţii în care, înainte de a trece la analiza statisticǎ
propriu-zisǎ, este necesar sǎ operǎm o serie de transformǎri sau modificǎri asupra datelor şi/sau
variabilelor din baza de date. Aceasta se întâmplǎ fie din cauzǎ cǎ analistul este interesat doar de
un anumit segment al datelor (un anumit subgrup din populaţia totalǎ), fie din cauzǎ cǎ
informaţiile din baza de date nu sunt prezente în forma cea mai convenabilǎ pentru analist.
Iatǎ câteva posibile exemple de astfel de situaţii:
• dorim sǎ analizǎm corelaţia dintre anumite variabile pe un singur segment al
angajaţilor (de pildǎ, numai pentru angajaţii bǎrbaţi);
• dorim sǎ obţinem anumite informaţii statistice, simultan, pentru mai multe segmente
de angajaţi (de exemplu, atât pentru bǎrbaţi, cât şi pentru femei) în scopul de a
compara mai uşor aceste informaţii;
• dorim sǎ creem o nouǎ variabilǎ pornind de la una sau mai multe variabile deja
existente (de exemplu, avem numǎrul de ore lucrate pe lunǎ şi salariul orar, şi dorim
sǎ le înmulţim pentru a calcula salariul lunar);
• dorim sǎ transformǎm o variabilǎ numericǎ într-una categorialǎ (de exemplu, pentru
a-i împǎrţi pe angajaţi în trei grupuri: cu salarii mici, medii şi mari);
• dorim sǎ sortǎm datele dupǎ un anumit criteriu (de exemplu, sǎ-i sortǎm pe angajaţi în
funcţie de nivelul de educaţie).
În continuare, vom vedea cum se rezolvǎ efectiv problemele de acest fel cu ajutorul
facilitǎţilor disponibile în programul SPSS. Baza de date folositǎ va fi, ca şi în capitolele
precedente, Employee data.sav.

Sortarea datelor

Este una din cele mai simple operaţiuni cu datele. Ea ne permite sǎ sortǎm cazurile din
baza de date, ascendent sau descendent, în functie de variabila pe care am ales-o. Aceastǎ
variabilǎ poate fi numericǎ sau categorialǎ.
Sortarea se realizeazǎ apelând comanda:

Data > Sort Cases

În fereastra din dreapta a casetei de dialog se introduc variabilele dupǎ care se face
sortarea. Dacǎ dorim, de exemplu, sǎ-i sortǎm pe angajati dupǎ saalriu şi categorie, un ordine
ascendentǎ), vom selecta variabilele salary şi jobcat, precum şi opţiunea “Ascending”. La final,
angajaţii se vor regǎsi grupaţi pe cele trei categorii profesionale (funcţionari, salariaţi, manageri),
iar în cadrul fiecǎrei categorii vor fi ierarhizaţi în ordinea crescǎtoare a salariilor.
Sortarea este utilǎ, de exemplu, dacǎ dorim sǎ aplicǎm procedura Explore (vezi capitolul
2) pe un grup anume de angajaţi – de exemplu, cei care au salariul mai mic sau cel mult egal cu
50000 de dolari pe an. Prin comanda Sort Cases vom ordona angajaţii dupǎ salariu, în mod
ascendent, iar apoi vom rula procedura Explore numai pentru acele cazuri care îndeplinesc
condiţia noastrǎ.

Selectarea cazurilor

Să presupunem în cele ce urmeazǎ că ne interesează, dintr-un anumit motiv, sǎ rulǎm o


serie de analize statistice numai pentru angajaţii de sex masculin. În acest caz va trebui ca din
eşantion să selectăm doar salariaţii care aparţin acestui grup. Pentru a face acest lucru vom folosi
comanda:

Data > Select Cases

SPSS-ul deschide o casetă de dialog pentru selectare. În partea dreaptă vom alege
opţiunea “If condition is satisfied” şi vom apăsa butonul If. Se deschide o nouă casetă în care
vom introduce condiţia noastră sub forma: gender=”m” (aşadar, urmează să fie reţinuţi doar
salariaţii bărbaţi). Apăsăm butonul Continue şi apoi OK.

Observăm că acele cazuri din baza de date pentru care are loc gender=”f” (aşadar, cele
corespunzătoare salariaţilor femei) au fost “barate” (aşadar vor fi excluse de la analiză). Mai
mult, în partea din dreapta jos a ferestrei SPSS-ului se poate citi menţiunea “Filter on”, ceea ce
înseamnă că respectivei baze de date i-a fost aplicat un filtru.

Să calculăm acum, cu titlu de exemplu, coeficientul de corelaţie între salariul de început


şi cel actual la nivelul unui acestui “segment” al populaţiei noastre – angajaţii bǎrbaţi.
Aplicăm procedura pentru analiza corelaţiei, aşa cum a fost prezentatǎ în capitolul 3, şi
obţinem urmǎtorul rezultat:

Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).

Se observǎ cǎ numǎrul total de cazuri pentru care a fost rulatǎ analiza este de 258 (aşadar,
numai salariaţii de sex masculin)..
Pentru a înlǎtura filtrul definit pentru o bazǎ de date, atunci când nu mai avem nevoie de
el, va trebui sǎ apelǎm din nou comanda:

Data > Select Cases

În caseta de dialog care apare se selectează opţiunea “All cases” şi apoi se apasă butonul
OK.

Divizarea fişierului

Să presupunem că într-o bazǎ de date oarecare cazurile pot fi împǎrţite în 10 subgrupuri


distincte, iar cercetǎtorul doreşte sǎ ruleze o anumitǎ analizǎ pentru fiecare subgrup în parte.
Dacǎ ar folosi procedura de selectare a cazurilor, descrisǎ anterior, ar trebui sǎ repete aceastǎ
procedurǎ de 10 ori, ceea ce ar fi incomod. Pentru a evita acest lucru, el poate utiliza o comandǎ
de divizare a fişierului (“file split”) pusǎ la dispoziţie de SPSS.
Dacǎ este necesarǎ, de exemplu, determinarea coeficientul de corelaţie dintre salariul
iniţial şi cel actual atât pentru bǎrbaţi, cât şi pentru femei, se va apela mai întâi la comanda de
divizare a fişierului:

Data > Split File

Apare din nou o casetă de dialog, în care vom selecta opţiunea “Compare Groups”. În
fereastra denumită “Groups Based on” vom introduce variabila gender. Odată ce apăsăm
butonul OK, vom observa că în partea din dreapta jos a ferestrei SPSS apare menţiunea “Split
File On”. Rulând din nou comanda pentru analiza corelaţiei obţinem douǎ tabele, câte unul
pentru fiecare subgrup analizat:

Gender = Female

Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .759**
Salary Correlation . .000
Sig. (2-tailed)
N 216 216
Beginning Pearson .759** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 216 216
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Female

Gender = Male
Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-
tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-
tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Male

Atunci când fişierul este “divizat” în funcţie de o anumitǎ variabilǎ, toate analizele
statistice vor fi rulate pe subgrupuri, în funcţie de valorile respectivei variabile.
Pentru a transforma un fişier “divizat” într-unul normal, vom apela din nou comanda
Split File, iar în caseta de dialog vom alege opţiunea “Analyze all cases, do not create groups”.

Recodificarea variabilelor

Pot fi imaginate multe situaţii în care este necesar sǎ recodificǎm una dintre variabilele
din baza de date. Sǎ ne gândim, de exemplu, la un posibil caz în care dorim sǎ transformǎm o
variabilǎ numericǎ într-una categorialǎ.
Să presupunem că dorim să constatǎm dacă există o diferenţă semnificativă între salariul
mediu al lucrătorilor cu studii medii (maxim 12 ani) şi cel al lucrătorilor cu studii superioare
(peste 12 ani). Întrucât variabila education nu este categorială, ci numerică, va trebui să o
recodificăm. Pentru aceasta vom executa comanda:

Transform > Recode > Into Different Variables

Am ales opţiunea “Into Different Variables” deoarece dorim sǎ pǎstrǎm şi valorile


iniţiale ale variabilei respective. În caz contrar, am fi ales opţiunea alternativǎ “Intro Same
Variables”.
In fereastra principală a casetei de dialog vom introduce variabila pe care dorim să o
recodificăm – educ – iar în câmpul din dreapta introducem numele noii variabile create – o vom
numi educ2 – şi apoi apăsăm butonul Change pentru a salva această nouă variabilă. Ea va fi
ulterior variabila după care vom face gruparea în cadrul testului t. Apăsăm apoi butonul Old and
New Values.
Noua casetă de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariaţilor
care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom
atribui codul 2. După terminarea operaţiunii de recodificare apăsăm butonul Continue şi apoi
OK. SPSS-ul a salvat în baza de date variabila educ2, care are numai două valori: 1 şi 2.
În aceste condiţii, este foarte uşor sǎ rulǎm testul t pentru compararea mediilor a douǎ
grupuri independente, utilizând pentru grupare noua variabilǎ categorialǎ educ2.
Calcularea valorilor unei noi variabile

În cazul în care avem nevoie, pentru analizǎ, de o variabilǎ care nu existǎ ca atare în baza
de date, dar ale cǎror valori pot fi calculate utilizând variabilele existente, programul SPSS ne dǎ
posibilitatea de a obţine aceastǎ nouǎ variabilǎ.
În baza noastrǎ de date existǎ douǎ variabile care se referǎ la vechimea angajatului. Este
vorba de jobtime (vechimea la locul de muncǎ actual) şi prevexp (experienţa anterioarǎ). Ambele
sunt exprimate în luni. Sǎ presupunem cǎ dorim sǎ calculǎm experienţa totalǎ a angajaţilor,
însumând pur şi simplu valorile acestor douǎ variabile. Pentru aceasta apelǎm comanda:

Transform > Compute

În câmpul din dreapta sus al casetei de dialog vom introduce numele noii variabile (de
exemplu, exper). Apoi vom introduce în fereastra din dreapta expresia de calcul a noii variabile:
jobtime + prevexp.
Dupǎ ce apǎsǎm butonul OK, programul creazǎ noua variabilǎ exper.

Comanda Compute poate fi folositǎ şi în alte scopuri. Programul ne pune la dispoziţie un


numar foarte mare de funcţii predefinite (circa 70), funcţii care pot fi utilizate cu variabilele
numerice, şir de caractere sau datǎ. De exemplu, dacǎ avem douǎ variabile, conţinând prenumele
şi numele angajaţilor, putem utiliza funcţia CONCAT (concatenare) pentru a creea o nouǎ
variabilǎ care sǎ conţinǎ numele complet al angajatului.

S-ar putea să vă placă și