Sunteți pe pagina 1din 10

Analiza datelor

OPERAII DE TRANSFORMARE A VARIABILELOR

Dac privim variabilele SPSS din punctul de vedere al modului n care au fost create,
putem distinge dou categorii:
a) variabile primare care includ valori rezultate direct din cercetare si care au fost
introduse, de regul, de la tastatur;
b) variabile secundare rezultate prin transformrile aplicate variabilelor primare.
Exemple de situaii n care se impune transformarea variabilelor:
Avem mai multe variabile primare care conin valorile aferente diferitelor
categorii de venituri pe care le ncaseaz o persoan i suntem interesai s
calculm (ntr-o variabil secundar) veniturile totale ale acesteia;
Avem o variabil care conine data naterii i dorim s crem pe baza ei o alt
variabil, care s conin vrsta;
Dorim s transformm variabila care conine vrsta ntr-o alt variabil, care
conine valori pentru categorii de vrst.
Pentru toate aceste situaii, care sunt unele dintre cele mai des ntlnite, dar i pentru
multe altele nc, SPSS ofer proceduri de transformare n meniul Transform. n continuare,
vom prezenta cteva dintre cele mai frecvent utilizate funcii de transformare a variabilelor.
nsumarea valorilor variabilelor
Se utilizeaz atunci cnd dorim s obinem o variabil prin adunarea valorilor din
dou sau mai multe variabile. Imaginea de mai jos prezint o tabel de date SPSS n care a
fost necesar calcularea veniturilor totale obinute de o persoan pornind de la diferite
categorii de venituri i a cheltuielilor totale acceptate pornind de la cheltuilelile efectuate i
de rata acceptat pentru cumprarea unui autoturism.

Prin calculare, o nou variabil este plasat dup toate variabilele existente. Pentru
obinerea celor dou variabile se utilizeaz succesiunea de comenzi Transform Compute
variable care deschide fereastra din imaginea urmtoare:

Analiza datelor

n caseta Compute Variable se efectueaz urmtoarea succesiune de operaii:


1. Se introduce numele noii variabile n zona Target Variable (de exemplu pentru
calculul cheltuielilor totale Chelt_totale). Dac variabila nu exist, ea va fi creat
automat de SPSS.
2. Se scrie expresia de nsumare n zona Numeric Expression, ntr-una din formele de
mai jos, la alegere:
a. Utiliznd funcia SUM (expresie numeric, expresie numeric, ...), aa cum se
vede i n zona listei Functions: Ea poate fi scris de la tastatur sau selectat
din lista de funcii i ridicat prin acionarea butonului . Atenie, sintaxa
fiecrei funcii trebuie respectat ntocmai. n cazul nostru, variabilele
numerice se vor scrie ntre paranteze, una cte una, cu virgul ntre ele.
Variabilele pot fi scrise de la tastatur sau mutate la rndul lor din lista de
variabile cu butonul
.
Dac variabilele ce vor fi nsumate se afl n baza de date una dup alta, ca n
cazul exemplului nostru, atunci avem posibilitatea s scriem o expresie de
nsumare simplificat, astfel SUM (prima_variabil TO ultima_variabil). n
acest caz, clauza TO va fi cuprins ntre spaii, pentru a nu fi confundat cu un
nume de variabil. Aceast opiune ne sugereaz ct de important poate fi s
aranjm corespunztor variabilele n structura unei tabele SPSS.
b. Prin adunarea una cte una a fiecrei variabile care se nsumeaz
(Cheltuileli+Rata_auto). Avantajul acestei variante este c variabilele
respective nu trebuie s fie plasate una lng alta n baza de date. Dezavantajul
este c, dac expresia conine multe variabile, dureaz mai mult completarea
ei. Atenie, dac oricare dintre variabilele nsumate cu aceast expresie are o
valoare lips, pentru un caz, atunci totalul va fi o valoare lips! Acest neajuns
nu se ntlnete dac se face adunarea cu funcia SUM, ca la punctul a.
3. Se apas butonul OK
4. Deoarece variabila rezultat din nsumare exist deja, SPSS ne ntreab dac dorim s
modificm coninutul acesteia. Dac nu ar exista o variabil cu acest nume, rezultatul
operaiei de calcul ar fi depus ntr-o variabil creat automat i amplasat dup ultima
variabil din baza de date.

Rspundem OK, deoarece tim c am creat aceast variabil tocmai pentru a depune
n ea suma.

Analiza datelor

Calcularea mediei a dou sau mai multe variabile


Presupunnd c n loc de sum ne-ar interesa media valorilor de la mai multe
variabile, se procedeaz n mod similar. Expresia de calcul a mediei este MEAN
(expresie_numeric, expresie_numeric, ...). Putem pune oricte variabile (sau valori)
numerice, cu virgul ntre ele. Ca i n cazul sumei, se poate realiza o expresie cu clauza TO,
cu condiia ca variabilele pentru care se realizeaz media s se afle una dup alta n tabela
SPSS.
Este de la sine neles c expresia de calcul poate fi realizat i ntr-o manier direct,
fr utilizarea funciei MEAN, astfel: (var_1+var_2+var_3)/3
Se va face o distincie clar ntre suma sau media astfel obinute, care se refer la
suma sau media valorilor de la mai multe variabile, pentru acelai subiect, i suma sau media
pe care am calcula-o pe vertical, la nivelul fiecrei variabile n parte, pe ntreaga distribuie
de valori, pentru toi subiecii. Se pot realiza diverse alte funcii de transformare, utiliznduse marea varietate de funcii care se gsesc n lista Functions, i a cror semnificaie se poate
afl din Help-ul casetei Compute.
Extragerea valorii anului dintr-o variabil de tip cronologic (date)
SPSS ofer funcii de transformare pentru variabilele de tip cronologic. Dintre acestea
vom exemplifica cu realizarea unei variabile care s conin vrsta, extras dintr-o variabil
care conine data naterii. Imaginea de mai jos este extras din baza de date Employee
data.sav (care se gsete n folderul de instalare al SPSS, n C:\Program
Files\SPSSInc\SPSS16\Samples)

Observm c exist variabila bdate (birth date), care conine data naterii. Pentru a
avea vrsta, trebuie s calculm diferena dintre anul curent extras din variabila de sistem
$DATE11 i anul naterii extras din variabila bdate. Extragerea anului dintr-o variabil de tip
dat se face cu ajutorul funciei XDATE.YEAR().
Variabila sistem $DATE11 permite de fapt determinarea datei curente a sistemului
sub form de string (ir de caractere alfanumeric) i care pentru a fi acceptat de funcia
XDATE.YEAR() rezultatul ei trebuie convertit cu ajutorul funciei NUMBER($DATE11,
Date11) la o valoare numeric de tip dat. Astfel formula final de determinare a vrstei va
fi:
vrsta = XDATE.YEAR(NUMBER($DATE11,Date11))-XDATE.YEAR(bdate)

Analiza datelor

n cmpul Target variable introducem numele noii variabile (varsta).


n zona Numeric Expression vom scrie expresia de
XDATE.YEAR(NUMBER($DATE11,Date11))-XDATE.YEAR(bdate).
Rezultatul operaiei poate fi vzut mai jos:

transformare

Se observ n variabil varsta, valorile rezultate prin transformare.


Posibilitile de transformare a variabilelor oferite de SPSS permit crearea unor noi
variabile pe baza celor existente, n funcie de necesitile de prelucrare pe care le avem. n
toate cazurile ns, nu se va alege soluia modificrii valorilor dintr-o variabil primar
peste valorile deja existente. Cu alte cuvinte, este recomandabil s crem prin transformare
variabile noi, deoarece odat pierdute valorile unei variabile primare, ne va fi imposibil s le
reconstituim, n cazul n care am fcut o greeal de transformare.
Identificarea i contorizarea anumitor valori particulare ale unei variabile
Succesiunea de comenzi Transform- Count values within Cases... - se utilizeaz cnd
se dorete identificarea i contorizarea valorilor de un anumit fel din cadrul uneia sau mai
multor variabile ntr-o variabil nou.
De exemplu dac se dorete identificarea i contorizarea n cadrul variabilei gender
(sex) a valorilor egale cu m atunci se procedeaz astfel:
- se activeaz fereastra Count occurences of Values within cases folosind succesiunea
de comenzi Transform- Count values within Cases...
- se scrie numele variabilei n care vor fi contorizate valorile n caseta Target variable
(n cazul de fa am notat noua variabil cu sex_m)

Analiza datelor

- se completeaz descrierea in extenso a acesteia n caseta Target label (n exemplu am


scris Identific doar valorile sex=m)
- se selecteaz variabila gender din lista variabilelor disponibile
- se apas butonul Define Values... pentru a deschide fereastra Count values within
Cases: Values to Count n care se va defini valoarea ce trebuie identificat i contorizat. n
cazul nostru se trece m n caseta Value i se apas butonul Add pentru a o aduga n lista
valorilor de identificat i contorizat.
- se apas Continue pentru a reveni n fereastra iniial.
- se apas Ok n fereastra Count occurences of Values within cases
Efectul comenzii se observ n coloana variabilei sex_m unde pentru cazurile n care
variabila gender are valoarea m s-a trecut valoarea 1 iar pentru cazurile n care variabila
gender are valoarea f s-a trecut valoarea 0.

Recodificarea variabilelor
Recodificarea unei variabile nseamn convertirea valorilor acesteia, cu scopul
obinerii unei distribuii bazat pe frecvene absolute sau cumulate. Limitele claselor de
grupare nu sunt stabilite automat de SPSS, ci se aleg de ctre utilizator.
Procesul este similar cu crearea unei distribuii de frecvene dup intervale, despre
care ne amintim c n varianta manual se poate derula n maniera descris mai jos:

Analiza datelor

1. se face diferena dintre valoarea cea mai mare i valoarea cea mai mic a variabilei dup
care se face distribuia (adic se calculeaz amplitudinea absolut a variabilei)
2. se determin mrimea intervalului prin mprirea amplitudinii absolute a variabilei
calculat la punctul 1. la numrul de intervale ales (sau estimat - de exemplu prin
formula lui Sturges: nr intervale = 1 + 3.322 log (nr de valori ale variabilei) )
3. se determin limita inferioar a primului interval ca fiind egal cu valoarea minim a
variabilei studiate.
4. se determin limita superioar a primului interval prin adugarea la limita inferioar a
acestuia a mrimii intervalului.
5. se alege ca limit inferioar pentru urmtorul interval limita superioar a primului
interval i se repet procedeul de calcul al limitei superioare a intervalului ca i n cazul
primului interval.
6. se continu cu determinarea limitelor tuturor intervalelor pn se ajunge la ultimul unde
trebuie s avem n vedere ca limita superioar a acestuia s fie egal sau cu puin mai
mare dect valoarea maxim a variabilei.
n principiu, dei este recomandabil obinerea unei grupri de frecvene pe 5-15
clase, se poate opta pentru un numr de clase care servete cel mai bine interesul de cercetare.
De exemplu, n cazul unei distribuii de vrst exprimat n ani, este preferabil s se opteze
pentru clase de cinci sau zece ani, acestea avnd i o anumit semnificaie psihologic.
n urma transformrii de mai sus, am obinut variabila varsta. Utilizarea ei ca atare n
analize statistice nu este uzual, de aceea ar fi foarte util obinerea unei variabile care s
asocieze anumite valori convenionale pentru categorii de varsta. Pentru aceasta putem
efectua recodificarea variabilei varsta pentru a obine o distribuie grupat de frecvene.
Pentru aceasta se lanseaz procedura Recode Into Different Variables din meniul Transform.
Atenie, se poate alege i opiunea Recode Into Same Variables, dar nu este recomandabil
deoarece, n cazul unei erori, nu mai avem la dispoziie variabila iniial pentru o nou
recodificare.

Paii de efectuat la apariia casetei Recode into Different Variable:


se trece variabila varsta n zona Numeric Variable Output Variable. Semnul
ntrebrii arat c se ateapt numele variabilei ce urmeaz s fie creat prin
recodificare.
n zona: Name se va trece numele variabilei noi ce va fi create dup recodificare,
dup care se apas butonul Change.
n zona Label se introduce eticheta variabilei nou create. n exemplul nostru
numele noii variabile dup operaia de recodificare este Varsta_grupe.
trebuie s descriem limitele grupelor de vrst. Pentru aceasta, se acioneaz
butonul Old and New Values

Analiza datelor

Dei relativ complicat, caseta de declarare a noilor valori n funcie de cele vechi este
uor de neles. n zona Old value, se alege una dintre variantele de definire a valorilor de la
care se pleac. S zicem c am ales soluia s recodificm anii pe intervale de zece ani,
primul interval fiind 15-25, al doilea 25-40, .a.m.d. Pentru aceasta activm opiunea Range
i scriem valorile limite al intervalului dorit. Dup aceasta, n zona New value n caseta Value
scriem care este valoarea convenional pe care o atribuim acestei clase. n fine, acionm
butonul Add pentru a definitiva operaiunea i trecem la definirea urmtoarei clase, pn
terminm.
n zona OldNew se poate observa lista recodificrilor definite.
Se acioneaz butonul Continue i, la revenirea n caseta anterioar, butonul OK.
Rezultatul operaiunii se vede mai jos:

Se observ corespondena dintre valoarea din variabila varsta, cu valoarea din


variabila Varsta_grupe. Atenie, la declararea intervalelor de grupare n categorii, trebuie avut
grij ca intervalele s nu se suprapun dar nici s rmn goluri neacoperite ntre ele!
Transformarea operat pe variabila vrsta nu este de loc inutil. n analizele statistice
pe vrste este recomandabil, s operm cu grupe de vrst.
Dac de exemplu am dori s obinem o distribuie a angajailor pe grupe de vrst

Analiza datelor

folosind comanda Analize-Descriptive Statistics-Frequencies folosind variabila Varsta_grupe

se obine urmtorul tabel observabil n fereastra de afiare a rezultatelor:


grupe de varsta
Cumulative
Frequency
Valid

Percent

Valid Percent

Percent

35-45

212

44,7

44,7

44,7

45-55

113

23,8

23,8

68,6

55-65

61

12,9

12,9

81,4

65-75

66

13,9

13,9

95,4

75-85

22

4,6

4,6

100,0

Total

474

100,0

100,0

Determinarea rangurilor valorilor unei variabile


Utilizarea direct a valorilor unei variabile n cercetri poate conduce la concluzii
deplasate dac de exemplu au fost nregistrate valori excesive (mult prea mari sau prea mici
fa de restul valorilor) i acestea se utilizeaz n calculul anumitor indicatori. n aceste
situaii este recomandat s trecem la utilizarea rangurilor valorilor unei variabile i nu a
valorilor acesteia deoarece rangurile nu sunt la fel de sensibile la valorile excesive.
Ranguri locurile ocupate n cadrul unui ir al valorilor unei variabile ordonate n
prealabil cresctor.
ntr-o astfel de situaie o soluie este transformarea valorilor unei variabile n ranguri
folosind procedura Transform-Rank cases:

Analiza datelor

Dac de exemplu am dori s trecem de la valorile variabilei vrsta la rangurile


acestora o vom alege din lista variabilelor n fereastra Rank Cases i o vom trece n caseta
Variables.
Se alege modul de atribuire al rangurilor n zona Assign Rank 1 to astfel:
- Smallest value va conduce la atribuirea rangurilor pornind n sens cresctor de la
cea mai mic valoare creia i va atribui rangul 1.
- Largest value va conduce la atribuirea rangurilor pornind n sens descresctor de
la cea mai mare valoare creia i va atribui rangul 1.
Se acioneaz apoi butonul OK. Procedura permite fixarea unor parametri de
transformare cu ajutorul butoanelor Rank Types i Ties, precum i atribuirea rangurilor pe
grupuri.
Dac n caseta By se introduc una sau mai multe variabile din lista de variabile
disponibile, atunci vor fi create grupuri pentru fiecare combinaie de valori a acestor variabile
iar rangurile vor fi atribuite n cadrul fiecrui grup.
Acionarea butonului Rank Types va deschide caseta Rank Cases: Types, care permite
alegerea unui mod de atribuire a rangurilor. De exemplu, bifnd Rank, se atribuie fiecrei
valori chiar rangul ei. Pentru a afla ce efect au celelalte opiuni, se poate face clic dreapta de
mouse pe textul opiunii sau se apas butonul Help al casetei.

Caseta Rank Cases: Ties, permite alegerea modului de atribuire a rangurilor n cazuri
de valori egale. Astfel, opiunea Sequential ranks to unique values permite atribuirea
succesiv i unic a rangurilor 1,2,3... . Opiunea Mean permite atribuirea rangului mediu n
cazul valorilor egale. De exemplu, pentru un set de 5 valori: 29, 31, 31, 31, 33, valoarea 29
va primi rangul 1, valoarea 31 va primi rangul 3 (ca medie a rangurilor 2, 3 i 4) iar valoarea
33 va primi rangul 5. Celelalte opiuni vizeaz atribuirea rangului cel mai mic (Low), al celui
mai mare (High).

Procedura se finalizeaz prin crearea unei noi variabile, pe care SPSS o denumete
automat, care conine poziia de rang a fiecrei valori din variabila scor, n raport cu celelalte
valori ale distribuiei.
Rezultatul se poate observa n fereastra urmtoare:

Analiza datelor

Lucrare practic
1.
Folosind baza de date creat la cursul anterior recodificati variabila aferent
intervalului din zi afectat studiului din valorile vechi n: 05-11 pentru dimineaa, 11-14
pentru prnz, 14-17 pentru dupamiaza, 17-22 pentru seara, 22-05 pentru noaptea.
2. Creai o repartiie a cazurilor introduse dup variabila obinut la punctul anterior.
3. Repetai operaia de la punctul 2 separat pe fiecare sex.
4. Determinai rangurile aferente valorilor variabilei nota la examen ncepnd de la valoarea
cea mai mic i folosind ranguri unice.

S-ar putea să vă placă și