Documente Academic
Documente Profesional
Documente Cultură
Se bifeaza
aici (pt
stabilirea
cheii de
concatenar
e)
Se selecteaza
variabilele de
care nu avem
nevoie in noua
baza de date
Din Excluded
Variables se
alege variabila
care e cheia de
concatenare si se
muta aici
Comanda este preluata din meniu: Data Select Cases, iar dupa ce se scrie conditia (pentru
inregistrarile care vor ramane in baza) se bifeaza Deleted (in loc de filtered cum se face pentru filtre)
Daca au fost sterse chestionare din baza de date se mai verifica inca o data parametrii proiectului.
FM si PM trebuie informati asupra chestionarelor scoase din baza si motivelor pentru care a fost luata
aceasta decizie.
Pentru orice neregula aparuta (numar prea mic de inregistrari, dezechilibrare cote, etc.) se anunta PM
ul sau responsabilul de proiect (pt cele nonDaedalus), in vederea luarii unei decizii.
3. ETICHETAREA
Etichetele reprezinta asocierea variabilelor din baza cu un text explicativ care, la efectuarea unei analize
pe variabila respectiva va fi afisat in output in locul numelui variabilei.
Analog pot fi atribuite si etichete pentru valorile unei variabile; lungimea acestora nu poate depasi 60 de
caractere (inclusiv spatii, virgule etc.), in aceasta situatie ele vor fi trunchiate. Pentru etichetele mai
lungi de 60 de caractere se reformuleaza afirmatia (fara a-i schimba sensul sau a omite anumite chestii
importante) astfel incat aceasta sa se incadreze in lungimea de 60 char.
Etichetele usureaza citirea unui output in SPSS dar nu au nici o influenta asupra variabilelor.
Etichetarea se face in limba engleza. Pentru etichetarea valorilor, input-ul este chestionarul tradus in
limba engleza, etichetele fiind de fapt optiunile de raspuns la fiecare intrebare. Pentru etichetarea
variabilelor input-ul este fisierul de specificatii de raport / etichetare (realizat de catre AD); Etichetarea
variabilelor corespunde de fapt unui titlu care se da pentru fiecare intrebare. Pentru variabilele
dihotomice, eticheta fiecarei variabile din cadrul intrebarii este de fapt identificata cu optiunile din
chestionar; valorile pentru astfel de variabile (0 si 1) nu se eticheteaza. Etichetele pentru grupuri de
variabile multiplu raspuns se vor prelua din specificatiile de raport.
Pentru etichetarea variabilelor se foloseste sintaxa:
var lab q05 Unaided Awareness.
Daca, o data definite etichetele pentru o variabila, mai descoperim noi valori (pe care nu le-am etichetat
inainte) sau cream noi valori (ex. cele de DK/NA) pentru etichetarea acestora se foloseste sintaxa add
val lab in loc de val lab. Daca am folosi val lab fara add in fata, in urma sintaxei se vor sterge toate
etichetele definite inainte si vor ramane doar cele scrise ultimele.
!! La etichetarea valorilor variabilelor de venit/ cheltuieli..., se trec doar sumele in Euro/ $ nu si cele in
lei, iar moneda in care acestea se evalueaza se trece doar in eticheta variabilei (Personal Monthly Net
Income (EURO)) nu si in etichetele de valori:
val lab d01
1 "Less than 75"
2 "75 - 250 "
3 "250 - 450 "
4 " 450 - 650 "
5 "650 - 850"
6 "More than 850 "
99 "DK/ NA".
Iata o sintaxa de etichetare gresita, nu atat din punc de vedere al functionarii, cat al textului etichetelor:
val lab d01
1 "Less than 2,7 mil lei (75 EURO)"
2 "2,7 - 9 mil lei (75 - 250 EURO)"
3 "9 - 16,2 mil lei (250 - 450 EURO)"
4 "16,2 - 23,4 mil lei (450 - 650 EURO)"
5 "23,4 - 30,6 mil lei (650 - 850 EURO)"
6 "More than 30,6 mil lei ( 850 EURO)"
99 "DK/ NA".
Pentru etichetarea demograficelor exista standarde predefinite astfel incat, indiferent de studiu,
etichetarea acestora se face pe baza template-ului de demografice.
Modul de scriere a etichetelor pentru variabile respectiv seturi (grupuri multiplu raspuns) urmeaza
standardele folosite in scrierea titlurilor in limba engleza (inceputul fioecarui cuvant se scrie cu CAPS,
mai putin prepozitiile) : Breakdown by Age; Consumption Frequency in the Past 12 Months. Etichetele
pentru valori se scriu normal, cu litera mare doar la inceputul primului cuvant. La preluarea etichetelor
din chestionar sau din specificatiile de etichetare/ raport si aducearea lor in Excel/ SPSS trebuie urmarit
ca acestea sa nu inceapa cu spatii.(ex: 11 Less than 1000 . Daca exista asemenea spatii, acestea
trebuie sterse. Dupa ghilimeaua care marcheaza inceputul etichetei nu trebuie sa fie spatii)
Verificarile care se fac dupa etichetarae bazei de date sunt:
- toate variabilele/ valorile variabilelor au fost etichetate conform standardelor
- etichetele nu au fost trunchiate.
Setari legate de afisare
Afisarea etichetelor in listele de variabile cu Options/General; pentru afisarea in tabele Options/Output
labeling; pentru afisarea etichetelor valorilor in editorul de date in meniul View se bifeaza optiunea
Labels.
3 1 - 2 ani
Se scrie conditia in
functie de care
cream filtrul
Pentru a scoate un filtru de pe baza ( pentru a reveni la toate cazurile din baza), comanda utilizata este:
use all sau filer off.
Daca in conditia pe care o punem la crearea filtrului se au in vedere mai multe variabile intre care exista
o anumita relatie se utilizeaza operatori logici (and, or etc.). Atunci cand utilizam astfel de operatori
logici trebuie acordata mare atentie ordinii in care acestia apar si modului in care folosim parantezele
pentru a determina prioritatile.
Important: Comenzile de transformarea a datelor (de ex recode) nu tin cont de filtru si actioneaza pe
toata baza de date. Filtrele sunt folosite doar pentru a scoate din baza anumiti respondenti (care nu
indeplinesc o conditie) si a observa datele pe o baza mai mica.
4.2 Recodificarea
Codificare este operatia prin care i se asociaza fiecarui raspuns un numar ; in general mai multor
raspunsuri asemanatoare li se asociaza acelasi cod .
Recodificarea se refera la modificarea categoriilor de valori pe care le poate lua o anumita variabila.
Aceasta operatie este realizata mai ales la restrangerea numarului de valori pe care le poate lua o
variabila intr-un numar mic de categorii relevante care sa usureze analiza. (De exemplu daca
transformam varsta care este o variabila continua intr-o variabila cu cateva categorii de varsta). De
asemenea, recodificarea este utilizata la tratarea valorilor lipsa (recode (sysmis=99)).
Recodificarea se poate face prin modificarea valorilor variabilei initiale sau prin crearea unei noi
variabile cu codurile respective Transform Recode Into same variables sau Into Different
variables
Exemple si comentarii
In general la restrangeri ( recodificari) este indicat sa se creeze o variabila noua, variabila veche
ramanand cu valorile originale, pentru a putea fi folosita la o eventuala recodificare diferita ; numai in
masura in care suntem siguri ca nu vom mai avea nevoie de valorile variabilei initiale se alege
recodificarea pentru aceeasi variabila (de ex la curatare transformarea zerourilor in valori missing)
valorile din variabila initiala care nu sunt specificate in ce se transforma li se atribuie automat
valoarea missing
Folosirea comenzii copy old value (else = copy) pentru valorile care raman neschimbate
Pentru a aplica recodificari numai asupra unei selectii de cazuri se foloseste optiunea If sau do if,
punerea unui filtru nu functioneaza in cazul recodificarilor:
if q05=8 q06=4.
exe.
sau
do if q05=8.
recode q06 (6=4) (3=4).
end if.
exe.
O situatie aparte de recodificare este aceea in care respondentul poate da o valoare exprimata in
orice unitate de masura (Unitatile de masura sunt variabile controlabile in chestionar fie predefinite,
fie codificate ulterior)
Ex: Q 1. Cat intentionati sa platiti pentru aceste pachete de servicii, incluzand TVA?
.......................... 1 USD
2 EURO
3 ROL (lei vechi)
Pentru prelucrarea acestui tip de intrebare este necesar ca suma sa fie exprimata intr-o singura unitate de
masura; astfel vom avea nevoie de o serie de recodificari.
Presupunem 1USD=30.000lei si 1 Euro=36.000lei 1USD=0.83EURO
Daca variabila de cheltuieli este q15 iar q15_moneda este variabila in care se trece moneda in care este
exprimata suma., sintaxa este urmatoarea:
Cream o noua variabila Q15r (suma finala trebuie exprimata in EURO):
if q15_moneda=1 q15r=q15*0.83.
if q15_moneda=2 q15r=q15.
if q15_moneda=3 q15r=q15/36000.
if q15_moneda=3 q15r=q15/3.6.
exe.
Astfel am obtinut o noua variabila in care toate sumele sunt exprimate in euro. Pentru aceasta, PD
trebuie sa informeze SD asupra tipului de moneda in care se vrea variabila finala; tot astfel se trateaza si
sumele cu/ fara TVA. Trebuie sa verificam cum a fost intrebarea in chestionar (daca e sau nu inclus
TVA-ul) si sa ne informam cu se vrea prelucrata aceasta intrebare (cu/ fara TVA); si dupa caz, variabila
se imparte sau se inmulteste cu 1,19.
4.3 Tratarea valorilor missing/ Nonraspunsurilor
Valorile missing sau sysmis sunt nonraspunsurile, sau apar codificate initial cu valorile 0 sau 1 dupa
caz. Tratarea acestora se face in mod diferit in functie de tipul de varibila la care acestea apar:
pentru variabilele categoriale cu un singur raspuns , daca avem valori sysmis, acestea se vor
recodifica in DK/ NA ( se verifica mai intai daca aceasta categorie este predefinita in chestionar si i
se da valoarea acestea; daca nu i se da 99).
Ex 1:Q01 Care este principalul dumneavoastra operator de telefonie mobila?
1. Connex
2. Orange
3. Zapp
9. Nu stiu
Daca avem cazuri fara inregistrari (sysmis sau 0) pe aceasta intrebare, acestea se recodifica in 9:
recode q01 (0 sysmis=9).
Ex 2:Q01 Care este principalul dumneavoastra operator de telefonie mobila?
1. Connex
2. Orange
3. Zapp
Daca avem cazuri fara inregistrari (sysmis) pe aceasta intrebare, acestea se recodifica in 9 sau 99
(teoretic putem alege orice valoare care nu e deja predefinita ca si optiune de raspuns la aceasta
intrebare, dar e de preferat ca aceasta sa fie 9 daca valorile optiunilor sunt mai mici decat 9, sau 99
daca avem mai mult de 9 optiuni predefinite. Ideal ar fi ca in toata baza de data DK/ NA ul sa aiba
o aceeasi valoare.) si etichetam aceasta valoare cu DK/NA:
recode q01 (sysmis=99).
exe.
add val lab q01
999DK/ NA.
Variabilele de medii sunt singurele in care sysmis-ul ramane sysmis nu se trateaza De ce? Pentru
ca daca il facem 99 (DK/ NA) sau 0 aceste valori (care de fapt nu inseamna nimic si nu se
incadreaza in scala de masurare a indicatorului) vor influenta media- o vor face fie mai mare (cazul
cu 99) fie mai mica (0). De aceea, pentru variabilele pentru care se calculeaza medii, sysmis=ul
ramane la fel.
Ex1: Acum v-as ruga sa evaluati Calitatea serviciilor dintre operatorii Connex, Orange si Zapp. Dati o nota de la 1 la 10
unde 1 inseamna foarte prost, iar 10 inseamna foarte bine.
Aceasta intrebare poate fi prelucrata atat ca si medie (caz in care se trateaza ca si in Ex1.) cat si ca
frecvente simple, caz in care va trebui sa recodificam sysmis-ul in DK/ NA (pentru a avea toti
respondentii in baza de calcul a frecventelor) . In variabila initiala se va face urmatoarea modificare:
recode qx (sysmis=99).
exe.
add val lab qx 99DK/ NA.
compute qx_m=qx.
recode qxm (99=sysmis).
exe.
In ce priveste valorile de zero intalnite in cadrul unui bloc (filtru) trebuie facuta distinctia intre
nonraspunsuri deci persoane care trebuiau sa raspunda la intrebari dar nu au facut-o si filtre
persoanele care NU trebuiau sa raspunda la intrebare datorita conditiei anterioare de filtru.
- daca respondentul nu trebuia sa raspunda la intrebare ( i s-a aplicat un filtru), sysmis ramane
sysmis
- daca in urma aplicarii filtrului exista respondenti care trebuiau sa raspunda dar nu au facut-o
sysmis-ul se face DK/ NA.
Pentru variabilele cu raspuns multiplu (dihotomice), care se vor constitui intr-un grup, sysmis
inseamna ca suma tuturor variabilelor care au intrat in grup este 0. Adica nu s-a bifat nimic la nici
una dintre optiuni. In acest caz se constituie o noua variabila ( care ia valoarea 1 atunci cand suma
celorlalte este 0) si care se va eticheta cu DK/NA.
EX: Q 67.1. Presupunand ca saptamana viitoare veti achizitiona un telefon mobil cu conectare, care sunt sursele de
informare la care apelati?
1 Sfaturile prietenilor/ cunostintelor
6 Pliante, brosuri primite pe strada, in locuri publice
2 Reclama TV
7 Pliante, brosuri primite in magazin
3 Pliante, brosuri primite prin posta
8 Reclama radio
4 Informatii primite in magazin
9 Internet
10
Altele
5 Reclama in presa scrisa
(care?)...|____|
If q67_01+q67_02+ q67_03+q67_04+ q67_05+q67_06+
q67_07+q67_08+ q67_09+q67_10=0 q67_99=1.
Exe.
Ca sa intelegem mai usor, trebuie sa ne gandim ca numarul de respondenti este intotdeauna acelasi.
Daca la o intrebare avem mai putini respondenti inseamna fie ca acea intrebare e filtrata ( si atunci nr.
Respondenti= nr. Respondenti care indeplinesc conditia din filtru), fie ca nu au raspuns toti si in acest
caz sysmis=DK/NA.
Cand se face o curatare, intotdeauna trebuie verificate bazele ( count-urile din linia de total) pentru a
nu pierde vreun respondent.
Uneori, in cazurile in care avem valori lipsa acestea se pot inlocui cu anumite extrapolari realizate pe
baza celorlalte valori din set; formula folosita poate implica media celorlalte variabile valide, media sau
mediana punctelor alaturate. Aceasta se aplica insa doar in anumite situatii cand, spre exemplu, exista
unul-2 respondenti care nu au raspuns la o intrebare si nu vrem sa cream o noua categorie (de DK/ NA)
doar pentru acestia. Pentru astfel de situatii, decizia se ia impreuna cu PD-ul.
sau
if q01_01+ q01_02+q01_03=0 q01_09=1.
exe.
var lab q01_09 DK/ NA.
Realizarea grupului:
* Multiple Response Sets.
MRSETS
/MCGROUP NAME=$Q01
q01_03 q01_99=1
/DISPLAY NAME=[$Q01].
2. Variabile multiplu-categoriale
Se obtine atunci cand la o anumita intrebare subiectul poate alege mai multe variante de raspuns insa
numarul de alegeri este mai mic decat numarul total al alternativelor de raspuns; de exemplu dintr-un
numar total de 10 optiuni respondentul poate alege maxim 3 (In acest caz vom avea un set de 3
variabile, fiecare variabila putand lua diferite valori).
Ex 1 : Q 2. Care au fost principalele 3 surse de informare de unde ati aflat de oferta Romtelecom ADSL/ClickNet Express ?
[BIFATI MAXIM 3 OPTIUNI]
1 TV
2 Radio
3 Presa (ziare, reviste etc.)
4 Internet
5 Brosuri, fluturasi
6 Notificari aduse prin factura
7 Prieteni, cunostinte, rude etc.
8 Alte surse. 9 Dk na
Vom avea 3 variabile q01_01, q01_02, q01_03 fiecare putand lua valori intre 1 si 8. Prima verificare
care se face este ca o optiune sa nu se repete in cele 3 variabile.
do if q01_01=q01_02.
recode q01_02 (else = sysmis).
end if.
exe.
Teoretic aceasta verificare nu trebuie facuta, intrucat SPSS-ul numara o singura data fiecare raspuns al
respondentului (indiferent daca acesta apare de mai multe ori); dar desi aceasta nu ne afecteaza
prelucrarile, trebuie totusi sa verificam ca fiecare respondent sa dea raspunsuri unice (sa nu fie
duplicate)pentru ca bazade data ajunge la client si trebuie sa fie intr-adevar curata.
Inainte de constituirea grupului se creaza variabila dummy:
If q01_01=0 and q01_02=0 and q01_03=0 q01_01=99.
Exe.
Recode q01_02 q01_03 (0=sysmis).
Se constituie grupul:
* Multiple Response Sets.
MRSETS
/MCGROUP NAME=$q01q LABEL='Surse de informare' VARIABLES=q01_01 q01_02 q01_03
/DISPLAY NAME=[$q01q].
Dupa constituirea grupului, se scoate o frecventa pe grup (custom tables) pentru a verifica ca in q01 au
intrat toti respondentii
* Custom Tables.
CTABLES
/VLABELS VARIABLES=$q01q DISPLAY=DEFAULT
/TABLE $q01q [COUNT F40.0]
/CATEGORIES VARIABLES=$q01q ORDER=A KEY=VALUE EMPTY=EXCLUDE TOTAL=YES
POSITION=AFTER.
Variabile multiplu-categoriale sunt considerate si intrebarile deschise pentru care respondentul nu are
nici o lista de optiuni, raspunsurile sale fiind libere (deschise). Acestea se trateaza ca si in exemplul
de mai sus.
Problema cel mai des aparuta (cu care ne confruntam cu totii la inceput) este atunci cand lucram cu
variabile dihotomice (care se constituie ulterior intr-un grup) si nu stim ce sa facem cu optinile de genul:
Nu stiu, Nici una/ Nimic. Logic, cei care au cel putin o bifa la oricare dintre optiuni nu pot avea ca si
raspuns nici una din optiunile Nu stiu, Nici una/ Nimic. Atunci cand facem validarea intrebarilor de
acest gen, optiunile Nu stiu,respectiv, Nici una/ Nimic sunt tratate ca si raspunsuri individuale,
distincte de calupul celorlalte optiuni.
Ex: Q 3. Care au sursele de informare de unde ati aflat de oferta Romtelecom ADSL/ClickNet Express ?
1 TV
4 Internet
7 Prieteni, cunostinte, rude etc.
98 Nici una dintre acestea.
2 Radio
5 Brosuri, fluturasi
Respondentii care au cel putin o bifa nu trebuie sa aiba bifata si optiunea 99 Nu stiu.
if any(1, q01_01, q01_02,q01_03, q01_04, q01_05,q01_06,q01_07,q01_08,q01_98) q01_99=0.
exe.
Sintaxa se poate scrie si cu sum:
if sum( q01_01, q01_02,q01_03, q01_04, q01_05,q01_06,q01_07,q01_08)>=1 or q01_98=1 q01_99=0.
exe.
Abia dupa ce au fost facute toate aceste verificari, se constituie grupul pe care se da o frecventa pentru a
verifica ca avem toata baza. Grupul se va eticheta intotdeauna conform specificatiilor de raport si
folosind litera mare la inceputul fiecarui cuvant.
4.5 Sumele
Intrebarile cu suma fixa sunt intrebari in care respondentului i se cere sa distribuie o suma (fixa) intre
mai multe optiuni (ex: structura cheltuielilor din gospodarie). In cazul unor astfel de variabile
verificarea principala care se face este ca suma sa fie n (valoarea din chestionar ) pentru fiecare
respondent. In aceste situatii, intotdeauna 0 are valoare, deci valorile default ale acestor variabile vor fi
-1 (in faza de introducere Access)
Ex: Q 1. Din 10 dati cand cumparati bauturi racoritoare necarbonatate, de cate ori le luati la ?
1. Sticle de 2 sau 2,5 l
______
2. Sticle de 1 sau 1,5 l
______
3. Sticle de 500 ml
______
4. Sticle de 250-330 ml
______
5. Cutii de carton
______
TOTAL
10
[VERIFICATI SUMA]
Prima verificare care se face este ca fiecare variabila sa aiba doar valori in intervalul [0, 10]. Aceasta se
poate face
fie dand o frecventa pe fiecare dintre acestea, ceea ce este cam incomod (mai ales daca avem mai
multe variabile) intrucat trebuie sa urmarim un sir lung de tabele (in Output), fiecare cu multe valori
fie prin afisarea valorilor maxima si minima pentru fiecare variabila in parte utilizand comanda
Analyze Descriptive Statistics Descriptives din meniul SPSS-ului.
Se aleg variabile pentru care vrem sa calculam un min si un max, se apasa butonul de options, dupa care
se deschide o noua fereastra in care bifam ce vrem sa ne calculeze.:
Minimum
Maximum
Mean
Std. Deviation
q01_01 Aloha
21
1.00
10.00
8.777000
0.78590
q01_02 Bravo
0.00
9.00
3.4560
1.35200
q01_03 Carotella
1.00
8.00
1.0000
.00000
182
1.00
10.00
1.0000
.00000
Daca gasim valori care nu apartin intervalului, se verifica chestionarul fizic si se corecteaza cu valoarea
reala; daca si in chestionar este gresit, toate variabilele (de la intrebarea gresita) pentru respondentul
respectiv se vor face sysmis. Odata reparata aceasta eroare se compune o noua variabila egala cu
suma variabilelor de la intrebarea respectiva:
Compute q01_sum = q01_01+ q01_02+ q01_03+ q01_04.
Exe.
Fre q01_sum.
Daca aceasta suma este diferita de 10 inseamna ca undeva avem o greseala ; se verifica chestionarele cu
probleme si se corecteaza si aceasta eroare. Daca era greseala in chestionar nu se modifica valorile
astfel incat suma sa dea 10 ci se fac toate sysmis.
If q01_sum<>10.
Recode q01_01 q01_02 q01_03 q01_04 (else=sysmis).
End if.
Exe.
Se ruleaza din nou sintaxa de compunere a variabilei de suma si se verifica inca o data suma.
Pentru o verificare suplimentara, se face media pentru fiecare din cele 4 variabile (care intra in calcului
sumei), se exporta tabelul in Excel si acolo se calculeaza suma mediilor. Aceasta trebuie sa fie = 10:
altfel inseamna ca mai avem inca probleme in baza. (se reiau pasii de mai sus pentru identificarea
erorii).
Sintaxa pentru medii:
mean q01_01 q01_02 q01_03 q01_04.
sau
* Custom Tables.
CTABLES
/VLABELS VARIABLES=q01_07 q01_08 q01_09 q01_10 q01_11 DISPLAY=DEFAULT
/TABLE q01_07 [MEAN] + q01_08 [MEAN] + q01_09 [MEAN] + q01_10 [MEAN] + q01_11 [MEAN]
/SLABELS POSITION=ROW.
Pentru orice variabila pentru care se calculeaza medii (pentru care media are sens: note, sume,
evaluari... ) o cheie de verificare este urmarirea indicatorului Standard Deviation (= Media
abaterilor de la medie). Abaterea trebuie sa fie mai mica decat media cu aprox 40% (max) altfel
inseamna ca undeva exista o problema (ex: avem valori prea mari..)
Stem &
20.00
0
32.00
0
27.00
1
26.00
1
20.00
2
21.00
2
10.00
3
13.00
3
15.00
4
12.00
4
9.00
5
4.00
5
4.00
6
2.00
6
2.00
7
4.00
7
3.00
8
4.00
8
6.00
9
2.00
9
18.00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Leaf
11111222223333333444
55566666667777777888888888999999
000000000001111222333344444
55556666666677777888889999
00001111112233344444
556667777788888899999
0002233344
5556666678899
000111111233344
555666677889
012223334
6899
1134
57
23
5788
224
5569
Valorile mai mari ca 102 sunt cele
112444
pe care SPSS-ul le considera out of
55
range
(>=102)
10.00
1 case(s)
Nu intodeauna aceste valori sunt cele mai mari; mai putem sa ne uitam si pe frecvente inainte de a
decide ce valori eliminam. Ar fi bine sa se discute cu PD-ul despre acestea.
Cum se trateaza?: in functie de situatie se transforma in missinguri; sau se inlocuiesc cu media sirului;
sau cu cea mai mare (sau mica) valoare permisa
5. INTREBARILE DEMOGRAFICE
Orice baza de data trebuie sa aiba toate variabilele demografice completate.
Nu se accepta baze cu missing-uri sau DK/ NA pe demografice (exceptie fac intrebarile referitoare la
venit dar daca venitul este variabila de cote, nici aici nu se accepta non-raspunsuri).
Curatare si validare demografice (vezi template sintaxa).
Pentru a verifica ca toate varibilele de demografice sunt completate, iar valorile nu sunt in afara
intervalelor prestabilite (in chestionar) dam cate o frecventa pe fiecare dintre ele.
Validari pe demografice - Overall Rules:
Varsta reala vs. Varsta categoriala varsta intreaga (reala) trebuie sa fie corespunzatoare
categoriei (daca exista ambele variabile)
Varsta vs. Educatia (Ultimul nivel de educatie absolvit)
Daca educatia e 10 clase sau scoala profesionala varsta >= 16 ani
Daca educatia e liceu varsta >= 17 ani
Daca educatia e postliceala/ facultate/ studii postuniversitare varsta >= 20 ani
Verificarea diferitelor nivele de ocupatie
La d_ocuwork vor raspunde doar cei cu d_ocu=2 sau 3
La d_ocunotwork vor raspunde doar cei cu d_ocu=3 sau 4
Educatia vs. Ocupatia (d_ocuwork cei care au un loc de munca)
Standardele Daedalus, impun realizarea urmatoarele validari intre educatia respondentului si
ocupatia (pentru cei care lucreaza; in aceste rules nu se includ somerii, casnicele, elevii, pensionarii
pentru care nu se face validarea cu ultimul nivel de educatie absolvit):
Daca educatia e 8 -10 clase (primele dou nivele de educatie) ocupatia nu poate fi la un
nivel mai mare decat muncitor
Daca educatia e liceu/ postliceala ocupatia ocupatia nu poate fi la un nivel mai mare
decat angajat cu studii medii
Manager/ director pot fi doar persoanele cu studii universitare. Daca respondent avand
un alt nivel de educatie se declara manager se va muta bifa la intreprinzator/patron
D_ocu
OCUPATIA
1.
D_ocuwork
2.
Intreprinzator/
patron/
Liber
1.
EDUCATIA
Manager/
director (top sau
middle
management)
OK
OK
10 clase/ profesionala
OK
OK
Liceu
OK
OK
OK
Postliceala
OK
OK
OK
Colegiu/ Facultate
OK
OK
OK
OK
OK
Post-universitara
OK
OK
OK
OK
OK
profesionist
(am
angajat
Profesionist,
superioare
cu
studii
(fara
3. Angajat cu studii
4.Muncitor
medii/ functionar
functie de conducere)
Sex vs Ocupatie (barbatii nu pot fi casnici- se transfera bifa la somer/fara loc de munca)
Varsta vs Ocupatie angajatii trebuie sa aiba min 15 ani
Venitul Net Lunar Personal vs. Ocupatia
Daca respondentul lucreaza (ocupatia=1,2,3,4,5) si declara ca nu are venit, se muta
bifa la DK/ NA (la venit)
Daca respondentul nu lucreaza (casnica sau elev) si declara ca are un venit foarte mare
(peste 3 400 euro) se se muta bifa la DK/ NA (la venit) - optional
Venitul Net Lunar Personal vs. Venitul Net Lunar Total in Gospodarie vs. Venitul pe Membru
de Familie
Daca in gospodarie exista un singur membru Venitul Net Lunar Personal nu poate fi 0
(daca e asa, se face DK/ NA)
Daca in gospodarie exista un singur membru, cele trei variabile de venit trebuie sa fie
identice
Daca gospodaria e compusa din cel putin doi membrii Venitul Net Lunar Total in
Gospodarie trebuie sa fie mai mare decat Venitul Net Lunar Personal.
Numarul de Membrii in Gospadarie vs. Numarul de copii Numarul de copii trebuie sa fie mai
mic decat numarul total de membrii in gospodarie.
Starea civila vs. Varsta se fac crossuri intre cele doua variabile si se curata dupa bunul simt
(Respondentul nu poate fi casatorit/divortat/vaduv daca are sub 16 ani femei, 18 ani barbati)
Numarul de Membrii in Gospadarie vs. Varsta Este putin probabil ca persona sub 18 sa
locuiasca singure.
Toate aceste verificari/ corelatii (enumerate mai sus) se fac pe variabilele initiale (d_edu_ini....._ si nu
pe cele recodificate care presupun si o restrangere a categoriilor in prealabil.
Abia dupa toate aceste verificari (cross-uri intre ele) si curatari se face restrangerea in variabilele
demografice standard
Structura gospodariei
D_MEM. Cati membri sunt in gospodaria dumneavoastra, inclusiv dumneavoastra? _______
D_MEMCATEG. Din ce membri este formata gospodaria dumneavoastra? [BIFATI TOT CE SE APLICA IN COLOANA
D_MEMCATEG]
D_MEMROL. Care este rolul dumneavoastra in gospodarie? [BIFATI O SINGURA OPTIUNE PE COLOANA
D_MEMROL]
D_MEMNUM. Cate persoane din fiecare din urmatoarele categorii sunt la dvs. in gospodarie? [CITITI CATEGORIILE
BIFATE LA D_MEM] [NOTATI IN COLOANA D_MEMNUM]
1. Sot/ partener
2. Sotie/ partenera
3. Copii peste 18 ani
4. Copii intre 12 18 ani
5. Copii intre 7 12 ani
6. Copii sub 7 ani
D_MEMCATEG
Membri gospodariei
1
2
3
4
5
6
D_MEMROL
Rolul respondentului
1
2
3
4
5
6
8. Alte persoane
Membrii in gospodarie
D_MEMNUM
Numar de persoane
_______
_______
_______
_______
_______
_______
Pentru d_memcateg vom avea 8 variabile dihotomice din care se va constitui un grup numit
d_memcateg. Se verifica numarul total de membrii (d_mem) cu numarul bifeleror de la d_memcateg
(d_mem nu poate fi mai mic decat numarul bifeleror de la d_memcateg).
D_memrol trebuie sa se regaseasca in bifele de la d_memcateg.
La d_memnum vom avea 6 variabile (numerotarea incepe de la 3) care trebuie validate cu d_memcateg
(dupa ce sa scoate un tabel cu grupul d_memcateg) se verifica ca numarul respondentilor de la fiecare
d_memnum_0x... sa fie egal cu cel de la d_memcateg (Ex: Daca avem 5 respondenti care au in
gospodarie COPII SUB 7 ANI tot 5 persona etrebuie sa ne raspunda si la intrebare Cati copii sub 7 ani
aveti????) Daca acestea nu se valideaza, se verifica chestionarul si se ia o deciizie (ex: daca un
respondent a spus ca are 2 copii sub 7 ani dar nu a bifat ca ar avea copii sub 7 ani, se pune bifa la
d_memcateg_06 dar nu inainte de a verifica, ca pentru toate celelalte bife de la d_memcateg a si raspuns
la d_memnum)
Pentru d_memnum se va calcula o suma care trebuie sa fie egala cu d_mem:
compute d_memnum_sum=d_memnum_03+ d_memnum_04+ d_memnum_05+ d_memnum_06+
d_memnum_07+ d_memnum_08.
In functie de esantion (populatia tinta) s verifica ca d_memrol sa se incadreze in acel esantion (daca
target-ul nostru sunt personae de peste 18 ani, d_memrol<>4,5,6.
1 combina muzicala
2 telefon mobil
3 autoturism
4 PC (computer personal)
5 masina de spalat
6 frigider
..................................................... ...................................................................
..........................................................................................................................
Q 98. Ati utilizat Internetul in ultima luna?
1 Da
Q98.1. Cu ce frecventa ati utilizat Internetul in ultima luna?
1 zilnic
2 de 4 -5 ori pe saptamana
3 de 2-3 ori pe saptamana
4 o data pe saptamana
5 de 2-3 ori pe luna
6 o data pe luna
Q98.2 De unde obisnuiti sa accesati Internetul?
1 De acasa
2 De la scoala/ serviciu
3 De la un prieten/ cunostinta/ ruda
4 De la Internet cafe
5 De altundeva (unde) ................................................................|____|
2 Nu
In acest caz, trebuie verificat ca cei care au raspuns ca acceseaza internetul de acasa (Q98_2_01=1) sa
aiba calculator acasa (Q3=4). Aceasta verificare se face facand un cross intre cele doua variabile, sau
punand un filtru pe Q98_2_01=1si pe urma o frecventa pe q03. Daca apar neconcordante se verifica
chestionarul si se recodifica variabila cu valoarea corespunzatoare.
Intrucat pot sa apara astfel de erori (198 respondenti au calculator acasa; 203 respondenti acceseaza
internetul de acasa) chestionarul trebuie citit cu foarte mare atentia pentru a nu trece cu vederea anumite
validari/ corelatii care pot duce la greseli in prelucrare/ raportare.
Pentru studiile Daedalus, verificarea acestor corelatii trebuie trecuta in specificatiile de curatare de catre
PD. Pentru studiile contractate direct de catre Eurodata sau care nu necesita prelucrare, SD trebuie sa
identifice singur existenta unor astfel de intrebari si sa valideze datele intre ele . Pentru aceasta este
necesara citirea cu foarte mare atentie a chestionarului astfel incat sa se identifice toate corelatiile/
validarile posibile.
Corelatiile mai simple, de genul Q98 q98.1/2 (acestea nu se vor trece in specificatiile de curatare),
se verifica cu un cros sau filtru simplu. Daca numarul de respondenti de la Q98.1 este mai mare decat
cei care au spus Da (1) la q98, modificarea care se face in baza de date este q98=1. Deci nu aplicam
sintaxa if q98=2 recode q981 (elese=sysmis) intrucat e mai probabil ca aceasta eroare sa apara datorita
neatentiei la introducere decat in faza de aplicare a chestionarului. Sintaxa utilizata este:
cross q98_1 by q98.
se verifica tabelul rezulatat si se identifica problemele
if sum (q98_1_01, q98_1_02, q98_1_03, q98_1_04, q98_1_05, q98_1_06)>0 q98=1. se bifeaza Da la q98
exe.
O alta corelaie care se poate face pe aceasta intrebare este verificarea faptului ca, cei care au spus ca
acceseaza internetul de la scoala/ serviciu chiar au un serviciu sau sunt elevi/ studenti. Pentru aceasta, se
face un cros intre variabila q98_2 si ocupatie.
De asemenea, de multe ori in chestionarul de selectie apar unele intrebari care se repeta si in
chestionarul principal fie in aceeasi forma , fie sub forme diferite . Evident, raspunsurile la aceste
intrebari trebuie sa fie identice; iar aceasta verificare trebuie facuta intotdeauna.
Occasionally
Q2F. Pe care dintre aceste marci o consumati cel mai des? [BIFATI O SINGURA OPTIUNE] = Used
Most Often
Q2G. Pe care dintre aceste marci ati consumat-o in ultimele 12 luni, cel putin o data? [BIFATI TOT CE SE APLICA]
Aided Awareness
Various levels of consumption Ever consumed (q02c) (Orice varianta de consum Q2d, q2j intra in
In acest caz avem 5 variabile dihotomice (cate una pentru fiecare raspuns posibil: q05_01 ... q05_05)si
inca una categoriala in care se va nota raspunsul pentru alta q05_05c.
Numarul respondentilor de la q05_05c trebuie sa fie egal cu cel de la q05_05. Dupa ce dam o frecventa
pe q05 si aflam care este numarul celor care au spus Alta (q05_05=1), vom da o frecventa pe q05_05c
(dupa ce, in prealabil, am recodificat 0-urile in sysmis: recode q05_05c (0=sysmis).) si comparam bazele.
if q05_05c>0 q05_05=1.
-- Avem persoane care au rapuns la q05_05c dar nu au bifa la q05_05.
exe.
(transferam bifa)
Verificarile care se fac pentru astfel de variabile, avand ca si input pe langa baza SPSS si codurile
trecute de asistentii de proiect in excel-ul de coduri, sunt urmatoarele:
codificarea unor raspunsuri aberante (care nu au nici o legatura cu intrebarea) caz in care acestea
se fac sysmis (nu se lasa in baza)
codurile folosite isi au un echivelent in lista de optiuni din chestionar (ex: 17 de la bunica/ cineva =
3 De la un prieten/ cunostinta/ ruda). Daca avem astfel de situatii, va trebui mutata bifa in categoria
corespunzatoare:
if q05_05c=17 q05_03=1.
if q05_05c=17 q05_05=0.
recode q05_05c (17=sysmis).
exe.
coduri dublate (acelasi lucru a fost codificat de 2 ori sub coduri diferite) in acest caz in baza se va
si trebuie tratata ca atare . Nu stiu nu poate fi un raspuns la intrebarea Alta Care?, motiv
pentru care in astfel de cazuri 99 va fi scos din aceasta categorie, si se va constitui o noua
variabila q05_99 care va intra in grupul q05:
if q05_05c=99 q05_99=1.
var lab q05_99 DK/ NA
if q05_05c=99 q05_05=0.
recode q05_05c (99=sysmis).
exe.
Daca toti respondentii care au bifat alta au data un acelasi raspuns la intrebarea Alta Care? Atunci
putem renunta la optiunea alta si fie sa o reetichetam (cu explicatia codului de la alta) fie sa cream o
noua variabila q05_06 etichetata cu aceasta explicatie si sa debifam raspunsurile de la q05_05.
La fel se procedeaza si in situatia in care avem foarte multi respondenti (poate chiar mai multi de cat
cei de la categoriile predefinite) care au raspunsuri identice la Alta Care? Pentru ei se vor crea
variabile noi, cu eticheta corespunzatoare raspunsului si se vor scoate atat din q05_05 cat si din
q05_05c. Pentru aceasat este necesar acordul PD-ului.
Vom avea 4 variabile (q07_01...q07_04), pentru un respondent putand fi completate oricate dintre ele.
Pentru studiile Daedalus prelucrarea/ restrangerea deschiselor se face in Daedalus dar cateva verificari
trebuie facute si pentru acest tip de variabile:
Toti respondentii au raspuns la aceasta intrebare
do if sum(q07_01,q07_02, q07_03,q07_04)=0.
recode q07_02, q07_03,q07_04.
end if.
exe.
recode q07_01 (0=ysmis).
3. Corectitudinea facturari
.
10. Relatia cu clientii
Avem de-a face cu variabile de medii, fiecare cu valori intre 1 si 10. Este evident ca evaluarea generala
a operatorului (q01) depinde in mare masura de evaluarile specifice pe atribute (q02_01, q02_10), de
aceea media evaluarii generale ar trebui sa fie aproximativ egala cu media ponderata pe evaluarile pe
atribute. Daca intre acestea exista diferente mari, inseamna ca avem o problema (ex: q01=9 iar
atributele de la q02 sunt toate sub 9). In acest caz, se verifica chestionarul iar daca nu ese greseala de
introducere, valorile acestor intrebari se vor face sysmis; este putin probabil ca nota generala obtinuta
sa nu fie influentata de nici unul din atributele enumerate la q02 (de obicei chestionarul este astfel
conceput incat sa cuprinda principalele attribute).
Astfel de corelatii trebuie facute si la studiile Blind/ Concept Test in care respondentului i se cere pe de
o parte sa evalueze diverse atribute (gust, aspect) dupa care sa dea o nota generala produsului si sa-si
manifeste preferinta pentru unul dintre produsele testate. Daca un respondent a dat evaluari foarte
proaste pentru produsul A si evaluari mai bune pentru produsul B, dar la preferinta a iesit ca prefera
produsul B, inseamna ca avem o problema. (problema poate aparea de la introducere, din faptul ca
respondentul nu-si mai amintea exact care era primul respectiv al doilea produs testat, variabila de
preferinta a fost compusa gresit, etc.) Asemenea erori nu pot ramane in baza.
6.4 Consideration
Q 4. [ARATATI CARTONASUL Q 4] Cat de probabil este sa luati in considerare achizitia marcii.. [ROTITI
ORDINEA MARCILOR] data viitoare cand veti cumpara bauturi racoritoare necarbonatate (suc, nectar, suc natural
100%)? Va rog sa va uitati la acest cartonas si sa alegeti una dintre aceste optiuni. [BIFATI O SINGURA OPTIUNE
PE COLOANA] Si cat de probabil este sa luati in considerare achizitia marcii.[CITITI URMATOAREA MARCA
DIN TABEL] [VERIFICATI CA ATI APLICAT INTREBAREA PENTRU TOATE MARCILE]
[ROTITI MARCILE] [MARCATI
MARCA CU CARE INCEPETI]
Duo
Frutti/
Cappy
Pfanner
Prigat
Santal
Tedi
Fruo
Fruttia
1. Este prima mea optiune
1
1
1
1
1
1
1
FIRST CHOICE
2. Este o marca pe care m-as gandi in
mod serios sa o cumpar
2
2
2
2
2
2
2
SERIOUSLY CONSIDER
3. Este o marca pe care m-as putea
gandi sa o cumpar
3
3
3
3
3
3
3
MIGHT CONSIDER
4. Este o marca pe care nu m-as
gandi sa o cumpar
4
4
4
4
4
4
4
REJECTED
0. Nu stiu/ Non-raspuns [NU CITITI]
0
0
0
0
0
0
0
Transpuneri
Transpunerea este operatiunea prin care una sau mai multe variabile dintro baza de data, se pun una sub
alta, pentru a putea fi prelucrate impreuna. In urma transpunerii, fiecare respondent va fi dublat, triplat
etc, in functie de cate evaluari avem. Situatiile in care utilizam transpunerea sunt:
- Blind Test-ele caz in care toate variabilele de evaluare al celui de-al doilea produs se transpun
astfel incat vom avea o noua baza cu doar jumatate din variabile (atat pentru produsul A cat si pt
produsul B) si o variabila de identificare a ordinii in care s-a facut transpunerea (1=variabilele
initiale, carevorbesc pentru primul produs evaluat, 2= variabilele rename-uite care vorbesc
pentru al doilea produs evaluat).
- Diferite evaluari care pot fi facute pentru oricare x brand-uri dintro lista predefinita. Ex:
Q 5. Mai departe va voi citi o serie de afirmatii care descriu o reclama oarecare. Gandindu-va la reclamele companiilor de
asigurari de viata pe care le-ati vazut in ultimele 6 luni, as dori sa-mi spuneti in ce masura sunteti de acord cu urmatoarele
afirmatii? Aveti urmatoarele optiuni: 1 dezacord total; 2 dezacord; 3 dezacord partial; 4 nici acord nici dezacord; 5
acord partial; 6 acord; 7 acord total. [SCRIETI IN SPATIILE PUNCTATE NUMELE COMPANIILOR DE
ASIGURARI DE VIATA LA CARE RESPONDENTUL A VAZUT RECLAME OPTIUNILE BIFATE LA ERROR!
REFERENCE SOURCE NOT FOUND.. SE VA EVALUA RECLAMA NEDERLANDEN/ ING - NEDERLANDEN
DACA A VAZUT-O - VEZI ERROR! REFERENCE SOURCE NOT FOUND. = 9, 10] [ARATATI CARTONASUL C
9] [ROTITI AFIRMATIILE]
Reclama
....|___
....|___
....|____|
S1
S2
_|
S3
_|
1. Este usor de retinut
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
2. Este deosebita
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
3. Este emotionanta
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
4. Este convingatoare
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
6. Este credibila
7. Este potrivita pentru o companie de
asigurari de viata
8. Are un impact puternic
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
compute d_ord=1.
exe.
Se salveaza baza
SORT CASES BY
cod (A) .
Se salveaza baza
Din meniul SPSS aceasta se poate face din: Data Restructure --- Restructure selected variables
into cases
Detranspuneri
- este operatiunea prin care baza de date transpusa este readusa la forma initiala (fiecare
respondent va aparea o singura data cu toate variabilele)
Din meniul SPSS aceasta se poate face din: Data Restructure --- Restructure selected variables
into cases
Variabila dupa care se face detranspunerea este d_ord-ul
Sintaxa folosita
SORT CASES BY cod d_ord .
CASESTOVARS
/ID = cod
/INDEX = d_ord
/GROUPBY = VARIABLE .
Compunere d_pref
Pentru Blind Teste, o variabila foarte importanta este d_pref care specifica preferinta respondentului
pentru unul din produsele testate.
Intrebarea din chestionar este:
Q 6. [ARATATI CARTONASUL C 1] Dintre cele doua produse pe care tocmai le-ati gustat, care dintre ele v-a placut mai
mult?
[O SINGURA BIFA PE COLOANA]
Afirmatii
1. Imi place mai mult primul produs testat
2. Imi place mai mult cel de-al doilea produs testat
3. Imi plac la fel ambele produse testate
4. Nu imi place nici unul din produse
Q 80
1
2
3
4
Presupunem ca au fost testate 4 produse (doua cate doua) : A, B, C si D. Avem variabila tip care ne
arata produsele testate si ordinea in care au fost testate cele 2 produse
Sintaxa de compunere a preferintei este:
compute d_pref=0.
if tip="A/B" and q80=1 d_pref=1.
if tip="A/B" and q80=2 d_pref=2.
if tip="A/C" and q80=1 d_pref=1.
if tip="A/C" and q80=2 d_pref=3.
if tip="A/D" and q80=1 d_pref=1.
if tip="A/D" and q80=2 d_pref=4.
if tip="B/A" and q80=1 d_pref=2.
if tip="B/A" and q80=2 d_pref=1.
if tip="C/A" and q80=1 d_pref=3.
if tip="C/A" and q80=2 d_pref=1.
if tip="D/A" and q80=1 d_pref=4.
if tip="D/A" and q80=2 d_pref=1.
if tip="B/C" and q80=1 d_pref=2.
if tip="B/C" and q80=2 d_pref=3.