Sunteți pe pagina 1din 7

Metode de tratare

a nonrspunsurilor pariale
n sondajele statistice ntlnim dou tipuri de non-rspunsuri: non-rspuns
parial (cnd pentru o unitate din eantion lipsesc valorile unora dintre variabile) i nonrspuns total (cnd pentru o unitate din eantion ne lipsesc valorile tuturor variabilelor).
Unitile ncadrate la non-rspunsuri totale se numesc non-respondeni iar cauzele
apariiei lor pot fi: unitatea a fost inaccesibil, refuzul sau incapacitatea de a rspunde,
abandonul cooperrii n timpul interviului (prin distrugerea chestionarului) sau pur i
simplu pierderea nregistrrilor pentru unitatea respectiv.
Existena valorilor lips ridic probleme serioase atunci cnd datele colectate
prin sondaj constituie baza unei analize statistice bazate pe metode avansate.

Probleme rezolvate
Problema 1

n urma centralizrii rspunsurilor obinute dintr-un sondaj n rndul studenilor


unei universiti au rezultat datele prezentate n tabelul 6.1.
Definirea variabilelor:
STRAT. sondajul s-a realizat dup un plan stratificatastfel: 1 anul I, 2 anul II,
3 anul III i 4 anulIV.
SEX. 1 feminin, 2 masculin.
MEDIE. Este variabil numeric i reprezint media obinut n sesiunea din
iarn.
NRORE. Este variabil numeric i reprezint numrul de ore de studiu pe
sptmn n afara sesiunii.
ACORD. Este variabila obinut n urma centralizrii rspunsurilor la
ntrebarea: n ce msur suntei de acord cu modificrile survenite n
nvmntul superior?. Codurile reprezint: 1 dezacord total, 2 dezacord, 3
indiferent, 4 acord i 5 acord total.
Se cere:
1. S se nlocuiasc valorile lips ale variabilei NRORE folosind imputaia
predictiv prin mediere global, imputaia predictiv prin mediere pe clase i
imputaia obiectiv.
2. S se nlocuiasc valorile lips ale variabilei ACORD folosind imputaia
hot-deck.
Rezolvare

1. Notm cu yij rspunsul pe care l d individului i din eantionul E la ntrebarea


j (i=1,..,n, j=1,... ,p). Concentrndu-ne asupra individul i din eantion
constatm c vectorului (yi1, ...., yip), format din rspunsurile la ntrebrile din
chestionar, i lipsesc unele componente (non-rspunsurile). Fiecare poziie de
coordonate (i,j) trebuie tratat separat, prin crearea unei valori yij numit
valoare atribuit sau imputaie.

Imputaia predictiv prin mediere global


Aceasta se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media
rspunsurilor care au fost obinute la ntrebarea j. n acest caz avem:
r
119
y'ij = y r, j = y ij r =
= 5.17
23
i =1
unde r este numrul rspunsurilor valide la ntrebarea j.
n urma aplicrii acestei metode toate cele 7 valori lips se vor nlocui cu 5.17
(vezi tabelul 6.2 variabila NROREIG). Avantajul acestei metode este c nlocuirea
valorii lips se face cu o valoare probabil ceea ce i d un oarecare grad de stabilitate.
Dac exist muli respondeni care nu au rspuns la ntrebarea j vom folosi pentru toi
aceeai imputaie. Este clar c se produce o subevaluare sever a dispersiei
estimatorului pentru media sau totalul caracteristicii yj.
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

STRAT
1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4

SEX
1
1
1
1
2
2
1
1
1
1
1
2
2
2
1
1
1
1
1
1
2
2
2
1
1
1
1
2
2
2

MEDIE
7
8.33
6.67
9.67
6.33
7.8
9.67
8
7.2
8.8
6.33
7
8.8
8.2
7.9
8.8
6.67
9.33
8.33
7.7
8.2
5.67
9.2
9.33
8.9
7.8
8.2
8.9
7.9
7.5

NRORE
3
4
3
10

4
11
3
6
4
4
6
5
5

9
6
5
5
9
7
6
7
5
4

Tabel 6.1
ACORD
2
2
3
4
2
1
2
2

4
5
1
1
3
4
4
2
2
2
2
3
2
1
2

Imputaia predictiv prin mediere clase


Aceast metod este similar imputaiei predictive prin mediere global, cu
deosebirea c nu se utilizeaz o singur imputaie, ci mai multe corespunztoare
unor clase n care a fost mprit mulimea respondenilor. Astfel, partiionm
mulimea respondenilor r la ntrebarea j n q clase disjuncte. Identificm clasa cruia i
k

aparine individul i construim imputaia: y'ij = y rjt = y ij k


i =1

unde t ia valorile 1,..,q iar k este numrul de respondeni din clasa respectiv,

Deoarece exist patru straturi se vor calcula 4 imputaii.


k
k
23
32
y'1ij = y rj1 = y ij k =
= 4.6 y'2ij = y rj2 = y ij k =
= 4.57
5
7
i =1
i =1
k
k
37
27
y'3ij = y rj3 = y ij k =
= 6.17 y'42ij = y rj4 = y ij k =
= 5.4
6
5
i =1
i =1
n tabelul 6.2 variabila NROREIC este obinut n urma aplicrii acestei metode.
Utilizarea acestui tip de imputaie reduce gradul de subestimare a dispersiei
estimatorului.
n cazul n care caracteristica este reprezentat pe o scal de intervale sau
proporional calcularea media aritmetic se va nlocui cu o medie de poziie (mediana
n cazul unei variabile ordinale sau modulul pentru variabilele nominale).
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

STRAT
1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4

SEX
1
1
1
1
2
2
1
1
1
1
1
2
2
2
1
1
1
1
1
1
2
2
2
1
1
1
1
2
2
2

MEDIE
6
8.33
5.67
9.67
5.33
7.8
9.67
8
7.2
8.8
6.33
6.33
8.8
8.2
7.9
8.8
5.67
9.33
8.33
7.7
8.2
5.67
9.2
9.33
8.9
7.8
8.2
8.9
7.9
7.5

NRORE
2
4
3
10

4
9
3
5
2
3
5
5
5

8
6
4
5
9
7
6
7
4
3

NROREIG
2
4
3
10
5.17
4
9
5.17
3
5
2
3
5
5
5
5.17
5.17
8
6
4
5
5.17
9
5.17
7
6
7
5.17
4
3

NROREIC
2
4
3
10
4.6
4
9
4.57
3
5
2
3
5
5
5
6.17
6.17
8
6
4
5
6.17
9
5.4
7
6
7
5.4
4
3

Tabel 6.2
NROREIO
2
4
3
10
0.49
4
9
5.19
3
5
2
3
5
5
5
6.60
1.09
8
6
4
5
1.09
9
7.53
7
6
7
6.78
4
3

Imputaia obiectiv
La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de
date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse procesului de
imputare. Ecuaia poate avea urmtoarea form: y = b0 + b1 x1 + b2 x 2 + ...... + bk x k
unde y este variabila ce urmeaz a fi imputat pentru valorile date ale
variabilelor xi, i=1,,k corelate cu variabila y.
Pentru setul de date ce nu conine valori lips pentru variabila NRORE se
stabilete forma ecuaiei de regresie ce are ca variabil independent MEDIA.n figura
6.1 este reprezentat grafic legtura dintre MEDIE i NRORE.
Nr. ore studiu n funcie de media obinut n sesiunea din iarn
12
10

nr. ore

8
6
4
2
0
0

y = 1.761x - 8.8953

10

12
media

Fig. 6.1

Pe baza ecuaiei de regresie y = 1.761x - 8.8953 se determin imputaiile cu care


se vor nlocui non-rspunsurile variabilei NRORE (vezi tabelul 6.2 variabila
NROREIO).
2. Imputaia hot-deck este utilizat la scar larg deoarece, spre deosebire de
imputaia prin mediere global sau pe clase, evit subestimarea dispersiei
estimatorului. Pentru aplicarea acestei metode se parcurg urmtoarele etape:
Tabel 6.3
STRAT
1
1
2
2
3
3
4
4

SEX
1
2
1
2
1
2
1
2

ACORD
2
2
2
1
3
2
2
1

Etapa1. Fiierul ce conine baza de date este n prealabil sortat dup


caracteristicile demografice, economice sau sociale pe baza crora se poate pune n
eviden structura eantionului. Deoarece n tabelul 6.1 datele sunt deja sortate dup
STRAT i SEX se poate trece la etapa urmtoare.
Etapa 2. Un registru de lucru este iniializat cu valorile aferente cmpurilor
cuprinse n prima nregistrare a unei caracteristici dup care s-a realizat sortarea. n
tabelul 6.3 este prezentat registrul de lucru constituit.
Etapa 3. Fiierul (tabelul 6.1) se parcurge nregistrare cu nregistrare i fiecare
cmp este identificat i verificat s nu conin valori lips.
Etapa 4. n cazul n care unul din cmpuri conine valori lips acesta va fi
nlocuit cu valoarea corespunztoare din registru.
Rezultatul implementrii acestei metode este prezentat n tabelul 6.4.
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

STRAT
1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4

SEX
1
1
1
1
2
2
1
1
1
1
1
2
2
2
1
1
1
1
1
1
2
2
2
1
1
1
1
2
2
2

ACORD
2
2
3
4
2
1
2
2

4
5
1
1
3
4
4
2
2
2
2
3
2
1
2

Tabelul 6.4
ACORDM
2
2
3
4
2
1
2
2
2
4
5
1
1
1
3
4
3
4
2

2
2
2
2
3
2
2
1
1
2

Probleme propuse
Problema 1

n urma centralizrii datelor provenite dintr-un sondaj realizat n rndul


omerilor ntegistrai la ANOFM Bucureti s-au obinut datele prezentate n tabelul 6.5.
Pentru uurina calculelor sunt prezentate doar 30 de nregistrri.
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

SEX
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2

STUDII
1
1
2
2
2
2
3
3
3
3
3
3
3
3
3
4
4
1
2
2
3
3
3
3
3
3
3
3
4
4

DOMAJ
14
10
7
9
4
9

ACORDR
2
2
4
4

5
8
4

2
2

6
7
6
5
2
2
9
6
9
5
6
4
8
6
4
3

4
2
1
5
2
2
3
2
2
32
2
4
5
5
5
5

Tabel 6.5
ULTACT
1

1
1
2
3
3
1
2
1
1
2
2
3
1
2
1
3
1
2
4
5
4
4
4

Definirea variabilelor:
SEX. 1 feminin, 2 masculin.
STUDII. 1 fr studii, 2 studii primare, 3 studii medii, 4 studii superioare.
DOMAJ. Este variabil numeric i reprezint durata medie a omajului
exprimat n luni.
ACORDR. Este variabila obinut n urma centralizrii rspunsurilor la
ntrebarea: n ce msur suntei de acord s participai la cursuri de
recalificare?. Codurile reprezint: 1 dezacord total, 2 dezacord, 3 indiferent,
4 acord i 5 acord total.

ULTACT Este variabila obinut n urma centralizrii rspunsurilor la


ntrebarea: Care este ultima aciune ntreprins pentru gsirea unui loc de
munc?. Codurile reprezint: 1 m-am nscris la o agenie autorizat de
ocupare a forei de munc, 2 am consultat anunurile din ziare, 3 am apelat la
prieteni i cunotine, mi-am nscris CV pe pagini Web specializate, 5 alte
aciuni.

Se cere:
1. S se nlocuiasc valorile lips ale variabilei DOMAJ folosind imputaia
predictiv prin mediere global i imputaia predictiv prin mediere pe clase
(realizate dup variabila STUDII).
2. S se nlocuiasc valorile lips ale variabilei ACORDR folosind imputaia
hot-deck.
3. S se nlocuiasc valorile lips ale variabilei ULTACT folosind imputaia
predictiv prin mediere pe clase (realizate dup variabila STUDII).

S-ar putea să vă placă și