Documente Academic
Documente Profesional
Documente Cultură
Curs 3 - 4
Curs 3 - 4
Probleme ridicate:
1 1 1
n p nth
Pr Pe Pv
Problema nonraspunsurilor
intrebarea
nr.
Chest 1 2 .. j …. p
1 Nonrăspuns
partial
2
…
i Nonrăspuns
total
…
npornire
Non-răspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eşantionului.
- modificarea structrurii eşantionului, non-respondenţii formând o
subpopulaţie aparte
A. Metode de tratare a nonrăspunsurilor parţiale
Dezavantaje:
Notăm:
yij = răspunsul pe care îl dă individului i din eşantionul E la
întrebarea j (i=1,..,n, j=1,... ,p).
(yi1, ...., yip) vectorul format din raspunsurile individului i
Fiecare poziţie de coordonate (i,j) unde avem valoare lipsa trebuie
tratată separat, prin crearea unei valori y’ij numită ’’valoare
atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală
r
y'ij y r, j y ij r
i 1
k
y'ij y rjt y ij k
unde t ia valorile 1,..,q iar k
este numărul de respondenţi
din clasa respectivă.
i 1
Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere
globală sau pe clase, evită subestimarea dispersiei estimatorului.
Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă
structura eşantionului.
Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 - 3,8 Registru de lucru
4 1 3 1 4
5 1 3 1 -
6 1 3 - 4 Mediul NVINST F_ANG Venit
7 1 3 2 4,5 1 1 1 2,5
8 1 4 1 8 1 2 3 2,6
9 1 4 1 8 1 3 1 4
10 1 4 2 - 1 4 1 8
11 1 4 2 12 2 1 1 2,5
12 2 1 1 2,5 2 2 2 2,8
13 2 1 2 1,8 2 3 3 3
14 2 2 2 2,8 2 4 4 1,6
15 2 2 - -
16 2 2 1 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6
Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă a unui
’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem:
y'ij y hj
Este o variantă a imputaţiei hot-deck
Imputaţia obiectivă.
La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de
date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y b0 b1 x1 b2 x 2 ...... bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor
xi, i=1,…,k corelate cu variabila y.
Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratăm non-răspunsurile şi se sortează fişierul după
aceste variabile.
Etapa 2.
Se parcurge fişierului ce conţine tabelul indivizi-variabile înregistrare cu
înregistrare şi identificarea şi numărarea valorilor lipsă (MV1…..MVk). Fiecare
valoare lipsă se tratează individual.
Etapa 3.
Se identifică valorile variabilelor auxiliare corespunzătoare înregistrării ce
conţine o valoare lipsă.
Etapa 4.
Valoarea lipsa i ar putea fi substituită de oricare din valorile
corespunzătoare altor înregistrări ce au aceleaşi valori în câmpul
variabilelor auxiliare considerate. Notăm cu Ci numărul de variante posibile
corespuzătoate unei valori lipsă (MVi). Se procedează în mod similar
pentru toate valorile lipsă determinând pentru fiecare valorile cu care
acestea pot fi înlocuite. Numărul de combinaţii posibile este
C1xC2x….Ck.
Etapa 5.
Pentru fiecare combinaţie se va obţine un set de date şi se va calcula
media şi eroarea de reprezentativitate.
Etapa 6
Estimatorul mediei populaţiei se calculează ca medie a mediilor seturilor de
date.
k
x i
xi este media combinaţiei k.
x i 1
k
Etrapa 7
Pentru construirea unui interval de încredere pentru media populaţiei care să ia în
considerare incertitudinea introdusă prin folosirea imputaţiei este necesară
calcularea unei variaţii totale a estimatorului (mediei). Aceasta este formată din
două componente: variaţia interioară (S2int) ce reprezintă media variaţiilor faţă de
mediile estimate, condiţionate de valoarea imputaţiei şi variaţia dintre mediile
estimate pe baza diferitelor valori ale imputaţiilor (S2ext).
K 2
S 2 int xi k
i 1
2
1 k
S 2 ext 1 xi x /(k 1)
k i 1
Var ( x ) S 2
int S 2
ext
A. Metode de tratare a nonrăspunsurilor totale
Faza 1 Faza 2
Respondenti n1
Respondenti n1 y 1 y i n1
N1 i 1
m
Non-respondenti
n2 m y2 y
i 1
i m
Non-respondenti
N2
n1 n2
y y1 y2
n n
B.2. Metoda post-stratificării şi a calibrării generalizate
x X0
zc
H0: x = X 0 şi H1: x X 0 . 2
n
wp
zc
H0: w= p şi H1: w p p 1 p
n
Verificarea concordantei repartitiilor
Testul 2
H0: ft= fe şi H1: ftfe
ft reprezintă frecvenţele teoretice
fe frecvenţele empirice f ti Fti N
n
Fti frecvenţa corespunzătoare a grupei i din populaţie
k
f ei f ti 2
c2
i 1
f ti
n1n2
c max F ( xP) F ( xE ) .
n1 n2