Sunteți pe pagina 1din 16

Problema nonraspunsurilor

nr.
Chest

intrebarea
1

..

1
2

p
Nonrspuns
partial

Nonrspuns
total

npornire

Non-rspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eantionului.
- modificarea structrurii eantionului, non-respondenii formnd o
subpopulaie aparte

A. Metode de tratare a nonrspunsurilor pariale


A.1. Metoda eliminrii complete
Dezavantaje:
1.

odat cu tergerea unitilor ce conin valori lips mrimea


eantionului disponibil se reduce simitor fapt ce determin
o scdere a preciziei estimaiei;

2. este posibil ca indivizii crora le corespund valorile lips (ce


urmeaz s fie nlturai din baza de date) s fie foarte diferii
de cei rmai. Acest lucru va face ca estimatorii rezultai s
fie puternic deplasai;
3. n schemele sondajelor complexe fiecrui individ i este
atribuit o greutate (pondere) ce poate reflecta printre altele
i probabilitatea cu care a fost selectat unitatea. tergerea
din baz a unitilor ce conin valori lips este foarte probabil
s invalideze schema de ponderare.

A.2. Metoda
imputaiilor
Notm:
yij = rspunsul pe care l d individului i din eantionul E la
ntrebarea j (i=1,..,n, j=1,... ,p).
(yi1, ...., yip) vectorul format din raspunsurile individului i
Fiecare poziie de coordonate (i,j) unde avem valoare lipsa trebuie
tratat separat, prin crearea unei valori yij numit valoare
atribuit sau imputaie.

Imputaia deductiv
Se refer la acele situaii (rare n practic) n care se poate stabili valoarea corect
printr-o deducie logic. Este vorba de o modalitate determinist de a corecta
datele incorecte sau nevalidate.
n acest caz yij = yij.
Imputaia predictiv prin mediere global
Se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media rspunsurilor care
au fost obinute la ntrebarea j.

y'ij y r, j y ij r
i 1

Avantaje:
Dezavantaje:

nlocuirea valorii lips se face cu o valoare probabil ceea


ce i d un oarecare grad de stabilitate.
subevaluare sever a dispersiei estimatorului pentru
media sau totalul caracteristicii yj.

Imputaia predictiv prin mediere pe clase


Este similar imputaiei predictive prin mediere global, cu
deosebirea c nu se utilizeaz o singur imputaie, ci mai multe
corespunztoare unor clase n care a fost mprit mulimea
respondenilor. Astfel, partiionm mulimea respondenilor r la
ntrebarea j n q clase disjuncte. Identificm clasa cruia i aparine
individul i construim imputaia:

y'ij y rjt y ij k
i 1

Avantaje:

unde t ia valorile 1,..,q iar k


este numrul de respondeni
din clasa respectiv.

reduce gradul de subestimare a dispersiei estimatorului

Imputaia hot-deck.
Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere
global sau pe clase, evit subestimarea dispersiei estimatorului.
Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile
demografice, economice sau sociale pe baza crora se poate pune n eviden
structura eantionului.
Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse n
prima nregistrare a unei caracteristici dup care s-a realizat sortarea.
Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este
identificat i verificat s nu conin valori lips.
Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu
valoarea corespunztoare din registru.

Nr.

Mediul

NVINST

F_ANG

Venit

2,5

2,6

3,8

Mediul

NVINST

F_ANG

Venit

4,5

2,5

2,6

10

11

12

2,5

12

2,5

2,8

13

1,8

14

2,8

1,6

15

16

2,8

17

18

3,1

19

20

1,6

Nr.

Mediul

NVINST

F_ANG

Venit

2,5

2,6

3,8

4,5

10

11

12

12

2,5

13

1,8

14

2,8

15

2,8

16

2,8

17

18

3,1

19

20

1,6

Avantaje:
reduce gradul de subestimare a
dispersiei estimatorului i deplasarea
estimatorilor

Se recomanda n cazul n care exista mai multe valori lipsa ca registrul de


lucru va conine mai mult de o singur nregistrare corespunztoare unei
caracteristici dup care s-a sortat fiierul. Aceste nregistrri vor fi supuse unei
rotaii n timpul procesului de imputare.

Imputaia aleatoare.
Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui
donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem:

y'ij y hj
Este o variant a imputaiei hot-deck
Imputaia obiectiv.
La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de
date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse
procesului de imputare. Ecuaia poate avea urmtoarea form:

y b0 b1 x1 b2 x 2 ...... bk x k
unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor
xi, i=1,,k corelate cu variabila y.

Avantaje:

Imputaia se armonizeaz cu restul nregistrrilor individului


respectiv.
reduce gradul de subestimare a dispersiei estimatorului i
deplasarea estimatorilor

Metoda imputaiilor multiple


Metoda const n umplerea fiecrei celule corespunztoare unei valori lips cu
una, dou sau mai multe imputaii i analizarea fiecrui set de date.
Combinnd rezultatul acestei analize cu rezultatul inferenei statistice vom lua
n consideraie i nivelul de incertitudine introdus de valorile lips.
Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratm non-rspunsurile i se sorteaz fiierul dup
aceste variabile.
Etapa 2.
Se parcurge fiierului ce conine tabelul indivizi-variabile nregistrare cu
nregistrare i identificarea i numrarea valorilor lips (MV1..MVk). Fiecare
valoare lips se trateaz individual.
Etapa 3.
Se identific valorile variabilelor auxiliare corespunztoare nregistrrii ce
conine o valoare lips.

Etapa 4.
Valoarea lipsa i ar putea fi substituit de oricare din valorile
corespunztoare altor nregistrri ce au aceleai valori n cmpul
variabilelor auxiliare considerate. Notm cu Ci numrul de variante posibile
corespuztoate unei valori lips (MVi). Se procedeaz n mod similar pentru
toate valorile lips determinnd pentru fiecare valorile cu care acestea pot
fi nlocuite. Numrul de combinaii posibile este C1xC2x.Ck.

Etapa 5.
Pentru fiecare combinaie se va obine un set de date i se va calcula
media i eroarea de reprezentativitate.
Etapa 6
Estimatorul mediei populaiei se calculeaz ca medie a mediilor seturilor de
date.
k

x
i 1

xi

este media combinaiei k.

Etrapa 7
Pentru construirea unui interval de ncredere pentru media populaiei care s ia n
considerare incertitudinea introdus prin folosirea imputaiei este necesar
calcularea unei variaii totale a estimatorului (mediei). Aceasta este format din
dou componente: variaia interioar (S2int) ce reprezint media variaiilor fa de
mediile estimate, condiionate de valoarea imputaiei i variaia dintre mediile
estimate pe baza diferitelor valori ale imputaiilor (S2ext).

S 2 int

S 2 ext

xi
2

i 1

1
1
k

x
i 1

x /(k 1)

Var ( x ) S

int

ext

Verificarea reprezentativitatii esantiounului

Verificarea concordantei repartitiilor


Testul 2
H0: ft= fe i H1: ftfe
ft reprezint frecvenele teoretice
fe frecvenele empirice
f ti Fti N

Fti frecvena corespunztoare a grupei i din populaie


c2

i 1

Daca

f ei f ti 2
f ti

c 2 2 ;df

df=k-1

Esantionul nu este reprezentativ

Testul Kolmogorov Smirnov


Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru
verificarea concordantei dintre o repatritie empirica si una teoretica
1. Stabilirea frecvenelor absolute in populatie si in esantion
2. Calcularea frecventelor cumulate crescator
3. Calcularea funciilor de repartiie empirice F(xP) i F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

n1n2
c max F ( xP) F ( xE )
.
n1 n2

Structura subiecte:

Subiect
S1
S2
S3
S4
S5
S6
Total
seminar

punctaj
1
0,5
0,5
1
1
3
7
3

continut
teorie
grila
grila
problema VRE
Problema SSA
Problema SStr

S-ar putea să vă placă și