Sunteți pe pagina 1din 20

Ancheta pilot

Informaii ce pot fi furnizate de ancheta pilot sunt:



Cheltuielile i durata probabil a anchetei.

Proporia anticipat de non-rspunsuri totale si partiale si
cauzele acestora.

n cazul n care nu se cunosc suficiente informaii n urma
organizrii anchetei pilot se pot opiune informaii despre gradul
de variabilitate al populaiei i structura acesteia.

Cel mai important rol al anchetei pilot l reprezint
pretestarea chestionarului.
Extragerea eantionului
n aceast etap se stabilete:
planul de sondaj
procedeul de extracie
mrimea eantionului,
precizia teoretic a estimatorilor
Probleme ridicate:
1. Cunoaterea, chiar cu o aproximaie, dispersia populaiei sau o estimaie a
acesteia

2. Caracteristica n raport cu care se calculeaz volumul eantionului

3. Modul n care urmeaz s fie analizate rezultatele

4. Restricii de ordin financiar

volumul eantionului de pornire
v e r
th p
P P P
n n
1 1 1
- - - =
Problema nonraspunsurilor
n
pornire

2
1
p . j .. 2 1
intrebarea
nr.
Chest
n
pornire

2
1
p . j .. 2 1
intrebarea
nr.
Chest
Nonrspuns
partial
Nonrspuns
total
Non-rspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eantionului.
- modificarea structrurii eantionului, non-respondenii formnd o
subpopulaie aparte
A. Metode de tratare a nonrspunsurilor pariale

A.1. Metoda eliminrii complete

Dezavantaje:

1. odat cu tergerea unitilor ce conin valori lips mrimea
eantionului disponibil se reduce simitor fapt ce determin
o scdere a preciziei estimaiei;

2. este posibil ca indivizii crora le corespund valorile lips (ce
urmeaz s fie nlturai din baza de date) s fie foarte diferii
de cei rmai. Acest lucru va face ca estimatorii rezultai s
fie puternic deplasai;

3. n schemele sondajelor complexe fiecrui individ i este
atribuit o greutate (pondere) ce poate reflecta printre altele
i probabilitatea cu care a fost selectat unitatea. tergerea
din baz a unitilor ce conin valori lips este foarte probabil
s invalideze schema de ponderare.
A.2. Metoda imputaiilor

Notm:
y
ij
= rspunsul pe care l d individului i din eantionul E la
ntrebarea j (i=1,..,n, j=1,... ,p).
(y
i1
, ...., y
ip
) vectorul format din raspunsurile individului i
Fiecare poziie de coordonate (i,j) unde avem valoare lipsa trebuie
tratat separat, prin crearea unei valori y
ij
numit valoare
atribuit sau imputaie.
Imputaia deductiv

Se refer la acele situaii (rare n practic) n care se poate stabili valoarea
corect printr-o deducie logic. Este vorba de o modalitate determinist
de a corecta datele incorecte sau nevalidate.

n acest caz y
ij
= y
ij
.

Imputaia predictiv prin mediere global

Se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media
rspunsurilor care au fost obinute la ntrebarea j.
r y
r
i
ij
=
= =
1
j r, ij
y y'
Avantaje:
nlocuirea valorii lips se face cu o valoare probabil ceea
ce i d un oarecare grad de stabilitate.

Dezavantaje:
subevaluare sever a dispersiei estimatorului pentru
media sau totalul caracteristicii y
j
.
Imputaia predictiv prin mediere pe clase
Este similar imputaiei predictive prin mediere global, cu
deosebirea c nu se utilizeaz o singur imputaie, ci mai multe
corespunztoare unor clase n care a fost mprit mulimea
respondenilor. Astfel, partiionm mulimea respondenilor r la
ntrebarea j n q clase disjuncte. Identificm clasa cruia i aparine
individul i construim imputaia:
k y
k
i
ij
=
= =
1
rjt ij
y y'
unde t ia valorile 1,..,q iar k
este numrul de respondeni
din clasa respectiv.
Avantaje:
reduce gradul de subestimare a dispersiei estimatorului
Imputaia hot-deck.

Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere
global sau pe clase, evit subestimarea dispersiei estimatorului.

Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile
demografice, economice sau sociale pe baza crora se poate pune n eviden
structura eantionului.

Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse
n prima nregistrare a unei caracteristici dup care s-a realizat sortarea.

Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este
identificat i verificat s nu conin valori lips.

Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu
valoarea corespunztoare din registru.


Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 - 3,8
4 1 3 1 4
5 1 3 1 -
6 1 3 - 4
7 1 3 2 4,5
8 1 4 1 8
9 1 4 1 8
10 1 4 2 -
11 1 4 2 12
12 2 1 1 2,5
13 2 1 2 1,8
14 2 2 2 2,8
15 2 2 - -
16 2 2 1 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6
Mediul NVINST F_ANG Venit
1 1 1 2,5
1 2 3 2,6
1 3 1 4
1 4 1 8
2 1 1 2,5
2 2 2 2,8
2 3 3 3
2 4 4 1,6
Registru de lucru
Fisier sortat dupa mediul de
provenienta si nivel de instruire
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 3 3,8
4 1 3 1 4
5 1 3 1 4
6 1 3 1 4
7 1 3 2 4,5
8 1 4 1 8
9 1 4 1 8
10 1 4 2 8
11 1 4 2 12
12 2 1 1 2,5
13 2 1 2 1,8
14 2 2 2 2,8
15 2 2 2 2,8
16 2 2 2 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6
Se recomanda n cazul n care exista mai multe valori lipsa ca registrul de
lucru sa conina mai mult de o singur nregistrare corespunztoare unei
caracteristici dup care s-a sortat fiierul. Aceste nregistrri vor fi supuse unei
rotaii n timpul procesului de imputare.
Avantaje:
reduce gradul de subestimare a
dispersiei estimatorului i deplasarea
estimatorilor
Imputaia aleatoare.

Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui
donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem:



Este o variant a imputaiei hot-deck

Imputaia obiectiv.

La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de
date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse
procesului de imputare. Ecuaia poate avea urmtoarea form:


unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor
xi, i=1,,k corelate cu variabila y.
hj ij
y y' =
k k
x b x b x b b y + + + + = ......
2 2 1 1 0
Avantaje:
Imputaia se armonizeaz cu restul nregistrrilor individului
respectiv.
reduce gradul de subestimare a dispersiei estimatorului i
deplasarea estimatorilor
Metoda imputaiilor multiple
Metoda const n umplerea fiecrei celule corespunztoare unei valori lips cu
una, dou sau mai multe imputaii i analizarea fiecrui set de date.

Combinnd rezultatul acestei analize cu rezultatul inferenei statistice vom lua
n consideraie i nivelul de incertitudine introdus de valorile lips.
Etapa 2.
Se parcurge fiierului ce conine tabelul indivizi-variabile nregistrare cu
nregistrare i identificarea i numrarea valorilor lips (MV1..MVk). Fiecare
valoare lips se trateaz individual.
Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratm non-rspunsurile i se sorteaz fiierul dup
aceste variabile.
Etapa 3.
Se identific valorile variabilelor auxiliare corespunztoare nregistrrii ce
conine o valoare lips.
Etapa 4.
Valoarea lipsa i ar putea fi substituit de oricare din valorile
corespunztoare altor nregistrri ce au aceleai valori n cmpul
variabilelor auxiliare considerate. Notm cu Ci numrul de variante posibile
corespuztoate unei valori lips (MVi). Se procedeaz n mod similar
pentru toate valorile lips determinnd pentru fiecare valorile cu care
acestea pot fi nlocuite. Numrul de combinaii posibile este
C1xC2x.Ck.
Etapa 5.
Pentru fiecare combinaie se va obine un set de date i se va calcula
media i eroarea de reprezentativitate.
Etapa 6
Estimatorul mediei populaiei se calculeaz ca medie a mediilor seturilor de
date.
= =

=
k
x
x
k
i
i
1
este media combinaiei k.
i
x
Etrapa 7
Pentru construirea unui interval de ncredere pentru media populaiei care s ia n
considerare incertitudinea introdus prin folosirea imputaiei este necesar
calcularea unei variaii totale a estimatorului (mediei). Aceasta este format din
dou componente: variaia interioar (S2int) ce reprezint media variaiilor fa de
mediile estimate, condiionate de valoarea imputaiei i variaia dintre mediile
estimate pe baza diferitelor valori ale imputaiilor (S2ext).
k S
K
i
i
x
|
.
|

\
|
=

=1
2
int
2
o
( ) ) 1 /(
1
1
2
1
2

|
.
|

\
|
+ =

=
k x x
k
S
k
i
i
ext
ext
S S x Var
2
int
2
) ( + =
A. Metode de tratare a nonrspunsurilor totale

B.1 Reselecia pentru non-respondeni

Este o metod utilizat pentru tratarea non-rspunsurilor totale. Dac
timpul i bugetul alocate sondajului permit, se poate face o reselecie pentru non-
respondeni. mprim n mod formal populaia de volum N n dou straturi: cel al
respondenilor de volum N
1
i cel al non-respondenilor de volum N
2
.

Figura 3.3.4 Organizarea reseleciei pentru nunrespondeni












Respondenti
N1
Non-respondenti
N2
Respondenti
n1
Non-respondenti
n2
1
1
1
1
n y y
n
i
i
=
=
Faza 1
m y y
m
i
i
=
=
1
2
Faza 2
m
2
2
1
1
y
n
n
y
n
n
y + =
B.2. Metoda post-stratificrii i a calibrrii generalizate
Utilizarea acestor metode necesit utilizarea unor informaii
deteliate privind repartiiile ncrucisate dup mai multe variabile
auxiliare, o dotare tehnic superioar i un soft specializat.
Verificarea reprezentativitatii esantiounului
H
0
:
x
= 0
X
i H
1
: = x
0
X
.
n
X x
z
c
2
0
o

=

H
0
: w= p i H
1
:
p w =

( )
n
p p
p w
z
c


=
1

Testul _2
H0: ft= fe i H1: ft=fe
ft reprezint frecvenele teoretice
fe frecvenele empirice

frecvena corespunztoare a grupei i din populaie

n
N
F f
ti ti
=
ti
F
( )

= _
k
1 i
ti
2
ti ei
2
c
f
f f
df
c
;
2 2
o
_ _ > Daca
df=k-1
Esantionul nu este reprezentativ
Verificarea concordantei repartitiilor
Testul Kolmogorov Smirnov
Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru
verificarea concordantei dintre o repatritie empirica si una teoretica


1. Stabilirea frecvenelor absolute in populatie si in esantion
2. Calcularea frecventelor cumulate crescator
3. Calcularea funciilor de repartiie empirice F(xP) i F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

. ) ( ) ( max
2 1
2 1
n n
n n
xE F xP F
c
+
=

S-ar putea să vă placă și