Sunteți pe pagina 1din 20

Ancheta pilot

Informaţii ce pot fi furnizate de ancheta pilot sunt:

• Cheltuielile şi durata probabilă a anchetei.

• Proporţia anticipată de non-răspunsuri totale si partiale si


cauzele acestora.

• În cazul în care nu se cunosc suficiente informaţii în urma


organizării anchetei pilot se pot opţiune informaţii despre gradul
de variabilitate al populaţiei şi structura acesteia.

• Cel mai important rol al anchetei pilot îl reprezintă


pretestarea chestionarului.
Extragerea eşantionului

În această etapă se stabileşte:


• planul de sondaj
• procedeul de extracţie
• mărimea eşantionului,
•precizia teoretică a estimatorilor

Probleme ridicate:

1. Cunoaşterea, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a


acesteia

2. Caracteristica în raport cu care se calculează volumul eşantionului

3. Modul în care urmează să fie analizate rezultatele

4. Restricţii de ordin financiar


volumul eşantionului de pornire

1 1 1
n p  nth   
Pr Pe Pv
Problema nonraspunsurilor

intrebarea
nr.
Chest 1 2 .. j …. p
1 Nonrăspuns
partial
2

i Nonrăspuns
total

npornire

Non-răspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eşantionului.
- modificarea structrurii eşantionului, non-respondenţii formând o
subpopulaţie aparte
A. Metode de tratare a nonrăspunsurilor parţiale

A.1. Metoda eliminării complete

Dezavantaje:

1. odată cu ştergerea unităţilor ce conţin valori lipsă mărimea


eşantionului disponibil se reduce simţitor fapt ce determină
o scădere a preciziei estimaţiei;

2. este posibil ca indivizii cărora le corespund valorile lipsă (ce


urmează să fie înlăturaţi din baza de date) să fie foarte diferiţi
de cei rămaşi. Acest lucru va face ca estimatorii rezultaţi să
fie puternic deplasaţi;

3. În schemele sondajelor complexe fiecărui individ îi este


atribuită o greutate (pondere) ce poate reflecta printre altele
şi probabilitatea cu care a fost selectată unitatea. Ştergerea
din bază a unităţilor ce conţin valori lipsă este foarte probabil
să invalideze schema de ponderare.
A.2. Metoda
imputaţiilor

Notăm:
yij = răspunsul pe care îl dă individului i din eşantionul E la
întrebarea j (i=1,..,n, j=1,... ,p).
(yi1, ...., yip) vectorul format din raspunsurile individului i
Fiecare poziţie de coordonate (i,j) unde avem valoare lipsa trebuie
tratată separat, prin crearea unei valori y’ij numită ’’valoare
atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală

Se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media


răspunsurilor care au fost obţinute la întrebarea j.

r
y'ij  y r, j   y ij r
i 1

Avantaje: înlocuirea valorii lipsă se face cu o valoare probabilă ceea


ce îi dă un oarecare grad de stabilitate.

subevaluare severă a dispersiei estimatorului pentru


Dezavantaje:
media sau totalul caracteristicii yj.
Imputaţia predictivă prin mediere pe clase
Este similară imputaţiei predictive prin mediere globală, cu
deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe
corespunzătoare unor clase în care a fost împărţită mulţimea
respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la
întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine
individul şi construim imputaţia:

k
y'ij  y rjt   y ij k
unde t ia valorile 1,..,q iar k
este numărul de respondenţi
din clasa respectivă.
i 1

Avantaje: reduce gradul de subestimare a dispersiei estimatorului


Imputaţia „hot-deck”.

Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere
globală sau pe clase, evită subestimarea dispersiei estimatorului.

Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă
structura eşantionului.

Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse


în prima înregistrare a unei caracteristici după care s-a realizat sortarea.

Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este


identificat şi verificat să nu conţină valori lipsă.

Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 - 3,8 Registru de lucru
4 1 3 1 4
5 1 3 1 -
6 1 3 - 4 Mediul NVINST F_ANG Venit
7 1 3 2 4,5 1 1 1 2,5
8 1 4 1 8 1 2 3 2,6
9 1 4 1 8 1 3 1 4
10 1 4 2 - 1 4 1 8
11 1 4 2 12 2 1 1 2,5
12 2 1 1 2,5 2 2 2 2,8
13 2 1 2 1,8 2 3 3 3
14 2 2 2 2,8 2 4 4 1,6
15 2 2 - -
16 2 2 1 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6

Fisier sortat dupa mediul de


provenienta si nivel de instruire
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 3 3,8 Avantaje:
4 1 3 1 4
5 1 3 1 4
6 1 3 1 4
7 1 3 2 4,5
reduce gradul de subestimare a
8 1 4 1 8
dispersiei estimatorului şi deplasarea
9 1 4 1 8
estimatorilor
10 1 4 2 8
11 1 4 2 12
12 2 1 1 2,5
13 2 1 2 1,8
14 2 2 2 2,8
15 2 2 2 2,8
16 2 2 2 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6

Se recomanda în cazul în care exista mai multe valori lipsa ca registrul de


lucru sa conţina mai mult de o singură înregistrare corespunzătoare unei
caracteristici după care s-a sortat fişierul. Aceste înregistrări vor fi supuse unei
rotaţii în timpul procesului de imputare.
Imputaţia aleatoare.

Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă a unui
’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem:

y'ij  y hj
Este o variantă a imputaţiei hot-deck

Imputaţia obiectivă.

La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de
date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y  b0  b1 x1  b2 x 2  ......  bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor
xi, i=1,…,k corelate cu variabila y.

Avantaje: Imputaţia se armonizează cu restul înregistrărilor individului


respectiv.
reduce gradul de subestimare a dispersiei estimatorului şi
deplasarea estimatorilor
Metoda imputaţiilor multiple

Metoda constă în umplerea fiecărei celule corespunzătoare unei valori lipsă cu


una, două sau mai multe imputaţii şi analizarea fiecărui set de date.

Combinând rezultatul acestei analize cu rezultatul inferenţei statistice vom lua


în consideraţie şi nivelul de incertitudine introdus de valorile lipsă.

Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratăm non-răspunsurile şi se sortează fişierul după
aceste variabile.

Etapa 2.
Se parcurge fişierului ce conţine tabelul indivizi-variabile înregistrare cu
înregistrare şi identificarea şi numărarea valorilor lipsă (MV1…..MVk). Fiecare
valoare lipsă se tratează individual.

Etapa 3.
Se identifică valorile variabilelor auxiliare corespunzătoare înregistrării ce
conţine o valoare lipsă.
Etapa 4.
Valoarea lipsa i ar putea fi substituită de oricare din valorile
corespunzătoare altor înregistrări ce au aceleaşi valori în câmpul
variabilelor auxiliare considerate. Notăm cu Ci numărul de variante posibile
corespuzătoate unei valori lipsă (MVi). Se procedează în mod similar
pentru toate valorile lipsă determinând pentru fiecare valorile cu care
acestea pot fi înlocuite. Numărul de combinaţii posibile este
C1xC2x….Ck.

Etapa 5.
Pentru fiecare combinaţie se va obţine un set de date şi se va calcula
media şi eroarea de reprezentativitate.

Etapa 6
Estimatorul mediei populaţiei se calculează ca medie a mediilor seturilor de
date.
k

x i
xi este media combinaţiei k.
x i 1

k
Etrapa 7
Pentru construirea unui interval de încredere pentru media populaţiei care să ia în
considerare incertitudinea introdusă prin folosirea imputaţiei este necesară
calcularea unei variaţii totale a estimatorului (mediei). Aceasta este formată din
două componente: variaţia interioară (S2int) ce reprezintă media variaţiilor faţă de
mediile estimate, condiţionate de valoarea imputaţiei şi variaţia dintre mediile
estimate pe baza diferitelor valori ale imputaţiilor (S2ext).

 K 2
S 2 int     xi  k
 i 1 
2
 1 k
S 2 ext  1   xi  x  /(k  1)
 k  i 1

Var ( x )  S 2
int S 2
ext
A. Metode de tratare a nonrăspunsurilor totale

B.1 Reselecţia pentru non-respondenţi

Este o metodă utilizată pentru tratarea non-răspunsurilor totale. Dacă


timpul şi bugetul alocate sondajului permit, se poate face o reselecţie pentru non-
respondenţi. Împărţim în mod formal populaţia de volum N în două straturi: cel al
respondenţilor de volum N1 şi cel al non-respondenţilor de volum N2.

Figura 3.3.4 Organizarea reselecţiei pentru nunrespondenţi

Faza 1 Faza 2

Respondenti n1
Respondenti n1 y 1   y i n1
N1 i 1

m
Non-respondenti
n2 m y2  y
i 1
i m

Non-respondenti
N2

n1 n2
y y1  y2
n n
B.2. Metoda post-stratificării şi a calibrării generalizate

Utilizarea acestor metode necesită utilizarea unor informaţii


deteliate privind repartiţiile încrucisate după mai multe variabile
auxiliare, o dotare tehnică superioară şi un soft specializat.
Verificarea reprezentativitatii esantiounului

x  X0
zc 
H0: x = X 0 şi H1: x  X 0 . 2
n

wp
zc 
H0: w= p şi H1: w  p p  1  p 
n
Verificarea concordantei repartitiilor
Testul 2
H0: ft= fe şi H1: ftfe
ft reprezintă frecvenţele teoretice
fe frecvenţele empirice f ti  Fti  N
n
Fti frecvenţa corespunzătoare a grupei i din populaţie

k
f ei  f ti 2
c2  
i 1
f ti

Daca  c 2   2 ;df df=k-1 Esantionul nu este reprezentativ


Testul Kolmogorov –Smirnov

Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru


verificarea concordantei dintre o repatritie empirica si una teoretica

1. Stabilirea frecvenţelor absolute in populatie si in esantion


2. Calcularea frecventelor cumulate crescator
3. Calcularea funcţiilor de repartiţie empirice F(xP) şi F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

n1n2
c  max F ( xP)  F ( xE ) .
n1  n2

S-ar putea să vă placă și