Curs 3 - 4

Ancheta pilot
Informaţii ce pot fi furnizate de ancheta pilot sunt:
• Cheltuielile şi durata probabilă a anchetei.
• Proporţia anticipată de non-răspunsuri totale si partiale si

cauzele acestora.
• În cazul în care nu se cunosc suficiente informaţii în urma

organizării anchetei pilot se pot opţiune informaţii despre gradul
de variabilitate al populaţiei şi structura acesteia.
• Cel mai important rol al anchetei pilot îl reprezintă

pretestarea chestionarului.
Extragerea eşantionului
În această etapă se stabileşte:

• planul de sondaj
• procedeul de extracţie
• mărimea eşantionului,
•precizia teoretică a estimatorilor
Probleme ridicate:
1. Cunoaşterea, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a

acesteia
2. Caracteristica în raport cu care se calculează volumul eşantionului
3. Modul în care urmează să fie analizate rezultatele
4. Restricţii de ordin financiar

volumul eşantionului de pornire
1 1 1
n p  nth   
Pr Pe Pv
Problema nonraspunsurilor
intrebarea
nr.
Chest 1 2 .. j …. p
1 Nonrăspuns
partial
2
…
i Nonrăspuns
total
…
npornire
Non-răspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eşantionului.
- modificarea structrurii eşantionului, non-respondenţii formând o
subpopulaţie aparte
A. Metode de tratare a nonrăspunsurilor parţiale
A.1. Metoda eliminării complete
Dezavantaje:
1. odată cu ştergerea unităţilor ce conţin valori lipsă mărimea

eşantionului disponibil se reduce simţitor fapt ce determină
o scădere a preciziei estimaţiei;
2. este posibil ca indivizii cărora le corespund valorile lipsă (ce

urmează să fie înlăturaţi din baza de date) să fie foarte diferiţi
de cei rămaşi. Acest lucru va face ca estimatorii rezultaţi să
fie puternic deplasaţi;
3. În schemele sondajelor complexe fiecărui individ îi este

atribuită o greutate (pondere) ce poate reflecta printre altele
şi probabilitatea cu care a fost selectată unitatea. Ştergerea
din bază a unităţilor ce conţin valori lipsă este foarte probabil
să invalideze schema de ponderare.
A.2. Metoda
imputaţiilor
Notăm:
yij = răspunsul pe care îl dă individului i din eşantionul E la
întrebarea j (i=1,..,n, j=1,... ,p).
(yi1, ...., yip) vectorul format din raspunsurile individului i
Fiecare poziţie de coordonate (i,j) unde avem valoare lipsa trebuie
tratată separat, prin crearea unei valori y’ij numită ’’valoare
atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală
Se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media

răspunsurilor care au fost obţinute la întrebarea j.
r
y'ij  y r, j   y ij r
i 1
Avantaje: înlocuirea valorii lipsă se face cu o valoare probabilă ceea

ce îi dă un oarecare grad de stabilitate.
subevaluare severă a dispersiei estimatorului pentru

Dezavantaje:
media sau totalul caracteristicii yj.
Imputaţia predictivă prin mediere pe clase
Este similară imputaţiei predictive prin mediere globală, cu
deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe
corespunzătoare unor clase în care a fost împărţită mulţimea
respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la
întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine
individul şi construim imputaţia:
k
y'ij  y rjt   y ij k
unde t ia valorile 1,..,q iar k
este numărul de respondenţi
din clasa respectivă.
i 1
Avantaje: reduce gradul de subestimare a dispersiei estimatorului

Imputaţia „hot-deck”.
Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere
globală sau pe clase, evită subestimarea dispersiei estimatorului.
Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă
structura eşantionului.
Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse

în prima înregistrare a unei caracteristici după care s-a realizat sortarea.
Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este

identificat şi verificat să nu conţină valori lipsă.
Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 - 3,8 Registru de lucru
4 1 3 1 4
5 1 3 1 -
6 1 3 - 4 Mediul NVINST F_ANG Venit
7 1 3 2 4,5 1 1 1 2,5
8 1 4 1 8 1 2 3 2,6
9 1 4 1 8 1 3 1 4
10 1 4 2 - 1 4 1 8
11 1 4 2 12 2 1 1 2,5
12 2 1 1 2,5 2 2 2 2,8
13 2 1 2 1,8 2 3 3 3
14 2 2 2 2,8 2 4 4 1,6
15 2 2 - -
16 2 2 1 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6
Fisier sortat dupa mediul de

provenienta si nivel de instruire
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 3 3,8 Avantaje:
4 1 3 1 4
5 1 3 1 4
6 1 3 1 4
7 1 3 2 4,5
reduce gradul de subestimare a
8 1 4 1 8
dispersiei estimatorului şi deplasarea
9 1 4 1 8
estimatorilor
10 1 4 2 8
11 1 4 2 12
12 2 1 1 2,5
13 2 1 2 1,8
14 2 2 2 2,8
15 2 2 2 2,8
16 2 2 2 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6
Se recomanda în cazul în care exista mai multe valori lipsa ca registrul de

lucru sa conţina mai mult de o singură înregistrare corespunzătoare unei
caracteristici după care s-a sortat fişierul. Aceste înregistrări vor fi supuse unei
rotaţii în timpul procesului de imputare.
Imputaţia aleatoare.
Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă a unui
’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem:
y'ij  y hj
Este o variantă a imputaţiei hot-deck
Imputaţia obiectivă.
La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de
date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y  b0  b1 x1  b2 x 2  ......  bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor
xi, i=1,…,k corelate cu variabila y.
Avantaje: Imputaţia se armonizează cu restul înregistrărilor individului

respectiv.
reduce gradul de subestimare a dispersiei estimatorului şi
deplasarea estimatorilor
Metoda imputaţiilor multiple
Metoda constă în umplerea fiecărei celule corespunzătoare unei valori lipsă cu

una, două sau mai multe imputaţii şi analizarea fiecărui set de date.
Combinând rezultatul acestei analize cu rezultatul inferenţei statistice vom lua

în consideraţie şi nivelul de incertitudine introdus de valorile lipsă.
Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratăm non-răspunsurile şi se sortează fişierul după
aceste variabile.
Etapa 2.
Se parcurge fişierului ce conţine tabelul indivizi-variabile înregistrare cu
înregistrare şi identificarea şi numărarea valorilor lipsă (MV1…..MVk). Fiecare
valoare lipsă se tratează individual.
Etapa 3.
Se identifică valorile variabilelor auxiliare corespunzătoare înregistrării ce
conţine o valoare lipsă.
Etapa 4.
Valoarea lipsa i ar putea fi substituită de oricare din valorile
corespunzătoare altor înregistrări ce au aceleaşi valori în câmpul
variabilelor auxiliare considerate. Notăm cu Ci numărul de variante posibile
corespuzătoate unei valori lipsă (MVi). Se procedează în mod similar
pentru toate valorile lipsă determinând pentru fiecare valorile cu care
acestea pot fi înlocuite. Numărul de combinaţii posibile este
C1xC2x….Ck.
Etapa 5.
Pentru fiecare combinaţie se va obţine un set de date şi se va calcula
media şi eroarea de reprezentativitate.
Etapa 6
Estimatorul mediei populaţiei se calculează ca medie a mediilor seturilor de
date.
k
x i
xi este media combinaţiei k.
x i 1

k
Etrapa 7
Pentru construirea unui interval de încredere pentru media populaţiei care să ia în
considerare incertitudinea introdusă prin folosirea imputaţiei este necesară
calcularea unei variaţii totale a estimatorului (mediei). Aceasta este formată din
două componente: variaţia interioară (S2int) ce reprezintă media variaţiilor faţă de
mediile estimate, condiţionate de valoarea imputaţiei şi variaţia dintre mediile
estimate pe baza diferitelor valori ale imputaţiilor (S2ext).
 K 2
S 2 int     xi  k
 i 1 
2
 1 k
S 2 ext  1   xi  x  /(k  1)
 k  i 1
Var ( x )  S 2
int S 2
ext
A. Metode de tratare a nonrăspunsurilor totale
B.1 Reselecţia pentru non-respondenţi
Este o metodă utilizată pentru tratarea non-răspunsurilor totale. Dacă

timpul şi bugetul alocate sondajului permit, se poate face o reselecţie pentru non-
respondenţi. Împărţim în mod formal populaţia de volum N în două straturi: cel al
respondenţilor de volum N1 şi cel al non-respondenţilor de volum N2.
Figura 3.3.4 Organizarea reselecţiei pentru nunrespondenţi
Faza 1 Faza 2
Respondenti n1
Respondenti n1 y 1   y i n1
N1 i 1
m
Non-respondenti
n2 m y2  y
i 1
i m
Non-respondenti
N2
n1 n2
y y1  y2
n n
B.2. Metoda post-stratificării şi a calibrării generalizate
Utilizarea acestor metode necesită utilizarea unor informaţii

deteliate privind repartiţiile încrucisate după mai multe variabile
auxiliare, o dotare tehnică superioară şi un soft specializat.
Verificarea reprezentativitatii esantiounului
x  X0
zc 
H0: x = X 0 şi H1: x  X 0 . 2
n
wp
zc 
H0: w= p şi H1: w  p p  1  p 
n
Verificarea concordantei repartitiilor
Testul 2
H0: ft= fe şi H1: ftfe
ft reprezintă frecvenţele teoretice
fe frecvenţele empirice f ti  Fti  N
n
Fti frecvenţa corespunzătoare a grupei i din populaţie
k
f ei  f ti 2
c2  
i 1
f ti
Daca  c 2   2 ;df df=k-1 Esantionul nu este reprezentativ

Testul Kolmogorov –Smirnov
Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru

verificarea concordantei dintre o repatritie empirica si una teoretica
1. Stabilirea frecvenţelor absolute in populatie si in esantion

2. Calcularea frecventelor cumulate crescator
3. Calcularea funcţiilor de repartiţie empirice F(xP) şi F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:
n1n2
c  max F ( xP)  F ( xE ) .
n1  n2

Curs 3 - 4

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 3 - 4

Încărcat de

Drepturi de autor:

Formate disponibile

Ancheta pilot

Informaţii ce pot fi furnizate de ancheta pilot sunt:

• Cheltuielile şi durata probabilă a anchetei.

• Proporţia anticipată de non-răspunsuri totale si partiale si

• În cazul în care nu se cunosc suficiente informaţii în urma

• Cel mai important rol al anchetei pilot îl reprezintă

În această etapă se stabileşte:

1. Cunoaşterea, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a

2. Caracteristica în raport cu care se calculează volumul eşantionului

3. Modul în care urmează să fie analizate rezultatele

4. Restricţii de ordin financiar

A.1. Metoda eliminării complete

1. odată cu ştergerea unităţilor ce conţin valori lipsă mărimea

2. este posibil ca indivizii cărora le corespund valorile lipsă (ce

3. În schemele sondajelor complexe fiecărui individ îi este

Se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media

Avantaje: înlocuirea valorii lipsă se face cu o valoare probabilă ceea

subevaluare severă a dispersiei estimatorului pentru

Avantaje: reduce gradul de subestimare a dispersiei estimatorului

Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse

Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este

Fisier sortat dupa mediul de

Se recomanda în cazul în care exista mai multe valori lipsa ca registrul de

Avantaje: Imputaţia se armonizează cu restul înregistrărilor individului

Metoda constă în umplerea fiecărei celule corespunzătoare unei valori lipsă cu

Combinând rezultatul acestei analize cu rezultatul inferenţei statistice vom lua

B.1 Reselecţia pentru non-respondenţi

Este o metodă utilizată pentru tratarea non-răspunsurilor totale. Dacă

Figura 3.3.4 Organizarea reselecţiei pentru nunrespondenţi

Utilizarea acestor metode necesită utilizarea unor informaţii

Daca  c 2   2 ;df df=k-1 Esantionul nu este reprezentativ

Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru

1. Stabilirea frecvenţelor absolute in populatie si in esantion

S-ar putea să vă placă și