Sunteți pe pagina 1din 3

Curs 6

Metode de tratare a non-rspunsurilor


-

Metoda eliminrii complete

Metoda const n nlturarea tuturor unitilor ce conin valori lips. Este considerat una din cele mai
utilizate metode n special pentru sondajele ce nu necesit asigurarea unui nivel ridicat de reprezentativitate.
Aceast metod presupune c dac n momentul aplicrii unei metode de analiz pentru un set de variabile
exist uniti ce conin valori lips acestea vor fi nlturate.
Dei este frecvent utilizat si permite aplicarea imediat a metodelor de analiz aceast metod prezint
urmtoarele dezavantaje:
1. n primul rnd, odat cu tergerea unitilor ce conin valori lips mrimea eantionului disponibil se
reduce simitor fapt ce determin o scdere a preciziei estimaiei;
2. este posibil ca indivizii crora le corespund valorile lips (ce urmeaz s fie nlturai din baza de
date) s fie foarte diferii de cei rmai. Acest lucru va face ca estimatorii rezultai s fie puternic
deplasai;
3. n schemele sondajelor complexe fiecrui individ i este atribuit o greutate (pondere) ce poate
reflecta printre altele i probabilitatea cu care a fost selectat unitatea. tergerea din baz a unitilor
ce conin valori lips este foarte probabil s invalideze schema de ponderare.
-

Metoda imputaiilor

Metoda imputaiilor este o metod empiric foarte frecvent utilizat pentru tratarea non-rspunsurilor
pariale.
Notm cu yij rspunsul pe care l d individului i din eantionul E la ntrebarea j (i=1,..,n, j=1,... ,p).
Concentrndu-ne asupra individul i din eantion constatm c vectorului (yi1, ...., yip), format din rspunsurile
la ntrebrile din chestionar, i lipsesc unele componente (non-rspunsurile). Fiecare poziie de coordonate (i,j)
trebuie tratat separat, prin crearea unei valori y ij numit valoare atribuit sau imputaie. Aceast
nlocuire se poate face sub urmtoarele forme:
Imputaia deductiv se refer la acele situaii (rare n practic) n care se poate stabili valoarea corect
1.
printr-o deducie logic. Este vorba de o modalitate determinist de a corecta datele incorecte sau nevalidate. n
acest caz yij = yij.
Imputaia predictiv prin mediere global se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu
2.
media rspunsurilor care au fost obinute la ntrebarea j. n acest caz avem:
r

y'ij y r, j y ij r
i 1

unde r este numrul rspunsurilor valide la ntrebarea j.


Avantajul acestei metode este c nlocuirea valorii lips se face cu o valoare probabil ceea ce i d un
oarecare grad de stabilitate. Dac exist muli respondeni care nu au rspuns la ntrebarea j vom folosi pentru
toi aceeai imputaie. Este clar c se produce o subevaluare sever a dispersiei estimatorului pentru media
sau totalul caracteristicii yj.
n cazul n care caracteristica este reprezentat pe o scal de intervale sau proporional calcularea
media aritmetic se va nlocui cu o medie de poziie (mediana n cazul unei variabile ordinale sau modulul
pentru variabilele nominale).
Imputaia predictiv prin mediere pe clase este similar imputaiei predictive prin mediere global, cu
3.
deosebirea c nu se utilizeaz o singur imputaie, ci mai multe corespunztoare unor clase n care a fost
mprit mulimea respondenilor. Astfel, partiionm mulimea respondenilor r la ntrebarea j n q clase
disjuncte. Identificm clasa cruia i aparine individul i construim imputaia:
k

y'ij y rjt y ij k
i 1

unde t ia valorile 1,..,q iar k este numrul de respondeni din clasa respectiv.

Utilizarea acestui tip de imputaie reduce gradul de subestimare a dispersiei estimatorului.


O variant a acestei metode este imputaia calculat ca medie a valorilor vecinilor valorii lips. Aceast
metod poate fi implementat automat i sub softwareurile statistice specializate, avnd posibilitatea selectrii
tipului de medie pe baza creia se va calcula imputaia i a numrului de vecini ce vor forma baza de calcul.
Imputaia hot-deck. Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere
4.
global sau pe clase, evit subestimarea dispersiei estimatorului. Pentru aplicarea acestei metode se parcurg
urmtoarele etape:
Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile demografice,
economice sau sociale pe baza crora se poate pune n eviden structura eantionului.
Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse n prima nregistrare a
unei caracteristici dup care s-a realizat sortarea.
Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este identificat i verificat s nu
conin valori lips.
Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu valoarea
corespunztoare din registru.
Ex la seminar
Imputaia cold-deck. Este o variaie a metodei hot-deck const n nlocuirea valorilor lips cu date
5.
provenite din alte surse dect sondajul curent cum ar fi sondaje anterioare sau recensminte. Este necesar ca
populaia sondajului din care se preiau valorile s fie foarte asemntoare cu cea asupra cruia se realizeaz
sondajul n prezent iar modul de definire i de codificare a variabilelor supuse procesului de imputare s fie
identic. Imputaia cu care se va nlocui valoarea lips este selectat aleator din baza de date aferent sondajului
anterior.
Aceast metod prezint dezavantajul c imputaia utilizat nu provine din sondajul curent motiv pentru
care este mult mai rar utilizat.
Imputaia aleatoare. Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui
6.
donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem: y'ij y hj
Este o variant a imputaiei hot-deck iar principalul avantaj fa de aceasta este c prin selecia aleatoare
a imputaiei nu mai este necesar sortarea fiierului dup diferite caracteristici.
Imputaia obiectiv. La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de
7.
date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse procesului de imputare. Ecuaia poate
avea urmtoarea form:
y b0 b1 x1 b2 x 2 ...... bk x k

unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor x i, i=1,,k corelate cu
variabila y.
Imputaiile obinute n aceast manier sunt superioare celor provenite n urma aplicrii metodelor
prezentate anterior, deoarece ea se armonizeaz cu restul nregistrrilor individului respectiv. Aplicarea acestei
metode permite obinerea unui estimator nedeplasat al mediei i nu subevalueaz dispersia acestuia.
Metoda imputaiilor multiple. Metodele de imputaie prezentate anterior prin care se nlocuiete
8.
valoarea lips cu o singur valoare prezint dezavantajul c nu ia n consideraie incertitudinea cu privire la
aceast valoare lips. Acest dezavantaj este nlturat de ctre metoda imputaiilor multiple introdus de Rubin la
sfritul anilor '80.
Metoda const n umplerea fiecrei celule corespunztoare unei valori lips cu una, dou sau mai multe
imputaii i analizarea fiecrui set de date. Combinnd rezultatul acestei analize cu rezultatul inferenei
statistice vom lua n consideraie i nivelul de incertitudine introdus de valorile lips.
C Reselecia pentru non-respondeni
Este o metod utilizat pentru tratarea non-rspunsurilor totale. Dac timpul i bugetul alocate sondajului
permit, se poate face o reselecie pentru non-respondeni. mprim n mod formal populaia de volum N n

dou straturi: cel al respondenilor de volum N1 i cel al non-respondenilor de volum N2. Organizm sondajul
ca o selecie n dou faze.
n prima faz se construiete eantionul E de volum n. Eantionul va conine n 1 respondeni ai
subeantionului E1 i n2 non-respondeni ai subeantionului E2. Variabila aleatoare w1=n1/n este un estimator
nedeplasat al lui p1=N1/N (ponderea respondenilor).
Presupunem c parametrul de interes este media Y . Pe baza subeantionului E1 putem calcula un estimator
asociat primei faze:
n1

y 1 y i n1
i 1

n a doua faz a sondajului formm un eantion E2 de volum m prin selecie aleatoare fr revenire din
E2. Prin eforturile fcute de operatorul de sondaj i prin eventuale recompensri eantionul va conine doar
respondeni. Putem acum calcula un estimator asociat celei de a doua faze:
m

y2 yi m
i 1

Estimatorul parametrului Y construit pe baza celor dou faze are forma:


n
n
y 1 y1 2 y 2
n
n
Metoda reseleciei pentru non-respondeni are avantajul c genereaz un estimator nedeplasat al
parametrului de interes dar determin o cretere substanial a costului sondajului deoarece cerina ca n a doua
faz s se obin rspunsuri complete impune eforturi organizatorice i financiare deosebite.
D Metoda post-stratificrii i a calibrrii generalizate
Utilizarea acestor metode necesit utilizarea unor informaii auxiliare, o dotare tehnic superioar i un
soft specializat i sunt utilizate pentru tratarea non-rspunsurilor totale. Sunt prezentate n capitolul 6 al acestei
lucrri.

Prelucrarea i analiza statistic a datelor. Redactarea raportului final. Anexele


Prelucrarea datelor presupune estimarea parametrilor pentru fiecare variabil, evaluarea preciziei
estimatorilor construii, analiza formei distribuiilor, analiza legturilor ce se pot stabili ntre variabile, teste de
semnificaie. Exist pachete de programe cu ajutorul crora se realizeaz cu uurin prelucrarea datelor urmnd
ca interpretarea acestora s fie realizat de specialiti.
Ultima etap a efecturii sondajului const n redactarea raportului T. Caplow a menionat n
lucrarea sa LEngute sociologique (1970) patru puncte eseniale ce trebuiesc atinse ntr-un raport final:
o Enunul problemei studiate ;
o Descrierea tehnicilor utilizate. Referirile metodologice din textul raportului trebuie s precizeze c
metodele sunt adaptate problemei, eantionul are un grad de reprezentativitate satisfctor
menionnd care este eroarea limit i nivelul de probabilitate;
o Interpretarea rezultatelor pornind de la obiectivele stabilite iniial. Raportul este de fapt comentariul
rezultatelor extrapolate care trebuie realizat cu profesionalism, astfel nct s sintetizeze esenialul
pentru fiecare din obiective propuse. Se recomand utilizarea graficelor deoarece pot da o imagine
mai clar a fenomenelor.;
o Prezentarea concluziilor. Pe baza analizei statistice realizate se formuleaz recomandri pentru
utilizarea rezultatelor.
Anexele includ informaiile ce au fost necesare caracterizrii populaiei, alegerii tipului de sondaj i
calculului volumului eantionului. Ele au rolul de a justifica informaiile prezentate n partea central a
studiului. Tot n anexe se mai include baza de sondaj i eantionul format aleator sau foile de cot n cazul n
care s-a realizat un sondaj dirijat pe cote, chestionarul i tabelul centralizator indivizi-variabile.

S-ar putea să vă placă și