Sunteți pe pagina 1din 3

Metode de tratare a nonrăspunsurilor parțiale

1.1. Imputația “hot-deck”

Imputația hot-deck presupune înlocuirea valorilor lipsă, una câte una, cu o valoare
disponibilă de la un respondent similar din același studiu. În cazul în care individul k nu a
răspuns la întrebarea j, se alege un individ din mulţimea celor care au răspuns la întrebarea j,
numit donor, şi i se atribuie răspunsul acestuia.

Pentru a aplica această metodă se vor parcurge 4 pași.

Primul pas presupune sortarea fișierului în funcție de variabilele auxiliare alese


(demografice, economice sau sociale) pe baza cărora se poate pune în evidență structura
eșantionului.

În cel de-al doilea pas se creează un registru de lucru inițializat cu valorile aferente
câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea.

Pasul al 3-lea constă în parcurgerea tuturor înregistrărilor și fiecare câmp este identificat
și se verifică dacă avem valori lipsă.

În ultima etapă, dacă nu există valori lipsă se trece la următoarea înregistrare. Dacă
există un câmp care conține valori lipsă, acesta va fi înlocuit cu valoarea corespunzătoare din
registru. În cazul în care există mai multe valori lipsă este recomandat ca registrul de lucru să
conțină mai multe câmpuri în care să fie cuprinse toate valorile întâlnite în clasa respective.

Avantaje: Spre deosebire de celelalte metode (imputația prin mediere globală și cea pe
clase), imputația hot-deck are avantajul că evită subestimarea dispersiei estimatorului.

Dezavantaje: Cu toate acestea, un dezavantaj al metodei hot-deck este acela că poate


duce cu ușurință la utilizarea multiplă a donatorilor, o caracteristică care duce la pierderea
preciziei pentru estimatorii sondajului. Acest lucru se întâmplă când într-o anumită clasă o
înregistrare cu răspuns lipsă este urmată de una sau mai multe înregistrări cu răspunsuri lipsă, iar
toate aceste înregistrări sunt apoi atribuite ultimului respondent din clasă.
1.2. Imputația cold-deck

Imputația cold-deck este o variație a imputației hot-deck și presupune înlocuirea


răspunsurilor lipsă cu date provenite din alte surse decât sondajul folosit. Aceste surse pot fi
sondaje anterioare sau recensăminte.

Pentru ca răspunsurile lipsă să poată fi înlocuite cu valori provenite din alte sondaje, este
necesar ca populația sondajului din care se iau valori să semene foarte mult cu cea asupra căreia
se realizează sondajul current. De asemenea, modul de definire a variabilelor folosite pentru
procesul de imputație trebuie să fie același.

Imputația cu care se va înlocui răspunsul lipsă este selectată aleator din baza de date a
sondajului anterior.

Această metoda este mai rar utilizată deoarece prezintă dezavantajul de a folosi imputații
care nu provin din sondajul curent.

1.3. Imputația aleatoare

Imputația aleatoare este o metodă perfecționată a metodelor precedente și presupune


selectarea unui “donor” printr-un procedeu aleator din mulțimea respondenților sau dintr-o clasă
constituită pe baza variabilei auxiliare.

Imputația aleatoare este o variație a imputația hot-deck, principalul avantaj față de aceasta
fiind acela că prin selecția aleatoare nu mai este necesară sortarea fișierului după diferite
caracteristici. În acest caz, registrul de lucru nu se mai inițializează cu prima valoare, ci cu
valoarea selectată aleator din clasa respectivă.

1.4. Imputația obiectivă

Această metodă presupune construirea unui model de regresie pe baza setului de date în care
variabila rezultativă este variabila pentru care tratăm non-răspunsul. Se iau în considerare
variabilele corespunzătoare întrebărilor la care individul k a răspuns. Astfel se dorește
sincronizarea răspunsurilor unui individ la celelalte întrebări din chestionar prin estimarea valorii
probabile a răspunsului, folosind un model de regresie construit pe baza altor variabile din setul
de date.
Ecuația acestei metode poate fi următoarea: 𝒚 = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ + 𝒃𝒌 𝒙𝒌

Unde y este variabila ce va fi imputată pentru valorile date ale variabilei 𝑥𝑖 , 𝑖 = 1,2, … , 𝑘,
correlate cu variabila y. Pe baza ecuaţiei de regresie se determină imputaţiile cu care se vor
înlocui non-răspunsurile.

Această metodă are ca avantaje faptul că imputația se armonizează cu restul înregistrărilor


individului respectiv și astfel această metodă este mult mai bună decât cele prezentate anterior.
De asemenea, prin aplicarea acestei metode se obține un estimator nedeplasat al mediei și se
reduce gradul de subestimare a dispersiei acestuia.

1.5. Metoda imputațiilor multiple

Metoda imputațiilor multiple presupune asocierea fiecărui răspuns lipsă cu una, două sau
mai multe imputații și analizarea fiecărui set de date.

Deoarece în metodele explicate anterior se înlocuiește non-răspunsul doar cu o singură


valoare, acestea nu iau în considerație incertitudinea acestei valori lipsă. Astfel, prin metoda
imputațiilor multiple se evită acest dezavantaj, luându-se în considerație și nivelul de
incertitudine introdus de valorea lipsă.

Mai mult, atunci când se calculează eroarea de reprezentativitate, pe lângă dispersia


estimatorilor se ține cont și de o dispersie calculată pentru valorile posibile pe care le-ar fi putut
lua imputația. Astfel, eroarea de reprezentativitate calculată nu este cea reală.

Metodele noi pentru înlocuirea valorilor lipsă sunt bazate pe arbori de clasificare, în cazul
variabilelor calitative sau arbori de regresie, în cazul variabilelor continue. În ultimii ani au fost
testate şi reţelele neurale pentru atribuirea unor valori non-răspunsurilor. La Universitatea
Jyväskylä a fost creat şi un produs software specializat pe metodologia de organizare proprie a
planului de analiză a datelor, numit Neural Data Analysis (NDA). În prezent se lucrează pentru
extinderea tehnicilor existente pentru editare şi imputare, noul produs numindu-se Neural Data
Analysis for Editing and Imputation (NDAEI).

S-ar putea să vă placă și