Documente Academic
Documente Profesional
Documente Cultură
Imputația hot-deck presupune înlocuirea valorilor lipsă, una câte una, cu o valoare
disponibilă de la un respondent similar din același studiu. În cazul în care individul k nu a
răspuns la întrebarea j, se alege un individ din mulţimea celor care au răspuns la întrebarea j,
numit donor, şi i se atribuie răspunsul acestuia.
În cel de-al doilea pas se creează un registru de lucru inițializat cu valorile aferente
câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea.
Pasul al 3-lea constă în parcurgerea tuturor înregistrărilor și fiecare câmp este identificat
și se verifică dacă avem valori lipsă.
În ultima etapă, dacă nu există valori lipsă se trece la următoarea înregistrare. Dacă
există un câmp care conține valori lipsă, acesta va fi înlocuit cu valoarea corespunzătoare din
registru. În cazul în care există mai multe valori lipsă este recomandat ca registrul de lucru să
conțină mai multe câmpuri în care să fie cuprinse toate valorile întâlnite în clasa respective.
Avantaje: Spre deosebire de celelalte metode (imputația prin mediere globală și cea pe
clase), imputația hot-deck are avantajul că evită subestimarea dispersiei estimatorului.
Pentru ca răspunsurile lipsă să poată fi înlocuite cu valori provenite din alte sondaje, este
necesar ca populația sondajului din care se iau valori să semene foarte mult cu cea asupra căreia
se realizează sondajul current. De asemenea, modul de definire a variabilelor folosite pentru
procesul de imputație trebuie să fie același.
Imputația cu care se va înlocui răspunsul lipsă este selectată aleator din baza de date a
sondajului anterior.
Această metoda este mai rar utilizată deoarece prezintă dezavantajul de a folosi imputații
care nu provin din sondajul curent.
Imputația aleatoare este o variație a imputația hot-deck, principalul avantaj față de aceasta
fiind acela că prin selecția aleatoare nu mai este necesară sortarea fișierului după diferite
caracteristici. În acest caz, registrul de lucru nu se mai inițializează cu prima valoare, ci cu
valoarea selectată aleator din clasa respectivă.
Această metodă presupune construirea unui model de regresie pe baza setului de date în care
variabila rezultativă este variabila pentru care tratăm non-răspunsul. Se iau în considerare
variabilele corespunzătoare întrebărilor la care individul k a răspuns. Astfel se dorește
sincronizarea răspunsurilor unui individ la celelalte întrebări din chestionar prin estimarea valorii
probabile a răspunsului, folosind un model de regresie construit pe baza altor variabile din setul
de date.
Ecuația acestei metode poate fi următoarea: 𝒚 = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ + 𝒃𝒌 𝒙𝒌
Unde y este variabila ce va fi imputată pentru valorile date ale variabilei 𝑥𝑖 , 𝑖 = 1,2, … , 𝑘,
correlate cu variabila y. Pe baza ecuaţiei de regresie se determină imputaţiile cu care se vor
înlocui non-răspunsurile.
Metoda imputațiilor multiple presupune asocierea fiecărui răspuns lipsă cu una, două sau
mai multe imputații și analizarea fiecărui set de date.
Metodele noi pentru înlocuirea valorilor lipsă sunt bazate pe arbori de clasificare, în cazul
variabilelor calitative sau arbori de regresie, în cazul variabilelor continue. În ultimii ani au fost
testate şi reţelele neurale pentru atribuirea unor valori non-răspunsurilor. La Universitatea
Jyväskylä a fost creat şi un produs software specializat pe metodologia de organizare proprie a
planului de analiză a datelor, numit Neural Data Analysis (NDA). În prezent se lucrează pentru
extinderea tehnicilor existente pentru editare şi imputare, noul produs numindu-se Neural Data
Analysis for Editing and Imputation (NDAEI).