Sunteți pe pagina 1din 16

Verificarea reprezentativitatii esantiounului

Verificarea concordantei repartitiilor


Testul 2
H0: ft= fe i H1: ftfe
ft reprezint frecvenele teoretice
fe frecvenele empirice
f ti Fti N

Fti frecvena corespunztoare a grupei i din populaie


c2

i 1

Daca

f ei f ti 2
f ti

c 2 2 ;df

df=k-1

Esantionul nu este reprezentativ

Testul Kolmogorov Smirnov


Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru
verificarea concordantei dintre o repatritie empirica si una teoretica
1. Stabilirea frecvenelor absolute in populatie si in esantion
2. Calcularea frecventelor cumulate crescator
3. Calcularea funciilor de repartiie empirice F(xP) i F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

n1n2
c max F ( xP) F ( xE )
.
n1 n2

Problema asigurrii reprezentativitii eantionului

variabile de interes. Sunt cele care trebuie estimate i in de obiectivele


sondajului. n cazul anchetelor asupra forei de munc variabile de interes
pot fi de exemplu statutul dup participarea la activitatea economic
(ocupat, omer, inactiv) sau durata efectiv a sptmnii de lucru.
variabile auxiliare sau de identificare. Sunt cele pe care le cunoatem din
alte surse i nu formeaz obiectul studiului prezent dar sunt utilizate n
stabilirea planului de sondaj i ulterior n ameliorarea extrapolrii.
Ca date individuale n momentul eantionrii. Pe baza acestor informaii se
construiesc bazele de sondaj (lista gospodriilor sau a indivizilor din rndul
crora se va selecta eantionul). Ulterior pot avea un rol n verificarea
reprezentativitii eantionului sau n extrapolare.
Ca informaii globale, n vederea furnizrii totalurilor populaiei pe grupe de
vrst, sex, mediu de reziden. Acestea vor constitui baza extrapolrii.
Structura populaiei dup aceste caracteristici ar trebui s se regseasc i
n structura eantionului.

n ciuda eforturilor de a asigura reprezentativitatea eantionului, n anchetele


de mare amploare, realizate la nivel naional, de cele mai multe ori estimatorii
variabilelor auxiliare sunt deplasai fa de parametrii populaiei
Extrapolare: dm fiecrui respondent ponderea sa iniial reprezentat de
inversul probabilitii cu care a fost selecionat:

dk 1
k
k=1,nr, nr fiind numrul de
respondeni). Astfel, dac ntr-un centru de
cercetare am decis s selecionm o gospodrie din 500, fiecare individ va avea
o probabilitate egal (1/500) de a intra n eantion.
Acest lucru nu este posibil deoarece:
unitatea selectat este gospodria, nimic nu ne garanteaz c un individ din 500 va
face parte din eantion;
structura populaiei dup variabilele auxiliare (vrst, sex medii de reziden etc)
se va regsi n eantion cu o oarecare aproximaie;
mai mult ca sigur c, datorit non-rspunsurilor totale, numrul respondenilor va fi
inferior efectivului eantionului selectat iniial.

modificarea coeficienilor de extrapolare iniiali avnd


drept scop asigurarea preciziei i coerenei valorilor
extrapolate astfel incat mrimea estimatorilor rezultai
sa nu fie afectat de bias prin subestimarea sau
supraestimarea sistematic.

Este posibil ca prin hazard, n eantionul anchetei din 2008 s selectm


un numr mai mic sau mai mare de persoane active ocupate dect ar fi
trebuit iar prin comparaie cu eantionul anchetei din 2007 s
concluzionm n mod eronat creterea sau scderea ocuprii. Din acest
motiv este foarte important asigurarea unui nivel ridicat al preciziei prin
redresarea eantioanelor naintea extrapolrii.
Pe de alt parte, dup cum se cunoate din publicaiile rezultatelor
anchetei asupra forei de munc, amploarea studiului este foarte mare
fiind realizat nu numai pe totalul categoriilor de populaie ce definesc
populaia activ i inactiv ci i pe grupe de vrst, sex, mediu de
reziden i regiuni. Coerena datelor presupune de exemplu ca valoarea
ponderii atribuite respondentelor/respondenilor s coincid cu structura
furnizat de sursele administrative.

Redresarea eantioanelor prin post-stratificare


Variabilele clasice utilizate de obicei n vederea post-stratificrii eantioanelor
din sondajele realizate in gospodarii sunt:
REG: regiunea de dezvoltare n care locuiete respondentul. Romnia este
mprit n 8 regiuni: Nord Est, Sud Est, Sud, Sud Vest, Vest, Nord Vest,
Centru, Bucureti.
VRSTA: grupa de vrst creia i aparine respondentul. n ancheta asupra
forei de munc se utilizeaz urmtoarele 6 grupe: 15-24 ani, 25-34 ani, 3544 ani, 45-54 ani, 55-64 ani i peste 65 ani.
MREZ: mediul de reziden Urban sau Rural.
SEX: masculin sau feminin.

Fiecare respondent va fi clasat ntr-una din cele 8x6x2x2=192 celule numite


post-straturi. n fiecare celul h (h=1,192) vom avea un numr nh de
respondeni iar

192

nh n

unde n este numrul total de respondeni.

h 1

Pe baza informaiilor din alte surse determinam


192

Nh unde:.

N
h 1

nh n
Nh N

nh N h

n
N

n sens strict matematic am putea spune c eantionul nu este


reprezentativ pentru populaia din care a fost extras. Totui noiunea
(ne)reprezentativ este n general utilizat ntr-un sens mai puin strict. n
acest caz se poate pretinde c eantionul este reprezentativ pentru
populaie dac toate frecvenele nh sunt nenule i suficient de mari. n
felul acesta fiecare combinaie dintre regiune, vrst, mediu de reziden
i sex este suficient reprezentat.

Redresarea eantioanelor prin calibrare generalizat


1 dac respondent ul este nscris la ANOFM i este n cautarea unui loc de
munc indemnizat

2 dac respondent ul este nscris la ANOFM dar nu este n cautarea unui

ANOFM
loc de munc indemnizat
3 dac este nscris la ANOFM dar desfasoara o activitate remunerat

4 dac respondent ul este nscris la ANOFM fiind pensionat anticipat


0 alt situatie

REG x VRST x MREZ x SEX x ANOFM


Avem h post-straturi h (h=1,960). Apar problemele:
1.
2.

nh=0 sau foarte mic


Nu sunt cunoscute valorile Nh pentru toate celulele.

Datele de care putem dispune sunt de forma REG x ANOFM.


Pe baza acestor informaii putem construi un model de forma
REG x (VRST x MREZ x SEX + ANOFM).
n acest model variabilele utilizate nu se vor mai numi variabile de poststratificare ci variabile de calibrare.
n momentul n care numrul variabilelor de calibrare este foarte mare nu se
vor putea calcula izolat ponderile pentru fiecare celul rezultat din ncruciarea
variabilelor.
Literatura de specialitate propune diferii algoritmi pentru determinarea unei
soluii.

Metoda consta in determinarea unor coeficieni de redresare wk care s verifice


sistemul de ecuaii de calibrare i n acelai timp s fie ct mai apropiai posibil
de coeficienii de extrapolare ce rezult direct din planul de eantionare
( dk 1

k=1,nr). Problema general a calibrrii const n ajustarea

coeficienilor de extrapolare iniiali dk i obinerea unor coeficieni de redresare


calibrai de forma :
k
k k

w g d

unde gk reprezint factorul de ajustare.

Programe software utilizate pentru redresarea


eantioanelor
Generalized Estimation System (GES)
GES este utilizat de Statstics Canada i este realizat sub programul SAS. Are la
baz estimarea pe baza regresiei generalizate (GREG) descris de Strndal,
Swensson i Wretman n Model Assisted Survey Sampling, 1992. Aceast
metod acoper o clas de estimatori calibrai care cuprinde cei mai utilizai
estimatori. Cu toate acestea metoda de calibrare generalizat introdus de Deville
i Strndal n 1992 este mai cuprinztoare.
GES este utilizat mpreun cu un alt soft realizat sub SAS, GSAM (Generalised
Sampling System). Ambele programe acoper diverse tipuri de sondaj simple sau
complexe.
Avantajul GES este deci integrarea calibrrii, a estimrii pentru totaluri, medii,
proporii, rapoarte i variaia estimatorilor chiar dac numai pe baza metodei
GREG.

Calibrarea n BASCULA
Bascula a fost realizat n Delphi pentru Windows 95 de ctre Nieuwenbroek n
1997 i este utilizat n Olanda. Ca i GES se bazeaz pe metoda regresiei
generalizate (GREG). Variaia estimatorilor se bazeaz pe tehnica reeantionrii
(balanced repeated sampling BRR)
O particularitate a programului BASCULA este modul n care factorul de ajustare gk
este limitat n metoda liniar. Contrar procedurii utilizate de CALMAR i g-CALIB
factorii de ajustare nu sunt trunchiai ci mai degrab redimensionai printr-o
procedur iterativ. Aceasta este considerat o tehnic de netezire limitat fa de
tehnica trunchierii iterative.

CALMAR (Calage sur Marges)


Acest program a fost propus de membrii INSEE (Institut National de la Statistique
des Etudes Economiques Frana). CALMAR este realizat sub SAS i are la baz
metoda de calibrare generalizat introdus de Deville i Strndal n 1992
concentrat pe calcularea coeficienilor de calibrare wh i a factorilor de ajustare
gh. Din punct de vedere practic, CALMAR este considerat superior sistemelor
prezentate anterior deoarece permite utilizatorilor s limiteze n mai multe moduri
flexibilitatea coeficienilor de redresare wk. Din punct de vedere teoretic, deoarece
se bazeaz pe metoda calibrrii generalizate, sfera estimatorilor calibrai este mult
mai cuprinztoare.
i n Romnia Institutul Naional de Statistic utilizeaz acest pachet program
pentru calcularea coeficienilor de ponderare n vederea creterii gradului de
precizie al estimaiilor i pentru tratarea non-rspunsurilor totale att n Ancheta
asupra forei de munc AMIGO ct i n celelalte anchete n care unitatea de
selecie este gospodria sau ntreprinderea.

g-CALIB
A fost introdus de ctre INS (Institut National de Statistique) Belgia, avnd la baz
pachetul statistic SPSS. Prima versiune a acestui program a fost realizat de
Vanderhoeft i a devenit un instrument performant, aplicabil n situaii diverse i
capabil s rezolve probleme complicate de redresare a eantioanelor.
Ca i CALMAR, are la baz metoda de calibrare generalizat introdus de Deville i
Strndal n 1992 concentrat pe calcularea coeficienilor de calibrare wh i a
factorilor de ajustare gh.
Pachetele program g-CALIB i CALMAR sunt comparabile din punct de vedere al
fundamentrii teoretice i al performanelor. Cu toate acestea, din anumite puncte
de vedere CALMAR este privit ca fiind n prezent cel mai bun soft n acest
domeniu din urmtoarele motive:
1. Interfaa este foarte prietenoas nefiind necesar ca utilizatorul s fie un expert n
metoda calibrrii generalizate;
2. CALMAR este astfel conceput ca variabilele cantitative i calitative de calibrare s
fie transformate automat ntr-o matrice proiectat de program. Acest lucru reduce
foarte mult munca de pregtire a fiierelor input de ctre utilizator. Totui, pentru
calibrarea variabilelor cantitative utilizatorul CALMAR trebuie s realizeze o
transformare a acestora astfel nct s obin un format standard pentru fiierul
de intrare;
3. Detectarea i raportarea erorilor se realizeaz ntr-un mod mai precis i mai
eficient dect celelalte pachete program similare.

S-ar putea să vă placă și