Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
Metode de redresare a
esantioanelor
Necesitatea de a ajusta eantionul obinut este unul dintre aspectele ce caracterizeaz cercetrile
sociale i economice, deoarece rspunsurile obinute nu pot controlate n totalitate i se
ntmpl adesea s nu reproduc del proporiile corespunztoare din totalul colectivitii
(cunoscute apriori).
Metodele de redresare constau n ponderarea unitilor din cadrul unui eantion astfel nct
anumite variabile s coincid cu valorile externe abile, ca de exemplu datele statistice
obinute n urma unui recensmnt.
Principiul metodei este c, odat ce un eantion reproduce identic anumite trsturi ale
colectivitii generale (cunoscute n prealabil), se presupune c i variabilele de interes vor
reproduce destul de del valorile reale (necunoscute) pe care le au la nivel de colectivitate
general. Uneori redresarea este considerat ca o simpl etap de calcul, care permite s se
caleze mecanic structura eantionului n funcie de cea a colectivitii studiate. Redresarea
trebuie s e pregtit prealabil efecturii cercetrii prin sondaj: s se pun ntrebrile adecvate
i codi carea s se realizeze n mod omogen. De exemplu, n cazul sondajelor reprezentative la
nivel naional, institutele de cercetare adaug n toate chestionarele un set standard de ntrebri
socio-demogra ce, pentru ca eantionul obinut s poat redresat pe structura colectivitii
generale (cunoscut apriori). n cazul n care se dispune de informaie auxiliar pe care s se
bazeze redresarea, aceast informaie poate folosit la nivelul extragerii eantionului sau dup
extragerea eantionului, intervenind numai n expresia estimatorului. Dac informaia auxiliar
este utilizat n ideea obinerii unei ameliorri nc din momentul extragerii eantionului, se
apeleaz, de obicei, la tehnici precum: strati carea, extragerea proporional cu un criteriu de
dimensionare a mrimii eantionului, extrageri echilibrate. Dac informaia auxiliar este
folosit n stadiul de extragere a eantionului, ctigul se va regsi n expresia estimatorului. n
cazul n care informaia auxiliar disponibil este utilizat dup extragerea eantionului,
respectiv dup ce operaia de culegere a datelor pentru eantionul extras este ncheiat, intervin
schimbri n expresia estimatorului. n acest caz, se a rm c utilizarea informaiei auxiliare
conduce la redresare. Termenul de redresare se aplic ponderilor de sondaj; ceea ce se modi c
sunt, de fapt, ponderile de sondaj i, prin extensie, estimatorii, i nu eantionul, care odat extras,
nu se mai revine asupra sa. Redresarea nu este ns o modalitate de a corecta datele provenite
dintr-un eantion greit construit. La un eantion de volum redus, intervalul de ncredere al
estimatorilor este mai mare, puterea testelor statistice este redus i astfel diferenele ntre
structura obinut i structura real pot incorect etichetate drept (ne)semni cative, iar
redresarea nu prezint nici o garanie de a obine rezultate valide statistic. Redresarea este
folosit n cercetri academice, ct i n afara mediului academic, deoarece exist o serie de
motive pentru care eantionul obinut nu se suprapune pe structura colectivitii generale.
Principalele cauze sunt: costuri ridicate (timp i bani) pentru a obine exact structura dorit a
eantionului, diculti n gsirea anumitor tipuri de respondeni etc.
Redresarea eantionului la momentul extragerii este folosit des n sondajele strati cate unde
cercettorul ofer structura dorit a eantionului, astfel nct acesta s e reprezentativ.
Operatorii de interviu folosesc foi de cote pentru a realiza un anumit numr de interviuri din
ecare strat (cot). Redresarea dup ncheierea etapei de colectare a datelor folosete n general
ponderi eantionul rezultat, urmnd s difere destul de puin de structura colectivitii, ind
ponderat pentru a se suprapune pe aceasta. Filozo a fundamental a redresrii dup o variabil
x. Avnd extras un eantion dup o metod oarecare, se construiete un estimator care, aplicat
pentru a estima adevratul total , cunoscut pentru variabila x, conduce la estimaia , oricare
ar eantionul extras. Estimatorul astfel construit estimeaz cu o varian nul totalul cunoscut
al variabilei dup care se face redresarea; aceasta este proprietatea fundamental a redresrii.
Exist mai multe metode de redresare utilizate n mod curent: - estimatorul prin raport; -
estimatorul prin regresie; - estimatorul post-strati cat. n foarte multe cazuri, se cade n capcana
de a utiliza, n scopul ameliorrii estimatorilor, orice informaie auxiliar de care se dispune, fr
a se studia, n prealabil, gradul de corelare al variabilei/variabilelor auxiliare disponibile cu
principalele variabile de interes. La alegerea informaiei auxiliare trebuie s se aib n vedere
urmtorul raionament: dac estimatorul furnizeaz valoarea exact asupra unui parametru, de
nit dup o variabil care se tie bine corelat cu variabila de interes y, atunci el trebuie s
furnizeze o foarte bun estimaie asupra parametrului de interes, necunoscut, al lui y. Informaiile
auxiliare pot proveni dintr-un recensmnt, dintr-o cercetare prin sondaj anterioar sau realizat
pe un eantion mai mare. Aceste informaii pot integrate n momentul realizrii planului de
sondaj i/sau aposteriori prin utilizarea unei metode de redresare obinndu-se astfel o
mbuntire a calitii rezultatelor. Variabilele utilizate pentru redresare trebuie s e ct mai
bine corelate cu putin cu tematica cercetrii, n vederea selecionrii lor ind utilizate n mod
frecvent metodele de segmentare. Dac cercetarea necesit rezultate reprezentative la nivel
naional, variabilele de redresare vor , cel mai probabil, socio-demogra ce. Dac se refer la
consumatorii unui anumit produs, variabilele folosite pentru redresare vor legate de incidena
consumului acelui produs n colectivitatea general. O alt condiie este ca acestea s e puin
numeroase i s e agregate n mod pertinent.
Alegerea metodei de redresare este condiionat de: planul de sondaj; natura variabilelor
auxiliare; numrul variabilelor auxiliare disponibile; tipul legturii dintre variabila studiat i
variabila (variabilele) auxiliar (auxiliare). n cazul studiilor de marketing, variabilele utilizate n
mod frecvent n vederea redresrii sunt vrsta, sexul, caracteristicile socio profesionale,
prezena copiilor n gospodrie etc. Condiiile eseniale de respectat la redresarea eantionului: s
se utilizeze date de referin abile i actualizate; dac este necesar, s se redreseze n mai multe
etape; s se menin spiritul critic n ceea ce privete erorile de msurare comise. Folosirea
exemplelor anterioare n studii de marketing este justi cat prin faptul c aceste informaii sunt
disponibile din sursele o ciale, publicaii editate de Institutul Naional de Statistic. Se poate
considera c redresarea unui eantion folosind aceste variabile ofer estimri bune ale
variabilelor de interes. Variabilele auxiliare sunt destul de neutre, n sensul c nu abordeaz
subiecte sensibile, precum venitul personal. Folosirea vrstei, nivelul de educaie i ocupaia
pentru a crea segmente de populaie orientate pe venit (clase sociale) este mult mai corect dect
folosirea venitului n sine, n nregistrarea acestuia putnd aprea erori de msurare
(respondentul nedorind s i declare adevratul venit). Trei metode se utilizeaz n principal n
vederea redresrii: Estimatorul calculat sub form de rat (coe cient); Regresia; Post-strati
carea.
R = coecientul de proporionalitate;
Relaia poate aplicat pentru toate unitile din cadrul colectivitii, caz n care erorile se
n cazul n care extragerea este aleatoare simpl i erorile i se compenseaz ntre diferii
indivizi din cadrul eantionului:
Relatia constituie o aproximaie care poate acceptat doar dac erorile sunt mici. n
Estimatorul () RY ~ poart numele de estimator raport sau coe cient. A estima cu ajutorul
unui raport nseamn a redresa n funcie de variabila X cnd exist un eantion care nu este
reprezentativ n raport cu aceast variabil.
- Este uor deplasat. Eroarea este redus dac eantionul este mare; n cazul n care eantionul
este mic, poate puternic deplasat i trebuie s e utilizat cu reinere.
Deplasarea
Eroarea este nul dac ,respectiv n cazul n care dreapta de regresie trece prin
origine.
- Dispersia este stabilit cu aproximaie numai n cazul n care n este de volum mare. n cazul
Metoda este utilizat n cazul n care ntre datele existente este o relaie de tipul , cum
ar fi, de exemplu: .
Ca i n cazul metodei anterioare, deoarece sondajul este aleator simplu i erorile sunt mici i
distribuite n jurul lui 0, se poate considera c suma acestora la nivelul tuturor unitilor din
eantion este aproximativ nul (erorile se compenseaz ntre ele).
nu este cunoscut i trebuie estimat. Un estimator logic pentru este obinut prin nlocuirea
expresiilor la nivelul colectivitii (necunoscute) prin expresiile similare calculate la nivel de
eantion:
Estimatorul global pentru este estimatorul obinut cu ajutorul regresiei.
- Este puin deplasat n cazul eantioanelor mari (n 30); iar pentru eantioane mici exist riscul
obinerii unor estimri puin precise.
- n cazul n care eantionul este mare, dispersia poate determinat conform relaiei:
Post-straticarea
n cazul utilizrii unui sondaj aleator simplu, se extrage un eantion de mrime n, iar n cadrul
eantionului sunt determinate p categorii numite post-straturi n funcie de valorile uneia sau mai
multor variabile cunoscute pentru ecare unitate din cadrul eantionului. Se presupune c
efectivul global pentru ecare categorie p n cadrul colectivitii - Np este cunoscut. Dac se
Tehnica post-strati crii permite ajustarea valorilor Y aberante - n loc s se elimine unitile
corespunztoare din cadrul eantionului, este preferabil ca ele s e grupate n post-straturi, dar
va trebui s se cunoasc ponderea lor n cadrul colectivitii. Precizia estimatorului post-strati
cat pentru medie n cazul unui sondaj aleatoriu simplu, poate calculat prin utilizarea
relaiei:
Calculul este di cil datorit faptului c np este o variabil aleatoare care se a la numitor i nu
se cunoate cum s se exprime exact sperana matematic a inversului unei variabile aleatoare.
Post-strati carea este deosebit de util i este folosit adesea n studii longitudinale (tip
tracking), n care comparabilitatea datelor obinute n timp se asigur prin raportarea
rezultatelor din diferite momente de timp la o singur structur standard. Aplicarea post-
strati crii n studii reprezentative la nivel naional prezint un dezavantaj major: structura
colectivitii, aa cum este oferit de Institutul Naional de Statistic, provine de la
Recensmntul din 2002. n acest caz, alegerea oscileaz ntre post-strati carea conform
structurii o ciale, cu toate c aceasta este nvechit, sau conform unor structuri mai recente, care
nu provin ns din statistici o ciale.
Principala cauz ce determin acest lucru este faptul c unitatea selectat este
gospodria i nu persoana. n aceste condiii este dificil s obinem structura ateptat. Pe de
alt parte, EUROSTAT cere ca rezultatele s fie fiabile pentru fiecare regiune (i n viitor pentru
fiecare jude). Acest lucru determin o ntrire a subeantioanelor corespunztoare
subpopulaiilor de dimensiuni mai mici fapt ce va determina o modificare a structurilor la nivel
naional.
dk 1
reprezentat de inversul probabilitii cu care a fost selecionat ( k k=1,nr, nr fiind
numrul de respondeni) Astfel, dac ntr-un centru de cercetare am decis s selecionm o
gospodrie din 500, fiecare individ va avea o probabilitate egal (1/500) de a intra n eantion.
Dac o simpl extrapolare ar fi suficient, pentru extinderea rezultatelor n-ar trebui dect s i
atribuim fiecrui respondent din centrul de cercetare respectiv un coeficient de extrapolare de
500. Acest lucru nu este posibil deoarece1:
1 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques
de lemploi, Carrefour de lEconomie 2003/7-8A, Bruxelles, pg. 4
o unitatea selectat este gospodria, nimic nu ne garanteaz c un individ din 500 va
face parte din eantion;
o structura populaiei dup variabilele auxiliare (vrst, sex medii de reziden etc) se
va regsi n eantion cu o oarecare aproximaie;
o mai mult ca sigur c, datorit non-rspunsurilor totale, numrul respondenilor va fi
inferior efectivului eantionului selectat iniial.
Datorit acestor cauze este necesar modificarea coeficienilor de extrapolare iniiali
avnd drept scop asigurarea preciziei i coerenei valorilor extrapolate.
Mrimea estimatorilor rezultai nu trebuie s fie afectat de bias prin subestimarea sau
supraestimarea sistematic. De exemplu lucrtorii pe cont propriu sunt n general mai greu de
intervievat fiind subreprezentai printre respondeni i deci i n extrapolarea realizat asupra
populaiei totale, atta vreme ct probabilitatea de selecie nu este dependent de statutul
profesional. Cu ajutorul unui coeficient de extrapolare corectat pe baza informaiilor din surse
administrative se ncearc reducerea biasului.
Este posibil ca prin hazard, n eantionul anchetei din 2004 s selectm un numr mai
mic sau mai mare de persoane active ocupate dect ar fi trebuit iar prin comparaie cu
eantionul anchetei din 2003 s concluzionm n mod eronat creterea sau scderea ocuprii.
Din acest motiv este foarte important asigurarea unui nivel ridicat al preciziei prin redresarea
eantioanelor naintea extrapolrii.
Pe de alt parte, dup cum se cunoate din publicaiile rezultatelor anchetei asupra
forei de munc, amploarea studiului este foarte mare fiind realizat nu numai pe totalul
categoriilor de populaie ce definesc populaia activ i inactiv ci i pe grupe de vrst, sex,
mediu de reziden i regiuni. Coerena datelor presupune de exemplu ca valoarea ponderii
atribuite respondentelor/respondenilor s coincid cu structura furnizat de sursele
administrative.
n
h 1
h n
192) vom avea un numr nh de respondeni iar unde n este numrul total de
respondeni. Pe baza informaiilor din alte surse putem determina distribuia pentru populaia
Romniei cu vrsta 15 ani i peste (N) dup cele patru variabile: REG, VRSTA, MREZ, SEX
192
N
h 1
h N
reprezentat de frecvenele Nh unde: . Frecvenele relative ale eantionului sunt date
nh n Nh N
de raportul iar ale populaiei de . Din diferite motive vor exista celule pentru care
nh N h
n N
eantionul respondenilor nereprezentnd fidel populaia Romniei cu vrsta de 15
ani i peste, anumite celule (post-straturi) fiind sub sau supraestimate. n sens strict
matematic am putea spune c eantionul nu este reprezentativ pentru populaia din care a fost
extras. Totui noiunea (ne)reprezentativ este n general utilizat ntr-un sens mai puin strict. n
acest caz se poate pretinde c eantionul este reprezentativ pentru populaie dac toate
frecvenele nh sunt nenule i suficient de mari2. n felul acesta fiecare combinaie dintre regiune,
vrst, mediu de reziden i sex este suficient reprezentat.
Existena unor diferene semnificative statistic ntre frecvenele relative ale eantionului
de respondeni i populaie poate avea consecine grave asupra calitii estimatorilor.
y
Estimatorul timpului total de munc (N ) care va prezenta aceleai neajunsuri se poate
yT
Ny N
n
scrie sub forma: unde yT reprezint timpul total de munc din eantion.
2 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de l
Economie 2003/7-8A, Bruxelles, pg. 13.
Din aceast relaie se deduce c pentru a trece de la totalul eantionului la totalul
N
n
populaiei trebuie s atribuim fiecrui respondent acelai coeficient de ponderare . Se
N
n
poate spune c n medie fiecare respondent al anchetei reprezint din populaia Romniei
cu vrste de 15 ani i peste.
192
Y N h y h N Nh
h 1 nh
. Practic, fiecare respondent din stratul h reprezint indivizi ce
ndeplinesc aceleai caracteristici.
Unul din principalele obiective ale anchetelor asupra forei de munc este acela de a
furniza estimatori pentru a cuantifica populaia ocupat, omerii i populaia inactiv conform
definiiilor Biroului Internaional al Muncii. Pe baza informaiilor obinute din anchet se poate
determina pentru fiecare respondent crei categorii din cele trei enumerate aparine. Consider
cele trei variabile de interes yOc, y i yIn definite astfel:
Se tie c ntre datele furnizate de sursele administrative i cele ale anchetei asupra
forei de munc pot exista anumite diferene determinate de urmtorii factori: de multe ori datele
nu se refer la aceeai perioad, definiiile utilizate pentru aceleai noiuni sunt diferite,
metodele de estimaie aplicate variaz considerabil.
Una din sarcinile analitilor este de a nelege i a explica diferenele pe de o parte, dar
i de a ncerca s mbunteasc modul de colectare a datelor i metodologiile de tratare a
acestora. Din acest punct de vedere, metodologiile trebuie descrise ntr-o manier clar i
complet recurgndu-se la programe soft care s execute calculele necesare cu exactitate.3
N
Dac am dori s aplicm modelul REG x VRST x MREZ x SEX x ANOFM am ntmpina
urmtoarele dificulti:
3 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de l
Economie 2003/7-8A, Bruxelles, pg. 6.
o Pentru fiecare celul h (h=1,960) trebuie determinat numrul de elemente al
post-stratului h. Datorit tehnicii de calcul acest lucru poate fi realizat cu uurin dar
este posibil ca anumite celule s fie nule sau s conin un numr insuficient de
elemente. n aceste condiii nu vom putea calcula un coeficient de extrapolare sau
calitatea estimatorului este ndoielnic.
o Nu sunt cunoscute valorile Nh pentru toate celulele.
Datele de care putem dispune sunt de forma REG x ANOFM. Pe baza acestor informaii
putem construi un model de forma REG x (VRST x MREZ x SEX + ANOFM). n acest
model variabilele utilizate nu se vor mai numi variabile de post-stratificare ci variabile de
calibrare.
n momentul n care numrul variabilelor de calibrare este foarte mare nu se vor putea
calcula izolat ponderile pentru fiecare celul rezultat din ncruciarea variabilelor. Literatura de
specialitate propune diferii algoritmi pentru determinarea unei soluii.
w
kh
k Nh
Nh: astfel: unde wh este greutatea acordat respondentului h.
n hw k N h w k N h nh
deci
Tab. 6.1
VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 65 i peste 65 Total
Tab. 6.2
VRSTA (ani)
MREZ 65 i peste
15-24 24-34 34-44 45-54 55-65 Total
65
Tab. 6.3
VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 65 i peste 65 Total
Total
Reconstituirea populaiei
Tab. 6.4
VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 peste 65 Total
dk 1
eantionare ( k k=1,nr). Problema general a calibrrii const n ajustarea
dk 1
k
coeficienilor de extrapolare iniiali i obinerea unor coeficieni de redresare calibrai
w k gkdk
de forma : unde gk reprezint factorul de ajustare.
nr
wk
d Gk minim
k 1 dk
nr
w
k 1
k x kj T j (j 1,...m) restrictii le de calibrare
unde:
G(1)= 0
G(1)= 0;
G(1)= 1.
nr
x wk 1
k k T
unde xk este variabila de calibrare iar T reprezint totalul populaiei pentru
variabila de calibrare.
nr
wk nr
L(w k , ) d k G - x k w k T
k 1 dk k 1
L L
0 si 0
w
i obinem urmtorul sistem:
nr
x w k k T
k 1
G' w k
x k w k d k F (c k )
d k
nr
x k 1
k d k F ( c k ) T
Pe baza acestei relaii putem afla valoarea multiplicatorului Lagrange i ulterior valorile
wk.
nr
dk ww 2 x 1 2
2d k
G( x )
k 1 2
5
funcia distanelor fiind
nr
wk
w
k 1
k log
dk
dk w k
G( x ) x log x x 1, x 0
6
funcia distanelor fiind:
GES este utilizat de Statstics Canada i este realizat sub programul SAS. Are la baz
estimarea pe baza regresiei generalizate (GREG) descris de Strndal, Swensson i Wretman
n Model Assisted Survey Sampling, 1992. Aceast metod acoper o clas de estimatori
calibrai care cuprinde cei mai utilizai estimatori. Cu toate acestea metoda de calibrare
generalizat introdus de Deville i Strndal n 1992 este mai cuprinztoare.
GES este utilizat mpreun cu un alt soft realizat sub SAS, GSAM (Generalised
Sampling System). Ambele programe acoper diverse tipuri de sondaj simple sau complexe.
Avantajul GES este deci integrarea calibrrii, a estimrii pentru totaluri, medii, proporii,
rapoarte i variaia estimatorilor chiar dac numai pe baza metodei GREG.
Calibrarea n BASCULA
Acest program a fost propus de membrii INSEE (Institut National de la Statistique des
Etudes Economiques Frana). CALMAR este realizat sub SAS i are la baz metoda de
calibrare generalizat introdus de Deville i Strndal n 1992 concentrat pe calcularea
coeficienilor de calibrare wh i a factorilor de ajustare gh. Un instrument central al metodei l
constituie funcia distanelor G. Din punct de vedere practic, CALMAR este considerat superior
sistemelor prezentate anterior deoarece permite utilizatorilor s limiteze n mai multe moduri
flexibilitatea coeficienilor de redresare w k. Din punct de vedere teoretic, deoarece se bazeaz
pe metoda calibrrii generalizate, sfera estimatorilor calibrai este mult mai cuprinztoare.
g-CALIB
A fost introdus de ctre INS (Institut National de Statistique) Belgia, avnd la baz
pachetul statistic SPSS. Prima versiune a acestui program a fost realizat de Vanderhoeft i a
devenit un instrument performant, aplicabil n situaii diverse i capabil s rezolve probleme
complicate de redresare a eantioanelor.