Sunteți pe pagina 1din 21

Academia de Studii Economice Bucuresti

Facultatea de Cibernetica, Informatica si Statistica


Economica

Metode de redresare a
esantioanelor

Profesor coordonator: Niculescu Aron Ileana


Student: Anghel Iuliana
Bucureti, 2017

Prin sondajele statistice se analizeaz diferite eantioane pentru a descoperi caracteristicile


colectivitii generale. Calitatea rezultatelor depinde adeseori de gradul de reprezentativitate a
eantionului n raport cu ntreaga colectivitate. Rezultatele obinute n urma utilizrii unui sondaj
statistic pot ameliorate prin integrarea n formulele estimatorilor a informaiilor auxiliare.
Procedeul este frecvent denumit redresarea eantionului.

Necesitatea de a ajusta eantionul obinut este unul dintre aspectele ce caracterizeaz cercetrile
sociale i economice, deoarece rspunsurile obinute nu pot controlate n totalitate i se
ntmpl adesea s nu reproduc del proporiile corespunztoare din totalul colectivitii
(cunoscute apriori).

Metodele de redresare constau n ponderarea unitilor din cadrul unui eantion astfel nct
anumite variabile s coincid cu valorile externe abile, ca de exemplu datele statistice
obinute n urma unui recensmnt.

Principiul metodei este c, odat ce un eantion reproduce identic anumite trsturi ale
colectivitii generale (cunoscute n prealabil), se presupune c i variabilele de interes vor
reproduce destul de del valorile reale (necunoscute) pe care le au la nivel de colectivitate
general. Uneori redresarea este considerat ca o simpl etap de calcul, care permite s se
caleze mecanic structura eantionului n funcie de cea a colectivitii studiate. Redresarea
trebuie s e pregtit prealabil efecturii cercetrii prin sondaj: s se pun ntrebrile adecvate
i codi carea s se realizeze n mod omogen. De exemplu, n cazul sondajelor reprezentative la
nivel naional, institutele de cercetare adaug n toate chestionarele un set standard de ntrebri
socio-demogra ce, pentru ca eantionul obinut s poat redresat pe structura colectivitii
generale (cunoscut apriori). n cazul n care se dispune de informaie auxiliar pe care s se
bazeze redresarea, aceast informaie poate folosit la nivelul extragerii eantionului sau dup
extragerea eantionului, intervenind numai n expresia estimatorului. Dac informaia auxiliar
este utilizat n ideea obinerii unei ameliorri nc din momentul extragerii eantionului, se
apeleaz, de obicei, la tehnici precum: strati carea, extragerea proporional cu un criteriu de
dimensionare a mrimii eantionului, extrageri echilibrate. Dac informaia auxiliar este
folosit n stadiul de extragere a eantionului, ctigul se va regsi n expresia estimatorului. n
cazul n care informaia auxiliar disponibil este utilizat dup extragerea eantionului,
respectiv dup ce operaia de culegere a datelor pentru eantionul extras este ncheiat, intervin
schimbri n expresia estimatorului. n acest caz, se a rm c utilizarea informaiei auxiliare
conduce la redresare. Termenul de redresare se aplic ponderilor de sondaj; ceea ce se modi c
sunt, de fapt, ponderile de sondaj i, prin extensie, estimatorii, i nu eantionul, care odat extras,
nu se mai revine asupra sa. Redresarea nu este ns o modalitate de a corecta datele provenite
dintr-un eantion greit construit. La un eantion de volum redus, intervalul de ncredere al
estimatorilor este mai mare, puterea testelor statistice este redus i astfel diferenele ntre
structura obinut i structura real pot incorect etichetate drept (ne)semni cative, iar
redresarea nu prezint nici o garanie de a obine rezultate valide statistic. Redresarea este
folosit n cercetri academice, ct i n afara mediului academic, deoarece exist o serie de
motive pentru care eantionul obinut nu se suprapune pe structura colectivitii generale.
Principalele cauze sunt: costuri ridicate (timp i bani) pentru a obine exact structura dorit a
eantionului, diculti n gsirea anumitor tipuri de respondeni etc.

Redresarea eantionului la momentul extragerii este folosit des n sondajele strati cate unde
cercettorul ofer structura dorit a eantionului, astfel nct acesta s e reprezentativ.
Operatorii de interviu folosesc foi de cote pentru a realiza un anumit numr de interviuri din
ecare strat (cot). Redresarea dup ncheierea etapei de colectare a datelor folosete n general
ponderi eantionul rezultat, urmnd s difere destul de puin de structura colectivitii, ind
ponderat pentru a se suprapune pe aceasta. Filozo a fundamental a redresrii dup o variabil
x. Avnd extras un eantion dup o metod oarecare, se construiete un estimator care, aplicat
pentru a estima adevratul total , cunoscut pentru variabila x, conduce la estimaia , oricare
ar eantionul extras. Estimatorul astfel construit estimeaz cu o varian nul totalul cunoscut
al variabilei dup care se face redresarea; aceasta este proprietatea fundamental a redresrii.
Exist mai multe metode de redresare utilizate n mod curent: - estimatorul prin raport; -
estimatorul prin regresie; - estimatorul post-strati cat. n foarte multe cazuri, se cade n capcana
de a utiliza, n scopul ameliorrii estimatorilor, orice informaie auxiliar de care se dispune, fr
a se studia, n prealabil, gradul de corelare al variabilei/variabilelor auxiliare disponibile cu
principalele variabile de interes. La alegerea informaiei auxiliare trebuie s se aib n vedere
urmtorul raionament: dac estimatorul furnizeaz valoarea exact asupra unui parametru, de
nit dup o variabil care se tie bine corelat cu variabila de interes y, atunci el trebuie s
furnizeze o foarte bun estimaie asupra parametrului de interes, necunoscut, al lui y. Informaiile
auxiliare pot proveni dintr-un recensmnt, dintr-o cercetare prin sondaj anterioar sau realizat
pe un eantion mai mare. Aceste informaii pot integrate n momentul realizrii planului de
sondaj i/sau aposteriori prin utilizarea unei metode de redresare obinndu-se astfel o
mbuntire a calitii rezultatelor. Variabilele utilizate pentru redresare trebuie s e ct mai
bine corelate cu putin cu tematica cercetrii, n vederea selecionrii lor ind utilizate n mod
frecvent metodele de segmentare. Dac cercetarea necesit rezultate reprezentative la nivel
naional, variabilele de redresare vor , cel mai probabil, socio-demogra ce. Dac se refer la
consumatorii unui anumit produs, variabilele folosite pentru redresare vor legate de incidena
consumului acelui produs n colectivitatea general. O alt condiie este ca acestea s e puin
numeroase i s e agregate n mod pertinent.

Alegerea metodei de redresare este condiionat de: planul de sondaj; natura variabilelor
auxiliare; numrul variabilelor auxiliare disponibile; tipul legturii dintre variabila studiat i
variabila (variabilele) auxiliar (auxiliare). n cazul studiilor de marketing, variabilele utilizate n
mod frecvent n vederea redresrii sunt vrsta, sexul, caracteristicile socio profesionale,
prezena copiilor n gospodrie etc. Condiiile eseniale de respectat la redresarea eantionului: s
se utilizeze date de referin abile i actualizate; dac este necesar, s se redreseze n mai multe
etape; s se menin spiritul critic n ceea ce privete erorile de msurare comise. Folosirea
exemplelor anterioare n studii de marketing este justi cat prin faptul c aceste informaii sunt
disponibile din sursele o ciale, publicaii editate de Institutul Naional de Statistic. Se poate
considera c redresarea unui eantion folosind aceste variabile ofer estimri bune ale
variabilelor de interes. Variabilele auxiliare sunt destul de neutre, n sensul c nu abordeaz
subiecte sensibile, precum venitul personal. Folosirea vrstei, nivelul de educaie i ocupaia
pentru a crea segmente de populaie orientate pe venit (clase sociale) este mult mai corect dect
folosirea venitului n sine, n nregistrarea acestuia putnd aprea erori de msurare
(respondentul nedorind s i declare adevratul venit). Trei metode se utilizeaz n principal n
vederea redresrii: Estimatorul calculat sub form de rat (coe cient); Regresia; Post-strati
carea.

Redresare cu ajutorul estimatorului calculat sub form de rat

Rata reprezint un estimator determinat conform urmtorului principiu: e Xi o variabil


auxiliar cantitativ i Yi variabila analizat, ntre cele dou variabile existnd o relaie liniar de
tipul:

R = coecientul de proporionalitate;

i = eroarea care nu poate controlat (nu depinde de Xi)

Relaia poate aplicat pentru toate unitile din cadrul colectivitii, caz n care erorile se

compenseaz numai dac .

n cazul n care extragerea este aleatoare simpl i erorile i se compenseaz ntre diferii
indivizi din cadrul eantionului:

Relatia constituie o aproximaie care poate acceptat doar dac erorile sunt mici. n

acest caz realizeaz o estimare rezonabil pentru .

Estimatorul () RY ~ poart numele de estimator raport sau coe cient. A estima cu ajutorul
unui raport nseamn a redresa n funcie de variabila X cnd exist un eantion care nu este
reprezentativ n raport cu aceast variabil.

Fiecrei uniti care face parte din eantion i corespunde o pondere:


Calitile statistice ale lui

- Este uor deplasat. Eroarea este redus dac eantionul este mare; n cazul n care eantionul
este mic, poate puternic deplasat i trebuie s e utilizat cu reinere.

n cazul sondajului aleator simplu:

Deplasarea

Eroarea este nul dac ,respectiv n cazul n care dreapta de regresie trece prin
origine.

- Dispersia este stabilit cu aproximaie numai n cazul n care n este de volum mare. n cazul

unui sondaj aleator simplu (cnd n este mare), aceasta este:

Redresarea eantioanelor folosind metoda regresiei

Metoda este utilizat n cazul n care ntre datele existente este o relaie de tipul , cum
ar fi, de exemplu: .

Valorile variabilei de perturbaie trebuie s e mici, independente de Xi si sa verifice relatia

Ca i n cazul metodei anterioare, deoarece sondajul este aleator simplu i erorile sunt mici i
distribuite n jurul lui 0, se poate considera c suma acestora la nivelul tuturor unitilor din
eantion este aproximativ nul (erorile se compenseaz ntre ele).

Prin urmare, se poate aproxima

nu este cunoscut i trebuie estimat. Un estimator logic pentru este obinut prin nlocuirea
expresiilor la nivelul colectivitii (necunoscute) prin expresiile similare calculate la nivel de
eantion:
Estimatorul global pentru este estimatorul obinut cu ajutorul regresiei.

Performanele statistice de precizie ale estimatorului

- Este puin deplasat n cazul eantioanelor mari (n 30); iar pentru eantioane mici exist riscul
obinerii unor estimri puin precise.

- n cazul n care eantionul este mare, dispersia poate determinat conform relaiei:

Dac sondajul este de tip aleator simplu, i se prefer s se utilizeze in


loc de in cazul in care esantionul este mare.

Avantajul utilizrii lui depinde de factorul .

Dac ntre X i Y nu exist o legtur liniar de tipul atunci ^2 va avea o valoare


redus, apropiat de 0 n acest caz nu este avantajos s se utilizeze .

Post-straticarea

n cazul utilizrii unui sondaj aleator simplu, se extrage un eantion de mrime n, iar n cadrul
eantionului sunt determinate p categorii numite post-straturi n funcie de valorile uneia sau mai
multor variabile cunoscute pentru ecare unitate din cadrul eantionului. Se presupune c
efectivul global pentru ecare categorie p n cadrul colectivitii - Np este cunoscut. Dac se

noteaz cu p media variabilei Y obinut pentru post-stratul p, atunci este un


estimator nedeplasat pentru i se numete estimatorul post-strati cat al lui

Pentru estimarea mediei formula anterioar va divizat prin colectivitatea total:

Expresia obinut pentru nu difer fundamental de cea corespunztoare estimatorului total


n cazul sondajului strati cat. Diferena fundamental const n metoda de extragere a
eantionului, deoarece n cazul extragerii strati cate mrimea eantionului np n cadrul stratului

p este aleas de statistician, dar va trebui s e respectat condiia: .


Post-strati carea este o metod de redresare n funcie de efectivele Np. Se numete i metoda
calrii pentru efectivele Np.

Tehnica post-strati crii permite ajustarea valorilor Y aberante - n loc s se elimine unitile
corespunztoare din cadrul eantionului, este preferabil ca ele s e grupate n post-straturi, dar
va trebui s se cunoasc ponderea lor n cadrul colectivitii. Precizia estimatorului post-strati
cat pentru medie n cazul unui sondaj aleatoriu simplu, poate calculat prin utilizarea

relaiei:

Calculul este di cil datorit faptului c np este o variabil aleatoare care se a la numitor i nu
se cunoate cum s se exprime exact sperana matematic a inversului unei variabile aleatoare.

Post-strati carea este deosebit de util i este folosit adesea n studii longitudinale (tip
tracking), n care comparabilitatea datelor obinute n timp se asigur prin raportarea
rezultatelor din diferite momente de timp la o singur structur standard. Aplicarea post-
strati crii n studii reprezentative la nivel naional prezint un dezavantaj major: structura
colectivitii, aa cum este oferit de Institutul Naional de Statistic, provine de la
Recensmntul din 2002. n acest caz, alegerea oscileaz ntre post-strati carea conform
structurii o ciale, cu toate c aceasta este nvechit, sau conform unor structuri mai recente, care
nu provin ns din statistici o ciale.

UTILITATEA REDRESRII EANTIOANELOR PROVENITE DIN SONDAJELE ASUPRA


FOREI DE MUNC

Problema asigurrii reprezentativitii eantionului este o preocupare permanent a celui


care organizeaz un sondaj. Stabilirea planului de sondaj i a procedeelor de selecie a
unitilor n eantion sunt foarte importante i se realizeaz cu mult rigurozitate.

ntocmirea chestionarului pe baza obiectivelor stabilite la nceputul studiului presupune


i definirea clar a variabilelor. n studiile realizate pe baza sondajelor statistice distingem
urmtoarele tipuri de variabile:

variabile de interes. Sunt cele care trebuie estimate i in de obiectivele


sondajului. n cazul anchetelor asupra forei de munc variabile de interes pot fi de exemplu
statutul dup participarea la activitatea economic (ocupat, omer, inactiv) sau durata efectiv a
sptmnii de lucru.
variabile auxiliare sau de identificare. Sunt cele pe care le cunoatem din alte
surse i nu formeaz obiectul studiului prezent dar sunt utilizate n stabilirea planului de sondaj
i ulterior n ameliorarea extrapolrii.
n cazul anchetelor asupra forei de munc informaiile necesare pentru definirea
variabilelor auxiliare se preiau din rezultatele ultimului recensmnt sau din surse
administrative. Aceste informaii privesc domiciliul, mrimea gospodriilor, distribuia dup grupe
de vrst, sex etc. Exist dou tipuri de variabile auxiliare: demografice i socioprofesionale.
Aceste informaii au o dubl utilitate:

Ca date individuale n momentul eantionrii. Pe baza acestor informaii se


construiesc bazele de sondaj (lista gospodriilor sau a indivizilor din rndul crora se va
selecta eantionul). Ulterior pot avea un rol n verificarea reprezentativitii eantionului sau n
extrapolare.
Ca informaii globale, n vederea furnizrii totalurilor populaiei pe grupe de
vrst, sex, mediu de reziden. Acestea vor constitui baza extrapolrii. Structura populaiei
dup aceste caracteristici ar trebui s se regseasc i n structura eantionului.
n ciuda eforturilor de a asigura reprezentativitatea eantionului, n anchetele de mare
amploare, realizate la nivel naional, de cele mai multe ori estimatorii variabilelor auxiliare sunt
deplasai fa de parametrii populaiei. Datorit existenei corelaiei dintre aceste variabile i
variabilele de interes putem presupune c i estimatorii acestora din urm vor avea aceeai
problem.

Principala cauz ce determin acest lucru este faptul c unitatea selectat este
gospodria i nu persoana. n aceste condiii este dificil s obinem structura ateptat. Pe de
alt parte, EUROSTAT cere ca rezultatele s fie fiabile pentru fiecare regiune (i n viitor pentru
fiecare jude). Acest lucru determin o ntrire a subeantioanelor corespunztoare
subpopulaiilor de dimensiuni mai mici fapt ce va determina o modificare a structurilor la nivel
naional.

n anchetele asupra forei de munc, n momentul selectrii gospodriilor din fiecare


centru de cercetare selectate n prima treapt, fiecreia i se acord aceeai probabilitate de a
intra n eantion. Conform legii numerelor mari, pentru un eantion de volum mare structura
eantionului dup diverse caracteristici va reproduce relativ fidel structura teoretic a populaiei.
Cu toate acestea, chiar dac eantionul selectat este echilibrat nu nseamn c aceast
proporionalitate se vor respecta i n rndul respondenilor.

Plecnd de la rezultatele brute furnizate de respondeni se estimeaz ct mai bine


posibil, prin extrapolare, situaia populaiei. Aceast metod const n atribuirea unei anumite
ponderi sau coeficient de extrapolare fiecrui respondent dup cum el reprezint o fraciune din
populaie. Pentru a extrapola trebuie s dm fiecrui respondent ponderea sa iniial

dk 1
reprezentat de inversul probabilitii cu care a fost selecionat ( k k=1,nr, nr fiind
numrul de respondeni) Astfel, dac ntr-un centru de cercetare am decis s selecionm o
gospodrie din 500, fiecare individ va avea o probabilitate egal (1/500) de a intra n eantion.
Dac o simpl extrapolare ar fi suficient, pentru extinderea rezultatelor n-ar trebui dect s i
atribuim fiecrui respondent din centrul de cercetare respectiv un coeficient de extrapolare de
500. Acest lucru nu este posibil deoarece1:

1 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques
de lemploi, Carrefour de lEconomie 2003/7-8A, Bruxelles, pg. 4
o unitatea selectat este gospodria, nimic nu ne garanteaz c un individ din 500 va
face parte din eantion;
o structura populaiei dup variabilele auxiliare (vrst, sex medii de reziden etc) se
va regsi n eantion cu o oarecare aproximaie;
o mai mult ca sigur c, datorit non-rspunsurilor totale, numrul respondenilor va fi
inferior efectivului eantionului selectat iniial.
Datorit acestor cauze este necesar modificarea coeficienilor de extrapolare iniiali
avnd drept scop asigurarea preciziei i coerenei valorilor extrapolate.

Mrimea estimatorilor rezultai nu trebuie s fie afectat de bias prin subestimarea sau
supraestimarea sistematic. De exemplu lucrtorii pe cont propriu sunt n general mai greu de
intervievat fiind subreprezentai printre respondeni i deci i n extrapolarea realizat asupra
populaiei totale, atta vreme ct probabilitatea de selecie nu este dependent de statutul
profesional. Cu ajutorul unui coeficient de extrapolare corectat pe baza informaiilor din surse
administrative se ncearc reducerea biasului.

Este posibil ca prin hazard, n eantionul anchetei din 2004 s selectm un numr mai
mic sau mai mare de persoane active ocupate dect ar fi trebuit iar prin comparaie cu
eantionul anchetei din 2003 s concluzionm n mod eronat creterea sau scderea ocuprii.
Din acest motiv este foarte important asigurarea unui nivel ridicat al preciziei prin redresarea
eantioanelor naintea extrapolrii.

Pe de alt parte, dup cum se cunoate din publicaiile rezultatelor anchetei asupra
forei de munc, amploarea studiului este foarte mare fiind realizat nu numai pe totalul
categoriilor de populaie ce definesc populaia activ i inactiv ci i pe grupe de vrst, sex,
mediu de reziden i regiuni. Coerena datelor presupune de exemplu ca valoarea ponderii
atribuite respondentelor/respondenilor s coincid cu structura furnizat de sursele
administrative.

REDRESAREA EANTIOANELOR PRIN POST-STRATIFICARE

Pn nu demult redresarea eantioanelor n vederea extrapolrii se realiza prin post-


stratificarea realizat pe baza variabilelor auxiliare.

Variabilele clasice utilizate de obicei n vederea post-stratificrii eantioanelor din


sondajele realizate asupra forei de munc sunt:

oREG: regiunea de dezvoltare n care locuiete respondentul. Romnia este


mprit n 8 regiuni: Nord Est, Sud Est, Sud, Sud Vest, Vest, Nord Vest, Centru,
Bucureti.
o VRSTA: grupa de vrst creia i aparine respondentul. n ancheta asupra
forei de munc se utilizeaz urmtoarele 6 grupe: 15-24 ani, 25-34 ani, 35-44 ani, 45-
54 ani, 55-64 ani i peste 65 ani.
o MREZ: mediul de reziden Urban sau Rural.
o SEX: masculin sau feminin.
Pentru a realiza o post-stratificare dup cele patru variabile auxiliare fiecare respondent
va fi clasat ntr-una din cele 8x6x2x2=192 celule numite post-straturi. n fiecare celul h (h=1,
192

n
h 1
h n
192) vom avea un numr nh de respondeni iar unde n este numrul total de
respondeni. Pe baza informaiilor din alte surse putem determina distribuia pentru populaia
Romniei cu vrsta 15 ani i peste (N) dup cele patru variabile: REG, VRSTA, MREZ, SEX
192

N
h 1
h N
reprezentat de frecvenele Nh unde: . Frecvenele relative ale eantionului sunt date
nh n Nh N
de raportul iar ale populaiei de . Din diferite motive vor exista celule pentru care
nh N h

n N
eantionul respondenilor nereprezentnd fidel populaia Romniei cu vrsta de 15
ani i peste, anumite celule (post-straturi) fiind sub sau supraestimate. n sens strict
matematic am putea spune c eantionul nu este reprezentativ pentru populaia din care a fost
extras. Totui noiunea (ne)reprezentativ este n general utilizat ntr-un sens mai puin strict. n
acest caz se poate pretinde c eantionul este reprezentativ pentru populaie dac toate
frecvenele nh sunt nenule i suficient de mari2. n felul acesta fiecare combinaie dintre regiune,
vrst, mediu de reziden i sex este suficient reprezentat.

Existena unor diferene semnificative statistic ntre frecvenele relative ale eantionului
de respondeni i populaie poate avea consecine grave asupra calitii estimatorilor.

Am considerat y o variabil de interes (de exemplu durata sptmnii de lucru). Pe baza


anchetei asupra forei de munc urmeaz s se estimeze durata medie efectiv a sptmnii
de lucru. Aceast variabil nu este auxiliar i nu dispunem de informaii n ceea ce o privete
y
din alte surse. Calculnd durata medie efectiv a sptmnii de lucru ( ) ca o medie
neponderat pe baza datelor din eantion vom obine un estimator deplasat pentru media
populaiei din motivele de sub sau supra reprezentare prezentate anterior.

y
Estimatorul timpului total de munc (N ) care va prezenta aceleai neajunsuri se poate
yT
Ny N
n
scrie sub forma: unde yT reprezint timpul total de munc din eantion.

2 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de l
Economie 2003/7-8A, Bruxelles, pg. 13.
Din aceast relaie se deduce c pentru a trece de la totalul eantionului la totalul
N
n
populaiei trebuie s atribuim fiecrui respondent acelai coeficient de ponderare . Se
N
n
poate spune c n medie fiecare respondent al anchetei reprezint din populaia Romniei
cu vrste de 15 ani i peste.

Utiliznd post-stratificarea aceast ponderare nu se va efectua uniform. Fiecare


Nh
nh
respondent din post-stratul h va primi un coeficient de ponderare de forma cu h=1,
..192. n aceste condiii timpul total de munc din populaie Y T va fi estimat pe baza relaiei:
192
YT N h y h
h 1
, iar durata medie efectiv a sptmnii de lucru se va estima pe baza relaiei:

192
Y N h y h N Nh
h 1 nh
. Practic, fiecare respondent din stratul h reprezint indivizi ce
ndeplinesc aceleai caracteristici.

Calitatea estimatorilor obinui prin post-stratificare depinde de msura n care variabilele


auxiliare regiune, vrst, mediu de reziden i sex explic variaia variabilelor de interes. Este
clar c cele patru variabile sunt explicative pentru un numr foarte mare de variabile de interes
totui, n cazul n care se dorete o analiz detaliat sau estimarea unor variabile de interes
specifice ele nu mai sunt suficiente. Acest fapt a determinat abandonarea tehnicii clasice de
post-stratificare. Modelul de post-stratificare prezentat anterior poate fi prezentat succint sub
forma: REG x VRST x MREZ x SEX.

Unul din principalele obiective ale anchetelor asupra forei de munc este acela de a
furniza estimatori pentru a cuantifica populaia ocupat, omerii i populaia inactiv conform
definiiilor Biroului Internaional al Muncii. Pe baza informaiilor obinute din anchet se poate
determina pentru fiecare respondent crei categorii din cele trei enumerate aparine. Consider
cele trei variabile de interes yOc, y i yIn definite astfel:

1 dac persoana internieva t este considerat ocupat conform criteriilor BIM


y Oc
0 dac nu

1 dac persoana internieva t este considerat omer conform criteriilor BIM


y
0 dac nu
1 dac persoana internieva t este considerat inactiv conform criteriilor BIM
y In
0 dac nu

Cu ajutorul post-stratificrii putem calcula estimatorii pentru populaia ocupat (P Oc),


omeri () i populaia inactiv (PIn) astfel:

192 192 192


POc N h y Oc h N h y h PIn N h y Oc h
h 1 h 1 h 1

Se tie c ntre datele furnizate de sursele administrative i cele ale anchetei asupra
forei de munc pot exista anumite diferene determinate de urmtorii factori: de multe ori datele
nu se refer la aceeai perioad, definiiile utilizate pentru aceleai noiuni sunt diferite,
metodele de estimaie aplicate variaz considerabil.

Una din sarcinile analitilor este de a nelege i a explica diferenele pe de o parte, dar
i de a ncerca s mbunteasc modul de colectare a datelor i metodologiile de tratare a
acestora. Din acest punct de vedere, metodologiile trebuie descrise ntr-o manier clar i
complet recurgndu-se la programe soft care s execute calculele necesare cu exactitate.3

Practic, cu ajutorul post-stratificrii se poate realiza o metodologie prin care s se creeze


o compatibilitate ntre datele provenite din ancheta asupra forei de munc i cele din surse
administrative Pentru aceasta, pornind de la modelul iniial REG x VRST x MREZ x SEX
putem aduga alte variabile ajungnd la un model detaliat de forma: REG x VRST x MREZ
x SEX x X1 x X2 Noile variabile introduse vor permite ameliorarea estimaiilor.

De exemplu s-ar putea introduce variabila ANOFM definit astfel:

1 dac respondent ul este nscris la ANOFM i este n cautarea unui loc de


munc indemnizat

2 dac respondent ul este nscris la ANOFM dar nu este n cautarea unui

ANOFM loc de munc indemnizat
3 dac este nscris la ANOFM dar desfasoara o activitate remunerat

4 dac respondent ul este nscris la ANOFM fiind pensionat anticipat
0 alt situatie

N
Dac am dori s aplicm modelul REG x VRST x MREZ x SEX x ANOFM am ntmpina
urmtoarele dificulti:

3 Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de l
Economie 2003/7-8A, Bruxelles, pg. 6.
o Pentru fiecare celul h (h=1,960) trebuie determinat numrul de elemente al
post-stratului h. Datorit tehnicii de calcul acest lucru poate fi realizat cu uurin dar
este posibil ca anumite celule s fie nule sau s conin un numr insuficient de
elemente. n aceste condiii nu vom putea calcula un coeficient de extrapolare sau
calitatea estimatorului este ndoielnic.
o Nu sunt cunoscute valorile Nh pentru toate celulele.
Datele de care putem dispune sunt de forma REG x ANOFM. Pe baza acestor informaii
putem construi un model de forma REG x (VRST x MREZ x SEX + ANOFM). n acest
model variabilele utilizate nu se vor mai numi variabile de post-stratificare ci variabile de
calibrare.

n momentul n care numrul variabilelor de calibrare este foarte mare nu se vor putea
calcula izolat ponderile pentru fiecare celul rezultat din ncruciarea variabilelor. Literatura de
specialitate propune diferii algoritmi pentru determinarea unei soluii.

6.3. REDRESAREA EANTIOANELOR PRIN CALIBRARE GENERALIZAT

ntr-un model de post-stratificare este posibil ca pentru fiecare post-strat h s se


defineasc o ecuaie exprimat ca sum a greutilor (ce trebuie calculate) acordate
respondenilor din post-stratul h i a cror sum trebuie s corespund cu efectivul populaiei

w
kh
k Nh
Nh: astfel: unde wh este greutatea acordat respondentului h.

Pentru fiecare post-strat stabilim o astfel de ecuaie n final obinnd un sistem de h


ecuaii liniare ce ar trebui rezolvat. Rezolvarea lui duce la mai multe soluii deoarece, pe de o
parte acest sistem cuprinde mai multe necunoscute dect ecuaii iar pe de alt parte fiecare
individ k nu este cuprins ntr-o singur ecuaie. O soluie particular este obinut impunnd ca
toi indivizii din acelai post-strat h s aib aceeai greutate w h astfel nct fiecare va fi tratat n
aceeai manier. Ecuaia post-stratului h poate fi formulat astfel:

n hw k N h w k N h nh
deci

Pentru a exemplifica diferena dintre stratificare i calarea marginal am luat ca exemplu


modelul MREZ x VRSTA cu 2 x 6 = 12 post-straturi..
Populaia (informaii din surse administrative)

Tab. 6.1

VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 65 i peste 65 Total

Urban N11 N12 N13 N14 N15 N16 N1.

Rural N21 N22 N23 N24 N25 N26 N2.

Total N.1 N.2 N.3 N.4 N.5 N.6 N

Respondenii anchetei asupra forei de munc

Tab. 6.2

VRSTA (ani)
MREZ 65 i peste
15-24 24-34 34-44 45-54 55-65 Total
65

Urban n11 n12 n13 n14 n15 n16 n2.

Rural n21 n22 n23 n24 n25 n26 n1.

Total n.1 n.2 n.3 n.4 n.5 n.6 n

Coeficieni de redresare (necunoscui, determinai cu ajutorul

post-stratificrii sau a calibrrii):

Tab. 6.3

VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 65 i peste 65 Total

Urban w11 w12 w13 w14 w15 w16

Rural w21 w22 w23 w24 w25 w26

Total
Reconstituirea populaiei

Tab. 6.4

VRSTA (ani)
MREZ
15-24 24-34 34-44 45-54 55-65 peste 65 Total

Urban w11n11 w12n12 w13n13 w14n14 w15n15 w16n16 N1.

Rural w21n21 w22n22 w23n23 w24n24 w25n25 w26n26 N2.

Total N.1 N.2 N.3 N.4 N.5 N.6 N

Compararea celor dou procedee de redresare:


Deoarece sistemul de ecuaii de calibrare are mai multe soluii putem alegea acea
soluie care modific cel mai puin coeficienii de extrapolare iniiali. Practic vom cuta acei
coeficieni de redresare wk care s verifice sistemul de ecuaii de calibrare i n acelai timp s
fie ct mai apropiai posibil de coeficienii de extrapolare ce rezult direct din planul de

dk 1
eantionare ( k k=1,nr). Problema general a calibrrii const n ajustarea

dk 1
k
coeficienilor de extrapolare iniiali i obinerea unor coeficieni de redresare calibrai
w k gkdk
de forma : unde gk reprezint factorul de ajustare.

Este vorba de urmtoarea problem de optimizare:

nr
wk
d Gk minim
k 1 dk
nr



w
k 1
k x kj T j (j 1,...m) restrictii le de calibrare
unde:

o m reprezint numrul de variabile de calibrare iar xkj este valoarea variabilei de


calibrare j pentru respondentul k;
o Tj reprezint totalul populaiei pentru variabila de calibrare j;
o G este funcia distanelor definit pe vecintatea convex a lui 1 i care verific
urmtoarele condiii:
G 0;

G este strict convex;

G este de dou ori continuu derivabil;

G(1)= 0

G(1)= 0;

G(1)= 1.

Teorema funciilor implicite afirm c funcia reciproc F a lui G, definit i continuu


derivabil n vecintatea lui 0 satisface condiiile F(0)=1 i F(0)=1. F se numete funcie de
calibrare.4

4 Luminet D., Lenqute sur les Forces de travail: calibrage et autres


dveloppements, Statistics Belgium, Working Paper nr. 8, pg. 32
Pentru simplificarea explicaiei presupun c problema de optimizare are doar o soluie i
o singur restricie i anume:

nr

x wk 1
k k T
unde xk este variabila de calibrare iar T reprezint totalul populaiei pentru
variabila de calibrare.

Pentru soluionarea problemei de minimizare innd cont de restricie (extreme cu


legturi) se recurge la funcia Lagrange definit astfel:

nr
wk nr

L(w k , ) d k G - x k w k T
k 1 dk k 1

unde este valoarea multiplicatorului Lagrange.

Pentru a afla valorile minime anulm derivatele pariale

L L
0 si 0
w
i obinem urmtorul sistem:

nr

x w k k T
k 1

G' w k
x k w k d k F (c k )
d k

Introducnd kw n prima relaie obinem :

nr

x k 1
k d k F ( c k ) T

Pe baza acestei relaii putem afla valoarea multiplicatorului Lagrange i ulterior valorile
wk.

Exemple de funcii de calibrare

Avem posibilitatea de a alege un criteriu de apropiere ntre coeficienii de extrapolare


iniiali i coeficienii de redresare calibrai, deci de a alege o form a funciei distanelor G i
implicit a funciei de calibrare F.
Unul din procedeele utilizate presupune s minimizm:

nr
dk ww 2 x 1 2
2d k
G( x )
k 1 2
5
funcia distanelor fiind

Aceast metod se numete liniar deoarece pentru soluionarea problemei de


optimizare cu ajutorul multiplicatorilor Lagrange se apeleaz la funcii liniare. Funcia de
calibrare, inversa funciei distanelor este definit astfel:

F (u ) 1 u deoarece G' (x) x - 1

Un alt procedeu utilizeaz urmtoarea funcie de minimizat:

nr
wk
w
k 1
k log
dk
dk w k
G( x ) x log x x 1, x 0
6
funcia distanelor fiind:

Aceast metod se numete exponenial i postuleaz pozitivitatea coeficienilor de


redresare wk. Determinarea acestora necesit rezolvarea unui sistem de ecuaii neliniare.
Funcia de calibrare este:

F (u ) exp( u ) deoarece G' (x) log( x)

6.4. PROGRAME SOFTWARE UTILIZATE PENTRU REDRESAREA


EANTIOANELOR

5 Luminet D., Lenqute op. cit. pg. 33

6 Luminet D., op. Cit., pg 33


Calibrarea generalizat a devenit n momentul de fa o metod cunoscut i puternic
n mediile de specialitate deoarece, utiliznd informaii auxiliare din diferite surse, reuete s
mbunteasc estimaiile sondajelor prin creterea preciziei estimatorilor obinui. Mai mult
dect att, calibrarea este utilizat pentru corectarea deplasrii produse de non-rspunsurile
totale7.

Rezolvarea matematic a problemei de minimizare cu restricii prezentat n subcapitolul


precedent necesit un volum mare de calcule cu un nivel ridicat de dificultate. Literatura de
specialitate propune diferii algoritmi pentru determinarea soluiei.

Generalized Estimation System (GES)

GES este utilizat de Statstics Canada i este realizat sub programul SAS. Are la baz
estimarea pe baza regresiei generalizate (GREG) descris de Strndal, Swensson i Wretman
n Model Assisted Survey Sampling, 1992. Aceast metod acoper o clas de estimatori
calibrai care cuprinde cei mai utilizai estimatori. Cu toate acestea metoda de calibrare
generalizat introdus de Deville i Strndal n 1992 este mai cuprinztoare.

GES este utilizat mpreun cu un alt soft realizat sub SAS, GSAM (Generalised
Sampling System). Ambele programe acoper diverse tipuri de sondaj simple sau complexe.

Avantajul GES este deci integrarea calibrrii, a estimrii pentru totaluri, medii, proporii,
rapoarte i variaia estimatorilor chiar dac numai pe baza metodei GREG.

Calibrarea n BASCULA

Bascula a fost realizat n Delphi pentru Windows 95 de ctre Nieuwenbroek n 1997 i


este utilizat n Olanda. Ca i GES se bazeaz pe metoda regresiei generalizate (GREG).
Variaia estimatorilor se bazeaz pe tehnica reeantionrii (balanced repeated sampling BRR)

O particularitate a programului BASCULA este modul n care factorul de ajustare gk este


limitat n metoda liniar. Contrar procedurii utilizate de CALMAR i g-CALIB factorii de ajustare
nu sunt trunchiai ci mai degrab redimensionai printr-o procedur iterativ. Aceasta este
considerat o tehnic de netezire limitat fa de tehnica trunchierii iterative.

7 Niculescu-Aron I. G, Redresarea eantioanelor prin post-stratificare i calibrare, Revista de informatic


economic, nr. 1/2005, n curs de apariie
CALMAR (Calage sur Marges)

Acest program a fost propus de membrii INSEE (Institut National de la Statistique des
Etudes Economiques Frana). CALMAR este realizat sub SAS i are la baz metoda de
calibrare generalizat introdus de Deville i Strndal n 1992 concentrat pe calcularea
coeficienilor de calibrare wh i a factorilor de ajustare gh. Un instrument central al metodei l
constituie funcia distanelor G. Din punct de vedere practic, CALMAR este considerat superior
sistemelor prezentate anterior deoarece permite utilizatorilor s limiteze n mai multe moduri
flexibilitatea coeficienilor de redresare w k. Din punct de vedere teoretic, deoarece se bazeaz
pe metoda calibrrii generalizate, sfera estimatorilor calibrai este mult mai cuprinztoare.

i n Romnia Institutul Naional de Statistic utilizeaz acest pachet program pentru


calcularea coeficienilor de ponderare n vederea creterii gradului de precizie al estimaiilor i
pentru tratarea non-rspunsurilor totale att n Ancheta asupra forei de munc AMIGO ct i
n celelalte anchete n care unitatea de selecie este gospodria sau ntreprinderea.

g-CALIB

A fost introdus de ctre INS (Institut National de Statistique) Belgia, avnd la baz
pachetul statistic SPSS. Prima versiune a acestui program a fost realizat de Vanderhoeft i a
devenit un instrument performant, aplicabil n situaii diverse i capabil s rezolve probleme
complicate de redresare a eantioanelor.

Ca i CALMAR, are la baz metoda de calibrare generalizat introdus de Deville i


Strndal n 1992 concentrat pe calcularea coeficienilor de calibrare w h i a factorilor de
ajustare gh.

Pachetele program g-CALIB i CALMAR sunt comparabile din punct de vedere al


fundamentrii teoretice i al performanelor. Cu toate acestea, din anumite puncte de vedere
CALMAR este privit ca fiind n prezent cel mai bun soft n acest domeniu din urmtoarele
motive:

o Interfaa este foarte prietenoas nefiind necesar ca utilizatorul s fie un expert n


metoda calibrrii generalizate;
o CALMAR este astfel conceput ca variabilele cantitative i calitative de calibrare s fie
transformate automat ntr-o matrice proiectat de program. Acest lucru reduce foarte mult
munca de pregtire a fiierelor input de ctre utilizator. Totui, pentru calibrarea variabilelor
cantitative utilizatorul CALMAR trebuie s realizeze o transformare a acestora astfel nct s
obin un format standard pentru fiierul de intrare;
o Detectarea i raportarea erorilor se realizeaz ntr-un mod mai precis i mai eficient
dect celelalte pachete program similare.

S-ar putea să vă placă și