Sunteți pe pagina 1din 5

Revista Informatica Economic, nr.

1(33)/2005

79

Sample rectifying by post-stratification and calibration


Lect. Ileana Gabriela NICULESCU-ARON Catedra de Statistic i Previziune Economic, ASE Bucureti Insuring the representativity of the sample is a main concern for the person who organizes a survey. The methods for rectifying the samples have constantly improved. Gradually, by using certain algorithms, on which efficient software programs are based, a transition from generalized post-stratification to generalized calibration was made. Keywords: sample, post-stratification, calibration. tabilirea planului de sondaj i a procedeelor de selecie a unitilor n eantion sunt foarte importante i se realizeaz cu mult rigurozitate. ntocmirea chestionarului pe baza obiectivelor stabilite la nceputul studiului presupune i definirea clar a variabilelor. n studiile realizate pe baza sondajelor statistice distingem urmtoarele tipuri de variabile: variabile de interes. Sunt cele care trebuie estimate i in de obiectivele sondajului. n cazul anchetelor asupra forei de munc variabile de interes pot fi de exemplu statutul dup participarea la activitatea economic (ocupat, omer, inactiv) sau durata efectiv a sptmnii de lucru. variabile auxiliare sau de identificare. Sunt cele pe care le cunoatem din alte surse i nu formeaz obiectul studiului prezent dar sunt utilizate n stabilirea planului de sondaj i ulterior n ameliorarea extrapolrii. n ciuda eforturilor de a asigura reprezentativitatea eantionului, n anchetele de mare amploare, realizate la nivel naional, de cele mai multe ori estimatorii variabilelor auxiliare sunt deplasai fa de parametrii populaiei. Datorit existenei corelaiei dintre aceste variabile i variabilele de interes putem presupune c i estimatorii acestora din urm vor avea aceeai problem. Plecnd de la rezultatele brute furnizate de respondeni se estimeaz ct mai bine posibil, prin extrapolare, situaia populaiei. Aceast metod const n atribuirea unei anumite ponderi sau coeficient de extrapolare fiecrui respondent dup cum el reprezint o fraciune din populaie. Pentru a extrapola trebuie s dm fiecrui respondent ponderea sa inii-

al reprezentat de inversul probabilitii cu care a fost selecionat ( d k = 1 k=1,nr, nr


k

fiind numrul de respondeni). Acest lucru nu este posibil deoarece97: o unitatea selectat este gospodria, nimic nu ne garanteaz c un individ din 500 va face parte din eantion; o structura populaiei dup variabilele auxiliare (vrst, sex medii de reziden etc.) se va regsi n eantion cu o oarecare aproximaie; o mai mult ca sigur c, datorit nonrspunsurilor totale, numrul respondenilor va fi inferior efectivului eantionului selectat iniial. Datorit acestor cauze este necesar modificarea coeficienilor de extrapolare iniiali avnd drept scop asigurarea preciziei i coerenei valorilor extrapolate. Pn nu demult redresarea eantioanelor n vederea extrapolrii se realiza prin poststratificarea realizat pe baza variabilelor auxiliare. Variabilele clasice utilizate de obicei n vederea post-stratificrii eantioanelor din sondajele realizate la nivel naional sunt: o REG: regiunea de dezvoltare n care locuiete respondentul. Romnia este mprit n 8 regiuni: Nord Est, Sud Est, Sud, Sud Vest, Vest, Nord Vest, Centru, Bucureti. o VRSTA: grupa de vrst creia i aparine respondentul. n ancheta asupra forei de munc se utilizeaz urmtoarele 6 grupe: 1524 ani, 25-34 ani, 35-44 ani, 45-54 ani, 55-64
97

Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de lEconomie 2003/7-8A, Bruxelles, pg. 4

80

Revista Informatica Economic, nr. 1(33)/2005

ani i peste 65 ani. o MREZ: mediul de reziden Urban sau Rural. o SEX: masculin sau feminin. Pentru a realiza o post-stratificare dup cele patru variabile auxiliare fiecare respondent va fi clasat ntr-una din cele 8x6x2x2=192 celule numite post-straturi. n fiecare celul h (h=1,192) vom avea un numr nh de respondeni iar

n
h =1

192

= n unde n este numrul

total de respondeni. Pe baza informaiilor din alte surse putem determina distribuia pentru populaia Romniei cu vrsta 15 ani i peste (N) dup cele patru variabile: REG, VRSTA, MREZ, SEX reprezentat de frecvenele Nh unde N h = N .
h =1 192

Frecvenele relative ale eantionului sunt date N de raportul n h iar ale populaiei de h . n N Din diferite motive vor exista celule pentru n N care h h eantionul respondenilor nen N reprezentnd fidel populaia Romniei cu vrsta de 15 ani i peste, anumite celule (post-straturi) fiind sub sau supraestimate. n sens strict matematic am putea spune c eantionul nu este reprezentativ pentru populaia din care a fost extras. Totui noiunea (ne)reprezentativ este n general utilizat ntrun sens mai puin strict. n acest caz se poate pretinde c eantionul este reprezentativ pentru populaie dac toate frecvenele nh sunt nenule i suficient de mari98. n felul acesta fiecare combinaie dintre regiune, vrst, mediu de reziden i sex este suficient reprezentat. Existena unor diferene semnificative statistic ntre frecvenele relative ale eantionului de respondeni i populaie poate avea consecine grave asupra calitii estimatorilor. Am considerat y o variabil de interes (de
98

exemplu durata sptmnii de lucru. Pe baza anchetei asupra forei de munc urmeaz s se estimeze durata medie efectiv a sptmnii de lucru. Aceast variabil nu este auxiliar i nu dispunem de informaii n ceea ce o privete din alte surse. Calculnd durata medie efective a sptmnii de lucru ( y ) ca o medie neponderat pe baza datelor din eantion vom obine un estimator deplasat pentru media populaiei din motivele de sub sau supra reprezentare prezentate anterior. Estimatorul timpului total de munc (N y ) care va prezenta aceleai neajunsuri se poate y scrie sub forma: Ny = N T unde yT repren zint timpul total de munc din eantion. Din aceast relaie se deduce c pentru a trece de la totalul eantionului la totalul populaiei trebuie s atribuim fiecrui respondent acelai coeficient de ponderare N . Se poate n spune c, n medie, fiecare respondent al anchetei reprezint N din populaia Romniei n cu vrste de 15 ani i peste. Utiliznd post-stratificarea aceast ponderare nu se va efectua uniform. Fiecare respondent din post-stratul h va primi un coeficient cu de ponderare de forma N h nh h=1,..192. n aceste condiii timpul total de munc din populaie YT va fi estimat pe baza
T = N h y h , iar durata medie relaiei: Y
h =1 192

efectiv a sptmnii de lucru se va estima pe baza relaiei: 192 = Y N y N . Practic, fiecare respon-

h =1

Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de lEconomie 2003/7-8A, Bruxelles, pg. 13.

indivizi nh ce ndeplinesc aceleai caracteristici. Calitatea estimatorilor obinui prin poststratificare depinde de msura n care variabilele auxiliare regiune, vrst, mediu de reziden i sex explic variaia variabilelor de interes. Este clar c cele patru variabile sunt explicative pentru un numr foarte mare de variabile de interes totui, n cazul n care se dorete o analiz detaliat sau estimarea unor

dent din stratul h reprezint N h

Revista Informatica Economic, nr. 1(33)/2005

81

variabile de interes specifice, ele nu mai sunt suficiente. Acest fapt a determinat abandonarea tehnicii clasice de post-stratificare. Modelul de post-stratificare prezentat anterior poate fi prezentat succint sub forma: REG x VRST x MREZ x SEX. Pentru aceasta, pornind de la modelul iniial REG x VRST x MREZ x SEX putem aduga alte variabile ajungnd la un model detaliat de forma: REG x VRST x MREZ x SEX x X1 x X2 Noile variabile introduse vor permite ameliorarea estimaiilor. n acest model variabilele utilizate nu se vor mai numi variabile de post-stratificare ci variabile de calibrare. n momentul n care numrul variabilelor de calibrare este foarte mare nu se vor putea calcula izolat ponderile pentru fiecare celul rezultat din ncruciarea variabilelor. Literatura de specialitate propune diferii algoritmi pentru determinarea unei soluii. ntr-un model de post-stratificare este posibil, ca pentru fiecare post-strat h s se defineasc o ecuaie exprimat ca sum a greutilor (ce trebuie calculate) acordate respondenilor din post-stratul h i a cror sum trebuie s corespund cu efectivul populaiei Nh: astfel: w k = N h unde wh este greutatea acordat
k h

cienii de extrapolare ce rezult direct din k=1,nr). planul de eantionare ( d k = 1

Problema general a calibrrii const n ajustarea coeficienilor de extrapolare iniiali d k = 1 i obinerea unor coeficieni de

redresare calibrai de forma : w k = g k d k unde gk reprezint factorul de ajustare. Este vorba de urmtoarea problem de optimizare:
nr wk d k G d minim k =1 k n r w k x kj = Tj (j = 1,...m) restrictiile de calibrare k =1

respondentului h. Pentru fiecare post-strat stabilim o astfel de ecuaie n final obinnd un sistem de h ecuaii liniare ce ar trebui rezolvat. Rezolvarea lui duce la mai multe soluii deoarece, pe de o parte acest sistem cuprinde mai multe necunoscute dect ecuaii iar pe de alt parte fiecare individ k nu este cuprins ntr-o singur ecuaie. O soluie particular este obinut impunnd ca toi indivizii din acelai poststrat h s aib aceeai greutate wh astfel nct fiecare va fi tratat n aceeai manier. Ecuaia post-stratului h poate fi formulat astfel: n h w k = N h deci w k = N h n h Deoarece sistemul de ecuaii de calibrare are mai multe soluii putem alegea acea soluie care modific cel mai puin coeficienii de extrapolare iniiali. Practic vom cuta acei coeficieni de redresare wk care s verifice sistemul de ecuaii de calibrare i n acelai timp s fie ct mai apropiai posibil de coefi-

unde: o m reprezint numrul de variabile de calibrare iar xkj este valoarea variabilei de calibrare j pentru respondentul k o Tj reprezint totalul populaiei pentru variabila de calibrare j. o G este funcia distanelor definit pe vecintatea convex a lui 1 i care verific urmtoarele condiii: G 0; G este strict convex; G este de dou ori continuu derivabil; G(1)= 0 G(1)= 0; G(1)= 1. Teorema funciilor implicite afirm c funcia reciproc F a lui G, definit i continuu derivabil n vecintatea lui 0 satisface condiiile F(0)=1 i F(0)=1. F se numete funcie de calibrare.99 Pentru simplificarea explicaiei presupun c problema de optimizare are doar o soluie i o singur restricie i anume:

x w
k =1 k

nr

= T unde xk este variabila de cali-

brare iar T reprezint totalul populaiei pentru variabila de calibrare. Pentru soluionarea problemei de minimizare innd cont de restricie (extreme cu legturi)
99

Luminet D., Lenqute sur les Forces de travail: calibrage et autres dveloppements, Statistics Belgium, Working Paper nr. 8, pg. 32

82

Revista Informatica Economic, nr. 1(33)/2005

se recurge la funcia Lagrange definit astfel: nr nr wk L(w k , ) = d k G xkw k T d k =1 k =1 k unde este valoarea multiplicatorului Lagrange. Pentru a afla valorile minime anulm derivatele pariale i obinem urmtorul sistem: nr x k w k = T k =1 wk G' = x k w k = d k F(( k ) dk
Introducnd
kw n prima relaie obinem :

x
k =1

nr

d k F(( k ) = T

Pe baza acestei relaii putem afla valoarea multiplicatorului Lagrange i ulterior valorile wk. Avem posibilitatea de a alege un criteriu de apropiere ntre coeficienii de extrapolare iniiali i coeficienii de redresare calibrai, deci de a alege o form a funciei distanelor G i implicit a funciei de calibrare F. Calibrarea generalizat a devenit n momentul de fa o metod cunoscut i puternic n mediile de specialitate deoarece, utiliznd informaii auxiliare din diferite surse, reuete s mbunteasc estimaiile sondajelor prin creterea preciziei estimatorilor obinui. Mai mult dect att, calibrarea este utilizat pentru corectarea deplasrii produse de nonrspunsurile totale. Rezolvarea matematic a problemei de minimizare cu restricii prezentat necesit un volum mare de calcule cu un nivel ridicat de dificultate. Literatura de specialitate propune diferii algoritmi pentru determinarea soluiei ce stau la baza programelor software pe baza crora se realizeaz calibrarea eantioanelor. n con tinuare voi prezenta succint aceste programe: Generalized Estimation System (GES). Este utilizat de Statstics Canada i este realizat sub programul SAS. Are la baz estimarea pe baza regresiei generalizate (GREG) descris de Strndal, Swensson i Wretman n Model Assisted Survey Sampling, 1992. Aceast

metod acoper o clas de estimatori calibrai care cuprinde cei mai utilizai estimatori. Cu toate acestea metoda de calibrare generalizat introdus de Deville i Strndal n 1992 este mai cuprinztoare. GES este utilizat mpreun cu un alt soft realizat sub SAS, GSAM (Generalised Sampling System). Ambele programe acoper diverse tipuri de sondaj simple sau complexe. Avantajul GES este deci integrarea calibrrii, a estimrii pentru totaluri, medii, proporii, rapoarte i variaia estimatorilor chiar dac numai pe baza metodei GREG. BASCULA a fost realizat n Delphi pentru Windows 95 de ctre Nieuwenbroek n 1997 i este utilizat n Olanda. Ca i GES se bazeaz pe metoda regresiei generalizate (GREG). Variaia estimatorilor se bazeaz pe tehnica reeantionrii (balanced repeated sampling BRR) O particularitate a programului BASCULA este modul n care factorul de ajustare gk este limitat n metoda liniar. Contrar procedurii utilizate de CALMAR i g-CALIB factorii de ajustare nu sunt trunchiai ci mai degrab redimensionai printr-o procedur iterativ. Aceasta este considerat o tehnic de netezire limitat fa de tehnica trunchierii iterative. CALMAR (Calage sur Marges). Acest program a fost propus de membrii INSEE (Institut National de la Statistique des Etudes Economiques Frana). CALMAR este realizat sub SAS i are la baz metoda de calibrare generalizat introdus de Deville i Strndal n 1992 concentrat pe calcularea coeficienilor de calibrare wh i a factorilor de ajustare gh. Un instrument central al metodei l constituie funcia distanelor G. Din punct de vedere practic, CALMAR este considerat superior sistemelor prezentate anterior deoarece permite utilizatorilor s limiteze n mai multe moduri flexibilitatea coeficienilor de redresare wk. Din punct de vedere teoretic, deoarece se bazeaz pe metoda calibrrii generalizate, sfera estimatorilor calibrai este mult mai cuprinztoare. i n Romnia Institutul Naional de Statistic utilizeaz acest pachet program pentru calcularea coeficienilor de ponderare n vederea creterii gradului de precizie al estima-

Revista Informatica Economic, nr. 1(33)/2005

83

iilor i pentru tratarea non-rspunsurilor totale att n Ancheta asupra forei de munc AMIGO ct i n celelalte anchete n care unitatea de selecie este gospodria sau ntreprinderea. g-CALIB. A fost introdus de ctre INS (Institut National de Statistique) Belgia, avnd la baz pachetul statistic SPSS. Prima versiune a acestui program a fost realizat de Vanderhoeft i a devenit un instrument performant, aplicabil n situaii diverse i capabil s rezolve probleme complicate de redresare a eantioanelor.Ca i CALMAR, are la baz metoda de calibrare generalizat introdus de Deville i Strndal n 1992 concentrat pe calcularea coeficienilor de calibrare wh i a factorilor de ajustare gh. Pachetele program g-CALIB i CALMAR sunt comparabile din punct de vedere al fundamentrii teoretice i al performanelor. Cu toate acestea, din anumite puncte de vedere CALMAR este privit ca fiind n prezent cel mai bun soft n acest domeniu din urmtoarele motive: o Interfaa este foarte prietenoas nefiind necesar ca utilizatorul s fie un expert n metoda calibrrii generalizate; o CALMAR este astfel conceput ca variabilele cantitative i calitative de calibrare s fie transformate automat ntr-o matrice proiectat de program. Acest lucru reduce foarte mult munca de pregtire a fiierelor input de ctre utilizator. Totui, pentru calibrarea variabilelor cantitative utilizatorul CALMAR trebuie s realizeze o transformare a acestora astfel nct s obin un format standard pentru fiierul de intrare. o Detectarea i raportarea erorilor se realizeaz ntr-un mod mai precis i mai eficient dect celelalte pachete program similare.

Concluzii Pentru ca estimatorii variabilelor de interes obinui n urma prelucrrii datelor din eantion s nu fie deplasai fa de parametrii populaiei este recomandat s fie aplicat una din metodele de ameliorare a eantioanelor prezentate n aceast lucrare.. Dei calibrarea generalizat este n momentul de fa o metod puternic pentru c reuete s mbunteasc estimaiile sondajelor prin creterea preciziei estimatorilor obinui corectnd ntr-o oarecare msur i deplasrile produse de non-rspunsurile totale, ea nu este suficient cunoscut n Romnia. Unul dintre motive este i costul foarte ridicat al programelor software pe baza crora se poate implementa aceast metod. Consider c orice institut ce are pretenia realizrii unui eantion reprezentativ la nivel naional ar trebui s poat realiza calibrarea acestuia. Bibliografie Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de lEconomie 2003/78A, Bruxelles Luminet D., Vanderhoeft C., Une mthode de calibrage applique aux statistiques de lemploi, Carrefour de lEconomie 2003/78A, Bruxelles Droesbeke J-J.,Thorie et Practiques de lchantillonnage, Formation des statisticiens europens, Eurostat, Support de cours