Sunteți pe pagina 1din 20

INSTITUTUL NAŢIONAL DE STATISTICĂ

ROMÂNIA

MIGRAŢIA
INTERNAŢIONALĂ

BUCUREŞTI
- 2013 -

1
Metodologia privind
Migraţia internaţională

Cuprins

1 Cadrul general..................................................................................................................................... 3
1.1 Obiectivele metodologiei statistice........................................................................................ 3
1.2 Cadrul legal........................................................................................................................... 4
1.3 Concepte şi definiţii de bază.................................................................................................. 4
2 Descrierea metodologiei statistice................................................................................................... 5
2.1 Metodologia statistică privind imigraţia..................................................................................5
2.1.1 Sfera de cuprindere...................................................................................................... 5
2.1.2 Surse de date............................................................................................................... 6
2.2 Metodologia statistică privind emigraţia.................................................................................6
2.2.1 Sfera de cuprindere...................................................................................................... 6
2.2.2 Surse de date............................................................................................................... 6
2.2.3 Descrierea metodei de estimare a stocului de emigranţi..............................................6
2.2.4 Operaţiuni şi tehnici necesare estimării stocului de emigranţi.......................................7
2.3 Disponibilitatea datelor în profil teritorial..............................................................................12
2.4 Principalele variabile studiate.............................................................................................. 12
2.5 Clasificări şi nomenclatoare utilizate...................................................................................12
2.6 Niveluri de agregare a principalilor indicatori.......................................................................12
2.7 Perioade/momente de referinţă........................................................................................... 13
2.8 Periodicitatea de estimare................................................................................................... 13
2.9 Disponibilitatea datelor........................................................................................................ 13
2.10 Personalul implicat.............................................................................................................. 13
2.11 Software statistic................................................................................................................. 13
3 Prezentarea şi utilizarea rezultatelor metodologiei.........................................................................14
3.1 Principalii indicatori rezultaţi................................................................................................ 14
3.2 Mijloace de diseminare a rezultatelor..................................................................................14
4 Evaluarea calităţii datelor estimate – analiza diagnostic................................................................14
5 Limitări........................................................................................................................................... 18
Bibliografie............................................................................................................................................ 20

2
Metodologia privind
Migraţia internaţională

1 Cadrul general
1.1 Obiectivele metodologiei statistice

În domeniul statisticii populaţiei şi a migraţiei externe au intrat în vigoare, în ultimii ani, mai multe
regulamente europene care stabilesc un cadru unitar de raportare a datelor statistice, acestea
impunând utilizarea unor definiţii şi noţiuni precise privind sfera de cuprindere a indicatorilor statistici,
perioadele de referinţă, termenele şi formatele de raportare etc.
Aceste regulamente au în vedere calculul de către statele membre a indicatorului Populaţia rezidentă
(stabilă) pe baza conceptului de „reşedinţă obişnuită” şi a pragului de timp de 12 luni. Potrivit acestor
criterii, în populaţia rezidentă a unui stat:
- sunt incluşi imigranţii care şi-au stabilit reşedinţa obişnuită pe teritoriul acelui stat pentru cel
puţin 12 luni sau cu intenţia de a rămâne cel puţin 12 luni şi
- se exclud emigranţii care şi-au stabilit reşedinţa obişnuită pe teritoriul altui stat pentru cel
puţin 12 luni sau cu intenţia de a rămâne cel puţin 12 luni.
În acest fel este posibilă măsurarea populaţiei Uniunii Europene în mod univoc.
Statisticile UE privind migraţia externă impun utilizarea criteriului reşedinţei obişnuite şi pragului
de 12 luni în funcţie de care o persoană este considerată imigrant în/emigrant dintr-o anumită ţară.
Până în prezent, pentru măsurarea migraţiei internaţionale (care reprezintă una din componentele
utilizate în calculul populaţiei) au fost utilizate numai surse administrative de date. Sursele
administrative folosite până în prezent nu reflectă decât o mică parte a migraţiei externe, şi anume pe
cea definitivă. Acest fapt a determinat o supra-evaluare a numărului populaţiei rezidente (stabile) a
României, în special în perioada 2007-2011.
Statisticile privind emigraţia au fost puternic subevaluate. Această situaţie a fost cauzată de faptul
că sursele administrative folosite până în prezent nu măsoară decât numărul cetăţenilor români care
îşi schimbă domiciliul din România, şi nu pe cel al persoanelor care îşi schimbă reşedinţa obişnuită,
fără schimbarea domiciliului (aşa cum solicită Regulamentul 862/2007 privind migraţia) în alte ţări,
numărul acestora din urmă fiind mult mai mare, de ordinul milioanelor. Statisticile ”în oglindă” ale
Eurostat cuprind circa 2,2 milioane români aflaţi pe teritoriul celorlalte State Membre ale UE.
În ceea ce priveşte statisticile administrative privind imigraţia România are probleme de subevaluare
deoarece în numărul imigranţilor în România nu sunt incluşi:
- cetăţenii statelor U.E. care îşi stabilesc reşedinţa obişnuită pe teritoriul României pentru o
perioadă de cel puţin 12 luni;
- cetăţenii români care se reîntorc în ţară după o perioadă de absenţă de cel puţin 12 luni.
Migraţia internaţională constituie una dintre componentele populaţiei totale a ţării, având o importanţă
deosebită datorită dinamicii sale complexe, din perspectiva modificărilor frecvente în dimensiune şi în
structură, dar şi a multiplelor legături de intercondiţionare şi interdependenţă dintre fenomenele
demografice şi cele de natură socială şi economică.
În cazul ţării noastre, perioada specifică post-integrării în comunitatea europeană a condus la
amplificarea fenomenului migraţiei internaţionale, datorită liberei circulaţii a persoanei în spaţiul
european. Acest aspect a creat dificultăţi în ceea ce priveşte măsurarea migraţiei internaţionale, în
general, a emigraţiei în special.

3
Sistemul statistic naţional a fost şi este pus în faţa unor cerinţe de raportare interne şi internaţionale
pentru care nu există în prezent surse de date care să ofere informaţia necesară determinării, în
special, a statisticilor de populaţie şi de migraţie internatională. Prin urmare, prezenta metodologie a
fost dezvoltată pentru a răspunde acestor cerinţe şi se referă, în principal, la modul în care s-au
determinat/estimat seriile de date de migraţie internaţională pentru perioada intercensitară (2002-
2011), precum şi pentru anii imediat următori (2012- 2013). Pentru perioadele următoare, este nevoie
de îmbunătăţirea surselor de date astfel încât migraţia internaţională să se poată determina în condiţii
sporite de acurateţe şi cu detaliere a informaţilor până la nivel de localitate (cf. NUTS5).

1.2 Cadrul legal

La nivel naţional:
 OUG nr.97/2005, republicată 2011, privind evidenţa, domiciliul, reşedinţa şi actele de
identitate ale cetăţenilor români;
 OUG nr.194/2002 privind regimul străinilor în România, republicată, cu modificările şi
completările ulterioare;
 OUG nr.102/2005 privind libera circulaţie pe teritoriul României a cetăţenilor statelor membre
ale Uniunii Europene şi Spaţiului Economic European şi a cetaţenilor Confederaţiei Elveţiene,
republicată;
 Legea nr.248/2005 privind regimul liberei circulaţii a cetăţenilor români în străinătate, cu
modificările şi completările ulterioare;
 Legea nr.2/1968, republicată în 1981 privind privind organizarea administrativă a teritoriului
României, cu modificările şi completările ulterioare;
 Legea nr.351/2001 privind aprobarea Planului de amenajare a teritoriului naţional - Secţiunea
a IV-a Reţeaua de localităţi, cu modificările şi completările ulterioare;
 Legea nr. 226/2009 privind organizarea şi funcţionarea statisticii oficiale în România.

La nivel european:
 Regulamentul (CE) nr. 862/2007 al Parlamentului European şi al Consiliului din 11 iulie 2007
privind statisticile comunitare din domeniul migraţiei şi protecţiei internaţionale;
 Regulamentul (CE) nr.763/2008 privind recensământul populaţiei şi al locuinţelor;
 Propunerea de Regulament (CE) al Parlamentului European şi a Consiliului privind statisticile
demografice europene (COM(2011)0903-C7-0518/2011-2011/0440(COD));
 Precizări metodologice ale EUROSTAT.

În România, estimarea migraţiei internaţionale se realizează în conformitate cu Programul Statistic


Naţional Anual, aprobat de Guvernul României prin Hotărâre de Guvern.

1.3 Concepte şi definiţii de bază


Migraţia internaţională se poate clasifica, în funcţie de durata şi modalitatea de şedere pe teritoriul
altui stat (domiciliu sau reşedinţă), în următoarele categorii:
 Migraţie internaţională definitivă – dacă persoana îşi stabileşte domiciliul pe teritoriul altui
stat;
 Migraţie internaţională temporară – dacă persoana îşi stabileşte reşedinţa obişnuită pe
teritoriul altui stat, adică absentează o perioadă determinată de la reşedinţa anterioară; în
funcţie de perioada de absenţă, migraţia internaţională temporară poate fi:
 de scurtă durată - dacă perioada pentru care persoana absentează de la
reşedinţa obişnuită este de mai putin de 12 luni (2, 3, 6,..11 luni);
 de lungă durată - dacă perioada pentru care persoana absentează de la
reşedinţa obişnuită este de cel puţin 12 luni.

4
Migraţia internaţională cuprinde două componente: emigraţia şi imigraţia. Din punct de vedere
statistic, conform Regulamentului Comisiei Europene nr. 862/2007 privind statisticile comunitare din
domeniul migraţiei şi protecţiei internaţionale, definim componentele migraţiei internaţionale astfel:
 Emigraţie înseamnă acţiunea prin care o persoană care a avut anterior reşedinţa obişnuită
pe teritoriul unui stat membru încetează să mai aibă reşedinţa obişnuită pe teritoriul statului
membru în cauză pentru o perioadă care este sau se aşteaptă să fie de cel puţin 12 luni;
 Imigraţie înseamnă acţiunea prin care o persoană îşi stabileşte reşedinţa obişnuită pe
teritoriul unui stat membru pentru o perioadă care este sau se aşteaptă să fie de cel puţin 12
luni, după ce, în prealabil, a avut reşedinţa obişnuită într-un alt stat membru sau într-o ţară
terţă.
Obiectul prezentei metodologii îl reprezintă determinarea migraţiei internaţionale temporare de
lungă durată.
Alte concepte cu care operează statistica migraţiei internaţionale sunt următoarele:
 Emigranţi sunt persoanele care emigrează în străinătate pentru o perioadă de cel puţin 12
luni;
 Imigranţi sunt persoanele care imigrează în România pentru o perioadă de cel puţin 12 luni;
 Fluxul de emigranţi reprezintă numărul emigranţilor, în perioada de referinţă (anul t);
 Fluxul de imigranţi reprezintă numărul imigranţilor, în perioada de referinţă (anul t);
 Soldul migraţiei externe reprezintă diferenţa dintre fluxul de imigranţi şi fluxul de emigranţi,
în perioada de referinţă (anul t);
 Stocul de emigranţi reprezintă numărul persoanelor care au reşedinţa obişnuită în
străinătate pentru o perioadă de cel puţin 12 luni, la un moment dat (1 ianuarie anul t);
 Stocul de imigranţi reprezintă numărul persoanelor de cetăţenie română sau străină, care
au avut anterior reşedinţa obişnuită în străinătate, dar au reşedinţa obişnuită pentru o
perioadă de cel puţin 12 luni în România, la un moment dat (1 ianuarie anul t);
 Reşedinţa obişnuită înseamnă locul în care o persoană îşi petrece în mod normal perioada
zilnică de odihnă, fără a ţine seama de absenţele temporare pentru recreere, vacanţe, vizite
la prieteni şi rude, afaceri, tratamente medicale sau pelerinaj religios. Reşedinţa obişnuită
poate să fie aceeaşi cu domiciliul sau poate să difere, în cazul persoanelor care aleg să plece
în altă localitate din ţară sau străinătate pentru o perioadă determinată, de cel puţin 12 luni;
 Domiciliul persoanei este adresa la care aceasta declară că are locuinţa principală, trecută
în cartea de identitate, aşa cum este luată în evidenţa organelor administrative ale statului.

2 Descrierea metodologiei statistice


2.1 Metodologia statistică privind imigraţia
Datele privind imigraţia internaţională sunt obţinute prin două metode distincte, în funcţie de sfera de
cuprindere.

2.1.1 Sfera de cuprindere


Imigranţii cuprind:
a. Persoanele de cetăţenie străină care şi-au stabilit reşedinţa obişnuită în
România, pentru o perioadă de cel puţin 12 luni;
b. Persoanele de cetăţenie română, care au avut anterior reşedinţa obişnuită
în străinătate, dar care au revenit în ţară pentru o perioadă de cel puţin 12 luni (având
domiciliul în România).

5
2.1.2 Surse de date
Pentru stocurile de imigranţi care cuprind prima categorie de imigranţi (punctul a de la subcapitolul
2.1.1), datele sunt obţinute pe cale administrativă, fiind furnizate semestrial de IGI (Inspectoratul
General pentru Imigrări);
Pentru a doua categorie de imigranţi (punctul b de la subcapitolul 2.1.1), datele sunt obţinute de la
Eurostat, din statisticile în oglindă (datele privind cetăţenii români care au emigrat în România, pe ţări
de provenienţă).
Observaţie: pentru fluxurile de imigranţi din perioada intercensitară precedentă (2002-2011) au fost
utilizate şi datele transmise de oficiile naţionale de statistică din Italia şi Spania (ISTAT respectiv INE).

2.2 Metodologia statistică privind emigraţia


Emigraţia este dificil de surprins pe baza surselor administrative, deoarece în legislaţia naţională nu
există obligaţia cetăţenilor de a anunţa autorităţile în cazul stabilirii reşedinţei obişnuite în altă ţară.
Înregistrarea în evidenţele Direcţiei Paşapoarte se face numai în cazul în care cetăţeanul român
solicită stabilirea domiciliului (reşedinţa permanentă) în alt stat, membru al Uniunii Europene, sau nu.
Pentru emigraţie, datele existente din surse administrative nu acoperă întregul fenomen al emigraţiei,
existând o subevaluare severă a numărului de emigranţi. Lipsa disponibilităţii cifrelor exacte privind
emigraţia a condus la necesitatea unei noi gândiri statistice, bazate pe metode de estimare, la
recomandarea Comisiei Europene, prin articolul 9 alineatul (1) din Regulamentul 862/2007, prin care
se permite institutelor naţionale de statistică utilizarea, în cadrul procedurii statistice, a unor „metode
de estimare statistică bine documentate, bazate pe date ştiinţifice”.

2.2.1 Sfera de cuprindere


Emigranţii cuprind persoanele care au avut anterior reşedinţa obişnuită pe teritoriul României, dar care
îşi stabilesc reşedinţa obişnuită pe teritoriul altui stat, pentru o perioadă de cel puţin 12 luni.

2.2.2 Surse de date


Sursele de date utilizate pentru estimarea stocului de emigranţi sunt următoarele:
- un model econometric bazat pe tehnici de estimare pe domenii mici, care asigură
determinarea stocului de emigranţi în profil teritorial (la nivel naţional, regional şi pe
judeţe);
- fluxurile de emigranţi transmise de oficiile naţionale de statistică din Italia şi Spania
din perioada 2002-2011, care asigură structura pe vârste şi sexe a stocului de
emigranţi;
- migraţia internaţională „în oglindă”, care reflectă stocul de imigranţi proveniţi din
România şi au reşedinţa pe teritoriul altor state pentru o perioadă de cel puţin 12 luni;
aceste date au fost utilizate ca valori de referinţă (benchmark) pentru evaluarea
calităţii rezultatelor obţinute prin aplicarea modelului econometric.
Datele privind fluxurile de emigranţi din perioada 2002-2011 au fost furnizate de oficiile naţionale de
statistică din Italia şi Spania. Datele sunt disponibile pe vârste, sexe, cetăţenie şi ţară de naştere.

2.2.3 Descrierea metodei de estimare a stocului de emigranţi


Metoda de estimare a stocului de emigranţi constă în aplicarea unor modele econometrice de
estimare pe domenii mici, utilizând date din două surse: o cercetare statistică selectivă, respectiv o
cercetare exhaustivă.
Metoda de estimare implică producerea unor estimatori pentru domenii pentru care eşantioanul
cercetării statistice selective cuprinde un număr prea mic de unităţi statistice, sau - în unele cazuri -
acestea sunt inexistente. Conceptualizarea sintagmei „estimarea pe domenii mici” este puţin confuză,
deoarece această tehnică nu se referă doar la arii geografice, ci şi la alte domenii care suportă niveluri
de detaliere/divizare, pentru care numărul de unităţi statistice selectate este redus.
Estimarea pe domenii mici „împrumută” relevanţă şi acurateţe prin combinarea datelor obţinute din
cercetări selective cu informaţii complementare din alte surse de date (surse statistice sau
administrative exhaustive).

6
2.2.4 Operaţiuni şi tehnici necesare estimării stocului de emigranţi
Estimarea stocului de emigranţi se realizează în mai multe etape, după cum urmează:
Pas 1 – Identificarea surselor primare de date şi a variabilelor; Pregătirea iniţială a fişierelor cu
microdate
Pas 2 – Corecţii aplicate datelor din eşantion
Pas 3 – Determinarea stocului de emigranţi prin metoda de estimare pe domenii mici;

Pas 1 – Identificarea surselor primare de date şi a variabilelor; Pregătirea iniţială a fişierelor cu


microdate
(I) Sursele primare de date utilizate pentru dezvoltarea modelului econometric sunt următoarele:
- Ancheta forţei de muncă în gospodării (AMIGO), care este o cercetare statistică selectivă ce
conţine variabila de interes şi un set de variabile auxiliare;
- Recensământul populaţiei şi al locuinţelor (RPL 2011), care este o cercetare statistică
exhaustivă ce conţine setul de variabile auxiliare.

(II) Variabilele modelului sunt:


 Variabila de interes se referă la observaţia statistică privind stocul de emigranţi, la
momentul t:
Variabila absent este binară (1 - dacă persoana este absentă de la reşedinţa obişnuită din
România, pentru o perioadă de 12 luni şi peste, 0 - altfel);
 Variabilele auxiliare sunt cele care explică dependenţa variabilei de interes de
caracteristicile comune ale populaţiei statistice din întreaga colectivitate şi cele ale
populaţiei eşantionate. Este necesar ca setul de variabile auxiliare să fie acelaşi pentru
ambele surse de date utilizate în tehnica de estimare, după cum urmează:
Variabila sex cuprinde două seturi de valori:
- male (masculin)
- female (feminin)
Variabila mediu de rezidenţă cuprinde două seturi de valori:
- mediu_u (urban)
- mediu_r (rural)
Variabila nivel de educaţie cuprinde trei seturi de valori:
- edu_inf (nivel inferior de educaţie – fără studii, primar, gimnazial,
profesional)
- edu_med (nivel mediu de educaţie – liceal, postliceal)
- edu_sup (nivel superior de educaţie – universitar, postuniversitar).
Variabila stare civilă cuprinde trei seturi de valori:
- stciv1 (necăsătorit)
- stciv2 (căsătorit)
- stciv34 (văduv şi divorţat).
Variabila statut ocupaţional cuprinde cinci seturi de valori:
- activ1 (ocupat)
- activ2 (şomer)
- activ3 (elev/student)
- activ4 (pensionar)
- activ5 (casnică, înreţinut de altă persoană, întreţinut de stat sau de
organizaţii private, altă situaţie economică).
Variabila grupa de vârstă cuprinde cinci seturi de valori:
- gr_1 (0-14)
- gr_2 (15-24)
- gr_3 (25-39)
- gr_4 (40-64)
- gr_5 (peste 65).
Variabila pop reprezintă populaţia rezidentă din localitate, înregistrată la momentul
recensământului.

Variabilele conţinute în fişierul amigo sunt aceleaşi ca şi cele luate în considerare în fişierul RPL.
Există totuşi două excepţii:
- în fişierul amigo există o variabilă suplimentară (cea de interes) şi anume variabila absent;

7
- în fişierul amigo nu există variabila pop – specifică RPL - populaţia rezidentă din localitate,
înregistrată la momentul recensământului.
Observaţie: variabilele auxiliare trebuie să fie identic structurate în ambele fişiere; de exemplu
dacă în AMIGO nivelul de educaţie este o variabilă categorială cu n variante de răspuns, iar
recensământul înregistrează un număr m de variante pentru această variabilă, microdatele trebuie
regrupate după nivelul de educaţie (în p variante).

Pe baza datelor combinate din cele două surse, aplicarea modelului face posibilă estimarea stocului
de emigranţi în profil teritorial.
Stocul de emigranţi în profil teritorial (la nivel de macroregiuni/regiuni/judeţe) se determină prin
agregarea datelor estimate la nivel de localitate.

(III) Pregătirea iniţială a fişierelor cu microdate - sunt necesare două seturi de date:
(A) un fişier care să conţină variabilele auxiliare pentru întreaga populaţie statistică
şi codul de identificare al localităţii (conform SIRUTA); de asemenea, fişierul trebuie să
conţină populaţia pentru fiecare localitate (variabila pop); acest fişier este construit pe baza
rezultatelor RPL;
(B) un fişier care să conţină informaţii referitoare la toate unităţile statistice
cuprinse în eşantionul AMIGO:
 Codul de identificare al localităţii (SIRUTA)
 Variabila de interes (1- daca persoanele sunt plecate in străinătate pentru o
perioada de 12 luni si peste, 0-altfel)
 Variabilele auxiliare

Pas 2 – Corecţii aplicate datelor din eşantion


Evaluarea calităţii estimării deschide noi perspective de gândire a modelelor econometrice. De cele
mai multe ori, pentru a fi aplicate cu succes, modelele de estimare pe domenii mici presupun tehnici
suplimentare de prelucrare şi (re)structurare a microdatelor, precum şi asumarea unor ipoteze de
lucru, de exemplu:
- corecţii aplicate eşantionului (pentru a creşte dimensiunea acestuia)
 metoda mediilor mobile – care presupune asumarea unei valori în eşantion,
calculată pe baza mediilor mobile (MM3), construită din valorile înregistrate în
anul (t-1), (t), respectiv anul (t+1);
 metoda vecinătăţii - se consideră că domeniile mici din vecinătatea unui
domeniu conţinut în eşantion au caracteristici similare; această ipoteză
presupune că nu există domenii mici atipice, în care variabila de interes să
înregistreze valori foarte diferite de domeniile vecine;
- relevanţa statistică a variabilelor auxiliare - variabilele auxiliare utilizate trebuie să fie în
corelaţie cu variabila de interes, iar legăturile dintre variabile, puternice. Cu toate acestea,
selecţia/omiterea variabilelor auxiliare depinde de disponibilitatea datelor (de existenţa
acestora la nivelul domeniilor mici);
- alegerea corectă a celui mai plauzibil model de estimare este esenţială, prin compromisul
între minimizarea varianţei/dispersiei estimatorilor şi deplasarea acestora faţă de valorile
medii.

Pas 3 – Determinarea stocului de emigranţi prin metoda de estimare pe domenii mici


Pentru determinarea stocului de emigranţi se utilizează tehnici de estimare pe domenii mici, care
presupun următoarele tipuri de estimatori:
a) Estimatori sintetici – sunt determinaţi prin aplicarea unor modele de regresie,
combinând variabilele auxiliare corespunzătoare cercetării selective;
b) Estimatori agregaţi – sunt obţinuţi pe baza unei combinaţii liniare între estimatorul
direct (Horvitz-Thomson) şi estimatorul sintetic.
Pentru a asigura reprezentativitatea pe domenii mici, estimatorii trebuie să aibă proprietatea de a nu fi
deplasaţi (media estimată a variabilei de interes să reprezinte toate unităţile statistice din întreaga
colectivitate).
Estimatorii nedeplasaţi se obţin, de regulă, prin selectarea unor eşantioane de dimensiuni foarte mari,
selecţia cuprinzând unităţi statistice distribuite în toate domeniile mici (design-unbiased estimators). În
această situaţie, estimatorii direcţi pot fi utilizaţi cu succes.

8
Utilizarea unor eşantioane care să asigure reprezentativitatea datelor la nivel de localitate nu este
posibilă. De aceea se recurge la metode econometrice pentru determinarea unor estimatori
nedeplasaţi (model-unbiased estimators).

Estimatorul GREG1
Estimatorul GREG este obţinut prin ajustarea estimatorului direct cu diferenţele între mediile
variabilelor auxiliare - calculate pentru fiecare localitate – din cele două surse. Modelul prin care se
ajustează estimatorul direct se bazează pe corelaţia dintre variabila de interes y şi variabilele auxiliare
xi. Ecuaţia de regresie poate fi scrisă sub forma:
T
1  1 
ŶdGREG 
N̂ d
w id y id   Xd 
 N̂ d
w id x id
 

ˆ (*)
isd  isd 

Estimatorul GREG cuprinde estimatorul direct, calculat exclusiv pe baza datelor obţinute din
cercetarea selectivă (AMIGO):
1
ŶdDIRECT 
N̂ d isd

w id y id (**)

Unde:
N̂ d - reprezintă totalul populaţiei estimate pe fiecare domeniu
wid - ponderile de selecţie/inversul probabilităţilor de selecţie (coeficienţii de extindere)
y id - reprezintă valorile variabilei de interes înregistrate, pentru fiecare domeniu conţinut în
eşantion
d- numărul de domenii mici (localităţi, de exemplu, conform SIRUTA)
̂ - coeficienţii de regresie
X d - reprezintă variabilele auxiliare, conţinute în fişierul RPL
x d - reprezintă variabilele auxiliare, conţinute în fişierul AMIGO

Pe baza formulelor (*) şi (**) se obţine expresia matematică a estimatorului GREG:


T
 1 
ŶdGREG  ŶdDIRECT   X d 
 N̂ d
 w id x id  

ˆ
 is d 

Ca rezultat, vom obţine estimatorul GREG (valorile estimate ale variabilei de interes y, pe baza
regresiei între valorile lui y estimate direct si valorile variabilelor auxiliare, obţinute din cele două surse
de date). Se va observa faptul ca estimatorul GREG ajustează estimatorul direct, în sensul unui grad
de omogenitate mai mare, respectiv o variaţie mai redusă a datelor obţinute la nivelul domeniului. Se
vor compara dispersiile/coeficienţii de variaţie pentru cei doi estimatori. Este de aşteptat ca dispersia
estimatorului GREG să fie mai mică decât a estimatorului direct.
Precizare: utilizând pachetul JoSAE din R, obţinem ca rezultat estimatorul GREG, fără calcule
suplimentare.
Pentru ajustări mai fine se utilizează alţi estimatori care se calculează pe baza modelelor
econometrice mai complexe (model-unbiased estimators), după cum urmează în secţiunea următoare.

Estimatorul SYNTH
Estimatorul sintetic este construit astfel încât implică linearitate între variabila de interes/dependentă şi
variabilele independente/factorii de influenţă, pentru toate domeniile, inclusiv pentru cele care nu au
fost cuprinse în eşantion; valorile pe domenii sunt estimate utilizând informaţiile suplimentare
cunoscute la nivelul întregii populaţii statistice.
Diferenţa esenţială între un estimator sintetic şi unul obţinut prin regresie generalizată (GREG) constă
în asumarea ipotezei că domeniul considerat mic are caracteristici similare cu cele identificate, la
nivelul colectivităţii statistice, prin variabilele auxiliare.

1
Generalized REGression Estimator [GREG, S¨arndal et al., 1992]

9
Ecuaţia generală a estimatorului sintetic poate fi scrisă sub forma:
y d  X Td   u d  e d
Unde:
XT d – reprezintă transpusa matricei compusă din valorile variabilelor auxiliare, obţinută la
nivelul domeniilor/localităţilor, pentru întreaga populaţie (valori cunoscute din RPL)
 - coeficienţii de regresie care explică efectul fix al regresiei între variabile (sunt identici
pentru toate grupurile/domeniile)
u d , e d - reprezintă variabilele reziduale de regresie a căror medie este egală cu zero, iar
dispersiile sunt  u ,  e ( u d , e d au distribuţii normale, centrate, cu dispersiile  u ,  e )
ud - variabila reziduală/eroarea datorată variaţiei valorilor înregistrate în interiorul domeniului
d (random-effect at area level)
ed - variabila reziduală/eroarea datorată efectului fix, reprezentând diferenţele între valorile
estimate de modelul de regresie şi valorile observate (fixed-effect).

O ecuaţie echivalentă poate fi scrisă sub forma:

y  x  zu  e
Unde:
y şi e - sunt vectori de dimensiune (nd x 1)
x - este o matrice de dimensiune (n d x p) - conţine variabilele auxiliare/explicative (din sursa de
date la nivelul populaţiei, respectiv RPL)
 - este un vector de dimensiune (p x 1)
u - este un vector de dimensiune (D x 1)
z - este o matrice de dimensiune (nd x D)
nd - dimensiunea eşantionului selectat dintr-un domeniu considerat mic (de exemplu, numărul
de înregistrări dintr-o localitate)
p – numărul de variabile auxiliare
D – numărul de arii mici cuprinse la nivelul întregii populaţii (în cazul de faţă este egal cu
numărul de localităţi, conform SIRUTA).

Utilizând pachetul JoSAE din R, obţinem ca rezultat estimatorul Synth.

Estimatorul EBLUP (Empirical Best Liniar Unbiased Predictor)


În statistică, BLUP este acea valoare a unui predictor rezultată pe baza modelelor liniare mixte, pentru
estimarea parametrilor datoraţi efectelor aleatoare ale regresiei. Aşa cum spuneam în secţiunea
precedentă, modelele liniare de regresie mixte se aplică în cazul în care datele individuale (unit level)
se pot organiza în grupuri/domenii/clustere (area level). În aceste cazuri, valorile teoretice ale
variabilei dependente/de interes sunt corelate cu variabilele factoriale/independente printr-o funcţie de
regresie ai cărei parametri pot fi estimaţi prin diferite metode 2. Aceşti parametri de regresie pot fi
generaţi de efectul fix al regresiei (numărul de coeficienţi este egal cu numărul de factori în model),
sau pot fi generaţi de efectul aleator (numărul de coeficienţi se multiplică cu numărul de grupuri).
Estimatorul EBLUP, la nivelul unităţii statistice (unit level), se calculează conform relaţiei:
 
EBLUP _ A  X Td  unit   unit
d
( y d  x Td  unit )
Sau, o formulă echivalentă:

EBLUP _ A  ( X Td   unit
d
x Td ) unit   unit
d
yd
XT – reprezintă transpusa matricei compusă din valorile variabilelor auxiliare, obţinute la
nivelul localităţilor pentru întreaga populaţie (din RPL).
x dt - transpusa variabilei auxiliare la nivelul localităţilor pentru unităţile cuprinse în eşantion
(din amigo).

2
De ex., metoda celor mai mici pătrate, metoda verosimilităţii maxime

10
y d - valorile variabilei de interes la nivelul localităţilor, conţinute în eşantion

 unit - este un vector de dimensiune (px1)
1
  D   D 
 unit  



d 1
XT 1
d V̂d X d





 d 1
XT 1 
d V̂d y d 

Unde:
ˆ e2 I n d  
V̂d   ˆ 2u 1n d I Tnd (d=1,…,D)
2 2
Reprezintă matricea varianţă-covarianţă a vectorului y d ,  u ,  e - valorile estimate ale
dispersiilor valorilor reziduale u d , e d
I n ,1n d - reprezintă matricea unitate de dimensiune ( n d
d
 n d ), respectiv un vector unitate de
dimensiune ( n d  1 ).
 unit
d
2
este un factor care măsoară varianţa modelului ( u ) faţă de varianţa totală (
 2u   2e / n d ).  unit
d
- ia valori între 0 şi 1.

Estimatorul EBLUP, la nivelul domeniului/ariei se calculează conform relaţiei:


 
EBLUP _ B  X Td  area   area T
d ( y d  x d  area )
Sau, o formula echivalentă:

EBLUP _ B  (X Td   area T area
d x d ) area   d y d
Unde:
X T – reprezintă transpusa matricei compusă din valorile variabilelor auxiliare, obţinute la
nivelul localităţilor pentru întreaga populaţie (din RPL).
x dt - transpusa variabilei auxiliare la nivelul localităţilor pentru unităţile cuprinse în eşantion
(din amigo).
y d - valorile variabilei de interes la nivelul localităţilor, conţinute în eşantion

 area - este un vector de dimensiune (px1)
1
  D   D 
 area  
  x d x Td /( ˆ e2 ) 
ˆ 2u  


 ˆ e2 ) 
ˆ 2u  
x d ŷ d /(

 d 1   d 1 
 area
d - este un raport între dispersia datorată modelului şi dispersia totală (  d ia valori între
0 şi 1):
ˆ 2u
d 
ˆ 2u  ˆ e2
 2u ,  2e - valorile estimate ale dispersiilor valorilor reziduale u d , e d
ud - variabila reziduală/eroarea datorată variaţiei valorilor înregistrate în interiorul domeniului
d (random-effect at area level); este o variabilă aleatoare independent şi identic distribuită
2
care urmează o distribuţie normală de medie egală cu zero şi dispersie  u :
u d ~ iid N(0,  2u )

Faptul că valorile variabilei ud sunt identic distribuite presupune ipoteza că acestea urmează
aceeaşi distribuţie (au aceeaşi probabilitate). Altfel spus, probabilitatea ca un individ dintr-o
localitate să migreze este egală cu a oricărui alt individ din oricare altă localitate.
Independenţa valorilor variabilei ud implică ipoteza că decizia unui individ de a migra dintr-o
localitate este independentă de alţi indivizi din aceeaşi localitate.
e d - variabila reziduală/eroarea datorată efectului fix, reprezentând diferenţele între valorile
estimate de modelul de regresie şi valorile observate (fixed-effect); este o variabilă

11
independent şi identic distribuită care urmează o distribuţie normală de medie egală cu zero şi
dispersie  e2 .

2.3 Disponibilitatea datelor în profil teritorial


Datele privind migraţia internaţională vor fi disponibile şi în profil teritorial, după următoarele niveluri de
detaliere, conform Nomenclatorul Unităţilor Teritoriale Statistice (NUTS):
 nivel naţional (NUTS0)
 macroregiuni (NUTS1)
 regiuni (NUTS2)
 judeţe (NUTS3).
După înfiinţarea Bazei de date de mobilitate socială a populaţiei, datele vor fi disponibile şi la nivel de
localitate (NUTS5), începând cu momentul t+1 de la prima colectare a datelor.

2.4 Principalele variabile studiate


La data de 1 ianuarie a fiecărui an se determină stocul de emigranţi, în profil teritorial. Calculul se
efectuează prin metode de estimare pe domenii mici.
Variabile studiate provin din Ancheta forţei de muncă în gospodării, desfăşurată cu periodicitate
trimestrială de către INS, precum şi a cercetărilor exhaustive (Recensământul populaţiei şi al
locuinţelor, defăşurat în anul 2011, respectiv Baza de date de mobilitate socială a populaţiei, din
momentul în care acesta devine disponibil).

2.5 Clasificări şi nomenclatoare utilizate


 Nomenclatorul SIRUTA - utilizat pentru prezentarea datelor în profil teritorial;
 Nomenclatorul ŢĂRI, conform cu ISO 3166 - utilizat pentru codificarea ţărilor de cetăţenie, de
naştere, de provenienţă (în cazul imigranţilor) şi ţară de destinaţie (în cazul emigranţilor);
 Nomenclatorul de vârste care cuprinde toate vârstele de la 0 la 100 ani şi peste; pentru
diseminarea datelor de migraţie internaţională se utilizează grupe cincinale de vârstă (0-4 ani,
5-9 ani, 10-14 ani, .....80-84 ani, 85 ani şi peste).

2.6 Niveluri de agregare a principalilor indicatori


Stocul de imigranţi se calculează prin agregarea datelor individuale, obţinute din surse
administrative:
- în profil teritorial - la nivel localitate, de judeţ, regiune, ţară
- pe sexe (total, masculin şi feminin)
- pe vârste (de la 0 la 100 ani şi peste) şi pe grupe de vârstă cincinale (0-4 ani, 5-9 ani, 10-14
ani, ..... 90-94 ani, 95-99 ani, 100 ani şi peste)
- pe medii de rezidenţă (urban şi rural)
- pe ţara de naştere
- ţara rezidenţei anterioare
- după cetăţenie
- după ţară de provenienţă.

Stocul de emigranţi se estimează la nivel de localitate şi se sintetizează în profil teritorial - la nivel de


judeţ, regiune, ţară, prin metoda bottom-up.
Valorile astfel estimate se structurează după următoarele caracteristici:
- pe sexe (total, masculin şi feminin)
- pe vârste (de la 0 la 100 ani şi peste) şi pe grupe de vârstă cincinale (0-4 ani, 5-9 ani, 10-14
ani, ..... 90-94 ani, 95-99 ani, 100 ani şi peste)
- medii de rezidenţă (urban şi rural).
Structurile pe sexe şi vârste au fost obţinute din datele de flux privind emigraţia, furnizate de oficiile
naţionale de statistică din Italia şi Spania.

12
2.7 Perioade/momente de referinţă
Pentru stocul de imigranţi
Momentul de referinţă pentru care se calculează stocul de imigranţi este 1 ianuarie, anul t; calculul se
realizează pe baza datelor obţinute din surse administrative şi a statisticilor în oglindă.
Pentru stocul de emigranţi
Momentul de referinţă pentru care se estimează stocul de emigranţi este 1 ianuarie, anul t.
Pentru fluxul de imigranţi
Perioada de referinţă pentru care se determină fluxul de imigranţi este anul t-1;
Pentru fluxul de emigranţi
Perioada de referinţă pentru fluxul de emigranţi este anul t-1.

2.8 Periodicitatea de estimare


Periodicitatea de estimare a migraţiei internaţionale se realizează cu periodicitate anuală (la 1
ianuarie, anul t).

2.9 Disponibilitatea datelor


Datele privind stocul de emigranţi la momentul 1 ianuarie anul t sunt disponibile începând cu a doua
jumătate a lunii august.

2.10 Personalul implicat


La nivel central (INS), compartimentul de statistica mobilităţii populaţiei şi migraţiei, din cadrul Direcţiei
de calcul a indicatorilor privind populaţia şi migraţia externă, Direcţia generală de demografie şi
statistică socială, asigură coordonarea activităţilor de proiectare a metodologiei, prelucrare, analiză şi
pregătire a rezultatelor finale pentru diseminare.
La nivelul surselor administrative de date, IGI şi DEPABD sunt instituţiile implicate în procesul de
culegere, validare şi transmitere a datelor.

2.11 Software statistic


Pentru estimarea numărului de emigranţi se utilizează pachetul JoSAE din R, care calculează
parametrii modelului la nivelul domeniului. Abordarea area level se impune atunci când datele din RPL
sunt grupate pe localităţi (nu se utilizează datele individuale).
Software-ul R este în prezent unul din cele mai populare instrumente de analiza a datelor, dezvoltat
continuu de comunitatea ştiinţifică internaţională. Deoarece este open source, R poate fi instalat pe
orice calculator, fără a fi nevoie de licenţă.
Pachetul software R prezintă avantajele specifice unui sistem open source: costurile reduse (costurile
sunt generate numai de instruirea personalului care îl utilizează), uşurinţa personalizării, dar şi a
utilizării pachetelor de programe; suportul tehnic asigurat prin existenţa unei mari comunităţi de
utilizatori şi a unor bloguri specifice; up-grade continuu.
Popularitatea lui R a crescut în ultimii ani, iar trendul este în favoarea sa, putându-se estima că în
circa trei ani va depăşi numărul de utilizatori ai SAS şi SPSS. În ceea ce priveşte numărul de utilizatori
de aplicaţii pentru analiză statistică, data mining şi software pentru baze de date mari, pentru perioada
de mai 2010-mai 2012, R s-a situat pe primul loc cu peste 30% din numărul de respondenţi.

Condiţii de utilizare a surselor de date: Pentru ca datele din cele două fişiere utilizate în
metodologia de estimare a stocului de emigranţi să poată fi utilizate la calculul estimatorilor, prin
tehnicile de estimare pe domenii mici, utilizând pachetele de programe R 3, acestea trebuie să fie de tip
txt, csv, dbf, spss, xport sas
.
3
O prezentare detaliata a setului de pachete si a soft-ului R este conţinută în acest document, într-o secţiune
specială

13
3 Prezentarea şi utilizarea rezultatelor metodologiei

3.1 Principalii indicatori rezultaţi


Pe baza estimării numărului de emigranţi şi imigranţi se produc următorii indicatori absoluţi şi relativi:
Emigranţi
- fluxul de emigranţi pe judeţe, sexe, grupe de vârstă, ţări de cetăţenie, de naştere şi de destinaţie, în
anul t-1
- stocul de emigranţi pe judeţe, sexe şi grupe de vârstă, ţări de cetăţenie, de naştere şi de destinaţie,
în anul t-1
Imigranţi
- fluxul de imigranţi pe judeţe, sexe, grupe de vârstă, ţări de cetăţenie, de naştere şi de provenienţă, în
anul t-1
- stocul de imigranţi pe judeţe, sexe, grupe de vârstă, ţări de cetăţenie, de naştere şi de provenienţă,
în anul t-1

3.2 Mijloace de diseminare a rezultatelor


Diseminarea rezultatelor se realizează prin intermediul:
 Publicaţiei anuale „Migraţia internaţională în anul ........”
 Baze de date online TEMPO şi BDJ;
 Anuarului Statistic al României;
 Anuarului Demografic al României (o dată la 5 ani);
 Altor publicaţii de sinteză;
 Baza de date New Cronos a Eurostat.

4 Evaluarea calităţii datelor estimate – analiza diagnostic


Un interes special se acordă diagnozei modelelor econometrice aplicate pentru estimarea stocului de
emigranţi. În primul rând, se examinează sursele generatoare de erori cu impact asupra rezultatelor
obţinute prin estimarea bazată pe tehnicile pe domenii mici. Există, în principal, trei tipuri de erori: erori
de selecţie/eşantionare, erori induse de disponibilitatea datelor privind variabilele auxiliare şi erori
generate de model.
Cu toate acestea, se are în vedere faptul că, indiferent cât de potrivit realităţii ar fi un model
econometric, estimaţiile obţinute sunt probabilistice, şi nu pot garanta în totalitate adevăratele valori ce
ar putea fi obţinute în cazul în care ar fi posibilă observarea exhaustivă.
Analiza diagnostic privind evaluarea calităţii estimaţiilor se realizează din perspectiva preciziei şi
acurateţii valorilor acestora pentru domeniile mici considerate. În practică, acest criteriu de calitate
poate fi verificat pe baza unor indicatori de bonitate, care reflectă adecvarea/potrivirea cea mai bună a
modelului econometric utilizat, dintr-o varietate mai largă de modele aplicate (goodness of fit).
Alegerea modelului este de cele mai multe ori subiectivă, succesul rezultatelor obţinute depinzând, în
mare măsură, de experienţa statistică, de modul de interpretare a rezultatelor şi de explicarea
acestora utilizatorilor/beneficiarilor de rezultate.
Primele rezultate obţinute pe baza modelelor econometrice reprezintă, de fapt, „primul pas” în
demersul modelării econometrice. Vizualizarea rezultatelor, interpretarea şi analiza statistică a
acestora creează premisele îmbunătăţirii modelelor aplicate şi a reluării procedeelor tehnice de
estimare.

14
În cazul estimării stocului de emigranţi, utilizând tehnicile de estimare pe domenii mici, principalii
indicatori pentru diagnoză sunt generaţi implicit de pachetele de programe utilizate în softul R. De
exemplu, în cazul modelelor de regresie liniară se utilizează pachetul nlme care încorporează funcţia
lm (linear model), care returnează coeficienţii de regresie, abaterile standard, testele Student şi Fisher,
raportul de determinare/ raportul de determinare ajustat, precum şi probabilităţile pentru care
coeficienţii prezintă semnificaţie statistică.
De exemplu, verificarea dependenţei variabilei de interes de variabilele explicative mediu_u (mediul
urban) şi edu_sup (nivel superior de educaţie), pe baza analizei de regresie, se prezeintă astfel:

lm(formula = absent ~ mediu_u + edu_sup, data = amigo)

Residuals:
Min 1Q Median 3Q Max
-0.03409 -0.02919 -0.02919 -0.02919 0.97413

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0258667 0.0011554 22.388 < 2e-16 ***
mediu_u 0.0049005 0.0009432 5.196 2.04e-07 ***
edu_sup 0.0033215 0.0011735 2.830 0.00465 **

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1693 on 319260 degrees of freedom


Multiple R-squared: 9.478e-05, Adjusted R-squared: 8.852e-05
F-statistic: 15.13 on 2 and 319260 DF, p-value: 2.685e-07

În cazul modelelor de regresie liniară cu efect mixt (fix, respectiv aleatoriu), se utilizează funcţia lme
(Linear mixed-effect model) din acelaşi pachet de programe nlme:

> summary(fit.lme <- lme(absent~male+edu_med+stciv1+activ5+gr_2+gr_3+gr_4, data = amigo,


random = ~1 | siruta))
Coeficienţii de regresie sunt calculaţi prin metoda verosimilităţii maxime – Restricted Maximum
Likelihood (REML).

Un sumar al rezultatelor obţinute prezintă patru părţi distincte:


1. Prima parte arată criteriile AIC (Akaike Information Criterion) şi BIC (Bayesian Information Criterion)
care pot fi utilizate la selectarea modelului (de exemplu, pentru două modele diferite, un AIC mai mic
înseamnă un model mai bun).
Linear mixed-effects model fit by REML
Data: amigo
AIC BIC logLik
-292391.1 -292283.2 146205.5

2. A doua secţiune arată valorile estimate ale dispersiei parametrilor – efectul aleator
Random effects:
Formula: ~1 | siruta
(Intercept) Residual
StdDev: 0.03553469 0.1597396

3. Cea de a treia secţiune arată valorile estimate ale parametrilor, abaterile standard, testul de
semnificaţie t-student şi matricea de corelaţie – pentru parametrii ce caracterizează efectul fix al
regresiei.
Fixed effects: absent ~ male + edu_med + stciv1 + activ5 + gr_2 + gr_3 + gr_4
Value Std.Error DF t-value p-value
(Intercept) -0.03105490 0.0010122428 354700 -30.67930 0
male 0.04445725 0.0005494817 354700 80.90761 0
edu_med 0.01597215 0.0007218074 354700 22.12800 0
stciv1 -0.03081740 0.0007501458 354700 -41.08188 0
activ5 0.22162357 0.0007598208 354700 291.67874 0
gr_2 0.07502186 0.0009663739 354700 77.63233 0
gr_3 0.06380512 0.0008223932 354700 77.58469 0
gr_4 0.02735998 0.0006712515 354700 40.75966 0
Correlation:
(Intr) male edu_md stciv1 activ5 gr_2 gr_3
male -0.164
edu_med -0.015 0.036
stciv1 -0.428 -0.182 -0.038
activ5 -0.062 0.143 0.042 -0.159

15
gr_2 -0.095 -0.013 -0.176 -0.222 -0.005
gr_3 -0.124 -0.015 -0.243 -0.221 -0.055 0.376
gr_4 -0.224 -0.014 -0.203 -0.154 0.025 0.410 0.481

4. Ultima secţiune a rezultatelor produse de funcţia lme cuprinde statistica descriptivă a valorilor
reziduale, numărul de observaţii şi numărul de grupuri/domenii mici.
Standardized Within-Group Residuals:
Min Q1 Med Q3 Max
-2.52643843 -0.31222621 -0.01730281 0.20327538 6.88577989

Number of Observations: 357894


Number of Groups: 3187

Rezultatele modelului sunt generate prin intermediul unei funcţii caracteristice tehnicilor de estimare
pe domenii mici (wrap):
> result <- eblup.mse.f.wrap(domain.data = d.data, lme.obj = fit.lme)

Funcţia wrap returnează un rezultat cu o serie de caracteristici pentru fiecare domeniu:


 Valoarea estimată a variabilelor auxiliare/predictorilor, pe domenii, obţinute din rpl;
 Mediile predictorilor, pe domenii, obţinute din amigo;
 Numărul de observaţii din fiecare localitate (n.i.sample)
 Media variabilei reziduale, pe domenii, generată de regresia liniară - lm
 Media variabilei reziduale, generată de regresia liniară generalizată (linear mixed
effects)
 Valoarea estimată a variabilei de interes, pe domenii, calculată pe baza estimatorul
synthetic (synth), EBLUP, GREG
 Valoarea parametrului  d , pe domenii (gamma i )
 Dispersia variabilei de interes pentru fiecare domeniu/grup/localitate si dispersia
estimatorului GREG
 componentele dispersiei estimatorului EBLUP (c1-c3star)
 rezultatele celor două metode (cf. Rao 2003) de calcul a dispersiei estimatorului
EBLUP4 (EBLUP.var.1, EBLUP.var.2):

EBLUP. var .1  c1  c 2  2  c 3star


EBLUP. var .2  c 1  c 2  c 3 star
Valoarea estimată a mediei patratelor erorilor de predicţie (MSE) pentru EBLUP este următoarea:
MSE( ŶdEBLUP )  E( ŶdEBLUP  Yd )2  g1d (ˆ u2 )  g2d ( 
ˆ u2 )  2g3 d ( 
ˆ u2 )
unde:
ˆ u2 ˆ 2e
g1d (ˆ u2 )    area
d  ˆ 2e (prima componentă a dispersiei - c1)
ˆ u2  ˆ 2e
1
 D 
ˆ u2 )  (1   area
g2d ( d )2  
 d 1
x d x Td /( 
ˆ u2  
ˆ 2e )

x d (a doua componentă a dispersiei – c2)

ˆ u2 )  (ˆ u2  ˆ 2e ) 3 V(ˆ u2 ) (a treia componentă a dispersiei – c3 star)


g3 d ( 
unde
V( ˆ u2 ) - reprezintă matricea varianţei valorilor reziduale datorate efectului aleator- ̂u2 .
 abaterile standard (rădăcina pătrată din dispersii) calculate prin cele două metode:
EBLUP.se.1=sqrt(EBLUP.var.1)
EBLUP.se.2=sqrt(EBLUP.var.2).

Rezultatele funcţiei wrap, conţinând valorile estimate ale stocului de emigranţi (variabilei de interes),
pe domenii mici (localităţi, conform nomenclatorului SIRUTA), sunt: EBLUP, GREG şi estimatorul
synthetic (Synth):

4
: http://cran.r-project.org/web/packages/JoSAE/JoSAE.pdf

16
siruta EBLUP GREG Synth
1017 2240.621545 2330.247528 2330.245356
1071 87.099404 91.494869 91.522468
1151 175.305845 182.803920 182.795064
1213 807.987475 842.171177 842.202653
1348 718.272516 748.773106 748.801460
1455 239.127347 249.328029 249.342019

gamma.i c1 c2 c3 c3star EBLUP.var.1 EBLUP.var.2 GREG.se EBLUP.se.1 EBLUP.se.2

0.99937 0.01645 1.11E+1 4.98E- 3.42E- 1.11E+10 1.11E+10 1.51E-16 105273.8 105273.8
5 9 0 07 08
0.99948 0.01367 1.63E+1 3.44E- 2.36E- 1.63E+10 1.63E+10 0 127494.5 127494.5
1 5 0 07 08
0.99960 0.01033 3.09E+1 1.97E- 1.35E- 3.09E+10 3.09E+10 0 175822.5 175822.5
7 7 0 07 08
0.99955 0.01169 3.88E+1 2.52E- 1.73E- 3.88E+10 3.88E+10 0 197009.5 197009.5
6 6 0 07 08
0.99959 0.01071 2.69E+1 2.11E- 1.45E- 2.69E+10 2.69E+10 0 163872.2 163872.2
3 0 07 08

siruta sample.var.mean GREG.var.mean

1017 0 2.28E-32
1071 0 0
1151 0 0
1213 0 0
1348 0 0

Analiza variaţiei - pe baza rezultatelor returnate de funcţia wrap au fost calculaţi coeficienţii de variaţie
ai estimaţiilor pentru fiecare domeniu considerat mic, adică pentru fiecare localitate, conform SIRUTA.
Pe localităţi, valorile coeficienţilor de variaţie sunt cuprinse între 3-40%. Deoarece există variaţii relativ
mari pentru unele localităţi (coeficienţi de variaţie mai mari de 15%), estimaţiile privind stocul de
emigranţi la nivelul de detaliere NUTS 5 (pe localităţi) nu îndeplinesc criteriul de acurateţe.
Pe judeţe, valorile coeficienţilor de variaţie sunt cuprinse între 1-4%, ceea ce corespunde unei variaţii
mici a estimaţiilor privind stocul de emigranţi.

Diagnoza deplasării estimatorilor – se bazează pe vizualizarea curbei de regresie dintre valorile


estimate ale variabilei de interes, pe baza mai multor modele care utilizează aceleaşi variabile
explicative. Dreapta de regresie trebuie să fie la 45 grade faţă de axa OX.

Ŷdmod elA  a  bŶdmod elB

Deasemenea, coeficienţii de regresie (a şi b) trebuie să nu fie semnificativ diferiţi de 0 pentru termenul


liber, respectiv de 1 pentru coeficientul de regresie.
Pentru exemplul ilustrat, s-au calculat coeficienţii de regresie, astfel:

17
lm(formula = y ~ GREG, data = MergedDataset)

Residuals:
Min 1Q Median 3Q Max
-2554.0 -469.4 -457.0 -84.1 10552.6

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 447.00168 20.19130 22.138 < 2e-16 ***
GREG 0.07433 0.01129 6.582 5.4e-11 ***

lm(formula = y ~ Synth, data = MergedDataset)

Residuals:
Min 1Q Median 3Q Max
-2553.8 -469.4 -457.0 -84.2 10552.7

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 447.00582 20.19127 22.139 < 2e-16 ***
Synth 0.07433 0.01129 6.582 5.41e-11 ***

lm(formula = y ~ EBLUP, data = MergedDataset)

Residuals:
Min 1Q Median 3Q Max
-2553.1 -469.3 -457.1 -84.2 10552.8

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 447.17072 20.18476 22.154 < 2e-16 ***
EBLUP 0.07289 0.01108 6.578 5.54e-11 ***

GREG Synth EBLUP


Intercept (a) 447.00168 447.00582 447.17072
(< 2e-16 ***) (< 2e-16 ***) (< 2e-16 ***)
Coefficient (b) 0.07433 0.07433 0.07289
(5.4e-11 ***) (5.41e-11 ***) (5.54e-11 ***)
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5 Limitări
Având în vedere complexitatea metodologică a modelelor de estimare pe domenii mici, este de
aşteptat ca procesul de punere în aplicare să ia timp şi să prezinte o serie de dificultăţi.
1. Principalele dificultăţi derivă din faptul eşantionul amigo (singura sursă cu periodicitate anuală care
asigură informaţii privind variabila de interes: numărul de emigranţi pentru o perioadă de cel puţin 12
luni) nu a fost conceput pentru a estima cu rigurozitate migraţia internaţională. Mai mult decât atât,
eşantionul nu acoperă integral toate localităţile din România (aproximativ o pătrime).
2. Un al doilea set de dificultăţi sunt generate de aplicarea modelelor econometrice, pe baza cărora se
estimează migraţia în anumite intervale de încredere. Mai mult decât atât, modelele de estimare pe
domenii mici utilizează date din surse diferite, implicând un număr mare de etape de estimare, ceea
ce ar putea conduce la deplasarea estimatorilor (bias). Rao5 consideră că: “datele rezultate din
utilizarea metodelor de estimare pe domenii mici trebuie privită cu precauţie, în special atunci cand
dimensiunea eşantionului este redusă”.
3. Alte limite în aplicarea modelelor de estimare sunt legate de disponibilitatea datelor. De exemplu,
un factor important cu consecinţe directe asupra fenomenului migraţiei internaţionale este diferenţa de
bunăstare economică între ţările de destinaţie şi de origine. Cunoaşterea unor variabile care să
cuantifice bunăstarea economică a individului, cum ar fi venitul, ar putea conduce la creşterea gradului
de semnificaţie a estimărilor. De precizat că variabila trebuie să fie disponibilă în ambele surse de date
(amigo, respectiv rpl).

5
Rao, J.N.K., Sinha, S.K., Robust Small area Estimation under Unit Level Models, 2008

18
4. Detalierea variabilelor pe niveluri de dezagregare nu este posibil de estimat, decât prin adâncirea
procedurilor de estimare pe domenii mici (presupune segregarea eşantionului, în consecinţă
diminuarea lui, în funcţie de variabila de interes).
Valorile estimatorilor trebuie analizate sub rezerva erorilor induse de estimare. Este cunoscut faptul că
ideea de estimare atrage după sine suspiciuni cu privire la exactitatea rezultatelor şi implicit sugerează
existenţa unor potenţiale erori provenite din diferenţa între valorile estimate/teoretice şi cele
reale/efective.

19
Bibliografie

 Battese, G. E., Harter, R. M. & Fuller, W. A. (1988), An error-components model for prediction of
county crop areas using survey and satellite data Journal of the American Statistical Association,
83, 28-36
 Breidenbach, J. and Astrup, R. (submitted 2011), Small area estimation of forest attributes in the
Norwegian National Forest Inventory. European Journal of Forest Research.
 C.-E. S¨arndal, B. Swensson, and J. Wretman. Model Assisted Survey Sampling.Springer-Verlag
Inc., New York, 1992.
 Caragea, N., Alexandru, C. A., Dobre, A.M. (2012) Bringing New Opportunities to Develop
Statistical Software and Data Analysis Tools in Romania, The Proceedings of the VIth
International Conference on Globalization and Higher Education in Economics and Business
Administration, ISBN: 978-973-703-766-4
 Caragea, N., Dobre, A.M., Alexandru, C. A. (2013) Profile of Migrants in Romania – a Statistical
Analysis Using R, Conferinţa internaţională EUB-2013: Ecologia secolului XXI – provocări şi
perspective, Secţiunea Economics and Business Administration, Workshop „State-of-the-art
statistical software commonly used in applied economics”, Universitatea Ecologică, Bucureşti
 Dobre, A.M., Caragea, N., Alexandru, C. A. (2013) ”R versus Other Statistical Software”, Ovidius
University Annals, Vol. XIII, issue1, Ovidius University Press, 2013, ISSN: 1582 – 9383
 Dobre, A.M., Gagiu, A. (2013) Manipulation of Large Databases with R, Conferinţa internaţională
EUB-2013: Ecologia secolului XXI – provocări şi perspective, Secţiunea Economics and Business
Administration, Workshop „State-of-the-art statistical software commonly used in applied
economics”, Universitatea Ecologică, Bucureşti
 Gomez-Rubio (2008), Tutorial on small area estimation, UseR conference 2008, August 12-14,
Technische Universitat Dortmund, Germany.
 Michele D’Al ´o, Loredana Di Consiglio, Stefano Falorsi, Fabrizio Solari, Course on Small Area
Estimation, ESSnet Project on SAE, Small area estimation
 Rao, J.N.K. (2003), Small area estimation.
 Rao, J.N.K., Sinha, S.K., Robust Small area Estimation under Unit Level Models, 2008
 Sarndal, C. (1984), Design-consistent versus model-dependent estimation for small domains
Journal of the American Statistical Association, JSTOR, 624-631
 Schoch, T. (2011), rsae: Robust Small Area Estimation. R package version 0.1-3.
 Vergil. V., Caragea, N., Pisica, S. (2013) Estimating International Migration on the Base of Small
Area Techniques, Journal of Economic Computation and Economic Cybernetics Studies and
Research, Bucharest, issue no.3/2013, Format: online ISSN 1842 – 3264, Format: print ISSN
0424 – 267 X, link: http://www.ecocyb.ase.ro/nr.3.pdf/Voineagu%20Vergil.pdf

20

S-ar putea să vă placă și