Sunteți pe pagina 1din 51

Modelarea spațiului

• Modelarea dependenței spațiale necesită o reprezentare


corespunzătoare a amplasării spațiale prin matrici de
ponderi spațiale (W).
• Ponderile spațiale – definesc interacțiunea fiecărei
unități teritoriale cu vecinii ei; numărul maxim de
interacțiuni posibile: n(n-1)/2.
• Întrucât nu putem estima toate aceste relații spațiale,
introducem o anumită structură în analiza legăturilor:
doar ”vecinii” interacționează.
• Restrângem numărul de vecini pentru a simplifica
estimarea.
Modele de regresie spațială
• Înainte de a rula un model cu variabile spaţiale trebuie
verificată existenţa influenţei spaţiale =>
Statistica Moran’s I pentru testarea dependenţei
spaţiale (autocorelaţie spaţială).

• Dependenţa spatială conduce la erori de specificare în


modelele clasice de regresie liniară: ipoteza
independenţei erorilor corespunzătoare regiunilor
învecinate este încălcată.

• Soluţia: încorporarea explicită în modelul de regresie a


unei variabile spaţiale (eroare spaţială sau lag spaţial).
Prin înmulţirea matricei ponderilor spațiale W de
dimensiune n x n cu vectorul n x 1 al valorilor regionale ale
variabilei y se obţine vectorul n x 1 conţinând lagul spaţial
pentru fiecare observaţie i (i=1,...,n).

Forma matricială a procesului autoregresiv spaţial


este:
y = ρWy + e

• Wy - lagul spaţial al variabilei y (influența vecinilor)


• Parametrul ρ exprimă intensitatea dependenţei spaţiale în
eşantionul de observaţii analizat.
• e - erorile
Regresie spațială - varianta I. SPATIAL LAG MODEL - dependența
spatială este inclusă printr-un lag spatial Wy al variabilei
endogene y.
y=ρWy +βX + e

Lagrange Multiplier test pentru lag spațial (LM-lag)


H0: ρ = 0 => y = βX + e (=> este potrivită regresia clasică)
H1: ρ ≠ 0
Statistica:

Decizia: LMℓ > χ2(1;1-α) => respingem H0 (regresia clasică)


Regresie spațială - varianta II. SPATIAL ERROR MODEL -
dependența spatială din modelul de regresie este reflectată in
erori, prin lagul spatial We al erorilor:
y = Xβ + e
e = λWe + ν

Lagrange Multiplier test pentru eroarea spatială (LM-error)


H0: λ = 0 (nu există dependență spațială).
H1: λ ≠0.
Statistica testului:

are distributie χ2 (hi-patrat) cu 1 grad de libertate.

Decizia: LMe > χ2(1;1-α) => resping H0 (regresia clasică)


Etapele estimării modelelor spațiale

• Estimați OLS (modelul clasic) OUTPUT

– Moran’s I for errors mai mic de 0.05 indică


respingerea modelului clasic (OLS).
– Statistica LM Error sau LM Lag mai semnificativă
(prob mai mică) indică modelul spațial cel mai
potrivit; verificați cu diferite tipuri de matrici de
ponderare spațială;

• Rulați modelul potrivit variantei mai bune (spatial-


error sau spatial-Lag).
APLICAȚIE ÎN GEODA: regresii spațiale

Inițierea unei noi sesiuni de lucru


Se activeaza GeoDa (cu dublu clic pe shortcut)
Se selecteaza fisierul judete.shp de pe desktop și se mută în casuța
”Drop files here”.
Deschidem tabelul (care deocamdată nu
conține date).
2. Importăm datele (variabilele modelului) din fișierul Excel ”Date
regresie”: Table – Merge Table Data => se deschide o fereastră de
dialog:

Selectăm fișierul
Excel din care
importăm
variabilele.
Includem toate
variabilele din
fiș. Excel

Selectăm cheia de
identificare (denumire județ)
după care vor fuziona tabelele.
Denumirea ei în fișierul
destinație .shp (JUDET) trebuie
să fie diferită de denumirea din
fișierul-sursă .xls (jud).
Mesajul de confirmare:

Datele importate sunt acum în tabel.


Modelul de regresie:
- Variabila dependentă: salariul mediu anual (lei)
- Variabile explicative: PIB/loc. (lei), rata șomajului (%), ISD (mii
euro).

În prealabil trebuie să definim o matrice a ponderilor spațiale


(pentru a identifica vecinii).

Activăm butonul W (weights) din meniul principal.


Creăm o matrice binară Queen, doar cu vecinii alăturați (vecini de
ordinul 1) deoarece avem puține unități teritoriale.
Salvăm matricea cu denumirea ”Judete.gal” în folderul ”judete”:
În meniul principal
selectăm Regression

Se deschide o fereastră de
dialog: selectăm salariul ca
variabila dependentă și
restul ca variabile
explicative (covariates).
I. Rulăm întâi modelul
clasic de regresie.
Bifăm totuși Weights
file (activează matricea
ponderilor spațiale
Judete.gal) pentru a
obține statisticile
spațiale (necesare
pentru a alege modelul
potrivit: regresia clasică
sau cea spațială).
Alegem tipul de model
(Classic) și statisticile
dorite, Run.
OUTPUT
Variabilele
rata_somaj și ISD nu
sunt semnificative
statistic => le vom
elimina.

Deși există dependență


spațială (prob Moran=
0.05), nici un tip de
model spațial nu este
validat (prob LM >
0.05) => probleme de
specificare a
modelului.
Butonul Reset inițializează estimarea unui nou model.
Rulăm din nou modelul clasic, fără variabilele nesemnificative.
Unica variabilă explicativă este acum PIB_loc.
• Noul model OLS este
validat de testele
statistice standard:
• R2 mare, prob F
aproape nulă, nu
respingem ipotezele de
homoscedasticitate și
repartie normală a
erorilor.

• Totuși modelul clasic nu


e valid deoarece există
dependență spațială
(vezi prob Moran).

• Modelul cu erori
spațiale este indicat de
testul LM ca fiind cel
mai potrivit.
Statistici tradiționale:
• R2 și R2 ajustat
• suma pătratelor reziduurilor (sum of squared residuals)
• varianța reziduurilor și estimarea erorii standard, în două
variante:
- cu ajustarea pentru pierderea de grade de libertate
(Sigma-square and S.E. of regression)
- fără ajustare (Sigma-square ML și S.E. of regression
ML)
Statistici pentru comparabilitatea cu modelele de
regresie spațială:
• log likelihood (cu cât mai mare, cu atât modelul este mai
bun)
• criteriul Akaike și criteriul Schwarz (cu cât sunt mai mici, cu
atât se potrivește mai bine modelul).
Valorile estimate (OLS_PREDIC) și reziduurile (OLS_RESIDU)
modelului clasic de regresie pot fi salvate în tabelul de date,

apoi se pot folosi pentru a construi hărți => inspecția vizuală a


modelelor.
Hărțile valorilor estimate sunt ajustate (”netezite”) în sensul că
variabilitatea aleatoare, datorită altor factori decât cei incluși în
model, a fost eliminată.

Hărți ale reziduurilor


Cea mai utilă este ”standard deviational map”:
- zone largi de suprapredicție (reziduuri negative sau tonuri
albastre) și subpredicție (reziduuri pozitive sau tonuri maro) =>
prezența autocorelației spațiale (necesită și un test formal).
- magnitudinea reziduurilor, în special a celor mai mari decât
două abateri standard indică lipsa unor regresori semnificativi.
II. Rulăm modelul cu erori spațiale
(Spatial Error). Statisticile arată că
este mai bun decât cel clasic: Log
likelihood mai mare, Akaike și
Schwarz mai mici, Likelihood Ratio
test semnificativ (prob<0.05).

Și R2 (pseudo-R2) este
mai mare, dar nu este
direct comparabil cu cel
pentru OLS.
Salvam valorile teoretice si reziduurile modelului (cu butonul Save to
Table)

ERR_PREDIC = estimarea
pentru variabila dependentă y
ERR_RESIDU = reziduurile
modelului (estimările pentru
termenul eroare) folosite
pentru testele standard
ERR_PRDERR = eroarea de
predicție (diferența dintre
valoarea reală și cea estimată);
reziduurile estimate spațial

ERR = tipul modelului (error)


Diagrama Moran pentru reziduuri: Space – Univariate Moran’s I –
selectie variabila.

Modelul spațial a eliminat


autocorelația spațială a Erorile de predicție (erorile
reziduurilor (prin includerea transformate spațial) sunt
acesteia ca variabilă explicativă = corelate spațial prin definiție.
lagul erorilor).
Interpretarea economică a rezultatelor:

• salariul mediu la nivel de județ depinde de variabila


explicativă PIB/loc (nivelul de dezvoltare, bogația), dar
depinde și de salariile medii practicate în județele
învecinate (cel mai probabil datorită mobilității forței de
muncă, fie definitiv –prin schimbarea domiciliului, fie prin
navetism).
• contrar teoriei economice, șomajul nu exercită o presiune
semnificativă asupra salariului mediu (datorită nivelului
relativ redus al șomajului în România, rezultat al emigrației
externe masive).
• contrar așteptărilor, investițiile străine directe nu au nici o
influență asupra variației teritoriale a salariilor.
Cum alegem modelul potrivit?
1. Testele standard pentru modelul clasic de regresie (R2 mare,
prob F < 0.05, prob JB > 0.05, prob White > 0.05,
multicollinearity condition number < 30, regresori
semnificativi etc.)
2. Moran’s I test for errors < 0.05 => respingem ipoteza nulă a
repartiției spatiale aleatoare => există autocorelație spatială
a erorilor, deci respingem OLS (modelul clasic)
3. Testele bazate pe Lagrange Multiplier (LM) arată care este
cea mai bună alternativă la OLS:
- Proces autoregresiv (spatial lag) când LM-lag < 0.05
- Modelul cu erori spațiale (spatial error) când LM-error <
0.05
- Dacă LM-lag < 0.05 și LM-error < 0.05, comparăm
variantele lor robuste și alegem modelul cu cel mai mic
Robust LM.
Criterii suplimentare

Este mai bun modelul cu:


• Valoarea mai mare a log-likelihood
• Valoarea mai mică pentru Akaike information criterion
(AIC) și Schwarz criterion (SC)
• Likelihood Ratio Test mai mic. Likelihood Ratio Test
compară OLS cu modelul spațial. Prob asociată cea mai
mică (obligatoriu sub 0.05) indică faptul că modelul spațial
este mai bun decât cel clasic.
Modelul gravitațional spațial
• Modelul gravitațional este un model de regresie utilizat inițial pentru
estimarea fluxurilor comerciale dintre țări.
• inspirat de legea gravitațională a lui Newton care arată că atracția
gravitațională între două obiecte este direct proporțională cu masele
lor și invers proporțională cu distanța dintre ele.

Yi Y j
FCij  G 
Dij
unde FCij - valoarea fluxurilor comerciale din țara (i) către țările de
destinație (j);
Yi și Yj sunt dimensiunile economiilor celor două țări (de obicei,
măsurate ca produsul intern brut - PIB, sau PIB-ul pe cap de locuitor),
Dij - distanța geografică dintre țări,
G - o constantă gravitațională.
Pentru a facilita estimările econometrice, se logaritmează ecuația
gravitațională, rezultând o relație liniară:

ln FCij = ln G + α ln Yi +β ln Yj –δ ln Dij + eij

unde ln G corespunde interceptului, iar α, β și δ sunt elasticități.

Exporturile din țara i către țara j depind de trei factori:


- potențialul (oferta) de export din țara i: o funcție pozitivă de nivelul
veniturilor țării exportatoare;
- cererea potențială de import din țara j: o funcție pozitivă a veniturilor
țării importatoare;
- barierele comerciale: o funcție negativă a costurilor comerciale, a
costurilor de transport (proporționale cu distanța dintre țări) și a
tarifelor.
Ipotezele modelului:

-Dimensiunea economică (PIB) mai mare marește comerțul bilateral


(țările mari schimbă mai mult între ele).

-Comerțul crește atunci când partenerii sunt mai aproape din punct
de vedere geografic.

-Există o relație pozitivă între diferențele de venit pe cap de locuitor


și comerțul bilateral (cu cât țările sunt mai diferite între ele,
prezentând un avantaj comparativ factorial, cu atât schimburile
cresc).
Modelul gravitațional extins:

ln FCij = ln G + α ln Yi +β ln Yj –δ ln Dij + ρ (Yi/Li) + η (Yj/Lj) +


φ Aij + eij

• Yi și Yj sunt PIB-ul țării i și respectiv j,


• (Yi / Li) și (Yj / Lj) - PIB-ul pe cap de locuitor al țării i și respectiv j; (altă
variantă: DEij = diferența dintre PIB-ul/ locuitor al țarii i si PIB-
ul/locuitor al țarii j în anul t → reflectă distanța economică dintre
parteneri)
• Dij - distanța geografică dintre centrele economice ale celor doi
parteneri (proxy pentru costurile de transport),
• Aij - alte variabile: factori favorabili (existența acordurilor comerciale
între cele două țări, limbaj comun și legături istorice) sau nefavorabili
(barierele în calea comerțului), variabilele de preferințe (cerere
pentru bunuri de lux față de bunuri de necesitate), variabilele de
înzestrare etc.
Modelul gravitațional spațial

Modelul cu lag spațial


ln FCij = ln G + ρW ln FCij + α ln Yi +β ln Yj –δ ln Dij +ω(Yi/Li) +
+ η (Yj/Lj) + φ Aij + eij

unde ρW ln FCij – lagul spațial (reflectă influența comerțului exterior din


țările/regiunile învecinate).

Modelul cu erori spațiale


ln FCij = ln G +α ln Yi +β ln Yj –δ ln Dij +ω(Yi/Li) + η (Yj/Lj) + φ Aij
+ eij eij = λW eij +vij
unde λW eij – lagul spațial al erorilor: reflectă influența altor factori
(neincluși în model) în țările/regiunile învecinate.
Exemplul 2. Model gravitațional pentru investițiile străine directe
-ISD se explică prin dimensiunea țărilor de origine și gazdă și distanța
geografică dintre ele.
-Rezultatele empirice sugerează că atunci când dimensiunea unei țări
este mare capacitatea sa de a investi în străinătate este mai ridicată.
-Pe de altă parte, în cazul în care dimensiunea țării gazdă este mare, ea
reprezintă o piață potențială și va atrage intrări ridicate de ISD.

Exemplul 3. Model gravitațional pentru migrație


Fluxurile migratorii depind de dimensiunea țărilor de origine și gazdă, de
distanța economică și distanța geografică dintre ele.

Exemplul 4. Model gravitațional pentru turism


Fluxurile de turiști depind de dimensiunea țărilor de origine și gazdă, de
venituri și de distanța geografică dintre ele.
Aplicația 1. Modelul gravitațional pentru exporturile
României în UE
Inițiem o nouă sesiune de lucru cu dublu clic pe fișierul proiect UE27.
NOTĂ explicativa
În prealabil (într-o altă sesiune de lucru) a fost creat un set de fișiere
spațiale pentru UE fără România. Intrucat in modelul gravitațional
folosim date privind exporturile României în celelalte țări ale UE,
avem nevoie doar de aceste țări în model (deci si in fișierele
spațiale).

Procedura de dezagregare a zonelor geografice (după cum a fost


descrisă în alt curs):

• Încărcăm UE.shp (include toate țările UE),


• Selectăm România (pe hartă, cu un simplu clic, sau în tabel, cu un
clic pe marginea din stânga a rândului corespunzător României),
• Table-Invert selection (pentru a selecta țările UE, mai puțin
România),
• File-Save selection as: tip fisier (shapefile), nume (UE27),
• Save.
Datele aplicației se află in fisierul Excel ”S9. Date modele gravitationale”;
valorile variabilelor sunt logaritmate și se referă la anul 2016.

lnExp (variabila dependenta)– valoarea exporturilor Romaniei catre tara j


(mii euro); lnPIB – PIB-ul țarii j (mil. euro); lnD - distanța rutiera (km)
dintre Bucuresti si capitala tarii j; lnPOP- populația (mii pers.).
Importul datelor din Excel:

Table – Merge – selecție


fișier sursă (S9. Date modele
gravitationale) – selecție
chei de identificare a țărilor
(codul alfabetic de 2 litere) –
selecție variabile de
importat din Excel (includem
doar variantele logaritmate
ale variabilelor) – clic Merge
– clic Close.
Pentru a rula modelul de regresie trebuie să încărcăm o matrice de
ponderi spațiale folosind Weights Manager: în meniul principal clic
W – Load – selectăm matricea Queen1.gal (care a fost corectată manual
pentru insule în cursul 4.Matrici spațiale; în plus, pentru această
aplicație România (RO) a fost eliminată din această matrice prin
ștergerea ei manuală în Notepad – vezi cursul 4) – OK
Clic Histogram – verificăm dacă toate
țările au vecini (condiție pentru
modelul de regresie spațială).
Rulăm întâi modelul clasic de regresie, cu matricea Queen1 activată
(pentru a obține diagnosticele de dependență spațială).

Variabila dependentă:
exporturile României în
țările UE.

Varianta 1: variabile
explicative: PIB-ul
țării importatoare și
distanța geografică
față de aceasta.
Regresorii sunt
semnificativi și
au semnul
așteptat
(conform teoriei
modelului
gravitațional).

Nu există
dependență
spațială. Modelul
clasic (OLS) este
preferabil.
Varianta 2: rulăm un
nou model în care
înlocuim PIB prin
populație (nu
includem ambele
variabile simultan în
model deoarece sunt
puternic corelate); și
variabila populație
este semnificativă și
are semnul așteptat.
Nici în acest model nu
există dependență
spațială. Modelul
clasic (OLS) este
preferabil.
Aplicația 2. Modelul gravitațional pentru numărul de
turiști din UE veniți în România

Datele sunt deja în fișierul


UE27.dbf.

Rulăm întâi un model clasic


(OLS), cu matricea Queen1
activată.

Variabilă dependentă:
lnTUR16 – numărul de
turiști în 2016.
Varianta 1: variabile
explicative: distanța
și PIB. Ambele sunt
semnificative și au
semnul așteptat.

Diagnosticele de
dependență spațială
recomandă modelul
cu lag spațial.
Output-ul modelului
cu lag spațial.

Acest model este mai


bun decât cel clasic:
Log likelihood mai
mare, Akaike și
Schwartz mai mici.
Variabila lag spațial
este semnificativă.

Likelihood Ratio
Test confirmă faptul
că modelul cu lag
spațial este mai bun
decât cel clasic:
prob. < 0.05.
Varianta 2: variabile
explicative: distanța și
populația. Toți regresorii
sunt semnificativi și au
semnul așteptat:
numărul turiștilor care
vin în România crește
odată cu mărimea
populației țării de origine
și scade odată cu distanța
față de aceasta.

Modelul cu erori
spațiale ar putea fi
adecvat pentru aceste
date, dar forma
robustă a testului nu
confirmă alegerea.
Output-ul modelului
cu erori spațiale
arată că este mai
bun decât cel clasic:
Log likelihood mai
mare, Akaike și
Schwartz mai mici,
iar Likelihood Ratio
Test are prob. < 0.05.

S-ar putea să vă placă și