Sunteți pe pagina 1din 39

Analiza spațială

exploratorie a datelor (1)


- Analiza spațială exploratorie a datelor (ESDA – Exploratory Spatial
Data Anaysis) studiază aspectele cantitative ale variaţiei teritoriale a
fenomenelor economico-sociale.

- ESDA folosește metode de analiză adaptate datelor spațiale:


• grafice și hărți pentru a vizualiza structura și neuniformitatea spațială
(distribuția spațială, outlieri, concentrare, clustere etc.)
• indicatori de autocorelație spațială
• metode pentru testarea semnificației legăturilor spațiale etc.
- Reprezentarea grafică specifică a datelor spațiale: serii
spațiale (hartă) vs. serii de timp (cronogramă).

• Tipologia spatială nu poate fi analizată doar cu


măsurile statistice standard, de ex. media si dispersia.
• Nici distributia de frecvente nu este suficienta pentru o
analiză corespunzătoare a caracteristicilor spatiale ale
unei variabile. Dacă permutăm aleator valorile locale
ale unei variabile, histograma ramane neschimbata =>
sunt necesare hărți.
GRAFICE si HĂRȚI în GeoDA: există numeroase opțiuni de explorare
grafică, unele fiind corelate (aceeași informație este prezentată atât
grafic cât si spațial).

GRAFICE - selectate din meniul


principal GeoDA –> Explore
sau cu iconițele din meniu (de ex.,
histograma):
HISTOGRAMA
- interpretarea vizuală a datelor numerice prin indicarea numărului
de observații (frecvența datelor) care se află într-un interval de
valori (clasă); fiecare clasă este descrisă prin utilizarea unei bare.
- reprezentarea funcției de densitate a variabilei, corespunzătoare
unei anumite grupări a datelor.

Geoda –> grupare


implicită în 7 intervale
de variație egale (7
coloane); este posibilă
schimbarea numărului
de grupe.
Opțiune suplimentară Display statistics-> statistici descriptive corespunzătoare
fiecărei grupe: limitele de interval (from-to), nr. observații, frecvența relativă (%
of total), abaterea standard (std from mean).

Statisticile descriptive pentru o


anumită grupă apar de asemenea sub
grafic atunci când cursorul este mutat
peste coloana corespunzătoare.
Aceasta funcționează chiar dacă
opțiunea Display statistics nu este
activată.
HARTA CU INTERVALE DE GRUPARE EGALE (EQUAL INTERVALS MAP) este echivalentul
spațial al histogramei. Se alege nr. de grupe (între 2 și 10) în funcție de numărul total de
unități teritoriale, marja de variație a variabilei și uniformitatea distribuției.

Ex. Existența outlierilor (Bucuresti si Ilfov) determină o grupare dezechilibrată după


salariu, deși nr. de grupe este mic.
Efectul măririi nr. de grupe este obținerea mai multor grupe cu
frecvență nulă.
Corespondența între histogramă și harta cu intervale de grupare egale
-> pentru aceleași nr. de grupe, obținem aceleași intervale de grupare și
nr. egal de termeni în fiecare grupă.

Dacă selectăm o
coloană pe
histogramă se
colorează pe hartă
județele
corespunzătoare.
HARTA CU INTERVALE DE VARIAȚIE INEGALE (NATURAL BREAKS MAP)
asigură o imagine mai clară a distribuției variabilei când există outlieri.
Un algoritm special alege limitele intervalelor de variație a.î. să
maximizeze omogenitatea în interiorul grupelor.
Efectul măririi nr. de grupe: informații mai detaliate, fără riscul de a
obține grupe cu frecvență nulă (ca în cazul intervalelor egale de
grupare).

4 grupe

10 grupe
BOX PLOT – un tip de grafic care
arată distribuția pe cuartile a unei
variabile și permite identificarea
outlierilor.

Cuartila (Q) este oricare din cele trei valori ce împart un set


ordonat de date în patru părți de mărime egală (nr egal de
termini).
• Q1 delimitează cele mai mici 25% de cele mai mari 75% din
date.
• Q2 (mediana ) împarte setul în două.
• Q3 delimitează cele mai mici 75% de cele mai mari 25% din
date.
Geoda -> pe grafic apar:
• media (punctul verde), Valoare extremă - outlier
• mediana (linia portocalie),
Limita superioară - la 1,5
• intervalul intercuartilic IQR (sau 3) ori IQR peste
(dreptunghiul mov) mediană.
• valorile extreme ale variabilei
(situate sub/peste 1,5 sau 3 Valorile individuale
ori intervalul intercuartilic). (punctele)

Informații statistice
suplimentare sunt furnizate sub Limita inferioară -
grafic dacă este activată la 1,5 (sau 3) ori
IQR sub mediană.
opțiunea corespunzătoare: clic
dreapta pe grafic, View - Display
Statistics.
HARTA BOX MAP
– o grupare pe cuartile (4
grupe, fiecare cu 25% din
termeni) excluzând însă valorile
extreme (lower și upper outlier)
situate la capetele distributiei.

identice
Valori extreme= valori care
sunt de peste 1,5 sau 3 ori mai
mari/mici decât intervalul
inter-cuartilic (Q1-Q3).

-arată împrăștierea față de


mediană;
-echivalentul spatial al Box-plot.
Harta Box Map este echivalentul spațial al graficului Box plot.

1. Selectăm pe grafic județele cu populație peste Q3 →


județele respective sunt colorate simultan în harta și în
tabel.

2. Alternativ, selectăm pe hartă grupa > 75% (valorile


aflate peste cuartila superioară) → vizualizăm
punctele respective (județele selectate) pe grafic.
HARTA CUANTILELOR - QUANTILE MAP - variabila selectată este
distribuită în 2 până la 10 grupe cu număr (aproximativ) egal de
termeni (de unități teritoriale).

Ex. 1. hartă cu 5 cuantile -> obținem 5 grupe cu 8-9 termeni (județe)


fiecare deoarece 42 nu se împarte exact la 5!
Ex. 2: dacă selectăm 7 grupe, fiecare va avea același nr.
de termeni (6)
PERCENTILE MAP este o variantă de cuantile care pornește de la 100
grupe în care este împărțită variabila (1% în fiecare grupă). Pentru că nu
are rost să fie reprezentate toate cele 100 categorii (mai ales dacă avem
puține observații), Geoda grupează regiunile în 6 clase convenționale de
frecvențe relative:
cele mai mici 1% din valori,
1 – 10%,
10 – 50%,
50 – 90%,
90 – 99%,
cele mai mari 1%.
Ex. Gruparea județelor după salariu. Deoarece numărul observațiilor
este sub 100 (42 unități), 1% din observații = zero județe => prima și
ultima grupă au frecvența zero.
STANDARD DEVIATION MAP – grupează observațiile după distanța
față de medie.
Grupele formate reprezintă 1, 2 și respectiv 3 abateri standard sub
media variabilei (bleu-albastru) și 1, 2, 3 abateri standard peste medie
(roz-roșu).

media

outlieri outlier
media

Outlierii sunt la peste 2 abateri


standard de medie (aici, municipiul
București și județul Ilfov).
HĂRȚI PENTRU VARIABILE CATEGORIALE: unique values map (o singură
variabilă) și co-location map (pentru a compara mai multe variabile).
Spre deosebire de hărțile precedente, culorile nu au nici o semnificație.

HARTA VALORILOR INDIVIDUALE (UNIQUE VALUES MAP) – câte o grupă


pentru fiecare categorie distinctă a variabilei (sau valoare diferită, în
cazul variabilelor numerice).

Ex. partidul care a obținut nr.


max. de voturi la alegerile
parlamentare din decembrie
2020
CO-LOCATION MAP este extensia conceptului unique values la mai multe
variabile. Arată în ce locații variabilele sunt identice pentru variabilele
categoriale comparate.

Practic sunt suprapuse două hărți în care regiunile ce aparțin


unor categorii similare pentru ambele variabile analizate sunt
colorate conform categoriei lor, iar celelalte regiuni sunt gri.

Dacă nu există nici o suprapunere a categoriilor pe hartă (nici o


asemănare între repartiția spațială a salariului și cea a PIB/loc.), se
afișează un mesaj de eroare.
Ex. Hărțile inițiale (box map) pentru salariu și PIB/loc

Co-location map pentru categoriile de salariu și PIB/loc din box map.


CARTOGRAMA – harta în care unitățile teritoriale inițiale se înlocuiesc cu cercuri
plasate astfel încât modelul geografic este imitat pe cât posibil din punct de vedere
al locației și vecinilor. Reduce influența vizuala a suprafețelor geografice mari.

Aria cercurilor este proporțională cu mărimea variabilei selectate, iar


culoarea indica valorile unei variabile secundare (corelate).

Ex.1. raza cercului proporțională cu salariul,


culoarea cercului în funcție de rata șomajului.

Grupele sunt similare cu


box map: arată variația
față de mediană.
Ilfov: populație redusă (raza
cercului), dar suprafață mare
(culoarea indică un upper
outlier).

Ex. 2. Culoarea indică mărimea populației, iar aria


cercurilor este proporțională cu suprafața în ha.
Există 2 outlieri.

București: populația cea mai mare


(raza cercului), dar suprafață mică
(culoarea indică un lower outlier).
Cartograma se poate asocia cu toate tipurile de hartă, folosind
opțiunea Classification Themes care permite selectarea tipului
hărții.
Ex. 3. Variabilele din Ex.2, grupare pe intervale neegale (Natural
breaks), cu 5 grupe).
ANIMATION MAP - pe hartă, unitățile teritoriale se colorează în ordinea
crescătoare (sau descrescătoare) a valorilor indicatorului reprezentat
arată dacă există o modificare sistematică
Se creează o hartă oarecare (de ex., natural breaks pentru PIB/loc),
apoi Map – Map movie – selecția variabilei (PIB/loc). Pornire cu clic pe
butonul .
Opțiuni: înainte >> sau înapoi <<, reluarea animației (Loop), selecție
viteză (Speed), ordinea crescatoare/descrescătoare, afișarea unităților
individual/ cumulativ, continuare în sens invers (Reverse).

Pornire/oprire
Funcțiile Linking și brushing – orice selecțíe într-o fereastră devine simultan
activă în toate celelalte ferestre deschise.
Ex. harta neutră și tabelul cu variabile sunt deschise simultan.

LINKING : când selectăm cu mouse-ul un rând din tabel se colorează zona din
hartă corespunzătoare acelui județ. Alternativ, când selectăm o unitate
teritorială pe hartă se colorează rândul asociat în tabel. Ex. Cluj.
BRUSHING: când selectăm cu mouse-ul o porțiune din hartă (opțiune: pătrat sau cerc), în tabel
se colorează rândurile pentru județele corespunzătoare. Mișcând conturul pe hartă, obținem o
nouă selecție care se evidențiază în toate ferestrele deschise. Este varianta dinamică a opțiunii
Linking.

2
Selecția rămâne activă până
când e anulată cu: Table – Clear
selection.
Clic dreapta pe orice hartă face vizibile OPȚIUNILE HĂRȚII.

Nu mai este necesară selectarea variabilei


Salvează grupele în tabel, ca variabilă categorială.

Calculează și salvează ponderi

Dreptunghi (implicit), cerc, linie.


Schimbă culoarea pentru fundal.

Salvează selecția în tabel, ca variabilă dummy


Copiază harta pentru a fi salvată în Word, PPT etc.
Exportă harta (inclusiv legenda) în format
png (implicit), bmp, SVG sau Postscript.
Gruparea asociată unei hărți poate fi adăugată ca variabilă nouă în
tabel folosind optiunea Save Categories. În fereastra de dialog
specificăm numele noii variabile (nume implicit: CATEGORIES).

Aceste categorii pot fi incluse apoi în modelele de regresie.


Informația asociată (de ex. intervalele de variație) se pierde însă.
Opțiunea Color

1.Debifând Outlines Visible dispar


contururile regiunilor (util când sunt f.
multe și granițele încarcă harta, de ex.
pentru localități)

2. Background Color permite


alegerea culorii pentru fundalul
hărții. Opțiunea implicită pentru
alb este de regulă cea mai
potrivită.
OPTIUNILE SHAPE CENTERS – adăugarea coordonatelor geografice ca
variabile în tabelul de date; afișarea lor pe hartă; salvarea într-un fișier
extern.
1. Selectăm Add Mean Centers to Table ; 2. Specificăm numele
variabilelor pentru coordonatele X și Y (implicit COORD_X și COORD_Y);
3. OK. 4. Variabilele apar în tabel.
1

2 4
Hărțile au în partea superioară un MENIU propriu.

Select Invert Zoom Zoom Pan Base Refresh


Full
Select In Out Map
Extent
Permite Revine la setările
Mărire/ Apar șosele și
mutarea inițiale
micșorare râuri pe fundal
hărții

Trăgând bara la
stânga/dreapta se
mărește/micșorează
harta (nu și legenda)
Opțiunea Invert select este
utilă pentru selectarea rapidă a
unui număr mare de
observații.
Schimbarea culorilor grupelor pe hartă: în legendă, clic dreapta pe
culoarea de schimbat – Color for category ... – în meniul Choose
category color – se selectează culoarea dorită (Basic colors) sau se
definește o nouă culoare din partea dreaptă (Add to Custom colors)- OK

Asemănător se pot schimba și celelalte


culori de pe hartă.
Exportul hărților
Varianta 1. clic dreapta
pe hartă – Save image
as – selecție destinație,
selecție nume și format
(de ex., .png - portable
networks graphic file) –
Save
Harta a fost salvată împreună cu legenda. Nu apare numele
variabilei reprezentate grafic.
Varianta 2. Harta poate fi copiată cu Copy image to clipboard și salvată apoi într-
un fișier Word sau PPT. In acest caz legenda trebuie copiată și salvată separat.

S-ar putea să vă placă și