Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
2. Importarea variabilelor
Pentru importarea datelor a fost nevoie în primul pas să fie importat fișierul de tip "shp"
pentru coordonatele geografice pentru fiecare județ, iar în pasul al doilea am folosit funcția
"merge" pentru a importa datele pentru analiză din fișierul Excel "date județ.xls".
Fig.1
Tabelul cu datele rezultat in urma importării:
Fig.2
3. Analiza spatială exploratorie
In această etapă vom folosi datele mai sus importate pentru analiza si vom realiza
urmatoarele hărți:
unique values map - pentru o mai buna evidențiere a împărțirii teritoriului in Regiuni
histograma - reprezentare grafică a frecvenţei de apariţie a unui anumit parametru într-o
populaţie/grup
natural breaks map - selectarea unui număr de grupe cu scopul de a maximiza
omogenitatea in interiorul acestora – se evita intervalele cu frecventa nula
box-plot - ofera o grupa pe cuartile a valorilor pentru cei 2 indicatori, însă se vor exclude
valorile extreme
quantile_map - distrubuie variabila selectate în 2 până la 10 grupe
cu număr (aproximativ) egal de termeni (de unități teritoriale).
standard-deviation_map - este o grupare după distanța față de medie
cartograma - este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri
plasate astfel încât modelul geografic este imitat pe cât posibil din punct de vedere al
locației și vecinilor
In prima etapa a analizei dorim sa imparțim, pentru o vizualizare mai buna, județele țării
in regiuni pentru o organizare si vizualizare mai bună.
Fig.1
Realizare proprie cu ajutorul programului Geoda
Histograma
Fig.3 Vizualizare pe judete a 6 intervale a numarului cadrelor didactice pentru fiecare judet
Sursa datelor: INSSE TEMPO
Din Fig.3 se poate observa faptul că nu avem valori outlieri, iar valorile, am ales să fie
împărțite în 6 inervale inegale alese pe baza unui algoritm special care alege limitele
intervalelor de variație astfel încât să maximizeze omogenitatea în interiorul grupelor.
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu.
Cele mai multe cadre didactice la nivelul învățământului liceal se află în județele: Iași, Cluj și
Municipiul București, după cum se poate observă în fig.3.
Fig.5 Vizualizare pe judete a 6 intervale a numarului unitatilor de invatamant(liceal) pentru fiecare judet
Sursa datelor: INSSE TEMPO
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu.
Map - Natural breaks map – selectarea variabilei profesori și ulterior licee și a nr. de
grupe 6. Un algoritm special alege limitele intervalelor de variație astfel încât să maximizeze
omogenitatea în interiorul grupelor.
Se poate observa din fig.5 faptul că cele mai multe unități de învățământ liceal se afla în
județele: Cluj, Constanța și municipiul București. Deși cei mai mulți profesori de la nivelul
învățământului liceal se alfa în județele Cluj, Iași și municipiul București, astfel că în Constanța
se alfa mai multe unități de învățământ decât în județul Iași, totuși sunt mai multe cadre didactice
în județul Iași decât în județul Constanța.
BOX-PLOT
Box plot este un tip de grafic care arată distribuția pe cuartile a unei variabile și permite
identificarea outlierilor.
După cum se poate observa în figurile 5, 6, 8, ca și valoare outlier pentru variabilele:
licee, profesori și absolvenți bac este municipiul București, cât pentru variabila numărului celor
înscriși în învățământul liceal, ca și valori outlieri este județul Timiș și municipiul București.
QUANTILE-MAP
Quantile-map sau gruparea pe cuantile distrubuie variabila selectate în 2 până la 10 grupe
cu număr (aproximativ) egal de termeni (de unități teritoriale).
Pentru această grupa am ales ca variabilă pentru vizualizare: cadre didactice din
învățământul liceal.
Deviația standard indică cât de mult sunt distribuite estimările de capacitate pentru un
grup. Totodată, deviația standard este și un indicator al performanței entităților din grup. Un grup
cu o deviație standard mai mică va fi mai grupat decât un grup cu o abatere standard mai mare.
Standard deviation map este o grupare după distanța față de medie. Grupele formate
reprezintă 1, 2 și respectiv 3 abateri standard sub media variabilei (bleu-albastru) și 1, 2, 3
abateri standard peste medie (roz-roșu). Outlierii sunt la peste 2 abateri standard de medie, în
cazul nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă
20051,762, iar valoare outlier-ului este 83958,166.
CARTOGRAMA
Este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri plasate astfel încât
modelul geografic este imitat pe cât posibil din punct de vedere al locației și vecinilor.
Aria cercurilor este proporțională cu mărimea variabile pe care o selectăm, în cazul
nostru numărul celor înscriși în învățământul liceal, iar culoarea indică valorile variabilei
secundare alese, în cazul nostru am ales numărul celor care au absolvit examenul de bacalaureat.
Se poate vizualiza în această figura, fig.17, faptul că cei mai mulți înscriși în
învățământul liceal au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București,
iar numărul celor care au absolvit, că valoare outlier o găsim în municipiul București.
SCATTER-PLOT
Prin acest grafic se dorește vizualizarea legăturii dintre două variabile. Astfel că dorim să
vedem dacă există legătură între variaila: numărul cadrelor didactice din învățământul liceal și
numărul unităților de învățământ liceal. Luăm în considerare că variabilă independenta: numărul
unităților de învățământ, iar ca variabila dependentă numărul cadrelor didactice.
După cum se poate observa în fig.18, între variabila licee și variabila profesori există o
legătură directă, astfel că dacă numărul liceelor crește, automat și numărul profesorilor trebuie să
crească.
Pentru fig.19 a fost selectat un grup de județe cu mai puțin de 40 de licee. Pentru grupul
selectat (roșu), pentru restul județelor (albastru) și pentru toate județele (indigo). Sub grafic:
coeficienții și testele pentru cele 3 modele.
Testul Chow verifică dacă diferențele dintre grupuri sunt semnificative. P-value = 0.0200
< 0.05 => nu respingem ipoteza alternativă (H1: sunt diferențe semnificative între observațiile
selectate și restul).
Cu ajutorul acestui scatter plot matrix dorim sa analizam legatura dintre mai multe
variabile.
Fig.20 Scatter-plot matrix
Din figura 20 putem observa faptul că avem legături directe doar între variabilele: licee-
profesori, înscriși-profesori, înscriși-licee.
Fig.23 Fig.24
Fig.25
Din aceste output-uri rezultă că Indicele Moran pentru variabila licee este de: -0.104 =>
autocorelație negativă redusă.
In urma aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-value” =
0.05<0.12. Se va accepta ipoteza H0 – NU exista autocorelație spațiala semnificativa din punct
de vedere statistic.
Fig.26
Fig.27
Fig.28
Din aceste output-uri rezultă că Indicele Moran pentru profesori este de: -0.08
=> autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia.
În urmă aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-
value” = 0.169>0.05. Se va acceptă ipoteza H0 – NU există autocorelație spațiala semnificativă
din punct de vedere statistic.
Fig.29 Fig.30
Fig.31
Din aceste output-uri rezultă că Indicele Moran pentru inscrisi este de: -0.03
=> autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia.
Fig.31 Fig.32
Fig.33
– Moran’s I for errors mai mic de 0.05 indică respingerea modelului clasic (OLS)
– Statistica LM Error sau LM Lag mai semnificativă (prob mai mică) indică modelul
spațial cel mai potrivit; verificați cu diferite tipuri de matrici de ponderare spațială
Fig.34
Fig.35
Din modelul rezultat = > nu exista dependenta spatiala deoarece Indicele Moran =
0.33>0.05 si nici un tip de model spațial nu este validat (prob LM > 0.05) => probleme
de specificare a modelului.
2. Modelul clasic de regresie (OLS) – Iterația 2
Fig.36
Fig.37
Noul model OLS este validat de testele statistice standard: R2= 0.94 mare, prob
Modelul clasic este valid deoarece există dependență spațială (prob Moran>0.05).
CONCLUZII
Această analiză a fost conturată încă de la început cu scopul acesteia, fiind prezentate
cele 5 variabile care urmau a fi luate în analiză și valori pe care aceste varibile le vor lua pe
parcursul analizei.
Au fost realizate unique value map, histograma, natural breaks map, box-plot, quantile
map, cartogramă, scatter-plot.
În urma realizării acestor hărți s-a observat că județele Iași, Cluj, București au cel mai
mare număr de cadre didactice, în Constanța se alfa mai multe unități de învățământ decât în
județul Iași, totuși sunt mai multe cadre didactice în județul Iași decât în județul Constanța.
În cazul standard deviation-map outlierii sunt la peste 2 abateri standard de medie, în cazul
nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă
20051,762, iar valoare outlier-ului este 83958,166, cei mai mulți înscriși în învățământul liceal
au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București, iar numărul celor care
au absolvit, că valoare outlier o găsim în municipiul București.
Au fost generate 2 matrici de ponderi spațiale: una de tip Queen și una de tip K Nearest-
Neighbours (cu un număr fix de 6 vecini per județ).
S-a observat că in cazul numărului absolvenților al examenului de bacalaureat există
autocorelatie semnificativă din punct de vedere statistic, iar în cazul celorlalte 3 variabile număr
cadre didactice, număr licee, numer înscriși este autocorelatie spațială doar pentru 499 de
permutări cu un nivel de încredere de 90%.
Am generat un model inițial de regresie spațială (OLS) care conținea un coeficient
nesemnificativ, numărul de licee, variabilă care a fost eliminată din model, iar modelul a fost
generat în o două iterație (ambele au fost valide din punct de vedere statistic), iar Indicele Moran
> 0.05 ceea ce înseamnă că modelul de regresie liniară clasic este cel mai bun pentru situația
noastră.