Sunteți pe pagina 1din 24

INTRODUCERE

În prezenta analiză am ales ca subiect de dezbatere "învățământul de la nivelul liceal"


fiind selectate următoarele variabile: numerul de licee din fiecare județ al României, numărul de
cadre didactice de la nivelul învățământului liceal, numărul elevilor înscriși în învățământul
liceal, numărul celor care au absolvit examenul de bacalaureat și cititorii activi la bibilioteci.
Întrucât învățământul de la nivel liceal, precum și celelalte nivele ale învățământului,
reprezintă cheia de baza pentru următoarea etapă în învățământ și în carieră dorită, astfel că, am
găsit interesantă analiză prin vizualizarea datelor alese. Pentru această analiză folosim că
software-uri: Geoda, GeodaSpace. Vor fi analizate datele sub diferite forme de repezentare, în
principal folosind programul Geoda. Analiza este realizată pentru anul 2016.

In analiză dorim să atingem următoarele obiective:

1. Descrierea variabilelor alese in analiză;


2. Importarea variabilelor in programul GeoDa si realizarea pasului de “merge” între fișierul
“Judete.shp” si fișierul “date judet.xls”;
3. Generarea analizei spațiale exploratorie pentru 2 dintre variabilele utilizate in analize;
4. Construirea a 2 matrici de ponderi spațiale si analiza prezenței autocorelației spațiale
pentru toate variabilele;
5. Utilizarea variabilelor pentru a construi modele de regresie spațială de tip: OLS, Spatial
Lag sau Spatial Error;
6. Prezentarea modelelor, compararea acestora si alegerea celui mai bun dintre acestea;
7. Comentarea rezultatelor.
1. Descrierea variabilelor alese in analiză

 Variabila "licee" reprezintă numărul de unități din cadrul învățământului liceal


din fiecare județ, considerându-se anul 2016 că și an de analiză;
 Variabila "profesori" reprezintă numărul profesorilor care predau în cadrul
învățământului liceal în fiecare județ în anul 2016;
 Variabila "nr_inscrisi" reprezintă numărul elevilor înscriși în ciclul liceal de
învățământ în anul 2016;
 Variabila "abs_bac" reprezintă numărul absolvenților al examenului de
bacalaureat în anul 2016 pentru fiecare județ;
 Cu ajutorul variabilei "cititori activi la biblioteci" este contorizat numărul
citiorilor activi din fiecare județ pentru anul 2016.
Toate aceste date sunt culese de pe site-ul INSSE TEMPO al Institutului Național de
Statistică. Calea către acest site este următoare "http://statistici.insse.ro/shop/".

2. Importarea variabilelor

Pentru importarea datelor a fost nevoie în primul pas să fie importat fișierul de tip "shp"
pentru coordonatele geografice pentru fiecare județ, iar în pasul al doilea am folosit funcția
"merge" pentru a importa datele pentru analiză din fișierul Excel "date județ.xls".

Fig.1
Tabelul cu datele rezultat in urma importării:

Fig.2
3. Analiza spatială exploratorie

In această etapă vom folosi datele mai sus importate pentru analiza si vom realiza
urmatoarele hărți:
 unique values map - pentru o mai buna evidențiere a împărțirii teritoriului in Regiuni
 histograma - reprezentare grafică a frecvenţei de apariţie a unui anumit parametru într-o
populaţie/grup
 natural breaks map - selectarea unui număr de grupe cu scopul de a maximiza
omogenitatea in interiorul acestora – se evita intervalele cu frecventa nula
 box-plot - ofera o grupa pe cuartile a valorilor pentru cei 2 indicatori, însă se vor exclude
valorile extreme
 quantile_map - distrubuie variabila selectate în 2 până la 10 grupe
cu număr (aproximativ) egal de termeni (de unități teritoriale).
 standard-deviation_map - este o grupare după distanța față de medie
 cartograma - este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri
plasate astfel încât modelul geografic este imitat pe cât posibil din punct de vedere al
locației și vecinilor

Am realizat si 2 grafice pentru cele două variabile:


 scatter plot - pentru variabilele "licee" si "inscriși" - va indica legătura dintre doua
variabile – fie negativa, fie pozitiva, fie inexistenta
 scatter plot matrix - pentru variabilele "inscriși", "profesori" si "licee" - toate
permutarile posibile pentru legăturile dintre 3 variabile incluse in analiza;

In prima etapa a analizei dorim sa imparțim, pentru o vizualizare mai buna, județele țării
in regiuni pentru o organizare si vizualizare mai bună.
Fig.1
Realizare proprie cu ajutorul programului Geoda

Histograma

Histograma este o reprezentare grafică a frecvenţei de apariţie a unui anumit parametru


într-o populaţie/grup. Intervalele parametrului,ordonate crescător, sunt reprezentate în abscisă iar
în ordonată este reprezentată frecvenţa de apariţie. Histograma este o imagine a distribuţiei
valorilor unui anumit parametru.
Histograma împarte valorile parametrului în intervale de mărime egală şi reprezintă
frecvenţele de apariţie (fracţie, procent) ale valorilor măsurate, grupate corespunzător
intervalelor.
Prin această vizualizare dorim sa reprezentăm numărul liceelor in paralel cu numărul
cadrelor didactice de la nivelul invăţămantului liceal.
Fig.2 Histograma cadre didactice
Sursa datelor: INSSE TEMPO

Natural breaks map

Fig.3 Vizualizare pe judete a 6 intervale a numarului cadrelor didactice pentru fiecare judet
Sursa datelor: INSSE TEMPO

Din Fig.3 se poate observa faptul că nu avem valori outlieri, iar valorile, am ales să fie
împărțite în 6 inervale inegale alese pe baza unui algoritm special care alege limitele
intervalelor de variație astfel încât să maximizeze omogenitatea în interiorul grupelor.
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu.
Cele mai multe cadre didactice la nivelul învățământului liceal se află în județele: Iași, Cluj și
Municipiul București, după cum se poate observă în fig.3.

Fig.4 Histograma unitati invatamant


Sursa datelor: INSSE TEMPO

Fig.5 Vizualizare pe judete a 6 intervale a numarului unitatilor de invatamant(liceal) pentru fiecare judet
Sursa datelor: INSSE TEMPO
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu.
Map - Natural breaks map – selectarea variabilei profesori și ulterior licee și a nr. de
grupe 6. Un algoritm special alege limitele intervalelor de variație astfel încât să maximizeze
omogenitatea în interiorul grupelor.
Se poate observa din fig.5 faptul că cele mai multe unități de învățământ liceal se afla în
județele: Cluj, Constanța și municipiul București. Deși cei mai mulți profesori de la nivelul
învățământului liceal se alfa în județele Cluj, Iași și municipiul București, astfel că în Constanța
se alfa mai multe unități de învățământ decât în județul Iași, totuși sunt mai multe cadre didactice
în județul Iași decât în județul Constanța.

BOX-PLOT
Box plot este un tip de grafic care arată distribuția pe cuartile a unei variabile și permite
identificarea outlierilor.
După cum se poate observa în figurile 5, 6, 8, ca și valoare outlier pentru variabilele:
licee, profesori și absolvenți bac este municipiul București, cât pentru variabila numărului celor
înscriși în învățământul liceal, ca și valori outlieri este județul Timiș și municipiul București.

QUANTILE-MAP
Quantile-map sau gruparea pe cuantile distrubuie variabila selectate în 2 până la 10 grupe
cu număr (aproximativ) egal de termeni (de unități teritoriale).

Pentru această grupa am ales ca variabilă pentru vizualizare: cadre didactice din
învățământul liceal.

Fig.11 Quantile-map pentru variabila cadre didactice


Sursa date: INSSE TEMPO
Pentru această vizualizare am ales ca număr de grupe 7 deoarece 42 numărul de județe
nu se împarte în mod egal la 5 și se poate observa că fiecare grupa cuprinde un număr de 6 județe
fiacare.

STANDARD DEVIATION - MAP

Deviația standard indică cât de mult sunt distribuite estimările de capacitate pentru un
grup. Totodată, deviația standard este și un indicator al performanței entităților din grup. Un grup
cu o deviație standard mai mică va fi mai grupat decât un grup cu o abatere standard mai mare.

Standard deviation map este o grupare după distanța față de medie. Grupele formate
reprezintă 1, 2 și respectiv 3 abateri standard sub media variabilei (bleu-albastru) și 1, 2, 3
abateri standard peste medie (roz-roșu). Outlierii sunt la peste 2 abateri standard de medie, în
cazul nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă
20051,762, iar valoare outlier-ului este 83958,166.

CARTOGRAMA

Este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri plasate astfel încât
modelul geografic este imitat pe cât posibil din punct de vedere al locației și vecinilor.
Aria cercurilor este proporțională cu mărimea variabile pe care o selectăm, în cazul
nostru numărul celor înscriși în învățământul liceal, iar culoarea indică valorile variabilei
secundare alese, în cazul nostru am ales numărul celor care au absolvit examenul de bacalaureat.

Se poate vizualiza în această figura, fig.17, faptul că cei mai mulți înscriși în
învățământul liceal au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București,
iar numărul celor care au absolvit, că valoare outlier o găsim în municipiul București.

SCATTER-PLOT

Prin acest grafic se dorește vizualizarea legăturii dintre două variabile. Astfel că dorim să
vedem dacă există legătură între variaila: numărul cadrelor didactice din învățământul liceal și
numărul unităților de învățământ liceal. Luăm în considerare că variabilă independenta: numărul
unităților de învățământ, iar ca variabila dependentă numărul cadrelor didactice.

După cum se poate observa în fig.18, între variabila licee și variabila profesori există o
legătură directă, astfel că dacă numărul liceelor crește, automat și numărul profesorilor trebuie să
crească.

Pentru fig.19 a fost selectat un grup de județe cu mai puțin de 40 de licee. Pentru grupul
selectat (roșu), pentru restul județelor (albastru) și pentru toate județele (indigo). Sub grafic:
coeficienții și testele pentru cele 3 modele.

Testul Chow verifică dacă diferențele dintre grupuri sunt semnificative. P-value = 0.0200
< 0.05 => nu respingem ipoteza alternativă (H1: sunt diferențe semnificative între observațiile
selectate și restul).

H0: nu sunt diferențe semnificative între observațiile selectate și restul

H1: sunt diferențe semnificative între observațiile selectate și restul

SCATTER PLOT MATRIX

Cu ajutorul acestui scatter plot matrix dorim sa analizam legatura dintre mai multe
variabile.
Fig.20 Scatter-plot matrix

Sursa date: INSSE TEMPO

Din figura 20 putem observa faptul că avem legături directe doar între variabilele: licee-
profesori, înscriși-profesori, înscriși-licee.

3. Matrici de ponderi spațiale

Ponderile spațiale – definesc interacțiunea fiecărei unități teritoriale cu vecinii ei;


numărul maxim de interacțiuni posibile între n regiuni = n(n-1)/2.
Deoarece modelul de regresie nu poate estima toate aceste relații spațiale, introducem o
anumită structură în analiză legăturilor: doar ”vecinii” interacționează (restrângem numărul de
vecini pentru a simplifică estimarea). Matricea ponderilor spațiale W descrie structura spațială
din perspectiva unităţilor teritoriale vecine pentru fiecare observaţie i.

În prima etapă creăm matricea de ponderi spațiale de tip Queen.


Fig.21 Matricea ponderilor spatiale de tip Queen

Sursa date: INSSE TEMPO

Am creat și o matrice de pondeti spațiale de tip K Nearest-Neighbours cu număr fix


de vecini pentru fiecare județ.

Fig.22 Matricea de ponderi spatiale KNN

Sursa date: INSSE TEMPO


4. Analiză asupra prezenței autocorelației spațiale pentru toate variabilele

 Numărul unităților de invățămant liceal

Fig.23 Fig.24

Fig.25

Din aceste output-uri rezultă că Indicele Moran pentru variabila licee este de: -0.104 =>
autocorelație negativă redusă.
In urma aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-value” =
0.05<0.12. Se va accepta ipoteza H0 – NU exista autocorelație spațiala semnificativa din punct
de vedere statistic.

În urmă aplicării „Randomization” cu 499 de permutări a rezultat un „pseudo p-value”


= 0.08<0.1. Se va acceptă ipoteza H1 – există autocorelație spațiala semnificativă din punct de
vedere statistic(nivel de increde de 90%).

 Cadre didactice din cadrul invatamantului liceal

Fig.26
Fig.27
Fig.28

Din aceste output-uri rezultă că Indicele Moran pentru profesori este de: -0.08
=> autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia.
În urmă aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-
value” = 0.169>0.05. Se va acceptă ipoteza H0 – NU există autocorelație spațiala semnificativă
din punct de vedere statistic.

În urmă aplicării „Randomization” cu 499 de permutări a rezultat un „pseudo p-value”


= 0.094<0.1. Se va acceptă ipoteza H1 – există autocorelație spațiala semnificativă din punct de
vedere statistic.
 Numarul celor inscrisi in cadrul invatamantului liceal

Fig.29 Fig.30

Fig.31

Din aceste output-uri rezultă că Indicele Moran pentru inscrisi este de: -0.03
=> autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia.

În urmă aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-


value” = 0.48>0.05. Se va acceptă ipoteza H0 – NU există autocorelație spațiala semnificativă
din punct de vedere statistic.
 Numarul absolventilor examenului de bacalaureat

Fig.31 Fig.32

Fig.33

Din aceste output-uri rezultă că Indicele Moran pentru absolventii examenului de


bacalaureat este de: -0.07 => autocorelație negativă redusă, extrem de redusă – sau chiar absența
acesteia.
În urma aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-value”
= 0.02<0.05. Se va acceptă ipoteza H1 – există autocorelație spațiala semnificativă din punct de
vedere statistic.

5. Modelelor de regresie spațiala

1. Modelul clasic de regresie (OLS)

Modelul inițial de regresie liniara are ca variabila dependenta Numarul absolvenilor de


bacalaureat si ca variabile independente: numarul celor inscrisi, numerul cititorilor activi la biblioteci,
numarul de licee, numarul de profesori.

– Moran’s I for errors mai mic de 0.05 indică respingerea modelului clasic (OLS)

– Statistica LM Error sau LM Lag mai semnificativă (prob mai mică) indică modelul
spațial cel mai potrivit; verificați cu diferite tipuri de matrici de ponderare spațială

Fig.34
Fig.35

Din output-ul rezultat observam ca variabila licee nu este senificativa statistic


ceea ce inseamna ca o vom elimina din model.

F-statistic = 1.39*10-23<0.05 => modelul este valid statistic.

Din modelul rezultat = > nu exista dependenta spatiala deoarece Indicele Moran =
0.33>0.05 si nici un tip de model spațial nu este validat (prob LM > 0.05) => probleme
de specificare a modelului.
2. Modelul clasic de regresie (OLS) – Iterația 2

Din a doua iteratie a modelului am scos variabila nesemnificativa "licee".

Fig.36
Fig.37

Noul model OLS este validat de testele statistice standard: R2= 0.94 mare, prob

F = 3.6*10-24<0.05 aproape nulă, nu respingem ipotezele de homoscedasticitate și repartiție


normală a erorilor.

Modelul clasic este valid deoarece există dependență spațială (prob Moran>0.05).

Interpretarea economica a rezultatelor

Numărul de absolvenți al examenului de bacalaureat la nivel de județ depinde de


variabilele explicative inscrisi, cititori, profesori. Variabila numerul de licee nu influențează in
niciun fel numărul absolvenților de bacalaureat.

CONCLUZII

Această analiză a fost conturată încă de la început cu scopul acesteia, fiind prezentate
cele 5 variabile care urmau a fi luate în analiză și valori pe care aceste varibile le vor lua pe
parcursul analizei.
Au fost realizate unique value map, histograma, natural breaks map, box-plot, quantile
map, cartogramă, scatter-plot.
În urma realizării acestor hărți s-a observat că județele Iași, Cluj, București au cel mai
mare număr de cadre didactice, în Constanța se alfa mai multe unități de învățământ decât în
județul Iași, totuși sunt mai multe cadre didactice în județul Iași decât în județul Constanța.
În cazul standard deviation-map outlierii sunt la peste 2 abateri standard de medie, în cazul
nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă
20051,762, iar valoare outlier-ului este 83958,166, cei mai mulți înscriși în învățământul liceal
au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București, iar numărul celor care
au absolvit, că valoare outlier o găsim în municipiul București.
Au fost generate 2 matrici de ponderi spațiale: una de tip Queen și una de tip K Nearest-
Neighbours (cu un număr fix de 6 vecini per județ).
S-a observat că in cazul numărului absolvenților al examenului de bacalaureat există
autocorelatie semnificativă din punct de vedere statistic, iar în cazul celorlalte 3 variabile număr
cadre didactice, număr licee, numer înscriși este autocorelatie spațială doar pentru 499 de
permutări cu un nivel de încredere de 90%.
Am generat un model inițial de regresie spațială (OLS) care conținea un coeficient
nesemnificativ, numărul de licee, variabilă care a fost eliminată din model, iar modelul a fost
generat în o două iterație (ambele au fost valide din punct de vedere statistic), iar Indicele Moran
> 0.05 ceea ce înseamnă că modelul de regresie liniară clasic este cel mai bun pentru situația
noastră.