Sunteți pe pagina 1din 8

ACADEMIA DE STUDII Ecăpș8nuONOMICE DIN BUCUREŞTI

Facultatea de Cibernetică, Statistică şi Informatică Economică

PROIECT
STATISTICĂ SPAȚIALĂ
Anul II, Grupa 1038, Seria C (S)
Statistică şi Previziune Economică

Student Prof. Univ. Dr.


Dumitraşcu Gabriela Goschin Zizi

-2018-
Cuprins

1. Introducere……………………….……………...…………………………….….pag. 2
2. Variabile economice……………..…………....………………………………….pag. 2
3. Analize statistice………………...………….…………………………………….pag. 2
● Inequal interval map…….……...………….….……………....………….pag. 2
● Standard deviation map…....…...…………..…………………………….pag. 3
● Histogramă………....…………...……..………………………………….pag. 3
● Co-location map…....…………...………….…………………………….pag. 4
● Scatter Plot…....……….…...……….…………………………………….pag. 4
● Matrici spațiale..……….……..…….…………………………………….pag. 5
4. Testarea legăturii dintre variabile……..…….……………………...…………….pag. 5
5. Regresia multifactorială.……………..…..……………………………………….pag. 5
● Modelul de regresie……...………...…………….……………………….pag. 6
● Interpretare coeficienți………..…....…………….……………………….pag. 6
● Testare validitate model…………....…………….……………………….pag. 7
6. Bibliografie………………………………..…..…………………………..…..….pag. 7

1
1. Introducere
Prezenta lucrare cuprinde analize statistice referitoare la numărul de muzee și colecții
publice din România, în funcție de fiecare județ. De asemenea, mai departe va fi verificată
influența câtorva factori (variabile independente) asupra numărului de muzee. Mai exact, va
fi studiată influența populației din județul respectiv și nivelul de educație determinat de
numărul de studenți înscriși în învățământul superior asupra numărului de muzee din fiecare
județ.

2. Variabile economice
Variabilele alese pentru realizarea acestei lucrări sunt numărul de muzee și colecții
publice, populația țării și numărul de studenți înscriși în învățământul superior (licență,
master,cursuri postuniversitare, doctorat și programe postdoctorale), toate secționate pe
județe. Datele pentru aceste variabile au fost preluate de pe site-ul Institutului Național de
Statistică, pentru anul 2017.

În modelul de regresie, variabilele sunt următoarele:


● Variabila dependentă Y: numărul de muzee și colecții publice (număr muzee)
● Variabilele independente X:
○ X₁ : populația din fiecare județ (număr persoane)
○ X₂ : studenții înscriși în învățământul superior (număr persoane)

După ce a fost introdus fișierul shp în programul GeoDa, au fost introduse datele
referitoare la cele 3 variabile studiate. Rezultatul poate fi observat în Anexa 1.

3. Analize Statistice
● Inequal Interval Map

Am obținut o hartă cu
intervale inegale în funcție de
numărul de muzee din fiecare județ,
pentru o mai bună omogenitate a
grupelor. După cum se poate observa,
numărul maxim de muzee întâlnit în
prezent este 56 în județul Alba.

2
● Standard deviation map

​Date furnizate de INS. Prelucrare proprie

Din imaginea de mai sus se poate deduce outlier-ul studiului, județul Alba, încât
acesta deține cele mai multe muzee. De asemenea, media muzeelor la nivel de țară este de
18,119 muzee (intervalul 4).

● Histogramă

Date furnizate de INS. Prelucrare proprie

3
● Co-location map
Acest tip de hartă arată legătura de distribuție între variabilele Muzee și Populația din
fiecare județ. După cum se poate vedea, există o similitudine de distribuție a datelor pentru
Mehedinți, Giurgiu, Ialomița, Maramureș, Bacău, Argeș, Olt, Hunedoara, Arad, Prahova și
București.

Date furnizate de INS. Prelucrare proprie

● Scatter Plot

Se selectează un grup (între 10 și 49 de muzee și între 0 și 20.000 studenți)


Formulăm 2 ipoteze:
H₀: nu sunt diferențe semnificative între observațiile selectate și restul
H₁: sunt diferențe semnificative între observațiile selectate și restul

Testul Chow verifică dacă


diferențele dintre cele 2 grupuri sunt
semnificative.
P-value = 0,1008 > 0.05 => nu
respingem ipoteza nulă, deci putem
spune că există diferențe între grupul
ales și restul valorilor.

4
● Matrici spațiale

Date furnizate de INS. Prelucrare proprie

Mai sus avem o hartă neutră și o reprezentare sub formă de histogramă a matricii de
contiguitate Queen. Ea arată numărul de județe care au un anumit număr de vecini. Cum se
observă în exemplu, există 12 județe care au câte 4 vecini.

4. Testarea legăturii dintre variabile


Vom studia legătura dintre numărul de muzee din județ și populația județului. Pentru a
vedea această legătură, folosim Correlation table sau funcția CORREL în Excel. Rezultatele
obținute sunt:

Cum coeficientul r​Y,X1​ = 0,448275521, putem spune că există o legătură directă destul
de mare între cele 2 variabile.

5. Regresia multifactorială
Pentru a studia influența variabilelor independente asupra celei dependente, se
construiește următorul model multifactorial de regresie:
Yi = ß₀ + ß₁*x1 + ß₂*x2 + ​ɛi​
Rezultatele obținute în GeoDa pentru regresie sunt:

5
● Modelul de regresie multifactorial

Rezultă că modelul de regresie este următorul:


Număr_Muzee i = 4,07 + 3,39*Populație_Județ i - 0,000145*Număr_Studenți i + ​ɛ​t ,
unde i = Județ = 1,42

● Interpretare coeficienți
ß₀ (Intercept) – arată nivelul mediu al lui Y când toate celelalte variabile explicative
sunt 0, adică numărul de muzee din județul i este 4,07 când nu este niciun rezident în județ și
când nu există studenți înscriși în învățământul superior. Intercept nu se interpretează
economic.

6
ß₁ (Populația județului i) – când X₁ crește cu o unitate, atunci Y crește în medie cu
3,39, adică atunci când Populația județului i crește cu o persoană, numărul de muzee crește în
medie cu 3,39.
ß₂ (Numărul de studenți înscriși în învățământul superior) – când X₂ crește cu o
unitate, atunci Y scade în medie cu 0,000145, adică atunci când numărul de studenți înscriși
în învățământul superior crește cu un student, numărul de muzee scade în medie cu 0,000145.

Cum P-value pentru variabila Studenți este 0,29, putem spune că nu are o semnificație
statistică mare în acest caz, deci o putem elimina. Variabila Populație Județ are însă P-value
0,02, ceea ce demonstrează o semnificație statistică mare pentru model.

● Testarea validității modelului


Pentru testarea validităţii modelului, se formulează 2 ipoteze:
H₀​: modelul nu este valid statistic
H₁​: modelul este valid statistic
Testul statistic folosit este Testul Fisher:
F​calculat​ = 5,61236
F​critic​ = F Ⲁ​ ; k; n-k-1​ = F​0.05,2,39​ = 3,20
Deoarece F​calculat​ > F​critic​ , avem suficiente dovezi încât să respingem H₀ şi să
acceptăm H₁, adică putem spune că modelul este valid statistic. Cum Significance F = 0,007
< 0,05, înseamnă că sunt șanse mai mici de 5% să greșim în luarea deciziei de mai sus.

6. Bibliografie
● Institutul Național de Statistică