Sunteți pe pagina 1din 16

Schimbări demografice în țările

Uniunii Europene

Analiza Datelor
(Proiect)

Profesor coordonator:
Furtuna Titus Felix Student:
Slobodnicu Ana-Maria, 1121

2019
București
Cuprins
1. Introducere
1.1.Tema proiectului
1.2.Date de intrare
2. Analiza în componente principale
2.1. Analiza variabilității datelor
2.1.1. Analiza matricei de corelații
2.1.2. Analiza valorilor proprii. Varianța componentelor
principale
2.2. Calculul corelațiilor dintre variabilele observate și componentele
principale
2.3. Calculul scorurilor
3. Analiza de clusteri
3.1. Clasificarea țărilor prin metoda Ward Metrica utilizând este
metrica euclidiană
3.2. Clasificarea țărilor prin legătură completă și metrică Mahalanobis
3.3. Clsificarea variabilelor
4. Bibliografie

Academia de Studii Economice, Informatică Economică Page 2


1. Introducere

1.1. Tema proiectului

Pentru acest proiect s-a ales ca temă schimbările demografice din tările Uniunii Europene,
luând în considerare un set de șase indicatori. Indicatorii utilizați cât și prescurtările se pot găsi
în tabelul 1.1. Acești indicatori sunt calculați pentru fiecare țară europeană din prezent.

Cod Semnificatie
SV Speranța de viață (2018) [ani]
RCP Raport creștere populație în anul (2017)[ ‰]
SN Schimbări naturare (2017)[ ‰]
RMG Rata migrației (2017)[ ‰]
RF Rata fertilității (2016)
RM Rata mortalității (2016) [ ‰ – unități per 1000 de indivizi anual]
Tabel 1.1. Indicatori de calcul

Acest studiu este abordat din două etape. Prima etapă presupune analiza în componente
principale a schimbărilor demografice din țările Uniunii Europenela nivelul anului 2018. A doua
etapă constă în gruparea acestor țări prin algoritmi de clusterizare ierarhică după îndicatorii
descriși anterior.

1.2.Date de intrare

Datele utilizate în acest studiu au fost preluate de pe Eurostat [1], [2], [3], [4] și [5] pentru
fiecare țară individual.

Datele de intrare se găsesc în fișierul Date.cvs atașat studiului.

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 3


2. Analiza în componente principale

2.1. Analiza variabilităților datelor

2.1.1. Analiza matricei de corelații

O primă imagine asupra variabilității este dată de matricea de corelații dintre variabilele
observate. Corelațiile puternice sunt cele care indică variabile între care există strânsă legătură,
deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din care se vor
construi componentele principale. În figura 2.1 este prezentată corelograma variabilelor
observate. Din analiza graficului rezultă că raportul de creștere a populației, schimbările
naturale și rata migrației generează cele mai mari corelații, deci aceste variabile vor contribui
cel mai mult la constituirea componentelor principale.

Figura 2.1. Indicatori de calcul

Academia de Studii Economice, Informatică Economică Page 4


2.1.2 Analiza valorilor proprii. Varianța componentelor principale
Rezultatele modelului pornesc de la calculul vectorilor și valorilor proprii ale matricei de
corelație. Valorile proprii reprezintă varianțele componentelor iar vectorii proprii reprezintă
coeficienții legăturii liniare dintre variabilele observate și componentele principale. Conform
criteriilor Cattell și Kaiser sunt semnificative primele trei componente, aspect scos în evidență
de graficul distribuției varianței din figura 2.2.

Varianta Varianta Cumulata Procent varianta Procent cumulat


C0 3.639444545 3.639444545 60.65740908 60.65740908
C1 1.184428062 4.823872607 19.7404677 80.39787678
C2 0.721547218 5.545419824 12.02578696 92.42366374
C3 0.36964309 5.915062914 6.160718167 98.58438191
C4 0.084930924 5.999993839 1.415515404 99.99989731
C5 6.16E-06 6 0.00010269 100

Tabel 2.1. Distribuția varianței

Figura 2.2. Grafic valori proprii

Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind peste
60% din variabilitate.

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 5


2.2. Calculul corelațiilor dintre variabilele observate și componentele
principale

Aceste corelații numite și corelații factoriale (eng. factor loadings) se calculează pornind de la
vectorii proprii ai matricei de corelație. Ele reprezintă coeficienții de corelație liniară dintre
variabilele observate și componentele principale. Fiind calculate din vectorii proprii ele reflectă
saturațiile componentelor în fiecare variabilă observată sau altfel spus, contribuția fiecărei
variabile observate la constituirea unei componente principale. În tabelul 3 sunt prezentate
aceste corelații pentru cele mai semnificative trei componente principale. Aceste corelații sunt
importante în încercarea de a denomina componentele principale. Din corelograma din figura
2.3 și tabelul 2.2 se poate identifica ca prima componentă principală este puternic corelată cu
raportul de creșter al populaței (RCP), iar următoarea componentă este în stransă legătură cu
rata fertilității. Cele două componente e și normal să fie similare însă nu identice, diferențe
făcându-o cei ce migreză în altă țară și aplicând pentru cetățenie.

C0 C1
SV 0.802674 0.032427
RCP 0.923284 -0.1885
SN 0.882738 0.3526
RMG 0.808535 -0.37866
RF 0.022213 0.926841
RM -0.84217 -0.14525

Figura 2.3. Corelații factoriale Tabel 2.2. Corelații factoriale


Academia de Studii Economice, Informatică Economică Page 6
2.3. Calculul scorurilor

Scorurile sunt proiecțiile normalizate ale tarilor în axele principale (axele componentelor
principale). Proiecțiile în primele două axe sunt prezentate în figura 2.4. Tabelul scorurilor
pentru componente este prezentat în tabelul 2.3. În tabel putem urmării și distribuția pe
componenta 3. A se observa cum Malta s-a difențiat cel mai mult de restul țărilor Uniunii
europene având cea mai mare rată de creștere a populației. Această creștere este datorată
nu ratei natalițății ci a migrației. Pe de altă parte, în Franța și Irlanda, raportul de creștere a
populației este determinat cu precădere de rata natalității. A se vedea figura 2.5 pentru
corelațiile componentelor principale.

Figura 2.4. Plot scoruri

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 7


C0 C2 C3 C4 C5
Austria 1.470482 -0.01021 -0.99377 0.203084 -0.71708
Belgium 0.518185 0.566134 0.392996 -0.37003 0.292351
Bulgaria -3.33251 -0.77563 1.016262 -0.19831 -0.21313
Croatia -2.81766 -0.53224 -0.84659 0.170152 0.151298
Cyprus 2.210095 -0.64595 -0.92224 1.500098 0.019106
Czech
Republic -0.00703 0.39073 0.202918 0.275302 0.052725
Denmark 0.717843 1.22698 0.501363 -0.32445 0.080896
Estonia -1.25989 -0.25101 1.394468 -0.02549 0.675843
Finland 0.015306 0.027237 -0.21223 -0.38547 0.09083
France 1.161775 2.3036 -0.10104 -0.64595 -0.05256
Germany -0.03351 -0.21217 0.424552 -0.75648 -0.09959
Greece -0.88072 -1.09903 -0.81434 -0.61956 -0.04689
Hungary -1.96767 -0.63357 0.806956 0.202658 -0.09261
Ireland 2.86523 2.049361 -0.39611 0.832292 0.121693
Italy -0.26981 -1.26611 -1.31941 -0.94875 -0.18986
Latvia -3.15691 0.712798 1.146324 0.331444 -0.11647
Lithuania -3.16998 1.002466 -0.29422 0.555953 -0.45035

Luxembour
g 2.897314 -1.18749 0.37504 0.372864 0.251731
Malta 4.187417 -2.60629 2.132394 0.043595 -0.4059

Netherlands 0.810619 0.877534 -0.75138 -0.14894 -0.17593


Poland -0.53733 -0.69895 -0.52319 0.797954 0.421606
Portugal -0.52742 -1.08923 -0.99829 -0.73612 0.257032
Romania -2.36032 0.280355 0.503872 0.570419 -0.39211
Slovakia -0.31216 -0.18243 -0.25373 1.201644 0.177258
Slovenia -0.24597 0.194225 -0.19432 -0.46831 0.484432
Spain 0.736567 -1.09951 -1.30972 -0.39771 -0.00566
Sweden 2.041399 1.293207 0.868829 -0.71068 -0.14554
United
Kingdom 1.246657 1.365187 0.164615 -0.32121 0.026886
Austria 1.470482 -0.01021 -0.99377 0.203084 -0.71708

Academia de Studii Economice, Informatică Economică Page 8


Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 9
Figura 2.4. Plot scoruri componente principale
3. Analiza de clusteri

Vom efectua două clasificări ale instanțelor, prin metoda Ward și prin legătură completă și o
clasificare a indicatorilor prin legătură completă.

3.1. Clasificarea țărilor prin metoda Ward Metrica utilizând metrica


euclidiană

Mai întâi vom determina și analiza partiția optimală, apoi o partiție aleasă după examinarea
graficului dendrogramă. Graficul dendrogramă este prezentat în figura 3.1, iar componența
clusterelor în tabelul 3.1. În anexa 1 sunt sunt prezentate câteva distribuții care scot în evidență
diferențe clare între cele patru clustere ale partiției optimale. După cum se poate observa
partiția optimală conține patru clustere. Analiza clusterelor se face urmărind distribuția fiecărui
indicator pentru fiecare cluster. În acest fel se identifică particularitățile și diferențele dintre
clustere. Conform dendogramelor Malta este singura țară din UE ce are o rată atât de mare de
creștere a populației atât prin absorbția imigranților cât și prin echilibrarea ratelor de decese și
cea a fertilității. Prin contrast cu clusterul C0, în clusterul C1 sunt țările ale căror raport dintre
RM (rata mortalității) și RF (rata fertilității) este foarte mare, iar rata de creștere a populației
este negativă.

Cluster Figura 3.1. Partiția Țări


optimală

C0 Malta
C1 Bulgaria, Croația, Latvia, Lithuania, Romania,
C2 Cyprus, Ireland, Luxembourg, Sweden,
Belgium, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary,
C3 Italy, Netherlands, Poland, Portugal, Slovakia, Slovenia, Spain, United Kingdom, Austria

Tabel 3.1. Partiția optimală

Academia de Studii Economice,Figura 3.1. Partiția


Informatică optimală. Dendrogramă
Economică Page 10
Clasificarea în metrică mahalanobis furnizează clustere coerente cu varianță intra-cluster mică
și varianță inter-clustere mare. În figura 3.2 este prezentat graficul dendrogramă cu
evidențierea partiției optimale. Se observă existența multor clustere singleton (formate dintr-o
singură instanță). Distanțele de joncționare sunt destul de apropiate între ele, prin urmare
partițiile sunt uniform repartizate în graficul ierarhie. În tabelelul 3.2 sunt prezentate clusterele
pentru partiția optimală, iar in 3.3. prin comparație, gruparea pe 5 clustere.

Tabel 3.2. Partiția optimală

Cluster Țări
C0 Malta
Austria, Belgium, Denmark, Finland, France, Finland, France, Germany, Greece, Italy,
C1 Luxembourg, Netherlands, Portugal, Slovenia, Spain, Sweden, United Kingdom
Bulgaria, Croatia, Cyprus, Czech Republic, Estonia, Hungary, Ireland, Latvia, Lithuania,
C2 Poland, Romania, Slovakia,

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 11

Tabel 3.2. Partiția optimală


Țara Partiția optimă Partiția cu 5 clustere
Austria g1 g1
Belgium g1 g3
Bulgaria g2 g2
Croatia g2 g2
Cyprus g2 g4
Czech
Republic g2 g4
Denmark g1 g3
Estonia g2 g2
Finland g1 g3
France g1 g3
Germany g1 g3
Greece g1 g3
Hungary g2 g2
Ireland g2 g4
Italy g1 g1
Latvia g2 g2
Lithuania g2 g4
Luxembourg g1 g3
Malta g0 g0
Netherlands g1 g3
Poland g2 g2
Portugal g1 g3
Romania g2 g4
Slovakia g2 g2
Slovenia g1 g3
Spain g1 g3
Sweden g1 g3
United
Kingdom g1 g3
Austria g1 g1
Tabel 3.3. Partiții

3.3. Clsificarea variabilelor

Deși se utilizează în general pentru clasificare de instanțe, analiza de clusteri poate fi utilizată și
pentru grupare de variabile dacă sunt alese metrici potrivite. Pachetul Python scipy are

Academia de Studii Economice, Informatică Economică Page 12


implementate metrici pentru variabile, cum ar fi distanța bazată pe coeficienții de corelație. În
figura 3.3 este prezentat graficul dendrogramă cu evidențierea partiției optimale. Metoda de
grupare este prin media legăturilor.

4. B I B L I O G RFigura
A F I3.3.
E Gruparea variabilelor prin media legăturilor

[1]https://ec.europa.eu/eurostat/tgm/table.do?
tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1
[2] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1
[3]https://ec.europa.eu/eurostat/tgm/refreshTableAction.do?tab=table&plugin=1&pcode=tps00019&language=en
[4] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1
[5] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00199&plugin=1
[6] R Black, G Engbersen, M Okólski , “A continent moving west?: EU enlargement and labor migration from Central
and Eastern Europe”, 2010

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 13


ANEXĂ 1

Figura A.1.1. Partiția optimală. Histograma raportului de


creștere al populației

Academia de Studii Economice, Informatică Economică Page 14


Figura A.1.2. Partiția optimală. Histograma ratei migrației

Figura A.1.2. Partiția optimală. Histograma raportului dintre rata mortalității


și cea a fertilității

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 15

S-ar putea să vă placă și