Documente Academic
Documente Profesional
Documente Cultură
Uniunii Europene
Analiza Datelor
(Proiect)
Profesor coordonator:
Furtuna Titus Felix Student:
Slobodnicu Ana-Maria, 1121
2019
București
Cuprins
1. Introducere
1.1.Tema proiectului
1.2.Date de intrare
2. Analiza în componente principale
2.1. Analiza variabilității datelor
2.1.1. Analiza matricei de corelații
2.1.2. Analiza valorilor proprii. Varianța componentelor
principale
2.2. Calculul corelațiilor dintre variabilele observate și componentele
principale
2.3. Calculul scorurilor
3. Analiza de clusteri
3.1. Clasificarea țărilor prin metoda Ward Metrica utilizând este
metrica euclidiană
3.2. Clasificarea țărilor prin legătură completă și metrică Mahalanobis
3.3. Clsificarea variabilelor
4. Bibliografie
Pentru acest proiect s-a ales ca temă schimbările demografice din tările Uniunii Europene,
luând în considerare un set de șase indicatori. Indicatorii utilizați cât și prescurtările se pot găsi
în tabelul 1.1. Acești indicatori sunt calculați pentru fiecare țară europeană din prezent.
Cod Semnificatie
SV Speranța de viață (2018) [ani]
RCP Raport creștere populație în anul (2017)[ ‰]
SN Schimbări naturare (2017)[ ‰]
RMG Rata migrației (2017)[ ‰]
RF Rata fertilității (2016)
RM Rata mortalității (2016) [ ‰ – unități per 1000 de indivizi anual]
Tabel 1.1. Indicatori de calcul
Acest studiu este abordat din două etape. Prima etapă presupune analiza în componente
principale a schimbărilor demografice din țările Uniunii Europenela nivelul anului 2018. A doua
etapă constă în gruparea acestor țări prin algoritmi de clusterizare ierarhică după îndicatorii
descriși anterior.
1.2.Date de intrare
Datele utilizate în acest studiu au fost preluate de pe Eurostat [1], [2], [3], [4] și [5] pentru
fiecare țară individual.
O primă imagine asupra variabilității este dată de matricea de corelații dintre variabilele
observate. Corelațiile puternice sunt cele care indică variabile între care există strânsă legătură,
deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din care se vor
construi componentele principale. În figura 2.1 este prezentată corelograma variabilelor
observate. Din analiza graficului rezultă că raportul de creștere a populației, schimbările
naturale și rata migrației generează cele mai mari corelații, deci aceste variabile vor contribui
cel mai mult la constituirea componentelor principale.
Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind peste
60% din variabilitate.
Aceste corelații numite și corelații factoriale (eng. factor loadings) se calculează pornind de la
vectorii proprii ai matricei de corelație. Ele reprezintă coeficienții de corelație liniară dintre
variabilele observate și componentele principale. Fiind calculate din vectorii proprii ele reflectă
saturațiile componentelor în fiecare variabilă observată sau altfel spus, contribuția fiecărei
variabile observate la constituirea unei componente principale. În tabelul 3 sunt prezentate
aceste corelații pentru cele mai semnificative trei componente principale. Aceste corelații sunt
importante în încercarea de a denomina componentele principale. Din corelograma din figura
2.3 și tabelul 2.2 se poate identifica ca prima componentă principală este puternic corelată cu
raportul de creșter al populaței (RCP), iar următoarea componentă este în stransă legătură cu
rata fertilității. Cele două componente e și normal să fie similare însă nu identice, diferențe
făcându-o cei ce migreză în altă țară și aplicând pentru cetățenie.
C0 C1
SV 0.802674 0.032427
RCP 0.923284 -0.1885
SN 0.882738 0.3526
RMG 0.808535 -0.37866
RF 0.022213 0.926841
RM -0.84217 -0.14525
Scorurile sunt proiecțiile normalizate ale tarilor în axele principale (axele componentelor
principale). Proiecțiile în primele două axe sunt prezentate în figura 2.4. Tabelul scorurilor
pentru componente este prezentat în tabelul 2.3. În tabel putem urmării și distribuția pe
componenta 3. A se observa cum Malta s-a difențiat cel mai mult de restul țărilor Uniunii
europene având cea mai mare rată de creștere a populației. Această creștere este datorată
nu ratei natalițății ci a migrației. Pe de altă parte, în Franța și Irlanda, raportul de creștere a
populației este determinat cu precădere de rata natalității. A se vedea figura 2.5 pentru
corelațiile componentelor principale.
Luxembour
g 2.897314 -1.18749 0.37504 0.372864 0.251731
Malta 4.187417 -2.60629 2.132394 0.043595 -0.4059
Vom efectua două clasificări ale instanțelor, prin metoda Ward și prin legătură completă și o
clasificare a indicatorilor prin legătură completă.
Mai întâi vom determina și analiza partiția optimală, apoi o partiție aleasă după examinarea
graficului dendrogramă. Graficul dendrogramă este prezentat în figura 3.1, iar componența
clusterelor în tabelul 3.1. În anexa 1 sunt sunt prezentate câteva distribuții care scot în evidență
diferențe clare între cele patru clustere ale partiției optimale. După cum se poate observa
partiția optimală conține patru clustere. Analiza clusterelor se face urmărind distribuția fiecărui
indicator pentru fiecare cluster. În acest fel se identifică particularitățile și diferențele dintre
clustere. Conform dendogramelor Malta este singura țară din UE ce are o rată atât de mare de
creștere a populației atât prin absorbția imigranților cât și prin echilibrarea ratelor de decese și
cea a fertilității. Prin contrast cu clusterul C0, în clusterul C1 sunt țările ale căror raport dintre
RM (rata mortalității) și RF (rata fertilității) este foarte mare, iar rata de creștere a populației
este negativă.
C0 Malta
C1 Bulgaria, Croația, Latvia, Lithuania, Romania,
C2 Cyprus, Ireland, Luxembourg, Sweden,
Belgium, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary,
C3 Italy, Netherlands, Poland, Portugal, Slovakia, Slovenia, Spain, United Kingdom, Austria
Cluster Țări
C0 Malta
Austria, Belgium, Denmark, Finland, France, Finland, France, Germany, Greece, Italy,
C1 Luxembourg, Netherlands, Portugal, Slovenia, Spain, Sweden, United Kingdom
Bulgaria, Croatia, Cyprus, Czech Republic, Estonia, Hungary, Ireland, Latvia, Lithuania,
C2 Poland, Romania, Slovakia,
Deși se utilizează în general pentru clasificare de instanțe, analiza de clusteri poate fi utilizată și
pentru grupare de variabile dacă sunt alese metrici potrivite. Pachetul Python scipy are
4. B I B L I O G RFigura
A F I3.3.
E Gruparea variabilelor prin media legăturilor
[1]https://ec.europa.eu/eurostat/tgm/table.do?
tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1
[2] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1
[3]https://ec.europa.eu/eurostat/tgm/refreshTableAction.do?tab=table&plugin=1&pcode=tps00019&language=en
[4] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1
[5] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00199&plugin=1
[6] R Black, G Engbersen, M Okólski , “A continent moving west?: EU enlargement and labor migration from Central
and Eastern Europe”, 2010