Sunteți pe pagina 1din 27

ACADEMIA DE STUDII ECONOMICE BUCUREŞTI

FACULTATEA DE CIBERNETICĂ STATISTICĂ ȘI


INFORMATICĂ ECONOMICĂ

PROIECT ANALIZA
DATELOR

Nivelul de dezvoltare al regiunilor din Europa și efectele pandemiei


COVID-19

Cadrul didactic coordonator:

Lect. univ. dr. Zamfir Ionela Cătălina

Studenți:

Constantin Georgiana-Cristina

Constantinescu Amalia-Lavinia

Grupa 1072A

Anul 2022 - 2023


Cuprins
Introducere 2
Definirea obiectivelor. Descrierea datelor 3
Statistici descriptive 4
Analiza componentelor principale 14
Analiza cluster 19
Concluzii 25
Referințe 26
Anexe 26

1
Introducere

Analiza datelor este un proces de inspecție, curățare, transformare și modelare a


datelor cu scopul de a descoperi informații utile, de a da concluzii cu rol informativ și de a
facilita luarea deciziilor. Analiza datelor are multiple fațete și abordări, care cuprind tehnici
diverse sub o varietate de nume și este utilizată în diferite domenii de afaceri, știință și
discipline ale științelor sociale (economie, geografie, demografie etc.). Din ce în ce mai des,
companiile abordează acest tip de proces în luarea deciziilor.
Cele mai des utilizate metode de analiză a datelor sunt:
● Analiza componentelor principale;
● Analiza regresiei: presupune modelarea relațiilor și corelațiilor între diferite
variabile;
● Analiza factorială;
● Analiza de grup: necesită gruparea datelor în funcție de caracteristici specifice;
● Analiza cluster: asigură că obiectele dintr-un grup sunt mai similare între ele decât
obiectele din alte grupuri;
● Analiza seriilor de timp: atunci când datele pot fi organizate în timp (de exemplu,
prețurile bursei), analiza seriilor temporale prevede comportamentul viitor;
● Analiza textului: la analiza e-mailurilor, a răspunsurilor la sondajele deschise sau la
extragerea textului.

În analiza noastră vom utiliza două tehnici principale din analiza datelor: sinteza
informațională (analiza componentelor principale) și recunoașterea supervizată a formelor
(analiza cluster).

2
Definirea obiectivelor. Descrierea datelor

Obiectivul acestui proiect îl constituie surprinderea nivelului de dezvoltare al


anumitor regiuni din Europa, în anul 2020, asociat cu debutul pandemiei COVID-19, care a
marcat în mod definitoriu activitatea la nivel european, impunând decizii de natură
economică și socială radicale.
Folosind cunoștințele dobândite la Analiza datelor pe parcursul semestrului, am
comparat valorile a diferiți indicatori care evidențiază anumite arii de interes, precum
sistemul medical, industria tehnologică, calitatea vieții, natalitatea, mortalitatea, etc., pentru
fiecare zonă aleasă.
Datele au fost extrase de pe Eurostat, conform clasificării NUTS 2 și ulterior
introduse în Microsoft Excel. Pentru a identifica regiunile cărora li s-au atribuit valori, am
utilizat funcția VLOOKUP, realizând astfel o bază de date cu 88 de regiuni care să conțină
date pentru fiecare indicator.

X1 - Rata spații cazare turiști


X2 - PIB/capita
X3 - Nașteri vii (număr copii)
X4 - Rata fertilității (copil/femeie)
X5 - Speranța de viață (ani)
X6 - Victime accidente rutiere (număr persoane)
X7 - Transport aerian (număr pasageri)
X8 - Rata participării la educație (% tineri între 15-24 de ani)
X9 - Rata mortalității infantile
X10 - Angajați industria Tech (%)
X11 - Acces la internet în gospodării (%)
X12 - Decese raportate (număr persoane)
X13 - Populație (număr persoane)
X14 - Rata decese raportate
X15 - Personal medical (număr persoane)

3
Statistici descriptive

Figura 1 - Statistici descriptive

Interpretare pentru variabila X1 - Rata spații cazare turiști


● Media
În medie, în perioada analizată, rata locurilor de cazare pentru turiști a fost de 31.99%.
Impactul negativ al pandemiei a fost resimțit la nivelul tuturor industriilor, în special la
nivelul turismului care a fost nevoit să stagneze până la revenirea la normal a condițiilor de
călătorie.
● Min/Max
Pandemia de COVID-19 a avut un impact dramatic asupra turismului din UE:
fluxurile turistice și veniturile din turism au scăzut vertiginos, iar numeroase spații de cazare
au fost închise sau au devenit spații de spitalizare pentru cei infectați cu COVID-19. Astfel,
ratele înregistrate iau valori între 16% (București-Ilfov) și 46% (Insulele Canare). Conform
Eurostat, în 2019, Insulele Canare au avut o rată a spațiilor de cazare de 73.43% , Spania
fiind una din țările cu cele mai dure restricții privind turismul.
● Mediana
Mediana, indicatorul tendinței centrale ce împarte seria de date ordonată în două
jumătăți egale, are valoarea de aproximativ 29.7%, fiind mai mică decât valoarea medie.
● Quartilele
1. Prima quartilă (Q1) delimitează cele mai mici 25% din valori. Astfel, 25% din
valorile ratei spațiilor de cazare sunt mai mici de 24.75%, iar 75% dintre valori sunt
mai mari de 24.75%;
2. A treia quartilă (Q3) delimitează cele mai mari 25% din valori. Deci, 25% dintre
valori sunt mai mari decât 44.98% și 75% din valori sunt mai mici decât 44.98% ;
3. Mediana (Q2) împarte setul de date în două: 50% din valori sunt sub 29.70% și 50%
se află peste această valoare.

4
Interpretare pentru variabila X2 - PIB/capita
● Media
Valoarea medie a PIB/capita a fost de 2.896 mil euro/locuitor. Deoarece activitatea
oamenilor stagna, multe industrii au avut de suferit, PIB-ul fiind unul din indicatorii
economici care a scăzut. Pe parcursul anului 2020, produsul intern brut (PIB) colectiv al
lumii a scăzut cu 3.4%. Pentru a pune acest număr în perspectivă, PIB-ul global a atins 84.54
trilioane de dolari SUA în 2020 – ceea ce înseamnă că o scădere de 3.4% a creșterii
economice ce are ca rezultat pierderi de producție economică de peste două trilioane de
dolari.
● Min/Max
Valoarea minimă înregistrată a PIB/capita a fost de 0.620 mii euro /loc, iar cea mai
mare a fost de 10.26 mii euro /loc.
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.775 , iar 75% dintre
valori sunt mai mari de 1.775;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 3.79 și 75% din valori
sunt mai mici decât 3.79;
3. 3. Mediana (Q2): 50% din valori sunt sub 2.896 și 50% se află peste această valoare.

Interpretare pentru variabila X3 - Nașteri vii


● Media
Media nașterilor vii a fost de 17.435 de copii. Rata natalității a fost afectată și de
accesul redus al femeilor cu venituri mici la contracepție.
● Min/Max
Valoarea minimă înregistrată a fost de 3.407 copii (regiunea Cantabria, Spania), iar
cea maximă a fost de 69.235 copii (regiunea Lombardia, Italia).
● Quartilele
1. Prima quartilă (Q1): 25% din valori sunt mai mici de 9.009 copii, iar 75% dintre
valori sunt mai mari de 9.009 copii;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 22.205 copii și 75% din
valori sunt mai mici decât 22.205 copii;
3. Mediana (Q2): 50% din valori sunt sub 13.836 copii și 50% se află peste această
valoare.

5
Interpretare pentru variabila X4 - Rata fertilității
● Media
Media variabilei X4 este de 1.45 copii/femeie (aprox.1 copil/femeie). Ratele globale
de fertilitate sunt în scădere de ani de zile, iar pandemia de COVID-19 a amplificat această
tendință. Scăderea ratelor de fertilitate și a dorinței mai scăzute de a avea copii pot avea
implicații grave asupra creșterii economice. Acest trend are implicații pentru dinamica
populației în anii următori – mai puține nașteri în următorii câțiva ani ar putea duce la mai
puțin sprijin, deoarece forța de muncă de astăzi atinge vârsta de pensionare.
● Min/Max
Valoarea minimă a variabilei X4 este de 0.020%, iar valoarea maximă este de 2.78%
(Lombardia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.25%, iar 75% dintre
valori sunt mai mari de 1.25;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 1.66% și 75% din valori
sunt mai mici decât 1.66%;
3. Mediana (Q2): 50% din valori sunt sub 1.45% și 50% se află peste această valoare.

Interpretare pentru variabila X5 - Speranța de viață


● Media
Pentru variabila X5, speranța de viață medie este de 80.53 ani. Pandemia de COVID-
19 a declanșat o creștere fără precedent a mortalității, care s-a tradus în scăderi ale speranței
de viață în întreaga lume, cu doar câteva excepții.
● Min/Max
Valoarea maximă a speranței de viață este de 83.90 ani (Insulele Baleale), iar cea
minimă este 73.30 ani (Yugozapaden, Bulgaria).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 78.8, iar 75% dintre
valori sunt mai mari de 78.8;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 82.42 și 75% din valori
sunt mai mici decât 82.42;
3. Mediana (Q2): 50% din valori sunt sub 1.45 și 50% se află peste această valoare.

6
Interpretare pentru variabila X6 - Victime accidente rutiere
● Media
Media variabilei X6 este de 5.604 victime. Volumul traficului a scăzut drastic în
timpul pandemiei de COVID-19, care a fost asociat cu o scădere semnificativă a coliziunilor
în trafic la nivel global și o reducere a deceselor rutiere în 32 din 36 de țări în 2020,
comparativ cu 2019.
● Min/Max
Valoarea minimă este de 380 de victime (Sjaelland,Danemarca), iar valoarea maximă
este de 45.172 de victime (Abruzzo,Italia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.521 persoane , iar
75% dintre valori sunt mai mari de 1.521 persoane;
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 5.797 persoane și 75%
din valori sunt mai mici decât 5.797 persoane;
3. Mediana (Q2): 50% din valori sunt sub 3.134 persoane și 50% se află peste această
valoare.

Interpretare pentru variabila X7 - Transport aerian


● Media
Media variabilei X7 este de 2.432.409 pasageri. Pandemia de coronavirus a avut un
impact fără precedent asupra transportului aerian din Uniunea Europeană și din restul lumii.
În timpul primului val, majoritatea statelor membre au impus interdicții de intrare sau de zbor
și alte restricții de călătorie, blocând aproape zborurile de pasageri.
● Min/Max
Valoarea minimă este de 3.000 de pasageri, iar valoarea maximă este de 16.495.000
de pasageri. Aeroportul Adolfo Suárez Madrid-Barajas a înregistrat cel mai mare număr de
pasageri în a zecea lună a anului 2020 .
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 166 000, iar 75%
dintre valori sunt mai mari de 166.000;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 2.786.000 și 75% din
valori sunt mai mici decât 2.786.000;

7
3. Mediana (Q2): 50% din valori sunt sub 733.000 și 50% se află peste această valoare.

Interpretare pentru variabila X8 - Rata participării la educație


● Media
Media variabilei X8 este de 63.45%. Închiderea școlilor și organizarea arbitrară a unor
cursuri școlare online, acolo unde a fost posibil și fără instrumente de evaluare a calității
procesului de educație, a dus la situații-limită. Îngrădirea accesului la educație pentru copiii
vulnerabili, fără acces la internet și/sau la dispozitive care să le permită participarea online au
dus a creșterea ratei de abandon școlar și implicit la descreșterea ratei de participare la
educație.
● Min/Max
Valoarea minimă este de 40.40% (Yugoiztochen,Bulgaria), iar valoarea maximă este
de 100% (Praga, Budapesta, București-Ilfov, Bratislava).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 55.67% , iar 75% dintre
valori sunt mai mari de 55.67%;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 68.58% și 75% din valori
sunt mai mici decât 68.58%;
3. Mediana (Q2): 50% din valori sunt sub 64.05% și 50% se află peste această valoare.

Interpretare pentru variabila X9 - Rata mortalității infantile


● Media
Media variabilei X9 este de 2.935%. În plus, 267.000 de copii ar fi murit probabil în
2020 în țările cu venituri mici și medii, ca urmare a recesiunii economice cauzate de COVID-
19, arată un studiu de modelare, publicat în jurnalul online BMJ Open.
● Min/Max
Valoarea minimă este de 1.20% (Sardinia), iar valoarea maximă este de 8.7%
(Východné Slovensko, Slovacia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 2.1 %, iar 75% dintre
valori sunt mai mari de 2.1%;
2. A treia quartilă (Q3) delimitează cele mai mari 25% din date. 25% dintre valori sunt
mai mari decât 3.2% și 75% din valori sunt mai mici decât 3.2%;

8
3. Mediana (Q2) împarte setul de date în două : 50% din valori sunt sub 2.93 % și 50%
se află peste această valoare.

Interpretare pentru variabila X10 - Angajați în industria Tech


● Media
Media variabilei X10 este de 27.66%. Sectorul IT se caracterizează în continuare
printr-o cerere mare de forță de muncă. În pandemie, din cauza restricțiilor sanitare, necesarul
de cunoscători ai domeniului a crescut, fiecare sector fiind nevoit să își adapteze modul de
lucru la cerințele impuse.
● Min/Max
Valoarea minimă este de 4.90%(Alentejo -o regiune istorică a Portugaliei), iar
valoarea maximă este de 95.20% (Hovedstaden,Danemarca).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 12.20 % , iar 75%
dintre valori sunt mai mari de 12.20%;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 35.73 % și 75% din
valori sunt mai mici decât 35.73%;
3. Mediana (Q2): 50% din valori sunt sub 22.85 % și 50% se află peste această valoare.

Interpretare pentru variabila X11 - Acces la internet în gospodării


 Media
Media variabilei X11 este de 90.20%. Datorită restricțiilor, activitățile economice și
sociale devin mai digitalizate, cetățenii și întreprinderile se bazează pe internet și pe
conectivitate. Astfel, din ce în ce mai mulți oameni sunt conectați la internet fie pentru a-și
desfășura munca, fie pentru a socializa ori a se documenta.
● Min/Max
Valoarea minimă este de 77.24% (Yugoiztochen,Bulgaria ), iar valoarea maximă este
de 97.86% (Uusima, Finlanda).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 86.83%, iar 75% dintre
valori sunt mai mari de 86.83%;

9
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 94.41 % și 75% din
valori sunt mai mici decât 94.41 %;
3. Mediana (Q2): 50% din valori sunt sub 91.08 % și 50% se află peste această valoare.

Interpretare pentru variabila X12 - Decese raportate


● Media
Media variabilei X12 este de 25.127 de decese. Odată cu apariția virusului Sars-Cov-
2, numărul de decese a început să crească alarmant, sistemul medical nefiind pregătit să
interneze atâția bolnavi. Astfel, sistemul medical nu a putut suporta agresivitatea și viteza cu
care virusul ataca populația.
● Min/Max
Valoarea minimă este de 4.084 de decese, iar valoarea maximă este de 135.595 de
decese .
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 12.369 decese , iar 75%
dintre valori sunt mai mari de 12.369 decese;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 32.874 decese și 75% din
valori sunt mai mici decât 32.874 decese;
3. Mediana (Q2): 50% din valori sunt sub 16.733 decese și 50% se află peste această
valoare.

Interpretare pentru variabila X13 – Populație total (2020)


● Media
Media variabilei X13 este de 2.111.453. An de an, ratele natalității din țările mai
bogate și cu venituri medii scad sub „nivelul de înlocuire” critic – nivelul la care oamenii au
destui copii pentru a menține nivelul actual al populației. O societate are nevoie de 2.1 copii
per femeie pentru ca populația să rămână stabilă.
● Min/Max
Valoarea minimă este de 376.157 persoane (Middle Norrland-71 122 km2 ,Suedia), iar
valoarea maximă este de 10.027.602 persoane (Lombardia-23 844 km2,Italia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 376.157 persoane, iar
75% dintre valori sunt mai mari de 376.157 persoane;

10
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 2.316.620persoane și
75% din valori sunt mai mici decât 2.316.620 persoane;
3. Mediana (Q2): 50% din valori sunt sub 1.515.336 persoane și 50% se află peste
această valoare.

Interpretare pentru variabila X14 - Rata decese raportate


● Media
Media variabilei X14 este de 1.189%.
● Min/Max
Valoarea minimă este de 0,71%, iar cea mai mare valoare este de 2.2% .
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.01%, iar 75% dintre
valori sunt mai mari de 1.01%;
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 1.33% și 75% din valori
sunt mai mici decât 1.33%;
3. Mediana (Q2): 50% din valori sunt sub 1.155% și 50% se află peste această valoare.

Interpretare pentru variabila X15 - Personal medical


● Media
Media variabilei X15 este de 9.009 persoane. Personalul din sistemul medical a fost
luat prin suprindere de apariția acestui nou virus. A existat o criză de personal medical, de
obiecte sanitare și de locuri în spitale pentru bolnavi. Cadrele medicale existente erau
suprasolicitate ori se îmbolnăveau de Covid și erau nevoite să se carantineze minim 2
săptămâni. Astfel, sistemul medical a suferit o criză și a scos la iveală probleme existente din
sistemul sanitar.
● Min/Max
Valoarea minimă este de 363 persoane, iar valoarea maximă este de 38.433 persoane.
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 3.517 persoane, iar
75% dintre valori sunt mai mari de 3.517 persoane;
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 12.334 persoane și 75%
din valori sunt mai mici decât 12.334 persoane;
3. Mediana (Q2): 50% din valori sunt sub 6.092 persoane și 50% se află peste această
valoare.

11
Figura 2-Coeficientul deFigura
asimetrie,
2 - Coeficientul
aplatizarede asimetrie,
și coeficientul
de aplatizare
de variație
și coeficientul de variație

În ceea ce privește coeficientul de asimetrie, pentru indicatorii X4 (Rata fertilității),


X5 (Speranța de viață (%)) și X11 (Acces la internet în gospodării (%)) rezultatele sunt
negative (-0.12, -1.21, -0.76), sugerând predominanța valorilor mari. Acest lucru denotă
faptul că în anul 2020, deși au predominat evenimente neplăcute, din anumite puncte de
vedere, calitatea vieții a fost una destul de bună. Cu toate că multe dintre școli, universități și
companii au optat către varianta remote de desfășurare a activităților, nu foarte multe
persoane au fost puse în dificultate. Totodată, deoarece interacțiunile sociale nu au fost
permise în timpul pandemiei, au putut fi evitate îmbolnăvirile, respectiv s-au diminuat șansele
de a avea o formă gravă de COVID-19. În plus, asimetria la stânga pentru indicatorul X5
poate sugera ușurința de acces a femeilor la sistemul medical pentru îngrijire și pentru
monitorizarea sarcinilor
Pentru toți ceilalți indicatori analizați, atât în outputul din figura 2, cât și în boxplot, se
regăsesc doar asimetrii la dreapta, accentuând existența valorilor mici.
Coeficientul de aplatizare pentru 13 din 15 indicatori are valori mai mari decât 3, ceea
ce denotă absența outlierilor și omogenitatea datelor extrase pentru cele 88 de regiuni din
Europa. Rata spațiilor de cazare pentru turiști și accesul la internet în gospodării reprezintă
distribuții platicurtice, adică rezultatele sunt foarte împrăștiate față de medie.
Valorile coeficientului de variație sunt, în mare parte, de peste 30-35%, fapt ce
demonstrează că mediile nu sunt reprezentative pentru analiză. Rata spațiilor de cazare pentru
turiști, speranța de viață, accesul la internet în gospodării și rata deceselor raportate s-au

12
calculat din valori omogene, fenomenele de care depind fiind mai puțin complexe decât la
ceilalți indicatori.

Conform figurii Z, există o legătură liniară directă între X3 (Nașteri vii) și X6


(Victime accidente rutiere), ceea ce presupune că variază în același sens. Se observă din
grafic și prezenta valorilor aberante, de exemplu în Italia și Spania întâlnim regiuni unde
personalul medical este numeros, ceea ce înseamnă că există mai multe nașteri vii, dar și
accidentele sunt mai dese din cauza aglomerării și a străzilor înguste.

Analiza componentelor principale

Figura 3 - Boxploturi

13
Analiza componentelor principale (ACP) este o tehnică de reducere a
dimensionalității seturilor de date, crescând interpretabilitatea, dar în același timp minimizând
pierderea de informație. Acest lucru se realizează prin crearea de componente principale care
nu reprezintă redundanță informațională.
Datele inițiale cuprind 15 variabile a câte 88 de observații, iar primele 5 componente
principale preiau 78% din întreaga informație. Știind că un vector propriu al unei transformări
liniare pe un spațiu vectorial este un vector nenul a cărui direcție rămâne neschimbată de
către acea transformare, factorul prin care mărimea vectorului este scalată se numește
valoarea proprie a acelui vector. Astfel, graficul scree plot, denumit ACP1 surprinde
descreșterea valorilor proprii.

Figura 5 - ACP1
Figura 6 - Scree plot

14
Reprezentarea grafică a regiunilor, având pe axe primele două componente principale
rezultate prin combinația liniară dintre variabilele inițiale arată ca în figura 7. Se pot
identifica cu ușurință valorile aberante, adică zonele din Italia, Spania, Bulgaria și România.

Figura 7 - Reprezentarea grafică a regiunilor

Urmărind matricea de corelație din figura 8, identificăm atât coeficienți de corelație


pozitivi, atunci când două variabile corelate variază în acelaşi sens, cât și coeficienți negativi,
în situațiile în care variază în sens contrar.

Figura 8 - Analiza corelației - date inițiale

15
În general, variabilele se corelează la nivel mediu, înregistrând valori cuprinse între
[0.40; 0.60], dar se pot identifica și corelații mai puternice. Cel mai mare coeficient corelație
se regăsește între variabilele X13 (Populație totală) și X3 (Nașteri vii), cât și între X13 și X12
(Decese raportate), valoarea fiind de 0.96. Din dorința de a evita suprapunerea informațională
și comportamentul similar, alegem să eliminăm indicatorul X13 din analiză.

Figura 9 - Analiza corelației - date finale

Aplicând din nou analiza


componentelor principale, de data
aceasta asupra datelor finale, fără
variabila 13, obținem:

Figura 10 - Cercul corelației

16
În figura 10, ordonatele fiecărei variabile sunt date de coordonatele corelației,
lungimea vectorului arată contribuția lui, iar unghiul dintre 2 variabile originale oferă
informații privind corelația dintre ele. Astfel, cu cât unghiul este mai mic, cu atat variabilele
sunt mai corelate și cu cât unghiul este mai mare, cu atât variabilele sunt mai puțin corelate.
De asemenea, cu cât o variabila este reprezentată mai bine de primele 2 componente
principale cu atât lungimea vectorului pe grafic se apropie de circumferința cercului de rază 1
(indicatorii X12, X3, X15), adică arată de unde componentele principale extrag cea mai multă
informație.

Figura 11 - ACP2 în urma eliminării variabilei X13

Conform criteriului Kaiser, care este singurul criteriu de natură obiectivă dintre toate
cele 3 (criteriul pantei, criteriul procentului de acoperire, criteriul Kaiser), există 4 valori
proprii lambda mai mari decât 1, deci numărul de componente principale care merită păstrate
în analiză este de 4.

17
Figura 12 - Contribuție componente principale

În prima parte a figurii C regăsim valorile proprii, ponderea de informație preluată de


fiecare componentă principală în mod individual și ponderea de informație cumulată pentru
toate cele 14 componente principale. Întrucât preiau 81.956% > 80% din informația totală, se
vor reține în analiză primele 6 componente principale.
Mai mult, categoria Individuals conține, pe coloane, distanța față de centroidul norului
de puncte (Dist), coordonatele pe fiecare axă (scorurile principale), contribuția la construcția
axei (ctr) și calitatea reprezentării pe fiecare axă (cos2).
Variables cuprinde coloanele matricii factor (dim) - care arată corelația dintre
variabilele inițiale și componentele principale, contribuția la construcția componentelor (ctr)
și calitatea reprezentării pe fiecare axă (cos2). Valorile celei din urmă coloane menționate
(cos2) sunt calculate ca pătratul valorilor din coloana dim. De asemenea, suma pe fiecare
coloană cos2 reflectă chiar valorile proprii lambda.

18
Analiza cluster

Prin analiza cluster se urmărește, în interiorul unor mulțimi de obiecte sau forme,
identificarea de clase, grupe sau clustere cu elementele cât mai asemănătoare în interiorul
aceleiași clase (variabilitate minimă în interiorul claselor) și cât mai deosebite între ele dacă
aceste elemente aparțin unor clase diferite (variabilitate maximă între clase). Rezultă că,
analiza cluster permite examinarea similarităților și disimilarităților dintre obiectele
aparținând unei anumite mulțimi, în scopul grupării acestora sub forma unor clase distincte
între ele și omogene în interior.

Figura 13 - Matricea distanțelor

În matricea distanțelor, nivelul de culoare este proporțional cu valoarea disimilarității


dintre observații: roz deschis dacă dist(xi,xj) = 0 și negru corespunde celei mai mari valori a
distanței euclidiene calculate. Linia orizontală aroape neagră ne indică o form diferită față de
celelalte.

19
Pentru alegerea numărului de clase am apelat la 3 metode: prin realizarea
dendogramei, regula majorității și metoda cotului. Din toate rezultă că numărul potrivit de
clustere este 4.

- Dendograma

Figura 14 – Dendograma

20
Figura 15 - Dendograma cu clustere evidențiate

- Regula majorității

F
i
g
u
r
a

16 - Regula majorității

Figura 17 - Regula majorității 2

21
- Metoda cotului

În analiza clusterelor, metoda cotului este o euristică utilizată pentru a determina numărul
de clustere dintr-un set de date. Metoda constă în reprezentarea grafică a variației explicate în
funcție de numărul de clustere și alegerea cotului curbei ca număr de clustere de
utilizat.Această metodă se bazează pe variabilitatea din interiorul grupelor care se dorește a fi
cât mai mică.

Figura 18 - Metoda cotului

22
Diagrama Silhouette este un instrument grafic pe care îl folosim pentru a evalua
calitatea clusterelor. Valorile diagramei arată gradul de coeziune și separare a clusterelor.
Media valorilor permite identificarea câte clustere apar în setul de date.
Valoarea variază între [1, -1], unde o valoare mare indică faptul că obiectul este bine
potrivit cu propriul său cluster și slab potrivit cu clusterele învecinate. Prin urmare, în figura
de mai sus, ‘Average silhouette width: 0.24’ sugerează o potrivire destul de bună în cadrul
clusterelor și o potrivire slabă cu cele învecinate.

Figura 19 - Grafic Silhouette - calitate clustere

23
Reprezentarea claselor în planuri principale

Figura 20 - Reprezentarea claselor în planuri principale

Figura 21 - Variabilități
24
Concluzii

În urma analizelor efectuate și a fundamentului solid bazat pe studii și statistici


publicate de site-uri ce promovează informația fără a fi denaturată, am constatat faptul că
Europa a fost puternic afectată de pandemia de Covid-19, aceasta având un impact puternic în
rândul mai multor sectoare de bază. Folosind date de pe Eurostat, am evidențiat 15 indicatori
ce surprind nivelul la care se aflau atunci anumite regiuni din spațiul european și am constatat
că apariția virusului a fost pilonul de start al unui întreg proces ce a scos la iveală lipsuri pe
care societatea actuală nu era pregătită să le suporte.
Restricțiile aplicate au constrâns industriile să își regândească modul în care își
desfășoară activitatea într-un timp scurt. Astfel, majoritatea oamenilor au început să lucreze
de acasă, un alt moment de cumpănă pentru valul pandemic deoarece mulți nu erau
familiarizați cu minimul de cunoștinte în utilizarea calculatorului. Învățământul a fost un
sector care și-a restabilit legătura cu elevii prin intermediul orelor on-line. Pentru cei fără
acces la un dispozitiv electronic, autoritățile au venit cu soluții, dar foarte târziu.
Având în vedere toate aceste schimbări, impactul asupra economiei a fost unul major.
Mulți oameni și-au pierdut locul de muncă, intrând în șomaj. Percepția societății asupra
viitorului s-a schimbat. Analizând situația pandemică, multe cupluri și-au regândit decizia de
a avea un copil, economia traversând o perioadă de cumpănă unde accentul se punea pe
restructurarea sectoarelor puternic afectate.
Putem afirma faptul că impactul unui astfel de fenomen poate destructura întreaga
economie a lumii, dar totodată efectele negative pot fi combătute printr-un plan de gestionare
a riscului pregătit în prealabil.

25
Referințe

Curs: Analiza datelor, Tip-C, Sem-1, Zi (2022-2023) (ase.ro)


Curs: Analiza datelor, Tip-S, Sem-1, Zi (2022-2023) (ase.ro)
Database - Eurostat (europa.eu)

Anexe

Figura 1 - Statistici descriptive...................................................................................................4


Figura 2 - Coeficientul de asimetrie, de aplatizare și coeficientul de variație.........................12
Figura 3 - Grafic cu 4 variabile................................................................................................13
Figura 4 - Boxploturi................................................................................................................13
Figura 5 - ACP1.......................................................................................................................14
Figura 6 - Scree plot.................................................................................................................14
Figura 7 - Reprezentarea grafică a regiunilor...........................................................................15
Figura 8 - Analiza corelației - date inițiale...............................................................................15
Figura 9 - Analiza corelației - date finale.................................................................................16
Figura 10 - Cercul corelației.....................................................................................................16
Figura 11 - ACP2 în urma eliminării variabilei X13...............................................................17
Figura 12 - Contribuție componente principale.......................................................................18
Figura 13 - Matricea distanțelor...............................................................................................19
Figura 14 – Dendograma..........................................................................................................20
Figura 15 - Dendograma cu clustere evidențiate......................................................................20
Figura 16 - Regula majorității..................................................................................................21
Figura 17 - Regula majorității 2...............................................................................................21
Figura 18 - Metoda cotului.......................................................................................................22
Figura 19 - Grafic Silhouette - calitate clustere.......................................................................23
Figura 20 - Reprezentarea claselor în planuri principale.........................................................24
Figura 21 - Variabilități............................................................................................................24

26

S-ar putea să vă placă și