Documente Academic
Documente Profesional
Documente Cultură
PROIECT ANALIZA
DATELOR
Studenți:
Constantin Georgiana-Cristina
Constantinescu Amalia-Lavinia
Grupa 1072A
1
Introducere
În analiza noastră vom utiliza două tehnici principale din analiza datelor: sinteza
informațională (analiza componentelor principale) și recunoașterea supervizată a formelor
(analiza cluster).
2
Definirea obiectivelor. Descrierea datelor
3
Statistici descriptive
4
Interpretare pentru variabila X2 - PIB/capita
● Media
Valoarea medie a PIB/capita a fost de 2.896 mil euro/locuitor. Deoarece activitatea
oamenilor stagna, multe industrii au avut de suferit, PIB-ul fiind unul din indicatorii
economici care a scăzut. Pe parcursul anului 2020, produsul intern brut (PIB) colectiv al
lumii a scăzut cu 3.4%. Pentru a pune acest număr în perspectivă, PIB-ul global a atins 84.54
trilioane de dolari SUA în 2020 – ceea ce înseamnă că o scădere de 3.4% a creșterii
economice ce are ca rezultat pierderi de producție economică de peste două trilioane de
dolari.
● Min/Max
Valoarea minimă înregistrată a PIB/capita a fost de 0.620 mii euro /loc, iar cea mai
mare a fost de 10.26 mii euro /loc.
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.775 , iar 75% dintre
valori sunt mai mari de 1.775;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 3.79 și 75% din valori
sunt mai mici decât 3.79;
3. 3. Mediana (Q2): 50% din valori sunt sub 2.896 și 50% se află peste această valoare.
5
Interpretare pentru variabila X4 - Rata fertilității
● Media
Media variabilei X4 este de 1.45 copii/femeie (aprox.1 copil/femeie). Ratele globale
de fertilitate sunt în scădere de ani de zile, iar pandemia de COVID-19 a amplificat această
tendință. Scăderea ratelor de fertilitate și a dorinței mai scăzute de a avea copii pot avea
implicații grave asupra creșterii economice. Acest trend are implicații pentru dinamica
populației în anii următori – mai puține nașteri în următorii câțiva ani ar putea duce la mai
puțin sprijin, deoarece forța de muncă de astăzi atinge vârsta de pensionare.
● Min/Max
Valoarea minimă a variabilei X4 este de 0.020%, iar valoarea maximă este de 2.78%
(Lombardia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.25%, iar 75% dintre
valori sunt mai mari de 1.25;
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 1.66% și 75% din valori
sunt mai mici decât 1.66%;
3. Mediana (Q2): 50% din valori sunt sub 1.45% și 50% se află peste această valoare.
6
Interpretare pentru variabila X6 - Victime accidente rutiere
● Media
Media variabilei X6 este de 5.604 victime. Volumul traficului a scăzut drastic în
timpul pandemiei de COVID-19, care a fost asociat cu o scădere semnificativă a coliziunilor
în trafic la nivel global și o reducere a deceselor rutiere în 32 din 36 de țări în 2020,
comparativ cu 2019.
● Min/Max
Valoarea minimă este de 380 de victime (Sjaelland,Danemarca), iar valoarea maximă
este de 45.172 de victime (Abruzzo,Italia).
● Quartilele
1. Prima quartilă (Q1): 25% din valorile ratelor sunt mai mici de 1.521 persoane , iar
75% dintre valori sunt mai mari de 1.521 persoane;
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 5.797 persoane și 75%
din valori sunt mai mici decât 5.797 persoane;
3. Mediana (Q2): 50% din valori sunt sub 3.134 persoane și 50% se află peste această
valoare.
7
3. Mediana (Q2): 50% din valori sunt sub 733.000 și 50% se află peste această valoare.
8
3. Mediana (Q2) împarte setul de date în două : 50% din valori sunt sub 2.93 % și 50%
se află peste această valoare.
9
2. A treia quartilă (Q3): 25% dintre valori sunt mai mari decât 94.41 % și 75% din
valori sunt mai mici decât 94.41 %;
3. Mediana (Q2): 50% din valori sunt sub 91.08 % și 50% se află peste această valoare.
10
2. A treia quartilă (Q3) : 25% dintre valori sunt mai mari decât 2.316.620persoane și
75% din valori sunt mai mici decât 2.316.620 persoane;
3. Mediana (Q2): 50% din valori sunt sub 1.515.336 persoane și 50% se află peste
această valoare.
11
Figura 2-Coeficientul deFigura
asimetrie,
2 - Coeficientul
aplatizarede asimetrie,
și coeficientul
de aplatizare
de variație
și coeficientul de variație
12
calculat din valori omogene, fenomenele de care depind fiind mai puțin complexe decât la
ceilalți indicatori.
Figura 3 - Boxploturi
13
Analiza componentelor principale (ACP) este o tehnică de reducere a
dimensionalității seturilor de date, crescând interpretabilitatea, dar în același timp minimizând
pierderea de informație. Acest lucru se realizează prin crearea de componente principale care
nu reprezintă redundanță informațională.
Datele inițiale cuprind 15 variabile a câte 88 de observații, iar primele 5 componente
principale preiau 78% din întreaga informație. Știind că un vector propriu al unei transformări
liniare pe un spațiu vectorial este un vector nenul a cărui direcție rămâne neschimbată de
către acea transformare, factorul prin care mărimea vectorului este scalată se numește
valoarea proprie a acelui vector. Astfel, graficul scree plot, denumit ACP1 surprinde
descreșterea valorilor proprii.
Figura 5 - ACP1
Figura 6 - Scree plot
14
Reprezentarea grafică a regiunilor, având pe axe primele două componente principale
rezultate prin combinația liniară dintre variabilele inițiale arată ca în figura 7. Se pot
identifica cu ușurință valorile aberante, adică zonele din Italia, Spania, Bulgaria și România.
15
În general, variabilele se corelează la nivel mediu, înregistrând valori cuprinse între
[0.40; 0.60], dar se pot identifica și corelații mai puternice. Cel mai mare coeficient corelație
se regăsește între variabilele X13 (Populație totală) și X3 (Nașteri vii), cât și între X13 și X12
(Decese raportate), valoarea fiind de 0.96. Din dorința de a evita suprapunerea informațională
și comportamentul similar, alegem să eliminăm indicatorul X13 din analiză.
16
În figura 10, ordonatele fiecărei variabile sunt date de coordonatele corelației,
lungimea vectorului arată contribuția lui, iar unghiul dintre 2 variabile originale oferă
informații privind corelația dintre ele. Astfel, cu cât unghiul este mai mic, cu atat variabilele
sunt mai corelate și cu cât unghiul este mai mare, cu atât variabilele sunt mai puțin corelate.
De asemenea, cu cât o variabila este reprezentată mai bine de primele 2 componente
principale cu atât lungimea vectorului pe grafic se apropie de circumferința cercului de rază 1
(indicatorii X12, X3, X15), adică arată de unde componentele principale extrag cea mai multă
informație.
Conform criteriului Kaiser, care este singurul criteriu de natură obiectivă dintre toate
cele 3 (criteriul pantei, criteriul procentului de acoperire, criteriul Kaiser), există 4 valori
proprii lambda mai mari decât 1, deci numărul de componente principale care merită păstrate
în analiză este de 4.
17
Figura 12 - Contribuție componente principale
18
Analiza cluster
Prin analiza cluster se urmărește, în interiorul unor mulțimi de obiecte sau forme,
identificarea de clase, grupe sau clustere cu elementele cât mai asemănătoare în interiorul
aceleiași clase (variabilitate minimă în interiorul claselor) și cât mai deosebite între ele dacă
aceste elemente aparțin unor clase diferite (variabilitate maximă între clase). Rezultă că,
analiza cluster permite examinarea similarităților și disimilarităților dintre obiectele
aparținând unei anumite mulțimi, în scopul grupării acestora sub forma unor clase distincte
între ele și omogene în interior.
19
Pentru alegerea numărului de clase am apelat la 3 metode: prin realizarea
dendogramei, regula majorității și metoda cotului. Din toate rezultă că numărul potrivit de
clustere este 4.
- Dendograma
Figura 14 – Dendograma
20
Figura 15 - Dendograma cu clustere evidențiate
- Regula majorității
F
i
g
u
r
a
16 - Regula majorității
21
- Metoda cotului
În analiza clusterelor, metoda cotului este o euristică utilizată pentru a determina numărul
de clustere dintr-un set de date. Metoda constă în reprezentarea grafică a variației explicate în
funcție de numărul de clustere și alegerea cotului curbei ca număr de clustere de
utilizat.Această metodă se bazează pe variabilitatea din interiorul grupelor care se dorește a fi
cât mai mică.
22
Diagrama Silhouette este un instrument grafic pe care îl folosim pentru a evalua
calitatea clusterelor. Valorile diagramei arată gradul de coeziune și separare a clusterelor.
Media valorilor permite identificarea câte clustere apar în setul de date.
Valoarea variază între [1, -1], unde o valoare mare indică faptul că obiectul este bine
potrivit cu propriul său cluster și slab potrivit cu clusterele învecinate. Prin urmare, în figura
de mai sus, ‘Average silhouette width: 0.24’ sugerează o potrivire destul de bună în cadrul
clusterelor și o potrivire slabă cu cele învecinate.
23
Reprezentarea claselor în planuri principale
Figura 21 - Variabilități
24
Concluzii
25
Referințe
Anexe
26