Proiect

ACADEMIA DE STUDII ECONOMICE DIN BUCUREȘTI FACULTATEA DE
CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ SPECIALIZAREA:

CIBERNETICĂ ECONOMICĂ
PROIECT ANALIZA DATELOR
Studenți:
Iacob Mihaela
Mitrea Alexia Catalina

Obiectiv: analiza regiunilor din Europa din punct de vedere demografic, economic, al nivelului
de trai si al educatiei.
Anul pentru care s-au analizat datele : 2020
Sursa: Eurostat
Descrierea indicatorilor
1. PIB/locuitor. Produsul intern brut (PIB) este un indicator macroeconomic care

reflectă suma valorii de piață a tuturor mărfurilor și serviciilor destinate consumului
final, produse în toate ramurile economiei în interiorul unei țări în decurs de un an.
Acesta se poate calcula și la nivelul unei regiuni sau localități.
2. Numărul populației rezidente (stabile), la o dată determinată, este calculat conform
metodologiei și reglementărilor internaționale în domeniu și cuprinde totalitatea
persoanelor care au reședința stabilită pe un anumit teritoriu, pentru o perioadă de cel
puțin 12 luni.
3. Natalitatea este frecvența nașterilor de copii vii în cadrul unei populații, exprimată
prin raportul dintre numărul de nașteri dintr-un an și efectivul populației.
4. Media vârstelor se referă la media artimetică a vârstelor populației din regiunile
selectate.
5. Mortalitatea infantilă este un indicator de bază al stării economico-sociale și de
mediu al unei comunități umane, care ia în calcul decesele 0-1 an (de la naștere la 364
de zile).
6. Rata reala de crestere a valorii adaugate brute (modificare procentuală față de
perioada anterioară). Valoarea adăugată brută (VAB) este soldul contului de
producție și se măsoară ca diferența dintre valoarea bunurilor și serviciilor produse
(evaluate la prețuri de bază) și consumul intermediar (evaluat la prețurile
cumpărătorului), reprezentând deci valoarea nou creată în procesul de producție.
7. Formarea brută de capital fix, cunoscută și sub denumirea de Investiții, constă în
achiziții ale producătorilor rezidenți, minus cedări, de active fixe într-o anumită
perioadă, plus anumite adaosuri la valoarea activelor neproduse.
8. Numărul de ore muncite exprimat in mii.
9. Rata participării la educație si formare este ponderea persoanelor cu vârste între 25
și 64 de ani care participă la educație și formare.
10. Numarul celor care părăsesc timpuriu educatia (18-24 ani)
11. Populația activă (15-74 ani) civilă caracterizează oferta potențială de forță de muncă
și gradul de ocupare a populației cuprinzând populația ocupată civilă și șomerii
înregistrați.
Eliminare outlieri EXCEL
Pentru detectarea outlierilor construim intervale de încredere pentru fiecare indicator : [xmediu -
3 ; xmediu + 3]
xmediu – media aritmetică

 - abaterea standard
În urma calculelor au fost identificați și excluși din analiză 11 outlieri : IE05, EL42, EL62, ES30,
ES51, ES61, ES63, FR10, FRY3, ITC4, LU00.
Statistici descriptive
In cazul in care avem distributie normala, mediana = media.
Valoarea maxima a PIB-ului pe cap de locuitor este de 75700 euro/loc, iar cea minima este 6000,
intr-o regiune din Bulgaria. Media numarului de locuitori este de 1378652. In ceea ce priveste
natalitatea, maximul nasterilor vii este de 74782, trei sferturi din regiuni inregistreaza o valoare
sub 19756. Maximul mediei varstelor este 51 de ani. Media mortalitatii infantile este de 50.59,
media ratei reale de crestere a VAB-ului este negativa, maximul formarii brute de capital este
69745, media numarului de ore muncite este 1046027, media celor care parasesc timpuriu
educatia este 9, egala cu media ratei de participare de educatie. Media populatiei active este de
668, minimul fiind de 39.
Histrograme
Cele 3 histograme prezinta asimetrie la

dreapta.
Boxplot-uri (avem outliers)

Matricea de corelatie
Corelatie puternica (peste 0.95) intre X2 si X8, X2 si X11 si X8 si X11. Vom elimina X11 din
analiza, pentru ca este foarte bine corelata cu X2 si X8 (0.98).
Corelatie negativa intre X3 si X4; atunci cand natalitatea creste, media varstelor scade si invers.
In continuare vom standardiza datele pentru a le pregati pentru analiza. Standardizam datele
pentru ca:
1. putem avem unitati de masura diferite
2. putem avea ordine de marime diferite (de ex putem avea varianta exprimata in milioane si in
lei)
In urma standardizarii:
 Abaterea standard a tuturor indicatorilor din analiză devine 1

 Matricea de covarianță are aceleași valori precum matricea de corelație
ANALIZA COMPONENTELOR PRINCIPALE
Valori proprii si vectori proprii
Variantele componentelor principale sunt valorile proprii ale matricii de corelatie.
Criterii de alegere a numarului de componente principale
1. Criteriul pantei: se realizeaza o taietura in grafic dupa o dreapta paralela cu Oy, astfel
incat la dreapta taieturii sa ramana o portiune in grafic cu panta aproape 0. K este primul
intreg de la stanga taieturii.
Pe axa Oy sunt reprezentate valorile proprii , iar pe axa Ox numarul componentelor
principale.
Se realizeaza taietura intre 3 si 4; K=3
2. Criteriul Kaiser: se pastreaza in analiza doar componentele principale care au varianta >
1; K=3
3. Criteriul procentului de acoperire: K=3 pentru ca Pk aprox 70%-80%
Concluzia criteriilor: Pastram in analiza primele 3 componente principale, care sintetizeaza

impreuna 77.26% din informatia din variabilele originale, ceea ce inseamna ca vom avea o
pierdere informationala de 22.74%.
Pentru individuals, coloana dist se refera la distanta fata de centroidul norului de puncte, coloana
dim reprezinta coordonatele pe fiecare dimensiune/scoruri principale, coloana ctr este contributia
la construirea axelor si cos^2 este cantitatea reprezentata pe fiecare axa.
Pentru variables: pe coloana dim sunt coloanele matricii factor (cor(Xi,Zj)), ctr reprezinta
contributia la construirea componentelor, cos^2 este calitatea reprezentarii.
Contribuția lui X1 la varianta componentei Z1 este egala cu 2.209%.
Contribuția lui X1 la varianta componentei Z1 este egala cu 30.86%.
Matricea factor
Este matricea de corelatie dintre componentele principale si variabilele initiale.
Dimensiunea 1 se coreleaza cu X2, X3. Pe Z1 o numim cresterea populatiei. Z2= influenta

educatiei la PIB (X1 si X9). Z3= media varstelor celor care parasesc timpuriu educatia (X4 si
X10).
Scoruri principale
Cercul corelatiilor
Graficul furnizează informații despre primele doua componente principale care preiau
aproximativ 41.9% și respectiv 23.2% din informația totala conținută de variabilele originale. Cu
cat unghiul dintre vectori este mai mic cu atat coeficientul de corelatie este mai mare. Exista
corelatie puternica intre X10 si X6; corelatie slaba intre X2 si X8. Dimensiunea 1 puternic
corelata cu X3, X8, X2. Dimensiunea 2 puternic corelata cu X10, X6.
Reprezentarea regiunilor in noul spatiu
Regiunile din Romania au valori foarte mici (negative) pentru componenta 2 (influenta educatiei
asupra PIB). Concluzie pentru context european: regiunile din Romania se aseamana cu Italia,
Grecia, Spania din punct de vedere al Z1 si Z2.
ANALIZA CLUSTER
Pentru aceasta analiză vom utiliza scorurile principale stabilite la analiza componentelor
principale.
Matricea distantelor, metoda euclidiana

Matricea distanțelor se numește și matricea de proximitate și indică cât de apropiate/depărtate
sunt formele între ele. Matricea distanțelor expune rezultatele obținute în urma calculului
distanței euclidiene dintre oricare doua regiuni prezente în analiză. Astfel , se observă faptul că
distanța dintre BE10 și BE21 este 2.77 .
Culorile deschise reprezinta regiuni omogene. Prin această diagrama sunt reprezentate distanțele
euclidiene între fiecare doua regiuni prezente în analiză . Astfel , culoarea galbena este atribuită
distanțelor mici , indicând un nivel ridicat de similaritate între cele două regiuni ,iar culoarea
negru este atribuită celor mai mari distanțe regăsite și în același timp semnifică un grad scăzut de
asemanare între cele două regiuni. Valorile exacte ale distanțelor euclidiene se regăsesc în
matricea distanțelor. Distante mici intre Belgia si Bulgaria. Regiunile Franta din se afla pe linia
neagra. Regiunile din Romania par a fi omogene.
Alegerea numarului de clustere
1. Metoda WARD
146 pasi de clusterizare, pentru ca avem 147 observatii. Valori negative= observatii, forme.
Valori pozitive= clasele deja formate. Observatiile 138 si 141 s-au grupat intr-o clasa la
distanta de 0.46. Vom grupa obervatiile intre ele in functie de distanta minima dintre ele.
Variabilitatea intraclase sa fie minima si interclase sa fie maxima.
Dendograma
Dendograma= arbore al clasificarii= reprezentarea grafica a pasilor de mai sus
Criteriul pentru alegerea numarului de clase: se realizeaza o taietura in grafic astfel incat
distanta dintre 2 pasi consecutivi de clusterizare sa fie cea mai mare. Numarul de intersectii
ale taieturii cu dendrograma = nr de clase. Conform acestui criteriu, k=3. Ultimul pas de
agregare este pe linia orizontala cea mai de sus (peste 25).
2. Metoda Elbow
WSS= Within Sum of

Squares= variabilitatea
interclasa
Varianta din interiorul grupelor

sa fie cat mai mica. Se cauta un
punct in acest grafic (apare ca o
inflexiune) de la care varianta
suplimentara este redusa.
Conform acestui critieriu, k= 3.
3. Functia NbClust
Graficul ne
sugereaza ca vom
avea intre 2 si 10
clustere.
Functia ne indica faptul ca numarul cautat de clustere este 3.
Analiza celor 3 clase
Graficul silhouette
Primul cluster are 14 observatii, al doilea 112 componente si al treilea, 21.
𝑏(𝑖 ) − 𝑎(𝑖)
𝑠𝑖𝑙_𝑤𝑖𝑑𝑡ℎ =
max(𝑏(𝑖 ), 𝑎(𝑖 ))
a(i)= distanta medie dintre observatia i si toate celalalte observatii din clusterul de care apartine
observatia i
b(i)=minimul distantei dintre i si C, unde C este clusterul "vecin" caruia nu ii apartine i
Interpretare sil_width:
 daca tinde la 1 observatia i este bine incadrata in clasa

 daca tinde la 0 observatia i este intre 2 clase
 daca si <0 atunci observatia i este gresit incadrata
De exemplu, observatia 2 are sil_width negativ, deci este incadrata gresit. Observatia 1 este
incadrata intre clasa 1 si 2.
Clasa 1 are cele mai mari valori in ceea ce priveste PIB-ul si populatia, deci va fi bine
dezvoltata din punct de vedere al nivelului de trai.
Clasa 2 are valori negative pentru primele componente deci va fi slab dezvoltata din punct de
vedere al nivelului de trai.
Clasa 3 are in medie valori mici, deci va fi slab dezvoltata din punct de vedere al nivelului de
trai si al populatiei.
Componenta clusterelor
Regiunile din Romania sunt in primul cluster.

Reprezentarea grafica a clusterelor
Regiunile sunt reprezentate in planul principal. Dimensiunea 1 este prima componenta

principala care preia 10%. Dimensiunea 2 este Z2 care preia 10%. Cele 3 clustere sunt
suprapuse.
Algoritmi de partitionare (K-Means), descompunerea variabilitatii si puterea de
discriminare a variabilelor
Pas 1: initializarea random a centroizilor (centroizi= forme care reprezinta media)
Pas 2: se calculeaza distanta dintre celalate forme si centroizi
Pas 3: se aloca formele la clase pe baza celor mai mici distante si se recalcalculeaza centroizii
claselor respective
Pas 4: se calculeaza din nou distanta si se reiau pasii pana cand diferentele dintre centroizii
de la un pas si de la alt pas este aproape de 0
=> se stabilizeaza centroizii
Algoritmul va imparti observatiile in 3 clustere alcatuite din 38, 84 si 35 regiuni. Clasa 1 si 3

au cele mai multe valori negative deci vor reprezenta un nivel scazut de trai. Clasa 2 are cele
mai multe valori pozitive, deci va avea un nivel crescut de trai.
Majoritatea regiunilor din Romania apartin primei clase, cea cu un nivel scazut de trai. Toate
regiunile din Olanda apartin celui de al treilea cluster, deci sunt bine dezvoltate.
Mai putine valori negative decat metoda WARD, deci este o solutie mai buna.
Pentru a vedea daca observațiile au fost descompuse eficient în clustere vom calcula
variabilitatea totala, variabilitatea intraclasa și variabilitatea interclasa.
SPA= reprezintă suma pătratelor abaterilor.
SPAT = suma totală și este compusă din SPAW +SPAB, unde:
SPAW =suma pătratelor abaterilor intraclasă (within) –trebuie să fie cât maimică;
SPAB= suma pătratelor abaterilor interclasă ( between) trebuie să fie cât mai mare;
R = SPAB/SPAW ; Cu cât R este mai mare, cu atât variabila are putere de discriminare mai
mare.
Putem observa ca variabilitatea intraclasa totala este egala cu 862.63, iar cea interclasa este egala
cu 607.36. R=0.70
INFOGRAFIC
Anexe
Cod R:
#Analiza datelor- proiect
#X1= PIB pe locuitor(euro/loc)
#X2= Nr populatiei rezidente
#X3= Natalitate
#X4= media varstelor
#X5= nr decedatilor sub 1 an
#X6= Rata reală de creștere a valorii adăugate brute (modificare procentuală față de perioada
anterioară)
#X7= Formarea brută de capital fix(milioane euro)
#X8= nr de ore muncite
#X9= Rata participarii la educatie si formare(25-64)
#X10=Numarul celor care părăsesc timpuriu educatia (18-24 ani)
#X10= populatia activa 15-74 ani
#Obiectiv: analiza regiunilor din europa din pct de vedere demografic, economic, al nivelului de
trai si al educatiei
#importam datele
date<-read.table(file="regiuni_proiect.txt", sep="\t", header= TRUE, row.names = 1)

#statistici descriptive
summary(date)
#in cazul in care avem distributie normala, mediana=media
#Valoarea maxima a PIB-ului pe cap de locuitor este de 75700 euro/loc, iar cea minima este
6000, intr-o regiune din Bulgaria. Media numarului de locuitori este de 1378652. In ceea ce
priveste natalitatea, maximul nasterilor vii este de 74782, trei sferturi din regiuni inregistreaza o
valoare sub 19756. Maximul mediei varstelor este 51 de ani. Media mortalitatii infantile este de
50.59, media ratei reale de crestere a VAB-ului este negativa, maximul formarii brute de capital
este 69745, media numarului de ore muncite este 1046027, media celor care parasesc timpuriu
educatia este 9, egala cu media ratei de participare de educatie. Media populatiei active este de
668, minimul fiind de 39.
#Histograme
hist(date$X1, freq = F , main="Histograma PIB-ului pe loc " , col = "pink" )
lines(density(date$X1), col = "red" , lwd=3)
#asimetrie la dreapta
hist(date$X3, freq = F , main="Histograma natalitatii " , col = "orange" )
hist(date$X5, freq = F , main="Histograma mortalitatii infantile " , col = "blue" )

#Boxplot-uri
boxplot(date$X7 , main="Boxplot pentru FBCF" , col = "purple" , horizontal = TRUE)
#outliers
boxplot(date$X6, main="Boxplot pentru rata reala de crestere a VAB" , col = "blue", horizontal
= TRUE)
#outliers
#matrice de corelatie
cor(date)
#corelatie puternica (peste 0.95) intre x2 si x8, x2 si x11 si x8 si x11
#vom elimina X11 din analiza, pentru ca este foarte bine corelata cu X2 si X8 (0.98)
#corelatie negativa intre x3 si x4; atunci cand natalitatea creste, media varstelor scade si invers
library(corrplot)
corrplot(cor(date), method="number", type="upper")
date_finale <- date[,-which(names(date)=="X11")]
#Standardizare
date_std <- scale(date_finale,scale=T)
View(date_std)
apply(date_std,2,sd)
apply(date_std,2,mean)
round(cor(date_std),4)
round(cov(date_std),4)
#Abaterea standard a tuturor indicatorilor din analiză devine 1
#Matricea de covarianță are aceleași valori precum matricea de corelație
#analiza componentelor principale
acp1<- princomp(date_std, cor = TRUE, scores =TRUE)
acp1
#valori proprii si vectori proprii
R<-cor(date_std)
desc<-eigen(R)
valori<-desc$values
valori
vectori<-desc$vectors
vectori
acp1$sdev^2
#sdev^2(variantele comp principale sunt val prop ale matricii de corelatie)
library(factoextra)
library(FactoMineR)
fviz_eig(acp1) #screeplot
#Pe axa Oy sunt reprezentate valorile proprii , iar pe axa Ox numarul componentelor principale
acp2<-PCA(date_finale, scale.unit = T, ncp = 10, graph = T, axes = c(1,2))
summary(acp2)
#criterii de alegere a nr de comp princ
#1.Criteriul pantei: se realizeaza o taietura in grafic dupa o dreapta paralela cu Oy, ai la dreapta
taieturii sa ramana o portiune in grafic cu panta aproape 0. k este primul intreg de la stanga
taieturii
#de realizeaza taietura intre 3 si 4; k=3
#2.Criteriul Kaiser: se pastreaza in analiza doar componentele principale care au varianta > 1
#3.Criteriul procentului de acoperire k=3 pt ca Pk aprox 70%-80%
#Concluzia criteriilor: pastram in analiza primele 3 comp princ, care sintetizeaza impr 77.26%
din informatia din variabilele originale,
#Ceea ce inseamna ca vom avea o pierdere informationala de 22.74%
#matricea factor este matricea de corelatie dintre comp princ si variabilele initiale
#pt individuals, col dist se ref la distanta fata de centroidul norului de pct
#col dim sunt coordonatele pe fiecare dimensiune = scoruri princ
#col ctr= contributia la construirea axelor
#cos^2 = cantitatea reprez pe fiecare axa
#pt variables:
#col dim sunt col matricii factor adica cor(Xi,Zj)
#ctr= contributia la construirea componentelor
#cos^2 = calitatea reprezentarii
#Contribuția lui X1 la varianta componentei Z1 este egala cu 2.209%
#Contribuția lui X1 la varianta componentei Z1 este egala cu 30.86%
#cos^2=dim^2
#ctr= cos^2/lambda
factor <-round(acp2$var$cor, 2)
factor
#corelatie intre X initiali si componente
#dim 1 se coreleaza cu X2, X3
#pe z1 o numim cresterea populatiei
#z2 = influenta educatiei la PIB (X1 si X9)
#z3= media varstelor celor care parasesc timpuriu educatia (x4 si x10)
acp1$scores[,1:3]
scores<-acp1$scores
scores
#scoruri principale
#cercul corelatiilor
fviz_pca_var(acp2, col.var= "contrib", repel= TRUE)
#Graficul furnizează informații despre primele doua componente principale care preiau
aproximativ 41.9%% și respectiv 23.2%% din informația totala conținută de variabilele originale
.
#cu cat unghiul dintre vectori este mai mic cu atat coeficientul de corelatie este mai mare
#ex corelatie puternica intre X10 si X6; corelatie slaba intre X2 si X8
#dim 1 puternic corelata cu X3, X8, X2
#dim 2 puternic corelata cu X10, X6
#obiectele in planul principal (in noul spatiu)
fviz_pca_ind(acp2, repel = TRUE, axes = c(1,2))
#reg din romania au valori ft mici(negative) pt componenta 2 (influenta educatiei la PIB)
#Concluzie pt context european: regiunile din Romania se aseamana cu Italia, Grecia, Spania
din pct de ved al z1 si z2
###############ANALIZA CLUSTER##############################
#pentru analiza cluster vom folosi scorurile principale din acp
#matricea distantelor, metoda euclidiana
d = dist(as.matrix(scores), method="euclidian")
#Matricea distanțelor se numește și matricea de proximitate și inidcă cât de apropiate/depărtate

sunt formele între ele.
#Matricea distanțelor expune rezultatele obținute în urma calculului distanței euclidiene dintre
oricare doua regiuni prezente în analiză .
#Astfel , se observă faptul că distanța dintre BE10 și BE21 este 2.77 .
library(ggplot2)
library(reshape2)
m <- melt(as.matrix(d))
ggplot(data = m, aes(x=Var1, y=Var2, fill=value)) +
geom_tile() +
theme(axis.text.x = element_text(angle = 45)) +
scale_fill_gradient(low="yellow", high="black")
#culorile deschise- regiuni omogene
#Prin această diagrama sunt reprezentate distanțele euclidiene între fiecare doua regiuni prezente
în analiză . Astfel , culoarea galbena este atribuită distanțelor mici , indicând un nivel ridicat de
similaritate între cele două regiuni ,iar culoarea negru este atribuită celor mai mari distanțe
regăsite și
#în același timp semnifică un grad scăzut de asemanare între cele două regiuni
#Valorile exacte ale distanțelor euclidiene se regăsesc în matricea distanțelor .

#Distante mici intre Belgia si Bulgaria. Regiunile Franta din se afla pe linia neagra. Regiunile
din Romania par a fi omogene.
#alegerea nr de clustere
#metoda ward
clust_std = hclust(d, method = "ward.D2")
cbind(clust_std$merge,clust_std$height)
#146 pasi de clusterizare, pt ca avem 147 observatii
#val. negative-observatii, forme
#pozitiv-clasele deja formate
#obs 138 si 141 s-au grupat intr-o clasa la dist de 0.46
#vom grupa obs intre ele in fct de distanta minima dintre ele
#variabilitatea intraclase sa fie minima si interclase sa fie maxima
plot(clust_std,labels=rownames(scores))
#dendograma-arbore al clasificarii- reprez gf a pasilor de mai sus
#criteriul pt alegerea nr de clase: se realiz o taietura in grafic ai dist dintre 2 pasi consec de
clusterizare sa fie cea mai mare
#Nr de intersectii ale taieturii cu dendrograma = nr de clase
#Conform acestui criteriu k=3
#ultimu pas de agregare este pe linia orizontala cea mai de sus (peste 25)
#metoda Elbow
library(factoextra)
library(ggpubr)
#wss=within sum of squares-:variabilitatea interclasa
fviz_nbclust(scores, hcut, method = "wss") +
geom_vline(xintercept = 3, linetype = 2)+
labs(subtitle = "Elbow method - STD")
#Varianta din int grupelor sa fie cat mai mica
#Se cauta un pct in acest grafic (apare ca o inflexiune) de la care varianta suplimentara este
redusa
#conform acestui critieriu K= 3
#functia NbClust
library(NbClust)
res<-NbClust(scores, distance = "euclidean", min.nc=2, max.nc=10,
method = "ward.D2", index = "all")
#Functia ne indica faptul ca numarul cautat de clustere este 3. Graficul ne sugereaza ca vom avea
intre 2 si 10 clustere.
#analiza celor 3 clase
library(cluster)
si3_std <- silhouette(cutree(clust_std, k = 3), d)

plot(si3_std, cex.names = 0.5)
si3_std
#sil_width=(b(i)-a(i))/(max(b(i)),a(i))
#a(i)=dist medie dintre obs i si toate celalalte obs din clustereul de care apartine obs i
#b(i)=min dist dintre i si C, unde C este clusterul "vecin" caruia nu ii apartine i
#interp si: daca tinde la 1 obs i este bine incadrata in clasa
#daca tinde la 0 obs i este intre 2 clase
#daca si <0 at obs i este gresit incadrata
#de ex obs 2 are sil width negativ, deci este incadrata gresit
#observatia 1 este incadrata intre clasa 1 si 2
#centroizi= forme care reprez media
library(MASS)
solutie2 <- cutree(clust_std,k=3)
table(solutie2)
#Primul cluster are 14 observatii, al doilea 112 componente si al treilea, 21.
aggregate(scores, list(solutie2), mean)
#Clasa 1 are cele mai mari valori in ceea ce priveste PIB-ul si populatia, deci va fi bine
dezvoltata din punct de vedere al nivelului de trai.
#Clasa 2 are valori negative pentru primele componente deci va fi slab dezvoltata din punct de
vedere al nivelului de trai.
#Clasa 3 are in medie valori mici, deci va fi slab dezvoltata din punct de vedere al nivelului de
trai si al populatiei.
#componenta claselor
plot(clust_std,labels=rownames(scores))
rect.hclust(clust_std,k=3, border=2:5)
#Regiunile din Romania sunt in primul cluster.
#reprezentarea grafica a clusterlor
library(factoextra)
fviz_cluster(list(data=scores,cluster=solutie2))
#regiunile reprezentate in planul principal
#dimensiunea 1 este prima comp principala care preia 10%
#dimensiunea 2 este Z2 care preia 10%
#Cele 3 clustere sunt suprapuse
#Algoritmi de partitionare (K-Means), descompunerea variabilitatii si puterea de discriminare a

variabilelor
k_std=kmeans(scores,3)
k_std
#pas 1:initializarea random a centroizilor

#pas 2:calc distanta dintre celalate forme si centroizi
#pas 3: se aloca formele la clase pe baza celor mai mici dist si se recalc centroizii claselor resp
#pas 4: calc din nou dist si se reiau pasii pana cand dif dintre centroizii de la un pas si de la alt
pas este aproape de 0
#=> se stabilizeaza centroizii
#dam nume pentru fiecare clasa in parte si le caracterizam
#Algoritmul va imparti observatiile in 3 clustere alcatuite din 38, 84 si 35 regiuni
#Clasa 1 si 3 au cele mai multe valori negative deci vor reprezenta un nivel scazut de trai.
#Clasa 2 are cele mai multe valori pozitive, deci va avea un nivel crescut de trai.
#apartenenta la clase
clase <- k_std$cluster
#Majoritatea regiunilor din Romania apartin primei clase, cea cu un nivel scazut de trai.
#Toate regiunile din Olanda apartin celui de al treilea cluster, deci sunt bine dezvoltate.
s <- silhouette(clase,d)
plot(s)
#mai putine valori negative decat metoda ward, deci este o solutie mai buna
#Pentru a vedea daca observațiile au fost descompuse eficient în clustere vom calcula
variabilitatea totala, variabilitatea intraclasa și variabilitatea interclasa
#SPA= reprezintă suma pătratelor abaterilor.
#SPAT = suma totală și este compusă din SPAW +SPAB, unde:
#SPAW =suma pătratelor abaterilor intraclasă (within) –trebuie să fie cât maimică;
#SPAB= suma pătratelor abaterilor interclasă ( between) trebuie să fie cât mai mare;
#R = SPAB/SPAW ; Cu cât R este mai mare, cu atât variabila are putere de discriminare mai
mare.
SPAT<-k_std$totss
SPAW<-k_std$withinss
# variabilitate intra clasa totala
SPAWT=k_std$tot.withinss
SPAB<-k_std$betweenss
R<-SPAB/SPAWT
variab<-cbind(SPAT, SPAWT, SPAB, R)
variab
#putem observa ca variabilitatea intraclasa totala este egala cu 862.63, iar cea interclasa este
egala cu 607.36. R=0.70
Date initiale
Cod X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11

BE10 68400 12233 15918 36 72 -5 16021 10973 10 10 535
64 49
BE21 47000 18730 19108 42 58 -4 22695 13537 7 8 842
95 65
BE22 31800 88060 7536 44 27 -5 8176 56276 7 8 393
2 9
BE23 35800 15264 14532 43 49 -5 15467 10075 9 6 724
86 13
BE24 42800 11564 11156 42 38 -5 13571 77390 9 5 529
70 8
BE25 37900 12023 10733 46 32 -7 14211 89240 7 7 549
52 9
BE32 24500 13502 13055 42 38 -6 7329 70024 4 13 518
95 1
BE33 27800 11139 10908 41 28 -7 7089 61711 6 9 461
43 1
BE34 23900 28960 2954 40 12 -6 1744 15802 7 11 130
6 7
BE35 26400 49943 4860 42 12 -6 2990 28450 6 9 211
3 9
BG32 6000 77345 5388 47 33 -6 753 58184 2 13 363
0 0
BG33 6700 92487 7461 44 35 -8 1127 70416 1 13 436
0 4
BG34 6200 10241 9507 45 73 -11 1282 77801 1 24 463
15 1
BG41 14800 20942 19438 43 57 -3 6000 21803 3 5 1078
60 99
BG42 6400 14066 11657 45 70 -3 1744 10855 1 15 645
30 34
CZ01 43700 13242 14713 42 26 -6 18378 17591 9 2 714
77 48
CZ02 18000 13851 14437 42 21 -8 9708 11088 4 6 705
41 80
CZ03 17000 12339 12428 43 28 -6 5277 10653 4 8 616
82 50
CZ04 13600 11156 10629 43 31 -7 4072 91928 3 17 549
29 7
CZ05 16800 15179 15537 43 44 -4 5764 12806 5 7 748
99 42
CZ06 18700 17018 18208 43 43 -4 8291 15407 7 4 851
02 88
CZ07 16500 12145 12418 44 23 -5 5104 10417 5 7 590
70 39
CZ08 15700 12005 11830 44 33 -6 4474 98294 7 10 588
39 2
DK01 69700 18460 22147 39 62 -3 27847 15202 23 8 1016
23 10
DK02 37600 83735 7169 46 35 -2 5919 45240 19 12 415
9 9
DK03 47400 12231 11504 44 37 -3 12228 82501 19 10 605
05 1
DK04 49200 13263 14467 41 48 -1 13438 91846 19 10 693
40 0
DK05 44600 58993 5650 44 12 -2 6111 39235 18 8 294
6 9
EE00 20200 13289 13209 42 19 -3 7054 11664 17 9 695
76 80
IE06 75700 24455 28259 37 82 2 69745 20870 12 5 1234
51 82
EL30 20900 37389 31378 45 110 -9 6986 35473 6 4 1711
01 47
EL41 10100 22951 2314 40 11 -10 389 18558 4 9 87
6 5
EL43 12800 63650 6199 43 14 -15 1340 61814 4 5 280
4 1
EL51 10900 59861 4255 45 23 -6 959 47773 4 7 246
3 4
EL52 12100 18721 13557 46 42 -8 2645 15005 4 1 783
02 35
EL53 12600 26467 1808 48 4 -14 679 19757 4 1 108
0 9
EL54 11200 33326 2202 48 5 -7 567 27125 2 2 132
5 7
EL61 12200 71511 5150 47 15 -6 1193 59225 4 1 302
5 4
EL63 11400 65106 5039 45 12 -8 1003 55211 5 5 276
5 2
EL64 15100 55600 3718 46 9 -2 1254 45777 1 7 234
2 4
EL65 13400 57215 4006 48 10 -8 1050 50531 1 3 241
1 6
ES11 21900 27025 15247 48 41 -9 12481 18902 12 12 1219
92 24
ES12 21100 10188 4771 50 14 -10 3752 67980 11 9 444
99 0
ES13 22100 58238 3407 47 11 -10 2337 39019 12 9 267
8 3
ES21 30400 21891 14743 47 39 -11 11123 17178 13 7 1014
38 18
ES22 29300 65650 5036 44 10 -9 4365 51438 14 11 310
9 7
ES23 25700 31593 2318 46 6 -10 2623 24206 11 15 155
1 4
ES24 26500 13303 9095 46 20 -9 10190 10460 11 14 645
33 27
ES41 23200 24013 13652 49 41 -9 11789 16994 10 15 1096
07 83
ES42 19400 20455 14738 44 39 -8 8896 12671 9 19 970
54 24
ES43 18300 10619 7380 46 11 -7 4378 65782 10 18 486
79 7
ES52 20800 50293 35761 44 90 -10 20015 34052 12 16 2410
41 22
ES53 22000 12107 9455 42 21 -22 7564 92522 11 21 630
25 1
ES62 19800 15048 13706 41 39 -8 8291 10713 13 19 724
69 49
ES64 17900 84473 962 34 3 -9 244 49949 11 23 39
ES70 17400 22369 13178 44 34 -18 8395 14540 10 18 1097
92 80
FRB0 27800 25657 25338 45 92 -8 17782 15279 12 9 1102
26 06
FRC1 27900 16183 14406 47 39 -7 10983 98648 14 10 689
21 1
FRC2 25500 11761 11254 44 40 -8 7741 66751 12 9 510
96 1
FRD1 26400 14636 13133 46 44 -8 9301 90197 14 5 601
06 2
FRD2 27600 18498 19627 42 70 -10 12807 10595 14 10 801
26 55
FRE1 27900 40611 45406 40 138 -9 27507 23446 10 12 1653
66 25
FRE2 24700 19266 20090 42 81 -9 11937 99961 10 9 798
29 1
FRF1 31000 19084 19333 42 71 -9 14688 11890 13 11 884
94 33
FRF2 27800 13118 12770 43 55 -9 9167 79539 11 13 513
30 7
FRF3 24300 23156 21026 44 74 -8 14110 12319 13 11 978
78 76
FRG0 30100 38184 38974 42 114 -7 28563 25002 14 8 1671
21 54
FRH0 29400 33585 30993 45 106 -5 24122 21187 14 5 1414
24 17
FRI1 29600 34785 32230 45 105 -8 25577 22290 15 8 1536
38 86
FRI3 27400 18136 15057 47 37 -7 12411 10971 13 7 787
33 18
FRJ1 25600 28647 27879 45 87 -6 17802 15879 14 6 1166
82 88
FRJ2 30400 30870 29396 44 102 -9 23503 20071 16 6 1346
68 45
FRK1 27000 13718 11691 46 31 -8 9226 80932 12 7 589
20 6
FRK2 34300 66923 74782 41 218 -7 57228 44451 16 8 3061
26 26
FRL0 31500 50775 54885 45 143 -8 39777 32373 11 8 2143
82 98
FRY1 22600 41268 5183 46 44 -6 1729 19255 7 12 145
2 8
FRY4 22100 85685 13142 37 84 -5 4255 45036 8 16 329
8 3
HR03 11500 13738 11642 45 44 -10 4566 97650 3 1 574
02 4
ITC1 29400 43112 27107 49 56 -9 28268 32492 7 12 1918
17 00
ITC3 30300 15248 8752 51 18 -9 9650 11561 9 11 653
26 59
ITH1 44400 53264 5191 44 16 -9 6365 53748 7 14 262
4 3
ITH2 36900 54542 4048 47 6 -8 4365 45835 11 8 249
5 8
ITH3 31200 48791 32672 48 61 -10 32845 39945 8 11 2237
33 11
ITH4 30600 12062 7434 50 12 -7 7461 92952 9 9 542
16 4
ITH5 33600 44641 29861 48 55 -9 30928 37101 9 9 2100
19 44
ITI1 30100 36925 22380 49 36 -10 19578 28886 8 12 1686
55 57
ITI2 24700 87016 5268 49 17 -8 4181 63307 8 11 387
5 0
ITI3 26300 15126 9432 48 13 -9 6866 11499 6 10 670
72 18
ITI4 32400 57557 37982 47 87 -8 33008 46056 8 12 2566
00 87
ITF1 24000 12939 8237 48 21 -8 6504 89984 7 8 538
41 3
ITF2 20500 30051 1713 49 4 -8 1262 19345 7 9 117
6 9
ITF3 18100 57121 45078 44 133 -9 18515 32237 5 17 1966
43 67
ITF4 18200 39533 26455 46 75 -8 12535 24304 6 16 1419
05 15
ITF5 21200 55325 3523 48 8 -8 2714 36281 7 10 204
4 9
ITF6 16500 18941 13966 46 50 -9 4979 10633 6 17 658
10 33
ITG1 17200 48752 37520 46 117 -8 14082 26381 5 19 1641
90 33
ITG2 20200 16116 8262 49 10 -10 5917 10605 9 12 647
21 00
CY00 24200 88800 9930 38 21 -5 4330 80532 5 12 450
5 4
LV00 15500 19076 17552 44 61 -4 7102 16749 7 7 972
75 17
LT01 25600 82051 8484 40 22 0 4303 10256 9 3 469
1 68
LT02 14400 19735 16660 46 48 0 6179 15931 7 7 1008
79 74
MT00 25300 51456 4414 40 17 -7 3028 52021 11 13 272
4 4
NL11 39700 58586 4956 42 26 -7 6255 41390 20 6 301
6 6
NL12 32300 64995 5841 45 15 -3 4776 44989 16 6 337
7 8
NL13 31500 49368 4135 48 10 -3 3151 32932 18 7 247
2 7
NL21 39300 11624 11099 43 51 -3 8924 88925 17 7 616
06 9
NL22 39200 20859 19885 44 103 -3 17038 15636 18 6 1107
52 95
NL23 34300 42302 4871 39 12 -2 4003 26915 18 9 233
1 0
NL31 58100 13192 14776 40 56 -3 16423 11905 22 6 732
31 33
NL32 59300 28795 29031 41 102 -7 34357 25931 21 7 1590
27 78
NL33 45000 37442 38598 41 135 -2 39973 28491 20 7 1981
99 00
NL34 36400 38348 3424 47 12 -3 4084 27251 18 7 197
8 6
NL41 47000 25629 23413 44 96 -3 24137 21241 18 8 1401
55 67
NL42 40500 11172 8652 48 30 -4 9566 84973 15 8 567
01 4
AT12 35300 16842 14611 46 41 -7 16232 12055 9 8 854
87 80
AT13 50400 19111 19156 40 90 -6 24771 17021 17 11 959
91 70
AT22 39000 12463 10933 45 24 -7 12986 10329 11 6 630
95 70
AT31 43700 14902 14757 43 53 -6 16579 12427 11 8 778
79 20
AT32 49900 55841 5756 43 12 -8 7554 52722 11 10 291
0 0
AT33 44100 75763 7518 43 24 -10 9175 67643 11 8 393
4 0
PT11 16900 35753 26879 46 59 -6 12136 31576 8 11 1820
38 04
PT16 17300 22172 15748 47 40 -5 7097 18842 10 6 1088
85 09
PT17 24900 28632 28259 44 60 -8 13709 28425 13 7 1389
72 51
PT20 17100 24279 2103 40 10 -8 672 20980 6 27 121
6 1
RO11 10600 25474 26722 42 180 -3 5334 21362 1 15 1197
29 33
RO12 10600 23148 24580 42 181 -3 5023 16934 1 22 983
26 39
RO21 7200 31842 38732 41 204 -3 4111 27131 1 18 1627
15 63
RO22 9100 23771 22566 44 133 -4 3663 17440 1 21 1022
01 44
RO31 8600 29013 25766 45 133 -4 4396 20802 2 17 1320
76 73
RO32 26000 23220 27199 41 80 -4 21578 23557 1 7 1200
02 58
RO41 8900 19104 16004 45 112 -4 2594 15251 1 11 875
09 83
RO42 11700 17714 16733 43 81 -4 3754 13479 2 7 749
80 26
SI03 18500 11000 9503 45 21 -4 4474 79403 8 4 535
12 4
SI04 26500 99584 9264 43 20 -3 5022 88138 9 4 492
9 3
SK02 15600 18237 16354 43 44 -5 5158 14038 2 4 917
92 51
SK03 13400 13367 13225 41 53 -6 4063 96602 3 7 668
85 4
SK04 12000 16277 18779 39 164 -3 3623 96593 3 12 772
04 2
FI19 37900 13786 11197 44 20 -2 12113 10092 26 8 673
52 39
FI1B 55000 16897 16259 40 29 -4 25374 14780 31 8 916
25 37
FI1C 37900 11487 8321 46 15 -3 8560 82575 25 8 547
94 1
FI1D 35900 12782 10425 45 19 -2 10627 90230 26 9 589
37 1
SE11 64400 23770 28466 38 65 -2 36676 21455 30 7 1380
81 60
SE12 38600 17273 18232 41 59 -5 18818 12883 29 7 890
98 30
SE21 38200 87020 9479 42 28 -5 7369 69346 25 9 450
0 0
SE22 40000 15374 16951 40 44 -2 14618 11264 29 7 799
33 30
SE23 43800 20597 22769 40 40 -5 22170 16520 29 8 1118
29 10
SE31 36400 85776 8375 45 16 -4 6429 63248 27 12 425
2 0

Proiect

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect

Încărcat de

Drepturi de autor:

Formate disponibile

ACADEMIA DE STUDII ECONOMICE DIN BUCUREȘTI FACULTATEA DE

CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ SPECIALIZAREA:

PROIECT ANALIZA DATELOR

Mitrea Alexia Catalina

Anul pentru care s-au analizat datele : 2020

1. PIB/locuitor. Produsul intern brut (PIB) este un indicator macroeconomic care

Eliminare outlieri EXCEL

xmediu – media aritmetică

In cazul in care avem distributie normala, mediana = media.

Cele 3 histograme prezinta asimetrie la

Boxplot-uri (avem outliers)

1. putem avem unitati de masura diferite

 Abaterea standard a tuturor indicatorilor din analiză devine 1

ANALIZA COMPONENTELOR PRINCIPALE

Valori proprii si vectori proprii

Variantele componentelor principale sunt valorile proprii ale matricii de corelatie.

Criterii de alegere a numarului de componente principale

Concluzia criteriilor: Pastram in analiza primele 3 componente principale, care sintetizeaza

Contribuția lui X1 la varianta componentei Z1 este egala cu 2.209%.

Contribuția lui X1 la varianta componentei Z1 este egala cu 30.86%.

Este matricea de corelatie dintre componentele principale si variabilele initiale.

Dimensiunea 1 se coreleaza cu X2, X3. Pe Z1 o numim cresterea populatiei. Z2= influenta

Matricea distantelor, metoda euclidiana

Dendograma= arbore al clasificarii= reprezentarea grafica a pasilor de mai sus

WSS= Within Sum of

Varianta din interiorul grupelor

Analiza celor 3 clase

b(i)=minimul distantei dintre i si C, unde C este clusterul "vecin" caruia nu ii apartine i

 daca tinde la 1 observatia i este bine incadrata in clasa

Regiunile din Romania sunt in primul cluster.

Regiunile sunt reprezentate in planul principal. Dimensiunea 1 este prima componenta

Pas 1: initializarea random a centroizilor (centroizi= forme care reprezinta media)

Pas 2: se calculeaza distanta dintre celalate forme si centroizi

=> se stabilizeaza centroizii

Algoritmul va imparti observatiile in 3 clustere alcatuite din 38, 84 si 35 regiuni. Clasa 1 si 3

SPA= reprezintă suma pătratelor abaterilor.

SPAT = suma totală și este compusă din SPAW +SPAB, unde:

#Analiza datelor- proiect

#X1= PIB pe locuitor(euro/loc)

#X2= Nr populatiei rezidente

#X4= media varstelor

#X5= nr decedatilor sub 1 an

#X7= Formarea brută de capital fix(milioane euro)

#X8= nr de ore muncite

#X9= Rata participarii la educatie si formare(25-64)

#X10=Numarul celor care părăsesc timpuriu educatia (18-24 ani)

#X10= populatia activa 15-74 ani

date<-read.table(file="regiuni_proiect.txt", sep="\t", header= TRUE, row.names = 1)

#in cazul in care avem distributie normala, mediana=media

hist(date$X1, freq = F , main="Histograma PIB-ului pe loc " , col = "pink" )

lines(density(date$X1), col = "red" , lwd=3)

hist(date$X3, freq = F , main="Histograma natalitatii " , col = "orange" )

lines(density(date$X3), col = "red" , lwd=3)

hist(date$X5, freq = F , main="Histograma mortalitatii infantile " , col = "blue" )

boxplot(date$X7 , main="Boxplot pentru FBCF" , col = "purple" , horizontal = TRUE)

#corelatie puternica (peste 0.95) intre x2 si x8, x2 si x11 si x8 si x11

corrplot(cor(date), method="number", type="upper")

date_finale <- date[,-which(names(date)=="X11")]

date_std <- scale(date_finale,scale=T)

#Abaterea standard a tuturor indicatorilor din analiză devine 1

#Matricea de covarianță are aceleași valori precum matricea de corelație

#analiza componentelor principale

acp1<- princomp(date_std, cor = TRUE, scores =TRUE)

#valori proprii si vectori proprii