Sunteți pe pagina 1din 20

Academia de Studii Economice din Bucuresti

Cibernetica si Economie Cantitativa

PROIECT

Data Mining

Iancu Gabriel

Hampau Emil

GRUPA 1083
Cuprins

1.Justificrea alegerii indicatorilor

2.Descrierea distributiilor variabilelor alese

3.Analiza corelatiilor
4.Analiza componentelor principale

5.Analiza Cluster

6.Analiza factoriala a corespondentelor


Proiectul isi propune sa analizeze progresul tehnologic din 37 de tari din Europa pe baza
a 8 indicatori. Scopul acestei analize este de a estima tara cea mai avantajoasa din punct de
vedere a dezvoltarii tehnologice.

1.Justificrea alegerii indicatorilor

In vederea clasificarii tarilor se urmareste reducerea dimensionalitatii, adica aflarea unor


indicatori relevanti pentru analiza, indicatori sintetici redusi din cei initiali, pe baza carora
datele pot fi interpretare mai usor. Pentru aceasta se foloseste tehnica analizei componentelor
principale pe baza matricei de corelatie.Componentele noi vor exprima atribute noi ale tarilor
si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare dintre aceste noi variabile
fiind o combinatie liniarade variabile originale.

Variabilele luate in considerare sunt:

-Scientific publications among top 10% most cited

Acest indicator internațional standardizat arată lucrările științifice care se numără printre
primele 10% cele mai citate în lume într-un anumit domeniu de cercetare.

-R&D expenditure in the business sector

Cercetarea și dezvoltarea experimentală (R & D) cuprinde o activitate creativă întreprinsă


sistematic pentru a crește capacitatea de cunoaștere, precum și utilizarea acestui stoc de
cunoștințe pentru a elabora noi aplicații. Cheltuielile pentru R & D includ toate cheltuielile
pentru cercetare și dezvoltare efectuate în sectorul întreprinderilor pe o perioadă dată pe
teritoriul unei tari, indiferent de sursa de fonduri.

- Innovative SMEs collaborating with others

Întreprinderile mici si mijloci sunt adesea prudente cand vine vorba să colaboreze cu străinii
pentru a inova, dar noile dovezi sugerează că colaborările sporesc succesul inovării.

- Public-private co-publications

Cantitatea de co-publicații publice-private este foarte înclinată peste țări și acest indicator nu
are o valoare maximă prestabilită.

-Trademark applications

O marcă comercială este un semn capabil să distingă bunurile sau serviciile unei întreprinderi
de cele ale altor întreprinderi. Mărcile comerciale sunt protejate prin drepturi de proprietate
intelectuală.

-Design applications
-Employment in knowledge-intensive activities

Ocuparea forței de muncă în activitățile intensive ale cunoașterii este identificată pe baza unui
nivel de indivizi cu studii superioare în sectoarele activității economice și, prin urmare, este un
indicator al gradului de utilizare a cunoștințelor în activitățile economice.

-Medium & high tech product exports

Indicatorul măsoară competitivitatea tehnologică a UE, adică capacitatea de a comercializa


rezultatele cercetării și dezvoltării și inovarea pe piețele internaționale. De asemenea, reflectă
specializarea produselor în funcție de țară.Crearea, exploatarea și comercializarea noilor
tehnologii sunt vitale pentru competitivitatea unei țări în economia modernă.

2.Descrierea distributiilor variabilelor alese

Statistica descriptiva are rolul de a descrie trasaturile principale ale unor esantioane si consta in
determinarea unor masuri simple si analize grafice ale datelor din esantion. Box plot-ul este
ometoda standardizata de afisare a distributiei datelor bazata pe cele cinci valori: minim, prima
quartila, mediana, a treia quartila si maximul. Drepunghiul central care se intinde de la prima
quartila pana la cea de-a doua se numeste interval interquartilic iar segmetul din interiorul
acestui poarta numele de mediana.

I1-Scientific publications among top 10% most cited

Pentru primul indicator putem observa ca valoarea


minima este de 21.6, iar valoarea maxima este 160.2. Media
primelor 10% a celor mai citite publicatii stiintifice despre
tehnologie este 86.2. Range-ul este diferenta dintre valoarea
maxima si valoarea minima iar in cazul nostru este egal cu
138.6. Valoarea centarala este de 87.25.
I2-R&D expenditure in the business sector

Pentru cel de-al doilea indicator si anume


cheltuieli de cercetare si dezvoltare in sectorul de
afaceri valoarea minima este de 4.8 iar valoarea
maxima de 222.3. Cheltuielile medii din sectorul de
afaceri cu privire la cercetare si dezvoltare in tarile din
Europa este de 82.08, iar valoarea centrela este de
57.65. Range-ul in cazul indicatorului doi este 217.5.

I3- Innovative SMEs collaborating with others

In cazul intreprinderilor mici si mijlocii care


colaborează cu altii, valoarea minima si maxima este 3
si respective 217.4, iar range-ul este 214.4. Media
colaborarilor intreprinderilor mici si mijlocii din
Europa cu alte firme este de 96.11, iar valoarea centala
este 88.95. Intervalul interquartilic este cuprins intre
53.95 si 129.85, fiind egal cu 75.9.

I4- Public-private co-publications

Media publicatiilor publice-private este de 87.78.


Valoarea minima 0 iar valoarea maxima 201.3.
Intervalul interquartilic se afla intre 35.85 (Quartila 1)
si 130.75 (Quartila 3) si este egal cu 94.9. Valoarea
centrela este de 73.45.
I5-Trademark applications

Media marcilor comerciale din tarile din Europa


este egala cu 115.88, valoarea minima a acestora este
4.8, iar valoarea maxima este 278.7. Intervalul
interquartilic este egal cu 81.93. Valoarea centrala este
109.75.

I6 -Design applications

Valoarea minima a indicatorului aplicatii de


proiectare este egala cu 1 si maximul egal cu 121.5.
Quartila 1 este 25.85 iar Quartila 3 egala cu 121.5,
intervalul interquartilic egal cu 95.65. Are o valoare
centrala egala cu 64.6,iar media fiind 72.52.

I7-Employment in knowledge-intensive activities

Media ocupari fortei de munca in domenii de cunoastere


din Europa este de 111.9. Valoarea minima a acesteia este 7.8
iar ce maxima 223.4, rangeul este 215.6. Quartila 1 este egala
cu 76.6 iar Quartila 3 este 147.1, intervalul interquartilic fiind
70.5.
I8-Medium & high tech product exports

In medie exporturile de produse din tarile din Europa este


de 81.65. Intervalul interquartilic este 46, valoare minima este 0
si valoare maxima este 139.6. Valoarea centrala este 84.8.

3.Analiza corelatiilor

Observarea datelor din matricea de corelatie reprezinta prima etapa in analiza


componentelor principale, acest lucru permitandu-ne sa indentificam rendundantele
informationale si necesitatea aplicari ACP.
Observam ca avem valori ale coeficientilor care sugereaza corelatii puternice positive
si anume: 0.65, 0.78, 0.77, 0.76, 0.81 sau 0.70. Pentru a identifica cat mai bine daca un
coefficient de corelatie este diferit de zero, vom utilize probabilitatile p-value associate acestora
din tabelul de mai jos.

Coeficientul de corelatie dintre indicatorii i5 si i2 care are valoarea 0.17 nu este


semnificativ statistic deoarece probabilitatea p-value este 0.31. Este utila aplicarea ACP
deoarece majoritatea coeficientilor de corelatie sunt semnificativi. Pentru a fi cat mai vizibile
informatiile din cele doua tabele, putem construi un grafic care include culori pentru a indica
intensitatea si semnul coeficientului de corelatie.

Din grafic putem identifica ca toti coeficienti de corelatie sunt pozitivi iar 14 dintre
acestia sunt nesemnificativ statistic, pentru un prag de 0.01. Cea mai puternica legatura se
regaseste intre i2, i3 si i4, adica intre : R&D expenditure in the business sector, Innovative
SMEs collaborating with others, Public-private co-publications.
Dupa cum putem observa din graficul de mai sus in triunghiul de deasupra diagoanlei
principale ragasim valorile coeficientilor de corelatie, iar prin intermediul stelutelor identificam
masura in care acestia sunt semnificativ statistic. Diagonala principala ilustreaza distributia
variabilelor. In triunghiul de sub diagonala principala, prin intermediul norului de puncte si a
liniei curbe care ajusteaza aceasta dependenta, sunt reprezentate dependentele dintre oricare
doua variabile.

4.Analiza componentelor principale

Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
Variance 4.028 1.668 0.977 0.466 0.438 0.198 0.164 0.062
% of var. 50.348 20.845 12.213 5.825 5.480 2.471 2.047 0.771
Cum % var. 50.348 71.193 83.406 89.231 94.711 97.182 99.229 100.000

Conform criteriului lui Kaiser alegem primele două axe factoriale deoarece 𝜆𝑘>1
( λ1=4.028, λ2=1.668).
Varianța explicată de primul ax factorial este 4.028 (primul ax factorial explică 50,348% din
varianța totală) .
Varianța explicată de al doilea ax factorial este 1.668 (al doilea ax factorial explică 20,845 %
din varianța totală) .
Individuals (the 10 first)
Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
BE | 2.725 | 2.063 2.936 0.573 | -1.431 3.412 0.276 | 0.228 0.148 0.007 |
BG | 2.884 | -2.037 2.862 0.499 | 1.132 2.136 0.154 | -1.029 3.010 0.127 |
CZ | 1.738 | -0.561 0.217 0.104 | 0.514 0.440 0.087 | 1.426 5.783 0.674 |
DK | 3.347 | 2.855 5.622 0.728 | 0.422 0.297 0.016 | 0.032 0.003 0.000 |
DE | 2.689 | 1.747 2.105 0.422 | 1.075 1.925 0.160 | 1.576 7.061 0.344 |
EE | 1.839 | -0.099 0.007 0.003 | 1.232 2.528 0.449 | -1.165 3.856 0.401 |
IE | 2.313 | 0.994 0.681 0.185 | -0.877 1.281 0.144 | 0.402 0.459 0.030 |
EL | 2.697 | -1.186 0.971 0.194 | -1.525 3.875 0.320 | -1.683 8.048 0.389 |
ES | 1.022 | -0.700 0.337 0.468 | 0.405 0.273 0.157 | -0.172 0.084 0.028 |
FR | 1.336 | 0.723 0.361 0.293 | -0.339 0.192 0.064 | 1.001 2.848 0.561 |

Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
i1 | 0.929 21.415 0.863 | -0.025 0.038 0.001 | -0.046 0.212 0.002 |
i2 | 0.808 16.203 0.653 | -0.207 2.572 0.043 | 0.337 11.648 0.114 |
i3 | 0.681 11.516 0.464 | -0.527 16.637 0.277 | -0.063 0.404 0.004 |
i4 | 0.853 18.049 0.727 | -0.369 8.144 0.136 | 0.085 0.733 0.007 |
i5 | 0.577 8.269 0.333 | 0.657 25.870 0.431 | -0.386 15.287 0.149 |
i6 | 0.535 7.101 0.286 | 0.743 33.119 0.552 | -0.091 0.852 0.008 |
i7 | 0.815 16.497 0.664 | -0.007 0.003 0.000 | -0.180 3.311 0.032 |
i8 | 0.196 0.950 0.038 | 0.477 13.616 0.227 | 0.812 67.552 0.660 |

Tabelele de mai sus indică valorile coordonatelor (dim), contribuţia la construcţia axei
(ctr) şi calitatea reprezentării (cos2). Coloana cos2 reprezintă pătratul coloanei dim, de aceea se
consideră că valoarea cos2 estimează calitatea reprezentării. Cu cât o variabilă se apropie de
circumferinţa cercului, cu atât este mai importantă în interpretarea componentelor principale
alese. Contribuţia unei variabile la definirea unei anumite componente principale se exprimă
procentual şi se calculează ca raport între valoarea cos2 asociată variabilei respective şi suma
tuturor valorilor cos2 din cadrul acelei componente. Contribuţia de 21,415% a variabilei i1 la
construcţia primei component este rezultatul împărţirii 0.863 /(0.863 +0.653 +0.464 + 0.727
+0.333 +0.286+0.664+0.038). Altfel spus, această mărime indică măsura în care variabila
respectivă contribuie la variaţia componentei principale. Aşadar numitorul fracţiei este de fapt
valoarea proprie asociată componentei principale.
Din graficul de mai sus putem observa ca toate cele 8 variabile sunt corelate pozitiv cu
prima componenta, iar cu a doua componenta sunt corelate pozitiv doar i5, i6 si i8 care
reprezinta variabilele trademark applications, design applications si medium & high tech
product exports, restul variabilelor fiind corelate negativ.

Observam ca reducerea dimensionalitatii de la 8 variabile la 2 ne permite analizarea si


vizualizarea celor 36 de tari intr-un graphic bidimensional, astfel putand indentifica asemanarile
si deosebirile dintre acestea atunci cand vine vorba de variabilele analizate.

Din primul ax factorial putem observa ca tarile din Europa de est (Romania, Bulgaria,
Polonia, Ucraina, Slovacia, Macedonia, Lituania, Letonia, Rusia) au caracteristici asemanatoare
atunci cand. vine vorba de variabilele analizate. Tarile precum Austria, Danemarca, Marea
Britanie, Belgia, Olanda si Suedia sunt asemanatoare la mediul necesar inovarii.

Din al doilea ax factorial observam ca Malta a inregistrat valori foarte mari atunci cand
vine vorba de trademark applications, design applications si medium & high tech product
exports, in timp ce tari precum Islanda si Norvegia au inregistrat valori mari la Scientific
publications among top 10% most cited, R&D expenditure in the business sector , Innovative
SMEs collaborating with others, Public-private co-publications si Employment in knowledge-
intensive activities.

5.Analiza Cluster

Pe baza componentelor principale obtinute la punctul anterior vom imparti tarile in


grupuri cat mai omogene prin intermediul analizei cluster.

Din analiza dendogramei putem observa ca aceasta poate avea doua solutii de
clusterizare pe care le vom cerceta mai amanuntit. Prima solutie este cu doua clase iar a doua
solutie este cu 3 clase.
Solutia cu trei clase

Din graficul de tip silhouette obţinut pentru această repartizare putem


observa ca nu exista coeficinti negative pentru nicio tara, ceea ce inseamna ca
tarile au fost distribuite corect pe clase. Cele mai reduse valori ale coefienţilor au
fost înregistrate pentru observaţia cu numărul 5 (Germania) şi observaţia 24
(Slovenia) acest lucru datorandu-se faptului ca aceste doua tari si afla la frontiera
dintre doua clase. Media coeficienţilor s(i) este 0.47.
Solutia cu doua clase

Conform algoritmului ales, atunci când ţările sunt repartizate în două clase,
obţinem coeficienţi s(i) negativi pentru Italia şi Estonia, ţări aflate la frontiera
dintre cele două clase. Aceste valori negative indică o repartizare incorectă a
obiectelor.
Observăm din graficul de mai sus ca soluţia furnizată de algoritm pentru
impartirea in doua clase, că tarile care înregistrau valori negative ale coeficienţilor
s(i), au fost repartizate în cealaltă clasă

In urma investigarii celor doua solutii, observam ca ambele solutii obtin


aceleasi valori medii ai coeficienţilor s(i), de aceea vom decide să utilizăm
repartizarea pe 3 clase oferită de algoritmul de partiţionate, deoarece toţi
coeficienţii s(i) au înregistrat valori positive, cee ace inseamna ca tarile au fost
impartite corect pe clase.

6.Analiza factoriala a corespondentelor

10 - 20 lei 20 - 30 lei Mai mult de 30 lei Mai putin de 10 Lei


Comand la birou de la diverse restaurante 15 12 3 0
Cumpar de la supermarket 12 7 1 2
Ies la masa in afara biroului 30 27 1 2
Pachet de acasa 32 16 0 2

Tabelul profilelor linie


10 - 20 lei 20 - 30 lei Mai mult de 30 lei Mai putin de 10 Lei
Comand la birou de la diverse restaurante 0.50000000 0.40000000 0.10000000 0.00000000
Cumpar de la supermarket 0.54545455 0.31818182 0.04545455 0.09090909
Ies la masa in afara biroului 0.50000000 0.45000000 0.01666667 0.03333333
Pachet de acasa 0.64000000 0.32000000 0.00000000 0.04000000

Observam ca cei mai multi dintre respondenti prefera sa cheltuiasca intre 10 si 20 de lei
pe masa de pranz, aceasta fiiind varinta cea mai aleasa pentru toate cele 4 metode diferite de a
lua masa.

Tabelul profilelor coloana


10 - 20 lei 20 - 30 lei Mai mult de 30 lei Mai putin de 10 Lei
Comand la birou de la diverse restaurante 0.1685393 0.1935484 0.6000000 0.0000000
Cumpar de la supermarket 0.1348315 0.1129032 0.2000000 0.3333333
Ies la masa in afara biroului 0.3370787 0.4354839 0.2000000 0.3333333
Pachet de acasa 0.3595506 0.2580645 0.0000000 0.3333333

Observam ca cea mai mare parte (35,9%) a celor care cheltuie intre 10 si 20 de lei
prefera sa-si aduca pachet de acasa. 45% dintre cei care cheltuie intre 20 si 30 de lei prefera sa
iasa la masa in afara biroului. Cei care cheltuie mai mult de 30 de lei, prefera in proportie de
60% sa comande mancare la birou de la diferite restaurante, iar cei are care cheltuie mai putin
de 10 lei pt masa de pranz prefera in mod egal sa cumpere de la supermarket, sa iasa la masa
in afara biroului si sa isi aduca mancarea la pachet.
Principal inertias (eigenvalues):

dim value % cum% scree plot


1 0.049515 65.6 65.6 ****************
2 0.016504 21.9 87.4 *****
3 0.009510 12.6 100.0 ***
-------- -----
Total: 0.075529 100.0

Primul ax explică 65,6% din varianța totală, iar al doilea ax explica 21,9%.

Numărul maxim de axe = minim dintre (p-1;q-1)=(4-1;4-1)= 3 dimensiuni

Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Cmnd | 185 976 483 | -438 974 718 | -15 1 3 |
2 | Cmpr | 136 855 173 | 45 21 6 | -283 834 660 |
3 | Islm | 370 680 114 | 29 37 6 | 122 643 334 |
4 | Pcht | 309 771 230 | 208 768 270 | -13 3 3 |
Vom alege punctele ce au contribuția mai mare de 1/4=0,25
Primul ax factprial este explicat in proportie de 98,8% de raspunsurile Comand la
birou si Pachet de acasa.
Al doilea ax factorial este explicat in proportie de 99,4% de raspunsurile Cumpar de
la supermarket si Ies la masa.

Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | 1020 | 549 528 94 | 76 446 64 | -33 82 35 |
2 | 2030 | 383 714 121 | -60 150 28 | 116 565 314 |
3 | Mm30 | 31 1000 550 | -1115 923 774 | -322 77 194 |
4 | M10L | 37 800 234 | 423 375 134 | -451 425 456 |
Vom alege punctele ce au contribuția mai mare de 1/4=0,25
Primul ax factorial este explicat in proportie de 77,4% de varianta mai mult de 30 de
lei.
Al doilea ax factorial este explicat in proportie de 77% de raspunsurile 20-30 de lei
si mai putin de 10 lei.
Din primul ax factorial observam ca exista diferente intre respondetii care platesc mai
mult de 30 de lei pentru a lua pranzul, 60% preferand sa comande mancare la birou si 0% prefera
sa-si aduca pchet de acasa.

Din al doilea ax factorial observam ca exista Diferente intre cei care prefera sa cumpere
mancare de la supermarket, 31,8% cheltuind intre 20 si 30 de lei si 9% prefera sa cheltuiasca
mai putin de 10 lei, in timp ce persoanele care ies la masa in afara biroului prefera sa cheltuiasca
in proportie de 45% intre 20 si 30 de lei si doar 3,3% cheltuiesc sub 10 lei.
Anexa
library(Hmisc)

library(corrplot)

library(PerformanceAnalytics)

library(ggplot2)

path<-"E:\\proiect"

m<-read.table(file.path(path,"proiect.txt"),sep="\t",dec=".",header=TRUE,row.names=1)

attach(m)

c<-round(cor(m),2)

c2<-rcorr(as.matrix(m))

c2

windows()

corrplot(c2$r,type = "upper",p.mat = c2$P,sig.level = 0.05, insig = "blank")

chart.Correlation(m,histogram = TRUE, pch=19)

ibrary(FactoMineR)

acp1<-princomp(m,cor=TRUE)

acp1

summary(acp1)

plot(acp1,type="l")

biplot(acp1)

scoruri<- acp1$scores

scoruri

cor(scoruri[,1:2],m)
d<-PCA(m,graph = TRUE)

summary(d)

library(cluster)

library(factoextra)

library(ggplot2)

d<-dist(scoruri[,1:2], method="euclidian")

solutie1<-hclust(d, method="ward.D2")

solutie12<-cutree(solutie1,k=3)

plot(solutie1)

s1<-silhouette(solutie12,d)

plot(s1)

solutie2<-kmeans(scoruri[,1:2],2)

s2<-silhouette(solutie2$cluster,d)

plot(s2)

fviz_cluster(solutie2,scoruri[,1:2])

solutiaclst<-solutie2$cluster

path<-"E:\\proiect"

raspunsuri<-read.table(file.path(path,"Formular Data Mining(20-10-2018).txt"),sep="\t",dec=".",header=TRUE)

attach(raspunsuri)

names(raspunsuri)

raspunsuri2<-subset(raspunsuri,Solutie2!="")

raspunsuri2$Solutie1<-raspunsuri2$Solutie2

raspunsuri3<-rbind(raspunsuri,raspunsuri2)

table(raspunsuri3$Solutie1)

levels(raspunsuri3$Solutie1)

is.factor(raspunsuri3$Solutie1)
levels(raspunsuri3$Solutie1)[levels(raspunsuri3$Solutie1)=="Tonomat"]<-"Cumpar de la supermarket"

tabel<-table(raspunsuri3$Solutie1,raspunsuri3$pret)

tabel

tabel<-tabel[-5,]

prop.table(tabel, 1)

prop.table(tabel, 2)

library(ca)

corespondente<-ca(tabel)

corespondente

summary(corespondente)

windows()

plot(corespondente)

levels(raspunsuri3$pret)[levels(raspunsuri3$pret)=="Mai mult de 30 lei"]<-"20 - 30 lei"

tabel<-table(raspunsuri3$Solutie1,raspunsuri3$pret)

tabel

S-ar putea să vă placă și