PROIECT
Data Mining
Iancu Gabriel
Hampau Emil
GRUPA 1083
Cuprins
3.Analiza corelatiilor
4.Analiza componentelor principale
5.Analiza Cluster
Acest indicator internațional standardizat arată lucrările științifice care se numără printre
primele 10% cele mai citate în lume într-un anumit domeniu de cercetare.
Întreprinderile mici si mijloci sunt adesea prudente cand vine vorba să colaboreze cu străinii
pentru a inova, dar noile dovezi sugerează că colaborările sporesc succesul inovării.
- Public-private co-publications
Cantitatea de co-publicații publice-private este foarte înclinată peste țări și acest indicator nu
are o valoare maximă prestabilită.
-Trademark applications
O marcă comercială este un semn capabil să distingă bunurile sau serviciile unei întreprinderi
de cele ale altor întreprinderi. Mărcile comerciale sunt protejate prin drepturi de proprietate
intelectuală.
-Design applications
-Employment in knowledge-intensive activities
Ocuparea forței de muncă în activitățile intensive ale cunoașterii este identificată pe baza unui
nivel de indivizi cu studii superioare în sectoarele activității economice și, prin urmare, este un
indicator al gradului de utilizare a cunoștințelor în activitățile economice.
Statistica descriptiva are rolul de a descrie trasaturile principale ale unor esantioane si consta in
determinarea unor masuri simple si analize grafice ale datelor din esantion. Box plot-ul este
ometoda standardizata de afisare a distributiei datelor bazata pe cele cinci valori: minim, prima
quartila, mediana, a treia quartila si maximul. Drepunghiul central care se intinde de la prima
quartila pana la cea de-a doua se numeste interval interquartilic iar segmetul din interiorul
acestui poarta numele de mediana.
I6 -Design applications
3.Analiza corelatiilor
Din grafic putem identifica ca toti coeficienti de corelatie sunt pozitivi iar 14 dintre
acestia sunt nesemnificativ statistic, pentru un prag de 0.01. Cea mai puternica legatura se
regaseste intre i2, i3 si i4, adica intre : R&D expenditure in the business sector, Innovative
SMEs collaborating with others, Public-private co-publications.
Dupa cum putem observa din graficul de mai sus in triunghiul de deasupra diagoanlei
principale ragasim valorile coeficientilor de corelatie, iar prin intermediul stelutelor identificam
masura in care acestia sunt semnificativ statistic. Diagonala principala ilustreaza distributia
variabilelor. In triunghiul de sub diagonala principala, prin intermediul norului de puncte si a
liniei curbe care ajusteaza aceasta dependenta, sunt reprezentate dependentele dintre oricare
doua variabile.
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
Variance 4.028 1.668 0.977 0.466 0.438 0.198 0.164 0.062
% of var. 50.348 20.845 12.213 5.825 5.480 2.471 2.047 0.771
Cum % var. 50.348 71.193 83.406 89.231 94.711 97.182 99.229 100.000
Conform criteriului lui Kaiser alegem primele două axe factoriale deoarece 𝜆𝑘>1
( λ1=4.028, λ2=1.668).
Varianța explicată de primul ax factorial este 4.028 (primul ax factorial explică 50,348% din
varianța totală) .
Varianța explicată de al doilea ax factorial este 1.668 (al doilea ax factorial explică 20,845 %
din varianța totală) .
Individuals (the 10 first)
Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
BE | 2.725 | 2.063 2.936 0.573 | -1.431 3.412 0.276 | 0.228 0.148 0.007 |
BG | 2.884 | -2.037 2.862 0.499 | 1.132 2.136 0.154 | -1.029 3.010 0.127 |
CZ | 1.738 | -0.561 0.217 0.104 | 0.514 0.440 0.087 | 1.426 5.783 0.674 |
DK | 3.347 | 2.855 5.622 0.728 | 0.422 0.297 0.016 | 0.032 0.003 0.000 |
DE | 2.689 | 1.747 2.105 0.422 | 1.075 1.925 0.160 | 1.576 7.061 0.344 |
EE | 1.839 | -0.099 0.007 0.003 | 1.232 2.528 0.449 | -1.165 3.856 0.401 |
IE | 2.313 | 0.994 0.681 0.185 | -0.877 1.281 0.144 | 0.402 0.459 0.030 |
EL | 2.697 | -1.186 0.971 0.194 | -1.525 3.875 0.320 | -1.683 8.048 0.389 |
ES | 1.022 | -0.700 0.337 0.468 | 0.405 0.273 0.157 | -0.172 0.084 0.028 |
FR | 1.336 | 0.723 0.361 0.293 | -0.339 0.192 0.064 | 1.001 2.848 0.561 |
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
i1 | 0.929 21.415 0.863 | -0.025 0.038 0.001 | -0.046 0.212 0.002 |
i2 | 0.808 16.203 0.653 | -0.207 2.572 0.043 | 0.337 11.648 0.114 |
i3 | 0.681 11.516 0.464 | -0.527 16.637 0.277 | -0.063 0.404 0.004 |
i4 | 0.853 18.049 0.727 | -0.369 8.144 0.136 | 0.085 0.733 0.007 |
i5 | 0.577 8.269 0.333 | 0.657 25.870 0.431 | -0.386 15.287 0.149 |
i6 | 0.535 7.101 0.286 | 0.743 33.119 0.552 | -0.091 0.852 0.008 |
i7 | 0.815 16.497 0.664 | -0.007 0.003 0.000 | -0.180 3.311 0.032 |
i8 | 0.196 0.950 0.038 | 0.477 13.616 0.227 | 0.812 67.552 0.660 |
Tabelele de mai sus indică valorile coordonatelor (dim), contribuţia la construcţia axei
(ctr) şi calitatea reprezentării (cos2). Coloana cos2 reprezintă pătratul coloanei dim, de aceea se
consideră că valoarea cos2 estimează calitatea reprezentării. Cu cât o variabilă se apropie de
circumferinţa cercului, cu atât este mai importantă în interpretarea componentelor principale
alese. Contribuţia unei variabile la definirea unei anumite componente principale se exprimă
procentual şi se calculează ca raport între valoarea cos2 asociată variabilei respective şi suma
tuturor valorilor cos2 din cadrul acelei componente. Contribuţia de 21,415% a variabilei i1 la
construcţia primei component este rezultatul împărţirii 0.863 /(0.863 +0.653 +0.464 + 0.727
+0.333 +0.286+0.664+0.038). Altfel spus, această mărime indică măsura în care variabila
respectivă contribuie la variaţia componentei principale. Aşadar numitorul fracţiei este de fapt
valoarea proprie asociată componentei principale.
Din graficul de mai sus putem observa ca toate cele 8 variabile sunt corelate pozitiv cu
prima componenta, iar cu a doua componenta sunt corelate pozitiv doar i5, i6 si i8 care
reprezinta variabilele trademark applications, design applications si medium & high tech
product exports, restul variabilelor fiind corelate negativ.
Din primul ax factorial putem observa ca tarile din Europa de est (Romania, Bulgaria,
Polonia, Ucraina, Slovacia, Macedonia, Lituania, Letonia, Rusia) au caracteristici asemanatoare
atunci cand. vine vorba de variabilele analizate. Tarile precum Austria, Danemarca, Marea
Britanie, Belgia, Olanda si Suedia sunt asemanatoare la mediul necesar inovarii.
Din al doilea ax factorial observam ca Malta a inregistrat valori foarte mari atunci cand
vine vorba de trademark applications, design applications si medium & high tech product
exports, in timp ce tari precum Islanda si Norvegia au inregistrat valori mari la Scientific
publications among top 10% most cited, R&D expenditure in the business sector , Innovative
SMEs collaborating with others, Public-private co-publications si Employment in knowledge-
intensive activities.
5.Analiza Cluster
Din analiza dendogramei putem observa ca aceasta poate avea doua solutii de
clusterizare pe care le vom cerceta mai amanuntit. Prima solutie este cu doua clase iar a doua
solutie este cu 3 clase.
Solutia cu trei clase
Conform algoritmului ales, atunci când ţările sunt repartizate în două clase,
obţinem coeficienţi s(i) negativi pentru Italia şi Estonia, ţări aflate la frontiera
dintre cele două clase. Aceste valori negative indică o repartizare incorectă a
obiectelor.
Observăm din graficul de mai sus ca soluţia furnizată de algoritm pentru
impartirea in doua clase, că tarile care înregistrau valori negative ale coeficienţilor
s(i), au fost repartizate în cealaltă clasă
Observam ca cei mai multi dintre respondenti prefera sa cheltuiasca intre 10 si 20 de lei
pe masa de pranz, aceasta fiiind varinta cea mai aleasa pentru toate cele 4 metode diferite de a
lua masa.
Observam ca cea mai mare parte (35,9%) a celor care cheltuie intre 10 si 20 de lei
prefera sa-si aduca pachet de acasa. 45% dintre cei care cheltuie intre 20 si 30 de lei prefera sa
iasa la masa in afara biroului. Cei care cheltuie mai mult de 30 de lei, prefera in proportie de
60% sa comande mancare la birou de la diferite restaurante, iar cei are care cheltuie mai putin
de 10 lei pt masa de pranz prefera in mod egal sa cumpere de la supermarket, sa iasa la masa
in afara biroului si sa isi aduca mancarea la pachet.
Principal inertias (eigenvalues):
Primul ax explică 65,6% din varianța totală, iar al doilea ax explica 21,9%.
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Cmnd | 185 976 483 | -438 974 718 | -15 1 3 |
2 | Cmpr | 136 855 173 | 45 21 6 | -283 834 660 |
3 | Islm | 370 680 114 | 29 37 6 | 122 643 334 |
4 | Pcht | 309 771 230 | 208 768 270 | -13 3 3 |
Vom alege punctele ce au contribuția mai mare de 1/4=0,25
Primul ax factprial este explicat in proportie de 98,8% de raspunsurile Comand la
birou si Pachet de acasa.
Al doilea ax factorial este explicat in proportie de 99,4% de raspunsurile Cumpar de
la supermarket si Ies la masa.
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | 1020 | 549 528 94 | 76 446 64 | -33 82 35 |
2 | 2030 | 383 714 121 | -60 150 28 | 116 565 314 |
3 | Mm30 | 31 1000 550 | -1115 923 774 | -322 77 194 |
4 | M10L | 37 800 234 | 423 375 134 | -451 425 456 |
Vom alege punctele ce au contribuția mai mare de 1/4=0,25
Primul ax factorial este explicat in proportie de 77,4% de varianta mai mult de 30 de
lei.
Al doilea ax factorial este explicat in proportie de 77% de raspunsurile 20-30 de lei
si mai putin de 10 lei.
Din primul ax factorial observam ca exista diferente intre respondetii care platesc mai
mult de 30 de lei pentru a lua pranzul, 60% preferand sa comande mancare la birou si 0% prefera
sa-si aduca pchet de acasa.
Din al doilea ax factorial observam ca exista Diferente intre cei care prefera sa cumpere
mancare de la supermarket, 31,8% cheltuind intre 20 si 30 de lei si 9% prefera sa cheltuiasca
mai putin de 10 lei, in timp ce persoanele care ies la masa in afara biroului prefera sa cheltuiasca
in proportie de 45% intre 20 si 30 de lei si doar 3,3% cheltuiesc sub 10 lei.
Anexa
library(Hmisc)
library(corrplot)
library(PerformanceAnalytics)
library(ggplot2)
path<-"E:\\proiect"
m<-read.table(file.path(path,"proiect.txt"),sep="\t",dec=".",header=TRUE,row.names=1)
attach(m)
c<-round(cor(m),2)
c2<-rcorr(as.matrix(m))
c2
windows()
ibrary(FactoMineR)
acp1<-princomp(m,cor=TRUE)
acp1
summary(acp1)
plot(acp1,type="l")
biplot(acp1)
scoruri<- acp1$scores
scoruri
cor(scoruri[,1:2],m)
d<-PCA(m,graph = TRUE)
summary(d)
library(cluster)
library(factoextra)
library(ggplot2)
d<-dist(scoruri[,1:2], method="euclidian")
solutie1<-hclust(d, method="ward.D2")
solutie12<-cutree(solutie1,k=3)
plot(solutie1)
s1<-silhouette(solutie12,d)
plot(s1)
solutie2<-kmeans(scoruri[,1:2],2)
s2<-silhouette(solutie2$cluster,d)
plot(s2)
fviz_cluster(solutie2,scoruri[,1:2])
solutiaclst<-solutie2$cluster
path<-"E:\\proiect"
attach(raspunsuri)
names(raspunsuri)
raspunsuri2<-subset(raspunsuri,Solutie2!="")
raspunsuri2$Solutie1<-raspunsuri2$Solutie2
raspunsuri3<-rbind(raspunsuri,raspunsuri2)
table(raspunsuri3$Solutie1)
levels(raspunsuri3$Solutie1)
is.factor(raspunsuri3$Solutie1)
levels(raspunsuri3$Solutie1)[levels(raspunsuri3$Solutie1)=="Tonomat"]<-"Cumpar de la supermarket"
tabel<-table(raspunsuri3$Solutie1,raspunsuri3$pret)
tabel
tabel<-tabel[-5,]
prop.table(tabel, 1)
prop.table(tabel, 2)
library(ca)
corespondente<-ca(tabel)
corespondente
summary(corespondente)
windows()
plot(corespondente)
tabel<-table(raspunsuri3$Solutie1,raspunsuri3$pret)
tabel