Sunteți pe pagina 1din 2

library("ggplot2")

library("ggfortify")
library("cluster")
library("e1071")
library("fclust")
library("fpc")
library("factoextra")
library("corrplot")
library("FactoMineR")

k means , ins

set.seed(123)
kn<-kmeans(iris[,1:4],3)
kn

> 40 obs
6-7 variabile numerice
1 variabila calitativa ( clasa,eticheta)

1)statistici descriptive
2) acp
3) metode clusterizare ( eliminarea clasei) k-means ,
kmedoids, fuzzy clustering
clusterizare ierarhica
som=SELF ORGANIZING MAPS

Criterii de det : metoda siluetei medii,metoda decalajului static,m.elbow


4)metode de clasificare(includ clasa)
arbori de decizie
Clasificatorul Naiv Bayssian
Retele neuronale
SVM=masini cu suport vectorial
knn- k nearest neighbours

cluster means se refera la marimea


clusterin vector observatia 1 apartine clusterului 1 obs 38 ap etc

// reprezentare grafica
plot(iris[,1],iris[,2],col=kn$cluster)

//reprezentarea centroizilor
points(kn$centers[,c(1,2)],col=c(1,3),pch=8,cex=2)

cex - marimea fontului


table(kn$cluster,iris$Species)

//metoda celor k medoids

PAM=partitioning around medoids

iris1<-iris[,-5] //scoatere coloana


rez<-pam(iris1,3) medoizi

clusteri in vectori - unde apartin indivizii

se calculeaza distrantele de la fiecare observatie la m


afisare rezultat

plot(rez)

pt fiecare obiect i se determina coeficientul silueta notat cu CSi , se calculeaza


distanta
medie de la obiectul i,la toate obiectele din cluster,se noteaza cu Ai
se calculeaza distanta medie de la i la toate obiectele acelui cluster
distanta minima se noteaza cu bi, coeficientul silueta
este CSi=bi-ai/max(ai,bi)
Situatia optima cand CSi=1
daca CSi tinde catre 1 atunci obiectul i a fost clusterizat corect ,
daca CSi tinde catre 0 ,obiectul i ar fi putut fi clusterizat si in clustul urmator
apropiat
daca CSi tinde catre -1 ,atunci obiectul i a fost clusterizat eronat
pt fiecare cluster sau structura de clustere se det silueta medie globala
media aritmetica a coeficientilor silueta ai obiectelor din cluster
Sk - silueta medie globala a clusterului k ,
daca Sk >0,71 Sk<1,atunci s-a det o structura puternica sau bine definita de
clustere
Sk>0,51 Sk<0,71 , structura este acceptabila
daca Sk.0>26 Sk <0,51 structura slaba
daca Sk < 0,26 structura artificiala

summary(rez)

date<-read.csv("protein.csv")
date1<-date[,-1]

rez1<-pam(date1,3)

par(mfrow=c(2,1))

plot (rez1)

o<-order(rez1$cluster)
o
data.frame(date$Country[o], rez1$clustering[o])

/reprezentare grafica
plot(date$RedMeat,date1$WhiteMeat, col=rez1$clustering)

text(x=date1$RedMeat,y=date1$WhiteMeat,labels=date$Country,col=rez1$clustering)

table(date$Country,rez1$clusterin)

Metoda fuzzy C-means


iris1<-iris[,-5]
iris1
km1<-cmeans(iris1,3,100,m=2,method="cmeans")
km1
km1<-cmeans(iris[,-5],3,100,m=2,method="cmeans")
points(km1$centeres[,c(1,2)],col=c(1:3),pch=3,cex=2)
table(km1$cluster,iris$Species)

S-ar putea să vă placă și