Documente Academic
Documente Profesional
Documente Cultură
Problema 1
Clusterizarea setului de date “wines” din biblioteca kohonen
În biblioteca kohonen este conţinut setul de date wines format din 177
observaţii (tipuri de vin) şi 13 atribute (substanţe chimice din
componenţa vinului). Următorul cod realizează clusterizarea celor 177
observaţii prin SOM.
Se citesc datele:
> data("wines")
> View(wines)
>set.seed(7)
Se construiesc hărţile SOM, de tip hexagonal şi de dimensiune 5 x 4 (5
clustere pe linie şi 4 clustere pe coloană), cu datele standardizate:
Date vinuri
Figura 8.11
Se observă că fiecare cluster din cele 20 de clustere (5x4=20) este
caracterizat de una sau mai multe variabile predominante,
corespunzătoare triunghiului colorat mai mare. Clusterele de pe prima
linie a hărţii sunt caracterizate de nivelul mare de alcool; clusterele de
pe ultima linie a hărţii sunt caracterizate de nivel mic de alcool, acid
malic, etc.
>View(music_sub)
>date<-music_sub
Se elimina coloanele 1 si 2:
>date1<-date[,-c(1,2)]
>View(date1)
> library(kohonen)
Setul de testare:
Se scade media unei coloane din elementele ei prin comanda:
center = attr(train.set, "scaled:center")
Se împart coloanele (centrate) cu abaterea lor standard prin comanda:
scale = attr(train.set, "scaled:scale")
>somprediction<-predict(somexemplu, newdata=test.set,
trainX=train.set)
>somprediction
>somprediction$unit.classif
>data.frame(somprediction$unit.classif)
>testset<-date[-train.obs,1]
>testset
> data.frame(testset,somprediction$unit.classif)
>nb<-table(somprediction$unit.classif)
>nb
Primul cluster contine 5 observatii, al doilea cluster contine 4 observatii,
etc.
Eticheta reala:
>testset<-date[-train.obs,3]
>testset
>tab<- table(date1[-train.obs,]$type,somprediction$unit.classif)
>tab