Documente Academic
Documente Profesional
Documente Cultură
ANALIZA CLUSTER
o Concepte necesare:
o Distanța
dintre 2 obiecte
dintre 2 clase de obiecte
o Descompunerea variabilității
Variabilitate intra clasă
Variabilitate inter clasă
Recunoașterea formelor
- scopul de a identifica apartenența unor forme sau obiecte (unități,
fenomene, evenimente, acțiuni, procese etc.) la anumite clase
Proximitatea/disimilaritate
𝑝 2
Distanța Mahalanobis
𝑑(𝑜𝑖 , 𝑜𝑗 ) = (𝑥 𝑖 − 𝑥 𝑗 )𝑇 Σ𝑝𝑥𝑝
−1 (𝑥 𝑖 − 𝑥 𝑗 )
Descompunerea variabilității
n= numărul obiectelor analizate
p= numărul caracteristicilor
t= numărul claselor
tk= numărul obiectelor din clasa k
2
∑𝑝𝑗=1 ∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅ 𝑗 ) =
2
∑𝑡𝑘=1 ∑𝑝𝑗=1 ∑𝑡𝑘
𝑖=1 (𝑥𝑖
𝑗
−
𝑗
𝑥̅(𝑘) )
𝑝 𝑗
+∑𝑡𝑘=1 𝑡𝑘 ∑𝑗=1(𝑥̅(𝑘) − 𝑥̅ 𝑗 )2
Dacă p=1
𝑛
∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝑡 𝑡𝑘 𝑡 𝑡𝑘
2 2
= ∑ ∑(𝑥𝑖(𝑘) − 𝑥̅ ) = ∑ ∑(𝑥𝑖(𝑘) − 𝑥̅ (𝑘) + 𝑥̅ (𝑘) − 𝑥̅ ) =
𝑘=1 𝑖=1 𝑘=1 𝑖=1
2 2
= ∑𝑡𝑘=1 ∑𝑡𝑘
𝑖=1(𝑥𝑖 (𝑘) − 𝑥̅ (𝑘) ) + ∑𝑡𝑘=1 ∑𝑡𝑘
𝑖=1(𝑥̅ (𝑘) − 𝑥̅ ) +
2
2 ∑𝑡𝑘=1 ∑𝑡𝑘
𝑖=1(𝑥𝑖 (𝑘) − 𝑥̅ (𝑘) )(𝑥̅ (𝑘) − 𝑥̅ ) = ∑𝑡𝑘=1 ∑𝑡𝑘
𝑖=1(𝑥𝑖 (𝑘) − 𝑥̅ (𝑘) ) +
𝑡 2
∑𝑘=1 𝑡𝑘(𝑥̅(𝑘) − 𝑥̅ )
Inițial, când fiecare din cele n instanțe constituie câte un cluster, varianța intra-
clasă este nulă în timp ce varianța inter-clasă este maximă.
Dacă se agregă două clustere, varianța intra-clasă crește (clusterul format fiind mai
puțin omogen) iar varianța inter-clasă scade.
Când toate obiectele sunt grupate într-un singur cluster, varianța intra-clasă crește
la valoarea maximă în timp ce varianța inter-clasă scade la 0.
Exemplu
Graficul Silhouette
𝒂(𝒊)
𝟏− , 𝒂(𝒊) < 𝒃(𝒊)
𝒃(𝒊)
𝒃(𝒊) − 𝒂(𝒊)
𝒔(𝒊) = = 𝟎 , 𝒂(𝒊) = 𝒃(𝒊)
{ ( )
𝒎𝒂𝒙 𝒂 𝒊 , 𝒃(𝒊)}
𝒃(𝒊)
− 𝟏, 𝒂(𝒊) > 𝒃(𝒊)
{𝒂(𝒊)
−𝟏 ≤ 𝒔(𝒊) ≤ 𝟏
a(i) este o măsură medie a ”distanțelor” dintre obiectul i și celelalte obiecte din
clusterul în care a fost încadrat. Cu cât valoarea este mai mică cu atât asocierea a fost
făcută mai corect.
b(i) este minimul mediei ”distanțelor” dintre forma i și oricare alt cluster (diferit de
cel în care a fost repartizat). Indică cel mai apropiat cluster de obiectul i.
Pas 1 Iniţializarea : se aleg aleator k observaţii din setul de date reprezentând mediile
iniţiale
Pas 4: Se reia de la pasul 2. Paşii 2 şi 3 se repetă până când nu se mai întâlnesc variaţii
în alocarea obiectelor pe clase.
Funcții R
library(cluster)
d <- dist(m)
?hclust()
ierarhie <- hclust(d,method="single") ## comparati cu centroid
ierarhie$height # distantele de agregare
ierarhie$labels # etichetele obiectelor
windows()
plot(ierarhie) # dendrograma
## Soluția cu 2 clase
plot(s)
## Kmeans
km <- kmeans(m,2)
clase <- km$cluster # apartenenta la clase
s <- silhouette(clase,d)
plot(s)
?kmeans()
km$centers# centroizii
km$totss # variabilitate totala
km$withinss # variabilitate intra clasa