Sunteți pe pagina 1din 2

ndices de validao de agrupamentos

Wilfredo Jaime Puma-Villanueva, Fernando Jos Von Zuben Departamento de Engenharia de Computao e Automao Industrial (DCA) Faculdade de Engenharia Eltrica e de Computao (FEEC) Universidade Estadual de Campinas (Unicamp) Caixa Postal 6101, CEP 13083-970 Campinas, SP, Brasil
{wilfredo,vonzuben}@dca.fee.unicamp.br Abstract This work is into the unsupervised and machine learning context and taking into account the EADCA-2008, it presents three cluster validity indices (Silhouette, Dunn and Davies-Bouldin), followed by four comparative simulations with two synthetic and two real datasets. Keywords cluster validity indices, optimal number of clusters, unsupervised learning, machine learning, pattern recogn ition

1. Introduo
Aplicaes que envolvem anlise de agrupamentos so muito utilizadas em distintos campos da cincia e dos negcios como: Bioinformtica, anlise de dados espaciais, Minerao de Dados e na Web (Data & Web mining), reduo de dados, g erao e prova de hipteses, predio baseada em agrupamento, para posterior classificao (Pattern Reconition). O principal desafio em tarefas de agrupamento a anlise e definio do nmero timo de grupos. Algoritmos de agrupamento mais elaborados o tentam definir automaticamente, mas, dependendo do ajuste de um parmetro limiar. Uma forma alternativa de anlise de agrupamentos dar uma nota qualidade do resultado da agrupao levando em conta distancias intra e inter grupos em busca de grupos compactos e bem separados.

Dunn (D): Proposto em [2] calculado da seguinte forma:


D(C ) = d ( C i ,C j ) diam(Ch )

(4)

d(C i,Cj) representa uma distancia entre as classes Ci e Cj. Ch a classe com maio r dimetro. d(C i,Cj) e diam(C h ) esto relacionadas conectividade inter e intra classes.
Davies-Bouldin (DB): Proposto em [3].
DB = 1 K
K

max j i
i =1

diam(Ci ) + diam(C j ) d (C i , C j )

(5)

Pequenos valores de DB correspondem a grupos mais compactos.

3. Simulaes e resultados
Foram empregados 4 conjuntos de dados, 2 sintticos e 2 reais tomados de [6]. Seus detalhes esto na Tabela 1:
Nome Sinttico 1 Sinttico 2 Wine E.Coli Genes No. de atributos 2 2 13 7 No. de pontos 1000 1000000 178 336 No. real de classes 5 5 3 8

2. ndices de validao de agrupamentos


Os ndices de validao de agrupamentos considerados foram: Silhouette, Dunn e DaviesBouldin . O calculo destes ndices realizado depois do agrupamento, tendo como entrada as etiquetas para cada ponto e os centros para cada um dos grupos encontrados: C1 ,C2 ,...,CK, onde K o nmero de grupos. A seguir uma breve descrio de cada um deles: Silhouette (GS): Proposto em [1].
s (v i ) = d (vi , Ch ) d (vi , C j ) max( d (vi , C j ), d (v i , Ch ))

Tabela 1. Resumo dos conjuntos de teste

(1)

A estrutura dos conjuntos Sintticos mostrada na Figura 1, so 5 grupos com distribuies normais e varincia s diferentes.
30 25 20

Onde, o ponto vi pertence classe Cj, Ch a classe mais prxima a vi e N o nmero de

15

pontos.
Sj =

10

s(vi )
i =1

Nj

Nj

GS =

S j
j =1

(2), (3)

-5 -5

10

15

20

25

30

Figura 1. Estrutura dos dados Sinttico 1 e 2

As Figuras 2 e 3 mostram, esquerda, os valores dos ndices de validao (normalizados entre 0 e 1) para resultados de agrupamento com valores de K=1,2,...10 e direita o tempo computacional gasto para: agrupar via k-means [5], e para calcular os ndices GS, D e DB (para um K determinado). Para GS e D deve-se buscar pelo valor mximo da curva e para DB o valor mnimo que indicam o nmero de grupos timo. Na Figura 2, GS e DB indicaram o nmero de grupos reais 5, j D indicou 3, no entanto apresentou valor alto para K=5. GS mostrou-se mais demorado que o prprio processo, prvio, de agrupamento. O clculo de GS tornou-se invivel para o conjunto Sinttico 2.
1 0.9 0.8 0.7
Indice validao Silhouette = 5 | Dunn = 3 | Davies-Bouldin = 5

4. Concluses
Dos experimentos realizados neste trabalho pode-se verificar os seguintes aspectos: O clculo de GS invivel quando o numero de pontos alto. Para 1000 pontos em 2 demorou em torno de 0.5 seg., 0.2 e 0.11 seg. para 178 em 13 e 336 em 7 pontos respectivamente (note a sensibilidade ao nmero de atributos). Para o caso de 1 milho de pontos (Sinttico 2) o calculo de GS foi invivel, D em 1,4 seg. e DB em 2,4 seg. (CPU: AMD-Athlon XP 1.5 Ghz e 512 Mb RAM). D e DB requerem menos tempo para seus clculos. DB mostrou-se mais robusto do que D, e no indicou o nmero timo para E. Coli Genes. Mas, deve ser levado em conta que o clculo realizado acima do resultado, prvio , do agupador, no caso, utilizou-se o K-means [5] que no lida com formas arbitrarias de grupos nem com outliers. Sero realizados maiores estudos sobre este s e outros ndices de validao de agrupamentos da literatura [7][4], visando entender suas bondades e limitaes, por exemplo: sensibilidades densidade dos pontos, grupos desbalanceados, alm do nmero de pontos e nmero de atributos.

0.7

Silhouette Dunn Davies-Bouldin


0.6

0.5

Tempo (seg.)

0.6 0.5 0.4 0.3 0.2

0.4

0.3

0.2

0.1

0.1 0
0

10

Agrupamento

GS

DB

1 0.9 0.8 0.7


Indice validao

| Dunn = 3 | Davies-Bouldin = 5

140
Dunn Davies-Bouldin

120

100 Tempo (seg.)

0.6 0.5 0.4 0.3 0.2

80

60

40

20
0.1 0

10

Agrupamento

DB

Figura 2. Resultados para Sinttico 1 (acima) e para Sinttico 2 (embaixo)

Referncias
[1] Rousseeuw P. J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis . J. Comp . App. Math., Vol. 20, pp. 53-65, 1987. [2] Dunn J. Well separated clusters and optimal fuzzy partitions. J. Cybernetics, Vol. 4, pp. 95-104, 1974. [3] Davies D. L., Bouldin D. W. A cluster separation measure. IEEE Transactions on Pattern Recognition and Machine Intelligence, Vol. 1, No. 2, pp. 224-227, 1979. [4] Bezdek j. C., Pal N. R. Some new indexes of cluster validity. IEEE Transactions on Systems, Man and Cybernetics, Vol. 28, Part B, pp. 301315, 1998. [5] Hartigan J. A. and Wong M. A. A K-Means clustering algorithm Applied Statistics, Vol. 28, . No. 1, pp. 100-108, 1979. [6] UC Irvine Machine Learning Repository: http://archive.ics.uci.edu/ml/index.html [7] Boutin F., Hascoet M. Cluster validity indices for graph partitioning. Eighth International Conference on Information Visualization (IV'04), pp. 376-381, 2004.

Na Figura 3 os resultados para os conjuntos reais. No caso de Wine (acima), s DB conseguiu indicar o nmero real de grupos, 3, GS e D indicaram 2. J no caso do conjunto E. Coli Genes (embaixo), nenhum dos ndices conseguiram indicar o nmero real de grupos, DB indicou 4, GS 3 e D 2, no entanto, DB e GS apresentam uma boa aproximao quando K=8. (o resultado depende da eficincia do agrupador)
1 0.9 0.8 0.7
Indice validao Silhouette = 2 | Dunn = 2 | Davies-Bouldin = 3

0.35

Silhouette Dunn Davies-Bouldin

0.3

0.25 Tempo (seg.) 2 3 4 5 6 7 8 9 10

0.6 0.5 0.4 0.3 0.2

0.2

0.15

0.1

0.05 0.1 0 0

Agrupamento

GS

DB

1 0.9 0.8 0.7


Indice validao

Silhouette = 3 | Dunn = 2 | Davies-Bouldin = 4

0.12

Silhouette Dunn Davies-Bouldin

0.1

0.08 Tempo (seg.)

0.6 0.5 0.4 0.3 0.2 0.1 0

0.06

0.04

0.02

10

Agrupamento

GS

DB

Figura 3. Resultados para Wine (acima) e E. Coli Genes (embaixo)

S-ar putea să vă placă și