Documente Academic
Documente Profesional
Documente Cultură
Wilfredo Jaime Puma-Villanueva, Fernando Jos Von Zuben Departamento de Engenharia de Computao e Automao Industrial (DCA) Faculdade de Engenharia Eltrica e de Computao (FEEC) Universidade Estadual de Campinas (Unicamp) Caixa Postal 6101, CEP 13083-970 Campinas, SP, Brasil
{wilfredo,vonzuben}@dca.fee.unicamp.br Abstract This work is into the unsupervised and machine learning context and taking into account the EADCA-2008, it presents three cluster validity indices (Silhouette, Dunn and Davies-Bouldin), followed by four comparative simulations with two synthetic and two real datasets. Keywords cluster validity indices, optimal number of clusters, unsupervised learning, machine learning, pattern recogn ition
1. Introduo
Aplicaes que envolvem anlise de agrupamentos so muito utilizadas em distintos campos da cincia e dos negcios como: Bioinformtica, anlise de dados espaciais, Minerao de Dados e na Web (Data & Web mining), reduo de dados, g erao e prova de hipteses, predio baseada em agrupamento, para posterior classificao (Pattern Reconition). O principal desafio em tarefas de agrupamento a anlise e definio do nmero timo de grupos. Algoritmos de agrupamento mais elaborados o tentam definir automaticamente, mas, dependendo do ajuste de um parmetro limiar. Uma forma alternativa de anlise de agrupamentos dar uma nota qualidade do resultado da agrupao levando em conta distancias intra e inter grupos em busca de grupos compactos e bem separados.
(4)
d(C i,Cj) representa uma distancia entre as classes Ci e Cj. Ch a classe com maio r dimetro. d(C i,Cj) e diam(C h ) esto relacionadas conectividade inter e intra classes.
Davies-Bouldin (DB): Proposto em [3].
DB = 1 K
K
max j i
i =1
diam(Ci ) + diam(C j ) d (C i , C j )
(5)
3. Simulaes e resultados
Foram empregados 4 conjuntos de dados, 2 sintticos e 2 reais tomados de [6]. Seus detalhes esto na Tabela 1:
Nome Sinttico 1 Sinttico 2 Wine E.Coli Genes No. de atributos 2 2 13 7 No. de pontos 1000 1000000 178 336 No. real de classes 5 5 3 8
(1)
A estrutura dos conjuntos Sintticos mostrada na Figura 1, so 5 grupos com distribuies normais e varincia s diferentes.
30 25 20
15
pontos.
Sj =
10
s(vi )
i =1
Nj
Nj
GS =
S j
j =1
(2), (3)
-5 -5
10
15
20
25
30
As Figuras 2 e 3 mostram, esquerda, os valores dos ndices de validao (normalizados entre 0 e 1) para resultados de agrupamento com valores de K=1,2,...10 e direita o tempo computacional gasto para: agrupar via k-means [5], e para calcular os ndices GS, D e DB (para um K determinado). Para GS e D deve-se buscar pelo valor mximo da curva e para DB o valor mnimo que indicam o nmero de grupos timo. Na Figura 2, GS e DB indicaram o nmero de grupos reais 5, j D indicou 3, no entanto apresentou valor alto para K=5. GS mostrou-se mais demorado que o prprio processo, prvio, de agrupamento. O clculo de GS tornou-se invivel para o conjunto Sinttico 2.
1 0.9 0.8 0.7
Indice validao Silhouette = 5 | Dunn = 3 | Davies-Bouldin = 5
4. Concluses
Dos experimentos realizados neste trabalho pode-se verificar os seguintes aspectos: O clculo de GS invivel quando o numero de pontos alto. Para 1000 pontos em 2 demorou em torno de 0.5 seg., 0.2 e 0.11 seg. para 178 em 13 e 336 em 7 pontos respectivamente (note a sensibilidade ao nmero de atributos). Para o caso de 1 milho de pontos (Sinttico 2) o calculo de GS foi invivel, D em 1,4 seg. e DB em 2,4 seg. (CPU: AMD-Athlon XP 1.5 Ghz e 512 Mb RAM). D e DB requerem menos tempo para seus clculos. DB mostrou-se mais robusto do que D, e no indicou o nmero timo para E. Coli Genes. Mas, deve ser levado em conta que o clculo realizado acima do resultado, prvio , do agupador, no caso, utilizou-se o K-means [5] que no lida com formas arbitrarias de grupos nem com outliers. Sero realizados maiores estudos sobre este s e outros ndices de validao de agrupamentos da literatura [7][4], visando entender suas bondades e limitaes, por exemplo: sensibilidades densidade dos pontos, grupos desbalanceados, alm do nmero de pontos e nmero de atributos.
0.7
0.5
Tempo (seg.)
0.4
0.3
0.2
0.1
0.1 0
0
10
Agrupamento
GS
DB
| Dunn = 3 | Davies-Bouldin = 5
140
Dunn Davies-Bouldin
120
80
60
40
20
0.1 0
10
Agrupamento
DB
Referncias
[1] Rousseeuw P. J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis . J. Comp . App. Math., Vol. 20, pp. 53-65, 1987. [2] Dunn J. Well separated clusters and optimal fuzzy partitions. J. Cybernetics, Vol. 4, pp. 95-104, 1974. [3] Davies D. L., Bouldin D. W. A cluster separation measure. IEEE Transactions on Pattern Recognition and Machine Intelligence, Vol. 1, No. 2, pp. 224-227, 1979. [4] Bezdek j. C., Pal N. R. Some new indexes of cluster validity. IEEE Transactions on Systems, Man and Cybernetics, Vol. 28, Part B, pp. 301315, 1998. [5] Hartigan J. A. and Wong M. A. A K-Means clustering algorithm Applied Statistics, Vol. 28, . No. 1, pp. 100-108, 1979. [6] UC Irvine Machine Learning Repository: http://archive.ics.uci.edu/ml/index.html [7] Boutin F., Hascoet M. Cluster validity indices for graph partitioning. Eighth International Conference on Information Visualization (IV'04), pp. 376-381, 2004.
Na Figura 3 os resultados para os conjuntos reais. No caso de Wine (acima), s DB conseguiu indicar o nmero real de grupos, 3, GS e D indicaram 2. J no caso do conjunto E. Coli Genes (embaixo), nenhum dos ndices conseguiram indicar o nmero real de grupos, DB indicou 4, GS 3 e D 2, no entanto, DB e GS apresentam uma boa aproximao quando K=8. (o resultado depende da eficincia do agrupador)
1 0.9 0.8 0.7
Indice validao Silhouette = 2 | Dunn = 2 | Davies-Bouldin = 3
0.35
0.3
0.2
0.15
0.1
0.05 0.1 0 0
Agrupamento
GS
DB
0.12
0.1
0.06
0.04
0.02
10
Agrupamento
GS
DB