Documente Academic
Documente Profesional
Documente Cultură
Definicin
Clustering: Se basa en intentar responder como es que
ciertos Objetos (casos) pertenecen o caen naturalmente en
cierto nmero de clases o grupos, de tal manera que estos
objetos comparten ciertas caractersticas.
Medidas de Disimilaridad
(Similaridad)
Asocian
0 para todo i, j S
dij
dij
dij diz +
dzj
Distancias
p
d ij Wk xik x jk
City-Block
k 1
d ij
Wk xik x jk
d ij
Wk xik x jk 0
Eucldea
k 1
k 1
Minkowski
Distancias
p
d ij
x
k 1
ik
x jk
2
x
ik
2
x
jl
k 1
l 1
d ij
x
k 1
ik
xi x jk x j
2
2
x
ik i jl j
p
k 1
l 1
Problemas frecuentes
Incompatibilidad
en las Unidades de
Medida
Variables
Variables
Tipos de Clustering
Jerrquico
(Hierarchical) :
dendrogramas, Grafos (Arboles)
De
Clustering Jerrquico
Dendrogramas
El primer paso es calcular las distancias entre
todos los pares de objetos. Esto es lo mismo
que asumir que cada objeto constituye un
cluster: {C1, ...,CN}.
2. Se buscan los dos clusters ms cercanos (Ci,
Cj), stos se juntan y constituyen uno solo Cij.
3. Se repite el paso 2 hasta que no quedan pares
de comparacin.
En general se representan como rboles binarios.
1.
Clustering Jerrquico
Dendrogramas
Enlace simple
Enlace promediado
Enlace completo
Clustering Jerrquico
Dendrogramas: Ejemplo en matlab
Datos=[ 0.8 1.8;...
1.1 1.6;...
0.8 1.3;...
1.0 0.9;...
1.4 0.6;...
1.5 0.1;...
1.1 0.1];
En formato Matlab
Clustering Jerrquico
Dendrogramas: Enlace simple
(Single
Linkeage
)
1.
El primer
paso (comn
a todos los
mtodos) es calcular la matriz de
distancias o matriz de disimilaridad.
2. Buscar el par mas cercano.
D1
D2
D3
D4
D5
D6
D7
0.3606
0.5000
0.9220
1.3416
1.8385
1.7263
D1
0.4243
0.7071
1.0440
1.5524
1.5000
D2
0.4472
0.9220
1.3892
1.2369
D3
0.5000
0.9434
0.8062
D4
0.5099
0.5831
D5
0.4000
D6
D7
1.
Clustering Jerrquico
Dendrogramas: Enlace simple
(Single
Linkeage
) cluster y me
Los junto,
formo un nuevo
quedo con las mnimas distancias de
ambos clusters.
0.3606
D1
D2
D3
D4
D5
D6
D7
0.5000
0.9220
1.3416
1.8385
1.7263
D1
0.4243
0.7071
1.0440
1.5524
1.5000
D2
0.4472
0.9220
1.3892
1.2369
D3
0.5000
0.9434
0.8062
D4
D1/D2=D8
D3
D4
D5
D6
D7
0.5099
0.5831
D5
0.4243
0.7071
1.3416
1.5524
1.5000
D1/D2=D8
0.4000
D6
D7
0.4472
0.9220
1.3892
1.2369
D3
0.5000
0.9434
0.8062
D4
0.5099
0.5831
D5
0.4000
D6
D7
Clustering Jerrquico
Dendrogramas: Enlace
(Single Linkeage)
D1/D2=D8
D3
D4
D5
D6
D7
0.4243
0.7071
1.3416
1.5524
1.5000
D1/D2=D8
0.4472
0.9220
1.3892
1.2369
D3
0.5000
0.9434
0.8062
D4
0.5099
0.5831
D5
0.4000
D6
D8
D3
D4
D5
D6/D7=D9
0.4243
0.7071
1.3416
1.5000
D8
simple
D7
0.4472
0.9220
1.2369
D3
0.5000
0.8062
D4
0.5831
D5
D6/D7=D9
D8
D3
D4
D5
D6/D7=D9
Clustering Jerrquico
Dendrogramas: Enlace
(Single Linkeage)
0.4243
0.7071
1.3416
1.5000
D8
0.4472
0.9220
1.2369
D3
0.5000
0.8062
D4
0.5831
D5
simple
D6/D7=D9
D3/D8=D10
D4
D5
D9
0.4472
0.9220
1.2369
D3/D8=D10
0.5000
0.8062
D4
0.5831
D5
D9
Clustering Jerrquico
Dendrogramas: Enlace
(Single Linkeage)
D3/D8=D10
D4
D5
D9
0.4472
0.9220
1.2369
D3/D8=D10
0.5000
0.8062
D4
0.5831
D5
D4/D10=D11
D5
D9
simple
D9
0.5000
0.8062
0.5831
D4/D10=D11 D5
D5/D11
D9
D9
0.5831
D5/D11
D9
Clustering Jerrquico
Dendrogramas: Enlace
(Single Linkage)
simple
Clustering de Particin
KMeans
El
Clustering de Particin
KMeans
1.
2.
Clustering de Particin
KMeans
Se actualizan los centroides como el
valor medio de todos los objetos
asignados a ese grupo.
4. Se repite el paso 2 y 3 hasta que se
satisface algn criterio de
convergencia.
KMdemo
3.
Clustering de Particin
KMeans
at1
d1
d2
d3
d4
d5
d6
d7
d8
d9
at2
0.8
1.1
0.8
1
1.4
1.5
1.1
0.5
1.5
K=2
1.8
1.6
1.3
0.9
0.6
0.1
0.1
2.4
0.4
centroides
c1
c2
0.8
1.1
1.8 d1
1.6 d2
Clustering de Particin
KMeans
distancias a centroides
c2
c1
d1
0 0.360555 iter 1
d2
0.360555
0
d3
0.5 0.424264
d4
0.921954 0.707107
d5
1.341641 1.044031
d6
1.838478 1.552417
d7
1.726268
1.5
d8
0.67082
1
d9
1.565248 1.264911
Ndatos
c1
c2
Clustering de Particin
KMeans
c1
d1
d2
d3
d4
d5
d6
d7
d8
d9
0.105409
0.463081
0.542627
0.980363
1.418136
1.909043
1.778889
0.600925
1.641476
c2
1.272028
0.997358
0.827479
0.389087
0.134371
0.566912
0.542883
1.941148
0.318416
iter 2
c1
0.8
c2
1.3
1.775 d1,d2,d3,d8
d4,d5,d6,d7,
0.42 d9
Disposicin de los
nodos en el array
Funcionamiento
2.
3.
Se inicializan los
pesos de cada
nodo (por ej.
aleatoriamente.)
Se presenta una
entrada a la red.
Se busca el nodo
ganador
4.
5.
Se actualizan los
pesos del nodo
ganador y de sus
vecinos.
Se vuelve al paso
2 hasta que se
satisface el criterio
de detencin
impuesto.
Consideraciones Iniciales:
Actualizacin de
los pesos:
Wk n 1 Wk n n X L Wk n
Wk n 1 Wk n
si k V n
si k V n
Vectores
de Pesos
Nodos
pelo ?
garras
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
melena
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
plumas
0
0
0
0
0
0
0
0
0
1
0
0
1
1
1
0
Caza ?
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
corre ?
0
0
0
0
1
1
1
1
0
1
1
1
1
0
0
0
vuela ?
0
0
0
0
0
0
0
0
1
1
0
1
1
1
0
0
Nada ?
1
0
1
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
dove
hen
duck
goose
owl
hawk
eagle
fox
dog
wolf
cat
tiger
lion
horse
zebra
cow
MAN