Cluster

Métodos de clasificación
aplicados en Biología
Molecular
Alessandra Gallinari y Juan Miguel Marín

Universidad Rey Juan Carlos
23 de Mayo, 2003
“If the results disagree with informed opinion, do not admit a
simple logical interpretation, and do not show up clearly in a
graphical presentation, they are probably wrong. There is no
magic about numerical methods, and many ways in which
they can break down. They are a valuable aid to the
interpretation of data, not sausage machines automatically
transforming bodies of numbers into packets of scientific
fact.”
(F.H.C. Marriott)
2
Indice
• Introducción
• Métodos de Clustering, distancias

y ordenación
• SOM (Self Organizing Maps)
• Referencias 3
Introducción
Análisis Multivariante (multidimensional):
Análisis estadístico de datos que requiere la
medición simultánea de muchas variables.
Modelos de probabilidades:
• Distribución normal multivariante.
• Modelos ad hoc justificados por argumentos
lógicos y de sentido común.
4
La investigación científica es un
proceso iterativo de conocimiento:
Análisis de datos:
Diseño del experimento
nueva interpretación del
y colección de datos
fenómeno
Reducción o ampliación
del número de variables
5
Primer problema de clasificación:
- Difícil de clasificar las técnicas del Análisis
Multivariante: diferentes herramientas para resolver
distintas clases de problemas.
- La elección del método y del tipo de análisis

depende de los objetivos de la investigación.
- Los métodos empleados tienen que poderse

implementar en un ordenador.
6
Algunos objetivos típicos:
• Reducción o simplificación estructural de los
datos (con pérdida mínima de información).
• Clasificación y agrupamientos.
• Estudio de las dependencias entre variables.
• Predicción (las relaciones entre unas variables

pueden ser la base de una predicción de los
valores de otras).
• Formulación y evaluación de una hipótesis. 7

Organización de los datos
• Tabulación, tablas de datos = matrices.
• Descripción cuantitativa de algunas

características de los datos.
• Representación gráfica.
8
Matrices:
p >= 1 variables o caracteres para n unidades
experimentales.
• Descripción de cálculos numéricos en términos
de operaciones con matrices (Álgebra Lineal).
V1 V2 V3 V4 V5
U1 x 1, 1 x 1, 2 x 1, 3 x 1, 4 x 1, 5
p=5  
x 
n=4 U2  2, 1 x 2, 2 x 2, 3 x 2, 4 x 2, 5
 
 
U3 x 
 3, 1 x 3, 2 x 3, 3 x 3, 4 x 3, 5
 
 
U4 x x x x x 
 4, 1 4, 2 4, 3 4, 4 4, 5
9
Extracción de la información
(Data Mining)
Búsqueda de patrones y estructuras no
aleatorias:
• correlación entre variables o similitud
entre sujetos determinadas por sus
perfiles (vectores)
• análisis de confirmación
10
Estadística descriptiva básica de una
muestra de tamaño n con p variables
cuantitativas
- Media: x = ( x1, x2, ... , xp )
xk = (1/n) Σi xik k = 1, 2, ..., p
- Varianza:
Sk2 = Skk = (1/n) Σi (xik – xik )2 k=1,2, ..., p
(Sk2 = Skk = (1/(n – 1)) Σi (xik – xk )2 si n es pequeño)

11
2 1/2
- Covarianzas muestrales:
Sjk = (1/n) Σi (xij – xj)(xik – xk) (j, k = 1, 2, ..., p)
• Sjk es positiva si a valores grandes (pequeños) de la variable j

corresponden valores grandes (pequeños) de la variable k.
• Sjk es aproximadamente cero si no hay asociación lineal

entre los valores de las dos variables (la implicación inversa
no vale).
• Sjk es negativa si a valores grandes de una variable

corresponden valores pequeños de la otra.
12
Coeficiente de correlación muestral de
Pearson:
rjk = Sjk / (Sjj)1/2(Skk)1/2 = rkj (j = 1, 2, ..., p, k = 1, 2, ..., p)
Es una versión estandardizada de la covarianza (coincide

con la covarianza de una muestra donde las variables están
estandardizadas: zik = (xik – xk)/(Skk1/2))
- Mide la asociación lineal entre dos variables y no depende

de las unidades de medida. Tiene el mismo signo que Sjk :
– 1<= rjk < =1
13
• rjk= 0 no asociación lineal entre las dos variables.
• rjk < 0 tendencia de una variable a ser mayor que su

valor medio y de la otra a ser menor que su valor medio.
• rjk > 0 tendencia de las dos variables a ser grandes o

pequeñas al mismo tiempo.
14
Limitaciones del concepto de covarianza y de
coeficiente de correlación:
• No es posible detectar relaciones no lineales entre las
variables
• Son muy sensibles a observaciones anómalas (outliers) y

pueden indicar una asociación que no existe.
15
Técnicas gráficas
Gráfico de dispersión (scatterplot):
16
Gráfico de dispersión múltiple
17
Diagrama de cajas
18
Diagrama de Voronoi
19
Caras de Chernoff
20
Distancias
Una distancia en un espacio de dimensión p es una

función tal que si P, Q y R son puntos del espacio,
se verifica que
d(P,Q) >= 0
d(P,Q) > 0 si PQ
d(P,Q) = d(Q,P)
d(P,Q)  d(P,R) + d(R,Q) (desigualdad triangular)
21
- Distancia euclídea: es la distancia geométrica usual en
espacios de dimensión p.
Si x = (x1, x2, ..., xn) e y = (y1, y2, ..., yn),
d(x, y) = (i (xi – yi)2)1/2
- La distancia euclídea y la distancia euclídea al cuadrado

d2(x, y) = i (xi – yi)2 (que amplifica el efecto de objetos
muy distantes) se calculan para datos no estandarizados.
- Puede ser muy sensible a las diferencias en unidades de

medidas empleadas para las distintas dimensiones
(coordenadas). 22
- Distancia de Minkowski:
d(x, y) = (i |xi – yi|m)1/m
Si m = 2 es la distancia euclídea. B1:
Si m = 1 es la distancia “city-block (Manhattan)”.

d(x, y) = i |xi – yi|
B1:
23
A menudo proporciona resultados parecidos a los de la
euclídea.
- El efecto de los outliers queda disminuido.
Distancia de Chebychev:
d(x, y) = Máximo{|xi – yi|}
- Se utiliza cuando se quiere resaltar si dos objetos son

muy distantes en una de las dimensiones.
24
Distancia de potencias:
d(x, y) = (i |xi – yi|q)1/r
donde los parámetros q y r pueden variar.
- El parámetro q controla el peso de la diferencias en las

dimensiones individuales, el parámetro r el peso de las
diferencias entre objetos.
Disimilitud porcentual:
d(x, y) = (Número de xi  yi)/p
Esta distancia es útil para datos categóricos.

25
Distancias estadísticas
d(x, y) = ( (x – y)t S-1(x – y))1/2
B1:
- Tienen en cuenta diferencias en las varianzas y

correlaciones entre las variables.
- Cuando las coordenadas (o variables) presentan
fluctuaciones aleatorias y diferencias de magnitudes es
preferible dar un peso menor a las coordenadas que
presentan más variabilidad respecto a las coordenadas
que presentan menos.
26
EJEMPLO
27
Métodos de Clustering,
distancias y ordenación
- El análisis Cluster (Tryon, 1939) es la denominación de un

grupo de técnicas multivariantes cuyo principal propósito es
agrupar objetos basándose en las características que poseen.
- Se usa para hacer diseño de tipologías, análisis de

clasificación, taxonomía numérica...
28
- Se intenta determinar una estructura natural de división que
proporcione herramientas para
• evaluar el número de dimensiones e identificar

elementos aislados
• sugerir hipótesis interesantes sobre relaciones entre

los objetos
29
- Los conglomerados de objetos resultantes deben
mostrar un alto grado de homogeneidad interna y un alto
grado de heterogeneidad externa.
- Las variables representan las características utilizadas para

clasificar a los objetos y son definidas por el investigador.
- No hay restricciones a priori sobre la estructura de cada

clase.
30
- El análisis Cluster encuentra
la solución más significativa posible.
- También se pueden aplicar tests de contraste considerando

niveles de significación (como en k-means), sobre la
separabilidad y diferenciación entre los clusters generados
por el procedimiento.
31
Clustering
• Medidas de similitud
• Métodos jerárquicos
• Métodos no jerárquicos (k-means)
• Multidimentional Scaling (MDS)
32
Medidas de similitud
-La representación gráfica de los datos está basada en
distancias (similitudes) y algoritmos que permiten dividir los
datos en grupos.
-Son (en general) medidas subjetivas del parecido entre

elementos de una base de datos compleja.
• Para agrupar objetos se utiliza algún tipo de distancia.
• Para agrupar variables se utilizan coeficientes de

correlación o medidas similares de asociación.
33
- En ausencia de información previa sobre cuáles son los
grupos naturales, no se puede utilizar una distancia
estadística, ya que no es posible calcular varianzas y
covarianzas de la muestra.
Por tanto, en general, se prefiere emplear otras distancias

(por ejemplo la euclídea).
34
Objetos: Cuando no es posible representar los objetos por
medio de medidas p-dimensionales razonables, se comparan
pares de objetos simplemente en base a la presencia ó
ausencia de unas características: se utilizan valores 0-1
para las variables cualitativas (variables binarias):
Variables
p=5
1 2 3 4 5
Item i 1 0 0 1 1
Item k 1 1 0 1 0
0 –1 0 0 1
Distancia euclídea al cuadrado: d(Item i, Item k) = 2 35

- Se tiene en cuenta sólo del número de disimilitudes
Para poder diferenciar el tratamiento de similitudes del tipo
0-0 del tratamiento de similitudes del tipo 1-1 se
representan sus frecuencias en una tabla de contingencia:
a = número de 1-1
b = número de 1-0 Item i
c = número de 0-1
d = número de 1-0 Total
1 0
1 a b a+b
Item k c+d
0 c d
Total a+c b+d p=a+b+c+d
En nuestro caso a = 2, b = c = d = 1
36
Se pueden definir varios coeficientes de similitud:
1) (a+d)/p 1) Mismo peso para los 0-0 y 1-1
2) 2(a+d)/(2(a+d)+b+c) 2) Doble peso para los 0-0 y 1-1
3) (a+d)/(a+d+a(b+c)) 3) Doble peso para los 0-1 y 1-0
4) a/p 4) No se ponen los 0-0 en el numerador
5) a/(a+b+c) 5) No se consideran los 0-0
6) 2a/(2a+b+c) 6) No se consideran los 0-0 y doble peso

para los 1-1
7) a/(a+2(b+c)) 7) No se consideran los 0-0 y doble peso
para los 0-1 y 1-0
8) a/(b+c) 8) Solo se consideran los 1-1 en relación
37 a
los 0-1 y 1-0 solo.
Se utiliza el coeficiente elegido para crear una
matriz (simétrica) de similitudes.
- Para n = 5 objetos hará falta calcular, en total,

(n–1)(n–2)/2 = 10 tablas de contingencia
Item 1 2 3 4 5
1 1
2 1/6 1
3 4/6 3/6 1
4 4/6 3/6 2/6 1
5 0 5/6 2/6 2/6 1
38
- Si la matriz de similitud es definida no negativa y los
coeficientes de similitud están normalizados de forma
tal que los valores diagonales sii son iguales a 1, la
función
d(i, k) = (2(1–sik) )1/2
es una distancia (cumple sus propiedades).
- Por otro lado, a partir de una distancia d(i, k), es

siempre posible recuperar la matriz de similitud
original:
sik = 1/(1+d(i, k))
39
Variables: para medir la similitud entre variables se suelen
emplean los coeficientes de correlación muestrales.
En algunas técnicas de clustering se utilizan los valores
absolutos de estos coeficientes y, si las variables son
binarias, se escriben tablas de contingencia donde para todo
par de variables se consideran los n objetos.
Var i
1 0 Total
1 a b a+b
Var k c+d
0 c d
Total a+c b+d n=a+b+c+d

40
Se define
y se puede tomar como una medida de similitud entre las

dos variables.
El coeficiente r está relacionado con el estadístico ², chi

cuadrado, (r = ² /n) que se usa para determinar la
independencia entre las dos variables. Para un valor
fijado de n, el valor de r es directamente proporcional a
la ausencia de independencia.
41
Métodos Jerárquicos
Los métodos jerárquicos consisten en la construcción
de estructuras rígidas en forma de árbol a partir de una
medida de similitud.
Se utilizan, básicamente, dos métodos:
• métodos aglomerativos: cada objeto se incluye en

un único grupo propio. En pasos sucesivos los objetos,
o grupos, más similares van juntándose constituyendo
nuevos conglomerados hasta llegar a un único cluster
final que los contiene todos.
42
• métodos divisivos: se empieza con un gran
conglomerado que contiene todos los objetos.
En los pasos siguientes, se van subdividiendo los

conglomerados más diferentes en clusters sucesivamente
más pequeños, hasta que cada objeto queda situado en un
grupo con ese elemento únicamente.
43
Un resultado típico de este tipo de clustering es un árbol
jerárquico (dendrograma):
44
Métodos de encadenamiento (Linkage methods) :
• Encadenamiento simple
(single linkage): distancia 1 3
4 d(2,4)
mínima o vecino más 2 5
cercano.
• Encadenamiento
completo (complete 1 3 d(1,5)
linkage): distancia 4
2 5
máxima o vecino más
lejano.
• Encadenamiento medio
(average linkage): 1
4
3  d(i, k))/6
( ik
distancia media. 2 5 45
Algoritmo: n objetos
i) Empezar con n grupos de un solo elemento y una
matriz D = (d(i, j)) de distancias.
ii) Determinar la distancia d(U, V) entre los grupos

más similares.
iii) unir los grupos U y V en un nuevo grupo UV y

actualizar la matriz de distancias remplazando las filas
y columnas de U y V por una fila y columna UV.
iv) repetir (ii) y (iii) n – 1 veces, anotando el nivel y

los grupos que se han unido en cada paso.
46
EJEMPLO: Sea D una
matriz de distancias entre
5 objetos.
Encadenamiento simple
(35) 1 2 4
(single linkage): distancia
mínima o vecino más cercano
(i) D es nuestra matriz
(ii) 3 y 5 son los objetos más cercanos
(d(3,5)=2)
(iii) nuevo cluster (35) y nueva matriz D1
(iv) (35) y 1 son los grupos más cercanos
(d((35),1)=3)
47
(135) 2 4
(v) nuevo cluster (135) y nueva matriz D2
(vi) 2 y 4 son los grupos más cercanos
(d(2,4)=5)
(vii) nuevo cluster (24) y nueva matriz D3
(viii) (135) y (24) son los grupos más cercanos
(ix) nuevo cluster (12345)
(135) (24)
1
4
48
0 2 4 6
Encadenamiento completo (complete linkage): distancia
máxima o vecino más lejano, las matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
49
Encadenamiento completo
5
2 4 6 8 10 12
50
Observaciones sobre los Métodos Cluster
Jerárquicos
- Las fuentes de error y variación no se consideran con los
métodos jerárquicos.
- Gran sensibilidad a observaciones anómalas o outliers.
- Si un objeto o elemento se ha colocado erróneamente en

un grupo al principio del proceso, ya no se puede arreglar
en una etapa posterior.
51
- Sería conveniente usar varias distancias o similitudes con
los mismos objetos y observar si se mantienen los mismos
clusters o grupos. Así, se comprueba la existencia de
grupos naturales.
- Estos métodos se pueden usar para clasificar no sólo

observaciones, sino también variables, usando como
medida de similitud algún coeficiente de correlación.
52
Métodos no Jerárquicos
- Se usan para agrupar objetos y no variables en un
conjunto de k clusters ya predeterminado.
- No se tiene que especificar una matriz de distancias ni se

tienen que almacenar las iteraciones. Todo esto permite
trabajar con un número de datos mucho mayor que en el
caso de los métodos jerárquicos.
IDEA BASICA
- Se parte de un conjunto inicial de clusters elegidos al
azar, que son los representantes de todos ellos; luego se
van cambiando de modo iterativo.
- Se usa el método de las k-medias (k-means). 53
Método de las k-medias
Método que permite asignar a cada observación el cluster
que se encuentra más próximo, en relación a un centroide
(media). Se puede resumir en los siguientes pasos:
(i) Se toman al azar k clusters iniciales.
(ii) Se calculan las distancias de todas las observaciones a los

centroides de los clusters y las observaciones se asignan a
los clusters que estén más próximos.
Se vuelven a recalcular los centroides de los k clusters
después de las reasignaciones de los elementos.
54
(iii) Se repiten los dos pasos anteriores hasta que no se
produzca ninguna reasignación, es decir, hasta que los
elementos se estabilicen en algún grupo.
NOTAS:
- Usualmente, se especifican k centroides iniciales y se

procede al paso (ii).
- En la práctica, se observa la mayor parte de reasignaciones

en el primer paso.
55
Ejemplo: supongamos dos variables x1 y x2, que
miden dos características y, por ejemplo, 4 objetos que
se denominan A, B, C, D.
Se tiene la siguiente tabla:
x1 x2
A 5 3
B –1 1
C 1 –2
D –3 –2
- Se quiere dividir estos objetos en dos grupos (k = 2).

- De modo arbitrario, se dividen los elementos en dos
clusters (AB) y (CD) y se calculan los centroides de
estos dos clusters. 56
Coordenadas del Centroide
CLUSTER
(AB) (5–1)/2 = 2 (3+1)/2 = 2
(CD) (1–3)/2 = –1 (–2–2)/2 = –2
57
- En el paso (ii), calculamos las distancias euclídeas de cada
observación al grupo de centroides y reasignamos cada una al
grupo más próximo. Si alguna observación se mueve de grupo,
hay que recalcular los centroides de los grupos. Así, las
distancias son:
d2(A, (AB)) = (5 – 2)2 + (3 – 2)2 = 10
d2(A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61
- Como A está más próximo al cluster (AB) que al cluster

(CD), no se reasigna. Se hace lo mismo para el elemento B:
d2(B, (AB)) = (–1 – 2)2 + (1 – 2)2 = 10
d2(B, (CD)) = (–1 + 1)2 + (1 + 2)2 = 9

58
- Por lo cual, el elemento B se reasigna al cluster (CD)
dando lugar al cluster (BCD).
A continuación, se vuelven a calcular los centroides:
Coordenadas del centroide
CLUSTER
A 5 3
(BCD) –1 –1
59
- Nuevamente, se recalculan las distancias para cada
observación y se ve si se producen cambios con respecto
a los nuevos centroides.
- Se calculan las distancias euclídeas al cuadrado a los
centroides de los grupos.
CLUSTER A B C D
A 0 40 41 89
(BCD) 52 4 5 5
- Como no se producen cambios, entonces la solución para

k = 2 clusters es: A y (BCD). 60
- Si se quiere comprobar la estabilidad de los grupos, es
conveniente volver a correr el algoritmo con otros
clusters iniciales (una nueva partición inicial).
- Una vez obtenidos los clusters finales, es conveniente

interpretarlos; para ello, se pueden cruzar con otras
variables categóricas o se pueden ordenar de modo que
los objetos del primer cluster aparezcan al principio y los
del último cluster al final.
- También es conveniente considerar gráficos ilustrativos

(por ejemplo, caras de Chernoff).
61
TABLAS DE ANALISIS DE LA VARIANZA
- El objetivo que se persigue al formar los clusters, es que los

centroides estén lo más separados entre sí como sea posible, y
que los casos u observaciones que estén dentro de cada cluster
estén muy próximos al centroide.
- Lo anterior se puede medir con el estadístico de la F de

Snedecor:
- Equivale al cociente de dos distribuciones chi-cuadrado

divididas por sus grados de libertad. Este estadístico aparece
siempre que se comparan distancias. 62
- El estadístico F se calcula como un cociente de medias
de cuadrados.
- En el caso del análisis de clusters:

F = (medias de cuadrados entre clusters) / (medias de
cuadrados dentro de clusters).
- Si F > 1, las distancias entre los centroides de los

grupos son mayores que las distancias de los elementos
dentro de los grupos. Se realiza un Test de Hipótesis.
- Esto es lo que se busca para que los clusters estén

suficientemente diferenciados entre sí.
63
PROBLEMAS que surgen al fijar k clusters iniciales:
(i) Si dos centroides iniciales caen por casualidad en un único

cluster (natural), entonces los clusters que resultan están poco
diferenciados entre sí.
(ii) Si aparecen outliers, se obtiene, por lo menos, un cluster

con sus objetos muy dispersos.
(iii) Si se imponen previamente k clusters pueden originarse

grupos artificiales o bien se pueden juntar grupos distintos.
Una posible solución es considerar varias elecciones de k (nº

de clusters) comparando luego sus coeficientes de la F de
64
Snedecor.
Multidimentional Scaling (MDS)
Las técnicas de MDS tratan sobre el siguiente problema:
- Para un conjunto de similitudes observadas (o distancias)

entre cualquier par de objetos de un total de N objetos,
encontrar una representación gráfica de éstos en unas pocas
dimensiones, de modo que sus posiciones casi se ajusten a
las similitudes (o distancias) originales.
- Con N objetos, se buscan configuraciones de q

dimensiones, de modo que el ajuste entre posiciones
originales y posiciones en las q dimensiones sea el más
preciso posible. Lo anterior se mide mediante el stress. 65
- Si se usan distancias (o similitudes), se tiene el llamado
escalamiento multidimensional métrico.
- Si se usan rangos (orden de las observaciones), en vez de

distancias, se tiene el MDS no métrico.
66
PROCEDIMIENTO BASICO
- Dados N objetos, existen M = N(N–1)/2 distancias (o
similitudes) entre pares de diferentes objetos. También se
pueden usar rangos ordenados.
- Las similitudes se ordenan en orden creciente como:
si1 k1 < si2 k2 < ... < sim km (*)
- Aquí si1 k1 es la menor de las M similitudes, donde i1 k1 es el

par de observaciones que son menos similares y, del mismo
modo, im km, las más similares.
67
- Buscamos una configuración de dimensión q tal que las
distancias entre los N objetos mantengan el orden
expresado en (*). Es decir, que suceda:
di1 k1 > di2 k2 > ... > di m km
- Lo importante es que se mantenga el orden, no las

magnitudes en sí.
68
- Kruskal (1964) dio una medida de la adecuación de la
representación en q dimensiones a las similitudes originales;
dicha medida se denomina stress:
donde dij son las distancias entre los objetos y ĥij son
funciones monótonas de las distancias que se determinan de
modo que S sea mínimo.
69
- Se buscan representaciones geométricas en q dimensiones de
modo que el stress sea mínimo.
- Empíricamente, se considera que si el stress es del 20% (0,2),

la bondad del ajuste es pobre; si es del 5% (0,05), la bondad
del ajuste es buena y a partir del 2,5% es excelente.
- Se trata de minimizar el stress para un número fijo q de

dimensiones, mediante procesos iterativos (Métodos del
Gradiente).
70
Observaciones:
- Las técnicas MDS están relacionadas con el Análisis de

Componentes Principales y el Análisis de Correspondencia:
Estos usan una matriz: en el primer caso, de covarianzas o
de correlaciones y en el segundo, de similitudes, y generan
un espacio con el mínimo número de dimensiones posible
donde se representan los datos.
- En general, el MDS necesita menos dimensiones que el

Análisis de Componentes Principales para representar los
datos o las variables.
71
- El MDS proporciona una descripción dimensional
cuantitativa de las variables, mientras que el Análisis de
Componentes Principales permite, además, una descripción de
los objetos o individuos en forma de sus puntuaciones
factoriales.
- Con respecto a las técnicas de Análisis de Cluster, el MDS

comparte con ellas las siguientes características: investiga la
estructura de un conjunto de variables, el punto de partida es
una matriz de proximidades y la representación gráfica que se
obtiene se puede interpretar como distancias.
72
SOM (Self Organizing Maps)
- El método de las SOM (redes auto-organizativas) está
relacionado con el métodos de las k-means y ha sido
aplicado, por ejemplo, a datos sobre la expresión de
mRNA de ciclos celulares.
- Un SOM es un conjunto de k nodos con una topología

sencilla (por ejemplo una retícula de dimensión dos o
una malla) y una distancia d(N1, N2) entre nodos.
73
- Es un método más estructurado que el método de las k-
means, ya que los centroides son nodos de la retícula.
- Los nodos se entrenan de forma iterativa en un espacio de

dimensión q (por ejemplo un espacio de expresión de genes
donde la coordenada i-ésima representa el nivel de expresión
de la i-ésima muestra).
74
Un ejemplo de SOM
75
http://www.neuroinformatik.ruhr-unibochum.de/ini/VDM/research/contents.html
- La posición del nodo Nk en el paso i se denota con
fi(Nk).
-La representación inicial de los nodos f0 es aleatoria.
-En cada paso, un punto P (vector original de dimensión

q) de los n datos, se selecciona al azar y se identifica el
centroide NP más cercano.
-El punto P atrae a ese centroide y a algunos otros nodos

vecinos por medio de un cambio de la función f según la
siguiente expresión:
76
fi+1(N) = fi(N) +  (d(N, NP), i) (P– fi(N))
donde la tasa de aprendizaje (learning rate)  es inversamente

proporcional a la distancia d(N, NP) y al número de
iteraciones i.
- Después de un número de iteraciones suficientemente

grande, el proceso se para y los datos se asignan al cluster
correspondiente al nodo más cercano.
77
Problemas:
- El investigador tiene que especificar a priori el número

de clusters, la topología del retículo, su dimensión y el
número de clusters en cada dimensión. La definición
artificial de la malla puede influir en la formación de los
clusters.
- Las técnicas de optimización para el método de la k-

medias se puede emplear para SOM.
78
Referencias Bibliográficas
• P. D’Haeseleer et al., Gene Network Inference: From Co-
Expression Clustering to Reverse Engineering, 2000,
Bioinformatics 16: 707-726
• B. S. Everitt and G. Dunn, Applied Multivariate Data Analysis,
Arnold, 2001
• Gower, J. C., Some Distances properties of Latent Root and
Vector Methods Used in Multivariate Analysis, 1966, Biometrika,
53, 325-338
• Gower, J. C., Multivariate Analysis and Multidimensional
Geometry, 1967, The Statistician, 17, 13-25
• J.A.Hartigan, Clustering Algorithms, 1975, John Wiley & Sons,
Inc.
• J.F.Hair Jr., R.E. Anderson, R.L. Tatham, W.C. Black,
Análisis multivariante, 5ª ed., 1999, Prentice Hall Iberia, S.R.L. 79
• R.A. Johnson, D.W. Wichern, Applied Multivariate Statistical
Analysis, 1998, Prentice-Hall, Inc.
• P. Tamayo et al., Interpretinmg Patterns of Genes Expression with
Self-Organizing Maps: Methods and Application to Hematopoietic
Differentiation, 1999, Proc Natl Acad Sci USA 96 2907
80
Enlaces
http://www.Statsoft.com/textbook/stathome.html
http://www.neuroinformatik.ruhr-unibochum.de/ini/VDM/research/contents.html
81

Cluster

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Métodos de clasificación

Alessandra Gallinari y Juan Miguel Marín

• Métodos de Clustering, distancias

• SOM (Self Organizing Maps)

- La elección del método y del tipo de análisis

- Los métodos empleados tienen que poderse

• Estudio de las dependencias entre variables.

• Predicción (las relaciones entre unas variables

• Formulación y evaluación de una hipótesis. 7

• Tabulación, tablas de datos = matrices.

• Descripción cuantitativa de algunas

(Sk2 = Skk = (1/(n – 1)) Σi (xik – xk )2 si n es pequeño)

• Sjk es positiva si a valores grandes (pequeños) de la variable j

• Sjk es aproximadamente cero si no hay asociación lineal

• Sjk es negativa si a valores grandes de una variable

rjk = Sjk / (Sjj)1/2(Skk)1/2 = rkj (j = 1, 2, ..., p, k = 1, 2, ..., p)

Es una versión estandardizada de la covarianza (coincide

- Mide la asociación lineal entre dos variables y no depende

• rjk < 0 tendencia de una variable a ser mayor que su

• rjk > 0 tendencia de las dos variables a ser grandes o

• Son muy sensibles a observaciones anómalas (outliers) y

Una distancia en un espacio de dimensión p es una

- La distancia euclídea y la distancia euclídea al cuadrado

- Puede ser muy sensible a las diferencias en unidades de

Si m = 2 es la distancia euclídea. B1:

Si m = 1 es la distancia “city-block (Manhattan)”.

- El efecto de los outliers queda disminuido.

d(x, y) = Máximo{|xi – yi|}

- Se utiliza cuando se quiere resaltar si dos objetos son

d(x, y) = (i |xi – yi|q)1/r

donde los parámetros q y r pueden variar.

- El parámetro q controla el peso de la diferencias en las

Esta distancia es útil para datos categóricos.

d(x, y) = ( (x – y)t S-1(x – y))1/2

- Tienen en cuenta diferencias en las varianzas y

- El análisis Cluster (Tryon, 1939) es la denominación de un

- Se usa para hacer diseño de tipologías, análisis de

• evaluar el número de dimensiones e identificar

• sugerir hipótesis interesantes sobre relaciones entre

- Las variables representan las características utilizadas para

- No hay restricciones a priori sobre la estructura de cada

- También se pueden aplicar tests de contraste considerando

• Métodos no jerárquicos (k-means)

• Multidimentional Scaling (MDS)

-Son (en general) medidas subjetivas del parecido entre

• Para agrupar objetos se utiliza algún tipo de distancia.

• Para agrupar variables se utilizan coeficientes de

Por tanto, en general, se prefiere emplear otras distancias

Distancia euclídea al cuadrado: d(Item i, Item k) = 2 35

Total a+c b+d p=a+b+c+d

1) (a+d)/p 1) Mismo peso para los 0-0 y 1-1

2) 2(a+d)/(2(a+d)+b+c) 2) Doble peso para los 0-0 y 1-1

3) (a+d)/(a+d+a(b+c)) 3) Doble peso para los 0-1 y 1-0

4) a/p 4) No se ponen los 0-0 en el numerador

5) a/(a+b+c) 5) No se consideran los 0-0

6) 2a/(2a+b+c) 6) No se consideran los 0-0 y doble peso

- Para n = 5 objetos hará falta calcular, en total,

es una distancia (cumple sus propiedades).

- Por otro lado, a partir de una distancia d(i, k), es

Total a+c b+d n=a+b+c+d

y se puede tomar como una medida de similitud entre las

El coeficiente r está relacionado con el estadístico ², chi

Se utilizan, básicamente, dos métodos: