Documente Academic
Documente Profesional
Documente Cultură
Análisis Cluster
Conceptos Básicos
11
12
Análisis Cluster
El análisis cluster es una técnica diseñada para clasificar tantas
observaciones en grupos de tal forma que:
14
15
Medidas de Distancia
17
A B C
A 0 2.82 9.22
𝑑 𝐴, 𝐵 = (2 − 4)2 + 4 − 6 2 = 2.82 B 2.82 0 6.40
C 9.22 6.40 0
𝑑 𝐴, 𝐶 = (2 − 9)2 + 4 − 10 2 = 9,22
𝑑 𝐵, 𝐶 = (4 − 9)2 + 6 − 10 2 = 6,40
Medidas de distancia
Distancia euclidiana: es la raíz cuadrada de la suma de las
D(X,Y) (X Y )
i i
2
diferencias al cuadrado entre los dos elementos en la
variable o variables consideradas
D2 (X,Y) (Xi Yi )2
Distancia euclidiana al cuadrado
D(X,Y) Maxi Xi Yi
Distancia métrica de Chebychev: es la referencia máxima en
valores absolutos entre los valores de los elementos
19
Medidas de distancia
Distancia de Manhattan: es la suma de las
𝑋𝑖 − 𝑌𝑖
diferencias en valor absoluto entre los dos
elementos en la variable o variables
D(X,Y)=
consideradas
¿Porqué estandarizar?
Individuo Número Sueldo Individuo Número Sueldo
de hijos de hijos
A 2 1000 A -0,7559 -0,5773
B 4 1050 B -0,3779 1,1547
C 12 1000 C 1,1338 -0,5773
𝑑 𝐴, 𝐶 = 1,89
𝑑 𝐴, 𝐶 = (2 − 12)2 + 1000 − 1000 2 = 10
Métodos Jerárquicos
24
Métodos Jerárquicos
En contraste con el agrupamiento de particiones, el
agrupamiento jerárquico no requiere especificar
previamente el número de clusters.
El agrupamiento jerárquico puede subdividirse en dos
tipos:
Agrupamiento Aglomerativo
Agrupamiento Divisivo
25
Métodos Jerárquicos
26
Métodos Jerárquicos
Aglomerativos
27
28
30
Algoritmos de Agrupamiento
Método del
centroide
Método de Ward
(vinculación de
centroides)
31
33
Cluster 1 : Lujuriosos
43% de participación
Cluster 2: Indiferentes
28,5% de participación
Cluster 3: Ahorradores
28,5% de participación
Caracterizando a los
clusters
43
0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
Phylogenetic Trees
48
Cladogram
49
Unrooted
50
Fan
53
Métodos de Partición
Cluster No Jerárquico
54
Métodos de Partición
55
Métodos de Partición
k-means clustering (MacQueen, 1967). Cada cluster es
representado por la media de los datos que pertenecen a
dicho cluster. El k-means es sensible a datos outliers.
k-medoids clustering or PAM (Partitioning Around
Medoids, Kaufman & Rousseeuw, 1990). Cada cluster es
representado por uno de los objetos en el cluster. PAM es
menos sensible a outliers.
CLARA algorithm (Clustering Large Applications), es una
extension de PAM adaptado a grandes conjuntos de datos.
56
Algoritmo k-means
57
58
Algoritmo k-means
1. Asigna aleatoriamente un número, de 1 a K, a cada una
de las observaciones.
2. Iterar hasta que la asignación de los cluster deje de
cambiar
a) Para cada uno de los k cluster, calcular el centroide. El k-esimo
centroide es el vector con las p medias de las variables para las
observaciones en el k-ésimo cluster.
b) Asignar cada observación al cluster donde el centroide esté más
cerca (donde la cercanía se encuentra definida por la distancia
euclidiana).
59
Algoritmo k-means
60
Algoritmo k-means
61
64
Determinando el número de
clusters
68
71
77
78
Métodos Gráficos
83
Caras de Chernoff
85
Caras de Chernoff
87
Consideraciones finales
88
Problemas comunes
Aglutinación
• Ocurre cuando un objeto se ajusta a uno o más clusters, que
por lo tanto estarían superponiéndose.
• Ejemplo: en la recuperación de documentos una misma
palabra puede tener dos diferentes significados, por lo que un
texto puede no encajar fácilmente en un cluster.
Disección
• Ocurre cuando existe una sola población la que no contiene
clusters significativos, pero el objetivo es todavía agrupar a
los datos para algún otro propósito. 89