Analisis Clusterd

Técnicas Multivariadas
Análisis Cluster
Mg. Jesús Salinas Flores jsalinas@lamolina.edu.pe
Conceptos Básicos
Mg. Jesús Salinas Flores 1

11
12

Análisis Cluster
El análisis cluster es una técnica diseñada para clasificar tantas
observaciones en grupos de tal forma que:
Cada grupo (conglomerado o cluster) sea

homogéneo respecto a las variables
Que los grupos sean lo más distintos
utilizadas para caracterizarlos; es decir,
posible unos de otros respecto a las
que cada observación contenida en él sea
variables consideradas.
parecida a todas las que estén incluidas
en ese grupo.
14
Objetivo del Análisis Cluster
15

Clasificación de las técnicas cluster
Medidas de Distancia
17

¿Cómo medir la similitud?

Individuo X1 X2
A 2 4
B 4 6
C 9 10
¿Quién se parece más al individuo A? ¿B ó C?

Matriz de Distancia
A B C
A 0 2.82 9.22
𝑑 𝐴, 𝐵 = (2 − 4)2 + 4 − 6 2 = 2.82 B 2.82 0 6.40
C 9.22 6.40 0
𝑑 𝐴, 𝐶 = (2 − 9)2 + 4 − 10 2 = 9,22
𝑑 𝐵, 𝐶 = (4 − 9)2 + 6 − 10 2 = 6,40
Medidas de distancia
Distancia euclidiana: es la raíz cuadrada de la suma de las
D(X,Y)  (X  Y )
i i
2
diferencias al cuadrado entre los dos elementos en la
variable o variables consideradas
D2 (X,Y)   (Xi  Yi )2
Distancia euclidiana al cuadrado
D(X,Y)  Maxi Xi  Yi
Distancia métrica de Chebychev: es la referencia máxima en
valores absolutos entre los valores de los elementos
19

Medidas de distancia
Distancia de Manhattan: es la suma de las
𝑋𝑖 − 𝑌𝑖
diferencias en valor absoluto entre los dos
elementos en la variable o variables
D(X,Y)=
consideradas
Distancia de Minkowski: Generalización de la

distancia euclidiana y la distancia de
Manhattan
Distancia de Gower: es la medida usada para

tipos de datos mixtos
20
Estandarización de los datos
Las medidas de similaridad son muy sensibles a las

unidades que estén medidas dichas variables.
Para evitar esta influencia no deseable de una

variable debida exclusivamente a la unidad en que
viene medida, es necesario corregir el efecto de los
datos recurriendo a un proceso de estandarización.
X i  center( X i ) X i  X
Puntuaciones Z Zi  
scale( X i ) Si 21

¿Porqué estandarizar?
Individuo Número Sueldo Individuo Número Sueldo
de hijos de hijos
A 2 1000 A -0,7559 -0,5773
B 4 1050 B -0,3779 1,1547
C 12 1000 C 1,1338 -0,5773
¿Quién se parece más al individuo A? ¿B ó C?
𝑑 𝐴, 𝐵 = (2 − 4)2 + 1000 − 1050 2 = 50.04 𝑑 𝐴, 𝐵 = 1,77
𝑑 𝐴, 𝐶 = 1,89
𝑑 𝐴, 𝐶 = (2 − 12)2 + 1000 − 1000 2 = 10
Métodos Jerárquicos
24

 En contraste con el agrupamiento de particiones, el
agrupamiento jerárquico no requiere especificar
previamente el número de clusters.
 El agrupamiento jerárquico puede subdividirse en dos
tipos:
 Agrupamiento Aglomerativo
 Agrupamiento Divisivo
25
26

Aglomerativos
27
Métodos Jerárquicos Aglomerativos
Agrupamiento Aglomerativo, en el que

cada observación se considera inicialmente
como cluster propio (hoja). A continuación,
los clústeres más similares se fusionan
sucesivamente hasta que haya un solo gran
cluster (raíz). Es conocido como AGNES
(Aglomerative Nesting)
28

Algoritmo Cluster Jerárquico Aglomerativo

1. Determinar si es necesario la estandarización de
datos
2. Calcular la matriz de distancia
3. Elegir un método de enlace o de agrupamiento
4. Obtener el dendograma
5. Elegir el número de cluster
6. Verificar usando técnicas exploratorias
Procedimiento del Análisis Cluster
30

Algoritmos de Agrupamiento
Método del vecino Método del vecino Método de la

más cercano más lejano vinculación
(vinculación (vinculación promedio o
simple) completa) intergrupos
Método del
centroide
Método de Ward
(vinculación de
centroides)
31
Algoritmos de Agrupamiento o de Enlace
33

Ejemplo – Compras (Gondar, 2004)

A este grupo de personas …
… se le medirá una serie de atributos de tipo métrico, y

conforme a estos atributos se van a clasificar a estas
personas en grupos o categorías
39
La información que se requirió de estas 21 personas es la siguiente:
Salir de compras es divertido
Salir de compras afecta el presupuesto
Al salir de compras aprovecho de comer fuera

De una escala del 1 al 7, donde 1
es desacuerdo y 7 de acuerdo, de Al salir a comprar trato de hacer las mejores
su grado de conformidad a las
siguientes afirmaciones No me importa salir de compras
Al salir de compra voy a ahorrar si comparo precios

Cluster 1 : Lujuriosos
43% de participación
Cluster 2: Indiferentes
28,5% de participación
Cluster 3: Ahorradores
28,5% de participación
Caracterizando a los
clusters
43

0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
Cluster 1 Cluster 2 Cluster 3 Promedio

0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
Cluster 1 Cluster 2 Cluster 3 Promedio
Phylogenetic Trees

48
Cladogram
49

Unrooted
50
Fan
53

Métodos de Partición
Cluster No Jerárquico
54
 Son métodos clustering usados para clasificar observaciones

de un conjunto de datos en múltiples grupos basado en su
similaridad.
 Los algoritmos conocidos requieren especificar el número
de cluster a ser generados.
 Entre los principales métodos se tienen:
k-means, k-medoides (PAM) y CLARA.
55

 k-means clustering (MacQueen, 1967). Cada cluster es
representado por la media de los datos que pertenecen a
dicho cluster. El k-means es sensible a datos outliers.
 k-medoids clustering or PAM (Partitioning Around
Medoids, Kaufman & Rousseeuw, 1990). Cada cluster es
representado por uno de los objetos en el cluster. PAM es
menos sensible a outliers.
 CLARA algorithm (Clustering Large Applications), es una
extension de PAM adaptado a grandes conjuntos de datos.
56
Algoritmo k-means
57

Principios del k-means
 La idea básica del k-means consiste en definir clusters

tal que la variación total intra-cluster sea mínima.
 La variación total intra-cluster (total within-cluster)
58
Algoritmo k-means
1. Asigna aleatoriamente un número, de 1 a K, a cada una
de las observaciones.
2. Iterar hasta que la asignación de los cluster deje de
cambiar
a) Para cada uno de los k cluster, calcular el centroide. El k-esimo
centroide es el vector con las p medias de las variables para las
observaciones en el k-ésimo cluster.
b) Asignar cada observación al cluster donde el centroide esté más
cerca (donde la cercanía se encuentra definida por la distancia
euclidiana).
59

Algoritmo k-means
60
Algoritmo k-means
61

Graficar k-means usando ACP
64
Desventajas del k-means

1. Asume el conocimiento previo de los datos y requiere
que el analista elija el número apropiado de k.
2. Los resultados finales obtenidos son sensibles a la
selección aleatoria inicial del grupo.
3. Es sensible a los valores atípicos “outliers”.
4. Si se reordenan los datos, es muy posible que obtenga
una solución diferente cada vez que cambie el orden de
sus datos.
66

Determinando el número de
clusters
68
Criterio de la Suma de Cuadrados (SSE)
71

Criterio del Gráfico de Silueta
77
Interpretación del coeficiente de Silueta

 Observaciones con un valor grande Si (casi 1) están muy bien
agrupadas.
 Un valor pequeño de Si (alrededor de 0) significa que las
observación cae entre los dos clusters.
 Observaciones con un valor negativo de Si están probablemente
ubicadas en un cluster equivocado.
78

Métodos Gráficos
83
Caras de Chernoff
85

Caras de Chernoff
87
Consideraciones finales
88

Problemas comunes
Aglutinación
• Ocurre cuando un objeto se ajusta a uno o más clusters, que
por lo tanto estarían superponiéndose.
• Ejemplo: en la recuperación de documentos una misma
palabra puede tener dos diferentes significados, por lo que un
texto puede no encajar fácilmente en un cluster.
Disección
• Ocurre cuando existe una sola población la que no contiene
clusters significativos, pero el objetivo es todavía agrupar a
los datos para algún otro propósito. 89

Analisis Clusterd

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis Clusterd

Încărcat de

Drepturi de autor:

Formate disponibile

Técnicas Multivariadas

Mg. Jesús Salinas Flores jsalinas@lamolina.edu.pe

Mg. Jesús Salinas Flores 1

Mg. Jesús Salinas Flores 2

Cada grupo (conglomerado o cluster) sea

Objetivo del Análisis Cluster

Mg. Jesús Salinas Flores 3

Clasificación de las técnicas cluster

Mg. Jesús Salinas Flores 4

¿Cómo medir la similitud?

¿Quién se parece más al individuo A? ¿B ó C?

Mg. Jesús Salinas Flores 5

Distancia de Minkowski: Generalización de la

Distancia de Gower: es la medida usada para

Estandarización de los datos

Las medidas de similaridad son muy sensibles a las

Para evitar esta influencia no deseable de una

Mg. Jesús Salinas Flores 6

¿Quién se parece más al individuo A? ¿B ó C?

𝑑 𝐴, 𝐵 = (2 − 4)2 + 1000 − 1050 2 = 50.04 𝑑 𝐴, 𝐵 = 1,77

Mg. Jesús Salinas Flores 7

Mg. Jesús Salinas Flores 8

Métodos Jerárquicos Aglomerativos

Agrupamiento Aglomerativo, en el que

Mg. Jesús Salinas Flores 9

Algoritmo Cluster Jerárquico Aglomerativo

Procedimiento del Análisis Cluster

Mg. Jesús Salinas Flores 10

Método del vecino Método del vecino Método de la

Algoritmos de Agrupamiento o de Enlace

Mg. Jesús Salinas Flores 11

Ejemplo – Compras (Gondar, 2004)

… se le medirá una serie de atributos de tipo métrico, y

La información que se requirió de estas 21 personas es la siguiente:

Salir de compras es divertido

Salir de compras afecta el presupuesto

Al salir de compras aprovecho de comer fuera

Al salir de compra voy a ahorrar si comparo precios

Mg. Jesús Salinas Flores 12

Mg. Jesús Salinas Flores 13

Cluster 1 Cluster 2 Cluster 3 Promedio

Mg. Jesús Salinas Flores 14

Cluster 1 Cluster 2 Cluster 3 Promedio

Mg. Jesús Salinas Flores 15

Mg. Jesús Salinas Flores 16

Mg. Jesús Salinas Flores 17

 Son métodos clustering usados para clasificar observaciones

Mg. Jesús Salinas Flores 18

Mg. Jesús Salinas Flores 19

Principios del k-means

 La idea básica del k-means consiste en definir clusters

 La variación total intra-cluster (total within-cluster)

Mg. Jesús Salinas Flores 20

Mg. Jesús Salinas Flores 21

Graficar k-means usando ACP

Desventajas del k-means

Mg. Jesús Salinas Flores 22

Criterio de la Suma de Cuadrados (SSE)

Mg. Jesús Salinas Flores 23

Criterio del Gráfico de Silueta

Interpretación del coeficiente de Silueta

Mg. Jesús Salinas Flores 24

Mg. Jesús Salinas Flores 25

Mg. Jesús Salinas Flores 26