Sunteți pe pagina 1din 27

Técnicas Multivariadas

Análisis Cluster

Mg. Jesús Salinas Flores jsalinas@lamolina.edu.pe

Conceptos Básicos

Mg. Jesús Salinas Flores 1


Técnicas Multivariadas

11

12

Mg. Jesús Salinas Flores 2


Técnicas Multivariadas

Análisis Cluster
El análisis cluster es una técnica diseñada para clasificar tantas
observaciones en grupos de tal forma que:

Cada grupo (conglomerado o cluster) sea


homogéneo respecto a las variables
Que los grupos sean lo más distintos
utilizadas para caracterizarlos; es decir,
posible unos de otros respecto a las
que cada observación contenida en él sea
variables consideradas.
parecida a todas las que estén incluidas
en ese grupo.

14

Objetivo del Análisis Cluster

15

Mg. Jesús Salinas Flores 3


Técnicas Multivariadas

Clasificación de las técnicas cluster

Medidas de Distancia

17

Mg. Jesús Salinas Flores 4


Técnicas Multivariadas

¿Cómo medir la similitud?


Individuo X1 X2
A 2 4
B 4 6
C 9 10

¿Quién se parece más al individuo A? ¿B ó C?


Matriz de Distancia

A B C
A 0 2.82 9.22
𝑑 𝐴, 𝐵 = (2 − 4)2 + 4 − 6 2 = 2.82 B 2.82 0 6.40
C 9.22 6.40 0
𝑑 𝐴, 𝐶 = (2 − 9)2 + 4 − 10 2 = 9,22

𝑑 𝐵, 𝐶 = (4 − 9)2 + 6 − 10 2 = 6,40

Medidas de distancia
Distancia euclidiana: es la raíz cuadrada de la suma de las
D(X,Y)  (X  Y )
i i
2
diferencias al cuadrado entre los dos elementos en la
variable o variables consideradas

D2 (X,Y)   (Xi  Yi )2
Distancia euclidiana al cuadrado

D(X,Y)  Maxi Xi  Yi
Distancia métrica de Chebychev: es la referencia máxima en
valores absolutos entre los valores de los elementos

19

Mg. Jesús Salinas Flores 5


Técnicas Multivariadas

Medidas de distancia
Distancia de Manhattan: es la suma de las
𝑋𝑖 − 𝑌𝑖
diferencias en valor absoluto entre los dos
elementos en la variable o variables
D(X,Y)=

consideradas

Distancia de Minkowski: Generalización de la


distancia euclidiana y la distancia de
Manhattan

Distancia de Gower: es la medida usada para


tipos de datos mixtos
20

Estandarización de los datos

Las medidas de similaridad son muy sensibles a las


unidades que estén medidas dichas variables.

Para evitar esta influencia no deseable de una


variable debida exclusivamente a la unidad en que
viene medida, es necesario corregir el efecto de los
datos recurriendo a un proceso de estandarización.
X i  center( X i ) X i  X
Puntuaciones Z Zi  
scale( X i ) Si 21

Mg. Jesús Salinas Flores 6


Técnicas Multivariadas

¿Porqué estandarizar?
Individuo Número Sueldo Individuo Número Sueldo
de hijos de hijos
A 2 1000 A -0,7559 -0,5773
B 4 1050 B -0,3779 1,1547
C 12 1000 C 1,1338 -0,5773

¿Quién se parece más al individuo A? ¿B ó C?

𝑑 𝐴, 𝐵 = (2 − 4)2 + 1000 − 1050 2 = 50.04 𝑑 𝐴, 𝐵 = 1,77

𝑑 𝐴, 𝐶 = 1,89
𝑑 𝐴, 𝐶 = (2 − 12)2 + 1000 − 1000 2 = 10

Métodos Jerárquicos

24

Mg. Jesús Salinas Flores 7


Técnicas Multivariadas

Métodos Jerárquicos
 En contraste con el agrupamiento de particiones, el
agrupamiento jerárquico no requiere especificar
previamente el número de clusters.
 El agrupamiento jerárquico puede subdividirse en dos
tipos:
 Agrupamiento Aglomerativo
 Agrupamiento Divisivo

25

Métodos Jerárquicos

26

Mg. Jesús Salinas Flores 8


Técnicas Multivariadas

Métodos Jerárquicos
Aglomerativos

27

Métodos Jerárquicos Aglomerativos

Agrupamiento Aglomerativo, en el que


cada observación se considera inicialmente
como cluster propio (hoja). A continuación,
los clústeres más similares se fusionan
sucesivamente hasta que haya un solo gran
cluster (raíz). Es conocido como AGNES
(Aglomerative Nesting)

28

Mg. Jesús Salinas Flores 9


Técnicas Multivariadas

Algoritmo Cluster Jerárquico Aglomerativo


1. Determinar si es necesario la estandarización de
datos
2. Calcular la matriz de distancia
3. Elegir un método de enlace o de agrupamiento
4. Obtener el dendograma
5. Elegir el número de cluster
6. Verificar usando técnicas exploratorias

Procedimiento del Análisis Cluster

30

Mg. Jesús Salinas Flores 10


Técnicas Multivariadas

Algoritmos de Agrupamiento

Método del vecino Método del vecino Método de la


más cercano más lejano vinculación
(vinculación (vinculación promedio o
simple) completa) intergrupos

Método del
centroide
Método de Ward
(vinculación de
centroides)
31

Algoritmos de Agrupamiento o de Enlace

33

Mg. Jesús Salinas Flores 11


Técnicas Multivariadas

Ejemplo – Compras (Gondar, 2004)


A este grupo de personas …

… se le medirá una serie de atributos de tipo métrico, y


conforme a estos atributos se van a clasificar a estas
personas en grupos o categorías
39

La información que se requirió de estas 21 personas es la siguiente:

Salir de compras es divertido

Salir de compras afecta el presupuesto

Al salir de compras aprovecho de comer fuera


De una escala del 1 al 7, donde 1
es desacuerdo y 7 de acuerdo, de Al salir a comprar trato de hacer las mejores
su grado de conformidad a las
siguientes afirmaciones No me importa salir de compras

Al salir de compra voy a ahorrar si comparo precios

Mg. Jesús Salinas Flores 12


Técnicas Multivariadas

Cluster 1 : Lujuriosos
43% de participación

Cluster 2: Indiferentes
28,5% de participación

Cluster 3: Ahorradores
28,5% de participación

Caracterizando a los
clusters

43

Mg. Jesús Salinas Flores 13


Técnicas Multivariadas

0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro

Cluster 1 Cluster 2 Cluster 3 Promedio

Mg. Jesús Salinas Flores 14


Técnicas Multivariadas

0
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro

Cluster 1 Cluster 2 Cluster 3 Promedio

Phylogenetic Trees

Mg. Jesús Salinas Flores 15


Técnicas Multivariadas

48

Cladogram

49

Mg. Jesús Salinas Flores 16


Técnicas Multivariadas

Unrooted

50

Fan

53

Mg. Jesús Salinas Flores 17


Técnicas Multivariadas

Métodos de Partición
Cluster No Jerárquico

54

Métodos de Partición

 Son métodos clustering usados para clasificar observaciones


de un conjunto de datos en múltiples grupos basado en su
similaridad.
 Los algoritmos conocidos requieren especificar el número
de cluster a ser generados.
 Entre los principales métodos se tienen:
k-means, k-medoides (PAM) y CLARA.

55

Mg. Jesús Salinas Flores 18


Técnicas Multivariadas

Métodos de Partición
 k-means clustering (MacQueen, 1967). Cada cluster es
representado por la media de los datos que pertenecen a
dicho cluster. El k-means es sensible a datos outliers.
 k-medoids clustering or PAM (Partitioning Around
Medoids, Kaufman & Rousseeuw, 1990). Cada cluster es
representado por uno de los objetos en el cluster. PAM es
menos sensible a outliers.
 CLARA algorithm (Clustering Large Applications), es una
extension de PAM adaptado a grandes conjuntos de datos.
56

Algoritmo k-means

57

Mg. Jesús Salinas Flores 19


Técnicas Multivariadas

Principios del k-means

 La idea básica del k-means consiste en definir clusters


tal que la variación total intra-cluster sea mínima.

 La variación total intra-cluster (total within-cluster)

58

Algoritmo k-means
1. Asigna aleatoriamente un número, de 1 a K, a cada una
de las observaciones.
2. Iterar hasta que la asignación de los cluster deje de
cambiar
a) Para cada uno de los k cluster, calcular el centroide. El k-esimo
centroide es el vector con las p medias de las variables para las
observaciones en el k-ésimo cluster.
b) Asignar cada observación al cluster donde el centroide esté más
cerca (donde la cercanía se encuentra definida por la distancia
euclidiana).
59

Mg. Jesús Salinas Flores 20


Técnicas Multivariadas

Algoritmo k-means

60

Algoritmo k-means

61

Mg. Jesús Salinas Flores 21


Técnicas Multivariadas

Graficar k-means usando ACP

64

Desventajas del k-means


1. Asume el conocimiento previo de los datos y requiere
que el analista elija el número apropiado de k.
2. Los resultados finales obtenidos son sensibles a la
selección aleatoria inicial del grupo.
3. Es sensible a los valores atípicos “outliers”.
4. Si se reordenan los datos, es muy posible que obtenga
una solución diferente cada vez que cambie el orden de
sus datos.
66

Mg. Jesús Salinas Flores 22


Técnicas Multivariadas

Determinando el número de
clusters

68

Criterio de la Suma de Cuadrados (SSE)

71

Mg. Jesús Salinas Flores 23


Técnicas Multivariadas

Criterio del Gráfico de Silueta

77

Interpretación del coeficiente de Silueta


 Observaciones con un valor grande Si (casi 1) están muy bien
agrupadas.
 Un valor pequeño de Si (alrededor de 0) significa que las
observación cae entre los dos clusters.
 Observaciones con un valor negativo de Si están probablemente
ubicadas en un cluster equivocado.

78

Mg. Jesús Salinas Flores 24


Técnicas Multivariadas

Métodos Gráficos

83

Caras de Chernoff

85

Mg. Jesús Salinas Flores 25


Técnicas Multivariadas

Caras de Chernoff

87

Consideraciones finales

88

Mg. Jesús Salinas Flores 26


Técnicas Multivariadas

Problemas comunes
Aglutinación
• Ocurre cuando un objeto se ajusta a uno o más clusters, que
por lo tanto estarían superponiéndose.
• Ejemplo: en la recuperación de documentos una misma
palabra puede tener dos diferentes significados, por lo que un
texto puede no encajar fácilmente en un cluster.
Disección
• Ocurre cuando existe una sola población la que no contiene
clusters significativos, pero el objetivo es todavía agrupar a
los datos para algún otro propósito. 89

Mg. Jesús Salinas Flores 27

S-ar putea să vă placă și