Analisis de Conglomerados 2016

Escuela Nacional de Estadstica e Informtica
Anlisis de Conglomerados
1. Objetivo
Al finalizar la lectura de este captulo, el estudiante podr:
Describir el concepto bsico y el panorama del anlisis de conglomerados, as como

su importancia en la investigacin de mercados.
Describir los estadsticos relacionados con el anlisis de conglomerados.
Explicar el procedimiento para realizar el anlisis de conglomerados, que incluye:
formulacin del problema, seleccin de una medida de distancia, seleccin de un
procedimiento de agrupacin, as como decisin del nmero, interpretacin y perfil
de los grupos.
Describir el propsito y los mtodos para evaluar la calidad, confianza y validez de
los resultados de los conglomerados.
Describir las aplicaciones del agrupamiento no jerrquico y el agrupamiento de las
variables.
2. Panorama General
Al igual que el anlisis factorial, el anlisis de conglomerados estudia todo un conjunto

de relaciones interdependientes. Este anlisis no hace ninguna distincin entre VD y VI.
En vez de ello, se calculan las relaciones interdependientes de todo el conjunto de
variables. El objetivo principal del anlisis de conglomerados es clasificar los objetos en
partes relativamente homogneas con base en el conjunto de variables especficas. Los
objetos en un grupo son relativamente similares en trminos de estas variables y difieren
de los objetos en otros. Cuando se utiliza de esta manera, el anlisis de conglomerados
es diferente al anlisis factorial ya que reduce el nmero de objetos, no el nmero de
variables, al reunirlos en un nmero de grupos mucho menor.
Este captulo describe el concepto bsico del anlisis de conglomerados. Los pasos que
comprende la realizacin de este anlisis se estudiarn e ilustrarn en el contexto del
conglomerado jerrquico. Despus, se presentar una aplicacin del conglomerado no
jerrquico, seguida de un estudio del conglomerado de las variables.
3. Conceptos Bsicos
El anlisis de conglomerados consiste en un tipo de tcnicas que se utilizan para

clasificar los objetos o casos en grupos relativamente homogneos llamados
conglomerados. Los objetos en cada grupo tienden a ser similares entre s y diferentes a
los objetos en otros grupos. Este anlisis se conoce tambin como anlisis de
clasificacin o taxonoma numrica. Nos ocupamos de los procedimientos de
conglomerados que asignan cada objeto a un solo grupo. La figura siguiente muestra un
caso de conglomerado ideal en el que los grupos se separan en dos variables: conciencia
de calidad (variable 1) y susceptibilidad al precio (variable 2). Ntese que cada
consumidor pertenece a un grupo y no existen reas que se superpongan. Por otra parte,
la misma figura presenta el caso de una agrupacin que puede encontrarse en la
realidad. Las fronteras de algunos de los grupos no estn definidas con claridad y la
Ing. Luis Guilln Grados, M.Sc.(c)

clasificacin de algunos consumidores no es obvia porque muchos de ellos podran

agruparse en un grupo u otro.
Tanto el anlisis de conglomerados como el discriminante se ocupan de la clasificacin.

Sin embargo, el anlisis discriminante requiere del conocimiento previo de participacin
en el grupo de cada objeto o caso que se incluye, a fin de desarrollar la regla de
clasificacin. Por el contrario, en el anlisis de conglomerados no hay informacin a
priori acerca de la participacin en el grupo de ninguno de los objetos. Los datos
sugieren los grupos y no se definen previamente.
El anlisis de conglomerados se utiliza en mercadotecnia para diversos propsitos, entre

los que se encuentran los siguientes:
Segmentacin del mercado
Por ejemplo, los consumidores pueden agruparse con base en los beneficios que
buscan de la compra de un producto. Cada grupo consistir en consumidores
relativamente homogneos en trminos de los beneficios que buscan. Este
planteamiento se conoce como segmentacin de los beneficios.
Comprensin del comportamiento del comprador
El anlisis de conglomerados puede utilizarse para identificar grupos de

compradores homogneos. As, el comportamiento de cada grupo puede estudiarse
por separado. Este anlisis tambin se utiliza para identificar la clase de estrategias
que los compradores de automviles emplean para obtener informacin externa.
Identificacin de oportunidades para productos nuevos
Al agrupar marcas y productos, pueden determinarse los conjuntos competitivos

dentro del mercado. Las marcas en el mismo grupo compiten ms entre s que con
las de otros grupos. Una empresa puede analizar sus ofertas actuales en comparacin
con aquellas de sus competidores a fin de identificar las oportunidades potenciales
de los nuevos productos.

Seleccin de mercados de prueba
Al dividir las ciudades en grupos homogneos, es posible seleccionar ciudades

comparables a fin de probar diversas estrategias de mercadotecnia.
Reduccin de datos
El anlisis de conglomerados puede utilizarse como instrumento de reduccin

general de datos a fin de desarrollar subgrupos de datos que sean ms fciles de
manejar que las observaciones individuales. El anlisis multivariante subsecuente se
realiza con base en los subgrupos, en lugar de las observaciones individuales. Por
ejemplo, para describir las diferencias en el comportamiento de uso del producto,
primero pueden agruparse los consumidores. Las diferencias entre los
conglomerados pueden estudiarse con el uso del anlisis discriminante mltiple.
4. Trabajando con SPSS
4.1. Anlisis de Cluster Jerrquico
El anlisis cluster jerrquico (ACJ) es una herramienta exploratoria diseada para

revelar las agrupaciones naturales (o los conglomerados o clusters) dentro de un
conjunto de datos que no sera de otra manera evidente. Es el ms til cuando usted
desea agrupar un nmero pequeo (menos que algunos cientos) de objetos. Los objetos
en anlisis cluster jerrquico pueden ser casos o variables, dependiendo de si usted
desea clasificar casos o examinar relaciones entre las variables.
El Anlisis Cluster Jerrquico comienza separando cada objeto en un cluster por s

mismo. En cada etapa del anlisis, el criterio por el que los objetos son separados se
relaja en orden a enlazar los dos conglomerados ms similares hasta que todos los
objetos sean agrupados en un rbol de clasificacin completo.
El criterio bsico para cualquier agrupacin es la distancia. Los objetos que estn cerca
uno del otro perteneceran al mismo conglomerado o cluster, y los objetos que estn
lejos uno del otro pertenecern a distintos clusters. Para un conjunto de datos dado, los
clusters que se construyen dependen de nuestra propia especificacin de los siguientes
parmetros:
El mtodo cluster define las reglas para la formacin del cluster. Por ejemplo,
cuando calculamos la distancia entre dos clusters, podemos usar el par de objetos
ms cercado entre clusters o el par de objeto ms alejados, o un compromiso entre
estos mtodos.
La medida define la frmula para el clculo de la distancia. Por ejemplo, la medida

de distancia Eucldea calcula la distancia como una lnea recta entre dos clusters.
Las medidas de intervalo asumen que las variables estn medidas en escala; las
medidas de conteo asumen que son nmeros discretos, y las medidas binarias
asumen que toman dos valores.
La estandarizacin permite igualar el efecto de las variables medidas sobre

diferentes escalas.

Los fabricantes de coches necesitan ser capaces de valorar el mercado actual para
determinar la competencia probable para sus vehculos. Si los coches son agrupados de
acuerdo a los datos disponibles, esta tarea puede ser ampliamente automatizada
utilizando el anlisis cluster.
La informacin para distintos tipos y modelos de motor de coches est contenida en el

fichero car_sales.sav. El uso del procedimiento de Anlisis Cluster Jerrquico para
agrupar los automviles de mayores ventas de acuerdo a sus precios y propiedades
fsicas.
Abrimos el fichero car_sales.sav. Luego, para seleccionar los casos para el anlisis, del
men elegimos:
Datos
Seleccionar Casos...
Seleccionar si se satisface la condicin.

Hacemos click en Si
En el campo de texto, tecleamos (type=0) & (sales>100).

Hacemos click en Continuar.
Hacemos click en Aceptar en el cuadro de dilogos de Seleccionar Casos.
El anlisis posterior del conjunto de datos se basar en los automviles vendidos al

menos 100000 unidades.

Para ejecutar el anlisis cluster, del men elegimos:
Analizar
Clasificar
Conglomerados Jerrquicos...
Seleccionar desde la variable Price in thousands hasta la variable Fuel

Efficiency como variables del anlisis.
Etiquetamos los casos mediante la variable Model.
Hacemos clic en Grficos

Seleccionar Dendograma.
Seleccionar Ninguno en el diagrama de Tmpanos.

Hacemos click en Mtodo en el cuadro dilogos del Anlisis Cluster Jerrquico.

Seleccionar el mtodo de conglomeracin del Vecino ms Prximo.
Seleccionar las puntuaciones Z como el mtodo de estandarizacin el grupo de
Transformar Valores.
Hacemos click en Aceptar en el cuadro dilogos del Anlisis Cluster Jerrquico.

El dendograma es el resumen grfico de la solucin cluster.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Accord 8
Camry 11
Malibu 2
Grand Am 9
Impala 3
Taurus 5
Mustang 4
Focus 6
Civic 7
Cavalier 1
Corolla 10
Los casos se enumeran a lo largo del eje vertical de la izquierda.
El eje horizontal muestra las distancias entre los conglomerados cuando son unidos.
El anlisis del rbol de clasificacin para determinar el nmero de conglomerados es un
proceso subjetivo. Generalmente, empezamos buscando distancias entre los
agrupamientos a lo largo del eje horizontal.
Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los
automviles en dos conglomerados.
Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.
El Historial de conglomeracin es un resumen numrico de la solucin cluster.
Historial de conglomeracin
Et apa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Prxima
Et apa erado 1 erado 2 Coef icientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 4
3 2 9 1,625 0 0 7
4 1 6 2,318 0 2 6
5 3 5 2,619 0 0 8
6 1 10 3,670 4 0 10
7 2 8 4,420 3 1 8
8 2 3 4,505 7 5 9
9 2 4 4,774 8 0 10
10 1 2 5,718 6 9 0

En la primera etapa, se combinan los casos 8 y 11 puesto que tienen la menor distancia.
El cluster creado por su unin la prxima vez que aparece es en la etapa 7.
En la etapa 7, los conglomerados creados en la etapa 1 y 3 se unen. El cluster resultante

aparecer otra vez en la etapa 8.
Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser ms fcil de
revisar la columna de coeficientes para los saltos ms grandes que revisar el
dendograma.
Una buena solucin cluster es aquella que considera un salto repentino (hueco) en el
coeficiente de distancia. La solucin anterior al salto indica la buena solucin.
El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una

solucin de 6 clusters, y en las etapas 9 y 10, indicando una solucin de 2 clusters. Estas
son las mismas que habamos encontrado a partir de la revisin del dendograma.
Esto es algo insatisfactorio como una solucin, puesto que no hay una clasificacin
fuerte. Intentemos una solucin utilizando el mtodo de conglomeracin del vecino ms
lejano o vinculacin completa como mtodo de agrupamiento.
Para ejecutar el anlisis cluster utilizando la vinculacin completa, retomamos el cuadro

dilogos del Anlisis Cluster Jerrquico, y hacemos clic en Mtodo.
Selecionar el mtodo de conglomeracin del vecino ms lejano.

Hacemos click en Aceptar en el cuadro de dilogos del Anlisis Cluster Jerrquico.
Para las primeras etapas, el historial para la solucin del vecino ms lejano es similar a
la de la solucin del vecino ms prximo. En las etapas finales, son bastante diferentes
puesto que la solucin del vecino ms lejano construye una clasificacin fuerte de dos o
tres conglomerados.

Historial de conglomeracin
Et apa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Prxima
Et apa erado 1 erado 2 Coef icientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 5
3 2 9 1,625 0 0 6
4 3 5 2,619 0 0 6
5 6 10 4,012 2 0 9
6 2 3 7,333 3 4 8
7 1 8 9,183 0 1 9
8 2 4 12,440 6 0 10
9 1 6 25,486 7 5 10
10 1 2 54,607 9 8 0
La rapidez de decisin de esta clasificacin se refleja en el dendograma.
Dendrograma
_
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Complete Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Accord 8
Camry 11
Cavalier 1
Focus 6
Civic 7
Corolla 10
Malibu 2
Grand Am 9
Impala 3
Taurus 5
Mustang 4
La divisin inicial del rbol forma dos conglomerados. La parte superior contiene los
coches ms pequeos (Corolla, Civic, Focus Cavalier Camry y Accord).
La parte de abajo contiene los coches ms grandes (Mustang, Taurus, Impala, Grand
Am y Malibu).

El conglomerado de los coches ms pequeos puede ser dividido an ms en coches

pequeos y econmicos. El Civic y el Corolla son ms pequeos como ms baratos que
El Accord y el Camry respectivamente.
The cluster of smaller cars can be further split into small and economy cars. The Civic
and Corolla are both smaller and cheaper siblings of the Accord and Camry,
respectively.
La solucin de vinculacin completa es satisfactoria puesto que sus conglomerados son

distintos, mientras que la solucin de vinculacin simple es menos concluyente.
Utilizando la solucin de vinculacin completa, podemos determinar la competencia de
los vehculos en la fase de diseo introduciendo sus especificaciones como nuevos
casos en el conjunto de datos y rehaciendo el anlisis.
Otro Ejemplo
Un proveedor de telecomunicaciones quiere mejorar la comprensin de los patrones de

uso del servicio en su base de clientes. Si los servicios pueden ser agrupados segn su
uso, la compaa puede ofrecer paquetes ms atractivos a sus clientes.
Las variables que indican el uso y el no uso de los servicios se recogen en el fichero
telc.sav. El uso del procedimiento del Anlisis Cluster Jerrquico para estudiar las
relaciones entre los distintos servicios.
Anlizar
Clasificar
Conglomerados Jerrquicos
Hacemos click en restablecer las elecciones anteriores.

Seleccionamos desde Toll free service hasta Wireless service y desde Multiple lines
hasta Electronic billing como variables de anlisis.

Seleccionamos la opcin conglomerar variables.

Hacemos clic en Grficos
Seleccionamos el Dendograma.
Seleccionamos Ninguno del diagrama de Tmpanos.
Click en Continuar.
Clic en Mtodo en el cuadro de dilogos del Anlisis Cluster Jerrquico.
Seleccionamos Binaria como Medida.

Seleccionamos Concordancia Simple como medida binaria.
Click en Continuar.
Clic en Aceptar en el cuadro de dilogos del Anlisis Cluster Jerrquico.

4.2. ANLISIS CLUSTER DE K-MEDIAS
El anlisis cluster de K-medias es una herramienta diseada para asignar casos a un

nmero fijo de grupos (clusters o conglomerados) cuyas caractersticas no se conocen
an pero que se basan en un conjunto de variables especificadas. Es muy til cuando
queremos clasificar un gran nmero (miles) de casos.
Un buen anlisis cluster es:
Eficiente. Utiliza tan pocos conglomerados como sea posible.

Efectivo Captura todos conglomerados estadstica y comercialmente importantes.
Por ejemplo, un conglomerado con cinco clientes puede ser estadsticamente
diferente pero no muy beneficioso.
El procedimiento del anlisis cluster de K-medias empieza con la construccin unos

centros de conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un
procedimiento de seleccin de k observaciones bien situadas para los centros de
conglomerados.
Despus de la obtencin de los centros de los conglomerados, el procedimiento:
Asigna casos a los conglomerados basndose en la distancia de los centros de los

conglomerados.
Actualizar las posiciones de los centros de los conglomerados basndose en los
valores medios de los casos en cada conglomerado.
Estos pasos se repiten hasta que cualquier reasignacin de los casos haga que los
conglomerados sean internamente ms variables o externamente similares.
Un operador de telecomunicaciones quiere segmentar su base de clientes segn el

patrn de uso del servicio. Si los clientes pueden ser clasificados segn el uso, la
compaa puede ofrecer paquetes ms atractivos a sus clientes.
Las variables estandarizadas que indican el uso del servicio estn contenidas en
telco_extra.sav. Usemos el procedimiento del anlisis cluster de K-medias para
encontrar subconjuntos de similares de clientes.
Analizar
Clasificar
Conglomerado de K-medias
Seleccionamos desde Standardized log-long distance hasta Standardized log-

wireless y desde Standardized multiple lines hasta Standardized electronic billing
como variables a analizar.
Pongamos 3 como el nmero de conglomerados.
Pulsemos Iterar.

Pongamos 20 como nmero de iteraciones.

Pulsemos continuar.
Pulsemos opciones en el cuadro de dilogos del anlisis cluster de k-medias.
Seleccionamos Tabla ANOVA e Informacin del conglomerado para cada caso de

los estadsticos de grupo.
Seleccionamos excluir casos segn pareja en el grupo de valores perdidos.
Pulsamos continuar, luego Aceptar en el cuadro de dilogos del anlisis cluster de k-
medias.
Estas selecciones producen una solucin de tres conglomerados. Los casos han sido
excluidos segn pareja puesto que hay muchos valores perdidos debido al hecho de la
mayora de los clientes no subscriben todos los servicios.
Los centros iniciales de los conglomerados son los valores de las variables de las k
observaciones bien espaciadas.

Centros iniciales de los congl omerados
Conglomerado
1 2 3
zlnlong 2,48 -1,70 ,12
zlntoll 2,34 -,20 -,39
zlnequi 1,34 -,65 ,59
zlncard 2,49 -,86 -1,28
zlnwire 1,14 -1,75 1,42
zmult lin 1,05 -,95 1,05
zv oice 1,51 1,51 1,51
zpager 1,68 1,68 1,68
zinterne 1,31 -,76 1,31
zcallid 1,04 1,04 -,96
zcallwai 1,03 -,97 1,03
zf orward 1,01 1,01 -,99
zconf er 1,00 1,00 -1,00
zebill -,77 -,77 1,30
Los valores de la tabla son las medias de cada variable dentro de cada conglomerado
inicial. Por defecto, el programa elige casos que son distintos y usa los valores de estos
casos para definir los conglomerados iniciales. Si especificamos nosotros mismos los
centros de los conglomerados, los valores apareceran en la tabla.
El historial de iteracin muestra el progreso del proceso de conglomeracin en cada

etapa.
Historial de iteracionesa
Cambio en los cent ros de los

conglomerados
Iteracin 1 2 3
1 3,298 3,590 3,491
2 1,016 ,427 ,931
3 ,577 ,320 ,420
4 ,240 ,180 ,195
5 ,119 ,125 ,108
6 ,093 ,083 ,027
7 ,069 ,094 ,032
8 ,059 ,051 ,018
9 ,035 ,085 ,063
10 ,025 ,359 ,333
11 ,068 ,439 ,287
12 ,079 ,368 ,177
13 ,125 ,139 ,078
14 ,077 ,096 ,020
15 ,041 ,047 ,015
16 ,014 ,027 ,000
17 ,019 ,038 ,000
18 ,000 ,000 ,000
a. Se ha logrado la conv ergencia debido a que los
centros de los conglomerados no presentan ningn
cambio o ste es pequeo. El cambio mximo de
coordenadas absolutas para cualquier centro es de
,000. La iteracin actual es 18. La distancia mnima
entre los centros iniciales es de 6, 611.

En cada iteracin, dado que los casos se reasignan a diferente conglomerado, los centros
de los conglomerados cambian.
Cada valor indica la distancia entre el nuevo centro de conglomerado y el centro del
conglomerado en la etapa previa. As, por ejemplo, tras la reasignacin de casos
producida entre las iteraciones 1 y 2 en el conglomerado 1, la distancia entre el centro
de dicho conglomerado en la iteracin 1 y la 2 es igual a 1,016, luego ha habido un
cambio an importante entre los centros, por lo que la reasignacin tiene un efecto
significativo en la posicin del centro del conglomerado, por lo que tiene sentido seguir
con el proceso de reasignacin.
Cuando el cambio es suficientemente pequeo para todos los conglomerados, la

iteracin para y se alcanza la solucin final.
En un problema de conglomeracin complejo, puede excederse el nmero mximo de

iteraciones antes de alcanzar una solucin estable. Esto puede ser debido a que el
nmero de conglomerados fijado para dividir el grupo sea errneo, o que las variables
elegidas para dividir el grupo no sean las adecuadas, o bien haber partido de unos
centros equivocados, o simplemente por la complejidad del problema.
En nuestro caso, en las primeras iteraciones, los centros de los conglomerados aumentan
bastante. Por la iteracin decimocuarta, se han establecido al rea general de su
ubicacin final, y las ltimas cuatro iteraciones son los ajustes secundarias.
Si el algoritmo para debido a que se ha alcanzado el nmero mximo de iteraciones,

podemos querer incrementar dicho nmero mximo puesto que la solucin puede ser
inestable. En nuestro caso, esto no se ha producido, puesto que, tal y como se muestra
en el pie de la tabla, se ha logrado la convergencia debido a que los centros de los
conglomerados no presentan ningn cambio, o ste es pequeo. El cambio mximo de
coordenadas absolutas para cualquier centro es de 0. La iteracin actual es la 18. La
distancia mnima entre centros iniciales es de 6,611.
Centros de los congl omerados fi nales
Conglomerado
1 2 3
zlnlong ,05 ,22 -,16
zlntoll ,24 ,12 -1,05
zlnequi ,81 -,19 -,69
zlncard ,17 ,02 -,17
zlnwire ,42 -,75 -1,00
zmult lin ,48 -,29 -,05
zv oice 1,26 -,24 -,44
zpager 1,43 -,38 -,44
zinterne ,81 -,59 -,02
zcallid ,82 ,71 -,81
zcallwai ,76 ,72 -,80
zf orward ,78 ,69 -,79
zconf er ,74 ,67 -,75
zebill ,70 -,63 ,05

La tabla anterior muestra los valores finales de los centros de los conglomerados. Los
valores son las medias de cada variable en cada conglomerado final. Los centros de los
conglomerados finales reflejan los atributos del caso prototipo para cada conglomerado.
Los clientes del conglomerado 1 tienden a ser grandes derrochadores que compran
muchos servicios.
Los clientes del conglomerado 2 tienden a ser gastadores moderados que compran
los servicios de llamada.
Los clientes del conglomerado 3 gastan muy poco y no compran muchos servicios.
Distancias entre l os centros de los conglomerados finales
Conglomerado 1 2 3
1 3,500 4,863
2 3,500 3,396
3 4,863 3,396
Esta tabla muestra las distancias eucldeas entre los centros de los conglomerados
finales. As vemos como los conglomerados ms alejados entre s son el 1 y 3 y los ms
prximos son el 2 y 3.
ANOVA
Conglomerado Error
Media Media
cuadrtica gl cuadrtica gl F Sig.
zlnlong 13,063 2 ,976 997 13,387 ,000
zlntoll 43,418 2 ,820 472 52,932 ,000
zlnequi 99,056 2 ,488 383 202,999 ,000
zlncard 6,301 2 ,984 675 6,402 ,002
zlnwire 52,879 2 ,646 293 81,873 ,000
zmult lin 38,032 2 ,926 997 41,084 ,000
zv oice 236,301 2 ,528 997 447,554 ,000
zpager 298,992 2 ,402 997 743,348 ,000
zinterne 123,447 2 ,754 997 163,642 ,000
zcallid 308,104 2 ,384 997 802,474 ,000
zcallwai 294,674 2 ,411 997 717,172 ,000
zf orward 288,343 2 ,424 997 680,718 ,000
zconf er 262,397 2 ,476 997 551,678 ,000
zebill 112,782 2 ,776 997 145,381 ,000
Las pruebas F slo se deben utilizar con una f inalidad descriptiv a puesto que los
conglomerados han sido elegidos para maximizar las dif erencias ent re los casos en
dif erentes conglomerados. Los niv eles cr ticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son
iguales.
La tabla ANOVA indica qu variables contribuyen ms a la solucin de los

conglomerados. As, las variables con valores de F grandes proporcionan mayor
separacin entre los conglomerados. Por tanto, en nuestro caso, la variable que
proporciona mayor separacin entre los conglomerados es zcallid, con un F = 802,474,
mientras que la que menos es zincard, con un F = 6,402.

Analisis de Conglomerados 2016

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Conglomerados 2016

Încărcat de

Drepturi de autor:

Formate disponibile

Escuela Nacional de Estadstica e Informtica

Al finalizar la lectura de este captulo, el estudiante podr:

Describir el concepto bsico y el panorama del anlisis de conglomerados, as como

Al igual que el anlisis factorial, el anlisis de conglomerados estudia todo un conjunto

El anlisis de conglomerados consiste en un tipo de tcnicas que se utilizan para

Ing. Luis Guilln Grados, M.Sc.(c)

clasificacin de algunos consumidores no es obvia porque muchos de ellos podran

Tanto el anlisis de conglomerados como el discriminante se ocupan de la clasificacin.

El anlisis de conglomerados se utiliza en mercadotecnia para diversos propsitos, entre

Segmentacin del mercado

Comprensin del comportamiento del comprador

El anlisis de conglomerados puede utilizarse para identificar grupos de

Identificacin de oportunidades para productos nuevos

Al agrupar marcas y productos, pueden determinarse los conjuntos competitivos

Ing. Luis Guilln Grados, M.Sc.(c)

Seleccin de mercados de prueba

Al dividir las ciudades en grupos homogneos, es posible seleccionar ciudades

El anlisis de conglomerados puede utilizarse como instrumento de reduccin

4. Trabajando con SPSS

4.1. Anlisis de Cluster Jerrquico

El anlisis cluster jerrquico (ACJ) es una herramienta exploratoria diseada para

El Anlisis Cluster Jerrquico comienza separando cada objeto en un cluster por s

La medida define la frmula para el clculo de la distancia. Por ejemplo, la medida

La estandarizacin permite igualar el efecto de las variables medidas sobre

Ing. Luis Guilln Grados, M.Sc.(c)

La informacin para distintos tipos y modelos de motor de coches est contenida en el

Seleccionar si se satisface la condicin.

En el campo de texto, tecleamos (type=0) & (sales>100).

El anlisis posterior del conjunto de datos se basar en los automviles vendidos al

Ing. Luis Guilln Grados, M.Sc.(c)

Para ejecutar el anlisis cluster, del men elegimos:

Seleccionar desde la variable Price in thousands hasta la variable Fuel

Hacemos clic en Grficos

Ing. Luis Guilln Grados, M.Sc.(c)

Hacemos click en Mtodo en el cuadro dilogos del Anlisis Cluster Jerrquico.

Hacemos click en Aceptar en el cuadro dilogos del Anlisis Cluster Jerrquico.

Ing. Luis Guilln Grados, M.Sc.(c)

El dendograma es el resumen grfico de la solucin cluster.

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

Los casos se enumeran a lo largo del eje vertical de la izquierda.

Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.

El Historial de conglomeracin es un resumen numrico de la solucin cluster.

Ing. Luis Guilln Grados, M.Sc.(c)

El cluster creado por su unin la prxima vez que aparece es en la etapa 7.

En la etapa 7, los conglomerados creados en la etapa 1 y 3 se unen. El cluster resultante

El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una

Para ejecutar el anlisis cluster utilizando la vinculacin completa, retomamos el cuadro

Selecionar el mtodo de conglomeracin del vecino ms lejano.

Ing. Luis Guilln Grados, M.Sc.(c)

La rapidez de decisin de esta clasificacin se refleja en el dendograma.

Dendrogram using Complete Linkage

Rescaled Distance Cluster Combine

Ing. Luis Guilln Grados, M.Sc.(c)

El conglomerado de los coches ms pequeos puede ser dividido an ms en coches

La solucin de vinculacin completa es satisfactoria puesto que sus conglomerados son

Un proveedor de telecomunicaciones quiere mejorar la comprensin de los patrones de

Para ejecutar el anlisis cluster, del men elegimos:

Hacemos click en restablecer las elecciones anteriores.

Ing. Luis Guilln Grados, M.Sc.(c)

Seleccionamos la opcin conglomerar variables.

Seleccionamos Binaria como Medida.

Ing. Luis Guilln Grados, M.Sc.(c)

4.2. ANLISIS CLUSTER DE K-MEDIAS