Documente Academic
Documente Profesional
Documente Cultură
Anlisis de Conglomerados
1. Objetivo
2. Panorama General
Este captulo describe el concepto bsico del anlisis de conglomerados. Los pasos que
comprende la realizacin de este anlisis se estudiarn e ilustrarn en el contexto del
conglomerado jerrquico. Despus, se presentar una aplicacin del conglomerado no
jerrquico, seguida de un estudio del conglomerado de las variables.
3. Conceptos Bsicos
Por ejemplo, los consumidores pueden agruparse con base en los beneficios que
buscan de la compra de un producto. Cada grupo consistir en consumidores
relativamente homogneos en trminos de los beneficios que buscan. Este
planteamiento se conoce como segmentacin de los beneficios.
Reduccin de datos
El criterio bsico para cualquier agrupacin es la distancia. Los objetos que estn cerca
uno del otro perteneceran al mismo conglomerado o cluster, y los objetos que estn
lejos uno del otro pertenecern a distintos clusters. Para un conjunto de datos dado, los
clusters que se construyen dependen de nuestra propia especificacin de los siguientes
parmetros:
El mtodo cluster define las reglas para la formacin del cluster. Por ejemplo,
cuando calculamos la distancia entre dos clusters, podemos usar el par de objetos
ms cercado entre clusters o el par de objeto ms alejados, o un compromiso entre
estos mtodos.
Los fabricantes de coches necesitan ser capaces de valorar el mercado actual para
determinar la competencia probable para sus vehculos. Si los coches son agrupados de
acuerdo a los datos disponibles, esta tarea puede ser ampliamente automatizada
utilizando el anlisis cluster.
Abrimos el fichero car_sales.sav. Luego, para seleccionar los casos para el anlisis, del
men elegimos:
Datos
Seleccionar Casos...
Analizar
Clasificar
Conglomerados Jerrquicos...
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Accord 8
Camry 11
Malibu 2
Grand Am 9
Impala 3
Taurus 5
Mustang 4
Focus 6
Civic 7
Cavalier 1
Corolla 10
El eje horizontal muestra las distancias entre los conglomerados cuando son unidos.
El anlisis del rbol de clasificacin para determinar el nmero de conglomerados es un
proceso subjetivo. Generalmente, empezamos buscando distancias entre los
agrupamientos a lo largo del eje horizontal.
Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los
automviles en dos conglomerados.
Historial de conglomeracin
Et apa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Prxima
Et apa erado 1 erado 2 Coef icientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 4
3 2 9 1,625 0 0 7
4 1 6 2,318 0 2 6
5 3 5 2,619 0 0 8
6 1 10 3,670 4 0 10
7 2 8 4,420 3 1 8
8 2 3 4,505 7 5 9
9 2 4 4,774 8 0 10
10 1 2 5,718 6 9 0
En la primera etapa, se combinan los casos 8 y 11 puesto que tienen la menor distancia.
Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser ms fcil de
revisar la columna de coeficientes para los saltos ms grandes que revisar el
dendograma.
Una buena solucin cluster es aquella que considera un salto repentino (hueco) en el
coeficiente de distancia. La solucin anterior al salto indica la buena solucin.
Esto es algo insatisfactorio como una solucin, puesto que no hay una clasificacin
fuerte. Intentemos una solucin utilizando el mtodo de conglomeracin del vecino ms
lejano o vinculacin completa como mtodo de agrupamiento.
Para las primeras etapas, el historial para la solucin del vecino ms lejano es similar a
la de la solucin del vecino ms prximo. En las etapas finales, son bastante diferentes
puesto que la solucin del vecino ms lejano construye una clasificacin fuerte de dos o
tres conglomerados.
Historial de conglomeracin
Et apa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Prxima
Et apa erado 1 erado 2 Coef icientes erado 1 erado 2 etapa
1 8 11 1,260 0 0 7
2 6 7 1,579 0 0 5
3 2 9 1,625 0 0 6
4 3 5 2,619 0 0 6
5 6 10 4,012 2 0 9
6 2 3 7,333 3 4 8
7 1 8 9,183 0 1 9
8 2 4 12,440 6 0 10
9 1 6 25,486 7 5 10
10 1 2 54,607 9 8 0
Dendrograma
_
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Accord 8
Camry 11
Cavalier 1
Focus 6
Civic 7
Corolla 10
Malibu 2
Grand Am 9
Impala 3
Taurus 5
Mustang 4
La divisin inicial del rbol forma dos conglomerados. La parte superior contiene los
coches ms pequeos (Corolla, Civic, Focus Cavalier Camry y Accord).
La parte de abajo contiene los coches ms grandes (Mustang, Taurus, Impala, Grand
Am y Malibu).
The cluster of smaller cars can be further split into small and economy cars. The Civic
and Corolla are both smaller and cheaper siblings of the Accord and Camry,
respectively.
Otro Ejemplo
Las variables que indican el uso y el no uso de los servicios se recogen en el fichero
telc.sav. El uso del procedimiento del Anlisis Cluster Jerrquico para estudiar las
relaciones entre los distintos servicios.
Anlizar
Clasificar
Conglomerados Jerrquicos
Seleccionamos el Dendograma.
Seleccionamos Ninguno del diagrama de Tmpanos.
Click en Continuar.
Clic en Mtodo en el cuadro de dilogos del Anlisis Cluster Jerrquico.
Estos pasos se repiten hasta que cualquier reasignacin de los casos haga que los
conglomerados sean internamente ms variables o externamente similares.
Las variables estandarizadas que indican el uso del servicio estn contenidas en
telco_extra.sav. Usemos el procedimiento del anlisis cluster de K-medias para
encontrar subconjuntos de similares de clientes.
Analizar
Clasificar
Conglomerado de K-medias
Estas selecciones producen una solucin de tres conglomerados. Los casos han sido
excluidos segn pareja puesto que hay muchos valores perdidos debido al hecho de la
mayora de los clientes no subscriben todos los servicios.
Los centros iniciales de los conglomerados son los valores de las variables de las k
observaciones bien espaciadas.
Conglomerado
1 2 3
zlnlong 2,48 -1,70 ,12
zlntoll 2,34 -,20 -,39
zlnequi 1,34 -,65 ,59
zlncard 2,49 -,86 -1,28
zlnwire 1,14 -1,75 1,42
zmult lin 1,05 -,95 1,05
zv oice 1,51 1,51 1,51
zpager 1,68 1,68 1,68
zinterne 1,31 -,76 1,31
zcallid 1,04 1,04 -,96
zcallwai 1,03 -,97 1,03
zf orward 1,01 1,01 -,99
zconf er 1,00 1,00 -1,00
zebill -,77 -,77 1,30
Los valores de la tabla son las medias de cada variable dentro de cada conglomerado
inicial. Por defecto, el programa elige casos que son distintos y usa los valores de estos
casos para definir los conglomerados iniciales. Si especificamos nosotros mismos los
centros de los conglomerados, los valores apareceran en la tabla.
En cada iteracin, dado que los casos se reasignan a diferente conglomerado, los centros
de los conglomerados cambian.
Cada valor indica la distancia entre el nuevo centro de conglomerado y el centro del
conglomerado en la etapa previa. As, por ejemplo, tras la reasignacin de casos
producida entre las iteraciones 1 y 2 en el conglomerado 1, la distancia entre el centro
de dicho conglomerado en la iteracin 1 y la 2 es igual a 1,016, luego ha habido un
cambio an importante entre los centros, por lo que la reasignacin tiene un efecto
significativo en la posicin del centro del conglomerado, por lo que tiene sentido seguir
con el proceso de reasignacin.
En nuestro caso, en las primeras iteraciones, los centros de los conglomerados aumentan
bastante. Por la iteracin decimocuarta, se han establecido al rea general de su
ubicacin final, y las ltimas cuatro iteraciones son los ajustes secundarias.
Conglomerado
1 2 3
zlnlong ,05 ,22 -,16
zlntoll ,24 ,12 -1,05
zlnequi ,81 -,19 -,69
zlncard ,17 ,02 -,17
zlnwire ,42 -,75 -1,00
zmult lin ,48 -,29 -,05
zv oice 1,26 -,24 -,44
zpager 1,43 -,38 -,44
zinterne ,81 -,59 -,02
zcallid ,82 ,71 -,81
zcallwai ,76 ,72 -,80
zf orward ,78 ,69 -,79
zconf er ,74 ,67 -,75
zebill ,70 -,63 ,05
La tabla anterior muestra los valores finales de los centros de los conglomerados. Los
valores son las medias de cada variable en cada conglomerado final. Los centros de los
conglomerados finales reflejan los atributos del caso prototipo para cada conglomerado.
Los clientes del conglomerado 1 tienden a ser grandes derrochadores que compran
muchos servicios.
Los clientes del conglomerado 2 tienden a ser gastadores moderados que compran
los servicios de llamada.
Los clientes del conglomerado 3 gastan muy poco y no compran muchos servicios.
Conglomerado 1 2 3
1 3,500 4,863
2 3,500 3,396
3 4,863 3,396
Esta tabla muestra las distancias eucldeas entre los centros de los conglomerados
finales. As vemos como los conglomerados ms alejados entre s son el 1 y 3 y los ms
prximos son el 2 y 3.
ANOVA
Conglomerado Error
Media Media
cuadrtica gl cuadrtica gl F Sig.
zlnlong 13,063 2 ,976 997 13,387 ,000
zlntoll 43,418 2 ,820 472 52,932 ,000
zlnequi 99,056 2 ,488 383 202,999 ,000
zlncard 6,301 2 ,984 675 6,402 ,002
zlnwire 52,879 2 ,646 293 81,873 ,000
zmult lin 38,032 2 ,926 997 41,084 ,000
zv oice 236,301 2 ,528 997 447,554 ,000
zpager 298,992 2 ,402 997 743,348 ,000
zinterne 123,447 2 ,754 997 163,642 ,000
zcallid 308,104 2 ,384 997 802,474 ,000
zcallwai 294,674 2 ,411 997 717,172 ,000
zf orward 288,343 2 ,424 997 680,718 ,000
zconf er 262,397 2 ,476 997 551,678 ,000
zebill 112,782 2 ,776 997 145,381 ,000
Las pruebas F slo se deben utilizar con una f inalidad descriptiv a puesto que los
conglomerados han sido elegidos para maximizar las dif erencias ent re los casos en
dif erentes conglomerados. Los niv eles cr ticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son
iguales.