Sunteți pe pagina 1din 14

ANLISIS DE CONGLOMERADOS

Indice
1. Objetivos
2. Panorama General
3. Conceptos Bsicos
4. Datos
Estadsticos
Conglomerados

Relacionados

con

el

Anlisis

de

5. Cmo realizar el Anlisis de Conglomerados


6. Determinacin de la Confianza y Validez
7. Variables Conglomeradas
8. Ejercicio de la tabla de datos
Clasificacin de Tcnicas Multivariantes
El Anlisis Multivariante (al contrario que el Uni y Bivariante) es un mundo
lleno de complejidades. Para entender esta autntica caja de Pandora,
llena de entresijos y de particularidades, merece la pena intentar una
clasificacin de tcnicas estadsticas multivariantes.
Como una primera visin clasificatoria de las tcnicas multivariantes, se
propone la siguiente, que divide dichas tcnicas en dos grandes grupos:
Figura 1 - Tcnicas Multivariantes Descriptivas

Figura 2 - Tcnicas Multivariantes Explicativas

Por otro lado, el paquete estadstico SPSS presenta las tcnicas de


clasificacin de grupos (Classify) en tres procedimientos:
Figura 3 - Procedimientos de Clasificacin de Grupos en SPSS

Para ms informacin sobre las aplicaciones de Anlisis de Conglomerados


ver el artculo Segmentacin de Mercados.
1. Objetivos
Al finalizar la lectura de este captulo, el estudiante podr:

Describir el concepto bsico y el panorama del anlisis de


conglomerados, as como su importancia en la investigacin de
mercados.

Describir los estadsticos


conglomerados.

Explicar el procedimiento para realizar el anlisis de conglomerados,


que incluye: formulacin del problema, seleccin de una medida de
distancia, seleccin de un procedimiento de agrupacin, as como
decisin del nmero, interpretacin y perfil de los grupos.

Describir el propsito y los mtodos para evaluar la calidad, confianza


y validez de los resultados de los conglomerados.

Describir las aplicaciones del agrupamiento no jerrquico y el


agrupamiento de las variables.

relacionados

con

el

anlisis

de

2. Panorama General
Al igual que el anlisis factorial, el anlisis de conglomerados estudia todo
un conjunto de relaciones interdependientes. Este anlisis no hace ninguna
distincin entre VD y VI. En vez de ello, se calculan las relaciones
interdependientes de todo el conjunto de variables. El objetivo principal del
anlisis de conglomerados es clasificar los objetos en partes relativamente

homogneas con base en el conjunto de variables especficas. Los objetos


en un grupo son relativamente similares en trminos de estas variables y
difieren de los objetos en otros. Cuando se utiliza de esta manera, el
anlisis de conglomerados es diferente al anlisis factorial ya que reduce el
nmero de objetos, no el nmero de variables, al reunirlos en un nmero de
grupos mucho menor.
Este captulo describe el concepto bsico del anlisis de conglomerados. Los
pasos que comprende la realizacin de este anlisis se estudiarn e
ilustrarn en el contexto del conglomerado jerrquico. Despus, se
presentar una aplicacin del conglomerado no jerrquico, seguida de un
estudio del conglomerado de las variables.
3. Conceptos Bsicos
El anlisis de conglomerados consiste en un tipo de tcnicas que se utilizan
para clasificar los objetos o casos en grupos relativamente homogneos
llamados conglomerados. Los objetos en cada grupo tienden a ser similares
entre s y diferentes a los objetos en otros grupos. Este anlisis se conoce
tambin como anlisis de clasificacin o taxonoma numrica. Nos
ocupamos de los procedimientos de conglomerados que asignan cada objeto
a un solo grupo. La Figura 4 muestra un caso de conglomerado ideal en el
que los grupos se separan en dos variables: conciencia de calidad (variable
1) y susceptibilidad al precio (variable 2). Ntese que cada consumidor
pertenece a un grupo y no existen reas que se superpongan. Por otra
parte, la Figura 4 presenta el caso de una agrupacin que puede
encontrarse en la realidad. Las fronteras de algunos de los grupos no estn
definidas con claridad y la clasificacin de algunos consumidores no es obvia
porque muchos de ellos podran agruparse en un grupo u otro.
Figura 4 - Conglomerado Ideal / Conglomerado Real

Tanto el anlisis de conglomerados como el discriminante se ocupan de la


clasificacin. Sin embargo, el anlisis discriminante requiere del
conocimiento previo de participacin en el grupo de cada objeto o caso que
se incluye, a fin de desarrollar la regla de clasificacin. Por el contrario, en
el anlisis de conglomerados no hay informacin a priori acerca de la
participacin en el grupo de ninguno de los objetos. Los datos sugieren los
grupos y no se definen previamente.
El anlisis de conglomerados se utiliza en mercadotecnia para diversos
propsitos, entre los que se encuentran los siguientes:

Segmentacin
del
mercado
Por ejemplo, los consumidores pueden agruparse con base en los

beneficios que buscan de la compra de un producto. Cada grupo


consistir en consumidores relativamente homogneos en trminos
de los beneficios que buscan. Este planteamiento se conoce como
segmentacin de los beneficios.

Comprensin
del
comportamiento
del
comprador
El anlisis de conglomerados puede utilizarse para identificar grupos
de compradores homogneos. As, el comportamiento de cada grupo
puede estudiarse por separado. Este anlisis tambin se utiliza para
identificar la clase de estrategias que los compradores de automviles
emplean para obtener informacin externa.

Identificacin de oportunidades para productos nuevos


Al agrupar marcas y productos, pueden determinarse los conjuntos
competitivos dentro del mercado. Las marcas en el mismo grupo
compiten ms entre s que con las de otros grupos. Una empresa
puede analizar sus ofertas actuales en comparacin con aquellas de
sus competidores a fin de identificar las oportunidades potenciales de
los nuevos productos.

Seleccin
de
mercados
de
prueba
Al dividir las ciudades en grupos homogneos, es posible seleccionar
ciudades comparables a fin de probar diversas estrategias de
mercadotecnia.

Reduccin
de
datos
El anlisis de conglomerados puede utilizarse como instrumento de
reduccin general de datos a fin de desarrollar subgrupos de datos
que sean ms fciles de manejar que las observaciones individuales.
El anlisis multivariante subsecuente se realiza con base en los
subgrupos, en lugar de las observaciones individuales. Por ejemplo,
para describir las diferencias en el comportamiento de uso del
producto, primero pueden agruparse los consumidores. Las
diferencias entre los conglomerados pueden estudiarse con el uso del
anlisis discriminante mltiple.

4.
Datos
Estadsticos
Conglomerados

Relacionados

con

el

Anlisis

de

Antes de estudiar los estadsticos relacionados con el anlisis de


conglomerados, debemos mencionar que la mayor parte de estos mtodos
son procedimientos relativamente sencillos que no estn respaldados por el
razonamiento estadstico. La mayor parte de los mtodos de agrupacin son
heursticos, basados en algoritmos. De manera que, el anlisis de
conglomerados presenta un fuerte contraste con el anlisis de la varianza,
la regresin, el anlisis discriminante y el anlisis factorial, que se basan en
un razonamiento estadstico. A pesar de que muchos mtodos de
agrupacin tienen propiedades estadsticas importantes, es necesario
reconocer la sencillez fundamental de estos mtodos. Los estadsticos y
conceptos siguientes estn relacionados con el anlisis de conglomerados.

Programa
de
aglomeracin
Ofrece informacin sobre los objetos o casos que se combinan en
cada etapa de un proceso de agrupacin jerrquica.

Centroide
de
agrupamiento
El centroide de agrupamiento son los valores medios de las variables
para todos los casos u objetos de un grupo particular.

Centros
de
agrupamiento
Son los puntos de partida iniciales en la agrupacin no jerrquica. Los
grupos se construyen alrededor de estos centros o semillas.

Participacin
en
el
Indica el grupo al que pertenece cada objeto o caso.

Dendrograma
Un dendrograma, o grfica de rbol, es un dispositivo grfico para
presentar los resultados del conglomerado. Las lneas verticales
representan los grupos que estn unidos. La posicin de la lnea en la
escala indica las distancias en las que se unieron los grupos. El
dendrograma se lee de izquierda a derecha.

Distancias
entre
los
centros
de
los
grupos
Indican cun separados estn los pares individuales de grupos. Los
grupos muy separados son distintos y, por tanto, deseables.

Diagrama
de
carmbano
Es una representacin grfica de los resultados del conglomerado, se
llama as porque se asemeja a una hilera de carmbanos que pende
del alero de una casa. Las columnas corresponden a los objetos que
se agrupan y los renglones corresponden al nmero de
conglomerados. Un diagrama de carmbano se lee de abajo hacia
arriba. La Figura 10 es un diagrama de carmbano.

Matriz
de
coeficientes
de
distancia/similitud
sta es una matriz de tringulo inferior que contiene las distancias en
direccin pareada entre los objetos o casos.

grupo

5. Cmo realizar el Anlisis de Conglomerados


Los pasos que comprende la realizacin del anlisis de conglomerados se
mencionan en la Figura 5. El primer paso consiste en formular el problema
de agrupacin al definir las variables en las que se basa sta. Despus,
debe seleccionarse una medida de distancia apropiada. La medida de
distancia determina qu tan similares o diferentes son los objetos que se
agrupan. Se han desarrollado varios procedimientos de agrupacin y el
investigador debe seleccionar uno apropiado para el problema que se
maneja. La decisin del nmero de conglomerados requiere del criterio del
investigador. Los conglomerados derivados deben interpretarse en trminos
de las variables utilizadas para formarlos, y deben perfilarse en trminos de

las variables sobresalientes adicionales. Por ltimo, es preciso que el


investigador evale la validez del proceso de conglomerados.
Figura 5 - Cmo realizar el anlisis de conglomerados

5.1. Formulacin del Problema


Quiz la parte ms importante de la formulacin del problema de
conglomerados es la seleccin de las variables en las que se basa la
agrupacin. La inclusin de una o ms variables irrelevantes puede
distorsionar una solucin de agrupacin que de otra forma podra ser til.
Bsicamente, el conjunto de variables seleccionado debe describir la
similitud entre los objetos en trminos relevantes para el problema de
investigacin de mercados. Las variables deben seleccionarse con base en la
investigacin previa, la teora o una consideracin de las hiptesis que se
prueban. En la investigacin exploratoria, el investigador debe poner en
prctica el criterio y la intuicin.
Para ilustrar lo anterior, consideramos un conglomerado de consumidores
con base en la actitud que tienen cuando salen de compras. De acuerdo con
la investigacin previa, se identificaron seis variables de actitud. Se pidi a
los entrevistados que expresaran su grado de acuerdo con las afirmaciones
siguientes, con base en una escala de siete puntos (1= en desacuerdo, 7=
de acuerdo):

V1 = "Salir de compras es divertido".

V2 = "Salir de compras afecta el presupuesto".

V3 = "Combino la salida de compras con la comida fuera de casa".

V4 = "Cuando salgo de compras, trato de hacer las mejores".

V5 = "No me importa salir de compras".

V6 = "Puede ahora ahorrar mucho dinero si compara los precios".

Los datos obtenidos de una muestra de prueba a 20 entrevistados se


presentan en la Figura 6. Ntese que en la prctica el conglomerado se
realiza en muestras mucho mayores de 100 o ms. Se utiliz una muestra
pequea para ilustrar el proceso.
Figura 6 - Tabla de Datos del Ejemplo
Caso
V1
V2
V3
1
6
4
7
2
2
3
1
3
7
2
6
4
4
6
4
5
1
3
2
6
6
4
6
7
5
3
6
8
7
3
7
9
2
4
3
10
3
5
3
11
1
3
2
12
5
4
5
13
2
2
1
14
4
6
4
15
6
5
4
16
3
5
4
17
4
4
7
18
3
7
2
19
4
6
3
20
2
3
2
5.2. Seleccin de la Medida de Distancia o Similitud

V4
3
4
4
5
2
3
3
4
3
6
3
4
5
6
2
6
2
6
7
4

V5
2
5
1
3
6
3
3
1
6
4
5
2
4
4
1
4
2
4
2
7

V6
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
7
2

Ya que el objeto del conglomerado es agrupar objetos similares, se necesita


alguna medida para evaluar las diferencias y similitudes entre objetos. La
estrategia ms comn consiste en medir la equivalencia en trminos de la
distancia entre los pares de objetos. Los objetos con distancias reducidas
entre ellos son ms parecidos entre s que aquellos que tienen distancias
mayores. Existen varias formas de calcular las distancias entre dos objetos.
La medida de similitud que se utiliza con mayor frecuencia es la distancia
euclidiana o su cuadrado. La distancia euclidiana es la raz cuadrada de la
suma de las diferencias cuadradas en los valores para cada variable.
Tambin estn disponibles otras medidas de distancia. La distancia
Manhattan o de Calles Urbanas entre dos objetos es la suma de las
diferencias absolutas en los valores para cada variable. La distancia de
Chebychev entre dos objetos es la diferencia absoluta mxima en los
valores para cualquier variable. En nuestro ejemplo, utilizamos la distancia
euclidiana cuadrada.
Si las variables se miden en unidades muy diferentes, la solucin de la
agrupacin tendr la influencia de las unidades de la medicin. En un
estudio de compras en supermercados, las variables de actitud pueden
medirse con base en una escala tipo Likert de nueve puntos; el patrocinio,
en relacin con la frecuencia de visitas por mes y la cantidad de dlares

gastados; y la lealtad de la marca, en trminos del porcentaje del gasto en


compras de abarrotes destinado al supermercado favorito. En estos casos,
antes de agrupar a los entrevistados, debemos estandarizar los datos al
volver a colocar cada variable en una escala a fin de obtener una media de
cero y una desviacin estndar de uno. Aun cuando la estandarizacin
puede eliminar la influencia de la unidad de medicin, tambin es probable
que reduzca las diferencias entre los grupos en las variables que pueden
discriminar mejor los grupos o conglomerados. Es recomendable eliminar a
las personas que mienten al responder (casos con valores atpicos).
El uso de distintas medidas de distancia puede llevar a diversos resultados
de conglomerado. Por consiguiente, se recomienda utilizar medidas
diferentes y comparar los resultados. Despus de seleccionar una medida
de distancia o similitud, podemos elegir un procedimiento de agrupacin.
5.3. Seleccin del Procedimiento de Aglomeracin
La Figura 7 es una clasificacin de los procedimientos de conglomerados.
Estos pueden ser jerrquicos o no. El conglomerado jerrquico se
caracteriza por el desarrollo de una jerarqua o estructura en forma de
rbol. A su vez, los mtodos jerrquicos pueden ser:

Anlisis
de
Conglomerados
por
Aglomeracin
El conglomerado por aglomeracin empieza con cada objeto en un
grupo separado. Los conglomerados se forman al agrupar los objetos
en conjuntos cada vez ms grandes. Este proceso contina hasta que
todos los objetos forman parte de un solo grupo.

Anlisis
de
Conglomerados
por
Divisin
El conglomerado por divisin comienza con todos los objetos
agrupados en un solo conjunto. Los conglomerados se dividen hasta
que cada objeto sea un grupo independiente.

Figura 7 - Clasificacin de los procedimientos de conglomerados

Los mtodos de conglomerados se utilizan con frecuencia en la investigacin


de mercados. Consisten en mtodos de enlace, mtodos de varianza o de
sumas de los cuadrados de error y mtodos centroides. Los mtodos de
enlace incluyen el enlace sencillo, el completo y el promedio.

El mtodo de enlace sencillo se basa en la distancia mnima o la regla


del vecino ms prximo. Los primeros dos objetos conglomerados son
aquellos que tienen la menor distancia entre s. La siguiente distancia
ms corta se identifica, ya sea que el tercer objeto se agrupe con los
dos primeros o que se forme un nuevo conglomerado de dos objetos.
En cada etapa, la distancia entre dos conglomerados es la distancia
entre sus dos puntos ms prximos (vase Figura 8). En cualquier
etapa, dos conglomerados surgen por el enlace sencillo ms corto
entre stos. Este proceso contina hasta que todos los objetos se
encuentren en un conglomerado. El mtodo del enlace sencillo no
funciona adecuadamente cuando los conglomerados no estn bien
definidos.

El mtodo del enlace completo es similar al enlace sencillo, excepto


que se basa en la distancia mxima o la estrategia del vecino ms
lejano. En el enlace completo, la distancia entre dos conglomerados
se calcula como la distancia entre sus puntos ms lejanos.

El mtodo del enlace promedio funciona de manera similar, pero en


este mtodo, la distancia entre dos conglomerados se define como el
promedio de las distancias entre todos los pares de objetos, donde se
encuentra un miembro del par de cada uno de los conglomerados
(Figura 8). Como puede observarse, el mtodo del enlace promedio
emplea la informacin sobre todos los pares de distancias, no slo las
mnimas o mximas. Por esta razn, generalmente se prefiere a los
mtodos de enlace sencillo y completo.

Figura 8 - Mtodos de Enlace para el Conglomerado

Los mtodos de varianza tratan de generar conglomerados a fin de reducir


la varianza dentro de los grupos.

Un mtodo de la varianza que se utiliza con frecuencia es el


procedimiento de Ward. Para cada conglomerado, se calculan las

medias para todas las variables. Despus, para cada objeto, se


calcula la distancia euclidiana cuadrada para las medias de los grupos
(Figura 9); estas distancias se suman a todos los objetos. En cada
etapa, se combinan los dos conglomerados con el menor incremento
en la suma total de los cuadrados de las distancias dentro de los
conglomerados.

En el mtodo centroide, la distancia entre dos grupos es la distancia


entre sus centroides (medias para todas las variables), como se
muestra en la Figura 9. Cada vez que se agrupan los objetos, se
calcula un centroide nuevo.

Figura 9 - Otros Mtodos de Agrupacin por Aglomeracin

De los mtodos jerrquicos, el mtodo de enlace promedio y el


procedimiento de Ward han demostrado un mejor desempeo que los otros
procedimientos.
El segundo tipo de procedimientos de conglomerados, los mtodos de
conglomerados no jerrquicos, con frecuencia se conocen como agrupacin
de k medias. Estos mtodos incluyen el umbral secuencial, umbral paralelo
y la divisin para la optimizacin.

En el mtodo del umbral secuencial, se selecciona un centro de grupo


y se agrupan todos los objetos dentro de un valor de umbral que se
especifica previamente a partir del centro. Despus, se selecciona un
nuevo centro o semilla de grupo y el proceso se repite para los
puntos sin agrupar. Una vez que un objeto se agrupa con una semilla,
ya no se considera para su conglomerado con semillas subsecuentes.

El mtodo del umbral paralelo funciona de manera similar, excepto


que varios centros de grupo se seleccionan simultneamente y los
objetos dentro del nivel del umbral se agrupan dentro del centro ms
prximo.

El mtodo de divisin para la optimizacin difiere de los otros dos


procedimientos de umbral en que los objetos pueden reasignarse
posteriormente a otros grupos, a fin de optimizar un criterio general,
como la distancia promedio dentro de los grupos para un nmero
determinado de conglomerados.

Dos desventajas importantes de los procedimientos no jerrquicos son que


el nmero de grupos debe especificarse previamente y que la seleccin de
los centros de grupo es arbitraria. Adems, los resultados del conglomerado
pueden depender de la forma en que se seleccionan los centros. Muchos
programas no jerrquicos eligen los primeros k (k= nmero de grupos)
casos sin valores faltantes como los centros de grupo iniciales. De manera
que, los resultados del conglomerado pueden depender del orden de las
observaciones en los datos. No obstante, el conglomerado no jerrquico es
ms rpido que los mtodos jerrquicos y es apropiado cuando el nmero
de objetos u observaciones es alto. Se ha sugerido que los mtodos
jerrquicos y no jerrquicos se utilicen uno despus del otro. Primero, una
solucin de conglomerado inicial se obtiene con el uso de un procedimiento
jerrquico, como el enlace promedio o el de Ward. Las cantidades de grupos
y centroides de grupo que se obtienen de esta forma se utilizan como
entradas para el mtodo de divisin para la optimizacin.
La eleccin de un mtodo de conglomerado y la eleccin de una medida de
distancia estn interrelacionadas. Por ejemplo, las distancias euclidianas
cuadradas deben utilizarse con los mtodos de Ward y centroide. Varios
procedimientos no jerrquicos emplean tambin las distancias euclidianas
cuadradas.
Otra parte importante de los resultados se encuentra en el grfico de
carmbano de la Figura 10. Las columnas corresponden a los objetos que
se agrupan; en este caso, son los entrevistados asignados del 1 al 20. Los
renglones corresponden al nmero de grupos. Esta figura se lee de abajo
hacia arriba. Primero, todos los casos se consideran como grupos
individuales. Ya que hay 20 entrevistados, existen 20 grupos iniciales. En el
primer caso, se combinan los dos objetos ms cercanos, y como resultado
se obtienen 19 grupos. La ltima lnea de la Figura 10 muestra estos 19
grupos. Los dos casos, entrevistados 14 y 16, que se combinan en esta
etapa no tienen ningn espacio en blanco que los separe. El rengln nmero
18 corresponde a la etapa siguiente, con 18 grupos. En esta etapa, los
entrevistados 2 y 13 se agrupan. De esta manera, en esta etapa hay 18
grupos; 16 consisten en entrevistados individuales y dos contienen dos
entrevistados cada uno. Cada paso subsecuente lleva a la formacin de un
nuevo grupo en una de estas tres formas:

Se agrupan dos casos individuales.

Un caso se une a un grupo ya existente.

Se unen dos grupos.

Figura 10 - Grfico de Carmbano Vertical por el Procedimiento de Ward

5.4. Eleccin del Nmero de Grupos


Un aspecto importante en el anlisis de conglomerados es decidir el nmero
de stos. A pesar de que no existe ninguna regla general y rpida, estn
disponibles algunos lineamientos.

Las consideraciones tericas, conceptuales o prcticas pueden sugerir


un nmero determinado de grupos. Por ejemplo, si el propsito de la
agrupacin es identificar los segmentos del mercado, es probable que
la gerencia quiera un nmero de grupos en particular.

En el conglomerado jerrquico, las distancias en las que los grupos se


combinan pueden utilizarse como criterios. Esta informacin puede
obtenerse del programa de aglomeracin o del dendrograma.

En la agrupacin no jerrquica, la relacin de la varianza total dentro


de los grupos con varianza entre los grupos puede trazarse en
comparacin con el nmero de stos. El punto donde ocurre un
recodo o un doblez marcado indica un nmero apropiado de grupos.
Generalmente, no vale la pena aumentar el nmero de grupos ms
all de este punto.

5.5. Interpretacin y Perfil de los Grupos


La interpretacin y el perfil de los grupos comprende el anlisis de los
centroides de grupo. Los centroides representan los valores medios de los
objetos que contiene el grupo en cada una de las variables. Los centroides
nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el
programa de conglomerado no ofrece esta informacin, puede obtenerse
por medio del anlisis discriminante.
Resulta til elaborar el perfil de los grupos en trminos de las variables
utilizadas para el conglomerado, como los datos demogrficos, los
psicogrficos, uso del producto, uso de los medios u otras variables. Por
ejemplo, los grupos pueden haberse derivado con base en los beneficios
que se buscan. Puede realizarse un perfil ms detallado, en trminos de las
variables demogrficas y psicogrficas para dirigir los esfuerzos de
mercadotecnia hacia cada grupo. Las variables que marcan una diferencia
significativa entre los conglomerados pueden identificarse mediante el
anlisis discriminante y el anlisis de varianza unidireccional.

6. Determinacin de la Confianza y Validez


Dados los criterios generales que comprende el anlisis de conglomerados,
no debe aceptarse ninguna solucin de agrupacin sin una evaluacin de su
confianza y validez. Los procedimientos formales para evaluar la confianza y
validez de las soluciones de agrupacin son complejos y no por completo
defendibles. Por consiguiente, los omitimos. No obstante, los siguientes
procedimientos ofrecen revisiones adecuadas de la calidad de los resultados
de la agrupacin.

Realice el anlisis de conglomerados con los mismos datos y utilice


distintas medidas de distancia. Compare los resultados con todas las
medidas a fin de determinar la estabilidad de las soluciones.

Utilice diversos mtodos de conglomerado y compare los resultados.

Divida los datos a la mitad en forma aleatoria. Realice el


conglomerado por separado en cada mitad. Compare los centroides
de grupo en las dos submuestras.

Elimine las variables en forma aleatoria. Realice la agrupacin con


base en el conjunto reducido de variables. Compare los resultados
basados en el conjunto completo con los que obtuvo al realizar el
conglomerado.

En el conglomerado, no jerrquico, la solucin puede depender del


orden de los casos en el conjunto de datos. Lleve a cabo corridas
mltiples y utilice distintos rdenes de los casos hasta que la solucin
se estabilice.

7. Variables Conglomeradas
En ocasiones, el anlisis de conglomerados se utiliza tambin para
identificar grupos homogneos. En este caso, las unidades que se utilizan
para el anlisis son las variables y las medidas de distancia que se calculan
para todos los pares de variables. Por ejemplo, el coeficiente de correlacin,
ya sea el valor absoluto o con el signo, puede usarse como medida de
similitud (la opuesta a la distancia) entre las variables.
El conglomerado jerrquico de las variables puede ayudar en la
identificacin de variables nicas, o variables que hacen una contribucin
nica a los datos. El conglomerado puede emplearse tambin para reducir el
nmero de variables. Una combinacin de variables en el conglomerado,
que se conoce como componentes de conglomerado, se encuentra asociado
con cada conglomerado. Frecuentemente, un conjunto grande de variables
puede reemplazarse con el conjunto de componentes de conglomerado con
poca prdida de informacin. No obstante, un nmero determinado de
componentes de conglomerado no explica tanta varianza como el mismo
nmero de componentes principales. Entonces, por qu debe utilizarse el
conglomerado de las variables?. Por lo regular, los componentes de los
conglomerados son ms fciles de interpretar que los principales, incluso si
estos ltimos se giran.

8. Ejercicio de la tabla de datos


Utilizando el fichero de datos
realizar:

20010723.sav,

el alumno deber proceder a

1. Anlisis de correlaciones
2. Anlisis cluster jerrquico, especificando una solucin de rango de
2 y de 3 clusters. Al obtener los clusters, a la solucin de 3 clusters le
dar los nombres siguientes:

Cachondos, a las personas que tienen una fuerte inclinacin


por las variables divertid (diversin) y combino (combinacin
de compra y diversin),

Pasotas, a quienes no les importa ir de compras,

Pesetas, a aquellas personas que fijan su centro de miras en


las cuestiones econmicas.

3. Anlisis cluster no jerrquico con 3 grupos. El visitante deber


prestar atencin a si obtiene los mismos resultados que los obtenidos
mediante el procedimiento anlisis de cluster jerrquico.
4. Anlisis cluster jerrquico y otro un anlisis cluster no jerrquico,
pero ahora slo con 2 grupos, para comparar estos resultados con los
obtenidos con 3 grupos.

S-ar putea să vă placă și