Documente Academic
Documente Profesional
Documente Cultură
TCNICAS
MULTIVARIADAS EN LA
INVESTIGACIN
DE MERCADOS
En el captulo precedente, nos concentramos en el anlisis de datos en que intervenan una o dos
variables solamente. Se trata de la-herramienta fundamental del investigador; por tanto, la habilidad con que
la apliquemos nos llevar a adquirir gran pericia. En el presente captulo, abordaremos diversas tcnicas que
no son tan usuales en esta actividad.
Con lo anterior no, pretendemos afirmar que los mtodos que veremos aqu son frvolos o poco
prcticos. Del mismo modo que la alta cocina nos da alimentos nutritivos y sustanciosos, tambin esos
mtodos pueden ser de gran utilidad para el investigador de mercados. Sin embargo, si nos dedicamos a
comer en restaurantes de lujo veremos mermar mucho nuestros fondos. Asimismo, la explicacin pormenorizada de dichos procedimientos rebasa los conocimientos de matemticas y estadsticas que este libro
supone por parte del lector.
Las tcnicas multivariadas son aquellas que incluyen ms de dos variables a la vez. Una de ellas, la
escala multidimensional, fue descrita en el capitulo anterior en que hablamos de las escalas de actitudes
debido a su nexo especial con este tema. Este y otros mtodos multivariados son tiles porque muchos
problemas de mercadotecnia y varias preguntas de la investigacin exigen tener en cuenta ms de una o dos
variables. Para ilustrar esto con un ejemplo, consideremos las siguientes posibilidades:
En vez de limitarse a ver las ventas en funcin de la publicidad, una compaa de sea emprender un
anlisis que las considere como dependientes de diversas variables; por ejemplo, nivel de la publicidad,
nmero de vendedores, precio e ingresos disponibles por persona. En esta aplicacin conviene utilizar el
anlisis de regresin mltiple.
Una compaa de seguros de vida desea identificar las: variables que predecirn si un solicitante
tiene probabilidades de ser: a) un riesgo aceptable o b) un riesgo no aceptable como tenedor de, una pliza.
En este caso, se recomienda el anlisis discriminatorio; la compaa predice la "pertenencia!' al grupo
basndose para ello en la edad, sexo, estado civil, hbito de fumar y de beber del solicitante, as como en
sus, problemas mdicos pasados. .
Hemos diseado un cuestionario de 100 preguntas", cuya finalidad es medir los atributos que los
estudiantes juzgan importantes al seleccionar la universidad a que asistirn. Estamos en. Realidad
midiendo 100 caractersticas diferentes de una universidad o existe un menor nmero de dimensiones ms
bsicas que las que describen estas variables? Este es un problema que cae dentro del mbito del anlisis
factorial.
En la siguiente seccin ofreceremos una clasificacin general de las tcnicas multivariadas que han
sido incorporadas a la investigacin de mercados; luego empezaremos a examinar algunas de ellas en sus
aspectos bsicos. Segn dijimos con anterioridad, estos mtodos son complejos. desde el punto de vista
matemtico, y nuestro nivel descriptivo no nos permitir poner inmediatamente en prctica estos mtodos.
Sin embargo, una cosa es cierta: el lector conocer mejor la ndole y el objetivo de ellos; adems le. servirn
Pg. 126
de marco de referencia para comunicarse de modo ms eficiente con quienes los utilizan y entender sus
informes. Nuestro estudio de estos mtodos se organizar a partir de los siguientes temas:
I.
II.
III.
IV.
V.
VI.
Pg. 128
Regresin mltiple escalonada: se parece a la regresin mltiple; slo que las variables independientes
(las X) se introducen en la ecuacin una a la vez; la primera escogida explica el mayor grado de variabilidad
en la variable dependiente (Y). Las introducciones posteriores son asimismo secuenciales, y sobre esta base
la X restante explica el mayor grado de variabilidad restante en Y.
Regresin mltiple de variable nominal: se parece a la regresin mltiple, salvo que algunas de las
variables independientes pertenecen a la escala nominal y. se representan numricamente como 0 1,
conforme a la categora en que se encuentran un objeto o respondiente determinado.
Detector automtico de interaccin: usando el anlisis de variancia, divide en forma secuencial una
muestra total en submuestras, basndose en una variable a la vez y tomando primero la variable explicatoria
de mayor potencia. Es til en la segmentacin del mercado y en la identificacin de las variables que
distinguen los segmentos.
Anlisis conjunto: basado en un orden por rangos de preferencias expresadas en varias combinaciones de
los rasgos de un producto, determina los valores bsicos d utilidad de esas caractersticas y ayuda a
escoger el mejor "paquete" de las caractersticas para la oferta del producto.
Correlacin cannica: se parece a la regresin y correlacin mltiples, salvo que la variable dependiente es
en realidad una combinacin lineal de dos o ms variables dependientes. A diferencia de la regresincorrelacin ordinaria, que incluye una Y y la combinacin lineal de las X, la correlacin cannica incluye tanto
un conjunto de la Y como un conjunto de las X.
Como se advierte en la figura 13-1 y en la descripcin precedente, se trata de un grupo muy rico de
tcnicas por su complejidad matemtica y por su gran aplicabilidad. Sin embargo; la ndole de sus procesos
matemticos y de sus suposiciones estadsticas nos impiden ofrecer aqu una explicacin ms completa.
Como casi siempre se realizan con programas especiales de computadora, el lector rara vez tendr que
hacer personalmente los clculos que se requieren.
Lo ms probable es que el contacto con ellas se establezca mediante artculos de revistas
especializadas, una leccin sobre investigacin avanzada o en un encuentro de profesionales donde un
especialista explica la posibilidad o los resultados del empleo de estos mtodos en la solucin de un
problema concreto de investigacin. En cualquiera de' las eventualidades anteriores, la combinacin de las
definiciones que acabamos de dar y la exposicin que presentamos en seguida facilitar la comprensin y
comunicacin en lo tocante a laS tcnicas multivariadas en la investigacin de mercados.
REGRESIO Y CORRELACIN MULTIVARIADAS.
En el ltimo captulo, hemos analizado la regresin y correlacin cuando slo intervienen dos
variables una dependiente (Y) y una independiente(X). En la presente seccin, estudiaremos el equivalente
multivariado, en el cual hay todava una variable dependiente; pero se presentan dos o ms variables
independientes al describir y predecir su valor.
Regresin mltiple
La capacidad de este tipo de anlisis para incluir ms de una variable independiente permite realizar
un estudio de regresin que es ms realista por reflejar el hecho de que el valor de una variable dependiente
tiende a recibir el influjo de los valores de diferentes variables independientes. Como en el caso bivariado (Y
= a + bX), la relacin se supone lineal, siendo bastante similar. la forma bsica. Por ejemplo. Si hay tres
variables independientes, la ecuacin de regresin mltiple ser
Y = a + b1X1 + b2X2 + b3X3
La variable dependiente y se expresa en funcin de la interseccin de a ms una combinacin lineal
de las tres variables independientes X1, X2 y X3 Los coeficientes b1, b2 y b3 indican cmo Y tiende a cambiar
Pg. 129
con cada cambio de X, a condicin de que las otras X permanezcan constantes. Por ejemplo, b1 refleja cmo
y tender a cambiar con los cambios que se produzcan en 1, suponiendo que X2 y X3 permanezcan
inalteradas. Los coeficientes b en ocasiones reciben el nombre de coeficientes de regresin parcial, y se
calculan en forma anloga al caso de dos variables expuestos en el capitulo 12. .
La regresin mltiple se utiliza: 1) para describir la naturaleza de una relacin lineal entre una
variable dependiente Y varias variables independientes Y 2) para predecir el valor de la variable dependiente
a partir de los valores conocidos de varias variables independientes. En el primer caso, tratamos de entender
mejor cmo estn relacionadas la variable dependiente y la variable independiente. El siguiente anlisis de
algunas pizzeras hipotticas constituye un ejemplo de este tipo de aplicacin. En la segunda categora, el
pronstico de ventas basado en factores mltiples (por ejemplo, nivel de publicidad, precio y nmero de
vendedores) es una aplicacin comn de esta tcnica.
A continuacin damos un ejemplo de cmo funciona la regresin mltiple. Consideremos un grupo
de datos de ocho pizzeras hipotticas situadas fuera de la universidad. En cada establecimiento tenemos
tres mediciones: 1) el nmero de clientes que hace poco acudieron un viernes. 2) el precio de una pizza
grande de salchichas y 3) el cupo del establecimiento. Al. realizar el anlisis de regresin mltiple, nos
gustara determinar la relacin lineal que mejor describe al nmero de clientes (Y) en funcin del precio (X1) y
el cupo (X2).
Y=
Numero de
Clientes
X1 =
Precio de una
Pizza grande
De salchicha
Establecimiento
Pizzera italiana
Pizzas napolitanas
Freds Pizzas
Pizzas Centro
Pizzas Capri
Pizzas Italianas genuinas
Ginos Pizzas
Pizzera Giusseppe
180
120
150
60
90
20
50
60
X2 =
cupo
5.00
6.00
5.80
6.50
7.80
7.40
8.00
5.20
50
34
42
42
45
22
30
24
Si dos datos se presentaran en forma de diagrama de dispersin seran como los de la figura 13-2
en ella el nmero de clientes est representado por la longitud de la lnea vertical desde la base a punto de
datos. Cada punto puede visualizarse como un globo lleno de helio fijado al punto que indica la combinacin,
de precio y cupo del restaurante; el nmero de clientes sealado por la longitud de la cuerda que detiene al
globo. Como se aprecia en la figura 13-2, el restaurante con los precios bajos y un gran grupo tiende a ser el
ms frecuentado.
En el anlisis de regresin' con dos variables; tratamos de encontrar la recta que mejor se ajuste a
un conjunto de datos. En este caso; nos ocupamos de tres dimensiones y la-expresin del mejor ajuste ser
un plano bidimensional. En la figura 13-2, esto tendr la forma de un techo inclinado sobre la base del
diagrama. Para evitar la complejidad de la figura; este plano no ha sido, trazado. Sin embargo, algunos puntos de datos estar sobre el plano de mejor ajuste y otros debajo; el plano estar situado de modo que
minimice la suma de los cuadrados de las desviaciones entre os valores reales de Y y los predichos por la
superficie del plano. Si hay ms de tres variables, la, "superficie" de mejor ajuste ser. una entidad
matemtica denominada hiperplano, difcil de visualizar e imposible de dibujar.
Al analizar los datos referentes a las pizzeras por medio de un programa de computadora para la
regresin mltiple, observaremos que la ecuacin de mejor ajuste de los datos es
Y = 110 - 22.42X, + 3.49X2
Pg. 130
donde
Y = nmero de clientes que acudieron el ltimo viernes por la noche
X1 = precio de una pizza grande de salchichas
X2 = cupo del restaurante
Los coeficientes de regresin parcial, -22.42 y:3.49; indican cmo se espera que Y cambie cuando
se altera el precio del cupo. Por ejemplo, para determinado cupo, cabe esperar que el nmero de clientes
disminuya en 22.42 con cada incremento de 1 dlar en el precio de una pizza grande de salchichas.
Asimismo, para cierto precio, se supone que el nmero, de: clientes aumente en 34.9 con cada diez asientos
que se aadan al cupo del establecimiento. Muchas de las estimaciones no difieren notablemente del nmero
real de clientes observados. As la ecuacin de regresin predice que el nmero de clientes que participan en
la Pizzera italiana ser de 110 - 22.42(5) + 3.49(50) = 172.4, apenas con una desviacin de 7.6 respecto al
valor real de 180.
Cuando se examina una ecuacin de regresin, no se incurre en el error de suponer que una
variable independiente es muy importante por el simple hecho de que resulta tener el mximo coeficiente. Por
ejemplo, el hecho de que 22.4-2. sea-mayor que 3.49. no significa que el precio tenga ms importancia que el
cupo al momento de calcular el nmero de clientes que acuden el viernes por la noche. Si el precio hubiera
sido expresado en centavos en vez d dlares, el coeficiente de X1 habra sido - 2242 y no - 22.42 y si se
hubiera expresado en relacin con el nmero de billetes de 10 dlares, habra sido - 2.242.
Pg. 131
Correlacin multivariada
El objetivo de esta tcnica es determinada fuerza de Una relacin lineal entre la variable
dependiente y el conjunto de variables independientes. As pues a semejanza de la regresin mltiple,
constituye tambin una extensin del caso de dos variables expuesto en el captulo 12.
Adems de generar la ecuacin de regresin, un anlisis por computadora revelar R, que es el
coeficiente, de correlacin mltiple. Como en el caso de ,dos variables, lo anterior refleja la correspondencia
tan estrecha entre los valores reales de Y los predichos, por la ecuacin de regresin los valores mayores de
R denotan una relacin ms fuerte. En relacin con los datos referentes a las pizzeras, el coeficiente de
correlacin mltiple es R = .889, lo cual indica una correspondencia, satisfactoria entre el nmero verdadero
y el predicho de clientes para cada restaurante.
El coeficiente de determinacin mltiple, R2, indica la proporcin de la variacin en Y que se
explica por los cambios en la variable independiente. As, .8892, o sea 79% de la variacin en el nmero de
clientes de las pizzeras, se explica por las variables de precio y cupo. Debe observarse que esa cifra es
mayor que el coeficiente de determinacin (bivariado) para cualquiera de las dos variables independientes
tomadas por separado. Esto lo demuestran los siguientes anlisis de regresin:
1. Y (nmero de clientes) frente a X1 (precio) sola:}
La ecuacin de menor ajuste es Y = 280.4 29.31, r = -.62 y r2 = .38.
En un anlisis bivariado, X1 explica el 38% de la variacin de Y.
2. Y frente a X2 (cupo) sola:
La ecuacin de mejor ajuste es Y = -55.4 + 4.1 X2, r = .76 y r2 = .58.
En el anlisis bivariado, X2 explica 58% de la variacin en Y.
3. Y frente a X1 y X2:
La ecuacin del mejor ajuste es Y = 110 22.42X1 + 3.49X2, R = .889 y R2 = .79.
En un anlisis multivariado, X1 y X2 explican el 79% de la variacin en Y.
En los casos anteriores, ntese que R2 en el anlisis multivariado es menor que en la suma simple
de dos valores individuales de r2 en el anlisis bivariado. Ello se debe a que las dos variables independientes
no son totalmente independientes; es decir, estn correlacionadas entre s. Aunque la correlacin entre X1 y
X2 no es muy grande (r = .22), incluso una relacin tan pequea entre las dos indican que no nos revelan dos
cosas enteramente diferentes sobre las pizzeras.
Multicolinealidad
Cuando dos o ms de las variables independientes guardan una gran correlacin entre si, se
presenta una condicin denominada Multicolinealidad. Al ocurrir esto, el coeficiente de regresin parcial en la
ecuacin ser estadsticamente inconfiable y difcil de interpretar. En el ejemplo de las pizzeras, habremos
incurrido en un grave caso de multicolinealidad de haber agregado la tercera variable, X3 = precio de la pizza
grande sencilla. Probablemente habr una estrecha correlacin entre el precio de la pizza grande con
salchichas (X1) y el de una pizza grande sencilla (X3). As pues, si dos variables estn "indicando" cosas
semejantes sobre la variable dependiente, la solucin ms sencilla consiste simplemente en eliminar una de
ellas en el anlisis. La multicolinealidad no constituye un problema cuando el objetivo de la ecuacin de
regresin es slo predecir el valor de Y. Pero si estamos tratando de describir la naturaleza de la relacin
lineal entre Y y las variables independientes, esta condicin deber evitarse.
Regresin escalonada
En esta aproximacin a la regresin mltiple, las variables independientes entran en el anlisis una
a la vez: la primera que lo hace es la variable que explica la mxima cantidad de variacin en Y. La segunda
que entra es la que-explica la mxima cantidad de la variacin restante de Y. Y se procede as hasta agotar
las variables independientes significativas o hasta explicar una parte satisfactoria de la variabilidad en Y. Este
procedimiento ayuda a evitar el problema de la colinealidad, puesto que cada variable sucesiva que entre en
Pg. 132
el anlisis debe de alguna manera ser distinta de las otras para que sea ''incorporada'' en la ecuacin de
regresin. Por su capacidad para juzgar el valor de introducir cada X en dicha ecuacin, esta tcnica es
especialmente til cuando tenemos un gran nmero de variables independientes de donde escoger.
Variables nominales en el anlisis de regresin
En algunos casos tenemos una variable dependiente o una o ms variables independientes que no
cumplen con las condiciones de la escala. de intervalos. Por ejemplo, en el caso de las pizzeras queremos,
saber si el restaurante ofrece servicio a domicilio. Esta sera una medida nominal, pero podra utilizarse en el
anlisis de regresin si se considera una variable nominal; es decir, si el restaurante tuviera servicio de
entrega a domicilio, esta variable poseera un valor de 1; y si no lo ofreciera, el valor sera de 0. Las variables
nominales son binarias (apagado encendido, s no) puesto que tan slo tienen dos estados posibles. Las que
ms se emplean en la investigacin de mercados relacionan las medidas nominales que describen una
caracterstica personal o pertenencia al grupo; por ejemplo, el sexo, el hecho de que uno se suscriba a
Selecciones del Reader's Digest o el usar anteojos. Cuando tambin Y es una categora y se expresa como
una variable nominal W,I), la regresin mltiple es anloga a la forma de dos grupos del anlisis
discriminatorio que abordaremos en el siguiente apartado.
ANALISIS DISCRIMINA TORIO
El anlisis discriminatorio es una tcnica que, a semejanza de la regresin mltiple, tiene una
variable dependiente y un conjunto de variables independientes. Pero en l la variable dependiente siempre
pertenece a la escala nominal y representa la pertenencia al grupo. Los dos principales usos del anlisis
discriminatorio son: 1) clasificacin de objetos en grupos y 2) identificacin de las variables descriptivas que
mejor describan la pertenencia al grupo.
Clasificacin de objetos en grupos. Por basarse- en las mediciones de las variables independientes (X), el
anlisis discriminatorio puede utilizarse para clasificar a personas u objetos en uno de dos o ms grupos. En
calidad de consumidores seguramente habremos sido clasificados en grupos. muchas veces, a menudo por
parte de gente que sin saberlo est aplicando el anlisis discriminatorio. Por ejemplo, sin duda ya habremos
pasado por una experiencia de "categorizacin" semejante a la que tuvieron las siguientes personas:
Alicia Rodriguez y algunas de sus amigas fueron a un restaurante de lujo a celebrar el final del primer ao de
universidad. La jefa de las meseras, al darse cuenta de que las clientes son universitarias y que no visten
ropa cara, las acomoda en . un rincn con mucha luz situado entre la entrada a la cocina y los baos de los
caballeros. Quiz se haya equivocado al clasificar a Alicia y a sus amigas en la categora de clientes que
gastan poco y dan propinas pequeas.
Rodolfo Ramrez luego de hacer la solicitud del seguro de su automvil, seda cuenta de que la pliza anual le
costar casi lo mismo que el coche. Aunque en los cinco aos que lleva conduciendo nunca ha tenido un
accidente ni una sola infraccin, la compaa anota que tiene menos de. 25 aos, no est casado y no ha
recibido cursos de manejo:
Alfredo Montalbn, un mariscal de! campo seleccionado para el equipo de. estrellas de la liga colegial, no
recibe ninguna llamada durante el reclutamiento de jugadores colegiales para la liga profesional. El servicio
de reclutamiento de los equipos profesionales afirma que este jugador no tendr xito en el ftbol profesional
por ser de baja estatura.
Nos guste o no, los individuos y las empresas constantemente clasifican a las personas en grupos
basndose en. variables como la edad, escolaridad, ingresos, estado civil, peso fsico, talla, tipo de automvil
que usan, indumentaria; y promedio de puntos de calidad. Si bien quiz. no se aplique especficamente el
anlisis discriminatorio, los principios en que se funda esta tcnica matemtica estn presentes es; decir a
partir de un grupo de mediciones observadas podemos tratar de clasificar un individuo u objeto en un grupo.
Pg. 133
Identificacin de las variables descriptivas que mejor determinan la pertenencia al grupo. En esta
aplicacin del anlisis discriminatorio, se examinan a miembros de grupos conocidos, con objeto. de
averiguar cules variables nos. ayudan ms a diferenciar entre los miembros de cada uno. Por ejemplo, si
trabajamos en prstamos para los consumidores, nos gustar identificar las variables que mejor "discriminan"
entre: a) prestatarios anteriores que han pagado su, deuda a tiempo y b) prestatarios anteriores que no la
han pagado. Esas variables pueden ser edad, ingresos, aos viviendo en el presente domicilio, aos en el
trabajo actual, estado de salud y estado civil.
El anlisis discriminatorio generalmente supone que las variables independientes pertenecen a la
escala de intervalo. No obstante, como sucede con la regresin mltiple, es posible incluir variables
independientes que sean nominales. En este caso, utilizaremos lo que en la figura 13-1 se llama anlisis
discriminatorio con "variable nominal". Aunque algunos de los ejemplos precedentes han incluido algunas variables independientes de escala nominal a fin de ilustrar la tcnica, en el resto de la exposicin supondremos
que tenemos variables, independientes en la escala de intervalo o ms fuertes.
Anlisis discriminatorio de dos grupos
En esta aproximacin al anlisis discriminatorio queremos. clasificar o describir la. pertenencia en
slo dos grupos y es posible que tengamos ms de dos variables independientes. Pero para hacer la
representacin grfica en nuestros ejemplos e ilustraciones habr nicamente dos variables independientes:
X1 y X2.
Principios y trminos fundamentales
Para ilustrar con, un ejemplo; las ideas en que se basa el anlisis discriminatorio, supongamos que
tenemos informacin sobre la edad e ingresos referente a: a) suscriptores y b), no suscriptores de tres
revistas hipotticas. Los, diagramas de dispersin de cada revista vienen en la figura.13-3, partes. A, B y C.
Examinemos cada parte por separado:
Buena condicin fsica despus de los 50. En los datos, que aparecen en la parte A de la figura 13-3,
parece que X1 (ingresos) tiene poco que ver con la pertenencia en los grupos de suscriptores y no
suscriptores. Los grupos estn dispersados sobre la dimensin X2 (edad), lo cual indica que esta variable es
la nica que realmente discrimina los grupos.
Aviso mensual de impuestos. En estos datos, que aparecen en la parte B de la figura 13-3, sucede lo
contrario de la parte A; X1 (ingresos) es la nica variable que parece diferenciar entre los grupos. Obsrvese
que los grupos estn separados slo en la direccin horizontal.
Revista de juegos de video. En estos datos que aparecen en la parte C de la figura 13-3, los grupos. se
distinguen entre: si a, lo largo d ambas dimensiones, lo cual indica que ambas variables influyen en la
diferencia entre los miembros de los dos grupos. Obsrvese que en este caso, los grupos estn separados a
lo largo de la lnea que podra estar, en un comps de navegacin, aproximadamente en la direccin noreste.
Adems de mostrar los datos de los suscriptores y no suscriptores, la parte C de la, figura 13-3 ilustra
adems varios trminos importantes que se emplean en el anlisis discriminatorio:
Eje discriminatorio: es la lnea noreste que acabamos de mencionar, o sea la lnea a lo largo de la cual los
grupos estn ms separados. Desde el punto de vista matemtico, es la direccin alo largo de la cual cierta
razn (variacin entre grupos dividida entre la variacin dentro de los grupos) es maximizada. Los puntos de
datos pueden proyectarse en esta lnea, lo cual hace posible las dos distribuciones de curva normal
mostradas sobre la lnea.
Pg. 134
Funcin discriminatoria: es una funcin matemtica que describe las puntuaciones a lo largo del eje
discriminatorio y puede describirse como Z = aX1 + bX2, donde Z es la puntuacin de la funcin
discriminatoria para un individuo. Ntese que Z es la combinacin lineal (una suma ponderada) de las
puntuaciones de X1 y X2 y es as como cada punto de dato se proyecta matemticamente hacia el eje
discriminatorio.
Segn su puntuacin en la funcin discriminatoria, se predecir que un individuo es un miembro de
uno u otro grupo.
Coeficientes discriminatorios: son los coeficientes a y b en la funcin discriminatoria, y tienden a reflejar la
importancia relativa que X1 y X2 tienen en la determinacin de la pertenencia al grupo.
Centroide: En cada grupo, hay un punto correspondiente a las medias de X1 y X2. El centroide puede
considerarse una media multidimensional. La proyeccin de cada, centroide al eje discriminatorio se realiza
por la misma combinacin lineal aplicada a los puntos individuales de datos.
Pg. 135
Lnea discriminatoria: es una lnea, perpendicular al eje discriminatorio, que sirve para predecir la
pertenencia al grupo o a. los miembros individuales de los dos grupos. Segn las puntuaciones del individuo
en X1 y X2, puede caer en uno u otro lado de la lnea. La lnea discriminatoria representa una puntuacin neta
de la funcin discriminatoria, arriba o debajo de la cual cualquier nuevo individuo ser asignado a uno u otro
grupo. La lnea discriminatoria se encuentra a la mitad entre los dos centroides.
Clasificacin errnea: si, basndonos en las puntuaciones X1 y en X2, asignamos un individuo a un grupo al
cual realmente no pertenece, lo habremos clasificado errneamente. En el diagrama C de la figura 13-3, las
pequeas reas sombreadas representan' los dos tipos de errores de clasificacin.
Un ejemplo
Para mostrar cmo funciona el' anlisis discriminatorio, veamos cmo esta tcnica se aplicara a un
conjunto hipottico de datos. Consideremos el siguiente problema de investigacin:
Desde la muerte de su socio, Samuel ha sido el nico dueo de Zapateras Rodrguez y Snchez.
Con el fin de identificar mejor alas clientes serios, Samuel ha reunido datos observaciones de tres variables:
X1: nmero de minutos que un cliente pasa viendo el escaparate antes de entrar en la tienda.
X2: edad aproximada del cliente.
X3: hecho de que el cliente compre o no un par de zapatos antes de marcharse del establecimiento.
Pg. 136
Pg. 137
ANLISIS FACTORIAL
Tanto la regresin mltiple como el anlisis discriminatorio suponen que hay una variable
dependiente (Y), cuyo valor es una funcin de varias variables independientes (las X). En esta seccin y en la
siguiente, examinaremos dos mtodos que trata como "iguales" a todas las variables. La primera de estas
tcnicas, el anlisis factorial, es un instrumento de creciente aceptacin entre. los investigadores. Sus dos
aplicaciones fundamentales son: 1) simplificar un conjunto de datos reduciendo para ello el nmero de
variables y 2) identificar la estructura o dimensionalidad subyacente de los datos.
Simplificacin de un conjunto de datos reduciendo el nmero de variables. En los estudios de la
investigacin de mercados, es posible que al final tengamos un extenso nmero de mediciones o variables
para un grupo de respondientes. De ello pueden resultar dos problemas: 1) el nmero de variables puede ser
difcil de anlisis ulterior (por ejemplo, una regresin mltiple de 100 variables) y 2) algunas de ellas pueden
guardar estrecha relacin con otras, lo cual suscita problemas de con fiabilidad como la multicolinealidad,
expuesta antes en el captulo. El anlisis factorial ayuda a reducir el nmero de variables a un nivel fcil de
manipular, sin que por ello deje de contener la mayor parte de la informacin que se encuentra en el conjunto
original (ms amplio). En la encuesta, quiz convenga reunir datos haciendo pruebas preliminares (pretests)
con un cuestionario; despus se aplica el anlisis factorial para "depurar" el cuestionario de modo que incluya
las preguntas que realmente estn midiendo cosas distintas sobre el respondiente. Con ello se ahorran los
gastos de copiado de la encuesta y de su administracin, se abrevia el cuestionario y se incrementa la tasa
de respuestas.
Identificacin de la estructura subyacentes o dimensionalidad de los datos. Aunque podemos tener 50
variables diferentes, stas quiz no midan sino cinco caractersticas bsicas de la muestra. Por ejemplo, en
un estudio dedicado a la vivienda, variables como el nmero de habitaciones, tamao del lote, nmero de
baos, nmero de residentes, costo anual de servicios y valor de mercado tendern a ser identificados por el
anlisis factorial como indicadoras de una sola dimensin fundamental: en este. caso, el tamao de la casa.
Principios bsicos del anlisis factorial.
Comenzando generalmente con una matriz de. correlaciones entre las variables (por ejemplo, tabla
13-1), el anlisis factorial trata de generar "nuevas variables", cada una de las cuales es una combinacin
lineal de las originales. A estas variables nuevas se les llama factores y a los coeficientes de cada.
combinacin lineal se les da el nombre de cargas factoriales.
El mtodo de componentes principales, sin duda la ms comn de las tcnicas del anlisis factorial,
deriva un conjunto de factores sin la menor correlacin; es decir, sus ejes son perpendiculares entre si. El
primer factor escogido es aquel ala largo del cual los datos se hallan ms "dispersos" y explicar la mxima
variacin posible de los datos. El segundo factor, perpendicular al primero, se escoge de modo que explique
la mxima cantidad posible de la variacin restante de los datos. Otros factores, perpendiculares todos a los
anteriores, se seleccionan hasta que la cantidad de variacin no explicada se encuentre por debajo de un
lmite aceptable.
A continuacin damos un ejemplo de la forma que adoptar un factor. Examine atentamente la
figura 13-5, en la cual se muestran los dos primeros factores para un conjunto de datos en dos dimensiones.
Ntese que el primer factor, F1 = .95X1 + .20X2.
Pg. 138
se halla a lo largo de la direccin de la "mxima dispersin" de los datos. Obsrvese asimismo que
el segundo factor es. perpendicular al primero. En los datos originales, cada respondiente es representado
por una posicin sobre X1 y X2. Sin embargo, utilizando la descripcin de combinacin lineal en cada factor,
los individuos pueden ahora describirse en funcin de sus puntuaciones en los factores 1 y 2. Por ejemplo, un
punto descrito inicialmente por (X1 = 4 y X2 = 3) puede representarse ahora con [F1 = .95(4) + .20(3) = 4.4 y
F2 = .20(4) - .95(3) = -2.05]. Para entender mejor lo que ha sucedido basta visualizar los puntos que
permanecen en el mismo lugar, pero los ejes del sistema de coordenadas se desplazan ligeramente.
Una vez que las variables originales han sido "estandarizadas" (cada una expresada en funcin de
su desviacin estndar y una vez que la media ha sido corregida a cero), las cargas factoriales representan
la correlacin entre cada factor y las variables originales. Por ejemplo, en la figura 13-5, la correlacin entre el
factor 1 y X1 ser. 95. Esta "estandarizacin" es el motivo de que la figura 13-5 tenga X1 = 0 y X2 = 0 como el
origen de los dos ejes.
Una vez conseguido el conjunto de factores y las correlaciones (cargas de factores) entre cada
factor y variable original, podemos descubrir que resulta bastante difcil interpretar los resultados (es decir,
algunas variables quiz no guarden gran correlacin con cualquiera de los factores). En tal caso, el sistema
de coordenadas representado por los factores puede "girarse" alrededor de su origen, por lo cual las correlaciones tendern a ser muy altas o muy bajas. Lo que se pretende es obtener nuevos factores, cada uno de
los cuales tiene algunas variables estrechamente correlacionados con l.
Un ejemplo
Para demostrar en forma ms amplia cmo funciona el anlisis factorial, consideremos el estudio
que aport la informacin presentada en la tabla 13-2. Como parte del examen de los compradores (que
Pg. 139
acuden a varias tiendas donde se ex penden los mismos articulas), los. investigadores midieron una muestra
de ellos mediante los 23 enunciados de la tabla. Realmente midieron 23 aspectos de la muestra o bien los
resultados revelan que las 23 mediciones podan ser representativas de un nmero ms pequeo de
caractersticas ms bsicas del consumidor? La respuesta parecera ser la segunda posibilidad, pues los 23
enunciados (variables) han sido depurados por el anlisis factorial en tres tipos fundamentales de
mediciones, o factores:
Factor I. Como se advierte en la tabla, cada uno de los 14 enunciados tiene una gran carga o correlacin,
con el primer factor identificado. Dada la naturaleza comn de estos enunciados, los investigadores
identifican ese factor como representante de una dimensin de "motivacin y participacin de la moda".
Factor II. Los siguientes cinco enunciados en la tabla tienen una gran carga en el segundo factor identificado;
los factores lo interpretaron como representante de una dimensin" gran seguridad 'en s mismo y de
liderazgo en opinin de la moda".
Factor III. Los ltimos cuatro enunciados en la tabla estn cargados en el factor III, caracterizado por los
autores como dimensin de "motivacin de valor y compra oportunista.
Pg. 140
Ntese que las cargas de factor en la tabla 13-2 son tales, que cada, uno de los 23 enunciados
tiende a ejercer una fuerte carga sobre un factor y una carga baja en los otros dos. Ello se debe a que los
factores son el resultado de la rotacin de ejes, destinada a este propsito. Como se seal antes, dicho eje
facilita la interpretacin del significado de los factores.
La tabla. 13-2 incluye varios trminos comunes del anlisis factorial, algunos de los cuales no
hemos explicado. Como en el caso de los factores; stos se hallan entre la informacin tpica de una
aplicacin del anlisis factorial. Pueden describirse como se indica a continuacin.
Cargas de factores: son las correlaciones entre los factores y las variables originales. Se muestran en las
columnas I, II y III. Por ejemplo el enunciado I, ("Me gusta ser la persona que usa la ropa, de moda en la.
escuela o en el trabajo") tiene una correlacin de .8 con el factor I de .21 con el factor II y de .03 con el factor
III.
Comunalidades: en cada enunciado, la comunalidad es la proporcin de la variabilidad del enunciado que
se explica mediante los tres factores indicados. En ocasiones denominadas h2, la comunalidad no es ms
que la suma del cuadrado de las correlaciones del enunciado y de los tres factores. As, en el caso del enunciado I, la comunalidad (.69) es igual a (.80)2 + (.21)2 + (.03)2. Como se advierte en la tabla, los tres factores
logran explicar mejor la variabilidad en el enunciado 1 (h2 = .69) que el enunciado 2 (h2 = .61). En 9 de los 23
enunciados, los tres factores explican por lo menos la mitad de la variabilidad en las respuestas de los consumidores al enunciado.
Valores caractersticos (propios): en cada factor, el valor caracterstico es la suma del cuadrado de las
cargas de factores para ese factor. Por ejemplo, en el caso del factor I, el valor propio es (.80)2 +(.77)2 +... +
(-.80)2, o sea 5.90.Cuando dividimos se valor entre el nmero de enunciados, obtenemos la proporcin de la
variabilidad total explicada por ese factor. En el caso del factor I; podemos calcular 5.90/23 = .257 y
determinar que el factor I explica el 25.7% de la variancia en las respuestas del consumidor a los 23
enunciados. A medida que avanzamos del factor I al II, observaremos que cada uno ayuda a explicar parte
de la variabilidad y que la combinacin de los tres factores explica 45.8% de la variabilidad en las respuestas
del consumidor. .
El anlisis factorial sigue siendo la tcnica ms compleja de que se dispone en la investigacin de
mercados, pese a que el mayor acceso a la computadora y el aumento de sus capacidades facilitan bastante
su aplicacin. El usuario se halla ante varias decisiones que tienden a conferirle al anlisis una dimensin
esttica y matemtica a la vez. As, hemos de decidir cuntos factores extraeremos de determinado conjunto
de datos,.si los rotaremos para una mejor interpretabilidad (y, si los rotamos, decidiremos tambin en qu
manera lo haremos) y la forma, que asumirn los datos de entrada. Adems, la identificacin de los factores
resultantes constituye un proceso subjetivo que puede diferir mucho entre los. investigadores. Al lector que
desee aplicar el anlisis factorial a los datos de mercadotecnia. le, aconsejamos complementar esta
exposicin introductoria consultando otra ms amplia.
ANLISIS DE CONGLOMERADOS
El anlisis de conglomerados es una tcnica multivariada. que pone las variables u objetos en
grupos, de modo que los que estn dentro de cada uno sean ms semejantes entre si que los miembros de
los otros grupos. Su principal aplicacin es agrupar objetos; por ejemplo, ciudades, consumidores marcas de
productos y programas de televisin. Se cuenta con muchos algoritmos de computacin para clasificar los
objetos en conglomerados, todos deben empezar con algn medida de las semejanzas entre ellos. En
algunos casos, las semejanzas pueden constar simplemente de datos nominales; por ejemplo, el hecho de
que los objetos posean o no ciertas caractersticas. Teniendo presente esto, podemos agrupar a las personas
segn el tipo de automvil que usen, la marca de su televisor o el hecho de que les guste o no un sabor a
refresco.
Por lo regular la formacin de conglomerados se inicia con un conjunto de semejanzas, o sea datos
que son ms fuertes que la escala nominal y que reflejan las posiciones de los objetos en lo que es
Pg. 141
esencialmente un espacio multidimensional 'de escala de intervalo. La configuracin bsica de los objetos no
pasa de ser el punto de arranque del anlisis de conglomerados.
Mtodos de conglomerados
Una vez conseguida una medida de las semejanzas entre dos objetos, se dispone de una amplia gama de
mtodos de conglomerados que pueden emplearse en la seleccin de los conglomerados y objetos que se
asignarn. Un grupo de tcnicas recibe el nombre de jerrquicas, pues requiere la formacin de
conglomerados en distintos niveles de agregacin. En el primer nivel, cada objeto, se considera su propio
"conglomerado". En la siguiente fase, los dos objetos ms parecidos se combinan para formar un nuevo
conglomerado, el cual es descrito por su centroide. En los niveles siguientes, un punto se une a otro punto o
bien a un conglomerado. Y as prosigue el proceso hasta que se haya formado el nmero deseado de
conglomerados. Si el proceso prosigue hasta su terminacin, cada objeto quedar incluido en un solo
conglomerado, solucin que tendra escasa, utilidad prctica.
Un ejemplo de este mtodo se aprecia en la figura 13-6; los pasos los explicamos a continuacin:
Paso l. La distancia ms corta en la configuracin es. la que hay entre los' objetos A y B, por lo cual se unen
para formar un conglomerado.
Paso 2. La distancia ms corta en la configuracin es ahora la existente entre los objetos E y F, de modo que
se unen y forman un conglomerado.
Paso 3. La distancia ms corta en la configuracin es ahora la que existe entre el objeto e y el centroide del
conglomerado AB, de manera que. el objeto e se une al conglomerado AB.
Paso 4: La distancia ms corta en la configuracin es ahora la que hay entre el objeto D y el centroide del
conglomerado ABC, por lo cual el objeto D se une al conglomerado ABC.
Pg. 142
El mtodo jerrquico se aplica en la direccin contraria (la estrategia de "arriba hacia) abajo"), en la
cual los objetos al inicio pertenecen slo a uno o dos conglomerados muy numerosos. En las fases
posteriores; se extraen para formar otros conglomerados ms pequeos, hasta tener un nmero adecuado.
Si el proceso prosiguiera hasta sus extremas consecuencias, cada objeto terminara siendo su propio
"conglomerado", o sea el punto de partida del mtodo jerrquico en la. direccin contraria:
Tambin, se cuenta con muchos otros algoritmos para formar conglomerados. Pero una explicacin ms
pormenorizada rebasa el mbito de esta obra.
.
Un ejemplo
En un estudio de las relaciones entre personalidad y uso del producto, Schaninger, Lessig y Panton
se valieron del mtodo jerrquico' para realizar un anlisis de conglomerados con individuos que haban sido
medidos por variables de uso de 31 productos.5 Luego de examinar las soluciones que contenan entre 2 y
12 conglomerados, descubrieron que la solucin de 3 conglomerados era la ms significativa para sus datos.
En la tabla 13-3 se muestran las puntuaciones de la personalidad promedio y las del empleo del producto
para los miembros de los tres grupos, as como el valor F que refleja la significancia de la diferencia de las
medias de los grupos en cada variable individual.
Segn se advierte en la tabla 13-3, los tres grupos difirieron de manera significativa en muchas de las
variables medidas. Basndose en la interpretacin de los hallazgos, los investigadores sintetizaron as los
tres conglomerados de personas:6
Grupo l. ". . .fuerte consumo de, productos centrados en la moda y en la sociedad y de todos los tipos de
licor.. . . Significativamente menos sumisos y con mayor ascendiente y ms sociales que las personas de los
conglomerados 2 y 6, y tambin ms responsables, ms vigorosos y menos indiferentes que los del conglomerado 3."
Grupo 2. ". . .poco consumo de la mayor parte de los tipos de alcohol y cigarrillos y bajo ndice de lectura de
Playboy y Penthouse, altas puntuaciones en obediencia, responsabilidad y vigor, y calificaciones ms bajas
en ascendiente y sociabilidad que en los grupos 1 y 3."
Grupo 3. ... mostr un gran uso de todos los tipos de drogas ilegales, alcohol y otros productos relacionados
con las sustancias txicas, puntuaciones ms bajas en responsabilidad y vigor y mas alta en la indiferencia.
Eran mas sumisos y tenan menor ascendiente que las personas del conglomerado 1, tendiendo adems (no
significativa) a ser menos agresivo, a mostrar menos estabilidad emocional y ms cautela que los miembros
de los conglomerados 1 y 2
Pg. 143
Adems, el anlisis de conglomerados es til en muchas otras actividades" mercadolgicas; por ejemplo,
sirve para identificar ciudades similares para efectuar las pruebas de mercado, para agrupar revistas y
programas de televisin, para posicionar en categoras las marcas de productos.
OTRAS TCNICAS MULTIVARIADAS
Anlisis multivariado de variancia
A diferencia del anlisis univariado de variancia, en el cual las medias de varios grupos son
significativamente diferentes entre s, la versin multivariada que se ocupa de las diferencias entre los
centroides. (Como recordar el lector, un centroide no es mas que un punto que representa la combinacin
de dos o ms medidas y es el equivalente multivariado de la media.) Los grupos comparados pueden ser: a)
conglomerados resultantes del anlisis de conglomerados hechos, con un conjunto de datos, b) grupos
demogrficos o de otra ndole identificados en mediciones previas o c) grupos de tratamiento en un
experimento.
Si bien los procedimientos de clculo son mucho ms complejos en el anlisis multivariado de
variancia, el principio fundamental es eI mismo que l del anlisis univariado. La hiptesis que se prueban en
Pg. 144
ambos son:
Anlisis univariado de variancia
H0 = los grupos de la misma poblacin (o de poblaciones que tienen el mismo valor de la media
univariada).
Anlisis multivariado de variancia
H0 = los grupos proceden de la misma poblacin (o de poblacin que tienen el mismo centroide
multivariado)
Para dar un ejemplo de la diferencia entre ambos procedimientos, examinaremos detenidamente las
dos partes de la figura 13-7. En la parte A, tres grupos han sido medidos en una sola variable, mientras que
en la parte B esos tres grupos han sido medidos a partir de dos variables. Ntese que, en la parte A, la
variabilidad entre los grupos es relativamente grande en comparacin con la variabilidad dentro de los
grupos. Ello tender a proporcionar una gran razn F h hacernos rechazar la posibilidad de que los grupos
realmente provengan de la misma poblacin.
En la parte B de la figura 13-7 la variacin entre grupos es tambin bastante grande su se compara
con al variabilidad dentro de los grupos. Esto tender a darnos una gran razn F multivariada, hacindonos
adems rechazar la posibilidad de que los grupos procedan de la misma poblacin.
En comparacin con el anlisis univariado, el multivariado ofrece la ventaja de permitirnos comparar
los grupos considerando simultneamente dos o ms mediciones. Ello resulta de gran utilidad en los estudios
experimentales en los cuales queremos medir mas de un efecto de los tratamientos administrativos a
diversos grupos. Adems, no perdemos la capacidad del anlisis univariado para comparar los grupos en una
sola variable a la vez.
Pg. 145
En este ejemplo, el orden por tangos de los totales de utilidad es exactamente el mismo que el orden de
preferencias del cliente, grado de precisin que en la prctica rara vez se logra y que no se necesita. El
anlisis conjunto suele proporcionarnos los valores de utilidad subyacentes que se aproximan lo mas posible
a la meta de reconstruir el orden por rangos de las preferencias.
Esta tcnica tiene por objeto servirte de esas utilidades para describir el nivel probable de las
preferencias tanto en los productos actuales como en los que se planean, dndose mayor importancia hoy a
la segunda aplicacin. El anlisis conjunto ya se ha utilizado con muchos productos, que incluyen desde
champs y pantimedias hasta cmaras fotogrficas y agencias de alquiler de. automviles.
Pg. 147
RESUMEN
Los mtodos multivariados son aquellos que incluyen ms de dos variables a la vez. Una de esas
tcnicas, la escala multidimensional, fue explicada en el captulo 9. Esos procedimientos son tiles porque
muchos problemas de mercadotecnia y preguntas de investigacin exigen que ms de una o dos variables
sean examinadas. Las tcnicas multivariadas pueden clasificarse segn las respuestas a tres preguntas: 1)
dependen de otras algunas variables? 2) hay ms de una variable dependiente? 3) cul es la, escala de
medicin de las variables? El anlisis de regresin mltiple es una extensin de la regresin de dos variables,
y suele emplearse para: 1) describir la naturaleza de la relacin lineal entre una variable dependiente y varias
variables independientes y 2) a partir de los valores conocidos de las variables independientes, predecir el
valor de la variable dependiente. El anlisis multivariado de correlacin determina la fuerza de las relaciones
lineales existentes entre la variable dependiente y el conjunto de variables independientes.
El anlisis discriminatorio es un mtodo que, a semejanza de la regresin mltiple, tiene una
variable dependiente y un conjunto de variables independientes. Sin embargo, en l la variable dependiente
siempre pertenece a la escala nominal y representa la pertenencia al grupo. Se emplea para clasificar los
objetos en grupos e identificar las variables descriptivas que mejor determinan la pertenencia al grupo.
El anlisis factorial no supone que algunas variables pudieran depender del valor de otras y las trata
a todas como "iguales". Una importante aplicacin de esta tcnica consiste en simplificar un conjunto de
datos reduciendo el nmero de variables a un nivel ms fcil de manipular, pero sin perder la mayor parte de
la informacin presente en el conjunto originario. Otra aplicacin es identificar la estructura subyacente, o
dimensionalidad de los datos. Por ejemplo, aunque tengamos 50 variables diferentes, stas pueden medir tan
slo cinco caractersticas bsicas de la muestra.
El anlisis de conglomerados es una tcnica multivariada que pone variables u objetos en grupos, o
conglomerados, de modo que las que se hallan dentro de , cada grupo se parecen ms entre s que las que
son miembros de otros grupos.
Es una tcnica que desempea un papel central en la segmentacin del mercado: divide el mercado
global en grupos de consumidores que son diferentes entre s, pero los miembros de cada grupo tienden a
parecerse.
El anlisis multivariado de variancia es una extensin del anlisis univariado, pero se ocupa de
comparar los centroides (un centroide representa la combinacin de dos o ms medias, y es el equivalente
multivariado de la media). El detector automtico de interaccin (Al O) es un procedimiento computarizado
que divide de manera secuencial una muestra global en grupos ms pequeos para explicar mejor las
puntuaciones de los miembros de una muestra en determinada variable dependiente. En cada paso, es una
tcnica que identifica la variable dependiente restante que mejor divide las puntuaciones altas y bajas en la
Variable dependiente.
El anlisis conjunto comienza con un orden por rangos de las preferencias por el producto y
despus calcula los valores de utilidad de las caractersticas fundamentales que describen el tipo de
producto. El resultado es un conjunto de utilidades que tratan de explicar el orden en que se clasifican los
productos. Una combinacin propuesta de atributo puede pues, evaluarse aun cuando ningn producto actual
tenga el conjunto especfico de caractersticas.
Pg. 148
consumidores hicieron en equipo para pesca. Los miembros de esa muestra tambin han llenado
cuestionarios que miden 20 diferentes variables psicolgicas y 15 variables demogrficas. Explique
cmo cada uno de los siguientes mtodos ayudara a analizar los datos: a) anlisis de
conglomerados, b) anlisis discriminatorio y c) anlisis factorial.
19. Explique brevemente cmo se efecta el anlisis conjunto y describa un conjunto hipottico de las
curvas subyacentes para una categora de productos de su eleccin.
Pg. 150