Documente Academic
Documente Profesional
Documente Cultură
Usos, abusos y
alternativas a las
Técnicas Multivariadas
Clásicas
Mg. Jesús Salinas Flores
jsalinas@lamolina.edu.pe http://tarwi.lamolina.edu.pe/~jsalinas
Cursos pre-grado de Análisis Multivariado
2
Técnicas Multivariadas Clásicas
4
Problema de Investigación
5
Técnicas Multivariadas de
Interdependencia
Análisis de Componentes Principales
Análisis Factorial
Análisis de Correspondencia Simple
Análisis de Correspondencia Múltiple
Análisis Cluster
6
Análisis de Componentes Principales-
Análisis Factorial
Son TM que se usan cuando las variables han
sido medidas en escalas métricas (intervalo o
de razón)
Las variables están altamente correlacionadas
Se busca formar grupos de variables
(componentes, factores) que estén altamente
correlacionadas dentro de cada grupo, pero no
correlacionados entre los grupos
7
V1 V2 V3 V4 V5 V6 V7 V8 V9
V3. Polí
Política de retorno 0.302 0.771 1.000
V7. Anchura de surtido 0.354 0.490 0.471 0.719 0.378 0.724 1.000
V8. Servicio dentro del establecimiento 0.242 0.719 0.733 0.428 0.240 0.311 0.435 1.000
V9. Ambiente dentro del establecimiento 0.372 0.737 0.774 0.479 0.326 0.429 0.466 0.710 1.00
8
V3 V8 V9 V2 V6 V7 V4 V1 V5
V3. Polí
Política de retorno 1.000
V4. Disponibilidad del producto 0.427 0.428 0.479 0.497 0.713 0.719 1.000
V1. Nivel de precios 0.302 0.242 0.372 0.427 0.281 0.354 0.470 1.000
V5. Calidad de producto 0.307 0.240 0.326 0.406 0.325 0.378 0.472 0.765 1.00
9
Análisis de Componentes Principales
10
El Modelo de Análisis Factorial
X 1 − µ 1 = l 11 F1 + l 12 F2 + ...... + l 1m Fm + ε 1
X 2 − µ 2 = l 21 F1 + l 22 F2 + ...... + l 2 m Fm + ε 2
X p − µ p = l p1 F1 + l p 2 F2 + ...... + l pm Fm + ε p
11
Varianza Total
Común Específica
Comunalidad Especificidad
Observaciones
13
Utilidad
Deportivo Economicidad
14
Ejemplo (Pedret, 2000)
En una encuesta realizada a una muestra de
estudiantes, se les pidió que valoraran, en una
escala del 1 a 6
(1=nada deseable, 6=totalmente deseable)
cuán deseables eran 20 características referentes
al comportamiento de sus profesores.
15
Tratan a todos los alumnos aproximadamente
V1 V11 Parecen seguros de sí mismos
igual
V3 Próximos, cercanos a los alumnos V13 Encaran el lado bueno de las cosas
V8 Vestidos con gusto, limpios y aseados V18 Saben apreciar los esfuerzos del alumno
V10 Tranquilos, control de sí mismos V20 Saben controlar situación sin nerviosismo
16
Resultados
Se consideró adecuado seleccionar 2 factores
que resumen el 80,3% de la información inicial.
Factor 1. Buen profesor
Factor 2. Buena persona
17
Alternativa al ACP y al AF
18
Estrategia Imagen
Indicadores: Indicadores:
- Velocidad de entrega - Imagen del fabricante
- Nivel de precios - Imagen de la fuerza de ventas
- Flexibilidad
- Calidad del producto
19
20
Análisis de Correspondencia Simple
Variable 2
A B C D E
Variable 1
1
2 Tabla de
3
4
contingencia
1 D
A
2 B
C 4
3 E
21
Características
22
Tabla de Datos
Atributo
Marca
Sabor Precio Presentación Publicidad Calidad Total
Cristal
32 5 14 49 23 123
Pilsen
22 28 25 31 17 123
Cusqueña
51 4 24 10 34 123
Brahma
9 61 12 33 8 123
Barena
15 29 34 40 5 123
Dorada
10 91 11 11 0 123
Total 139 218 120 174 87 738
23
CALIDAD
SABOR PRECIO
PRESENTACION
PUBLICIDAD
24
Usos actuales
Tablas de contingencia que agrupen a los
individuos en ciertas categorías.
Tablas de frecuencias.
Tablas de valoración con puntuaciones como
medias, sumas, índices, etc.
Tablas de 0 y 1 con preferencias por ciertas
marcas.
Tablas con otras medidas de correspondencias
entre filas y columnas.
Tablas múltiples con marcas atributos, estilos
de vida, etc.
25
Consideraciones al ACS (Pedret, 2000)
26
Adultos NSE A/B Auto Total
Marca 1 25 35 10 70
Marca 2 30 30 5 65
Marca 3 35 20 15 70
Marca 4 40 15 20 75
Marca 5 25 10 15 50
Mapas de Vectores
Vectores largos indican cualidades o
propiedades que hacen que los
productos/marcas sean distintos.
Vectores pequeños informan sobre
características que no se distinguen entre
los productos/marcas
28
¿Cuál o cuales de las siguientes
marcas/productos le parecen a Ud. que…
a) Son de calidad
b) Valen lo que cuesta
c) Son de prestigio
29
Califique en una escala de 1=Pésimo a
5=Excelente a cada marca por cada
atributo
Resultados en promedios/medias
Mapas denominados MD-PREF
30
Mapas Discriminantes
APM (Adaptative Perceptual
Mapping)
Usa los datos individuales a
diferencia de MD-Pref y BI-PLOT que
usan datos acumulados.
La función con que se calcula se basa
en el análisis discriminante lineal
31
¿Por favor, dígame Ud. en una escala del 1 al 5
que tan ………..…. considera que es ……….…… para
ser presidente del Perú en el 2011?
Experimen
tado en
Aceptable
Cercano al cargos
Candidato Honesto Trabajador Preparado su propuesta Capaz
pueblo públicos
de gobierno
y/o
privados
A
B
C
D
E
32
33
Mapas Compuestos
Composite Product Mapping (CPM)
Elimina o minimiza las dimensiones y
atributos que no son preferidos por
el mercado.
Permite ajustar según las
participaciones en ventas de los
productos/marcas
34
35
36
37
38
Características
39
En un AC Jerárquico, los resultados
variarán dependiendo:
Medida de distancia usada.
La estandarización o no de los datos.
Algoritmo de agrupación o de
vinculación entre los individuos.
40
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
14 òûòø
16 ò÷ ùòø
4 òòò÷ ùòòòòòø
19 òòòòò÷ ùòòòòòòòòòòòø
10 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòø
18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
2 òûòòòòòòòø ùòòòòòòòø
13 ò÷ ó ó ó
5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
11 ò÷ ùòòòø ó ó
9 òòò÷ ùò÷ ó
20 òòòòòòò÷ ó
3 òûòòòòòòòòòø ó
8 ò÷ ó ó
6 òø ùòø ó
7 òôòòòø ó ó ó
12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷
Historial de Aglomeración
Debe detenerse el proceso de fusión
cuando los grupos que se han de unir están
a una distancia significativamente mayor de
los que previamente se han fusionado.
Otros Indicadores
Raíz cuadrada de la media de las
desviaciones típicas del nuevo
conglomerado (RMSSTD)
R2 semiparcial (SPR)
R cuadrado (RS)
Distancia entre los conglomerados (DC)
42
Procedimiento del AC Jerárquico
43
Observaciones
44
Técnica Alternativa al Análisis Cluster
45
Técnicas Multivariadas de Dependencia
46
Análisis Discriminante
El AD se utiliza para clasificar a distintos
individuos en grupos o poblaciones, alternativos a
partir de los valores de un conjunto de variables
sobre los individuos a los que se pretende
clasificar.
49
Principales Técnicas Discriminantes
AD Lineal de Fisher
AD Cuadrático
Regresión Logística
Redes Neuronales Supervisadas
AD usando el método de los k-vecinos más
cercanos
AD usando estimación de densidad por kernels
AD Flexible
AD Penalizado
AD usando mezclas gaussianas
AD usando algoritmos genéticos
AD usando árboles de clasificación: CHAID, QUEST,
CART, etc.
Análisis Discriminante Lineal
Function
1
Educacion en años ,409
Edad en años ,069
Horas de TV por día ,339
(Constant) -9,040
Unstandardized coefficients
52
Classification Function Coefficients
Decision de
suscripcion
No Si
Educacion en años 4.342 5.018
Edad en años .403 .517
Horas de TV por día 2.949 3.510
(Constant) -36.509 -50.788
Fisher's linear discriminant functions
55
Classification Resultsb,c
Predicted Group
Membership
Decision de suscripcion No Si Total
Original Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
Cross-validateda Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 80,1% of original grouped cases correctly classified.
c. 80,1% of cross-validated grouped cases correctly classified.
56
Observaciones
57
Ejemplo. Suscripción a una
revista de cine
Variable Descripción
Predicted Group
Membership
Decision de suscripcion No Si Total
Original Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
Cross-validateda Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 59
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
Regresión Logística
Variables in the Equation
Predicted
Decision de
suscripcion Percentage
Observed No Si Correct
Step 1 Decision de No 72 41 63,7
suscripcion Si 21 308 93,6
Overall Percentage 86,0
a. The cut value is ,500
60
Árbol de
Clasificación
Independent Variable Importance
Normalized
Independent Variable Importance Importance
Educacion en años ,129 100,0%
Edad en años ,086 66,5%
Horas de TV por día ,080 61,6%
Numero de hijos ,004 3,3%
Número de
,002 1,6%
organizaciones
Growing Method: CRT
Dependent Variable: Decision de suscripcion
Classification
Predicted
Percent
Observed No Si Correct
No 93 20 82,3%
Si 2 327 99,4%
Overall Percentage 21,5% 78,5% 95,0%
Growing Method: CRT
Dependent Variable: Decision de suscripcion
62
194/329=59%
107/329=33%
91%
93/113=82%
Recomendaciones
Bibliografía actualizada
Cursos electivos o de formación de pre-
grado.
Tesis de pre-grado
Grupos de estudio (estudiantes,
docentes)
Cursos de capacitación
Eventos académicos: congresos,
coloquios, simposios, etc.
64
Bibliografía
1. Hair, Joseph; Anderson, Rolph; Thatam, Ronald &
Black, William. Análisis Multivariante. Editorial
Prentice Hall. 1999. España.
2. Nadelsticher, Abraham. Mapas, mapitas y
mapotas. Revista AMAI. México.
3. Pedret, Ramón & otros. “Herramientas para
segmentar mercados y posicionar productos:
análisis de información cuantitativa en
investigación comercial”. Ediciones Deusto. 2000.
España.
4. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
Multivariante Aplicado. Aplicaciones al
marketing, investigación de mercados,
economía, dirección de empresas y turismo”.
Editorial Thomson. 2005. España. 65