Usos, Abusos y Alternativas A Las Técnicas Multivariadas Clasicas-Mg Jesus Salinas

Universidad Nacional “Pedro Ruiz Gallo”
XI Congreso Nacional de Estudiantes de Estadística
Usos, abusos y
alternativas a las
Técnicas Multivariadas
Clásicas
Mg. Jesús Salinas Flores
jsalinas@lamolina.edu.pe http://tarwi.lamolina.edu.pe/~jsalinas
Cursos pre-grado de Análisis Multivariado
Análisis Multivariado (I, II)

Técnicas Multivariadas (I, II)
Inferencia Multivariada (I, II)
Técnicas Multivariadas Avanzadas (I, II)
Tópicos especiales en Estadística (I, II)
2
Técnicas Multivariadas Clásicas
Análisis de Componentes Principales

Análisis de Factores, Análisis Factorial
Análisis de Correspondencia
Análisis Cluster
Análisis Discriminante Lineal
Análisis de Correlación Canónica
Escalamiento Multidimensional
Análisis Multivariado de Variancia
Regresión Logística
Análisis Conjunto
3
Características principales
Son técnicas exploratorias

Están restringidas por la escala en que ha
sido medido cada variable.
Resuelven problemas muy específicos
4
Problema de Investigación
Se adecua el problema de investigación a

la técnica multivariada más apropiada.
Se logra aplicar la técnica multivariada
No se logra resolver el problema.
5
Técnicas Multivariadas de
Interdependencia
Análisis Factorial
Análisis de Correspondencia Simple
Análisis de Correspondencia Múltiple
Análisis Cluster
6
Análisis de Componentes Principales-
Análisis Factorial
Son TM que se usan cuando las variables han
sido medidas en escalas métricas (intervalo o
de razón)
Las variables están altamente correlacionadas
Se busca formar grupos de variables
(componentes, factores) que estén altamente
correlacionadas dentro de cada grupo, pero no
correlacionados entre los grupos
7
V1 V2 V3 V4 V5 V6 V7 V8 V9
V1. Nivel de precios 1.000
V2. Personal de establecimiento 0.427 1.000
V3. Polí
Política de retorno 0.302 0.771 1.000
V4. Disponibilidad del producto 0.470 0.497 0.427 1.000
V5. Calidad de producto 0.765 0.406 0.307 0.472 1.000
V6. Profundidad de surtido 0.281 0.445 0.423 0.713 0.325 1.000
V7. Anchura de surtido 0.354 0.490 0.471 0.719 0.378 0.724 1.000
V8. Servicio dentro del establecimiento 0.242 0.719 0.733 0.428 0.240 0.311 0.435 1.000
V9. Ambiente dentro del establecimiento 0.372 0.737 0.774 0.479 0.326 0.429 0.466 0.710 1.00
8
V3 V8 V9 V2 V6 V7 V4 V1 V5
V3. Polí
Política de retorno 1.000
V8. Servicio dentro del establecimiento 0.733 1.000
V9. Ambiente dentro del establecimiento 0.774 0.710 1.000
V2. Personal de establecimiento 0.741 0.719 0.787 1.000
V6. Profundidad de surtido 0.423 0.311 0.429 0.445 1.000
V7. Anchura de surtido 0.471 0.435 0.468 0.490 0.724 1.000
V4. Disponibilidad del producto 0.427 0.428 0.479 0.497 0.713 0.719 1.000
V1. Nivel de precios 0.302 0.242 0.372 0.427 0.281 0.354 0.470 1.000
V5. Calidad de producto 0.307 0.240 0.326 0.406 0.325 0.378 0.472 0.765 1.00
9
Y1 = l11 X1 + ...........+ l1p Xp
Y2 = l21 X1 + ...........+ l2p Xp

.
.
.
Yp = lp1 X1 + ...........+ lpp Xp
10
El Modelo de Análisis Factorial
X 1 − µ 1 = l 11 F1 + l 12 F2 + ...... + l 1m Fm + ε 1
X 2 − µ 2 = l 21 F1 + l 22 F2 + ...... + l 2 m Fm + ε 2
X p − µ p = l p1 F1 + l p 2 F2 + ...... + l pm Fm + ε p
11
Varianza Total
Común Específica
Comunalidad Especificidad
Observaciones
En la escuela francesa al ACP le denominan AF.

¿Realizar un AF con el método de componentes
principales es similar a realizar un ACP?.
Se busca reducir la dimensionalidad, pero eso
no implica eliminar variables ni individuos.
Se busca tener el menor número de factores o
componentes que expliquen a todas las
variables en estudio.
13
Utilidad
Deportivo Economicidad
14
Ejemplo (Pedret, 2000)
En una encuesta realizada a una muestra de
estudiantes, se les pidió que valoraran, en una
escala del 1 a 6
(1=nada deseable, 6=totalmente deseable)
cuán deseables eran 20 características referentes
al comportamiento de sus profesores.
15
Tratan a todos los alumnos aproximadamente
V1 V11 Parecen seguros de sí mismos
igual
V2 Incitan a que los alumnos pregunten V12 Ordenados en sus explicaciones
V3 Próximos, cercanos a los alumnos V13 Encaran el lado bueno de las cosas
Muestran interés por los problemas de los

V4 V14 Desarrollan asignatura con sentido crítico
alumnos
V5 Poseen un carácter agradable V15 Respuestas ingeniosas y completas
V6 Explicaciones provocan un gran interés V16 Explicaciones adaptadas a la realidad
Utilizan métodos propios para facilitar

V7 V17 Son tolerantes con el error de los alumnos
instrucción
V8 Vestidos con gusto, limpios y aseados V18 Saben apreciar los esfuerzos del alumno
V9 Son puntuales V19 Buena dicción, plenamente audibles
V10 Tranquilos, control de sí mismos V20 Saben controlar situación sin nerviosismo
16
Resultados
Se consideró adecuado seleccionar 2 factores
que resumen el 80,3% de la información inicial.
Factor 1. Buen profesor
Factor 2. Buena persona
17
Alternativa al ACP y al AF
Con ambos métodos los componentes o

factores están no correlacionados
Modelos de Ecuaciones Estructurales
(SEM)
Examina simultáneamente una serie de
relaciones de dependencia.
Software: LISREL, AMOS
18
Estrategia Imagen
Indicadores: Indicadores:
- Velocidad de entrega - Imagen del fabricante
- Nivel de precios - Imagen de la fuerza de ventas
- Flexibilidad
- Calidad del producto
19
20
Análisis de Correspondencia Simple
Variable 2
A B C D E
Variable 1
1
2 Tabla de
3
4
contingencia
1 D
A
2 B
C 4
3 E
21
Características
Forma de representación gráfica de las

tablas de contingencia.
Es el siguiente paso en una prueba Chi-
cuadrado de independencia.
22
Tabla de Datos
Atributo
Marca
Sabor Precio Presentación Publicidad Calidad Total
Cristal
32 5 14 49 23 123
Pilsen
22 28 25 31 17 123
Cusqueña
51 4 24 10 34 123
Brahma
9 61 12 33 8 123
Barena
15 29 34 40 5 123
Dorada
10 91 11 11 0 123
Total 139 218 120 174 87 738
23
CALIDAD
SABOR PRECIO
PRESENTACION
PUBLICIDAD
24
Usos actuales
Tablas de contingencia que agrupen a los
individuos en ciertas categorías.
Tablas de frecuencias.
Tablas de valoración con puntuaciones como
medias, sumas, índices, etc.
Tablas de 0 y 1 con preferencias por ciertas
marcas.
Tablas con otras medidas de correspondencias
entre filas y columnas.
Tablas múltiples con marcas atributos, estilos
de vida, etc.
25
Consideraciones al ACS (Pedret, 2000)
El método se aplica a matrices de valores

absolutos (obtenidas por simple conteo).
Es necesario que los márgenes de filas y
columnas tengan un sentido; es decir, la suma
de cada fila y columna debe poderse
interpretar.
De no cumplirse, el análisis puede realizarse,
pero se corre el riesgo de que los resultados
que se obtengan no reflejen la estructura del
fenómeno que se está analizando, sino que más
bien estén reflejando el método que hayamos
utilizado para recoger los datos
26
Adultos NSE A/B Auto Total
Marca 1 25 35 10 70
Marca 2 30 30 5 65
Marca 3 35 20 15 70
Marca 4 40 15 20 75
Marca 5 25 10 15 50
Total 155 110 65 330
Atributos Marca 1 Marca 2 Marca 3 Marca 4 Total

Atributo A 14 38 25 18 95
Atributo B 14 28 25 25 92
Atributo C 42 22 11 13 88
Atributo D 10 10 32 26 78
Atributo E 6 33 5 27 71
Atributo F 54 33 8 2 97
Atributo G 24 21 16 34 95
Atributo H 24 3 20 3 50
Atributo I 5 3 3 31 42
Total 193 191 145 179 708
Técnicas Alternativas al AC
Mapas de Vectores
Vectores largos indican cualidades o
propiedades que hacen que los
productos/marcas sean distintos.
Vectores pequeños informan sobre
características que no se distinguen entre
los productos/marcas
28
¿Cuál o cuales de las siguientes
marcas/productos le parecen a Ud. que…
a) Son de calidad
b) Valen lo que cuesta
c) Son de prestigio
Resultados en frecuencias o porcentajes

Mapas denominados BI-PLOT
29
Califique en una escala de 1=Pésimo a
5=Excelente a cada marca por cada
atributo
Resultados en promedios/medias
Mapas denominados MD-PREF
30
Mapas Discriminantes
APM (Adaptative Perceptual
Mapping)
Usa los datos individuales a
diferencia de MD-Pref y BI-PLOT que
usan datos acumulados.
La función con que se calcula se basa
en el análisis discriminante lineal
31
¿Por favor, dígame Ud. en una escala del 1 al 5
que tan ………..…. considera que es ……….…… para
ser presidente del Perú en el 2011?
Experimen
tado en
Aceptable
Cercano al cargos
Candidato Honesto Trabajador Preparado su propuesta Capaz
pueblo públicos
de gobierno
y/o
privados
A
B
C
D
E
32
33
Mapas Compuestos
Composite Product Mapping (CPM)
Elimina o minimiza las dimensiones y
atributos que no son preferidos por
el mercado.
Permite ajustar según las
participaciones en ventas de los
productos/marcas
34
35
36
37
38
Características
Se trabaja con el AC Jerárquico

Aglomerativo y el AC No Jerárquico (k-
means)
Se usa cuando las variables han sido
medidas en escalas métricas (intervalo o
de razón)
39
En un AC Jerárquico, los resultados
variarán dependiendo:
Medida de distancia usada.
La estandarización o no de los datos.
Algoritmo de agrupación o de
vinculación entre los individuos.
40
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
14 òûòø
16 ò÷ ùòø
4 òòò÷ ùòòòòòø
19 òòòòò÷ ùòòòòòòòòòòòø
10 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòø
18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
2 òûòòòòòòòø ùòòòòòòòø
13 ò÷ ó ó ó
5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
11 ò÷ ùòòòø ó ó
9 òòò÷ ùò÷ ó
20 òòòòòòò÷ ó
3 òûòòòòòòòòòø ó
8 ò÷ ó ó
6 òø ùòø ó
7 òôòòòø ó ó ó
12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷
Historial de Aglomeración
Debe detenerse el proceso de fusión
cuando los grupos que se han de unir están
a una distancia significativamente mayor de
los que previamente se han fusionado.
Otros Indicadores
Raíz cuadrada de la media de las
desviaciones típicas del nuevo
conglomerado (RMSSTD)
R2 semiparcial (SPR)
R cuadrado (RS)
Distancia entre los conglomerados (DC)
42
Procedimiento del AC Jerárquico
43
Observaciones
No se llega a caracterizar a los clusters

en función a las variables empleadas.
Las variables cualitativas (no usadas en el
análisis cluster) como el sexo, la edad,
nivel de estudios, nivel socioeconómico
son usadas como variables pasivas para
explicar la conformación de los clusters.
Se usa el AC Jerárquico como Análisis
Exploratorio y al AC No Jerárquico (k-
means) como Análisis Confirmatorio.
44
Técnica Alternativa al Análisis Cluster
El Análisis Cluster Bietápico

Selecciona automáticamente el número
más apropiado de clusters y medidas para
la selección de los distintos modelos del
cluster.
Posibilidad de crear modelos de clusters
basados al mismo tiempo en variables
categóricas y cuantitativas.
45
Técnicas Multivariadas de Dependencia
Análisis de Regresión Múltiple

Análisis de Discriminante Lineal
Análisis de Regresión Logística
Análisis Conjunto
46
Análisis Discriminante
El AD se utiliza para clasificar a distintos
individuos en grupos o poblaciones, alternativos a
partir de los valores de un conjunto de variables
sobre los individuos a los que se pretende
clasificar.
Modelo: Y = f(X1, X2,…, Xp)
La variable dependiente Y (categórica) se

denomina VARIABLE CRITERIO y las variables
X1, X2,…, Xp (independientes) se denominan
VARIABLES PREDICTORAS o clasificadoras y
pueden ser cuantitativas y/o cualitativas 47
Ejemplo. Rendimiento Académico
Variable criterio: rendimiento del alumno en un

semestre académico (bajo, regular, alto)
Variables predictoras: número de cursos
matriculados, promedio semestral anterior,
promedio semestral acumulado, número de
créditos aprobados, carrera, turno, sexo,
procedencia de colegio, NSE.
El objetivo es descubrir las características que
diferencian a un estudiante universitario con
rendimiento regular de uno con rendimiento bajo
o con rendimiento alto.
48
Finalidad del AD
Explicativos. Se trata de determinar la
contribución de cada variable predictora a la
clasificación correcta de cada uno de los
individuos.
Predictivos. Se trata de determinar el grupo al
que pertenece un individuo para el que se
conocen los valores que toman las variables
predictoras.
49
Principales Técnicas Discriminantes
AD Lineal de Fisher
AD Cuadrático
Redes Neuronales Supervisadas
AD usando el método de los k-vecinos más
cercanos
AD usando estimación de densidad por kernels
AD Flexible
AD Penalizado
AD usando mezclas gaussianas
AD usando algoritmos genéticos
AD usando árboles de clasificación: CHAID, QUEST,
CART, etc.
Análisis Discriminante Lineal
Se usa cuando las variables han sido

medidas en escalas métricas (intervalo o
de razón)
Varios supuestos
Matriz de variancia-covariancia
intragrupos debe ser la misma
Cada uno de los grupos debe ser una
muestra procedente de una población
normal multivariada
No debe existir multicolinealidad entre
las variables independientes.
51
Canonical Discriminant Function Coefficients
Function
1
Educacion en años ,409
Edad en años ,069
Horas de TV por día ,339
(Constant) -9,040
Unstandardized coefficients
Función Discriminante Canónica

Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas
52
Classification Function Coefficients
Decision de
suscripcion
No Si
Educacion en años 4.342 5.018
Edad en años .403 .517
Horas de TV por día 2.949 3.510
(Constant) -36.509 -50.788
Fisher's linear discriminant functions
Función Discriminante Lineal de Fisher

Z i = −14.279 + 0.676 Educacion + 0.114 Edad + 0.561Horas
53
Estimación de la tasa de clasificación
errada
Estimación por resubstitución
Usar la misma muestra con que se explicó el
modelo para predecir.
Estimación por validación cruzada
En este caso se divide al azar la muestra en v
partes ( v=10 es lo más usado) y se halla el
clasificador usando todas menos una de las
partes. Luego se clasifica las observaciones que
se dejaron de lado, el promedio de las
clasificaciones erradas dará el estimador por
validación cruzada.
54
Observaciones
Se busca obtener el mayor porcentaje de

clasificación correcta general.
Se debe buscar el mayor % de
clasificación correcta para cada una de
las clases de la variable dependiente.
55
Classification Resultsb,c
Predicted Group
Membership
Decision de suscripcion No Si Total
Original Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
Cross-validateda Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 80,1% of original grouped cases correctly classified.
c. 80,1% of cross-validated grouped cases correctly classified.
56
Observaciones
Se compara las técnicas, eligiendo

aquella que me de las más altas tasas de
clasificación correcta en cada una de las
categorías de la v. dependiente. (FINES
PREDICTIVOS)
Se busca encontrar el patrón. (FINES
EXPLICATIVOS)
57
Ejemplo. Suscripción a una
revista de cine
Variable Descripción
Educación Educación en años
Edad Edad en años
Tvdiario Horas de TV al día durante los fines

de semana
Organizaciones Número de clubes al que pertenece
Hijos Número de hijos
Suscripción Decisión de suscribirse

Análisis Discriminante Lineal Canónico
Decision de suscripcion Total
No Si
Promedio Promedio Promedio
Educacion en años 12,35 13,73 13,38
Edad en años 30,51 43,51 40,19
Horas de TV por día 1,95 2,51 2,36
Número de organizaciones 1,42 1,56 1,52
Numero de hijos 1,35 1,80 1,68
Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas

0
Menos edad No Más edad
Si
Menos educación Más educación
Menos horas TV Más horas TV
Classification Resultsb,c
Predicted Group
Membership
Decision de suscripcion No Si Total
Original Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 100,0
Cross-validateda Count No 93 20 113
Si 68 261 329
% No 82,3 17,7 100,0
Si 20,7 79,3 59
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
Variables in the Equation
B S.E. Wald df Sig. Exp(B)

Step
a
Educacion ,739 ,092 64,586 1 ,000 2,095
1 Edad ,150 ,018 73,166 1 ,000 1,161
Tvdiario ,832 ,144 33,221 1 ,000 2,297
Constant -15,793 1,729 83,393 1 ,000 ,000
a. Variable(s) entered on step 1: Educacion, Edad, Tvdiario.
βˆ0 + βˆ1 x1i + βˆ2 x2 i +...+ βˆn xni

e
pˆ i = βˆ0 + βˆ1 x1i + βˆ2 x2 i +...+ βˆn xni
1+ e
Classification Tablea
Predicted
Decision de
suscripcion Percentage
Observed No Si Correct
Step 1 Decision de No 72 41 63,7
suscripcion Si 21 308 93,6
Overall Percentage 86,0
a. The cut value is ,500
60
Árbol de
Clasificación
Independent Variable Importance
Normalized
Independent Variable Importance Importance
Educacion en años ,129 100,0%
Edad en años ,086 66,5%
Horas de TV por día ,080 61,6%
Numero de hijos ,004 3,3%
Número de
,002 1,6%
organizaciones
Growing Method: CRT
Dependent Variable: Decision de suscripcion
Classification
Predicted
Percent
Observed No Si Correct
No 93 20 82,3%
Si 2 327 99,4%
Overall Percentage 21,5% 78,5% 95,0%
Growing Method: CRT
Dependent Variable: Decision de suscripcion
62
194/329=59%
107/329=33%
91%
93/113=82%
Recomendaciones
Bibliografía actualizada
Cursos electivos o de formación de pre-
grado.
Tesis de pre-grado
Grupos de estudio (estudiantes,
docentes)
Cursos de capacitación
Eventos académicos: congresos,
coloquios, simposios, etc.
64
Bibliografía
1. Hair, Joseph; Anderson, Rolph; Thatam, Ronald &
Black, William. Análisis Multivariante. Editorial
Prentice Hall. 1999. España.
2. Nadelsticher, Abraham. Mapas, mapitas y
mapotas. Revista AMAI. México.
3. Pedret, Ramón & otros. “Herramientas para
segmentar mercados y posicionar productos:
análisis de información cuantitativa en
investigación comercial”. Ediciones Deusto. 2000.
España.
4. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
Multivariante Aplicado. Aplicaciones al
marketing, investigación de mercados,
economía, dirección de empresas y turismo”.
Editorial Thomson. 2005. España. 65

Usos, Abusos y Alternativas A Las Técnicas Multivariadas Clasicas-Mg Jesus Salinas

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Usos, Abusos y Alternativas A Las Técnicas Multivariadas Clasicas-Mg Jesus Salinas

Încărcat de

Drepturi de autor:

Formate disponibile

Universidad Nacional “Pedro Ruiz Gallo”

XI Congreso Nacional de Estudiantes de Estadística

Análisis Multivariado (I, II)

Análisis de Componentes Principales

Son técnicas exploratorias

Se adecua el problema de investigación a

V1. Nivel de precios 1.000

V2. Personal de establecimiento 0.427 1.000

V4. Disponibilidad del producto 0.470 0.497 0.427 1.000

V5. Calidad de producto 0.765 0.406 0.307 0.472 1.000

V6. Profundidad de surtido 0.281 0.445 0.423 0.713 0.325 1.000

V8. Servicio dentro del establecimiento 0.733 1.000

V9. Ambiente dentro del establecimiento 0.774 0.710 1.000

V2. Personal de establecimiento 0.741 0.719 0.787 1.000

V6. Profundidad de surtido 0.423 0.311 0.429 0.445 1.000

V7. Anchura de surtido 0.471 0.435 0.468 0.490 0.724 1.000

Y1 = l11 X1 + ...........+ l1p Xp

Y2 = l21 X1 + ...........+ l2p Xp

En la escuela francesa al ACP le denominan AF.

V2 Incitan a que los alumnos pregunten V12 Ordenados en sus explicaciones

Muestran interés por los problemas de los

V5 Poseen un carácter agradable V15 Respuestas ingeniosas y completas

V6 Explicaciones provocan un gran interés V16 Explicaciones adaptadas a la realidad

Utilizan métodos propios para facilitar

V9 Son puntuales V19 Buena dicción, plenamente audibles

Con ambos métodos los componentes o

Forma de representación gráfica de las

El método se aplica a matrices de valores

Total 155 110 65 330

Atributos Marca 1 Marca 2 Marca 3 Marca 4 Total

Resultados en frecuencias o porcentajes

Se trabaja con el AC Jerárquico

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

No se llega a caracterizar a los clusters

El Análisis Cluster Bietápico

Análisis de Regresión Múltiple

Modelo: Y = f(X1, X2,…, Xp)

La variable dependiente Y (categórica) se

Variable criterio: rendimiento del alumno en un

Se usa cuando las variables han sido

Función Discriminante Canónica

Función Discriminante Lineal de Fisher

Se busca obtener el mayor porcentaje de

Se compara las técnicas, eligiendo

Educación Educación en años

Edad Edad en años

Tvdiario Horas de TV al día durante los fines

Hijos Número de hijos

Suscripción Decisión de suscribirse

Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas

B S.E. Wald df Sig. Exp(B)

βˆ0 + βˆ1 x1i + βˆ2 x2 i +...+ βˆn xni

S-ar putea să vă placă și