Análisis Multivariable

ANÁLISIS Y MODELACIÓN DE DATOS MULTIVARIADOS
PROFESOR:
RENE MALUENDA MOYA

UNIVERSIDAD DE ANTOFAGASTA
CHILE
rene.maluenda@uantof.cl
I Congreso Latinoamericano de Matemática - COLAMAT 2018

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN (UNJBG)
6 – 7 DICIEMBRE 2018
1
ANÁLISIS Y MODELACIÓN DE DATOS MULTIVARIADOS
INTRODUCCIÓN:
 El análisis de datos incluye un conjunto de métodos y técnicas univariantes y multivariantes

que permite estudiar y tratar en bloque una o varias variables medidas u observadas en una
colección de unidades de análisis o individuos.
 Existe la posibilidad de que estas variables sean sólo cuantitativas, solo cualitativas o de ambos
tipos.
 Un tratamiento tan completo, unido a la diversidad de enfoques teóricos y prácticos que puede
darse a un estudio y multidimensional, explica la dificultad matemática de un proceso que, por
fuerza, ha de apoyarse en el cálculo matricial y en otros métodos matemáticos más avanzados.
 El punto anterior es una de las importantes razones por la cual hasta época muy reciente, no ha
comenzado a difundirse su aplicación con la fuerza necesaria para que la investigación
científica se beneficie del empleo de técnicas tan avanzadas.
 Ha sido necesario un espectacular desarrollo del proceso de captura automática de datos (Big
Data, Data Mine, etc.), para asistir a una generalización del uso de los métodos de análisis
multivariante de datos a través de potentes programas computacionales (Statgraphics, Minitab,
SPSS, Estatistics, etc., etc.) que tienen gran capacidad de almacenamiento y manejo de datos,
alta velocidad de procesamiento, relativa facilidad de utilización por grupo de investigadores
que no necesariamente deben ser expertos matemáticos, estadísticos o informáticos.
 A inicios de este siglo, debido en gran parte a la disponibilidad de potentes computadoras

personales, se ha podido constatar un notable incremento en la aparición de artículos que
utilizan técnicas de análisis multivariantes de datos en las principales revistas científicas de
diversas disciplinas: Medicina. Bilogía, Medio Ambiente, Investigación de Mercados, Minería,
Geología, Epidemiologia, etc., etc. Disciplinas donde se deben analizar grandes bases de datos y
modelación del comportamiento de sus variables
2
CLASIFICACIÓN GLOBAL DE LAS TECNICAS DE ANALISIS MULTIVARIANTES DE DATOS
 METODOS MULTIVARIANTES EXPLICATIVOS
 METODOS MULTIVARIANTES DESCRIPTIVOS
3
METODOS EXPLICATIVOS: TECNICAS DEL ANALISIS DE LA DEPENDENCIA
La parte derecha del árbol de clasificación anterior se desarrolla suponiendo que existe una
dependencia entre las variables explicadas (dependiente) y sus correspondientes variables explicativas
(independientes), dando lugar a los denominados métodos explicativos.
Para clarificar este tipo de técnicas de Análisis de la Dependencia se presenta el siguiente cuadro, que
las clasifica en función de la naturaleza métrica o no-métrica de las variables independientes y
dependientes.
A continuación se explicarán algunas de estas metodologías de análisis de datos multivariantes
4
Se explicará en primer lugar la rama izquierda del siguiente diagrama, que es una parte del diagrama
general
Regresión Múltiple:
Metodología estadística utilizada para analizar la relación entre una variable dependiente (o endógena)
métrica (numérica continua) y varias variables independientes (o exógenas) también métricas.
El objetivo esencial del análisis de regresión múltiple es utilizar las variables independientes, cuyos
valores son conocidos para predecir la única variable dependiente seleccionada por el investigador.
La expresión funcional del análisis de regresión múltiple es
Y  F ( X1 , X 2 ,......., X p )  
Nota: Cuando se tiene sólo una variable independiente, tenemos el caso de la regresión simple
Y  F ( X1 )  
La regresión múltiple admite la posibilidad de trabajar con variables independientes no métricas

(Factores), cuando estas se transforman en variables cuantitativas ficticias denominadas “variables
dummy”
Ejemplos de variables no-métricas.
Género, Estado Civil, Turno, Estrato Socioeconómico, Grupo Etario, etc. , etc…
5
Análisis Canónico (Correlación Canónica)
Metodología estadística utilizada para analizar la relación entre múltiples variables dependientes (o
endógenas) métricas y varias variables independientes métricas (o exógenas).
El objetivo esencial del análisis de correlación canónica es utilizar las variables independientes, cuyos
valores son conocidos, para predecir las variables dependientes (variables criterio) seleccionadas por el
investigador
La expresión funcional del análisis de correlación canónica es
G(Y1 , Y2 ,.........., Yp )  F ( X1 , X 2 ,......., X p )  
El análisis de correlación canónica también puede extenderse al caso de variables dependientes no-
métricas y al caso de variables de variables independientes no-métricas
6
Se analizará la rama derecha del diagrama anterior
Análisis Discriminante
Metodología estadística utilizada para analizar la relación entre una variable dependiente (o endógena)
no-métrica (categórica) y varias variables independientes métricas.
El objetivo esencial del análisis del análisis discriminante es utilizar los valores conocidos de las
variables independientes para predecir con qué categoría de la variable dependiente se corresponden.
Así podemos predecir en qué categoría de riesgo crediticio se encuentra una persona, el éxito de un
producto en el mercado, la aprobación de un cierto semestre de una carrera a la cual ingresó un
estudiante, etc.
La expresión funcional del análisis discriminante es
Y  F ( X1 , X 2 ,......., X p )  
La variable dependiente Y es no-métrica y las variables independientes Xs son métricas.

Formalmente podríamos decir que el análisis discriminante es una técnica de clasificación que permite
agrupar a los elementos de una muestra en dos o más categorías diferentes, predefinidas en un variable
dependiente no-métrica, en función de una serie de variables independientes métricas combinadas
linealmente.
7
Modelos de elección discreta:
Los modelos de elección discreta tienen o son de la misma naturaleza que el modelo de Análisis
Discriminante.
La diferencia fundamental es que en los Modelos de elección discreta con los valores conocidos o
dados para las variables independientes se predice la probabilidad de pertenencia a una categoría o
clase de la variable dependiente. Por ejemplo la probabilidad de que una persona compre un producto
o devuelva un crédito según los valores de algunas variables independientes medidas en él.
Por lo tanto, los modelos de elección discreta predicen directamente la probabilidad de ocurrencia de
un suceso que viene definido por los valores de las variables independientes.
Como los valores de una probabilidad están entre cero y uno, las ´predicciones realizadas con los
modelos de elección discreta deben estar acotadas para que caigan en el rango entre cero y uno. El
modelo general que cumple esta condición se denomina modelo lineal de probabilidad, y tiene la
siguiente forma funcional:
Pi  F ( X i ,  )  i
Si F es la función de distribución de una variable aleatoria, entonces P varía entre cero y uno.
En el caso particular en que la función F es la función logística, tendremos el modelo logit, cuya
forma funcional es:
e Xi 
Pi  F ( X i ,  )  i =  i
1  e Xi 
En el caso particular en que la función F es la función de distribución normal unitaria, tendremos el
modelo probit, cuya forma funcional es:
X i t2
Pi  F ( X i ,  )  i  2  e

2
dt  i
8
METODOS DESCRIPTIVOS: TECNICAS DEL ANALISIS DE LA INTERDEPENDENCIA
En diagrama inicial, que muestra la clasificación global de las técnicas de análisis multivariantes,
discriminaba entre la existencia o no de variables explicativas (predictoras) y explicadas (respuesta).
La parte de la izquierda del árbol de clasificación global, se desarrolla suponiendo que no existe una
dependencia entre las variables predictoras y las variables respuesta, dando lugar a los denominados
métodos estadísticos descriptivos multivariantes.
Con la idea de clarificar un poco más este tipo de metodología de análisis de la interdependencia se
presenta el siguiente cuadro, que las clasifica en función de la naturaleza métrica o no-métrica de las
variables
Análisis en Componentes Principales

Es una técnica multivariante cuya finalidad es reducir la dimensión de una tabla de datos
excesivamente grande por el elevado número de variables que contiene: X1, X2, ………Xn .
La idea es quedarse con C1, C2, ………Cp combinación de las iniciales (Componentes Principales),
perfectamente calculables y que sinteticen la mayor parte de la información contenida en sus datos.
Inicialmente se tienen tantas componentes como variables
9
Sólo se retienen las “p” componentes (componentes principales) que explican un porcentaje alto de la
variabilidad de las variables iniciales.
En el análisis en componentes principales las variables tienen que ser cuantitativas. Las componentes
deben de ser suficientes para para resumir la mayor parte de la información contenida en las variables
originales.
Asimismo cada variable original podrá expresarse en función de las componentes principales, de modo
que la varianza de cada variable original se explica completamente por las componentes cuya
combinación lineal la determina
x1  r11C 1  r12C2  ...............  r1 pC p

.
rij  i aij
.
xn  rn1C1  rn 2C2  ................  rnpC p
Se demuestra que rij es el coeficiente de correlación entre la componente Ci y la variable Xj y se

calcula multiplicando el peso aij de la variable en esa componente por la raíz cuadrada de su valor
propio i (cada componente principal Ci se asocia con el valor propio i-ésimo (en magnitud) de la
matriz aij
Análisis Factorial
Es una técnica de Análisis Multivariado cuyo objetivo es reducir la dimensión de una tabla de datos
excesivamente grande por el elevado número de variables que contiene y quedarse con unas cuantas
variables ficticias que, aunque no observadas, sean combinación lineal de las variables reales
(observadas) y sinteticen la mayor parte de la información contenida en sus datos.
Las variables tienen que ser cuantitativas. La cantidad de factores deben ser suficientes para resumir la
mayor parte de la información contenida en las variables originales.
10
La diferencia entre el análisis en componentes principales y el análisis factorial radica en que:
 AF se trata de encontrar variables sintéticas latentes, inobservables y aún no medidas cuya

existencia se sospecha en las variables originales y que permanecen a la espera de ser halladas.
 ACP se obtienen variables sintéticas, combinación lineal de las originales y cuyo cálculo es
posible basándose en aspectos matemáticos independientes de su interpretabilidad práctica.
 En el ACP la varianza de cada variable original se explica completamente por las variables
cuya combinación lineal la determinan, sus componentes. Pero esto no ocurre en el AF
En el AF sólo una parte de la varianza de cada variable original se explica completamente por las
variables cuya combinación lineal la determinan (factores comunes F1, F2, ……..Fp).
La parte de la variabilidad de cada variable original explicada por los factores comunes se denomina
comunalidad. La parte de la variabilidad que no es explicada por los factores comunes se denomina
unicidad (comunalidad + unicidad = 1) y representa la variabilidad propia de fi de cada variable xi .
x1  r11 F1  r12 F2  ...........  r1 p Fp  f1

.
.
.
xn  rn1 F1  rn 2 F2  ...........  rnp Fp  f n
Cuando la comunalidad es unitaria (unicidad nula) el ACP coincide con el AF. Es decir, el ACP es un
caso particular del AF en el que los factores comunes explican el 100% de la varianza total.
11
Análisis de Conglomerados ( Cluster Analysis)
Es una metodología estadística multivariante de clasificación de datos, que a partir de una tabla
individuos-variables, trata de situar todos los casos en grupos homogéneos (conglomerados o clúster)
no conocidos de antemano, pero sugeridos por la propia esencia de los datos, de manera que individuos
que puedan ser considerados similares sean asignados a un mismo clúster, mientras que individuos
diferentes (disimiles) se sitúen en clúster distintos.
La creación de grupos basados en el concepto de similaridad de casos exige una definición de

similaridad o de su complemento (distancia entre individuos). Existen muchas formas de medir estas
distancias (Euclídea, Euclídea cuadrática, Mahalanobis, etc.) y diferentes reglas matemáticas para
asignar los individuos a distintos grupos, dependiendo del fenómeno estudiado y del conocimiento
previo de posible agrupamiento que se tenga.
El análisis de conglomerados suele comenzar estimando las similitudes entre los individuos (u objetos)
a través de correlación (distancia o asociación) de las distintas variables (métricas o no métricas) de que
se dispone. A continuación se establece un procedimiento que permite comparar los grupos en virtud
de las similitudes. Por último se decide cuántos grupos o conglomerados se construyen, teniendo en
cuenta que cuanto menor sea el número de grupos, menos homogéneos serán los elementos que
integran cada grupo. Se perseguirá formar el mínimo número de grupos lo más homogéneos posibles
dentro de sí y lo más heterogéneos posibles entre sí.
El análisis clúster (AC) se diferencia del AF en que en el AF los factores se constituyen agrupando
variables. Mientras que en el AC los conglomerados se constituyen agrupando individuos (objetos) o
también variables.
Al aplicar AF, en un factor determinado se incluyen variables que están relacionadas con él (positiva
o negativamente), pero en el AC las variables relacionadas positivamente forman parte de un
conglomerado distinto del de las variables relacionadas negativamente.
12
PRIMERO PASOS EN EL ANALISIS MULTIVARIANTE: ANALISIS EXPLORATORIO DE DATOS
Antes de aplicar cualquier técnica de análisis multivariante es preciso realizar un análisis previo a los
datos de que se dispone. Es necesario:
1.- Examinar las variables individuales y las relaciones entre ellas.

2.- Evaluar y solucionar problemas en el diseño de la investigación.
3.- Evaluar y solucionar problemas en la recogida de datos: Información faltante, presencia de datos
atípicos.
Análisis exploratorio y gráfico de los datos univariados

Para datos cuantitativos es aconsejable comenzar con la construcción de una tabla de distribución de
frecuencias, el gráfico de tallo y hojas o diagrama digital, el histograma, el polígono de distribución de
frecuencias, el polígono de distribución de frecuencias acumuladas, el gráfico de caja (boxplot), etc.
Para realizar el paso aconsejado en el párrafo anterior utilizaremos el archivo Automóviles (1) ,
procesándolo en Stagraphics XVI.1
Histograma de frecuencias:
Permite intuir la distribución de probabilidad de los datos, su normalidad estadística, su simetría y otras
propiedades interesantes en el análisis de datos.
Al parecer, tenemos una distribución trimodal
13
Diagrama de tallo y hojas.
Procedimiento semigráfico se para presentar la información para variables cuantitativas, creado por Tukey, que
es especialmente útil cuando la cantidad total de datos es pequeño (menor que 50)
Diagrama de Tallo y Hoja para Rend_mpg: unidad = 1,0 1|2 representa 12,0
El gráfico de caja y bigotes.

Permite analizar y resumir un conjunto de datos univariados detectando la presencia de valores anómalos o
atípicos, simetría en la distribución de los datos, vislumbrar un ajuste de los datos a una distribución de
frecuencia determinada.
14
Gráfico de simetría
Permite analizar visualmente el grado de simetría de una variable. Mientras más se aproxime el
conjunto de puntos a la diagonal principal, más simetría existirá en la distribución de los datos de la
variable.
Test estadísticos para detectar valores anómalos o atípicos: Caso univariante

En un contexto univariante, podemos utilizar herramientas de análisis exploratorio de datos. Por
ejemplo:
 Para una detección gráfica
 Gráfico de caja y bigotes (box plot)

 Gráfico de Cuantiles
 Diagrama o gráfico de control
 Utilizando test estadísticos

 Test de Dixon
 Test de Grubs
Para ejemplificar utilizaremos el archivo “Automóviles (1)”, y procesaremos la variable “precio”

Gráfico de caja y bigotes
15
Si en el gráfico original desplegado por Statgraphics, hacemos click sobre los puntos que están más
alejados de los bigotes, en la tercera barra de tareas nos indica en que fila de la base de datos se
encuentra este datos (y por supuesto al sujeto u observación al que pertenece)
Gráfico de Cuantiles
16
Diagrama o Gráfico de Control y test estadísticos
El siguiente procedimiento permite mostrar un diagnostico gráfico y también cuantitativo de la variable
de interés, en cuanto a la detección de valores atípicos
Este procedimiento es muy completo e incluye
17
Test de Dixon: Se aplica generalmente cuando la serie de datos es menor o igual que 10. Se debe de
ordenar los valores de la serie de menor a mayor. Es menos robusto que el test de Grubs. Se Calcula el
estadístico:
Q0 
x  x 
*
p
x  x 
*
l
*
Donde x es el valor sospechoso de ser atípico. xp es el valor más próximo x* . xl es el valor más
lejano a x*
Para tomar la decisión de si x* es un valor atípico, Q0 se debe comparar con un valor Qc que se toma
de la tabla de Dixon para “n” datos. Si la decisión de sebe tomar con un 95% de confianza se debe
ubicar en la columna que encabeza 0,05. Ver tabla de Dixon
Ejemplo:
Se dispone de la serie ordenada: 415 420 421 421 422 422 423. Se sospecha que el en el extremo
izquierdo se tiene un dato anómalo.
Q0 
 x  x    415  420  0, 625
*
p
 x  x   415  423
*
l
En la tabla de Dixon para n = 7 observaciones y para α = 0,05 se tiene el valor 0,569. Como el valor
de | Q0 | Qc , entonces decimos que 415 es un dato anómalo y debe ser analizado en cuanto a
considerarlo o no para la generación de medidas de resumen estadístico.
18
Detección bivariante de casos atípicos:
Cuando se trata de detectar casos atípicos en un contexto bivariante, pueden utilizarse herramientas del
Análisis Exploratoria de Datos (AED), tales como: Gráfico de caja y bigotes múltiples, Gráfico de
dispersión.
Gráfico de caja y bigotes múltiples

En diversos tipos de estudio o de investigación es muy frecuente dividir el conjunto de datos de una
variable en subgrupos racionales, que pueden ser por ejemplo estratos definidos según una determinada
estratificación (Factor). En el caso de la base de datos que se está utilizando, puede que el rendimiento
sea diferente según el origen de procedencia del automóvil. (Americano, europeo, japonés). Esto ya
quedó reflejado en el gráfico denominado “polígono de distribución de frecuencias” que presenta una
estructura trimodal.
Este gráfico permite analizar, resumir y comparar simultáneamente varios conjuntos de datos
univariados, correspondientes a los diferentes grupos en que se pueden subdividir los valores de una
variable. Permite estudiar la simetría de los datos, detectar valores atípicos, representar medianas,
medias, valores extremos para todos los grupos.
19
Gráfico de Dispersión
 La manera de mostrar gráficamente los datos observados en un gráfico es a través de un
diagrama de dispersión.
 Y, la respuesta, se marca en el eje vertical; la X, variable explicativa, en el eje horizontal. Cada
observación, es un punto del gráfico
El aspecto general del gráfico viene dado por la dirección, forma y fuerza del mismo:
 Dirección: positiva o negativa
 Forma: disposición de los puntos (rectilínea o curvilínea)
 Fuerza: cuanta más amorfa sea la disposición de los puntos en el gráfico, menor su relación
 Es interesante en esta primera identificación del aspecto del gráfico, identificar observaciones
atípicas (aquellas que se distinguen del aspecto general del gráfico)
 El diagrama de dispersión sólo muestra el aspecto general de la relación entre las dos variables.
 En situaciones no muy evidentes, un simple cambio de escala puede hacernos cambiar la forma
de pensar
20
Descripciones numéricas
 Se necesita una medida numérica que complemente al gráfico y que, independientemente de las
dimensiones de los valores de las variables, nos informe sobre la fuerza de la relación existente.
 Una medida es el Coeficiente de correlación lineal de Pearson
i n
 x  X  y Y 
i i
 rXY  i 1
DesEstX  DesEstY
 rxy utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor
aunque se cambiara de unidad de medida.
 rxy se ve afectada por las observaciones atípicas
 Una rxy positiva (negativa) indica una relación positiva (negativa) entre las variables.
 Valores de rxy cercanos al 0 indican una relación lineal muy débil.
 La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.
Ejemplo de situaciones reales:
Un valor de r distinto de 0 no implica relación lineal. Es necesario que sea “significativamente distinto de cero”
El coeficiente de correlación de Pearson sólo mide relación LINEAL
21
Descripción matemática de la forma del gráfico
 Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder
“resumir” el gráfico en forma de una ecuación matemática.
 En el caso de una forma lineal, a la recta que ajusta la nube de puntos se le llama recta de
regresión.
 Esta recta se calcula teniendo en cuenta dos cosas:
 Puesto que describe un cambio en la respuesta a medida que cambia la otra variable,
se necesita tener presente esta distinción a la hora de calcularla.
 Puesto que ninguna recta puede pasar exactamente por todos los puntos, se necesita
una manera de construirla que asegure su paso tan cerca de todos los puntos como sea
posible.
REGRESION SIMPLE, LINEAL

Modelo teórico para la población: y = β0 + β1x + ε donde ε ~ N (0, σ)
Modelo ajustado a partir de una muestra: yˆ  bo  b1 x
La pendiente de la recta, b1, representa la tasa de cambio, es decir, la cantidad en que cambia cuando x
aumenta en una unidad.
22
 Coeficiente de Determinación R2, representa el porcentaje de la variación de Y que se explica
por la regresión de Y sobre X y sirve de medida de bondad de la regresión para explicar la
respuesta.
 La parte de la variable Y que no es explicada por el modelo se llama residual.
 Una vez dibujada la recta de regresión, existe un valor residual para cada dato: ei  yi  yˆi
Análisis de los residuos

 La disposición de los residuos sirve para comprobar si la recta sirve para ajustar los datos.
 Dibujando sus valores en el eje de ordenadas frente a las predicciones deben presentar una
forma uniforme, centrada en el valor 0, a lo largo de toda la recta, sin que aparezca ningún
valor extraño.
23
Desarrollo de un ejemplo:
Los datos siguientes corresponden a la observación de 21 días de trabajo en una planta química para la
oxidación del amonio como una etapa en la producción del ácido nítrico
X1 =“flujo de aire”; Y =“pérdida acumulada, % del amonio que escapa sin ser absorbido”
El objetivo del estudio es el de ajustar un modelo de regresión simple a estos datos que explique
el comportamiento de la variable respuesta Y respecto a variable regresora X1”
Los datos están en la base de datos del presente cursillo Archivo Excel, hoja 3
Al aumentar el flujo del aire, aumenta el % de perdida acumulada del amonio. Correlación positiva
Es necesario analizar los otros contenidos de la pantalla Tablas y Gráficos que despliega Statgraphics para
obtener mejores conclusiones.
24
Análisis de los residuos del modelo
Que acción podemos tomar cuando el modelo utilizado deja residuos atíipicos?..... Eliminarlos
25
Consecuencias de la decisión
Mejora el coeficiente de correlación y el coeficiente de determinación R2. El error estándar del

estimador disminuye a la mitad.
Regresión simple No lineal

El diagrama de dispersión y el modelo lineal ajustado no interpreta muy bien la realidad observada.
Entonces debemos buscar otros modelos alternativos que utilizando transformaciones en una o ambas
variables, interpreten de mejor forma la realidad observada.
Desarrollo de un ejemplo:
Utilizaremos el archivo Automóviles (1), procesándolo en Stagraphics XVI.1
Y: Rend_mpg (rendimiento en millas por galón)
X: Potencia (Horsepower, caballos de fuerza)
26
Al desplegar el gráfico del modelo ajustado, podemos observar que no es precisamente una recta la que mejor
se ajustan a la nube de puntos. Debe ser un modelo que presente una cierta curvatura.
¿Cuál es entonces ese modelo con curvatura?
Vaya al panel Tablas y Gráficos y seleccione la ventana “Comparación de Modelos alternativos” y luego en
opciones de análisis elija el modelo con el mayor coeficiente de correlación. En este caso es el modelo
multiplicativo. Luego vuelva a desplegar el gráfico de dispersión.
27
Luego hacemos un Análisis de los residuos del modelo
Desplegamos el gráfico de “Residuos v/s Número de Fila” del modelo seleccionado y procedemos a eliminar
dichos puntos.
Como hay una gran cantidad de puntos, podemos seguir eliminando los residuos atípicos que están fuera de la
banda más ancha. Por ejemplo
28
Comentar los resultados según los distintos escenarios.
Claramente el modelo presenta una curvatura. ¿Podemos ajustar algún modelo de tipo polinomial, a estos
mismos datos?
29
También podemos proceder a eliminar los puntos que están fuera de la banda más ancha, para analizar si
mejora la tendencia del modelo, aumentando su coeficiente de determinación R2.
Con lo cual el modelo cuadrático supera levemente al multiplicativo al tener un mayor coeficiente de
determinación R2. Sin embargo a la hora de hacer estimaciones, el modelo multiplicativo presenta un “Error
estándar del estimador” muchísimo menor. Con lo cual parece ser más conveniente usar el modelo
multiplicativo para fines de estimación.
Modelo Multiplicativo Modelo Cuadrático
30
SUPUESTOS DEL ANÁLISIS MULTIVARIANTE Y SU COMPROBACIÓN
Una etapa importante en el AM es la comprobación de los supuestos estadísticos subyacentes a las
variables que intervienen en los modelos. La presencia de múltiples variables provoca complejidad de
relaciones que llevan a distorsiones y sesgos cuando no se cumplen determinados supuestos:
 Normalidad estadística en las variables

 Homocedasticidad (Heterocedasticidad) en las variables
 Multicolinealidad en las variables
 Ausencia de autocorrelacíón o correlación serial
 Linealidad
 Normalidad estadística en las variables

Existen, tantos métodos gráficos como pruebas o contrastes estadísticos formales, para comprobar la
normalidad de las variables que intervienen en un método multivariante. A los métodos gráficos se les
considera subjetivos y a las pruebas o contrastes estadísticos se les considera objetivos
 Gráfico de probabilidad normal: Se obtiene con el procedimiento

Describir Datos numéricos Análisis de una variable
Se observa que la variable Rend_mpg se ajusta relativamente bien a una distribución normal, ya que los
puntos de la gráfica se aproximan bastante a la línea recta diagonal.
31
 Histograma de frecuencias con la curva normal ajustada: Se obtiene con el procedimiento
 Pruebas o contrastes estadísticos

Tal como se mencionó en párrafo anterior, los métodos gráficos son subjetivos y por lo tanto dependen
de como el investigador vé el gráfico y aveces prevalece el pre-juicio. Por lo tanto deben ser
complementados con métodos objetivos de análisis, como lo son los métodos de contrates o pruebas de
significancia estadística.
El procedimiento a utilizar es el explicado en el punto inmediatamente anterior
 Prueba Chicuadrada o Test Chicuadrado para la bondad de ajuste

 Prueba Kolmogorov-Smirnov
 Contraste de normalidad de Shapiro y Wilks
 Contraste de normalidad para la asimetría y la curtosis
32
Debido a que el valor-P más pequeño de las pruebas realizadas es menor a 0,05, se puede rechazar la idea de
que Rend_mpg proviene de una distribución normal con 95% de confianza.
La curva es relativamente simétrica, pero con una curtosis que no se asemeja a la distribución normal.
 Homocedasticidad, Heterocedasticidad
En cualquier modelo multivariante se supone que  i  ( yi  yˆi ) es una variable aleatoria con
valor esperado o media igual a cero y matriz de covarianzas constantes [ (Var (  i )   2  I k ) ) ;
Cov(  i ,  j )  0  i  j ].
Cuando este supuesto de homocedasticidad (varianza constante en cada una de las variables) no
se cumple, se tiene entonces que el estimador mínimo cuadrático ordinario obtenido (MCO)
para cada estimador de los parámetros del modelo aplicado, no es de varianza mínima.
Para analizar la homocedasticidad de un modelo suele comenzarse por el análisis gráfico de los
residuos, siendo esencial el grafico de los residuos estudentizados respecto de la variable
dependiente (Y)
El gráfico anterior nos dice hay mayor incertidumbre cuando los valores predichos para la variable
rendimiento son altos y menos incertidumbre para valores predichos bajos de la variable rendimiento.
Por lo tanto aquí se aprecia claramente que el modelo utilizado NO es homocedástico
(Heterocedástico)
33
Aplicando otro modelo (modelo multiplicativo) para el mismo conjunto de variables, tenemos
que el grafico anterior muestra que los residuos para las predicciones de la variable rendimiento
están dentro de una cierta banda constante.
El gráfico de los residuos estudentizados contra cada una de las variables independientes permite
detectar qué variable es más culpable de que no se cumpla la homocedasticidad a aquella cuyo
gráfico se separa más del comportamiento aleatorio de los residuos.
A modo de ejemplo, supongamos un modelo multivariante cuya variable dependiente es Log (Q1) y
cuyas variables independientes son Log(P1), Log(P2), Log(P3) y Log(YD). Una vez ajustado el
modelo se realiza un análisis gráfico de homocedasticidad.
El problema aparece al graficar los residuos contra los valores predichos, que muestra una estructura no
demasiado aleatoria de sus puntos. Este hecho lleva a sospechar la presencia de heterocedasticidad
34
Para detectar que variable(s) podría(n) ser responsable de la posible heterocedasticidad, se construyen
los gráficos de residuos contra las cuatro variables explicativas. Se obtienen las siguientes figuras
Podemos concluir que la menos aleatoria es Log(YD), ya que aumenta la dispersión del error al ir de
izquierda a derecha. Por lo tanto no tiene estructura aleatoria.
Entonces la variable Log(YD) es la candidata a provocar los problemas de Heterocedasticidad.
35
¿Cómo resolver el problema de Heterocedasticidad?
La solución a este problema podría ser:
1.- Transformar los datos de la variable independiente a escala logarítmica

2.- Extraer raíz cuadrada a los datos de la variable independiente
3.- Suprimir en la modelación matemática, con justificación estadística o económica, la o las
variables más culpables
Para detectar mejor la forma funcional que sigue la varianza, se ajustan distintos modelos para las
distintas formas funcionales y se toma como esquema de Heterocedasticidad aquella forma funcional
para la que el ajuste es mejor.
 Multicolinealidad
En un modelo multivariante suele suponerse como hipótesis que sus variables (sobre todo las variables
predictoras o independientes X1, X2,………Xk , son linealmente independientes (cuando son v.a
normales la correlación lineal entre ellas es igual a cero). Esta hipótesis se denomina hipótesis de
independencia, y cuando no se cumple, decimos que el modelo presenta multicolinealidad.
La matriz de correlaciones es un instrumento que ayuda a detectar la presencia de multicolinealidad.

Valores altos en esta matriz son síntoma de posible dependencia entre las variables implicada. Si hay
dos variables independientes con alta correlación, ello es consecuencia de que las columnas de la
matriz tienden a ser linealmente dependiente. El determinante de dicha matriz tiende a cero.
Entre las soluciones más comunes para la multicolinealidad se tiene:
1.- Ampliar el tamaño muestral

2.- Buscar una transformación adecuada para la variable (preserve el orden del valor del dato)
3.- Suprimir algunas variables, justificando estadísticamente su eliminación.
4.- Buscar otros métodos específicos de ajuste, como la regresión en cadena.
36
Peso y Potencia están altamente correlacionados linealmente. También estas dos variables están altamente
correlacionadas con Rendimiento. Cuando vayamos a modelar el Rendimiento, se debe optar por utilizar la
variable Peso.
37
 Autocorrelacíón
El hecho de que Cov( i ,  j )  0  i  j se denomina hipótesis de no autocorrelacíón. En este punto

se verá el modelo lineal cuando esta hipótesis no se cumple, es decir, cuando existe autocorrelacíón o
correlación serial.
En general en el trabajo aplicado las perturbaciones aleatorias pueden seguir modelos autorregresivos
de orden 1
AR(1)  t =  t 1 + et
 es la función de autocorrelación , t es la función de medias del proceso
Para analizar la autocorrelacíón de un modelo suele comenzarse por el análisis gráfico de los residuos,
siendo esencial la gráfica de los residuos estudentizados respecto del índice tiempo (o número de fila)
que debe presentar una estructura aleatoria, libre de tendencia
El estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es menor
que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%. Grafique los
residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
La presencia de autocorrelacíón en un modelo suele eliminarse mediante el método de Cochrane-Orcutt

o mediante la introducción de variables dummy adecuada en el modelo. (Recuerde que en esta base de
datos hay una variable factor categórico que es la variable origen)
38
A continuación se presenta un gráfico que muestra un caso en que existe autocorrelacíón (clara
tendencia en gráfico de residuos frente al número de fila)
 Linealidad
La linealidad es un supuesto implícito en todas las técnicas multivariantes basadas en medidas de
correlación (Regresión múltiple, regresión logística, análisis factorial, etc.). Como los efectos
no lineales nunca están representados en el valor de la correlación, su presencia tendría efectos nocivos
en el modelo multivariante.
La no linealidad se resuelve tomando como modelo multivariante el modelo no lineal que se detecte
que ajusta mejor las variables en estudio. El análisis gráfico permite detectar qué tipo de no linealidad
puede estar presente en los datos.
Los gráficos de dispersión de las variables con secuencias no lineales y los gráficos residuales con
falta de aleatoriedad permiten detectar la falta de linealidad, simplemente observando su forma.
A continuación se presenta un ejemplo de detección de falta de linealidad en un modelo con variable

dependiente Y , variable independiente X. Se comienza realizando el gráfico de dispersión X e Y.
En la gráfica se observa que se ajusta mejor una parábola que una recta a la nube de puntos.
39
Por otra parte si representamos los Residuos contra los valores de las variables independiente
obtenemos también tendencia cuadrática, tal como indica el gráfico siguiente:
De los dos gráficos anteriores se deduce que se ha cometido un error de especificación en el modelo,
siendo más adecuado el modelo cuadrático que el lineal. Por tanto hemos detectado la falta de
linealidad y a la vez se propone el modelo que soluciona el problema.
Al realizar un análisis multivariado inicial, Statgraphics entre el gráfico llamado “Matriz de

dispersión”, como el siguiente:
En la diagonal principal se muestra los gráficos de caja que nos permite apreciar el comportamiento cada
variable: Simetría, presencia de valores atípicos.
Fuera de la diagonal principal se muestra el gráfico de dispersión entre dos variables y su tendencia
40
41
Regresión múltiple
 La regresión múltiple expresa el valor de la variable dependiente Y, como función de las

variables independientes X1, X2, ...,Xk.
 La más simple es la regresión lineal y el modelo al que se debieran ajustar los datos es:
Ejemplo
Un investigador químico desea entender cómo se asocian diferentes predictores y la resistencia a las
arrugas de la tela de algodón. El químico examina 32 piezas de celulosa de algodón a diferentes
configuraciones de tiempo de curado, temperatura de curado, concentración de formaldehído y relación
de catalizador. Se registró la calificación del planchado permanente, una medida de resistencia a las
arrugas, para cada producto.(Archivo Resist Arrugas Telas Algodón.sgd)
El químico realiza un análisis de regresión múltiple para ajustar un modelo con los predictores y
eliminar los predictores que no tengan una relación estadísticamente significativa con la respuesta.
Al realizar un análisis multivariado inicial, Statgraphics entre el gráfico llamado “Matriz de

dispersión”, como el siguiente
Analizar y comentar
Luego procedemos a modelar la respuesta Y, en función de las cuatro variables independientes
42
Resumen del Análisis
Variable dependiente: Y (Calificación); Variables independientes: X1 (Conc); X2 (Relación); X3 (Temp); X4 (Tiempo)
R-cuadrada = 72,9164 %; R-cuadrado (ajustado para g.l.) = 68,904 % ; Error estándar del est. = 0,81184
Error absoluto medio = 0,59961; Estadístico Durbin-Watson = 1,37944 (P=0,0367)
Autocorrelacíón de residuos en retraso 1 = 0,273727
La ecuación del modelo ajustado originalmente es
Y = -0,756014 + 0,154525*X1 + 0,217052*X2 + 0,0108064*X3 + 0,0946427*X4
Pero analizando la tabla anterior podemos concluir que la constante juega un rol estadísticamente
poco significativo en el modelo y por tanto podemos ajustar un modelo sin constante.
Pulsando el sector derecho del mouse tenemos que seleccionar “opciones de análisis” y luego quitar el
tiket de la ventana “constante”, que se despliega a continuación.
43
Vamos a tener un nuevo resumen del análisis
Error Estadístico
Parámetro Estimación Estándar T Valor-P
X1 0,131241 0,0591962 2,21705 0,0349
X2 0,212397 0,0313417 6,77682 0,0000
X3 0,00717489 0,00297897 2,40851 0,0228
X4 0,081137 0,0529933 1,53108 0,1370
Las variables X1, X2 y X3 resultan ser significativas dentro del modelo ajustado
La ecuación del modelo ajustado es
Y = 0,131241*X1 + 0,212397*X2 + 0,00717489*X3 + 0,081137*X4
R-cuadrada = 95,8112 % ; R-cuadrado (ajustado para g.l.) = 95,3624 %; Error estándar del est. = 0,812633
Error absoluto medio = 0,62333; Estadístico Durbin-Watson = 1,37685. Autocorrelacíón de residuos en retraso
1 = 0,265805
El nuevo modelo aumenta el porcentaje de la variabilidad explicada para Y. También disminuye la

autocorrelacíón en residuos a un nivel estadísticamente poco significativo.
Correlaciones
X1 X2 X3 X4 Y
0,1119 0,1544 0,0077 0,3644
X1 (32) (32) (32) (32)
0,5419 0,3988 0,9665 0,0403
0,1119 0,1163 -0,0116 0,7486
X2 (32) (32) (32) (32)
0,5419 0,5262 0,9496 0,0000
0,1544 0,1163 0,0450 0,3655
X3 (32) (32) (32) (32)
0,3988 0,5262 0,8067 0,0397
0,0077 -0,0116 0,0450 0,1785
X4 (32) (32) (32) (32)
0,9665 0,9496 0,8067 0,3282
0,3644 0,7486 0,3655 0,1785
Y (32) (32) (32) (32)
0,0403 0,0000 0,0397 0,3282
Vemos que la variable respuesta Y tiene correlación significativamente distinta de cero con las variables X1, X2
y X3. Y no tiene correlación significativa con X4.
Además de la tabla anterior podemos deducir que las variables Independientes están no correlacionadas entre
ellas, con lo cual las variables no presentan multicolinealidad. (supuesto muy importante del AM).
44
De las tablas entregadas por el procedimiento obtengamos “Matriz de Correlación”
Matriz de Correlación para las estimaciones de los coeficientes
X1 X2 X3 X4
X1 1,0000 -0,1592 -0,6934 -0,0979
X2 -0,1592 1,0000 -0,3313 -0,0181
X3 -0,6934 -0,3313 1,0000 -0,3685
X4 -0,0979 -0,0181 -0,3685 1,0000
Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas
correlaciones pueden usarse para detectar la presencia de multicolinealidad severa, es decir, correlación
entre las variables predictoras. En este caso, hay 1 correlación con valor absoluto mayor que 0,5.
(Implica correlación significativa)
Selección de variables importantes a incorporar en el modelo
Cuando existen muchas variables X que pueden influir en la respuesta Y, estas opciones pueden
resultar complicadas de interpretar.
 ¿Cómo resuelve este problema Statgraphics?

 Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y,
añadiendo después una a una, otras XS que junto con las anteriores aporten información. El
proceso se detiene cuando no encuentra ninguna más de las que quedan fuera que añada
información relevante
Pulsando el sector derecho del mouse tenemos que seleccionar “opciones de análisis” y luego en la
pantalla que se despliega seleccionar
Y = 0,140115*X1 + 0,213265*X2 + 0,00885585*X3
R-cuadrada = 95,4605 % ; R-cuadrado (ajustado para g.l.) = 95,1475 % ; Error estándar del est. = 0,831253
Error absoluto medio = 0,671107; Estadístico Durbin-Watson = 1,37766; Autocorrelacíón de residuos en
retraso 1 = 0,256919
Mirar en Stagraphics el resultado de la regresión paso a paso.
45
Inconveniente:
El modelo es muy dependiente de la primera elegida (la que más información aporta por sí sola,
pero puede no ser la mejor para trabajar con ella)
Resultados gráficos
Al parecer la variable X2 deja residuos que presentan una tendencia cuadrática
La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en
valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor
observado de Y del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, no hay
residuos Estudentizados mayores que 2.
46
Puntos Influyentes
Distancia de
Fila Influencia Mahalanobis DFITS
1 0,0974509 2,27145 -0,63534
22 0,193422 6,22645 -0,804841
Influencia media de un solo punto = 0,09375
En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,09375. No hay puntos con
más de 3 veces el valor de influencia promedio. Hay 2 datos con valores inusualmente grandes de DFITS.
¿Qué sucede si eliminamos dichos puntos influyentes? ¿CAMBIARÍA el modelo?
Error Estadístico
X1 0,141047 0,0623766 2,26121 0,0320
X2 0,22533 0,0317028 7,10756 0,0000
X3 0,00879409 0,0027464 3,20204 0,0035
47
Y = 0,141047*X1 + 0,22533*X2 + 0,00879409*X3

La estimación de los parámetros del modelo cambia, en este caso, de forma leve.
Mejora casi en uno por ciento el coeficiente de determinación R2 (R-cuadrada = 96,2232 %).
Estadístico Durbin-Watson = 1,61443; Autocorrelacíón de residuos en retraso 1 = 0,183098.
Este indicador nos indica que no existe autocorrelacíón estadísticamente significativa y por lo tanto no
es necesario realizar una transformación en los datos de la mediante el método de Cochrane-Orcutt,
por ejemplo.
Análisis de los residuos del modelo Aceptado

El punto final a realizar es analizar si los residuos dejados por el modelo aplicado tienen un
comportamiento ajustado a la distribución normal. Es necesario previamente guardar los residuos.
Siga el siguiente procedimiento.
Primeramente veamos un resultado gráfico
Podemos apreciar que hay bastante evidencia como para decir que los residuos no se ajustan o se
comportante como una distribución de probabilidad normal.
48
Los test cuantitativos dan la razón al pensamiento subjetivo anterior.
Pruebas de Normalidad para RESIDUOS
Prueba Estadístico Valor-P

Chi-Cuadrado 19,0 0,0885285
Estadístico W de Shapiro-Wilk 0,921529 0,033382
Valor-Z para asimetría 1,06646 0,286215
Valor-Z para curtosis -0,911914 0,361812
Debido a que el valor-P más pequeño de las pruebas realizadas es menor a 0,05 se puede rechazar la
idea de que RESIDUOS proviene de una distribución normal con 95% de confianza.
Pruebas de Bondad-de-Ajuste para RESIDUOS
Prueba de Kolmogorov-Smirnov
Normal
DMAS 0,152384
DMENOS 0,101552
DN 0,152384
Valor-P 0,50033
Debido a que el valor-P más pequeño de las pruebas realizadas es mayor ó igual a 0,05, no se puede
rechazar la idea de que RESIDUOS proviene de una distribución normal con 95% de confianza.
Obteniendo el gráfico de Probabilidad Normal
Este gráfico nos dice que no es tan evidente que los residuos se comportan como una distribución
normal.
Esto significa una importante conclusión pues no se está cumpliendo un relevante supuesto del modelo
de regresión múltiple.
¿Será que hay un problema de un error de especificación en el modelo? Recordemos que al parecer la
variable X2 deja residuos que presentan una tendencia cuadrática
49
En la ventana “resumen del análisis” se depliega la siguiente tabla con las estimaciones de los
parámetros del modelo y su significancia estadística.

CONSTANTE -1,23501 0,613038 -2,01458 0,0540
X1 0,145479 0,0518304 2,80683 0,0092
X2 0,67998 0,112671 6,0351 0,0000
X3 0,0107855 0,00377597 2,85635 0,0081
X2^2 -0,0334327 0,00790375 -4,22998 0,0002
Lo único que no es significativo en el modelo es la constante pues el Valor-P >0,05.

Podemos elegir un modelo sin la constante.
Y obtenemos
Error Estadístico
X1 0,1101 0,0513589 2,14373 0,0409
X2 0,605821 0,112153 5,40172 0,0000
X3 0,00504054 0,00260671 1,93368 0,0633
X2^2 -0,0286009 0,00793172 -3,60589 0,0012
R-cuadrada = 96,9001 % ; R-cuadrado (ajustado para g.l.) = 96,5679 % ; Error estándar del est. = 0,699081
Error absoluto medio = 0,458862; Estadístico Durbin-Watson = 1,30307; Autocorrelacíón de residuos en
retraso 1 = 0,209264
Haciendo eliminación de residuos atípicos y puntos influyentes se mejora el modelo inicial
Error Estadístico
X1 0,0998381 0,033867 2,94794 0,0070
X2 0,82676 0,0703597 11,7505 0,0000
X3 0,00423502 0,00165835 2,55376 0,0174
X2^2 -0,0455726 0,0050459 -9,03159 0,0000
R-cuadrada = 99,1158 % ; R-cuadrado (ajustado para g.l.) = 99,0053 %; Error estándar del est. = 0,397536
Error absoluto medio = 0,315917; Estadístico Durbin-Watson = 1,73902
Autocorrelación de residuos en retraso 1 = 0,0858826
50
Y = 0,0998381*X1 + 0,82676*X2 + 0,00423502*X3 - 0,0455726*X2^2
Analizando los residuos generados por este nuevo modelo tenemos
Con lo cual este modelo ajustado cumple con todos los requisitos de un modelo de Regresión Múltiple
51
EXTENSIONES DEL MODELO DE REGRESIÓN MÚLTIPLE
Regresión múltiple con variables independientes cualitativas
Es frecuente que la relación entre variables dependa de alguna variable cualitativa. Por ejemplo, la
relación entre beneficios tamaño empresarial puede depender del sector industrial (factor). El consumo
de combustible o rendimiento de un automóvil puede depender del origen de procedencia. La estatura
de una persona puede depender del Género y Etnia
En general, siempre que los datos puedan clasificarse en grupos homogéneos es conveniente incluir la
variable cualitativa “grupo” como variable explicativa o independiente.
El concepto de variable ficticia
La siguiente figura presenta el valor del alquiler (Y) en una muestra de viviendas en función de los
metros cuadrado de ella (X) y la recta ajustada.
Al analizar los puntos muestrales, se detecta que las observaciones varían respecto de un atributo: Las
viviendas incluidas en el grupo A pertenecen a una zona periférica y que las del grupo B corresponden
al sector centro de la ciudad.
Ajustando regresiones separadas en los dos grupos resultan las rectas yˆ A y yˆ B . Estas rectas
ajustadas son bien distintas de la obtenida sin tener en cuenta el atributo”localización de la vivienda”
La solución de dividir los datos en grupos distintos y estimar regresiones distintas en cada uno, no
siempre es posible debido a múltiples razones (Puede que se produzca un desbalance en la cantidad de
observaciones entre los grupos, etc.)
La solución consiste en incluir la variable atributo dentro del modelo. Por ejemplo, para el caso gráfico
presentado anteriormente, se definirá una varible binaria Z , que tomará el valor cero para las
observaciones del grupo A y el valor 1 para las observaciones del grupo B.
52
y  0  1 x   2 z  
Por tanto el coeficiente de la variable binaria  2 , medirá el efecto incremental que produce la zona B
sobre la zona A. Llamaremos variables ficticias en nuestro idioma (En Inglés reciben el nombre de
variables dummy) a estas variables binarias, que como “z” representan atributos o formas de clasificar
los datos muestrales.
Procedimiento General
Esta idea puede generalizarse a cualquier número de variables: Supongamos que queremos separar las
observaciones en D grupos distintos, en función de su respuesta media a igualdad de valores de las
variables cuantitativas.
La solución más utilizada es introducir D-1 variables ficticias.
Una vez creada las variables ficticias se procede a realizar la regresión múltiple habitual.
La tabla siguiente muestra una parte del archivo en Excel “93 automóviles” que muestra como la
variable o factor cualitativo “Transmisión” con tres tipos o grupos dio origen a dos variables ficticias
Z1t y Z2t.
Z1t toma valores iguales a 1 cuando la transmisión es delantera y cero en otro caso
Z2t toma valores iguales a 1 cuando la transmisión es trasera y cero en otro caso
Cuando un automóvil tiene tracción en las 4 ruedas, ambas variables tienen cero
También muestra la variable “Lugar Fabric” que también es ficticia.
Se desea un modelo pueda predecir el Rendimiento (Y) a partir de Peso, Potencia Máxima, Distancia
entre ejes, transmisión, y Lugar de fabricación.
Originalmente hay tres variables independientes cuantitativas y dos variables independientes
cualitativas.
Procedemos a realizar el ARM de la forma ya explicada.
53
Variable dependiente: Rend Carret (mpg);
Variables independientes:
Peso (libras); Potencia Max (H P); Dist entre Ejes (Pulgadas); Z1t (Delantera); Z2t (Trasera); Lugar Fabric (1 = USA)
Error Estadístico
CONSTANTE 26,4782 7,83791 3,37822 0,0011
Peso -0,0111116 0,00170207 -6,52827 0,0000
Potencia Max 0,00753099 0,0107087 0,70326 0,4838
Dist entre Ejes 0,335788 0,111771 3,00424 0,0035
Z1t 1,0553 1,089 0,969056 0,3352
Z2t 1,36245 1,28934 1,0567 0,2936
Lugar Fabric -0,44396 0,650747 -0,682232 0,4969
R2 = 70,2208 %; R2 (ajustado para g.l.) = 68,1432 %; Error estándar del est. = 3,00933; Error absoluto medio = 2,19307
Estadístico Durbin-Watson = 1,58191 (P=0,0155); Autocorrelacíón de residuos en retraso 1 = 0,207005
Rend Carret = 26,4782 - 0,0111116*Peso + 0,00753099*Potencia Max + 0,335788*Dist entre Ejes +

1,0553*Z1t + 1,36245*Z2t - 0,44396*Lugar Fabric
Se deben hacer los análisis de significancia estadística de los parámetros estimados, interpretar los
resultados, validación del modelo ajustado, etc. , etc. ya vistos anteriormente.
El investigador podría estar interesado en analizar la posible interacción entre las variables ficticias y el
Lugar de Fabricación.
54
Variable dependiente: Rend Carret (mpg)
Variables independientes:
Peso (libras); Potencia Max (H P); Dist entre Ejes (Pulgadas); Z1t (Delantera); Z2t (Trasera); ugar Fabric (1 = USA)
Z1t*Lugar Fabric; Z2t*Lugar Fabric
Error Estadístico
CONSTANTE 23,2102 7,93307 2,92576 0,0044
Peso -0,0122176 0,00173497 -7,04197 0,0000
Potencia Max 0,0153234 0,0109613 1,39796 0,1658
Dist entre Ejes 0,396374 0,112803 3,51386 0,0007
Z1t 0,623431 1,45042 0,429827 0,6684
Z2t -1,42503 1,88801 -0,754781 0,4525
Lugar Fabric -1,52474 1,8959 -0,804231 0,4235
Z1t*Lugar Fabric 0,439204 2,02572 0,216814 0,8289
Z2t*Lugar Fabric 4,50672 2,45746 1,83389 0,0702
R2 = 72,1637 % ; R2 (ajustado para g.l.) = 69,5126 % ; Error estándar del est. = 2,94393; Error absoluto medio = 2,05231
Estadístico Durbin-Watson = 1,7761 (P=0,1099); Autocorrelacíón de residuos en retraso 1 = 0,108021
Rend Carret = 23,2102 - 0,0122176*Peso + 0,0153234*Potencia Max + 0,396374*Dist entre Ejes +

0,623431*Z1t - 1,42503*Z2t - 1,52474*Lugar Fabric. + 0,439204*Z1t*Lugar Fabric. +
4,50672*Z2t*Lugar Fabric.
Se deben hacer todos los análisis de significancia estadística de los parámetros estimados, interpretar
los resultados, validación del modelo ajustado (Residuos atípicos, puntos influyentes, etc., etc.) ya
vistos anteriormente.
55
BIBLIOGRAFIA
CESAR PEREZ LOPEZ. Ténicas de Análisis Multivariante de Datos. Editorial Pearso. Prentice Hall.
Año2004
DANIEL PEÑA SANCHEZ DE RIVERA. Estádistica Modelos y Métodos. 2.Modelos lineales y series
temporales. Editorial. Alianza Editorial. Año 1989.
DANIEL PEÑA SANCHEZ DE RIVERA. Análisis de Datos Multivariantes. Editorial Mc Graw Hill.
Año 2002.
CARRASCO J. L. Estadística Multivariante en las ciencias de la vida
RENE MALUENDA M. Apuntes para Análisis de Datos Multivariado, dictado en carreras de

postgrado de la Universidad de Antofagasta
56

Análisis Multivariable

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Análisis Multivariable

Încărcat de

Drepturi de autor:

Formate disponibile

ANÁLISIS Y MODELACIÓN DE DATOS MULTIVARIADOS

RENE MALUENDA MOYA

I Congreso Latinoamericano de Matemática - COLAMAT 2018

 El análisis de datos incluye un conjunto de métodos y técnicas univariantes y multivariantes

 A inicios de este siglo, debido en gran parte a la disponibilidad de potentes computadoras

 METODOS MULTIVARIANTES EXPLICATIVOS

 METODOS MULTIVARIANTES DESCRIPTIVOS

A continuación se explicarán algunas de estas metodologías de análisis de datos multivariantes

La regresión múltiple admite la posibilidad de trabajar con variables independientes no métricas

G(Y1 , Y2 ,.........., Yp )  F ( X1 , X 2 ,......., X p )  

La variable dependiente Y es no-métrica y las variables independientes Xs son métricas.

Análisis en Componentes Principales

x1  r11C 1  r12C2  ...............  r1 pC p

Se demuestra que rij es el coeficiente de correlación entre la componente Ci y la variable Xj y se

 AF se trata de encontrar variables sintéticas latentes, inobservables y aún no medidas cuya

x1  r11 F1  r12 F2  ...........  r1 p Fp  f1

La creación de grupos basados en el concepto de similaridad de casos exige una definición de

1.- Examinar las variables individuales y las relaciones entre ellas.

Análisis exploratorio y gráfico de los datos univariados

Al parecer, tenemos una distribución trimodal

El gráfico de caja y bigotes.

Test estadísticos para detectar valores anómalos o atípicos: Caso univariante

 Para una detección gráfica

 Gráfico de caja y bigotes (box plot)

 Utilizando test estadísticos

Para ejemplificar utilizaremos el archivo “Automóviles (1)”, y procesaremos la variable “precio”

Este procedimiento es muy completo e incluye

Gráfico de caja y bigotes múltiples

Ejemplo de situaciones reales:

El coeficiente de correlación de Pearson sólo mide relación LINEAL

REGRESION SIMPLE, LINEAL

Modelo ajustado a partir de una muestra: yˆ  bo  b1 x

Análisis de los residuos

Mejora el coeficiente de correlación y el coeficiente de determinación R2. El error estándar del

Regresión simple No lineal

¿Cuál es entonces ese modelo con curvatura?

Modelo Multiplicativo Modelo Cuadrático

 Normalidad estadística en las variables

 Normalidad estadística en las variables

 Gráfico de probabilidad normal: Se obtiene con el procedimiento

 Pruebas o contrastes estadísticos

 Prueba Chicuadrada o Test Chicuadrado para la bondad de ajuste

Entonces la variable Log(YD) es la candidata a provocar los problemas de Heterocedasticidad.

La solución a este problema podría ser:

1.- Transformar los datos de la variable independiente a escala logarítmica

La matriz de correlaciones es un instrumento que ayuda a detectar la presencia de multicolinealidad.

Entre las soluciones más comunes para la multicolinealidad se tiene:

1.- Ampliar el tamaño muestral

El hecho de que Cov( i ,  j )  0  i  j se denomina hipótesis de no autocorrelacíón. En este punto

La presencia de autocorrelacíón en un modelo suele eliminarse mediante el método de Cochrane-Orcutt

A continuación se presenta un ejemplo de detección de falta de linealidad en un modelo con variable

Al realizar un análisis multivariado inicial, Statgraphics entre el gráfico llamado “Matriz de

 La regresión múltiple expresa el valor de la variable dependiente Y, como función de las

Al realizar un análisis multivariado inicial, Statgraphics entre el gráfico llamado “Matriz de

Luego procedemos a modelar la respuesta Y, en función de las cuatro variables independientes

Variable dependiente: Y (Calificación); Variables independientes: X1 (Conc); X2 (Relación); X3 (Temp); X4 (Tiempo)

La ecuación del modelo ajustado originalmente es

Y = -0,756014 + 0,154525*X1 + 0,217052*X2 + 0,0108064*X3 + 0,0946427*X4

La ecuación del modelo ajustado es

Y = 0,131241*X1 + 0,212397*X2 + 0,00717489*X3 + 0,081137*X4

El nuevo modelo aumenta el porcentaje de la variabilidad explicada para Y. También disminuye la

Matriz de Correlación para las estimaciones de los coeficientes

Selección de variables importantes a incorporar en el modelo

 ¿Cómo resuelve este problema Statgraphics?

Y = -0,756014 + 0,154525X1 + 0,217052X2 + 0,0108064X3 + 0,0946427X4

Y = 0,131241X1 + 0,212397X2 + 0,00717489X3 + 0,081137X4

Y = 0,140115X1 + 0,213265X2 + 0,00885585*X3

Y = 0,141047X1 + 0,22533X2 + 0,00879409*X3

Y = 0,0998381X1 + 0,82676X2 + 0,00423502X3 - 0,0455726X2^2

Rend Carret = 26,4782 - 0,0111116Peso + 0,00753099Potencia Max + 0,335788*Dist entre Ejes +

Rend Carret = 23,2102 - 0,0122176Peso + 0,0153234Potencia Max + 0,396374*Dist entre Ejes +