Documente Academic
Documente Profesional
Documente Cultură
PROFESOR:
CHILE
rene.maluenda@uantof.cl
1
ANÁLISIS Y MODELACIÓN DE DATOS MULTIVARIADOS
INTRODUCCIÓN:
Existe la posibilidad de que estas variables sean sólo cuantitativas, solo cualitativas o de ambos
tipos.
Un tratamiento tan completo, unido a la diversidad de enfoques teóricos y prácticos que puede
darse a un estudio y multidimensional, explica la dificultad matemática de un proceso que, por
fuerza, ha de apoyarse en el cálculo matricial y en otros métodos matemáticos más avanzados.
El punto anterior es una de las importantes razones por la cual hasta época muy reciente, no ha
comenzado a difundirse su aplicación con la fuerza necesaria para que la investigación
científica se beneficie del empleo de técnicas tan avanzadas.
Ha sido necesario un espectacular desarrollo del proceso de captura automática de datos (Big
Data, Data Mine, etc.), para asistir a una generalización del uso de los métodos de análisis
multivariante de datos a través de potentes programas computacionales (Statgraphics, Minitab,
SPSS, Estatistics, etc., etc.) que tienen gran capacidad de almacenamiento y manejo de datos,
alta velocidad de procesamiento, relativa facilidad de utilización por grupo de investigadores
que no necesariamente deben ser expertos matemáticos, estadísticos o informáticos.
2
CLASIFICACIÓN GLOBAL DE LAS TECNICAS DE ANALISIS MULTIVARIANTES DE DATOS
3
METODOS EXPLICATIVOS: TECNICAS DEL ANALISIS DE LA DEPENDENCIA
La parte derecha del árbol de clasificación anterior se desarrolla suponiendo que existe una
dependencia entre las variables explicadas (dependiente) y sus correspondientes variables explicativas
(independientes), dando lugar a los denominados métodos explicativos.
Para clarificar este tipo de técnicas de Análisis de la Dependencia se presenta el siguiente cuadro, que
las clasifica en función de la naturaleza métrica o no-métrica de las variables independientes y
dependientes.
4
Se explicará en primer lugar la rama izquierda del siguiente diagrama, que es una parte del diagrama
general
Regresión Múltiple:
Metodología estadística utilizada para analizar la relación entre una variable dependiente (o endógena)
métrica (numérica continua) y varias variables independientes (o exógenas) también métricas.
El objetivo esencial del análisis de regresión múltiple es utilizar las variables independientes, cuyos
valores son conocidos para predecir la única variable dependiente seleccionada por el investigador.
La expresión funcional del análisis de regresión múltiple es
Y F ( X1 , X 2 ,......., X p )
Nota: Cuando se tiene sólo una variable independiente, tenemos el caso de la regresión simple
Y F ( X1 )
5
Análisis Canónico (Correlación Canónica)
Metodología estadística utilizada para analizar la relación entre múltiples variables dependientes (o
endógenas) métricas y varias variables independientes métricas (o exógenas).
El objetivo esencial del análisis de correlación canónica es utilizar las variables independientes, cuyos
valores son conocidos, para predecir las variables dependientes (variables criterio) seleccionadas por el
investigador
La expresión funcional del análisis de correlación canónica es
El análisis de correlación canónica también puede extenderse al caso de variables dependientes no-
métricas y al caso de variables de variables independientes no-métricas
6
Se analizará la rama derecha del diagrama anterior
Análisis Discriminante
Metodología estadística utilizada para analizar la relación entre una variable dependiente (o endógena)
no-métrica (categórica) y varias variables independientes métricas.
El objetivo esencial del análisis del análisis discriminante es utilizar los valores conocidos de las
variables independientes para predecir con qué categoría de la variable dependiente se corresponden.
Así podemos predecir en qué categoría de riesgo crediticio se encuentra una persona, el éxito de un
producto en el mercado, la aprobación de un cierto semestre de una carrera a la cual ingresó un
estudiante, etc.
La expresión funcional del análisis discriminante es
Y F ( X1 , X 2 ,......., X p )
7
Modelos de elección discreta:
Los modelos de elección discreta tienen o son de la misma naturaleza que el modelo de Análisis
Discriminante.
La diferencia fundamental es que en los Modelos de elección discreta con los valores conocidos o
dados para las variables independientes se predice la probabilidad de pertenencia a una categoría o
clase de la variable dependiente. Por ejemplo la probabilidad de que una persona compre un producto
o devuelva un crédito según los valores de algunas variables independientes medidas en él.
Por lo tanto, los modelos de elección discreta predicen directamente la probabilidad de ocurrencia de
un suceso que viene definido por los valores de las variables independientes.
Como los valores de una probabilidad están entre cero y uno, las ´predicciones realizadas con los
modelos de elección discreta deben estar acotadas para que caigan en el rango entre cero y uno. El
modelo general que cumple esta condición se denomina modelo lineal de probabilidad, y tiene la
siguiente forma funcional:
Pi F ( X i , ) i
Si F es la función de distribución de una variable aleatoria, entonces P varía entre cero y uno.
En el caso particular en que la función F es la función logística, tendremos el modelo logit, cuya
forma funcional es:
e Xi
Pi F ( X i , ) i = i
1 e Xi
En el caso particular en que la función F es la función de distribución normal unitaria, tendremos el
modelo probit, cuya forma funcional es:
X i t2
Pi F ( X i , ) i 2 e
2
dt i
8
METODOS DESCRIPTIVOS: TECNICAS DEL ANALISIS DE LA INTERDEPENDENCIA
En diagrama inicial, que muestra la clasificación global de las técnicas de análisis multivariantes,
discriminaba entre la existencia o no de variables explicativas (predictoras) y explicadas (respuesta).
La parte de la izquierda del árbol de clasificación global, se desarrolla suponiendo que no existe una
dependencia entre las variables predictoras y las variables respuesta, dando lugar a los denominados
métodos estadísticos descriptivos multivariantes.
Con la idea de clarificar un poco más este tipo de metodología de análisis de la interdependencia se
presenta el siguiente cuadro, que las clasifica en función de la naturaleza métrica o no-métrica de las
variables
9
Sólo se retienen las “p” componentes (componentes principales) que explican un porcentaje alto de la
variabilidad de las variables iniciales.
En el análisis en componentes principales las variables tienen que ser cuantitativas. Las componentes
deben de ser suficientes para para resumir la mayor parte de la información contenida en las variables
originales.
Asimismo cada variable original podrá expresarse en función de las componentes principales, de modo
que la varianza de cada variable original se explica completamente por las componentes cuya
combinación lineal la determina
Análisis Factorial
Es una técnica de Análisis Multivariado cuyo objetivo es reducir la dimensión de una tabla de datos
excesivamente grande por el elevado número de variables que contiene y quedarse con unas cuantas
variables ficticias que, aunque no observadas, sean combinación lineal de las variables reales
(observadas) y sinteticen la mayor parte de la información contenida en sus datos.
Las variables tienen que ser cuantitativas. La cantidad de factores deben ser suficientes para resumir la
mayor parte de la información contenida en las variables originales.
10
La diferencia entre el análisis en componentes principales y el análisis factorial radica en que:
ACP se obtienen variables sintéticas, combinación lineal de las originales y cuyo cálculo es
posible basándose en aspectos matemáticos independientes de su interpretabilidad práctica.
En el ACP la varianza de cada variable original se explica completamente por las variables
cuya combinación lineal la determinan, sus componentes. Pero esto no ocurre en el AF
En el AF sólo una parte de la varianza de cada variable original se explica completamente por las
variables cuya combinación lineal la determinan (factores comunes F1, F2, ……..Fp).
La parte de la variabilidad de cada variable original explicada por los factores comunes se denomina
comunalidad. La parte de la variabilidad que no es explicada por los factores comunes se denomina
unicidad (comunalidad + unicidad = 1) y representa la variabilidad propia de fi de cada variable xi .
Cuando la comunalidad es unitaria (unicidad nula) el ACP coincide con el AF. Es decir, el ACP es un
caso particular del AF en el que los factores comunes explican el 100% de la varianza total.
11
Análisis de Conglomerados ( Cluster Analysis)
Es una metodología estadística multivariante de clasificación de datos, que a partir de una tabla
individuos-variables, trata de situar todos los casos en grupos homogéneos (conglomerados o clúster)
no conocidos de antemano, pero sugeridos por la propia esencia de los datos, de manera que individuos
que puedan ser considerados similares sean asignados a un mismo clúster, mientras que individuos
diferentes (disimiles) se sitúen en clúster distintos.
El análisis de conglomerados suele comenzar estimando las similitudes entre los individuos (u objetos)
a través de correlación (distancia o asociación) de las distintas variables (métricas o no métricas) de que
se dispone. A continuación se establece un procedimiento que permite comparar los grupos en virtud
de las similitudes. Por último se decide cuántos grupos o conglomerados se construyen, teniendo en
cuenta que cuanto menor sea el número de grupos, menos homogéneos serán los elementos que
integran cada grupo. Se perseguirá formar el mínimo número de grupos lo más homogéneos posibles
dentro de sí y lo más heterogéneos posibles entre sí.
El análisis clúster (AC) se diferencia del AF en que en el AF los factores se constituyen agrupando
variables. Mientras que en el AC los conglomerados se constituyen agrupando individuos (objetos) o
también variables.
Al aplicar AF, en un factor determinado se incluyen variables que están relacionadas con él (positiva
o negativamente), pero en el AC las variables relacionadas positivamente forman parte de un
conglomerado distinto del de las variables relacionadas negativamente.
12
PRIMERO PASOS EN EL ANALISIS MULTIVARIANTE: ANALISIS EXPLORATORIO DE DATOS
Antes de aplicar cualquier técnica de análisis multivariante es preciso realizar un análisis previo a los
datos de que se dispone. Es necesario:
Para realizar el paso aconsejado en el párrafo anterior utilizaremos el archivo Automóviles (1) ,
procesándolo en Stagraphics XVI.1
Histograma de frecuencias:
Permite intuir la distribución de probabilidad de los datos, su normalidad estadística, su simetría y otras
propiedades interesantes en el análisis de datos.
13
Diagrama de tallo y hojas.
Procedimiento semigráfico se para presentar la información para variables cuantitativas, creado por Tukey, que
es especialmente útil cuando la cantidad total de datos es pequeño (menor que 50)
Diagrama de Tallo y Hoja para Rend_mpg: unidad = 1,0 1|2 representa 12,0
14
Gráfico de simetría
Permite analizar visualmente el grado de simetría de una variable. Mientras más se aproxime el
conjunto de puntos a la diagonal principal, más simetría existirá en la distribución de los datos de la
variable.
15
Si en el gráfico original desplegado por Statgraphics, hacemos click sobre los puntos que están más
alejados de los bigotes, en la tercera barra de tareas nos indica en que fila de la base de datos se
encuentra este datos (y por supuesto al sujeto u observación al que pertenece)
Gráfico de Cuantiles
16
Diagrama o Gráfico de Control y test estadísticos
El siguiente procedimiento permite mostrar un diagnostico gráfico y también cuantitativo de la variable
de interés, en cuanto a la detección de valores atípicos
17
Test de Dixon: Se aplica generalmente cuando la serie de datos es menor o igual que 10. Se debe de
ordenar los valores de la serie de menor a mayor. Es menos robusto que el test de Grubs. Se Calcula el
estadístico:
Q0
x x
*
p
x x
*
l
*
Donde x es el valor sospechoso de ser atípico. xp es el valor más próximo x* . xl es el valor más
lejano a x*
Para tomar la decisión de si x* es un valor atípico, Q0 se debe comparar con un valor Qc que se toma
de la tabla de Dixon para “n” datos. Si la decisión de sebe tomar con un 95% de confianza se debe
ubicar en la columna que encabeza 0,05. Ver tabla de Dixon
Ejemplo:
Se dispone de la serie ordenada: 415 420 421 421 422 422 423. Se sospecha que el en el extremo
izquierdo se tiene un dato anómalo.
Q0
x x 415 420 0, 625
*
p
x x 415 423
*
l
En la tabla de Dixon para n = 7 observaciones y para α = 0,05 se tiene el valor 0,569. Como el valor
de | Q0 | Qc , entonces decimos que 415 es un dato anómalo y debe ser analizado en cuanto a
considerarlo o no para la generación de medidas de resumen estadístico.
18
Detección bivariante de casos atípicos:
Cuando se trata de detectar casos atípicos en un contexto bivariante, pueden utilizarse herramientas del
Análisis Exploratoria de Datos (AED), tales como: Gráfico de caja y bigotes múltiples, Gráfico de
dispersión.
19
Gráfico de Dispersión
La manera de mostrar gráficamente los datos observados en un gráfico es a través de un
diagrama de dispersión.
Y, la respuesta, se marca en el eje vertical; la X, variable explicativa, en el eje horizontal. Cada
observación, es un punto del gráfico
El aspecto general del gráfico viene dado por la dirección, forma y fuerza del mismo:
Dirección: positiva o negativa
Forma: disposición de los puntos (rectilínea o curvilínea)
Fuerza: cuanta más amorfa sea la disposición de los puntos en el gráfico, menor su relación
Es interesante en esta primera identificación del aspecto del gráfico, identificar observaciones
atípicas (aquellas que se distinguen del aspecto general del gráfico)
El diagrama de dispersión sólo muestra el aspecto general de la relación entre las dos variables.
En situaciones no muy evidentes, un simple cambio de escala puede hacernos cambiar la forma
de pensar
20
Descripciones numéricas
Se necesita una medida numérica que complemente al gráfico y que, independientemente de las
dimensiones de los valores de las variables, nos informe sobre la fuerza de la relación existente.
Una medida es el Coeficiente de correlación lineal de Pearson
i n
x X y Y
i i
rXY i 1
DesEstX DesEstY
rxy utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor
aunque se cambiara de unidad de medida.
rxy se ve afectada por las observaciones atípicas
Una rxy positiva (negativa) indica una relación positiva (negativa) entre las variables.
Valores de rxy cercanos al 0 indican una relación lineal muy débil.
La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.
Un valor de r distinto de 0 no implica relación lineal. Es necesario que sea “significativamente distinto de cero”
21
Descripción matemática de la forma del gráfico
Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder
“resumir” el gráfico en forma de una ecuación matemática.
En el caso de una forma lineal, a la recta que ajusta la nube de puntos se le llama recta de
regresión.
Esta recta se calcula teniendo en cuenta dos cosas:
Puesto que describe un cambio en la respuesta a medida que cambia la otra variable,
se necesita tener presente esta distinción a la hora de calcularla.
Puesto que ninguna recta puede pasar exactamente por todos los puntos, se necesita
una manera de construirla que asegure su paso tan cerca de todos los puntos como sea
posible.
La pendiente de la recta, b1, representa la tasa de cambio, es decir, la cantidad en que cambia cuando x
aumenta en una unidad.
22
Coeficiente de Determinación R2, representa el porcentaje de la variación de Y que se explica
por la regresión de Y sobre X y sirve de medida de bondad de la regresión para explicar la
respuesta.
La parte de la variable Y que no es explicada por el modelo se llama residual.
Una vez dibujada la recta de regresión, existe un valor residual para cada dato: ei yi yˆi
23
Desarrollo de un ejemplo:
Los datos siguientes corresponden a la observación de 21 días de trabajo en una planta química para la
oxidación del amonio como una etapa en la producción del ácido nítrico
X1 =“flujo de aire”; Y =“pérdida acumulada, % del amonio que escapa sin ser absorbido”
El objetivo del estudio es el de ajustar un modelo de regresión simple a estos datos que explique
el comportamiento de la variable respuesta Y respecto a variable regresora X1”
Los datos están en la base de datos del presente cursillo Archivo Excel, hoja 3
Al aumentar el flujo del aire, aumenta el % de perdida acumulada del amonio. Correlación positiva
Es necesario analizar los otros contenidos de la pantalla Tablas y Gráficos que despliega Statgraphics para
obtener mejores conclusiones.
24
Análisis de los residuos del modelo
Que acción podemos tomar cuando el modelo utilizado deja residuos atíipicos?..... Eliminarlos
25
Consecuencias de la decisión
Desarrollo de un ejemplo:
Utilizaremos el archivo Automóviles (1), procesándolo en Stagraphics XVI.1
Y: Rend_mpg (rendimiento en millas por galón)
X: Potencia (Horsepower, caballos de fuerza)
26
Al desplegar el gráfico del modelo ajustado, podemos observar que no es precisamente una recta la que mejor
se ajustan a la nube de puntos. Debe ser un modelo que presente una cierta curvatura.
Vaya al panel Tablas y Gráficos y seleccione la ventana “Comparación de Modelos alternativos” y luego en
opciones de análisis elija el modelo con el mayor coeficiente de correlación. En este caso es el modelo
multiplicativo. Luego vuelva a desplegar el gráfico de dispersión.
27
Luego hacemos un Análisis de los residuos del modelo
Desplegamos el gráfico de “Residuos v/s Número de Fila” del modelo seleccionado y procedemos a eliminar
dichos puntos.
Como hay una gran cantidad de puntos, podemos seguir eliminando los residuos atípicos que están fuera de la
banda más ancha. Por ejemplo
28
Comentar los resultados según los distintos escenarios.
Claramente el modelo presenta una curvatura. ¿Podemos ajustar algún modelo de tipo polinomial, a estos
mismos datos?
29
También podemos proceder a eliminar los puntos que están fuera de la banda más ancha, para analizar si
mejora la tendencia del modelo, aumentando su coeficiente de determinación R2.
Con lo cual el modelo cuadrático supera levemente al multiplicativo al tener un mayor coeficiente de
determinación R2. Sin embargo a la hora de hacer estimaciones, el modelo multiplicativo presenta un “Error
estándar del estimador” muchísimo menor. Con lo cual parece ser más conveniente usar el modelo
multiplicativo para fines de estimación.
30
SUPUESTOS DEL ANÁLISIS MULTIVARIANTE Y SU COMPROBACIÓN
Una etapa importante en el AM es la comprobación de los supuestos estadísticos subyacentes a las
variables que intervienen en los modelos. La presencia de múltiples variables provoca complejidad de
relaciones que llevan a distorsiones y sesgos cuando no se cumplen determinados supuestos:
Se observa que la variable Rend_mpg se ajusta relativamente bien a una distribución normal, ya que los
puntos de la gráfica se aproximan bastante a la línea recta diagonal.
31
Histograma de frecuencias con la curva normal ajustada: Se obtiene con el procedimiento
32
Debido a que el valor-P más pequeño de las pruebas realizadas es menor a 0,05, se puede rechazar la idea de
que Rend_mpg proviene de una distribución normal con 95% de confianza.
La curva es relativamente simétrica, pero con una curtosis que no se asemeja a la distribución normal.
Homocedasticidad, Heterocedasticidad
En cualquier modelo multivariante se supone que i ( yi yˆi ) es una variable aleatoria con
valor esperado o media igual a cero y matriz de covarianzas constantes [ (Var ( i ) 2 I k ) ) ;
Cov( i , j ) 0 i j ].
Cuando este supuesto de homocedasticidad (varianza constante en cada una de las variables) no
se cumple, se tiene entonces que el estimador mínimo cuadrático ordinario obtenido (MCO)
para cada estimador de los parámetros del modelo aplicado, no es de varianza mínima.
Para analizar la homocedasticidad de un modelo suele comenzarse por el análisis gráfico de los
residuos, siendo esencial el grafico de los residuos estudentizados respecto de la variable
dependiente (Y)
El gráfico anterior nos dice hay mayor incertidumbre cuando los valores predichos para la variable
rendimiento son altos y menos incertidumbre para valores predichos bajos de la variable rendimiento.
Por lo tanto aquí se aprecia claramente que el modelo utilizado NO es homocedástico
(Heterocedástico)
33
Aplicando otro modelo (modelo multiplicativo) para el mismo conjunto de variables, tenemos
que el grafico anterior muestra que los residuos para las predicciones de la variable rendimiento
están dentro de una cierta banda constante.
El gráfico de los residuos estudentizados contra cada una de las variables independientes permite
detectar qué variable es más culpable de que no se cumpla la homocedasticidad a aquella cuyo
gráfico se separa más del comportamiento aleatorio de los residuos.
A modo de ejemplo, supongamos un modelo multivariante cuya variable dependiente es Log (Q1) y
cuyas variables independientes son Log(P1), Log(P2), Log(P3) y Log(YD). Una vez ajustado el
modelo se realiza un análisis gráfico de homocedasticidad.
El problema aparece al graficar los residuos contra los valores predichos, que muestra una estructura no
demasiado aleatoria de sus puntos. Este hecho lleva a sospechar la presencia de heterocedasticidad
34
Para detectar que variable(s) podría(n) ser responsable de la posible heterocedasticidad, se construyen
los gráficos de residuos contra las cuatro variables explicativas. Se obtienen las siguientes figuras
Podemos concluir que la menos aleatoria es Log(YD), ya que aumenta la dispersión del error al ir de
izquierda a derecha. Por lo tanto no tiene estructura aleatoria.
35
¿Cómo resolver el problema de Heterocedasticidad?
Para detectar mejor la forma funcional que sigue la varianza, se ajustan distintos modelos para las
distintas formas funcionales y se toma como esquema de Heterocedasticidad aquella forma funcional
para la que el ajuste es mejor.
Multicolinealidad
En un modelo multivariante suele suponerse como hipótesis que sus variables (sobre todo las variables
predictoras o independientes X1, X2,………Xk , son linealmente independientes (cuando son v.a
normales la correlación lineal entre ellas es igual a cero). Esta hipótesis se denomina hipótesis de
independencia, y cuando no se cumple, decimos que el modelo presenta multicolinealidad.
36
Peso y Potencia están altamente correlacionados linealmente. También estas dos variables están altamente
correlacionadas con Rendimiento. Cuando vayamos a modelar el Rendimiento, se debe optar por utilizar la
variable Peso.
37
Autocorrelacíón
En general en el trabajo aplicado las perturbaciones aleatorias pueden seguir modelos autorregresivos
de orden 1
AR(1) t = t 1 + et
es la función de autocorrelación , t es la función de medias del proceso
Para analizar la autocorrelacíón de un modelo suele comenzarse por el análisis gráfico de los residuos,
siendo esencial la gráfica de los residuos estudentizados respecto del índice tiempo (o número de fila)
que debe presentar una estructura aleatoria, libre de tendencia
El estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es menor
que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%. Grafique los
residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
38
A continuación se presenta un gráfico que muestra un caso en que existe autocorrelacíón (clara
tendencia en gráfico de residuos frente al número de fila)
Linealidad
La linealidad es un supuesto implícito en todas las técnicas multivariantes basadas en medidas de
correlación (Regresión múltiple, regresión logística, análisis factorial, etc.). Como los efectos
no lineales nunca están representados en el valor de la correlación, su presencia tendría efectos nocivos
en el modelo multivariante.
La no linealidad se resuelve tomando como modelo multivariante el modelo no lineal que se detecte
que ajusta mejor las variables en estudio. El análisis gráfico permite detectar qué tipo de no linealidad
puede estar presente en los datos.
Los gráficos de dispersión de las variables con secuencias no lineales y los gráficos residuales con
falta de aleatoriedad permiten detectar la falta de linealidad, simplemente observando su forma.
En la gráfica se observa que se ajusta mejor una parábola que una recta a la nube de puntos.
39
Por otra parte si representamos los Residuos contra los valores de las variables independiente
obtenemos también tendencia cuadrática, tal como indica el gráfico siguiente:
De los dos gráficos anteriores se deduce que se ha cometido un error de especificación en el modelo,
siendo más adecuado el modelo cuadrático que el lineal. Por tanto hemos detectado la falta de
linealidad y a la vez se propone el modelo que soluciona el problema.
En la diagonal principal se muestra los gráficos de caja que nos permite apreciar el comportamiento cada
variable: Simetría, presencia de valores atípicos.
Fuera de la diagonal principal se muestra el gráfico de dispersión entre dos variables y su tendencia
40
41
Regresión múltiple
La más simple es la regresión lineal y el modelo al que se debieran ajustar los datos es:
Ejemplo
Un investigador químico desea entender cómo se asocian diferentes predictores y la resistencia a las
arrugas de la tela de algodón. El químico examina 32 piezas de celulosa de algodón a diferentes
configuraciones de tiempo de curado, temperatura de curado, concentración de formaldehído y relación
de catalizador. Se registró la calificación del planchado permanente, una medida de resistencia a las
arrugas, para cada producto.(Archivo Resist Arrugas Telas Algodón.sgd)
El químico realiza un análisis de regresión múltiple para ajustar un modelo con los predictores y
eliminar los predictores que no tengan una relación estadísticamente significativa con la respuesta.
Analizar y comentar
42
Resumen del Análisis
R-cuadrada = 72,9164 %; R-cuadrado (ajustado para g.l.) = 68,904 % ; Error estándar del est. = 0,81184
Error absoluto medio = 0,59961; Estadístico Durbin-Watson = 1,37944 (P=0,0367)
Autocorrelacíón de residuos en retraso 1 = 0,273727
Pero analizando la tabla anterior podemos concluir que la constante juega un rol estadísticamente
poco significativo en el modelo y por tanto podemos ajustar un modelo sin constante.
Pulsando el sector derecho del mouse tenemos que seleccionar “opciones de análisis” y luego quitar el
tiket de la ventana “constante”, que se despliega a continuación.
43
Vamos a tener un nuevo resumen del análisis
Error Estadístico
Parámetro Estimación Estándar T Valor-P
X1 0,131241 0,0591962 2,21705 0,0349
X2 0,212397 0,0313417 6,77682 0,0000
X3 0,00717489 0,00297897 2,40851 0,0228
X4 0,081137 0,0529933 1,53108 0,1370
Las variables X1, X2 y X3 resultan ser significativas dentro del modelo ajustado
R-cuadrada = 95,8112 % ; R-cuadrado (ajustado para g.l.) = 95,3624 %; Error estándar del est. = 0,812633
Error absoluto medio = 0,62333; Estadístico Durbin-Watson = 1,37685. Autocorrelacíón de residuos en retraso
1 = 0,265805
Correlaciones
X1 X2 X3 X4 Y
0,1119 0,1544 0,0077 0,3644
X1 (32) (32) (32) (32)
0,5419 0,3988 0,9665 0,0403
0,1119 0,1163 -0,0116 0,7486
X2 (32) (32) (32) (32)
0,5419 0,5262 0,9496 0,0000
0,1544 0,1163 0,0450 0,3655
X3 (32) (32) (32) (32)
0,3988 0,5262 0,8067 0,0397
0,0077 -0,0116 0,0450 0,1785
X4 (32) (32) (32) (32)
0,9665 0,9496 0,8067 0,3282
0,3644 0,7486 0,3655 0,1785
Y (32) (32) (32) (32)
0,0403 0,0000 0,0397 0,3282
Vemos que la variable respuesta Y tiene correlación significativamente distinta de cero con las variables X1, X2
y X3. Y no tiene correlación significativa con X4.
Además de la tabla anterior podemos deducir que las variables Independientes están no correlacionadas entre
ellas, con lo cual las variables no presentan multicolinealidad. (supuesto muy importante del AM).
44
De las tablas entregadas por el procedimiento obtengamos “Matriz de Correlación”
X1 X2 X3 X4
X1 1,0000 -0,1592 -0,6934 -0,0979
X2 -0,1592 1,0000 -0,3313 -0,0181
X3 -0,6934 -0,3313 1,0000 -0,3685
X4 -0,0979 -0,0181 -0,3685 1,0000
Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas
correlaciones pueden usarse para detectar la presencia de multicolinealidad severa, es decir, correlación
entre las variables predictoras. En este caso, hay 1 correlación con valor absoluto mayor que 0,5.
(Implica correlación significativa)
Cuando existen muchas variables X que pueden influir en la respuesta Y, estas opciones pueden
resultar complicadas de interpretar.
Pulsando el sector derecho del mouse tenemos que seleccionar “opciones de análisis” y luego en la
pantalla que se despliega seleccionar
R-cuadrada = 95,4605 % ; R-cuadrado (ajustado para g.l.) = 95,1475 % ; Error estándar del est. = 0,831253
Error absoluto medio = 0,671107; Estadístico Durbin-Watson = 1,37766; Autocorrelacíón de residuos en
retraso 1 = 0,256919
45
Inconveniente:
El modelo es muy dependiente de la primera elegida (la que más información aporta por sí sola,
pero puede no ser la mejor para trabajar con ella)
Resultados gráficos
La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en
valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor
observado de Y del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, no hay
residuos Estudentizados mayores que 2.
46
Puntos Influyentes
Distancia de
Fila Influencia Mahalanobis DFITS
1 0,0974509 2,27145 -0,63534
22 0,193422 6,22645 -0,804841
En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,09375. No hay puntos con
más de 3 veces el valor de influencia promedio. Hay 2 datos con valores inusualmente grandes de DFITS.
Error Estadístico
Parámetro Estimación Estándar T Valor-P
X1 0,141047 0,0623766 2,26121 0,0320
X2 0,22533 0,0317028 7,10756 0,0000
X3 0,00879409 0,0027464 3,20204 0,0035
47
La ecuación del modelo ajustado es
Este indicador nos indica que no existe autocorrelacíón estadísticamente significativa y por lo tanto no
es necesario realizar una transformación en los datos de la mediante el método de Cochrane-Orcutt,
por ejemplo.
Podemos apreciar que hay bastante evidencia como para decir que los residuos no se ajustan o se
comportante como una distribución de probabilidad normal.
48
Los test cuantitativos dan la razón al pensamiento subjetivo anterior.
Pruebas de Normalidad para RESIDUOS
Debido a que el valor-P más pequeño de las pruebas realizadas es menor a 0,05 se puede rechazar la
idea de que RESIDUOS proviene de una distribución normal con 95% de confianza.
Pruebas de Bondad-de-Ajuste para RESIDUOS
Prueba de Kolmogorov-Smirnov
Normal
DMAS 0,152384
DMENOS 0,101552
DN 0,152384
Valor-P 0,50033
Debido a que el valor-P más pequeño de las pruebas realizadas es mayor ó igual a 0,05, no se puede
rechazar la idea de que RESIDUOS proviene de una distribución normal con 95% de confianza.
Este gráfico nos dice que no es tan evidente que los residuos se comportan como una distribución
normal.
Esto significa una importante conclusión pues no se está cumpliendo un relevante supuesto del modelo
de regresión múltiple.
¿Será que hay un problema de un error de especificación en el modelo? Recordemos que al parecer la
variable X2 deja residuos que presentan una tendencia cuadrática
49
En la ventana “resumen del análisis” se depliega la siguiente tabla con las estimaciones de los
parámetros del modelo y su significancia estadística.
Y obtenemos
Error Estadístico
Parámetro Estimación Estándar T Valor-P
X1 0,1101 0,0513589 2,14373 0,0409
X2 0,605821 0,112153 5,40172 0,0000
X3 0,00504054 0,00260671 1,93368 0,0633
X2^2 -0,0286009 0,00793172 -3,60589 0,0012
R-cuadrada = 96,9001 % ; R-cuadrado (ajustado para g.l.) = 96,5679 % ; Error estándar del est. = 0,699081
Error absoluto medio = 0,458862; Estadístico Durbin-Watson = 1,30307; Autocorrelacíón de residuos en
retraso 1 = 0,209264
Haciendo eliminación de residuos atípicos y puntos influyentes se mejora el modelo inicial
Error Estadístico
Parámetro Estimación Estándar T Valor-P
X1 0,0998381 0,033867 2,94794 0,0070
X2 0,82676 0,0703597 11,7505 0,0000
X3 0,00423502 0,00165835 2,55376 0,0174
X2^2 -0,0455726 0,0050459 -9,03159 0,0000
R-cuadrada = 99,1158 % ; R-cuadrado (ajustado para g.l.) = 99,0053 %; Error estándar del est. = 0,397536
Error absoluto medio = 0,315917; Estadístico Durbin-Watson = 1,73902
Autocorrelación de residuos en retraso 1 = 0,0858826
50
La ecuación del modelo ajustado es
Con lo cual este modelo ajustado cumple con todos los requisitos de un modelo de Regresión Múltiple
51
EXTENSIONES DEL MODELO DE REGRESIÓN MÚLTIPLE
Es frecuente que la relación entre variables dependa de alguna variable cualitativa. Por ejemplo, la
relación entre beneficios tamaño empresarial puede depender del sector industrial (factor). El consumo
de combustible o rendimiento de un automóvil puede depender del origen de procedencia. La estatura
de una persona puede depender del Género y Etnia
En general, siempre que los datos puedan clasificarse en grupos homogéneos es conveniente incluir la
variable cualitativa “grupo” como variable explicativa o independiente.
La siguiente figura presenta el valor del alquiler (Y) en una muestra de viviendas en función de los
metros cuadrado de ella (X) y la recta ajustada.
Al analizar los puntos muestrales, se detecta que las observaciones varían respecto de un atributo: Las
viviendas incluidas en el grupo A pertenecen a una zona periférica y que las del grupo B corresponden
al sector centro de la ciudad.
Ajustando regresiones separadas en los dos grupos resultan las rectas yˆ A y yˆ B . Estas rectas
ajustadas son bien distintas de la obtenida sin tener en cuenta el atributo”localización de la vivienda”
La solución de dividir los datos en grupos distintos y estimar regresiones distintas en cada uno, no
siempre es posible debido a múltiples razones (Puede que se produzca un desbalance en la cantidad de
observaciones entre los grupos, etc.)
La solución consiste en incluir la variable atributo dentro del modelo. Por ejemplo, para el caso gráfico
presentado anteriormente, se definirá una varible binaria Z , que tomará el valor cero para las
observaciones del grupo A y el valor 1 para las observaciones del grupo B.
52
y 0 1 x 2 z
Por tanto el coeficiente de la variable binaria 2 , medirá el efecto incremental que produce la zona B
sobre la zona A. Llamaremos variables ficticias en nuestro idioma (En Inglés reciben el nombre de
variables dummy) a estas variables binarias, que como “z” representan atributos o formas de clasificar
los datos muestrales.
Procedimiento General
Esta idea puede generalizarse a cualquier número de variables: Supongamos que queremos separar las
observaciones en D grupos distintos, en función de su respuesta media a igualdad de valores de las
variables cuantitativas.
Una vez creada las variables ficticias se procede a realizar la regresión múltiple habitual.
La tabla siguiente muestra una parte del archivo en Excel “93 automóviles” que muestra como la
variable o factor cualitativo “Transmisión” con tres tipos o grupos dio origen a dos variables ficticias
Z1t y Z2t.
Z1t toma valores iguales a 1 cuando la transmisión es delantera y cero en otro caso
Z2t toma valores iguales a 1 cuando la transmisión es trasera y cero en otro caso
Cuando un automóvil tiene tracción en las 4 ruedas, ambas variables tienen cero
Se desea un modelo pueda predecir el Rendimiento (Y) a partir de Peso, Potencia Máxima, Distancia
entre ejes, transmisión, y Lugar de fabricación.
Originalmente hay tres variables independientes cuantitativas y dos variables independientes
cualitativas.
53
Resumen del Análisis
Variable dependiente: Rend Carret (mpg);
Variables independientes:
Peso (libras); Potencia Max (H P); Dist entre Ejes (Pulgadas); Z1t (Delantera); Z2t (Trasera); Lugar Fabric (1 = USA)
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 26,4782 7,83791 3,37822 0,0011
Peso -0,0111116 0,00170207 -6,52827 0,0000
Potencia Max 0,00753099 0,0107087 0,70326 0,4838
Dist entre Ejes 0,335788 0,111771 3,00424 0,0035
Z1t 1,0553 1,089 0,969056 0,3352
Z2t 1,36245 1,28934 1,0567 0,2936
Lugar Fabric -0,44396 0,650747 -0,682232 0,4969
R2 = 70,2208 %; R2 (ajustado para g.l.) = 68,1432 %; Error estándar del est. = 3,00933; Error absoluto medio = 2,19307
Estadístico Durbin-Watson = 1,58191 (P=0,0155); Autocorrelacíón de residuos en retraso 1 = 0,207005
Se deben hacer los análisis de significancia estadística de los parámetros estimados, interpretar los
resultados, validación del modelo ajustado, etc. , etc. ya vistos anteriormente.
El investigador podría estar interesado en analizar la posible interacción entre las variables ficticias y el
Lugar de Fabricación.
54
Resumen del Análisis
Variable dependiente: Rend Carret (mpg)
Variables independientes:
Peso (libras); Potencia Max (H P); Dist entre Ejes (Pulgadas); Z1t (Delantera); Z2t (Trasera); ugar Fabric (1 = USA)
Z1t*Lugar Fabric; Z2t*Lugar Fabric
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 23,2102 7,93307 2,92576 0,0044
Peso -0,0122176 0,00173497 -7,04197 0,0000
Potencia Max 0,0153234 0,0109613 1,39796 0,1658
Dist entre Ejes 0,396374 0,112803 3,51386 0,0007
Z1t 0,623431 1,45042 0,429827 0,6684
Z2t -1,42503 1,88801 -0,754781 0,4525
Lugar Fabric -1,52474 1,8959 -0,804231 0,4235
Z1t*Lugar Fabric 0,439204 2,02572 0,216814 0,8289
Z2t*Lugar Fabric 4,50672 2,45746 1,83389 0,0702
R2 = 72,1637 % ; R2 (ajustado para g.l.) = 69,5126 % ; Error estándar del est. = 2,94393; Error absoluto medio = 2,05231
Estadístico Durbin-Watson = 1,7761 (P=0,1099); Autocorrelacíón de residuos en retraso 1 = 0,108021
Se deben hacer todos los análisis de significancia estadística de los parámetros estimados, interpretar
los resultados, validación del modelo ajustado (Residuos atípicos, puntos influyentes, etc., etc.) ya
vistos anteriormente.
55
BIBLIOGRAFIA
CESAR PEREZ LOPEZ. Ténicas de Análisis Multivariante de Datos. Editorial Pearso. Prentice Hall.
Año2004
DANIEL PEÑA SANCHEZ DE RIVERA. Estádistica Modelos y Métodos. 2.Modelos lineales y series
temporales. Editorial. Alianza Editorial. Año 1989.
DANIEL PEÑA SANCHEZ DE RIVERA. Análisis de Datos Multivariantes. Editorial Mc Graw Hill.
Año 2002.
56