Documente Academic
Documente Profesional
Documente Cultură
Introducción
Está diseñado para construir un modelo estadístico describiendo el impacto de dos o más
factores cuantitativos X sobre una variable dependiente Y. El procedimiento incluye una
opción para realizar regresión por pasos, en la cual se selecciona una de las variables X
antes establecidas. El modelo colocado puede ser usado para hacer predicciones,
incluyendo límites de confianza y límites de predicción. Los residuos pueden también ser
graficados observando la manera en que influyen.
Inferencias en la R.L.M
Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con media
cero y varianza 𝜎 2 .
La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver
si la regresión es significativa. Esto se logra probando la siguiente hipótesis:
𝐻0 : 𝛽1 = 𝛽2 = ⋯ 𝛽𝑘 = 0
Aceptar 𝐻0 significa que ningún término o variable en el modelo tiene una contribución
significativa al explicar la variable de respuesta, Y. Mientras que rechazar 𝐻0 implica que
por lo menos un término en el modelo contribuye de manera significativa a explicar Y. El
procedimiento para probar esta hipótesis es una generalización del procedimiento
utilizado para probar la hipótesis equivalente en regresión lineal simple.
El estadístico de prueba para la significancia del modelo de regresión lineal múltiple está
dado por:
𝑆𝐶𝑅 /𝐾 𝐶𝑀𝑅
𝐹0 = =
𝑆𝐶𝐸 /(𝑛 − 𝑘 − 1) 𝐶𝑀𝐸
𝛽𝑖 = 0
𝛽𝑖 ≠ 0
𝑏𝑖
𝑡𝑐 = ; 𝑐𝑜𝑛 𝑣 = 𝑛 − 𝑝 − 1
𝑠𝑏𝑖
El modelo permite generar predicciones para el valor esperado o para un valor individual
de la variable dependiente (Y) asociado a un valor dado de la variable independiente (X).
En ambos casos la predicción puntual es la misma y se obtiene sustituyendo en el modelo
estimado el valor X0 para el cual se desea realizar la predicción.
1
𝑥01
𝑥02
𝑥0 = .
.
.
[ 𝑥 0𝑘 ]
Para el modelo de regresion lineal múltiple, un intervalo de confianza del 100 (1–α) por
ciento para la respuesta media en el punto x01, x02,…, x0k es:
µ̂𝑦/𝑥0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0 ≤ µ̂𝑦 ≤ µ̂𝑦 + 𝑡𝛼,𝑛−𝑝 √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0
2 𝑥0 𝑥0 2
Un intervalo de predicción para esta observación futura del 100 (1-α) por ciento es:
𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 ) ≤ 𝑦0 ≤ 𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 )
2 2
de .
Introducción
Medidas de variación
Nos indica el grado de relación lineal que existe entre las variables que están siendo
objeto de estudio, es un número que se encuentra entre -1 y 1.
Los principales supuestos que se hacen en el análisis de regresión lineal son los
siguientes:
1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una
línea recta.
2. El término de error tiene media cero.
3. El término de error tiene varianza constante 2.
4. Los errores no están correlacionados.
5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el
supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos
básicos de la regresión no sólo lineal sino también la múltiple.
Los residuos están definidos como las n diferencias,
^
ei Yi Y i , i 1,2,3..., n
Donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de
regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o
estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e
el valor observado de los errores. Así, cualquier desviación anormal de los supuestos
acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo
para descubrir varios tipos de deficiencias del modelo.
n __ 2 n
(ei e ) e i
2
SS E
i 1
i 1
MS E
n2 n2 n2
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y
varianza unitaria aproximada.
ei
di ,....1 1,2,....., n
MS E
1. Checar normalidad.
2. Checar el efecto del tiempo si su orden es conocido en los datos.
3. Checar la constancia de la varianza y la posible necesidad de transformar los datos
en Y.
4. Checar la curvatura de más alto orden que ajusta en las X’s.
Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan
un papel importante en la evaluación de la adecuación del modelo, de forma similar que
en la regresión lineal simple. Es conveniente graficar los residuos siguientes:
eij* ei b j X ij , i 1,2,...., n
Análisis residual
Nos permite observar que se cumplan los supuestos bajo los cuales hemos construido el
modelo de regresión, es este caso del supuesto general de que la varianza del error es la
misma para todos los valores x.
Significa que las variables independientes del problema están relacionadas. Puede ser
porque así es el fenómeno y por lo tanto no hay arreglo, o por el diseño de obtención de
los datos, entonces lo que se debe de hacer es obtener más datos con un diseño que
corrija el problema.
Existen reglas generales, algunas de ellas formales y otras informales, para detectar la
multicolinealidad varias de ellas son:
Cuando se tiene un modelo con más de dos variables independientes, las correlaciones
elevadas (superiores a 0.8) son una condición suficiente pero no necesaria para la
existencia de multicolinealidad, debido a que ésta puede existir, a pesar de que las
correlaciones simples sean bajas (inferiores a 0.5).
La multicolinealidad surge debido a que una o más variables son combinaciones exactas
o aproximadamente lineales de las otras variables, por lo tanto una manera de averiguar
qué variable X está relacionada con las otras variables independientes consiste en hacer
una regresión entre cada Xi y las demás variables independientes, calculando el
respectivo coeficiente de determinación que se notará como R2i; cada una de estas
regresiones se denomina regresión auxiliar , auxiliar a la regresión principal de Y con las
X. Se define la siguiente variable: