Sunteți pe pagina 1din 31

Pronsticos, Series

de Tiempo y
Regresin
Captulo 5: Construccin de
Modelos y Anlisis Residual

Temas
1. Construccin de modelos y los efectos

de la multicolinealidad
2. Anlisis residual en la regresin simple
3. Anlisis residual en la regresin
mltiple
4. Diagnstico para detectar
observaciones atpicas e influyentes

Construccin de modelos y los


efectos de la multicolinealidad
Sub-temas

multicolinealidad
comparacin de los modelos de regresin
con base en R2, s, R2 ajustada, longitud del
intervalo de prediccin y estadstica C
regresin por pasos y eliminacin hacia
atrs

Multicolinealidad
las variables independientes estn

relacionadas entre s o dependen una de otra


Cuando existe la multicolinealidad entre dos o
ms variables independientes, la importancia
de stas parecer ser menor.
Se utiliza una matriz de correlacin
La multicolinealidad es grave si por lo menos
uno de los coeficientes de correlacin simple
entre las variables independientes es al menos
de 0.9.

Multicolinealidad
factores de inflacin de la varianza (variance inflation

factor)

1
VIF j
1 R 2j
Rj2 es el coeficiente de determinacin mltiple para el

modelo que relaciona xj con las otras variables


independientes.
VIFj > 1

Multicolinealidad
La multicolinealidad es grave si:
1. el VIF ms grande > 10
2. el VIF medio es sustancialmente > 1

Construccin de modelos y los


efectos de la multicolinealidad
comparacin de los modelos de

regresin con base en R2, s, R2 ajustada,


longitud del intervalo de prediccin y
estadstica C
R2 = (variacin explicada)/(variacin total)

el R2 al el nmero de variables

Construccin de modelos y los


efectos de la multicolinealidad
comparacin de los modelos de regresin con

base en R2, s, R2 ajustada, longitud del


intervalo de prediccin y estadstica C
s

SSE
n k 1

al el nmero de variables, se pierden grados de


libertad
si al introducir otra variable independiente al
modelo, el s , no debemos sumar la variable
independiente al modelo.

Construccin de modelos y los


efectos de la multicolinealidad
comparacin de los modelos de regresin con

base en R2, s, R2 ajustada, longitud del


intervalo de prediccin y estadstica C
k n 1

R 2 R2

n 1 n k 1

al el nmero de variables, se pierden grados de


libertad
si al introducir otra variable independiente al
modelo, el R2 ajustada , no debemos sumar la
variable independiente al modelo.

Construccin de modelos y los


efectos de la multicolinealidad
comparacin de los modelos de regresin con

base en R2, s, R2 ajustada, longitud del


intervalo de prediccin y estadstica C
SSE
C 2 n 2k 1
sp

Queremos que C sea pequea.


Queremos que C sea casi igual a k + 1.
Si C >> k + 1, el modelo tiene un sesgo notable.
Si C < k + 1, el modelo no tiene sesgo y es
deseable.

Construccin de modelos y los


efectos de la multicolinealidad
Regresin por pasos

Se especifican entry y stay

Paso 1:
se corre una regresin para cada variable
independiente.
Se denomina a la variable con el mayor valor de la
estadstica t, x[1]

1.
2.
3.

Si la estadstica t no indica que x[1] sea significante en


el nivel entry , el procedimiento termina. Si es
significante, se conserva para usarla en el paso 2.

Construccin de modelos y los


efectos de la multicolinealidad
Regresin por pasos

Paso 2:
1.
se corre una regresin agregando cada variable
independiente al modelo
y = 0 + 1x[1] + 2xj +
1.

Se denomina a la variable (nueva) con el mayor valor


de la estadstica t, x[2]

2.

Si la estadstica t no indica que x[2] sea significante en


el nivel entry , el procedimiento termina. Si es
significante, se comprueba que la estadstica t >stay
para x[1].

Construccin de modelos y los


efectos de la multicolinealidad
Regresin por pasos

Pasos posteriores:
1.
se continan agregando variables independientes, una
por una, al modelo. En cada paso se suma una
variable independiente al modelo si teine la estadstica
t ms grande de las variables independientes que no
estn en el modelo y si su estadstica t indica que es
significante en el nivel
2.

Despus de aadir una variable independiente, el


procedimiento comprueba que todas las variables
independientes ya incluidas tienen t significante en el
nivel stay

Construccin de modelos y los


efectos de la multicolinealidad
eliminacin hacia atrs
1.
Se corre una regresin con todas las p variables
independientes.
2.
Si la estadstica t ms pequea es significante en el
nivel stay , se conserva el modelo con todas las
variables.
3.
Si la estadstica t ms pequea no es significante en el
nivel stay , se elimina esa variable del modelo y se corre
la regresin de nuevo.
4.
Se repite estos pasos hasta conseguir que la
estadstica t ms pequea sea significante en el nivel
stay .

Anlisis residual en la
regresin simple
Sub-temas

grficas de residuos
suposicin de varianza constante
suposicin de la forma funcional correcta
suposicin de la normalidad
suposicin de independencia
transformacin de la variable dependiente

Anlisis residual en la
regresin simple
recuerda que

e y y
Si las suposiciones de la regresin se

mantienen, los residuos deben parecer que


han sido seleccionados en forma aleatoria e
independiente de poblaciones distribuidas
normalmente cuya media es 0 y su varianza
es 2

Anlisis residual en la
regresin simple
grficas de residuos
Se elaboran grficas de residuos
contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los
datos han sido observados (para series
de tiempo)

Anlisis residual en la
regresin simple
suposicin de varianza constante
se examinan las grficas de los residuos

varianza de error creciente


varianza de error decreciente

Anlisis residual en la
regresin simple
suposicin de la forma funcional correcta
Si usamos un modelo de regresin lineal
simple cuando la relacin verdadera es
curva, la grfica de residuos tendr una
apariencia curva.

Anlisis residual en la
regresin simple
suposicin de la normalidad
Se acomodan los errores en orden ascendente
Se grafican contra el valor z correspondiente.
z = punto en el eje horizontal bajo la curva
normal estndar de modo que el rea bajo la
curva a la izquierda de z(i) es (3i-1)/(3n+1)
Esta grfica debe asemejarse a una recta.

Anlisis residual en la
regresin simple
suposicin de independencia
ms probable violar esta suposicin en
series de tiempo:

autocorrelacin positiva
patrn cclico en los errores
autocorrelacin negativa

Los trminos de error deben ocurrir en

un patrn aleatorio en el tiempo.

Anlisis residual en la
regresin simple
transformacin de la variable dependiente
posible remedio en casos de
transgresin de las suposiciones de

varianza constante
forma funcional correcta
normalidad

Anlisis residual en la
regresin simple
transformacin de la variable dependiente
transformacin de la raz cuadrada
y* y y.5
transformacin de la raz curta
y* 4 y y.25
transformacin logartmica

y* ln y

Anlisis residual en la
regresin mltiple
Se grafican los residuos contra
1. valores de cada variable independiente
2. valores del valor predicho de la variable

dependiente
3. orden en el tiempo en el cual se
observaron los datos

Diagnstico para detectar


observaciones atpicas e
influyentes
Sub-temas

valor de la ventaja
residuos y residuos estudentizados
residuos eliminados y residuos eliminados
estudentizados
medida de la distancia de Cook
Qu hacer con respecto a las
observaciones atpicas y las influyentes

Diagnstico para detectar


observaciones atpicas e
influyentes
atpica: una observacin muy separada

del resto de los datos


influyente: cambia de forma significativa
algn aspecto importante (b o s) del
anlisis de regresin si se elimina la
observacin

Diagnstico para detectar


observaciones atpicas e
influyentes
valor de la ventaja
mide la distancia entre los valores x de la
observacin y el centro de la regin
experimental
Si el valor de la ventaja es grande, la
observacin es atpica con respecto a sus
valores x.
Se considera grande si es mayor que lo doble
del promedio de todos los valores de la ventaja.
(2(k+1)/n)

Diagnstico para detectar


observaciones atpicas e
influyentes
residuos y residuos estudentizados
Cualquier residuo notablemente
diferente de los otros es sospechoso.
residuo estudentizado: e/s
Si el resiguo estudentizado es mayor
que 2, hay alguna evidencia de que la
observacin es atpica.

Diagnstico para detectar


observaciones atpicas e
influyentes
residuos eliminados y residuos eliminados

estudentizados
se calcula la distancia entre yi y y(i)
residuo eliminado estudentizado = (residuo

eliminado) / s
Hay fuerte evidencia de que la observacin es
atpica con respecto a su valor y si el residuo
eliminado estudentizado es mayor que

n k 2
t.005

Medida de la Distancia de
Cook
D de Cook
Si la D de Cook de la observacin i es

grande, entonces las estimaciones


puntuales de mnimos cuadrados
cambian mucho con la inclusin de i
Si D < F[.80], i no es influyente
Si D > F[.50], i s es influyente

Qu hacer con respecto a las


observaciones atpicas y las
influyentes

1.

2.

3.

4.

Comenzar con las observaciones atpicas en la


variable y
Comprobar que el valor est capturado
correctamente; corregirlo si es necesario.
Si no se puede corregir o si es correcto, desechar
la observacin y correr la regresin de nuevo.
Luego ver los valores x
Tratar de detectar razones (causas) para el valor
y atpico (ver si algn valor x tambin es atpico).
Considerar otras variables independientes no
incluidas en el modelo.