Documente Academic
Documente Profesional
Documente Cultură
En general, el procedimiento para elaborar un modelo de regresin implica varias etapas, tales como: Etapa 1. Anlisis exploratorio: Todo proceso de anlisis de datos requiere, en forma previa de la verificacin de la calidad de la informacin y de la validez de los supuestos necesarios para enfrentar el proceso de ajuste de un modelo. Etapa 2. Formulacin de una clase o familia de modelos: En esta etapa se debe identificar el tipo de problema al cual se enfrenta, para encontrar, entre las distintas alternativas de modelos posibles, la que proporcione la mejor representacin de la situacin o fenmeno a estudiar. Etapa 3. Estimacin de parmetros: Utilizando algoritmos adecuados, y disponiendo de una muestra de tamao y caractersticas especficas, se generan, para el modelo seleccionado en la etapa 2, los estimadores necesarios. Etapa 4. Verificacin y diagnstico: Una vez obtenidos los estimadores de los parmetros del modelo, se debe verificar si el modelo propuesto representa eficientemente las relaciones entre las variables de inters. Esta etapa es de interpretacin de resultados grficos, aplicacin de pruebas de hiptesis especficas sobre los parmetros del modelo. En caso que el modelo ajustado no represente las relaciones propuestas, se debe volver a la etapa 2 y seleccionar una nueva familia de modelos. Etapa 5. Prediccin: En la mayora de las aplicaciones prcticas de modelos de regresin, el objetivo bsico es encontrar una relacin de dependencia entre una variable dependiente y un conjunto de variables predictoras. La finalidad de tal bsqueda, en tales casos, es poder predecir el comportamiento de la variable respuesta ante cambios de las variables predictoras, en particular, ante valores futuros de estas variables. Para poder construir estas predicciones se debe estar convencido que el modelo en cuestin es correcto. Etapa 6. Simulacin: La etapa final del proceso de construccin de un modelo, pasa necesariamente por la verificacin de la capacidad del modelo para reproducir el comportamiento de la relacin descrita, usando datos simulados. Este tipo de estudios tiene especial importancia en la planificacin y toma de decisiones. Debido a las restricciones propias de este curso, solamente se dar una pequea mirada a la aplicacin de mtodos de regresin, restringindolo solamente a la etapa de identificacin, formulacin de modelos y estimacin de parmetros, para el caso del modelo de regresin lineal simple. El alumno, sin embargo, debe tener claro que en un caso real, los 6 pasos sealados anteriormente no deben ser evitados y que el modelo puede considerar varias variables.
Probabilidades y Estadstica
Yi = 0 + 1 X i + i
Donde 0 es el intercepto de la recta de regresin 1 es la pendiente de la recta de regresin i es la componente de error del modelo. El componente aleatorio i corresponde a la parte de la variable respuesta que no logra ser explicada por el modelo, es decir:
i i = yi y
Para que las inferencias que se realicen a partir de este modelo sean vlidas, el error aleatorio (i) debe cumplir con varios supuestos, a saber: Esperanza cero, varianza 2, errores independientes entre s e idnticamente distribuidos segn una normal. La estimacin de los parmetros se puede realizar por varios mtodos, siendo uno de ellos el mtodo de los mnimos cuadrados, que consiste en minimizar las diferencias cuadrticas que se producen entre los valores observados y los estimados, para ello se generan las ecuaciones normales, es decir:
2 + x i ) = yi SCE = i2 = ( yi y 0 1 i i =1 i =1 i =1
( (
))
0 y un 1 que satisfagan las siguientes ecuaciones normales: Es decir, si SCE posee un mnimo, se busca un
SCE =0 0
SCE =0 1
Para el caso del modelo de regresin lineal simple, los estimadores resultantes son:
n n n n xi yi xi yi i =1 i =1 = i =1 1 2 n n 2 n xi xi i =1 i =1
= y x 0 1
Ejemplo: La siguiente tabla de datos corresponde a las respuestas del crecimiento de una planta (en mm) al variar su temperatura ambiental desde -3 a +3 C. Usando el mtodo de mnimos cuadrados, obtener una lnea recta que se ajuste a los puntos:
X Y
-3 1 -2 0 -1 0 0 1 1 1 2 3 3 2
Probabilidades y Estadstica
Solucin:
3.5 3 Crecimiento 2.5 2 1.5 1 0.5 0 -4 -3 -2 -1 0 Temperatura 1 2 3 4
X Y X*Y X2
-3 1 -2 0 -1 0 0 1 1 1 2 3 3 2 -3 0 0 0 1 6 6 9 4 1 0 1 4 9
0 8
10
28
1 =
7 * 10 (0 * 8) = 0.3571 7 * 28 0
Sumas
i = 1.143 + 0.3571X i Y
Ejemplo: Los siguientes datos corresponden a la temperatura promedio semanal observada, y el consumo semanal de gas en una casa. Obtenga un modelo lineal que prediga el consumo semanal de gas en funcin de la temperatura promedio semanal observada.
Temperatura Consumo de Exterior Gas (pies (C) cbicos) X 0,4 2,5 2,9 3,2 3,6 3,9 4,2 4,3 5,4 6 6,2 6,3 6,9 7 Y 6,4 6 5,8 5,8 5,6 4,7 5,8 5,2 4,9 4,9 4,5 4,6 3,7 3,9 x2 0,16 6,25 8,41 10,24 12,96 15,21 17,64 18,49 29,16 36 38,44 39,69 47,61 49 xi yi 2,56 15 16,82 18,56 20,16 18,33 24,36 22,36 26,46 29,4 27,9 28,98 25,53 27,3 Edmundo Pea Rozas, Juan Garcs Seguel
Probabilidades y Estadstica
= 1
= 6,8598 0,3859 X Y i i
Anlisis de Adecuacin del Modelo La variabilidad de la variable respuesta puede ser expresada en trminos de una variabilidad explicada por el modelo ms una variabilidad no explicada o residual, esto se puede visualizar con claridad el expresar el error de la manera siguiente:
i = yi y ( y i y ) i = yi y
Si esta expresin es elevada al cuadrado y se considera la sumatoria en las n observaciones, se tiene:
y ) + ( y y ) ( y y ) = ( y
2 2 i i i i
De donde se puede inferir que el lado izquierdo de la ecuacin que representa la variabilidad de la variable respuesta en relacin a la media est formada por dos componentes, una primera componente que corresponde a la variabilidad que es explicada por el modelo de regresin y la segunda que corresponde a la parte que no logra ser explicada por la regresin, es decir el error.
Residual Y
yi
i yi y yi y
i y
y
i y y
Total
+ x i = y 0 1 i
Regresin xi X
A partir de esta descomposicin de la variabilidad presente en la variable dependiente, se deriva una tabla de anlisis de varianza, que en el caso de la regresin lineal simple tiene la forma siguiente:
F. de Variacin
g.l.
Suma de Cuadrados
Cuadrados Medios
Regresin
i y ) ( y
i =1
y) ( y
i =1 i
Residual
n-2
) ( yi y
i =1
2 2 = sR =
) ( y y
i =1 i
n2
Total
n-1
( y y )
i =1 i
Probabilidades y Estadstica
La principal utilidad de esta tabla radica en que permite obtener una estimacin de la varianza residual y evaluar la significacin de los parmetros envueltos en el modelo de regresin, es decir permite evaluar si la o las variables predictoras contribuyen de manera significativa en la explicacin de la variable dependiente, es decir: H0: 1=0 v/s Utilizando como estadstico de prueba: H1: 10
F=
F1;n 2
R2 = 1
Corresponde al coeficiente de determinacin, el cual representa la proporcin de la variacin total de la variable dependiente que es explicada por el modelo de regresin. En el caso particular de la regresin lineal simple, este coeficiente se puede obtener tambin como el cuadrado del coeficiente de correlacin lineal. Intervalo de Confianza para la pendiente Si se asume que las variaciones de las observaciones en torno a la recta se distribuyen segn una normal, es decir, asumiendo que los errores i distribuyen normal con media 0 y varianza 2, los lmites de confianza para 1 se estiman como:
1 = 1
tn 2;1 sR
2
(x x )
i =1 i
= s =
1 1
(x x )
i =1 i
Intervalo de Confianza para el intercepto Si se asume que las variaciones de las observaciones en torno a la recta se distribuyen segn una normal, es decir, asumiendo que los errores i distribuyen normal con media 0 y varianza 2, los lmites de confianza para 0 se estiman como:
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1
Probabilidades y Estadstica
= s = R
0 0
x
i =1 n i =1
2 i 2
n ( xi x )
Para verificar la significacin de los parmetros estimados, se plantean las siguientes pruebas de hiptesis:
t=
0 s 0
tn 2
t=
1 s1
tn 2
2 1 (x x ) 2 + n 0 0 ) = sR V(y 2 n ( xi x ) i =1
Entonces:
0 tn 2;1 s y 0 tn 2;1 y 0 = y
2
2 1 (x x ) 2 + n 0 sR 2 n ( xi x ) i =1
2 1 (x x ) 2 1 + + n 0 0 ) = sR V(y 2 n ( xi x ) i =1
Entonces:
0 tn 2;1 s y 0 tn 2;1 y 0 = y
2
2 1 (x x ) 2 1 + + n 0 sR 2 n ( xi x ) i =1
Probabilidades y Estadstica
xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 18 20 72 76 59 68 60 58 70 65 54 83 64 66 61 66 57 81 59 71 62 75
yi
9 10 6 8 7 5 8 7 4 11 7 7 6 8 5 11 5 9 6 10
i = 9.095 + 0.249 xi y
Se obtiene la siguiente tabla ANOVA:
Probabilidades y Estadstica
g.l.
1 18 19
77,2661 0,2047
377,5345
0,000
H1: 10
F=
La prueba de hiptesis anterior permite concluir que la pendiente es significativamente distinta de cero, por lo que esto se puede interpretar como que la talla de los nios contribuye a describir el comportamiento del peso de los nios
R2 = 1
El coeficiente de determinacin seala que el 95,45% de la variacin del peso logra ser explicada por la regresin, es decir, el 95,45% de la variacin del peso es explicada por la talla de los nios.
Pendiente
Intercepto
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1
1 = 1
tn 2;1 sR
2
(x x )
i =1 i
1 = 0, 249
0, 222 1 0, 2763
89289 20(1242,55)
Probabilidades y Estadstica
Ejemplo: (Continuacin del ejemplo del consumo de gas en funcin de temperatura exterior). Recordar que el modelo obtenido era:
= 6,8598 0,3859 X Y i i
Donde: X: Temperatura exterior promedio semanal (C) Y: Consumo semanal de Gas (pies cbicos) Grficamente:
Grados de libertad 1 12 13
F 61,3799
F=
Entonces, se puede concluir que la pendiente es significativamente distinta de cero, por lo que esto se puede interpretar como que la temperatura exterior promedio s contribuye a explicar el consumo de gas semanal. Adems, calculando el coeficiente de determinacin: R 2 = 1
El coeficiente de determinacin seala que el 83,65% de la variacin del peso logra ser explicada por la regresin, es decir, el 83,65% de la variacin del consumo de gas es explicada por la temperatura exterior promedio.
Edmundo Pea Rozas, Juan Garcs Seguel
Probabilidades y Estadstica
10
Ahora, se determinan los intervalos de confianza para los coeficientes del modelo:
Pendiente Intercepto
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1
1 = 1
tn 2;1 sR
2
(x x )
i =1 i
- 0,4933 1 -0,2786
6,3393 0 7,3803