Sunteți pe pagina 1din 10

Probabilidades y Estadstica

Regresin Lineal Simple Antecedentes Generales


Los mtodos de regresin corresponden a la aplicacin de modelos matemticos que explican la dependencia de una variable dependiente Y respecto de una o varias variables independientes X. Un modelo de regresin entonces permite evaluar la relacin que existe entre estas variables. Cuando se tiene solamente una variable independiente se habla de regresin simple y cuando son varias de regresin mltiple. En general los mtodos de regresin permiten: Caracterizar el tipo de relacin en el sentido de determinar la direccin, intensidad y fuerza de la relacin entre las variables. Presentar un modelo matemtico que permita describir el comportamiento de la variable dependiente en funcin de las variables independientes. Determinar cules de las variables independientes son ms importantes al momento de explicar el comportamiento de la variable dependiente.

En general, el procedimiento para elaborar un modelo de regresin implica varias etapas, tales como: Etapa 1. Anlisis exploratorio: Todo proceso de anlisis de datos requiere, en forma previa de la verificacin de la calidad de la informacin y de la validez de los supuestos necesarios para enfrentar el proceso de ajuste de un modelo. Etapa 2. Formulacin de una clase o familia de modelos: En esta etapa se debe identificar el tipo de problema al cual se enfrenta, para encontrar, entre las distintas alternativas de modelos posibles, la que proporcione la mejor representacin de la situacin o fenmeno a estudiar. Etapa 3. Estimacin de parmetros: Utilizando algoritmos adecuados, y disponiendo de una muestra de tamao y caractersticas especficas, se generan, para el modelo seleccionado en la etapa 2, los estimadores necesarios. Etapa 4. Verificacin y diagnstico: Una vez obtenidos los estimadores de los parmetros del modelo, se debe verificar si el modelo propuesto representa eficientemente las relaciones entre las variables de inters. Esta etapa es de interpretacin de resultados grficos, aplicacin de pruebas de hiptesis especficas sobre los parmetros del modelo. En caso que el modelo ajustado no represente las relaciones propuestas, se debe volver a la etapa 2 y seleccionar una nueva familia de modelos. Etapa 5. Prediccin: En la mayora de las aplicaciones prcticas de modelos de regresin, el objetivo bsico es encontrar una relacin de dependencia entre una variable dependiente y un conjunto de variables predictoras. La finalidad de tal bsqueda, en tales casos, es poder predecir el comportamiento de la variable respuesta ante cambios de las variables predictoras, en particular, ante valores futuros de estas variables. Para poder construir estas predicciones se debe estar convencido que el modelo en cuestin es correcto. Etapa 6. Simulacin: La etapa final del proceso de construccin de un modelo, pasa necesariamente por la verificacin de la capacidad del modelo para reproducir el comportamiento de la relacin descrita, usando datos simulados. Este tipo de estudios tiene especial importancia en la planificacin y toma de decisiones. Debido a las restricciones propias de este curso, solamente se dar una pequea mirada a la aplicacin de mtodos de regresin, restringindolo solamente a la etapa de identificacin, formulacin de modelos y estimacin de parmetros, para el caso del modelo de regresin lineal simple. El alumno, sin embargo, debe tener claro que en un caso real, los 6 pasos sealados anteriormente no deben ser evitados y que el modelo puede considerar varias variables.

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Regresin Lineal Simple


Cualquier estudio estadstico debe comenzar por una revisin de la informacin disponible, debiendo comenzar con un estudio grfico inicial, los supuestos referentes a la distribucin de las variables a considerar (respuesta y predictoras), la presencia de observaciones errneas, atpicas o faltantes. Una vez que se ha realizado el anlisis exploratorio se debe formular una familia de modelos a ajustar, en este caso se considerar el modelo ms simple que corresponde a modelar el comportamiento de una variable dependiente en funcin de otra independiente, donde la relacin funcional es lineal, es decir:

Yi = 0 + 1 X i + i
Donde 0 es el intercepto de la recta de regresin 1 es la pendiente de la recta de regresin i es la componente de error del modelo. El componente aleatorio i corresponde a la parte de la variable respuesta que no logra ser explicada por el modelo, es decir:

i i = yi y
Para que las inferencias que se realicen a partir de este modelo sean vlidas, el error aleatorio (i) debe cumplir con varios supuestos, a saber: Esperanza cero, varianza 2, errores independientes entre s e idnticamente distribuidos segn una normal. La estimacin de los parmetros se puede realizar por varios mtodos, siendo uno de ellos el mtodo de los mnimos cuadrados, que consiste en minimizar las diferencias cuadrticas que se producen entre los valores observados y los estimados, para ello se generan las ecuaciones normales, es decir:

2 + x i ) = yi SCE = i2 = ( yi y 0 1 i i =1 i =1 i =1

( (

))

0 y un 1 que satisfagan las siguientes ecuaciones normales: Es decir, si SCE posee un mnimo, se busca un

SCE =0 0

SCE =0 1

Para el caso del modelo de regresin lineal simple, los estimadores resultantes son:
n n n n xi yi xi yi i =1 i =1 = i =1 1 2 n n 2 n xi xi i =1 i =1

= y x 0 1

Ejemplo: La siguiente tabla de datos corresponde a las respuestas del crecimiento de una planta (en mm) al variar su temperatura ambiental desde -3 a +3 C. Usando el mtodo de mnimos cuadrados, obtener una lnea recta que se ajuste a los puntos:
X Y
-3 1 -2 0 -1 0 0 1 1 1 2 3 3 2

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Solucin:
3.5 3 Crecimiento 2.5 2 1.5 1 0.5 0 -4 -3 -2 -1 0 Temperatura 1 2 3 4

X Y X*Y X2
-3 1 -2 0 -1 0 0 1 1 1 2 3 3 2 -3 0 0 0 1 6 6 9 4 1 0 1 4 9

0 8

10

28

= 1.143 0.3571 * 0 = 1.143 0


Entonces, el modelo resultante es:

1 =

7 * 10 (0 * 8) = 0.3571 7 * 28 0

Sumas

i = 1.143 + 0.3571X i Y

Ejemplo: Los siguientes datos corresponden a la temperatura promedio semanal observada, y el consumo semanal de gas en una casa. Obtenga un modelo lineal que prediga el consumo semanal de gas en funcin de la temperatura promedio semanal observada.
Temperatura Consumo de Exterior Gas (pies (C) cbicos) X 0,4 2,5 2,9 3,2 3,6 3,9 4,2 4,3 5,4 6 6,2 6,3 6,9 7 Y 6,4 6 5,8 5,8 5,6 4,7 5,8 5,2 4,9 4,9 4,5 4,6 3,7 3,9 x2 0,16 6,25 8,41 10,24 12,96 15,21 17,64 18,49 29,16 36 38,44 39,69 47,61 49 xi yi 2,56 15 16,82 18,56 20,16 18,33 24,36 22,36 26,46 29,4 27,9 28,98 25,53 27,3 Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

= 5,1286 (0,3859) * 4,4857 = 6,8598 0


Entonces, el modelo resultante es:

= 1

14 * 303,72 (62,8 * 71,8) = 0,3859 14 * 329,26 (62,8) 2

= 6,8598 0,3859 X Y i i
Anlisis de Adecuacin del Modelo La variabilidad de la variable respuesta puede ser expresada en trminos de una variabilidad explicada por el modelo ms una variabilidad no explicada o residual, esto se puede visualizar con claridad el expresar el error de la manera siguiente:

i = yi y ( y i y ) i = yi y
Si esta expresin es elevada al cuadrado y se considera la sumatoria en las n observaciones, se tiene:

y ) + ( y y ) ( y y ) = ( y
2 2 i i i i

De donde se puede inferir que el lado izquierdo de la ecuacin que representa la variabilidad de la variable respuesta en relacin a la media est formada por dos componentes, una primera componente que corresponde a la variabilidad que es explicada por el modelo de regresin y la segunda que corresponde a la parte que no logra ser explicada por la regresin, es decir el error.
Residual Y

yi
i yi y yi y

i y
y

i y y
Total

+ x i = y 0 1 i
Regresin xi X

A partir de esta descomposicin de la variabilidad presente en la variable dependiente, se deriva una tabla de anlisis de varianza, que en el caso de la regresin lineal simple tiene la forma siguiente:

F. de Variacin

g.l.

Suma de Cuadrados

Cuadrados Medios

Regresin

i y ) ( y
i =1

y) ( y
i =1 i

Residual

n-2

) ( yi y
i =1

2 2 = sR =

) ( y y
i =1 i

n2

Total

n-1

( y y )
i =1 i

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

La principal utilidad de esta tabla radica en que permite obtener una estimacin de la varianza residual y evaluar la significacin de los parmetros envueltos en el modelo de regresin, es decir permite evaluar si la o las variables predictoras contribuyen de manera significativa en la explicacin de la variable dependiente, es decir: H0: 1=0 v/s Utilizando como estadstico de prueba: H1: 10

F=

CM (Re gresin) CM (Re sidual )

F1;n 2

Por otra parte, a partir de esta misma tabla se tiene que:

R2 = 1

SCE SCR = SCT SCT

Corresponde al coeficiente de determinacin, el cual representa la proporcin de la variacin total de la variable dependiente que es explicada por el modelo de regresin. En el caso particular de la regresin lineal simple, este coeficiente se puede obtener tambin como el cuadrado del coeficiente de correlacin lineal. Intervalo de Confianza para la pendiente Si se asume que las variaciones de las observaciones en torno a la recta se distribuyen segn una normal, es decir, asumiendo que los errores i distribuyen normal con media 0 y varianza 2, los lmites de confianza para 1 se estiman como:

1 = 1

tn 2;1 sR
2

(x x )
i =1 i

Donde la desviacin estndar de la pendiente es:

= s =
1 1

(x x )
i =1 i

Intervalo de Confianza para el intercepto Si se asume que las variaciones de las observaciones en torno a la recta se distribuyen segn una normal, es decir, asumiendo que los errores i distribuyen normal con media 0 y varianza 2, los lmites de confianza para 0 se estiman como:
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1

corresponde a: Donde la desviacin estndar de 0

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

= s = R
0 0

x
i =1 n i =1

2 i 2

n ( xi x )

Para verificar la significacin de los parmetros estimados, se plantean las siguientes pruebas de hiptesis:

Intercepto H0: 0=0 v/s H1: 00

Pendiente H0: 1=0 v/s H1: 10

t=

0 s 0

tn 2

t=

1 s1

tn 2

Intervalo de confianza para el valor medio de Y, dado un valor X0

2 1 (x x ) 2 + n 0 0 ) = sR V(y 2 n ( xi x ) i =1
Entonces:

0 tn 2;1 s y 0 tn 2;1 y 0 = y
2

2 1 (x x ) 2 + n 0 sR 2 n ( xi x ) i =1

Intervalo de confianza para un valor de Y, dado un valor X0

2 1 (x x ) 2 1 + + n 0 0 ) = sR V(y 2 n ( xi x ) i =1
Entonces:

0 tn 2;1 s y 0 tn 2;1 y 0 = y
2

2 1 (x x ) 2 1 + + n 0 sR 2 n ( xi x ) i =1

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Ejemplo: A partir de los datos del peso y la talla de 20 nios:


Talla Peso Obs

xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 18 20 72 76 59 68 60 58 70 65 54 83 64 66 61 66 57 81 59 71 62 75

yi
9 10 6 8 7 5 8 7 4 11 7 7 6 8 5 11 5 9 6 10

Suma 1327 149

Se tiene que el modelo de regresin lineal ajustado es

i = 9.095 + 0.249 xi y
Se obtiene la siguiente tabla ANOVA:

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

8 S.C. C.M F Valor-p

F. de Variacin Regresin Residual Total

g.l.

1 18 19

77,2661 3,6839 80,9500

77,2661 0,2047

377,5345

0,000

H0: 1=0 v/s

H1: 10

F=

77, 2661 = 377,5345 0, 2047

La prueba de hiptesis anterior permite concluir que la pendiente es significativamente distinta de cero, por lo que esto se puede interpretar como que la talla de los nios contribuye a describir el comportamiento del peso de los nios

R2 = 1

SCE SCR 77, 2661 = = = 0,9545 = SCT SCT 80,9500

El coeficiente de determinacin seala que el 95,45% de la variacin del peso logra ser explicada por la regresin, es decir, el 95,45% de la variacin del peso es explicada por la talla de los nios.

Pendiente

Intercepto
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1

1 = 1

tn 2;1 sR
2

(x x )
i =1 i

1 = 0, 249

2.1(0, 2047) 1242,55

0 = 9.095 2,1(0, 2047)


10,8970 0 7, 2939

0, 222 1 0, 2763

89289 20(1242,55)

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Ejemplo: (Continuacin del ejemplo del consumo de gas en funcin de temperatura exterior). Recordar que el modelo obtenido era:

= 6,8598 0,3859 X Y i i
Donde: X: Temperatura exterior promedio semanal (C) Y: Consumo semanal de Gas (pies cbicos) Grficamente:

A partir de los datos, se confecciona la siguiente tabla ANOVA:

Fuente de Variacin Regresin Residuos Total

Grados de libertad 1 12 13

Suma de cuadrados 7,0837 1,3849 8,4686

Promedio de los cuadrados 7,0837 0,1154

F 61,3799

Valor crtico de F 4,6539E-06

Se formulan las hiptesis: H0: 1=0 v/s H1: 10

F=

7,0837 = 61,3799 0,1154

Entonces, se puede concluir que la pendiente es significativamente distinta de cero, por lo que esto se puede interpretar como que la temperatura exterior promedio s contribuye a explicar el consumo de gas semanal. Adems, calculando el coeficiente de determinacin: R 2 = 1

SCE SCR 7,0837 = = = 0,8365 SCT SCT 8,4686

El coeficiente de determinacin seala que el 83,65% de la variacin del peso logra ser explicada por la regresin, es decir, el 83,65% de la variacin del consumo de gas es explicada por la temperatura exterior promedio.
Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

10

Ahora, se determinan los intervalos de confianza para los coeficientes del modelo:
Pendiente Intercepto
n xi2 i =1 t 0 = sR 0 n n 2;1 2 2 n ( xi x ) i =1

1 = 1

tn 2;1 sR
2

(x x )
i =1 i

- 0,4933 1 -0,2786

6,3393 0 7,3803

Edmundo Pea Rozas, Juan Garcs Seguel

S-ar putea să vă placă și