Sunteți pe pagina 1din 11

Captulo 9.

Regresin lineal simple


9.1 Introduccin
Uno de los aspectos ms relevantes de la Estadstica es el anlisis de la relacin o dependencia entre variables. Frecuentemente resulta de inters conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres inuyen signicativamente en la de los hijos. Podramos estar interesados en estimar la altura media de los hijos cuyos padres presentan una determinada estatura. Los mtodos de regresin estudian la construccin de modelos para explicar o representar la dependencia entre una variable respuesta o dependiente (Y ) y la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos el modelo de regresin lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones bsicas: Es signicativo el efecto que una variable X causa sobre otra Y ? Es signicativa la dependencia lineal entre esas dos variables?. De ser as, utilizaremos el modelo de regresin lineal simple para explicar y predecir la variable dependiente (Y ) a partir de valores observados en la independiente (X). Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar la magnitud de la compresin (Y ) que se producir en una pieza de 2 pulgadas de espesor cuando se somete a diferentes cantidades de presin (X). Para ello prueba 5 piezas de material bajo diferentes presiones. Los pares de valores observados (x, y) se muestran en la siguiente tabla: Pieza 1 2 3 4 5 Presin (x) 1 2 3 4 5 i Compresin (y) 1 1 2 2 4

ii

CAPTULO 9. REGRESIN LINEAL SIMPLE

En principio no sabemos si las variables en cuestin estn relacionadas o no, o si en caso de haber dependencia es signicativa o no. De haber entre ellas una dependencia lineal signicativa, podramos expresar la Compresin (Y ) a partir de la Presin (X) mediante una recta, y a partir de ella predecir la compresin que se dara para un determinado nivel de presin. Una forma de determinar si puede existir o no dependencia entre variables, y en caso de haberla deducir de qu tipo puede ser, es grcamente representando los pares de valores observados. A dicho grco se le llama nube de puntos o diagrama de dispersin. Ejemplos de casos que podran darse:
102 99 96 93 90 87 0 0,01 0,02 0,03 0,04 102 99 96 93 90 87 0,87 1,07 1,27 1,47 1,67

a)
10 8 6 4 2 0 0 2 4 6 8 10 12

b)
(X 1000) 1 0,8 0,6 0,4 0,2 0 0 2 4 6 8 10

c)

d)

En a) hay ausencia de relacin (independencia). En b) existe asociacin lineal positiva (varan en general en el mismo sentido). En c) existe asociacin lineal negativa (varan en sentido contrario). En d) existe fuerte asociacin, pero no lineal.

9.2 El modelo de regresin lineal


La estructura del modelo de regresin lineal es la siguiente: Y = 0 + 1X + En esta expresin estamos admitiendo que todos los factores o causas que inuyen en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores no controlados que englobaremos bajo el nombre de perturbacin o error aleatorio, , que provoca que la dependencia entre las variables dependiente e

iii independiente no sea perfecta, sino que est sujeta a incertidumbre. Por ejemplo, en el consumo de gasolina de un vehculo (Y ) inuyen la velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera, las condiciones ambientales, etc, que quedaran englobados en el error. Lo que en primer lugar sera deseable en un modelo de regresin es que estos errores aleatorios sean en media cero para cualquier valor x de X, es decir, E[/X = x] = E[] = 0, y por lo tanto: E[Y /X = x] = 0 + 1 x + E[/X = x] = 0 + 1 x En dicha expresin se observa que: La media de Y, para un valor jo x, vara linealmente con x. Para un valor x se predice un valor en Y dado por y = E[Y /X = x] = 0 + 1 x, por lo que el modelo de prediccin puede expresarse tambin

como Y = 0 + 1 X. El parmetro 0 es la ordenada al origen del modelo (punto de corte con el eje Y) y 1 la pendiente, que puede interpretarse como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Estos parmetros son desconocidos y habr que estimarlos de cara a realizar predicciones. Adems de la hpotesis establecida sobre los errores de que en media han de ser cero, se establecen las siguientes hiptesis: ii) La varianza de es constante para cualquier valor de x, es decir, V ar(/X = x) = 2 iii) La distribucin de es normal, de media 0 y desviacin . iv) Los errores asociados a los valores de Y son independientes unos de otros. En consecuencia, la distribucin de Y para x jo es normal, con varianza constante 2 , y media que vara linealmente con x, dada por 0 + 1 x. Adems los valores de Y son independientes entre s.

9.3 Estimacin de los parmetros del modelo


Partimos de una muestra de valores de X e Y medidos sobre n individuos: (x1 , y1 ), (x2 , y2 ), ..., (xn, yn ),

y queremos estimar valores en Y segn el modelo Y = 0 + 1 X, donde 0 y 1 son por el momento desconocidos. Debemos encontrar entonces de entre

iv

CAPTULO 9. REGRESIN LINEAL SIMPLE

todas las rectas la que mejor se ajuste a los datos observados, es decir, buscamos aquellos valores de 0 y 1 que hagan mnimos los errores de estimacin. Para un valor xi , el modelo estima un valor en Y igual a yi = 0 + 1 xi y el valor observado en Y es igual a yi , con lo cual el error de estimacin en ese caso vendra dado por ei = yi yi = yi ( 0 + 1 xi ). Entonces tomaremos como

estimaciones de 0 y 1 , que notamos por 0 y 1 , aquellos valores que hagan mnima la suma de los errores al cuadrado, que viene dada por: SSE =
n X i=1

e2 = i

n X i=1

yi ( 0 + 1 xi )2

De ah que al mtodo de estimacin se le llame mtodo de mnimos cuadrados. La solucin se obtiene por el mecanismo habitual, derivando SSE con respecto a 0 y 1 e igualando a 0. Los estimadores resultan:

= =

SSxy SSxx

0 siendo: SSxy SSxx =

y 1 x

n n X X 2 = (xi x)2 = x2 nx = n 2 i x i=1 i=1

n n X X (xi x)(yi y) = xi yi nx y, i=1 i=1

A la recta resultante Y = 0 + 1 X se le llama recta de regresin lineal de Y sobre X. Un ltimo parmetro a estimar en el modelo es la varianza de los errores ( 2 ). A su estimador se le denomina varianza residual y viene dada por:
^ 2 sR Pn 2 SSE SSyy 1 SSxy i=1 ei = = = n2 n2 n2

Ejemplo 9.2. Para los datos del Ejemplo 9.1. referentes a la cantidad de compresion (Y ) de un material aislante a diferentes niveles de presin (X), vamos a determinar la recta de regresin. SSxy = 7, SSxx = 10 luego

= =

SSxy = 0.7 SSxx

y 1 x = 0.1

v La recta de regresin de Y sobre X es por tanto:

Y = 0.1 + 0.7X

9.4 Inferencias sobre el coeciente de regresin


Observbamos que los estimadores 0 y 1 dependen de la muestra seleccionada, por lo tanto son variables aleatorias y presentarn una distribucin de probabilidad. Estas distribuciones de probabilidad de los estimadores pueden utilizarse para construir intervalos de conanza o contrastes sobre los parmetros del modelo de regresin. Al comienzo del captulo nos plantebamos como uno de los objetivos el decidir si el efecto de la variable independiente es o no signicativo para la variable dependiente. Si nos jamos, esto es equivalente a contrastar si el coeciente 1 es o no signicativamente distinto de cero. Un 1 = 0 implicara la ausencia de relacin lineal entre las variables. En trminos generales planteamos los siguientes contrastes para 1 : Tipo de prueba Contraste Estadstico de contraste Regin de rechazo t < ta,n2 Unilateral a la izquierda H0 : 1 = b1 H1 : 1 < b1

Bilateral H0 : 1 = b1 H1 : 1 6= b1 , con sR =
^ 2

Unilateral a la derecha H0 : 1 = b1 H1 : 1 > b1

t=

sR /SSxx

^ 2

1 b1

SSyy 1 SSxy n2

|t| > t1a/2,n2

t > t1a,n2

Decamos que de especial inters es el contraste: H0 : 1 = 0 H1 : 1 6= 0 Ejemplo 9.3 Para los datos Ejemplo 9.1 sobre el material aislante, vamos a contrastar si el efecto de la presin sobre la compresin es o no signicativo ( = 0.05)

1
^ 2 sR

= 0.7

= =

SSxx

t = t0.975,3 =

SSyy 1 SSxy = 0.367 n2 10 0 p 1 = 3.7 s2 /SSxx 3.18

Como |t| > t0.975,3 podemos rechazar H0 al 5% de signicacin, por lo tanto el efecto de la presin sobre la compresin es signicativo.

vi

CAPTULO 9. REGRESIN LINEAL SIMPLE

9.5 El coeciente de correlacin lineal y el coeciente de determinacin


Nuestro objetivo en adelante ser medir la bondad del ajuste de la recta de regresin a los datos observados y cuanticar al mismo tiempo el grado de asociacin lineal existente entre las variables en cuestin. A mejor ajuste, mejores sern las predicciones realizadas con el modelo. La evaluacin global de una recta de regresin puede hacerse mediante la varianza residual, que como sabemos es un ndice de la precisin del modelo. Sin embargo, esta medida no es til para comparar rectas de regresin de variables distintas, o comparar el grado de asociacin lineal entre distintos pares de variables, ya que depende de las unidades de medida de las variables.

El coeciente de correlacin lineal


Como solucin al inconveniente planteado, para medir la asociacin lineal entre dos variables X e Y se utiliza una medida adimensional denominada coeciente de correlacin lineal, dado por: p V AR(X) E[(X E(X))(Y E(Y )] p = p 1 r= V AR(X)V AR(Y ) V AR(Y ) y su estimacin a partir de datos de una muestra resulta: SSxy SSxx r= p =p 1 SSxx SSyy SSyy

El coeciente de correlacin lineal toma valores entre -1 y 1 y su interpretacin es la siguiente: Un valor cercano o igual a 0 indica respectivamente poca o ninguna relacin lineal entre las variables. Cuanto ms se acerque en valor absoluto a 1 mayor ser el grado de asociacin lineal entre las variables. Un coeciente igual a 1 en valor absoluto indica una dependencia lineal exacta entre las variables. Un coeciente positivo indica asociacin lineal positiva, es decir, tienden a variar en el mismo sentido. Un coeciente negativo indica asociacin lineal negativa, es decir, tienden a variar en sentido opuesto. Ntese que si 1 = 0 entonces r = 0 , en cuyo caso hay ausencia de linealidad. Por lo tanto, contrastar si el coeciente de correlacin lineal es signicativamente distinto de 0 sera equivalente a contrastar si 1 es signicativamente distinto de cero, contraste que ya vimos en la seccin anterior.

vii

El coeciente de determinacin
Segn hemos visto, el coeciente de correlacin lineal puede interpretarse como una medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeciente igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para cuanticar la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina coeciente de determinacin lineal R2 , que es la proporcin de variabilidad de la variable Y que queda explicada por el modelo de entre toda la presente, y cuya expresin es: n P (y i y)2 SSE i=1 2 R = P =1 , n 2 SSyy (y i y)
i=1

que en modelo de regresin lineal coincide con el cuadrado del coeciente de correlacin lineal: R2 = r 2

El coeciente de determinacin toma valores entre 0 y 1, y cuanto ms se aproxime a 1 mejor ser el ajuste y por lo tanto mayor la abilidad de las predicciones que con l realicemos. Ntese que si el coeciente de correlacin lineal r es igual a 1 o -1 entonces R2 = 1 y por lo tanto el ajuste lineal es perfecto. Ejemplo 9.4 En el Ejemplo 9.1 r = 0.90 y R2 = 0.82. Esto indica que el grado de asociacin lineal entre las variables es alto, y concretamente el 82% de la variacin total de los valores de la compresin pueden ser explicados mediante la recta de regresin ajustada.

9.6 Prediccin a partir del modelo


Recordamos que en el modelo ajustado de la recta de regresin, y = 0 + 1x y, por otro lado, E[Y /X = x] = 0 + 1 x, luego y puede interpretarse de dos formas: 1. Como prediccin del valor que tomar Y cuando X = x. 2. Como estimacin del valor medio en Y para el valor X = x, es decir, E[Y /X = x]. Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto peor sea el ajuste realizado mediante la recta de regresin. Para concluir el tema, establecemos un intervalo de conanza para estas cantidades.

viii

CAPTULO 9. REGRESIN LINEAL SIMPLE

Proposicin. Podemos decir que con un (1 )x100% de conanza que cuando X = x, el valor predicho en Y o el valor medio estimado en Y, E[Y /X = x], se encuentran en el intervalo: s 1 (x x)2 y t1/2,n2 , sR + n SSxx Ejemplo 9.4. Para los datos del Ejemplo 9.1, Pieza 1 2 3 4 5 Presn (x) 1 2 3 4 5 Compresin (y) 1 1 2 2 4

a. Predecir el valor en la compresin para un nivel de presin igual a 6.

x = 6 se predice un valor en Y igual a y = 0.1 + 0.7 6 = 4.1

La recta de regresin ajustada era Y = 0.1 + 0.7X, con lo cual para un

b. En qu medida son ables las predicciones realizadas con la recta de regresin ajustada? Como el coeciente de determinacin es igual a 0.81, las predicciones realizadas con la recta sern ables en un 81%. c. Determinar un Intervalo al 95% de conanza para el valor medio de compresin a una presin de 6 . El intervalo de conanza resulta: s " # r 1 (x x)2 1 (6 3)2 y t1/2,n2 sR = 4.1 3.18 0.6 + + = [2.1, 6.1] n SSxx 5 10

9.7 Ejercicios
1. Se supone que el alargamiento de un cable de acero est relacionado linealmente con la intensidad de la fuerza aplicada. Cinco especmenes idnticos de cable dieron los resultados siguientes: Fuerza (X) Alargamiento (Y ) 1.0 3 1.5 3.5 2 5.4 2.5 6.9 3 8.4

(a) Estudia el grado de asociacin lineal entre ambas variables.

ix (b) Predice el alargamiento para una fuerza de 2.2. En qu medida es able tal prediccin?. (c) Contrastar al 5% si la fuerza aplicada inuye signicativamente sobre el alargamiento. (d) Obtener un intervalo de conanza al 95% para el valor que se predice en el alargamiento para una fuerza de 2.2 2. Las bodegas modernas utilizan vehculos guiados computarizados y automatizados para el manejo de materiales. En consecuencia, la disposicin fsica de la bodega debe disearse con cuidado a modo de evitar el congestionamiento de los vehculos y optimar el tiempo de respuesta. En The journal of Engineering for Industry (agosto 1993) se estudi el diseo ptimo de una bodega automatizada. La disposicin empleada supone que los vehculos no se bloquean entre s cuando viajan dentro de la bodega, es decir, no hay congestionamiento. La validez de este supuesto se veric simulando por ordenador las operaciones de la bodega. En cada simulacin se vari el nmero de vehculos y se registr el tiempo de congestionamiento (tiempo total que un vehculo bloquea a otro). Los datos se muestran en la tabla de abajo. Los investigadores estn interesados en conocer la relacin entre el tiempo de congestionamiento (Y) y el nmero de vehculos (X). X Y 1 0 2 0 3 0.02 4 0.01 5 0.01 6 0.01 7 0.03 8 0.03 9 0.02 10 0.04

a) Cuantica la dependencia lineal existente entre ambas variables. b) Es signicativa la dependencia lineal entre las variables?. Tomar = 0.05. c) Obtn la recta de regresin que expresa el tiempo de congestin en funcin del nmero de vehculos. d) Predice linealmente el tiempo de congestin cuando el nmero de vehculos es de 12. En qu medida es able tal prediccin?. e) Determinar el intervalo en el que se encuentra al 95 de conanza el tiempo medio de congestin para un nmero de vehculos de 12. 3. Los siguientes datos se reeren al crecimiento de una colonia de bacterias en un medio de cultivo: X Y 3 115000 6 147000 9 239000 12 356000 15 579000 18 , 864000

siendo X el nmero de das desde la inoculacin e Y el nmero de bacterias. Comprobar grca y numricamente que el tipo de asociacin entre ambas variables no es lineal.

CAPTULO 9. REGRESIN LINEAL SIMPLE 4. Se ha realizado un estudio para investigar el efecto de un determinado proceso trmico en la dureza de una determinada pieza. Once piezas se seleccionaron para el estudio. Antes del tratamiento se realizaron pruebas de dureza para determinar la dureza de cada pieza. Despus, las piezas fueron sometidas a un proceso trmico de templado con el n de mejorar su dureza. Al nal del proceso, se realizaron nuevamente pruebas de dureza y se obtuvo una segunda lectura. Se recogieron los siguientes datos (Kg. de presin): Dureza previa Dureza post. 182 198 232 210 191 194 200 220 148 138 249 220 276 219 213 161 241 210 480 313 262 226

(a) Calcula la media, mediana, percentiles 25 y 75 de la dureza antes y despus del proceso. (b) Calcula la desviacin tpica en ambos casos. En qu caso hay mayor variabilidad?. (c) Se puede armar que el proceso de templado mejora la dureza de las piezas?. (d) Decide si un modelo lineal es adecuado para explicar la dureza posterior en funcin de la dureza previa. En caso armativo obtenlo y predice la dureza tras el proceso de templado de una pieza con un dureza previa de 215. 5. La hidrlisis de un cierto ster tiene lugar en medio cido segn un proceso cintico de primer orden. Partiendo de una concentracin inicial (por 103 (M )) desconocida del ster, se han medido las concentraciones del mismo a diferentes tiempos (en minutos) obtenindose los resultados siguientes: Tiempo Conc. 3 25.5 5 23.4 10 18.2 15 14.2 20 11 30 6.7 40 4.1 50 2.5 60 1.5 75 0.7 90 0.4

(a) Realiza una nube de puntos de las dos variables. La teora cintica de este tipo de reacciones nos indica que la evolucin de la concentracin del ster en funcin del tiempo se rige por Ct = C0 ekt , donde C0 es la concentracin inicial. Qu transformacin de los datos nos lleva a un modelo lineal?. Realiza esta transformacin y obtn la concentracin inicial C0 y la velocidad k de desaparicin del ster. (b) Suponemos ahora que nos comunican que la concentracin inicial del ster es C0 = 3.102 (M ). Cmo incorporar esta informacin a nuestro anlisis anterior?. Obtn el nuevo valor de k. 6. Para analizar la degradacin de la seal emitida por una antena, se tomaron los siguientes datos: la frecuencia de la seal en el momento de ser emitida (X) y la frecuencia de la seal al ser recibida (Y). Los resultados medidos en Megahercios fueron:

xi

X Y

1.75 1.56

1.8 1.45

1.78 1.75

2.01 0.84

2.48 2.02

2.58 2.41

2.98 2.75

2.65 1.44

2.01 1.55

3.87 2.02

a. Calcular la media, mediana y moda de ambas variables. b. De las seales emitidas entre 2 y 3 Megahercios Cul es la proporcin de ocasiones en las que la frecuencia recibida fue menor que 2.5 Megahercios? c. Determinar el intervalo en el que se encuentra el 50% central de la variable Y. d. Es signicativa la relacin lineal entre las variables?. Inuye signicativamente la variable X sobre Y ?. Realizar el contraste al 5% de signicacin. e. Qu frecuencia se predice en la seal al ser recibida si al ser emitida es de 3.5 Megahercios?. Es able la prediccin?. f. Obtener un intervalo de conanza al 95% para la seal recibida si la seal emitida es de 3.5 Megahercios.

S-ar putea să vă placă și