Documente Academic
Documente Profesional
Documente Cultură
la regresin lineal se refiere a la prediccin del valor de una variable a partir de una o mas variables. En ocasiones se denomina a la variable dependiente (y) variabe de respuesta y a la variable independiente (x) variable de prediccin. En muchos problemas hay dos o mas varianbles inherentes relacionadas, y es necesario explorar la naturaleza de esta relacin. El anlisis de regresin, puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una funcin de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determnado de temperatura. Tambien puede emplearse con propsito de optimizacin o control del proceso. Comenzaremos con el caso mas sencillo, la prediccin de una variable (y) a partir de otra variable (X) RGRESIN LINEAL SIMPLE Para las sitiuaciones siguiente establezca cual es la variable dependiente y cual es la independiente. a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales. b) El gerente de un restaurante quiere estimar el numero de clientes que puede esperar a cierta noche a partir de un numero de reservaciones para cnar recibidas desde las 5:00 PM Solucion: el numero de clientes es la variable de respuesta, el numero de reservaciones es la variable independiente. SUPUESTO PARA EL MODELO DE REGRESION LINEAL. 1. 2. 3. 4. 5. Para cada valor de x, la variable aleatoria se distribuye normalmente. Para cada valor de x, la media o valor esperado de es 0; esto es, E()= =0 Para cada valor de x, la varianza de esla constante de (llamada varianza del error) Para los valores del termino de error son independientes Para un valor fijo de x, la distribuccion muestral de (y) es normal, porque sus valores dependen de los de .
coches compactos Chevrolet Cavalier Datsun Nissan Stanza Dodge Omni Ford Escort Mazda 626 Plymouth Horizon Renault Alliance/Encore Toyota Corolla
millas/galn (mpg), y 30 31 34 27 29 34 38 32
Graficando los datos de la tabla en el diagrama de dispersin podemos observar la coleccin de las ocho pares de datos (x,y) como muestra de una poblacin de pares,donde las medidas pulgadas cubicas de desplazamiento (pcd)x. pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamao de motor de 97 hay un gras numero de millajes asociados, uno por cada coche cuyo tamao sea 97 pcd. Asumamos que existe una relacin lineal para la poblacin de pares de datos de pcd y mpg. (se extiende por relacin lineal cuando la variable (Y) tiene una tendencia a crecer o decrecer, cuando la variable (x) aumenta)
Diagrama de dispersin 39 37 35 m 33 p 31 g 29 27 25 80
90
110
120
130
Donde :
y = variable dependiente
0 ordenada al origen
1 = pendiente
x = variable independiente
= Error aleatorio
La expresin 0 1 x se denomina componente determinista del modelo de regresin lineal.
La muestra de pares de datos se usara para estimar los parmetros deterministica. La diferencia principal entre un modelo probabilstico y uno deterministico es la conclucion de un termino de error aleatorio en el modelo probabilstico. En el ejemplo los diferentes rendimientos para un mismo tamao de motor se atribuyen al termino de error en el modelo de regresin. Calculo de ecuacin de regresin. Tambin es llamda ecuacin de prediccin de minimos cuadrados. La ecuacin de regresin estimada es: Donde :
0 y 1 de la componente
y b0 b1 x.
y
b0 = b1=
Valor predicho de
SS x
x x n
2 2
SS y
y y n
SS xy xy
x y
n
b1
SS xy SS x
b0 y b1 x
Donde: SS = suma de cuadrados b1 = pendiente b0 = ordenada al origen n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el calculo de las formulas.
coches compactos tamao del motor (pcd) x Chevrolet Cavalier 121 Datsun Nissan Stanza 120 Dodge Omni 97 Ford Escort 98 Mazda 626 122 Plymouth Horizon 97 Renault Alliance/Encore 85 Toyota Corolla 122 SUMAS 862 Media 107.75 millas/galn (mpg), y 30 31 34 27 29 34 38 32 255 31.875 x^2 14641 14400 9409 9604 14884 9409 7225 14884 94456 y^2 900 961 1156 729 841 1156 1444 1024 8211 xy 3630 3720 3298 2646 3538 3298 3230 3904 27264
Calculando b0 yb1 tenemos: SSx= 1575.5 SSy= 82.88 SSxy= -212.25 b1=-0.13472 b0= 46.39099
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de regresin los errores indicados por segmentos verticales.
X=0.000
-10 -20 -2 -1 0 1 2
Marcador Normal
-3.0SL=-43.26
Frecuencia
Residual
Histograma de Residuales
3 2 1 0 -25 -20 -15 -10 -5 0 5 10 15 20 10 0 -10 -20
450
500
Ajuste
550
Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra dividiendo SSE entre n-2
2
S e2
SSE n2
La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se denota por Se. Aplicando las frmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estndar de la estimacin:
S e2
Se
54.2849 9.0475 6
= 3.007