Sunteți pe pagina 1din 7

ANALISIS DE REGRESION LINEAL

la regresin lineal se refiere a la prediccin del valor de una variable a partir de una o mas variables. En ocasiones se denomina a la variable dependiente (y) variabe de respuesta y a la variable independiente (x) variable de prediccin. En muchos problemas hay dos o mas varianbles inherentes relacionadas, y es necesario explorar la naturaleza de esta relacin. El anlisis de regresin, puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una funcin de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determnado de temperatura. Tambien puede emplearse con propsito de optimizacin o control del proceso. Comenzaremos con el caso mas sencillo, la prediccin de una variable (y) a partir de otra variable (X) RGRESIN LINEAL SIMPLE Para las sitiuaciones siguiente establezca cual es la variable dependiente y cual es la independiente. a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales. b) El gerente de un restaurante quiere estimar el numero de clientes que puede esperar a cierta noche a partir de un numero de reservaciones para cnar recibidas desde las 5:00 PM Solucion: el numero de clientes es la variable de respuesta, el numero de reservaciones es la variable independiente. SUPUESTO PARA EL MODELO DE REGRESION LINEAL. 1. 2. 3. 4. 5. Para cada valor de x, la variable aleatoria se distribuye normalmente. Para cada valor de x, la media o valor esperado de es 0; esto es, E()= =0 Para cada valor de x, la varianza de esla constante de (llamada varianza del error) Para los valores del termino de error son independientes Para un valor fijo de x, la distribuccion muestral de (y) es normal, porque sus valores dependen de los de .

6. Para un valor fijo x, es posible predecir el valor de y.

ANALISIS DE REGRESION LINEAL


7. Para un valor fijo x,es posible estimar el valor promedio de y. Ejemplo 1: La revista motor trend presenta con frecuencia datos de rendimiento para automviles, que compara el tamao del motor en pulgadas cubicas de desplazamiento (pcd) y las millas por galon(mpg) estimadas para ocho modelos representativos de automviles subcompactos modelo 1984.

coches compactos Chevrolet Cavalier Datsun Nissan Stanza Dodge Omni Ford Escort Mazda 626 Plymouth Horizon Renault Alliance/Encore Toyota Corolla

tamao del motor (pcd) x 121 120 97 98 122 97 85 122

millas/galn (mpg), y 30 31 34 27 29 34 38 32

Graficando los datos de la tabla en el diagrama de dispersin podemos observar la coleccin de las ocho pares de datos (x,y) como muestra de una poblacin de pares,donde las medidas pulgadas cubicas de desplazamiento (pcd)x. pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamao de motor de 97 hay un gras numero de millajes asociados, uno por cada coche cuyo tamao sea 97 pcd. Asumamos que existe una relacin lineal para la poblacin de pares de datos de pcd y mpg. (se extiende por relacin lineal cuando la variable (Y) tiene una tendencia a crecer o decrecer, cuando la variable (x) aumenta)

Diagrama de dispersin 39 37 35 m 33 p 31 g 29 27 25 80

90

100 pcd ddci d

110

120

130

ANALISIS DE REGRESION LINEAL


Usamos el modelo probabilstico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamao de motor, este se llama modelo de regresin lineal, y expresa a relacin lineal entre tamao de motor (x) y millas por galon (y). Modelo de regresin lineal Y=

Donde :
y = variable dependiente

0 ordenada al origen

1 = pendiente
x = variable independiente

= Error aleatorio
La expresin 0 1 x se denomina componente determinista del modelo de regresin lineal.
La muestra de pares de datos se usara para estimar los parmetros deterministica. La diferencia principal entre un modelo probabilstico y uno deterministico es la conclucion de un termino de error aleatorio en el modelo probabilstico. En el ejemplo los diferentes rendimientos para un mismo tamao de motor se atribuyen al termino de error en el modelo de regresin. Calculo de ecuacin de regresin. Tambin es llamda ecuacin de prediccin de minimos cuadrados. La ecuacin de regresin estimada es: Donde :

0 y 1 de la componente

y b0 b1 x.

y
b0 = b1=

Valor predicho de

y para un valor particular de x.

Estimador puntual de Estimador puntual de

0 .(ordenada al origen) 1. (pendiente)

ANALISIS DE REGRESION LINEAL


Para el clculo de b0 y b1 se utilizamos las siguientes frmulas:

SS x

x x n
2 2

SS y

y y n

SS xy xy

x y
n

b1

SS xy SS x

b0 y b1 x
Donde: SS = suma de cuadrados b1 = pendiente b0 = ordenada al origen n = nmero de pares de datos

En la tabla incluimos las sumatorias que utilizaremos para el calculo de las formulas.
coches compactos tamao del motor (pcd) x Chevrolet Cavalier 121 Datsun Nissan Stanza 120 Dodge Omni 97 Ford Escort 98 Mazda 626 122 Plymouth Horizon 97 Renault Alliance/Encore 85 Toyota Corolla 122 SUMAS 862 Media 107.75 millas/galn (mpg), y 30 31 34 27 29 34 38 32 255 31.875 x^2 14641 14400 9409 9604 14884 9409 7225 14884 94456 y^2 900 961 1156 729 841 1156 1444 1024 8211 xy 3630 3720 3298 2646 3538 3298 3230 3904 27264

Calculando b0 yb1 tenemos: SSx= 1575.5 SSy= 82.88 SSxy= -212.25 b1=-0.13472 b0= 46.39099

ANALISIS DE REGRESION LINEAL


La ecuacin de prediccin de mnimos cuadrados es:

y b0 b1 x. => y 46.39099 0.37472x

Grfica de la ecuacin de regresin


50 40 30 20 10 0 0 50 100 150 Variable X Y Lineal (Y) y =46.391 -0.1347x

Error
Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de regresin los errores indicados por segmentos verticales.

ANALISIS DE REGRESION LINEAL


Qu tan normales son los residuales?
Grfica Normal de Residuales
20 10
Residual Residual

Residuales individuales tendencias; o separados?


Tabla de Residuales
50 40 30 20 10 0 -10 -20 -30 -40 -50 0 5 10
Nmero de Observacin
3.0SL=43.26

Diagnstico del Modelo de Residuales

X=0.000

-10 -20 -2 -1 0 1 2
Marcador Normal

-3.0SL=-43.26

Frecuencia

Residual

Histograma curva de campana? Ignrese para grupos pequeos de informacin (<30)

Histograma de Residuales
3 2 1 0 -25 -20 -15 -10 -5 0 5 10 15 20 10 0 -10 -20

Residuales vs. Ajustes

450

500
Ajuste

550

Buscar Buscarlas lasinconsistencias inconsistencias mayores mayores

Aleatorio alrededor de cero, sin tendencias?

Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)

SSE SS y b1 SS xy
A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra dividiendo SSE entre n-2
2

S e2

SSE n2

La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se denota por Se. Aplicando las frmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estndar de la estimacin:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

S e2
Se

54.2849 9.0475 6

= 3.007

ANALISIS DE REGRESION LINEAL


Bibliografa :

Estadstica, Richard C. Weimer, CECSA, Segunda edicin, 2000 http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal