Sunteți pe pagina 1din 54

Taller de Estadstica - 1

Anlisis de Regresin y Correlacin Lineal

Sesin 4

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 2

Anlisis de Regresin Lineal Simple


El objetivo del anlisis de regresin es establecer una relacin cuantitativa entre dos o ms variables relacionadas. Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. dependiente), dado el valor de otra (s) variable (s) relacionada (s) (v. independientes (s)).

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 3

Ecuacin de Regresin Lineal Simple Estimada

La ecuacin de regresin lineal simple estimada

= b0 + b1 x y

Su grfica es llamada lnea de regresin estimada. b0 es el intercepto de la lnea con el eje y b1 es la pendiente de la lnea. es el valor estimado de y para un valor dado de x. y
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 4

Proceso de Estimacin
Modelo de Regresin y = 0 + 1x + Ecuacin de Regresin E(y) = 0 + 1x Parmetros desconocidos 0, 1 Datos: x y x 1 y1 . . . . xn yn

b0 y b1 Proveen estimados de 0 y 1

Ecuacin Estimada de la Regresin

= b0 + b1 x y

Estadsticos Muestrales b0, b1

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 5

Mtodo de los Mnimos Cuadrados


b1 (xi - x)(yi - y) = ( x i - x)
2

b0 = y b1 x
donde: xi = valor de la variable independiente para la i-sima observacin yi = valor de la variable dependiente para la i sima observacin x = valor medio de la variable independiente y = valor medio de la variable dependiente n = nmero total de observaciones
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 6

Ejemplo: Reed Autos


Reed Auto peridicamente tiene una venta especial de fin de semana. Como parte de la campaa de publicidad Reed uno o ms comerciales de TV durante el fin de semana anterior a la venta especial. Datos de una muestra de 5 especiales previos se muestran a continuacin:
Nmero de avisos TV Nmero de Carros Vend.

1 3 2 1 3

14 24 18 17 27

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 7

Usando Excel para trabajar un Diagrama de Dispersin y Calcular la Ecuacin de Regresin

Diagrama de Dispersin Paso 1 Seleccionar B1:C6 Paso 2 Seleccione Asistente de Grficos Paso 3 Cuando aparece la caja de Tipo de Grfico: Escoge XY (Dispersin) de la lista Escoge Dispersin como sub-tipo de grfico Apretar Siguiente > Paso 4 Cuando aparece la caja de Rango de Datos Apretar Siguiente >
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 8

Usando Excel para trabajar un Diagrama de Dispersin y Calcular la Ecuacin de Regresin

Diagrama de Dispersin Paso 5 Cuando aparece la caja de Opciones de grfico: Seleccione Ttulos y all Borrar Carros Vend. en la casilla de ttulo Ingrese Avisos TV en Eje de Valores (X) Ingrese Carros Vend. en Eje de Valores (Y) Seleccione Leyenda y all Remover el check en Mostrar Leyenda Apretar Siguiente >
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 9

Usando Excel para trabajar un Diagrama de Dispersin y Calcular la Ecuacin de Regresin

Diagrama de Dispersin Paso 6 Cuando aparece la caja de Ubicacin del Grfico: Especificar la ubicacin especfica del grfico Seleccionar Finalizar para mostrar el diagrama

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 10

Usando Excel para trabajar un Diagrama de Dispersin y Calcular la Ecuacin de Regresin

Aumentando la lnea de tendencia Paso 1 Posicionar el mouse sobre cualquier punto con el botn derecho y aparecer un men. Paso 2 Escoger opcin de Agregar lnea de tendencia Paso 3 Cuando aparezca la caja Agregar lnea de tendencia: En Tipo escoger Lineal En Opciones escoger Presentar ecuacin en el grfico Apretar Aceptar
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 11

Diagrama de Dispersin y Lnea de Tendencia


30 Carros vendidos 25 20 y = 5x + 10 15 10 5 0 0 1 2 Avisos deTV 3 4

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 12

Coeficiente de Determinacin
Relacin entre SST, SSR, SSE SST = SSR + SSE

(yi y)2 = (yi y)2+ (yi yi)2


donde: SST = suma de cuadrados total SSR = suma de cuadrados debido a la regresin SSE = suma de cuadrados debido al error

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 13

Coeficiente de Determinacin

El coeficiente de determinacin es: r 2 = SSR/SST Donde: SSR = suma de cuadrados debido a la regresin SST = suma de cuadrados total

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 14

Usando Excel para Calcular el Coeficiente de Determinacin

Calculando r 2 Paso 1 Posicionar el mouse sobre cualquier punto con el botn derecho y aparecer un men. Paso 2 Escoger opcin de Agregar lnea de tendencia Paso 3 Cuando aparezca la caja Agregar lnea de tendencia: En Opciones escoger Presentar el valor R cuadrado en el grfico Apretar Aceptar
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 15

Usando Excel para Calcular el Coeficiente de Determinacin


30 Carros Vendidos 25 20 y = 5x + 10 15 10 5 0 0 1 2 Avisos deTV 3 4 R = 0.8772
2

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 16

Coeficiente de Correlacin Muestral


rxy = (signo de b1) Coeficiente de determinacin rxy = (signo de b1)
donde: b1 = pendiente de la ecuacin de regresin estimada.

r2

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 17

Coeficiente de Correlacin Muestral

rxy = (signo de b1)

r2

= 10 + 5 x es +. El signo de b1 en la ecuacin y

rxy = + rxy =

.8772 +.9366

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 18

Supuestos acerca del Trmino Error


1. El error es una variable aleatoria con media cero. 2. La varianza de , denotada por 2, es la misma para todos los valores de la variable independiente. 3. Los valores de son independientes. 4. El error es una variable aleatoria distribuida normalmente.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 19

Prueba de Significacin
Para probar la significacin estadstica del modelo de regresin, nosotros podemos realizar una prueba de hiptesis de que el valor de 1 es cero. Se usan generalmente dos pruebas: Prueba t y Prueba F

Ambas pruebas la t y la F requieren un estimado de 2, la varianza del error en el modelo de regresion.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 20

Usando Excel para trabajar el Anlisis de Regresin


Paso 1 Paso 2 Paso 3 Paso 4 Seleccionar men de Herramientas Escoger la opcin de Anlisis de datos Escoger en el listado Regresin Cuando aparezca la caja de Regresin: Ingresar C1:C6 en Rango Y de entrada Ingresar B1:B6 en Rango X de entrada escoger Rtulos Seleccionar Nivel de Confianza Ingrese 95 esta casilla Seleccione Rango de salida Ingrese A9 en la casilla correspondiente Oprima Aceptar para hacer el anlisis de regresin.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 21

Usando Excel para trabajar el Anlisis de Regresin

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 22

Usando Excel para trabajar la Regresin


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 A Semana 1 2 3 4 5 Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple 0.936585812 Coeficiente de determinacin R^2 0.877192982 R^2 ajustado 0.83625731 Error tpico 2.160246899 Observaciones 5 ANOVA Grados de libertad Regresin Residuos Total 1 3 4 Coeficientes 10 5 Suma de Promedio de cuadrados los cuadrados 100 100 14 4.666666667 114 Error tpico 2.366431913 1.08012345 Valor crtico de F F 21.42857143 0.018986231 B Avisos TV 1 3 2 1 3 C Carros Vend. 14 24 18 17 27 D E F G

Datos Estadsticos de la Regresin

Tabla ANOVA

Estimados de la Ecuacin de Regresin

Intercepto TV Ads

Estadstico t Probabilidad 4.225771274 0.024236012 4.629100499 0.018986231

Inferior 95% Superior 95% 2.468950436 17.53104956 1.562561893 8.437438107

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 23

Usando Excel para trabajar el Anlisis de Regresin


A B C 8 Resumen 9 10 Estadsticas de la regresin 11 Coeficiente de correlacin mltiple 0.936585812 12 Coeficiente de determinacin R^2 0.877192982 13 R^2 ajustado 0.83625731 14 Error tpico 2.160246899 15 Observaciones 5 16

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 24

Usando Excel para trabajar el Anlisis de Regresin


A 17 ANOVA 18 19 Regresin 20 Residuos 21 Total B C D E F

Grados de Suma de Promedio de Valor crtico libertad cuadrados los cuadrados F de F 1 100 100 21.42857 0.0189862 3 14 4.666666667 4 114

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 25

Usando Excel para trabajar el Anlisis de Regresin

22 Coeficiente Error Tpico Estadstico t Probabilidad Inferior 95% Superior 95% 23 10 2.36643191 4.22577127 0.02423601 2.46895044 17.53104956 24 Intercepto 5 1.08012345 4.6291005 0.01898623 1.56256189 8.437438107 25 Avisos TV 26

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 26

Anlisis Residual
Si los supuestos acerca del trmino de error parecen ser cuestionables, las pruebas de hiptesis acerca de la significacin de la relacin y los intervalos de estimacin pueden no ser vlidos. Los residuales nos proveen informacin importante acerca de . Para la observacin i el residual ser:

i yi - y
La mayor parte del anlisis residual se basa en el anlisis grfico.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 27

Grfico de residuales con la variable independiente x

Si el supuesto de la homogeneidad de varianzas se da, y asumimos que el modelo de regresin es una representacin vlida de la relacin entre las variables, entonces Este grfico de residuales nos mostrar en general, una banda horizontal de puntos

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 28

Grfico de residuales con la variable dependiente x


y-y

Buen patrn Residual

x
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 29

Grfico de residuales con la variable dependiente x


y-y

Heterogeneidad deVarianzas Residual

x
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 30

Grfico de residuales con la variable dependiente x


y-y

Forma del Modelo NO es Adecuada Residual

x
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 31

Ecuacin de Regresin Mltiple


Luego la Ecuacin de Regresin Lineal Mltiple Estimada ser:
^=b +b x +b x +...+b x y 0 1 1 2 2 p p

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 32

Proceso de Estimacin
Modelo de Regresin Mltiple

y = 0 + 1x1 + 2x2 +. . .+ pxp +


Ecuacin de Regresin Mltiple E(y) = 0 + 1x1 + 2x2 +. . .+ pxp Parmetros desconocidos

Data Muestral: x 1 x 2 . . . xp y . . . . . . . .

0, 1, 2, . . . , p
Ecuacin de Regresin Mltiple Estimada

b0, b1, b2, . . . , bp


Son estimadores de

0, 1, 2, . . . , p

= b0 + b1 x1 + b2 x2 + ... + bp x p y Los Estadsticos muestrales son: b0, b1, b2, . . . , bp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 33

Ejemplo: Estudio Salarial


Una empresa que produce software est interesada en hacer un estudio de los salarios que reciben los programadores. Le han sugerido que use el anlisis de Regresin para determinar si el salario est relacionado con la experiencia y con el resultado de una prueba de aptitudes que se toma al los programadores. Los aos de experiencia, el puntaje de la prueba de aptitudes, y su correspondiente salario ($1000s) para una muestra de 20 programadores se muestra en la siguiente tabla.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 34

Ejemplo: Estudio Salarial


Exper. Puntaje Salario 4 7 1 5 8 10 0 1 6 6 78 100 86 82 86 84 75 80 83 91 24 43 23.7 34.3 35.8 38 22.2 23.1 30 33 Exper. Puntaje Salario 9 2 10 5 6 8 4 6 3 3 88 73 75 81 74 87 79 94 70 89 38 26.6 36.2 31.6 29 34 30.1 33.9 28.2 30

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 35

Modelo de Regresin Mltiple


Supongamos que creemos que el salario (y) est relacionado con los aos de experiencia (x1) y el puntaje en la prueba de aptitudes que se toma a los programadores (x2) por el siguiente modelo de regresin: y = 0 + 1x1 + 2x2 + donde y = salario anual ($1000) x1 = aos de experiencia x2 = puntaje en la prueba de aptitudes

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 36

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B Programador Experiencia(aos) 1 4 2 7 3 1 4 5 5 8 6 10 7 0 8 1 C Puntaje 78 100 86 82 86 84 75 80 D Salario ($K) 24.0 43.0 23.7 34.3 35.8 38.0 22.2 23.1

1 2 3 4 5 6 7 8 9

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 37

Usando Excel para trabajar el Anlisis de Regresin


Paso 1 Paso 2 Paso 3 Paso 4 Seleccionar men de Herramientas Escoger la opcin de Anlisis de datos Escoger en el listado Regresin Cuando aparezca la caja de Regresin: Ingresar D1:D21 en Rango Y de entrada Ingresar B1:C21 en Rango X de entrada escoger Rtulos Seleccionar Nivel de Confianza Ingrese 95 esta casilla Seleccione Rango de salida Ingrese A9 en la casilla correspondiente Oprima Aceptar para hacer el anlisis de regresin.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 38

Usando Excel para trabajar el Anlisis de Regresin Mltiple

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 39

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercepto 3.17394 6.15607 0.5156 0.61279 41 Experiencia 1.4039 0.19857 7.0702 1.9E-06 42 Puntaje 0.25089 0.07735 3.2433 0.00478 43

SALARIO SALARIO = = 3.174 3.174 + + 1.404(EXPER) 1.404(EXPER) + + 0.251(PUNTAJE) 0.251(PUNTAJE) Nota: El salario se expresa en miles de dlares.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 40

Interpretacin de los Coeficientes


En el anlisis de regresin mltiple, cada coeficiente de regresin se interpreta como: bi representa un estimado de los cambios en Y por cambio en 1 unidad en Xi manteniendo todas las otras variables independientes constantes.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 41

Interpretacin de los Coeficientes


b = 1. 404 b1 1 = 1. 404 Se espera que el salario aumente en $1,404 por cada ao adicional de experiencia (cuando la variable puntaje se mantiene constante). b = 0.251 b2 2 = 0.251 Se espera que el salario aumente en $251 por cada punto adicional en la prueba de aptitudes (cuando la variable experiencia se mantiene constante).
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 42

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A 32 33 34 35 36 37 38 ANOVA df SS MS F Significance F Regression 2 500.3285 250.1643 42.76013 2.32774E-07 Residual 17 99.45697 5.85041 Total 19 599.7855 B C D E F

SST

SSR

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 43

Coeficiente de Determinacin Mltiple


R2 = SSR/SST R2 = 500.3285/599.7855 = .83418
2 Ra

n -1 = 1 - (1 - R2 ) n -p -1 20 - 1 20 - 2 - 1 = .814671

Ra = 1 (1 - .834179)

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 44

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A 23 24 25 26 27 28 29 30 31 32 SUMMARY OUTPUT Regression Statistics Multiple R 0.913334059 R Square 0.834179103 Adjusted R Square 0.814670762 Standard Error 2.418762076 Observations 20 B C

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 45

Supuestos acerca del Trmino Error


1. El error es una variable aleatoria con media cero. 2. La varianza de , denotada por 2, es la misma para todos los valores de la variable independiente. 3. Los valores de son independientes. 4. El error es una variable aleatoria destribuida normalmente, y refleja la diferencia entre el valor de y con el valor esperado de y dado por 0 + 1x1 + 2x2 + . . + pxp.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 46

Pruebas de Significacin: Prueba F


La prueba F se usa para evaluar si hay significacin estadstica entre la variable dependiente y el conjunto de variables independientes seleccionado. La prueba F es llamada prueba global de significacin.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 47

Pruebas de Significacin: Prueba t


Si la prueba F nos da una significacin global del modelo, la prueba t se usa para determinar si cada variable independiente es significativa. Se hace una prueba separada para cada variable independiente en el modelo. Siempre nos referimos a estas pruebas t como pruebas de significacin individuales.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 48

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A 32 33 34 35 36 37 38 ANOVA df SS MS F Significance F Regression 2 500.3285 250.1643 42.76013 2.32774E-07 Residual 17 99.45697 5.85041 Total 19 599.7855 B C D E F

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 49

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A 32 33 34 35 36 37 38 ANOVA df SS MS F Significance F Regression 2 500.3285 250.1643 42.76013 2.32774E-07 Residual 17 99.45697 5.85041 Total 19 599.7855 B C D E F

Valor-p usado para la prueba global de significacin


Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 50

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercept 3.17394 6.15607 0.5156 0.61279 41 Experience 1.4039 0.19857 7.0702 1.9E-06 42 Test Score 0.25089 0.07735 3.2433 0.00478 43

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 51

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercepto 3.17394 6.15607 0.5156 0.61279 41 Experiencia 1.4039 0.19857 7.0702 1.9E-06 42 Puntaje 0.25089 0.07735 3.2433 0.00478 43

Valor-p usado para probar la significacin individual de la variable Experiencia


Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 52

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercepto 3.17394 6.15607 0.5156 0.61279 41 Experiencia 1.4039 0.19857 7.0702 1.9E-06 42 Puntaje 0.25089 0.07735 3.2433 0.00478 43

Valor-p usado para probar la significacin individual de la variable Puntaje


Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 53

Pruebas de Significacin: Multicolinealidad


El trmino multicolinealidad se est refiriendo a que existe relacin entre las variables independientes. Cuando las variables independientes estn altamente correlacionadas, no es posible determinar el efecto separado de ninguna variable independiente en particular sobre la variable dependiente. De darse esto, decimos que el Modelo no es explicativo.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

Taller de Estadstica - 54

Pruebas de Significacin: Multicolinealidad


Si la ecuacin de regresin estimada, slo se usar con fines de prediccin, la multicolinealidad no es un problema serio. Debemos hacer todo lo posible para evitar incluir en el modelo variables independientes que estn altamente correlacionadas.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2008.

S-ar putea să vă placă și