Sunteți pe pagina 1din 26

Anlisis de Datos para la Gerencia

Anlisis de Regresin Lineal Mltiple

Sesin 18

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Modelo y Ecuacin de Regresin Mltiple


Un Modelo de Regresin Mltiple es una ecuacin que describe cmo se relacionan la variable dependiente y con las variables independientes x1, x2, . . . xp y un trmino aleatorio de error. Y = b0 + b1X1 + b2X2 + . . . + bpXp + e y la Ecuacin de Regresin Lineal Mltiple es: E(Y) = b0 + b1X1 + b2X2 + . . . + bpXp

donde:

b0, b1, b2, . . . , bp son los parmetros, y e


es una variable aleatoria llamada error.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Ecuacin de Regresin Lineal Mltiple Estimada


Usamos una muestra aleatoria calcular los estadsticos b0, b1, b2, . . . , bp que se estimados puntuales de los b0 , b1 , b2 , . . . , bp . simple para muestrales usan como parmetros

La ecuacin estimada de regresin lineal mltiple es: Y = b0 + b1X1 + b2X2 + . . . + bpXp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Ecuacin de Regresin Mltiple


b0
Y Y

Y Y = error Y

Y = b0 + b1 X1 + b2 X2 X1

X2
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Proceso de Estimacin
Modelo de Regresin Mltiple y = b0 + b1x1 + b2x2 +. . .+ bpxp + e Ecuacin de Regresin Mltiple E(y) = b0 + b1x1 + b2x2 +. . .+ bpxp Parmetros desconocidos b0 , b1 , b2 , . . . , bp

Data Muestral: x1 x2 . . . xp y
. . . . . . . . . . . .

b0 , b1 , b2 , . . . , bp Son estimadores de b0 , b1 , b2 , . . . , bp

Ecuacin de Regresin Mltiple Estimada Y = b0 + b1X1 + b2X2 + . . . + bpXp Los Estadsticos muestrales son: b0, b1, b2, . . . , bp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Mtodo de los Mnimos Cuadrados


Criterio de los mnimos cuadrados: Min S (Yi Yi )2 Clculo de los valores de los coeficientes Las frmulas para el clculo de los coeficientes de la regresin b0, b1, b2, . . . , bp se obtienen por lgebra matricial. Nosotros usaremos el Excel para hacerlo.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Ejemplo: Estudio Salarial


Una empresa que produce software est interesada en hacer un estudio de los salarios que reciben los programadores. Le han sugerido que use el anlisis de Regresin para determinar si el salario est relacionado con la experiencia y con el resultado de una prueba de aptitudes que se toma al los programadores. Los aos de experiencia, el puntaje de la prueba de aptitudes, y su correspondiente salario ($ 1000s) para una muestra de 20 programadores se muestran en la siguiente tabla.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Ejemplo: Estudio Salarial

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

Modelo de Regresin Mltiple


Supongamos que creemos que el salario (y) est relacionado con los aos de experiencia (x1) y el puntaje en la prueba de aptitudes que se toma a los programadores (x2) por el siguiente modelo de regresin: Y = b0 + b1X1 + b2X2 + e donde Y = salario anual ($1000) X1 = aos de experiencia X2 = puntaje en la prueba de aptitudes

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

10

Estimados de b0, b1, b2

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

11

Estimados de b0, b1, b2


A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercepto 3.17394 6.15607 0.5156 0.61279 41 Experiencia 1.4039 0.19857 7.0702 1.9E-06 42 Puntaje 0.25089 0.07735 3.2433 0.00478 43

SALARIO = 3.174 + 1.404(EXPER) + 0.251(PUNTAJE)


Nota: El salario se expresa en miles de dlares.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

12

Interpretacin de los Coeficientes


En el anlisis de regresin mltiple, cada coeficiente de regresin se interpreta como: bi representa un estimado de los cambios en Y por cambio en 1 unidad en Xi manteniendo todas las otras variables independientes constantes. Por lo tanto: Se espera que el salario aumente en $1,404 por cada ao adicional de experiencia (cuando la variable puntaje se mantiene constante). Se espera que el salario aumente en $251 por cada punto adicional en la prueba de aptitudes (cuando la variable experiencia se mantiene constante).
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

13

Coeficiente de Determinacin Mltiple


Relacin entre SST, SSR, SSE SST = SSR + SSE

S (Yi Y)2

S (Yi Y)2 + S (Yi Y)2

donde: SST = suma de cuadrados total SSR = suma de cuadrados debido a la regresin SSE = suma de cuadrados debido al error

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

14

Estimado de R
A 32 33 34 35 36 37 38 ANOVA Regression Residual Total B C D E

2
F

df SS MS F Significance F 2 500.3285 250.1643 42.76013 2.32774E-07 17 99.45697 5.85041 19 599.7855

SST

SSR R2 = SSR/SST

R2 = 500.3285/599.7855 = .83418
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

15

Estimado de R
A 23 24 25 26 27 28 29 30 31 32 SUMMARY OUTPUT B

2
C

Regression Statistics Multiple R 0.913334059 R Square 0.834179103 Adjusted R Square 0.814670762 Standard Error 2.418762076 Observations 20

R2adj = 1 (1 R2)
2

(n 1) (n p 1)

(20 1) R adj = 1 (1 0.834) = 0.815 (20 2 1)


Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

16

Supuestos acerca del Trmino Error e


1. El error e es una variable aleatoria distribuida normalmente y refleja la diferencia entre el valor de Y con el valor E(Y) dado por b0 + b1X1 + b2X2 + . . + bpXp. 2. El error e es una variable aleatoria con media cero. 3. La varianza de e , denotada por 2, es la misma para todos los valores de la variable independiente. 4. Los valores de e son independientes.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

17

Pruebas de Significacin
La prueba F se usa para evaluar si hay significacin estadstica entre la variable dependiente y el conjunto de variables independientes seleccionado. La prueba F es llamada prueba global de significacin. Si la prueba F nos da una significacin global del modelo, la prueba t se usa para determinar si cada variable independiente es significativa. Se hace una prueba separada para cada variable independiente en el modelo. Siempre nos referimos a estas pruebas t como pruebas de significacin individuales.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

18

Pruebas de Significacin
A 32 33 34 35 36 37 38 ANOVA Regression Residual Total df SS MS F Significance F 2 500.3285 250.1643 42.76013 2.32774E-07 17 99.45697 5.85041 19 599.7855 B C D E F

Valor-p usado para la prueba global de significacin

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

19

Pruebas de Significacin
A B C D E 38 39 Coeffic. Std. Err. t Stat P-value 40 Intercept 3.17394 6.15607 0.5156 0.61279 41 Experience 1.4039 0.19857 7.0702 1.9E-06 42 Test Score 0.25089 0.07735 3.2433 0.00478 43

Valor-p usado para probar la significacin individual de la variable Experiencia Valor-p usado para probar la significacin individual de la variable Puntaje
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

20

Pruebas de Significacin: Multicolinealidad


El trmino multicolinealidad se est refiriendo a que existe relacin entre las variables independientes. Cuando las variables independientes estn altamente correlacionadas, no es posible determinar el efecto separado de ninguna variable independiente en particular sobre la variable dependiente. De darse esto, decimos que el Modelo no es explicativo. Si la ecuacin de regresin estimada, slo se usar con fines de prediccin, la multicolinealidad no es un problema serio. Debemos hacer todo lo posible para evitar incluir en el modelo variables independientes que estn altamente correlacionadas.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

21

Variable Independiente Cualitativa


En muchas situaciones, estaremos interesados en incluir en nuestro anlisis variables independientes cualitativas tales como sexo (masculino, femenino), mtodo de pago (cash, cheque, tarjeta de crdito), etc. Por ejemplo, si X2 puede representar el gnero donde X2= 0 indica que es masculino y X2= 1 indica que es femenino. En este caso, a X2 le llamamos variable dummy o variable artificial.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

22

Ejemplo: Estudio Salarial (B)


Una extensin del estudio, quiere incluir en el anlisis el hecho de que el programador sea graduado universitario o no en Computacin o en Tecnologa de la informacin. Los aos de experiencia, el puntaje de la prueba de aptitudes, si es o no graduado universitario y su correspondiente salario ( $1000s ) para una muestra de 20 programadores se muestra en la siguiente tabla.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

23

Ejemplo: Estudio Salarial (B)

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

24

Ecuacin de Regresin Estimada


Y = b0 + b1X1 + b2X2 + b3X3 Donde: Y = salario anual ($1000) X1 = aos de experiencia X2 = puntaje en la prueba de aptitudes X3 = 0 si la persona NO tiene grado universitario 1 si la persona SI tiene grado universitario X3 es una variable dummy

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

25

Usando Excel para trabajar el Anlisis de Regresin Mltiple


A B 24 SUMMARY OUTPUT 25 26 Regression Statistics 27 Multiple R 0.920215239 28 R Square 0.846796085 29 Adjusted R Square 0.818070351 30 Standard Error 2.396475101 31 Observations 20
A 33 ANOVA 34 35 Regression 36 Residual 37 Total B C D E F

df SS MS F Significance F 3 507.896 169.2987 29.47866 9.41675E-07 16 91.88949 5.743093 19 599.7855

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

Anlisis de Datos para la Gerencia

26

Usando Excel para trabajar el Anlisis de Regresin Mltiple


B C 39 Coeffic. Std. Err. 40 Intercept 7.94485 7.3808 41 Experience 1.14758 0.2976 42 Test Score 0.19694 0.0899 43 Grad. Degr. 2.28042 1.98661 A D E t Stat P-value 1.0764 0.2977 3.8561 0.0014 2.1905 0.04364 1.1479 0.26789

No significativo
B 39 Coeffic. 40 Intercept 7.94485 41 Experience 1.14758 42 Test Score 0.19694 43 Grad. Degr. 2.28042 A F Low. 95% -7.701739 0.516695 0.00635 -1.931002 G Up. 95% 23.5914 1.77847 0.38752 6.49185 H Low. 95.0% -7.7017385 0.51669483 0.00634964 -1.9310017 I Up. 95.0% 23.591436 1.7784686 0.3875243 6.4918494

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2013.

S-ar putea să vă placă și