Sunteți pe pagina 1din 49

Estadstica

Captulo 14

Introduccin a la Regresin Mltiple

Chap 14-1

Objetivos de aprendizaje
En este capitulo, usted aprender:
Como desarrollar un modelo de regresin mltiple
Interpretar los coeficientes de regresin
Como determinar cuales variables independientes se
incluyen, o no, en el modelo regresional
Como determinar cuales variables independientes son
mas importantes en predecir el valor de una variable
dependiente
Como utilizar variables categricas en un modelo de
regresin
Como predecir una variable dependiente usando la
regresin logstica

Chap 14-2

El Modelo de regresin
multiple
Idea: Examinar la relacin lineal existente entre
1 variable dependiente (Y) & 2 o mas variables independientes (Xi)
Modelo de regresin mltiple con k variables Independientes:
Yintercepcin

Pendiente
Poblacional

Error aleatorio

Yi 0 1X1i 2 X2i k Xki i

Chap 14-3

Ecuacin de regresin mltiple


Los coeficientes del modelo de regresin mltiple se
determinan estimando datos muestrales
ecuacin con k variables independientes del modelo de regresin mltiple:
Estimacin (prediccin, ,
pronostico del valor de Y

Intercepcin
Estimacin

Estimacin coeficientes de la pendiente

b b X b X b X
Y
i
0
1 1i
2 2i
k ki
Veremos como utilizar Excel para obtener los coeficientes
de la pendiente regresional y otros factores regresionales
Chap 14-4

Ecuacin de regresin mltiple


(continua)

Modelo de dos variables


Y

b b X b X
Y
0
1 1
2 2

X2

X1
Chap 14-5

Ejemplo:
2 Variables Independientes
Un distribuidor de tartas desea evaluar los
factores que influyen en la demanda
Variable Dependiente : Tartas (unidades por
semana)
Variables Independientes :
Precio (en $)
Publicidad ($100s)

Los datos se renen por 15 semanas

Chap 14-6

Tartas Ejemplo
Tartas

Precio
($)

Publicidad
($100s)

350

5.50

3.3

460

7.50

3.3

350

8.00

3.0

430

8.00

4.5

350

6.80

3.0

380

7.50

4.0

430

4.50

3.0

470

6.40

3.7

450

7.00

3.5

10

490

5.00

4.0

11

340

7.20

3.5

12

300

7.90

3.2

13

440

5.90

4.0

14

450

5.00

3.5

15

300

7.00

2.7

Demand
a

ecuacin de regresin mltiple :

Vtas = b0 + b1 (Precio)
+ b2 (Publicidad)

Chap 14-7

Salida de regresin mltiple


Regression Statistics
multiple R

0.72213

R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

Vtas 306.526- 24.975(Precio) 74.131(Public)

15

df

SS

MS

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-8

La ecuacin de regresin mltiple


Vtas 306.526 - 24.975(Pre cio) 74.131(Pub lic)
donde
Ventas es el numero de tartas vendidas por semana
Precio en $
Publicidad en $100s.

b1 = -24.975: ventas
decrecern, en promedio
24.975 tartas vendidas por
semana para cada $1 de
incremento en el precio de
ventas, neto de los efectos de
cambios en publicidad

b2 = 74.131:
incremento en las
ventas en promedio
de 74.131 tartas por
semana para cada
$100 incremento en
la publicidad neta de
efectos de cambios
en el precio
Chap 14-9

Utilizando la ecuacin para


efectuar Predicciones
Prediccin en las Vtas por semana en el cul el
precio de venta es $5.50 y la publicidad es $350:
Vtas 306.526 - 24.975(Precio) 74.131(Publicidad)
306.526 - 24.975 (5.50) 74.131(3.5)
428.62

Pronstico de las

Ventas es 428.62
tartas

Observe que la
publicidad est
expresada en $100s,
as $350 se convierte en
X2 = 3.5
Chap 14-10

Coeficiente de Determinacin
mltiple
Informa la proporcin de la variacin total en Y
,explicada por todas las variables, X variables
juntas

SSR
suma de cuadradosde la regresin
r
suma
SST
total de cuadrados
2

Chap 14-11

Coeficiente de
Determinacin mltiple
(continua)
Regression Statistics
multiple R

0.72213

R Square

0.52148

Adjusted R Square

0.44172

Standard Error

Regression

52.1% de la variacin en las tartas


es explicada por la variacin en el
precio y publicidad

47.46341

Observations

ANOVA

SSR 29460.0
r

.52148
SST 56493.3
2

15

df

SS

MS

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-12

r2 Ajustado
r2 nunca decrece cuando una nueva variable X
se adiciona al modelo
Esto puede ser una desventaja comparando
modelos
Cul es el efecto neto de adicionar una nueva
variable?
Perdemos un grado de libertad cuando una
nueva variable X es agregada
Tiene la nueva variable X adicionada poder
explicativo suficiente para compensar la
perdida de un grado de libertad?
Chap 14-13

r2 Ajustado
(continua)

Muestra la proporcin de la variacin en Y explicada por


todas las variables X ajustadas por el numero de
variables X utilizadas
2
adj

n 1
2
1 (1 r )

n k 1

(donde n = tamao muestral, k = numero de variables independientes)

Penaliza excesivamente el uso de variables independientes no


importantes
Mas pequeo que r2
Util en comparar varios modelos conjuntamente

Chap 14-14

r2 Ajustado
(continua
Regression Statistics
multiple R

0.72213

R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

15

df

2
adj

.44172

44.2% de la variacin de las ventas de las tartas es


explicado por la variacin en el precio y publicidad
tomando en cuenta el tamao muestral y el numero
de variables independientes
SS

MS

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-15

Es el Modelo Significativo?
Se utiliza la Prueba F para ver si el modelo es
significativo
Muestra si hay una relacin lineal entre todas las
variables X consideradas conjuntamente e Y
Usa el estadstico F
Hiptesis:
H0: 1 = 2 = = k = 0 (no hay relacin lineal)
H1: al menos una i 0 (al menos una variable
independiente afecta a Y)
Chap 14-16

Prueba F para medir la


significacin del modelo
Estadstico de la Prueba:

SSR
MSR
k
F

SSE
MSE
n k 1
donde F tiene

(numerador) = k y
(denominador) = (n k - 1)
grados de libertad
Chap 14-17

Prueba F para medir la


significacin del modelo
(continua)
Regression Statistics
multiple R

0.72213

R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

15

df

MSR 14730.0
F

6.5386
MSE
2252.8
con 2 y 12 g de l

SS

MS

Significance F

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

t Stat

6.53861

P-value
para la
Prueba F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-18

Prueba F para medir la


significacin del modelo
(continua)

H0: 1 = 2 = 0
H1: 1 and 2 not both zero
= .05
df1= 2
df2 = 12

Estadstico de la Prueba:

MSR
F
6.5386
MSE

Decisin:
Valor

Como el estadstico de la
prueba F cae en la regin
de rechazo (p-value es <
.05), rechazamos H0

Critico :
F = 3.885

= .05

Conclusion:
0No
rechazo H0

Rechazo H0

F.05 = 3.885

Hay evidencia que como mnimo


una de las variables
independientes afecta a Y

Chap 14-19

Residuos en regresin mltiple


Modelo de dos variables
Observacin
muestral

b b X b X
Y
0
1 1
2 2

<

Residuo = ei
= (Yi Yi)

Y
Yi
<

Yi
x2i

X1

<

x1i

X2

La ecuacin de mejor ajuste,


Y , se encuentra
minimizando la suma de los
errores al cuadrados, e2
Chap 14-20

Supuestos de la regresin mltiple


Errores (residuos) del modelo regresional:
<

ei = (Yi Yi)
Supuestos:
Los errores estn normalmente distribudos
Los errores tienen una varianza constante
Los errores son independientes

Chap 14-21

Grafico de Residuos usados


en regresin mltiple
Varios grficos se usan para estudiar los
residuos en la regresin mltiple :
<

Residuos vs. Yi
Residuos vs. X1i
Residuos vs. X2i
Residuos vs. tiempo (si el tiempo conforma una serie
de tiempo)
Usamos los grficos de residuos para
chequear las violaciones a los supuestos de la
regresin
Chap 14-22

Son las variables Individuales


Significativas?
Usamos las pruebas t para estudiar las pendientes
de las variables individuales
Nos muestra si hay una relacin lineal entre las
variables Xj e Y
Hiptesis:
H0: j = 0 (no hay relacin lineal)
H1: j 0 (existe una relacin lineal entre Xj e Y)

Chap 14-23

Son las variables individuales


significativas?
(continua)

H0: j = 0 (no hay relacin lineal)


H1: j 0 (existe relacin lineal entre xj e y)
Estadstico de la Prueba:

bj 0

(gl = n k 1)

Sb j
Chap 14-24

Son las variables individuales


significativas?
(continua)
Regression Statistics
multiple R

0.72213

Valor de t para el Precio es t = -

R Square

0.52148

2.306, con un p-value .0398

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

15

df

Valor de t para publicidad es t


= 2.855, con p-value .0145
SS

MS

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-25

Inferencia sobre la pendiente


Ejemplo de la Prueba t
Desde la salida de Excel:

H0: i = 0
H1: i 0

Price
Advertising

d.f. = 15-2-1 = 12
= .05

Coefficients

Standard Error

t Stat

P-value

-24.97509

10.83213

-2.30565

0.03979

74.13096

25.96732

2.85478

0.01449

El estadstico de la prueba para cada variable cae


en la regin de rechazo (p-value < .05)

t/2 = 2.1788

/2=.025

/2=.025

Decisin: Rechazar H0
e
para
cada variable
que a
Hay evidencia
Conclusin

Rech H0

No rech H0

-t/2
-2.1788

Rech H0

t/2
2.1788

que ambas precio y


publicidad influyen sobre
las ventas at = .05
Chap 14-26

Estimacin del Intervalo de


Confianza
para la pendiente
Intervalo de Confianza
para la pendiente poblacional j

b j tnk 1Sb j
Coefficients

Standard Error

Intercept

306.52619

114.25389

Price

-24.97509

10.83213

74.13096

25.96732

Advertising

Donde t
(n k 1) g de l

Aqu t tiene
(15 2 1) = 12 d.f.

Ejemplo: Para un intervalo de confianza para el efecto de cambios en el precio

(X1) sobre la venta de tartas :


-24.975 (2.1788)(10.832)
As el intervalo es (-48.576 , -1.374)
(Este intervalo no contiene el cero, a el precio tiene un efecto signficativo sobre las ventas
Chap 14-27

Estimacin del Intervalo de Confianza


para la pendiente
(continua)

Intervalo de Confianza
para la pendiente poblacional i
Coefficients

Standard Error

Intercept

306.52619

114.25389

57.58835

555.46404

Price

-24.97509

10.83213

-48.57626

-1.37392

74.13096

25.96732

17.55303

130.70888

Advertising

Lower 95%

Upper 95%

Ejemplo: La salida de Excel tambin informa esos valores del


intervalo
Las ventas semanales se estima que se reducen entre 1.37 a
48.58 tartas para cada incremento de $1 en el precio de venta

Chap 14-28

Probando por partes del


Modelo de regresin mltiple
Contribucin de una sola variable Independente Xj
SSR(Xj | todas las variables excepto Xj)

= SSR (todas las variable) SSR( todas las variables excepto Xj)

Midiendo la contribucin de Xj explicando la variacin total


en Y (SST)

Chap 14-29

Probando por partes del


Modelo de regresin mltiple
(continua

Contribucin de una sola variable independiente Xj,


suponiendo todas las dems variables incluidas
(consideramos aqu un modelo de 3 variables):
SSR(X1 | X2 y X3)
= SSR (todas las Xj) SSR(X2 y X3)
Seccin ANOVA de regresin

b b X b X b X
Y
0
1 1
2 2
3 3

Seccin ANOVA de regresin

b b X b X
Y
0
2 2
3 3

Midiendo la contribucin de X1 que es explicada por SST


Chap 14-30

El estadstico de la Prueba
Parcial F
Consideremos la prueba de hiptesis:
H0: variable Xj no mejora significativamente el modelo para el
modelo de todas las dems variables incluidas

H1: variable Xj mejora significativamente el modelo para el modelo


de todas las dems variables incluidas

El estadstico de la prueba F:
(con 1 y n-k-1 gl.)

SSR (X j | todas las variables excepto j)


MSE
Chap 14-31

Probando partes del Modelo:


Ejemplo
Ejemplo: Trozando en partes el modelo

Probando a un nivel de
significacin del = .05 para
determinar si la variable precio
mejora significativamente el
modelo dado que la variable
publicidad es includa

Chap 14-32

Probando partes del Modelo:


Ejemplo
(continua)

H0: X1 (precio) no mejora el modelo con X2 (publicidad incluida)


H1: X1 mejora el modelo
= .05, gl = 1 y 12

Valor critico F = 4.75


(Para X2 solamente

(Para X1 y X2)
ANOVA

ANOVA

df

SS

MS

29460.02687

14730.01343

Regression

Residual

12

27033.30647

2252.775539

Total

14

56493.33333

Regression

df

SS

17484.22249

Residual

13

39009.11085

Total

14

56493.33333

Chap 14-33

Probando partes del Modelo:


Ejemplo
(continua)
(Para X2 solamente

(Para X1 y X2)
ANOVA

ANOVA
df

SS

MS

29460.02687

14730.01343

Regression

Residual

12

27033.30647

2252.775539

Total

14

56493.33333

Regression

df

SS

17484.22249

Residual

13

39009.11085

Total

14

56493.33333

SSR (X1 | X 2 ) 29 ,460 .03 17 ,484 .22

5.316
MSE(todas)
2252 .78

Conclusin: Rechazar H0; adicionando X1 ,mejora el modelo

Chap 14-34

Coeficiente de Determinacin Parcial


para el modelo de k variables
rYj2 .(todaslas variablesexcepto j )

SSR (X j | todas las variables excepto j)


SST SSR(todas las variab) SSR(X j | todas las variables excepto j)

Mide la proporcin de la variacin en la variable


dependiente que es explicada por Xj mientras
controlamos (manteniendo constante) las otras
variables explicativas

Chap 14-35

Coeficiente de Determinacin
Parcial en Excel
Los Coeficientes de Determinacin Parcial
pueden ser encontrados utilizando Excel:
PHStat | regression | mltiple regression
Chequear la caja del coefficient of partial determination
Regression Analysis
Coefficients of Partial Determination
Intermediate Calculations
SSR(X1,X2) 29460.02687
SST
56493.33333
SSR(X2)
17484.22249 SSR(X1 | X2) 11975.80438
SSR(X1)
11100.43803 SSR(X2 | X1) 18359.58884
Coefficients
r2 Y1.2
0.307000188
r2 Y2.1
0.404459524
Chap 14-36

Usando Variables Dummy


Una variable dummy es una variable explicativa
categrica con dos niveles:
Si o no, o Prendido-apagado, hombre, mujer
codificado 0 o 1

intercepcin de la regresin es diferente si la variable


es significativa
Suponiendo pendientes iguales para las otras variables
Si hay mas de dos niveles el numero de variables
dummy necesario es (numero de niveles - 1)

Chap 14-37

Variables Dummy- Ejemplo


(con 2 Niveles)
b b X b X
Y
0
1
1
2
2
Sea:
Y = Ventas de tartas
X1 = precio
X2 = feriado (X2 = 1 si hay feriado durante la semana)
(X2 = 0 Si no hay feriado en la semana)

Chap 14-38

Variables Dummy- Ejemplo


(con 2 Niveles
(continua)

b b X b (1) (b b ) b X
Y
0
1
1
2
0
2
1
1
b b X b (0)
Y
b
b X
0

Y (ventas)

b0 + b2
b0

intercepcin
Diferente

Ferado
Sin Ferado

Misma
pendiente

Si H0: 2 = 0 es
rechazado. Luego,
Ferado tiene un
efecto significativo
sobre las ventas
X1 (Precio)

Chap 14-39

Interpretando el Coeficiente de la
Variable Dummy (con 2 Niveles)
Ejemplo:

Vtas = 300 - 30(Precio) + 15(Feriados)

Ventas: numero de tartas por semana


Precio: precio de tartas en $
1 Si ocurre un feriado durante la semana
Feriados:
0 Si no ocurre feriado

b2 = 15: en promedio las ventas fueron 15 tartas mas


grandes en semanas con feriados que en semanas
sin semanas, dado el mismo precio
Chap 14-40

Modelos de Variables Dummy


(mas de 2 niveles
El numero de variables dummy es una menos
que el numero de niveles
Ejemplo:
Y = precio de la casa ; X1 = square feet
Si influye el estilo de la casa:
Estilo = rancho, mediterrneo, condominio
Hay tres niveles, as que
necesitamos dos variables
dummy
Chap 14-41

Modelos de Variables Dummy


(mas de 2 niveles)
(continua)

Ejemplo Sea condominio la categora por defecto y


sean X2 y X3 usadas para otras dos categoras:
Y = Precios de las casas
X1 = square feet
X2 = 1 si rancho, 0 en otro caso
X3 = 1 nivel mediterrneo, 0 otro caso

La ecuacin de regresin mltiple es:

b b X b X b X
Y
0
1 1
2 2
3 3
Chap 14-42

Interpretando los Coeficientes de la Variable


Dummy (con 3 Niveles)
Consideramos la ecuacin de regresin :

20.43 0.045X 23.53X 18.84X


Y
1
2
3
Para el condominio: X2 = X3 = 0

20.43 0.045X
Y
1

Para el rancho: X2 = 1; X3 = 0

Con los mismos pies cuadrados,


un rancho puede tener un precio
promedio esperado de 23.53
miles de dolares mas que un
condominio

20.43 0.045X 23.53


Y
1
Para el nivel comdo: X2 = 0; X3 = 1

20.43 0.045X 18.84


Y
1

Con los mismos pies cuadrados,


un nivel mediterrneo tiene el
mismo nivel de un precio
promedio estimado de 18.84
miles de dolares mas que un nivel
condo.
Chap 14-43

Interaccin Entre las Variables


Independientes
Hipotetizamos interaccin entre pares de
valores de las variables X
Respuesta de una variable X, puede variar
para diferentes niveles de otra variable X
Contienen trminos de productos cruzados de
dos vas

b b X b X b X
Y
0
1 1
2 2
3 3
b0 b1X1 b2 X2 b3 (X1X2 )
Chap 14-44

Efecto de la Interaccin
Dada:

Y 0 1X1 2 X2 3 X1X2

Sin efecto de trminos de interaccin de X1


sobre Y medido por 1
Efectos de trminos de X1 sobre Y es medido
por 1 + 3 X2
Efecto de cambios cuando X2 cambia

Chap 14-45

Ejemplo de Interaccin
Supongamos que X2 es una variable dummy y la ecuacin de regresin estimada es

Y = 1 + 2X1 + 3X2 + 4X1X2

Y
12

X2 = 1:
Y = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1

8
4

X2 = 0:
Y = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1

0
0

0.5

1.5

X1

Las pendientes son diferentes s el efecto de X1 sobre Y depende


sobre el valor de X2

Chap 14-46

Significacin de los Trminos de la


Interaccin
Puede realizar una prueba parcial F para la
contribucin de una variable y ver, si la adicin
de un trmino de interaccin mejora el modelo
Los trminos de interaccin mltiple pueden
ser includos
Usar una prueba parcial F para verificar la
contribucin simultnea de mltiples variables en el
modelo

Chap 14-47

Contribucin Simultnea de
Variables Independientes
Utilizamos la prueba parcial F para estudiar la
contribucin simultnea de las mltiples
variables del modelo
Sean m variables a ser adicionales de un conjunto pueden ser
adicionadas a un conjunto de variables simultneamente

Para probar la hiptesis que el conjunto de variables


mejora el modelo:
F=

[SSR(todas) - SSR (todas excepto nuevo conjunto de m variables)] / m


MSE(todas)

(donde F tiene m y n-k-1 g.l.)


Chap 14-48

Resumen del Captulo


Desarrollamos el modelo de regresin mltiple
Probamos la significacin del modelo de regresin
mltiple
Discutimos el r2 ajustado
Discutimos el grafico de residuos para chequear los
supuestos
Probamos los coeficientes de regresin individuales
Probamos por partes el modelo de regresin
Utilizamos variables dummy
Evaluamos los efectos de la interaccin

Chap 14-49

S-ar putea să vă placă și