Sunteți pe pagina 1din 50

MODELO DE REGRESIÓN

MÚLTIPLE
Módulo 6

LUIS DEL CARPIO CASTRO


Profesor de Herramientas para la Toma de
Decisiones Gerenciales
Modelo de regresión lineal

Es un método matemático que modeliza la relación


entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε.

Y= 0 + 1 X1 + 2 X 2 ... + n Xn +
Rendimiento académico 20
15

10
5

0
0 5 10 15 20
Horas de estudio/semana
Horas de Estudio Nota
(X) (Y)
4 8
5 10
6 12
7 14
Y = 2X
8 16
9 18
10 20
R2 = 1

0 <> 1
Más alto mejor es la capacidad
predictiva de X sobre Y
Horas de Estudio Nota
(X) (Y)
4 7
5 8.5
6 10
7 11.5
8 13
9 14.5
10 16
11 17.5
12 19 Y = 1.5X + 1

R2 = 1
Horas de Estudio Nota
(X) (Y)
12 12
9 10
10 11
14 11
2 9
7 11
16 15
11 11
15 16
8 8
4 9
18 17
12 13
9 9
10 14
2 6 Y = 0.654X + 5.081
17 20
0 4 R2 = 0.8126
8 11
20 18
Supuestos del modelo de
regresión lineal

1. Linealidad R2
2. Independencia
3. Homocedasticidad Residuos
4. Normalidad
5. No-colinealidad X1 ~ X 2
Ejemplo
Un distribuidor de dulces desea evaluar los factores que

De: Raul Jimmy Alvarez Guale (Docente de la Universidad Politécnica Salesiana)


Especificación del Modelo

Un distribuidor de dulces desea evaluar los factores que se cree

Variable dependiente: Ventas (unidades / semana)

Variables independientes: Precio ($) y Publicidad ($100)

Modelo de regresión múltiple poblacional:

Ventas = β 0 + β1(Precio) + β2(Publicidad) + ε


Formulación del Modelo

Los datos de 15 semanas son recolectados….


Formulación del Modelo
Venta de Precio Publicidad
Semana
dulces ($) ($100s)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
Modelo de Regresión Múltiple:
6 380 7.50 4.0
7 430 4.50 3.0
Ventas = b0
8 470 6.40 3.7 - b1 (Precio)
9 450 7.00 3.5 + b2 (Publicidad)
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Linealidad

Ventas = b0 + b1(Precio) + b2(Publicidad)


Linealidad

La variable dependiente es la suma de un conjunto de


elementos: el origen de la recta, una combinación lineal
de variables independientes o predictoras y los residuos.

El incumplimiento del supuesto de linealidad suele

como r o R , es una medida de asociación entre las


variables aleatorias X e Y, cuyo valor varía entre -1 y +1.
Interpretación de los
coeficientes estimados
Pendientes (bi)
- Estiman el cambio en el valor promedio de “y” como bi unidades
por cada unidad de incremento en xi manteniendo las otras
variables constantes.
- Ejemplo: Si b1 = -20, entonces se espera que las ventas
promedio (y) se reduzcan en 20 dulces por semana por cada $1
en que se incremente el precio (x1), manteniendo constante la
variable publicidad (x2).

y-intercepto (b0)
- Estiman el valor promedio de y cuando todas las variables xi son
iguales a 0 (suponiendo que el valor de cero está dentro de los
rangos de valores que pueden tomar los xi)
Matriz de correlación
Ventas de dulces Precio Publicidad
Ventas de dulces 1
Precio -0.44327 1
Publicidad 0.55632 0.03044 1

Ventas vs. Precio: r = -0.44327


- Hay una asociación lineal negativa entre las ventas y el precio.

Ventas vs. Publicidad: r = 0.55632


- Hay una asociación lineal positiva entre las ventas y la
publicidad
Las correlaciones entre la variable dependiente y las variables
independientes seleccionadas pueden obtenerse usando Excel:
-
INSERTO DE EXCEL
Estimación de la ecuación

Excel:
- Datos / Análisis de datos / Regresión
INSERTO DE EXCEL
MATRIZ DE CORRELACIÓN
Resultado

Ventas = 306.526 - 24.975 (Precio) + 74.131 (Publicidad)


Resultado
Ecuación estimada de regresión múltiple:

Ventas = 306.526 - 24.975 (Precio) + 74.131 (Publicidad)

b2 = 74.131: Las ventas


b1 = -24.975: Las ventas crecerán en promedio
decrecerán en promedio 74.131 dulces por
24.975 dulces por semana semana por cada
por cada $1 incrementado $100 incrementado en
en el precio, manteniendo publicidad, manteniendo
constante la publicidad. constante el precio.

Donde: Ventas (número de dulces por semana)


Precio ($)
Publicidad ($100’s)
Usando el modelo para hacer
predicciones
Predecir las ventas de una semana en la cual el
precio es $5.50 y la publicidad es $350.

Ventas = 306.526 - 24.975 (Precio) + 74.131 (Publicidad)


= 306.526 - 24.975 (5.50) + 74.131 (3.5)
= 428.62

La venta predecida es Nota: La publicidad


428.62 dulces está en $100’s,
entonces x2 = 3.5
Coeficiente de determinación
2
múltiple (R )

Reporta la proporción de la variación total en y que


es explicada por todas las variables (juntas) “x”
consideradas en el modelo.

2 SSR Suma de cuadrados de regresión


R = =
SST Suma total de cuadrados
Coeficiente de determinación
2
múltiple (R )
2 SSR 29460.0
R = = = 0.52148
SST 56493.3

El 52.1% de la
variación en las
ventas es explicada
por la variación
en los precios y la
publicidad
2
R Ajustado
Muestra la proporción explicada de la variación en y por las
variables x’s tomando en cuenta la relación entre el tamaño de
muestra y el número de variables independientes.

2 n 1
2
R = 1 (1 R )
A
n k 1

(Donde: n = Tamaño muestral, k = Número de variables


independientes)
Penaliza el uso excesivo de variables independientes no
importantes
Es más pequeña que el R2
Útil en la comparación entre modelos.
2
R Ajustado

2
R = 0.44172
A

El 44.2% de la
variación en las
ventas es explicada
por la variación
en los precios y la
publicidad, tomando
en cuenta la relación
entre el tamaño
de muestra y el
número de variables
independientes
Diagnóstico del modelo:
prueba F (significancia general)

Muestra si hay una relación lineal entre todas las variables x


(consideradas en forma conjunta) e “y”.
Usa el estadístico de prueba F
Hipótesis:

- H0: β1 = β2 = … = βk = 0 (No hay relación lineal)

- HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y) y


al menos un xi)
Diagnóstico del modelo:
prueba F (significancia general)

Estadístico de prueba:

SSR
k MSR
F= =
SSE MSE
n k 1

Donde: Los grados de libertad de F son:

glnumerador = k

gldenominador = (n – k – 1)
Diagnóstico del modelo:
prueba F (significancia general)
MSR 14730.0
Con 2 y 12 grados de libertad F= = = 6.5386
MSE 2252.8

Valor P
para la prueba
Diagnóstico del modelo:
prueba F (significancia general)
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero

Valor crítico:
= 0.05 F0.05 = 3.885
glnumerador = 2 = 0.05
gldenominador = 12
0 No rechazar H0 Rechazar H0
F

Estadístico de prueba: MSR


F= = 6.5386
MSE

Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0


Conclusión:
regresión explica parte de la variación en la venta de dulces (al
menos una de las pendientes de regresión no es cero)
¿Las variables individuales
son significativas ?

Muestra si hay una relación lineal entre la variable xi e y


Hipótesis:

- H0: βi = 0 (No hay relación lineal)

- HA: βi ≠ 0 (Existe relación lineal entre xi e y)


¿Las variables individuales
son significativas?

H0: βi = 0 (No hay relación lineal)

HA: βi ≠ 0 (Existe relación lineal entre xi e y)

Estadístico de prueba:

bi 0
t= (gl = n – k – 1)
sbi
¿Las variables individuales
son significativas?
El estadístico de prueba t para el Precio es -2.306 (valor p = 0.0398)
El estadístico de prueba t para la Publicidad es 2.855 (valor p = 0.0145)
¿Las Variables Individuales
son Significativas?
H0: βi = 0; HA: βi ≠ 0

g.l. = 15-2-1 = 12
a/2=0.025 a/2=0.025
= 0.05
t /2 = 2.1788
Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 -tα/2
0
Excel (Resultado): -2.1788 -2.1788
Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449

Decisión: Para cada variable se rechaza H0


Conclusión:
individual (Precio y Publicidad) afecta a la venta de
dulces, dada la presencia de la otra para = 0.05
Intervalos de confianza
para las pendientes

1
(efecto
sobre las ventas de dulces respecto a cambios en el precio):

bi ± t /2 sbi Donde t tiene


(n – k – 1) g.l.

Ejemplo: Las ventas semanales de dulces se reducirán entre 1.37


a 48.58 dulces por cada incremento de $1 en el precio.
Desviación Estándar del
Modelo de Regresión

La estimación de la desviación estándar del modelo


de regresión está dada por:

SSE
s = = MSE
n k 1

¿Este valor es grande o pequeño?


Para evaluarlo se debe comparar con el promedio de y.
Desviación estándar del
modelo de regresión
La desviación estándar del
modelo de regresión es 47.46
Desviación estándar del
modelo de regresión

La desviación estándar del modelo de regresión es 47.46

Un rango de predicción para las ventas de dulces en una semana


se puede aproximar por

Considerando que el promedio muestral de dulces por semana


es 399.3, un error de ±94.2 dulces es problablemente grande
para ser aceptado. El distribuidor podría querer buscar variables
adicionales que puedan explicar más de la variación en las
ventas.
Independencia (Residuos)

Los residuos son INDEPENDIENTES entre sí, es decir,


los residuos constituyen una variable aleatoria.
El estadístico Durbin-Watson oscila entre 0 y 4, y toma
el valor 2 cuando los residuos son independientes.
Los valores menores que 2 indican autocorrelación
positiva y los mayores que 2 autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando
DW toma valores entre 1.5 y 2.5.
INSERTO DE EXCEL
CORRER REGRESIÓN
Homocedasticidad (Residuos)

La variación de los residuos debe ser uniforme en todo el


rango de valores pronosticados.
El tamaño de los residuos es independiente del tamaño de
los pronósticos, de donde se desprende que el diagrama de
dispersión no debe mostrar ninguna pauta de asociación
entre los PRONÓSTICOS Y LOS RESIDUOS.
Homocedasticidad (Residuos)

Se espera una nube de puntos entre el pronóstico


y los residuos.
INSERTO DE EXCEL
CÁLCULO DE DURBIN
Normalidad (Residuos)

Para cada valor de la variable independiente (o combinación


de valores de las variables independientes), los residuos
se DISTRIBUYEN NORMALMENTE con media cero.
Histograma, Diagrama de probabilidad normal, prueba de
hipótesis (Z de Kolmogorov-Smirnov)
Normalidad (Residuos)

The maximum distance between


the empirical and normal cumu-
lative distributions is 0.1173. This
is less than 0.2195, the maximum
allowed with a sample size of 15.
Therefore, the normal hypothe-
sis cannot be rejected at the 5%
level.

Obtenido con Statpro (Complemento de Excel)


INSERTO DE EXCEL
ANÁLISIS DE HOMOCEDASTICIDAD
Multicolinealidad

Multicolinealidad: es la presencia de correlación entre dos


variables independientes y, por lo tanto, se traslapan.

Es decir, las dos variables contribuyen con información


redundante al modelo de regresión múltiple.

Incluir dos variables independientes altamente correlacionadas


puede afectar adversamente los resultados de regresión:
- No proporciona nueva información.
-
valores “t” bajos).
-
nuestras expectativas iniciales y con la matriz de correlación.
Multicolinealidad: factor de
inflación de varianza
VIFj es usado para medir la colinealidad:

1
VIFj = 2
1 Rj
R2j
la jma variable independiente contra las restantes k – 1
variables independientes

Si VIFj ≥ 5, entonces xj está altamente


correlacionado con las otras variables explicativas
Multicolinealidad: factor de
inflación de varianza

CONCLUSIÓN:

exista colinealidad o multicolinealidad

Obtenido con Statpro (Complemento de Excel)


INSERTO DE EXCEL
PRUEBA DE NORMALIDAD
INSERTO DE EXCEL
PRUEBA DE MULTICOLINEALIDAD

S-ar putea să vă placă și