Regresiones 1

Modelos de regresión
Introducción
■ La regresión se utiliza para entender la relación entre

distintas variables
■ Se utiliza también para predecir el valor de una
variable con base en el valor de otras.
■ Existen regresiones lineales y no-lineales
■ Las regresiones simples utilizan solo 2 variables: una
variable Y se explica o se modela por una función de
otra variable X.
■ Las regresiones múltiples utilizan más de 2 variables
Introducción
■ La variable que se quiere predecir se llama

variable dependiente (o variable de respuesta)
■ El valor de esa variable depende del valor de las
otras variables llamadas variables independientes
(o variables explicativas / variables predictivas)
Variable Variable Variable

= +
dependiente independiente independiente
Rústica Construction
• Rústica Construction remodela casas antiguas.

• Los gerentes se han dado cuenta que su volumen de
trabajo de remodelación en dólares depende de la
nómina de los distritos de Lima.
Ventas Nómina local

($100,000) (por $100,000,000)
6 3
8 4
9 6
5 4
4.5 2
9.5 5
Recta de regresión
Regresión lineal simple
• Los modelos de regresión se utilizan para probar si existe relaciones

entre las variables.
• Existe un error aleatorio que no se puede predecir.
intersección pendiente
= + +
error
variable
dependiente variable
independiente
intersección pendiente
= + +
variable variable error
dependiente independiente
Plantear una regresión lineal simple, es suponer que
En otras palabras, se espera que Y sea igual a

= + +
Los verdaderos valores de la pendiente y de la intersección no son

conocidos, se estiman usando los datos de la muestra.
!= +
donde:
Recta de regresión
valor
pronosticado
error
valor observado
• Rústica Construction intenta predecir las ventas.
La recta de regresión minimiza la suma de los

cuadrados de los errores.
Error = Valor actual – Valor pronosticado
= −!
!= +
! !
= ( − )( − )
= = = !
= ( − )
!
=
SION MODELS
= = −
– – –
Y X (X – X )2 (X – X )(Y – Y )
6 3 (3 – 4)2 = 1 (3 – 4)(6 – 7) = 1
8 4 (4 – 4)2 = 0 (4 – 4)(8 – 7) = 0
9 6 (6 – 4)2 = 4 (6 – 4)(9 – 7) = 4
5 4 (4 – 4)2 = 0 (4 – 4)(5 – 7) = 0
4.5 2 (2 – 4)2 = 4 (2 – 4)(4.5 – 7) = 5
9.5 5 (5 – 4)2 = 1 (5 – 4)(9.5 – 7) = 2.5
g Y ! 42 g X ! 24 g 1X - X22 = 10 g 1X - X21Y - Y2 = 12.5
!= +
! !
=( − )( − ) .
= =
= = = ! = = .
= ( − )
!
= = − = −( . × )=
= = =
Entonces:
!= + .
Ventas = 2 + (1.25 x Nómina)
Que sería el valor anticipado de las ventas según ese

modelo si la nómina para el próximo año fuera de
$600,000 (X = 6)?
Medición del ajuste del modelo de
regresión
Regresión lineal Regresión política
floro
regresión
Desviación de la recta de regresión y de la media
desviación
de la recta
de regresión
desviación
de la media
Medición del ajuste del
modelo de regresión
• Un modelo de regresión se puede desarrollar para

cualquier par de variables (X, Y).
• ¿Pero como se puede saber si el modelo es util y tiene
sentido para predecir el valor Y en base al valor X?
• 3 medidas de variabilidad se utilizan:
• SCT (suma de cuadrados total): Variabilidad total
alrededor de la media
• SCE (suma de cuadrados de los errores):
Variabilidad alrededor de la recta de regresión
• SCR (suma de cuadrados debido a la regresión):
Variabilidad explicada por el modelo
Medición del ajuste del
modelo de regresión
• SCT (suma de cuadrados total)

SST (total sum of squares)
• SCE (suma de cuadrados de los

SSE (error sum of squares)
errores)
• SCR (suma de cuadrados debido a

SSR (regression sum of squares)
la regresión)
regresión
SCT (suma de cuadrados total)

Variabilidad total alrededor de la media
!
= ( − )
SCT = 22.5
regresión
SCE (suma de cuadrados de los errores)

! !
= = ( − ")
SCE = 6.875
regresión
SCR (suma de cuadrados debido a la regresión)

!
= (" − )
SCR = 15.625
regresión
RELACION IMPORTANTE
SCT (suma de cuadrados total)

Variabilidad total alrededor de la media
=
SCR (suma de cuadrados debido a la regresión)
+
SCE (suma de cuadrados de los errores)
Coeficiente de determinación
La proporción de la variabilidad en Y explicada por la
regresión se llama coeficiente de determinación
= = −
En el caso de Rústica Construction
.
= = .
.
Aproximadamente 69% de la variabilidad de las
ventas Y se explica con la nómina X del área.
Coeficiente de correlación
El coeficiente de correlación expresa el grado o la
fuerza de la relación lineal
√
=±
Es negativo si la pendiente es negativa,

positivo si la pendiente es positiva
En el caso de Rústica Construction
√ √
= = . = .
Coeficiente de correlación 4.4 MEASURING THE FIT OF THE REGRESSION MODEL 141
RE 4.3
Values of the Y Y
lation Coefficient
(a) Correlación
Perfect Positive X (b) Correlación
Positive Correlation:
positiva X
Correlation:
positiva perfecta 0 <#r r<#1
1
rr ="1 !1
Y Y
(c) NoNocorrelación
Correlation: X (d ) Correlación negativa X
Perfect Negative
rr ="0 0 Correlation:
perfecta
r=
"–1$1
Supuestos del modelo de regresión
Con supuestos acerca de los errores, podemos

realizar pruebas estadísticas para determinar si
el modelo es útil. Los supuesto acerca de los
errores son:
1. no dependen del valor de X

2. siguen una distribución normal
3. tienen una media de cero
4. tienen una varianza constante con X
Se gráfica frecuentemente los residuos para ver

cualquiera transgresión evidente de un
presupuesto.
highlight It is possible to check the data to see if these assumptions are met. Often a plot of the
l. will highlight any glaring violations of the assumptions. When the errors (residuals) ar
against the independent variable, the pattern should appear random.
Figure 4.4 presents some typical error patterns, with Figure 4.4A displaying a patte
Gráfica de residuos
expected when the assumptions are met and the model is appropriate. The errors are ran
no discernible pattern is present. Figure 4.4B demonstrates an error pattern in which t
increase as X increases, violating the constant variance assumption. Figure 4.4C show
Patrones de errores que indican aleatoriedad
mness
Error
X
Homocedasticidad
E
Gráfica de residuos
X
Varianza del error no constante
r
Error
X
Heterocedasticidad
Gráfica deX residuos
Errores que indican que la relación no es lineal
Error
X
Estimación de la varianza de los
errores
• Un supuesto importante es que la varianza de los
errores es constante con X. Esa varianza no se
conoce pero se puede estimar a partir de la
muestra.
• El cuadrado medio debido al error (EMC) se denota
con s2:
= =
− −
con:
Estimación de la varianza de los
errores
• En el caso de Rústica Construction:
.
= = = = .
− − − −
• El error estándar de la estimación (o desviación

estándar de la regresión) se escribe:
√ √
= = = .
Prueba de la
significancia del modelo
• Cuando el tamaño de la muestra es demasiado

pequeño, se puede obtener buenos valores de EMC
y r2 aun cuando no exista una relación entre las
variables del modelo de regresión.
• Se necesita una prueba de significancia para soportar

la posibilidad de una relación lineal entre X y Y.
• Se realiza una prueba de hipótesis estadística.

Prueba de significancia del modelo
• Con el modelo lineal general:
= + +
• Hipótesis nula ß1=0: indica que no hay relación lineal

entre X y Y.
• Hipótesis alternativa ß1≠0: indica que existe una
relación lineal entre X y Y.
• Se demuestra que existe una relación cuando se puede
rechazar la hipótesis nula.
• La distribución F se utiliza para probar esta hipótesis.
Prueba de la significancia del
modelo
• El estadístico F se basa en el EMC y en la regresión media
cuadrada (RMC):
=
• k es el número de variables independientes
• El estadístico F es:
=
• EMC: Error medio cuadrado = =

− −
• El estadístico F calculado está descrito por la distribución F con:

• df1 = k grados de libertad para el numerador
• df2 = n–k–1 grados de libertad para el denominador
Pasos de la prueba de hipótesis
1. Especificar las hipótesis nulas y alternativas:
=
=
2. Seleccionar el nivel de significancia α (generalmente 0.01
o 0.05)
3. Calcular el valor del estadístico usando uno de los

siguientes métodos:
A. Rechazar la hipótesis nula si el estadístico F es
mayor que el valor de F en la tabla de distribución F:
> , ,
B. Rechazar la hipótesis nula si el nivel de significancia
observado (valor-p) es menor que el nivel de
significancia α.
= ( > )
<
1. Especificar las hipótesis nulas y alternativas:
=
=
2. Seleccionar α = 0.05
3. Calcular el valor del estadístico:

.
= = = .
.
= = = .
.
. , , = .
4. 9.09 > 7.71 y se rechaza la hipótesis nula.
Conclusión: Existe una relación lineal entre X y Y

4.7• Se puedeTHE
TESTING concluir
MODELque
FORhay una
SIGNIFICANCE 147
relación estadísticamente significativa
entre X y Y.
for Triple
n Test for • El valor r2 de 0.69 significa que
aproximadamente 69% de la
variabilidad de las ventas Y se
explican por la nómina X.
0.05
F " 7.71 9.09
Triple A Construction Example

Análisis de regresión
múltiple
• Es una extensión práctica del modelo simple que permite la
construcción de modelos con más de una variable independiente.
= + + + ··· + +
donde:
Análisis de regresión
múltiple
• Para estimar los valores de los coeficientes, se toma una muestra y se
desarrolla la ecuación:
!= + + + ··· +
donde:
Jenny Wilson Realty
• Jenny Wilson quiere desarrollar un modelo para determinar los precios
listados sugeridos de las casas con base en sus tamaños y
antigüedades.
!= + +
donde:
Jenny Wilson Realty
Precio de
Pies cuadrados Antigüedad Condición
venta ($)
95,000 1,926 30 Buena
119,000 2,069 40 Excelente
124,800 1,720 30 Excelente
135,000 1,396 15 Buena
142,000 1,706 32 Nueva
145,000 1,847 38 Nueva
159,000 1,950 27 Nueva
165,000 2,323 30 Excelente
182,000 2,285 26 Nueva
183,000 3,752 35 Buena
200,000 2,300 18 Buena
211,000 2,525 17 Buena
215,000 3,800 40 Excelente
219,000 1,740 12 Nueva
Evaluación del modelo de
regresión múltiple
• La evaluación es parecida a la evaluación del modelo de regresión simple: el
valor-p para la prueba F y r2 se interpretan de la misma manera.
• La hipótesis que se prueba con la prueba F es distinta: se prueba que todos

los coeficientes son iguales a 0.
• Para determinar cuál de las variables independientes son significativas, se

realiza una prueba de significancia sobre los coeficientes de cada
variable. La hipótesis nula es que el coeficiente es igual a 0:
=
=
• El estadístico de prueba se calcula con R y da los valores-p. Si el valor-p es
menor que el nivel de significancia, se rechaza la hipótesis nula y se
concluye que la variable es significativa.
Jenny Wilson Realty
• El modelo es estadísticamente significativo y útil para predecir el precio
de venta de las casas: el valor-p de la prueba F es de 0.002 y
r2 = 0.6719 (67% de la variabilidad en el precio se podrían explicar por
el modelo de regresión).
• Pero la prueba F sólo se aplica sobre el modelo completo y no se puede

decir si una o si las dos variables independientes son significativas.
• Se puede calcular el valor-p asociado a cada variable independiente y

así evaluar la significancia de cada variable individualmente.
• En el ejemplo, los valores-p de X1 (pies cuadrados) y X2 (antigüedad)

son ambos menos que el nivel de significancia de 0.05. Para cada una
de las variables se puede rechazar la hipótesis nula.
Variables binarias o ficticias
• Seutilizan variables binarias (o ficticias, indicativas) (dummy variables) para
trabajar con datos cualitativos.
• Unavariable ficticia solo puede tener el valor 0 o 1: 0 si se cumple una
condición, 1 sino.
• El
número de variables ficticias es necesariamente menos que el número de
categorías de la variable cualitativa.
• En el ejemplo, la variable cualitativa “Condición” tiene 3 categorías: Nueva,
Excelente y Buena. Para integrar esa variable en la regresión, tenemos que
utilizar dos nuevas variables independientes:
• X3 = 1 si la condición de la casa es excelente, X3 = 0 sino.
• X4 = 1 si la condición de la casa es nueva, X4 = 0 sino.
• Nose necesita ninguna variable adicional para la condición “buena”: si no es
excelente ni tampoco nueva, es necesariamente buena.
Construcción de modelos
• El mejor modelo es un modelo estadísticamente significativo con r2

alto y pocas variables.
• Problema: r2 crece con el número de variables crece.
• Por esa razón se utiliza frecuentemente un valor ajustado de r2 para

determinar si una variable adicional es útil o no.
• El valor r2 ajustado tiene en cuenta el número de variables

independientes del modelo.
• La formula para r2 es:
= = −
• La formula para r2 ajustado es:
/( − − )
= −
/( − )
• Cuando el número de variables crece, el valor r2 ajustado decrece a

menos que el crecimiento debido a la nueva variable es
suficientemente alto para compensar el cambio en k.
• En general, si la r2 ajustada aumenta cuando se agrega una nueva
variable al modelo, es probablemente útil conservarla en el modelo.
• En algunos casos, las variables pueden contener una información

redundante.
• Cuando dos variables son correlacionadas, se dice que son colineales.
• Cuando más que dos variables son correlacionadas, se dice que existe
multicolinealidad.
• Cuando hay multicolinealidad, la prueba F del modelo completo es

válida, pero las pruebas de hipótesis de cada variable individual no son
válidas.
Regresiones no lineales
• Algunas veces existen relaciones no lineales entre variables.
• Si X y Y no tienen una relación lineal, se puede transformar la variable X

en otra variable X’ de tal manera que X’ y Y tengan una relación lineal.
Y Y
* * * *
*
** * * ** *
*
*** * ** *
Relación lineal
X Relación no lineal
X
Colonel Motors
• Los ingenieros de Colonel Motors quiere utilizar un modelo de regresión
para estudiar el impacto del peso de un carro sobre el consumo de
combustible (en millas por galón).
• Han seleccionado 12 modelos de automóviles nuevos y registrado el

peso y el consumo de cada uno.
Peso (1,000 Peso (1,000

MPG LBS.) MPG LBS.)
12 4.58 20 3.18
13 4.66 23 2.68
15 4.02 24 2.65
18 2.53 33 1.70
19 3.09 36 1.95
19 3.11 42 1.92
RESSION MODELS
A sample of 12 new automobiles was selected, and the weight and MPG rating were
recorded. Table 4.6 provides this data. A scatter diagram of this data in Figure 4.6A shows the
weight and MPG. A linear regression line is drawn through the points. Excel was used to
develop a simple linear regression equation to relate the MPG (Y) to the weight in 1,000 lb. 1X12
in the form
Colonel Motors
YN = b0 + b1X1
WEIGHT WEIGHT
MPGPeso (1,000 (1,000 LB.) MPG Peso (1,000
(1,000LB.)
MPG
12
LBS.)
4.58
MPG
20
LBS.)
3.18
• En primer lugar, han buscado una
12 4.58 20 3.18
13
13
4.66
4.66
23
23
2.68
2.68 relación lineal entre el consumo (Y) y el
15
15
4.02
4.02
24
24
2.65
2.65 peso (X), de esa forma:
18 2.53 33 1.70
18 2.53 33 1.70
19 3.09 36 36 1.95 1.95
19
19 19
3.09
3.11 3.11 42 42 1.92 1.92
!= +
45
• Han obtenido la ecuación:
40
35 != . − .
30
25
• El valor de r2 es de 0.7446 con un nivel
MPG
20
de significancia para la prueba F
15
pequeño.
10
0
• Sin embargo, el diagrama de dispersión
1.00 2.00 3.00 4.00 5.00
Weight (1,000 lb.) sugiera una relación non lineal.
4.6
WEIGHT WEIGHT
obile Weight MPG (1,000 LB.) MPG (1,000 LB.)
G
45 12 4.58 20 3.18
13 4.66 23 2.68
40 15 4.02 24 2.65
Colonel Motors
18 2.53 33 1.70
35 19 3.09 36 1.95
19 3.11 42 1.92
30
E 4.6A 25
MPG
Model for 45 • Un modelo cuadrático podría ser más

ata 20 40
35
adaptado que el modelo lineal. En este
15
30 caso, buscamos una ecuación de la
10 25
forma:
MPG
20
5
15
0 10
= + ( )+ ( )
1.00 2.00 3.00 4.00 5.00
5
Weight (1,000 lb.)
0
1.00 2.00 3.00 4.00 5.00
• Para eso, definimos una nueva variable
Weight (1,000 lb.)
X2 = (peso)2. Así podemos buscar un
E 4.6B
45 45
modelo lineal de la forma:
ear Model for
ata
40
40
35
!= + +
35 30
25
• Se obtiene la ecuación:
MPG
30
20
25 15
!= . − . + .
MPG
10
20
5 • Equivalente a:
15 0
1.00 2.00 3.00 4.00 5.00
Weight (1,000 lb.)
10 = . − . ( )+ . ( )
5
• con r2 = 0.8478 y la r2 ajustada aumentó
0
1.00 2.00 3.00 4.00 5.00 de 0.719 a 0.814, confirmando que la
Weight (1,000 lb.)
nueva variable mejora el modelo.

Regresiones 1

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresiones 1

Încărcat de

Drepturi de autor:

Formate disponibile

Modelos de regresión

■ La regresión se utiliza para entender la relación entre

■ La variable que se quiere predecir se llama

Variable Variable Variable

• Rústica Construction remodela casas antiguas.

Ventas Nómina local

• Los modelos de regresión se utilizan para probar si existe relaciones

• Existe un error aleatorio que no se puede predecir.

Plantear una regresión lineal simple, es suponer que

En otras palabras, se espera que Y sea igual a

Los verdaderos valores de la pendiente y de la intersección no son

• Rústica Construction intenta predecir las ventas.

La recta de regresión minimiza la suma de los

Error = Valor actual – Valor pronosticado

Que sería el valor anticipado de las ventas según ese

Regresión lineal Regresión política

• Un modelo de regresión se puede desarrollar para

• SCT (suma de cuadrados total)

• SCE (suma de cuadrados de los

• SCR (suma de cuadrados debido a

SCT (suma de cuadrados total)

SCE (suma de cuadrados de los errores)

SCR (suma de cuadrados debido a la regresión)

SCT (suma de cuadrados total)

En el caso de Rústica Construction

Es negativo si la pendiente es negativa,

En el caso de Rústica Construction

Con supuestos acerca de los errores, podemos

1. no dependen del valor de X

Se gráfica frecuentemente los residuos para ver

Varianza del error no constante

• En el caso de Rústica Construction:

• El error estándar de la estimación (o desviación

• Cuando el tamaño de la muestra es demasiado

• Se necesita una prueba de significancia para soportar

• Se realiza una prueba de hipótesis estadística.

• Con el modelo lineal general:

• Hipótesis nula ß1=0: indica que no hay relación lineal

• EMC: Error medio cuadrado = =

• El estadístico F calculado está descrito por la distribución F con:

3. Calcular el valor del estadístico usando uno de los

3. Calcular el valor del estadístico:

4. 9.09 > 7.71 y se rechaza la hipótesis nula.

Conclusión: Existe una relación lineal entre X y Y

F " 7.71 9.09

Triple A Construction Example

• La hipótesis que se prueba con la prueba F es distinta: se prueba que todos

• Para determinar cuál de las variables independientes son significativas, se

• Pero la prueba F sólo se aplica sobre el modelo completo y no se puede

• Se puede calcular el valor-p asociado a cada variable independiente y

• En el ejemplo, los valores-p de X1 (pies cuadrados) y X2 (antigüedad)

• El mejor modelo es un modelo estadísticamente significativo con r2

• Problema: r2 crece con el número de variables crece.

• Por esa razón se utiliza frecuentemente un valor ajustado de r2 para

• El valor r2 ajustado tiene en cuenta el número de variables

• Cuando el número de variables crece, el valor r2 ajustado decrece a

• En algunos casos, las variables pueden contener una información

• Cuando dos variables son correlacionadas, se dice que son colineales.

• Cuando hay multicolinealidad, la prueba F del modelo completo es

• Si X y Y no tienen una relación lineal, se puede transformar la variable X

• Han seleccionado 12 modelos de automóviles nuevos y registrado el

Peso (1,000 Peso (1,000