Sunteți pe pagina 1din 51

Modelos de regresión

Introducción

■ La regresión se utiliza para entender la relación entre


distintas variables
■ Se utiliza también para predecir el valor de una
variable con base en el valor de otras.
■ Existen regresiones lineales y no-lineales
■ Las regresiones simples utilizan solo 2 variables: una
variable Y se explica o se modela por una función de
otra variable X.
■ Las regresiones múltiples utilizan más de 2 variables
Introducción

■ La variable que se quiere predecir se llama


variable dependiente (o variable de respuesta)
■ El valor de esa variable depende del valor de las
otras variables llamadas variables independientes
(o variables explicativas / variables predictivas)

Variable Variable Variable


= +
dependiente independiente independiente
Rústica Construction

• Rústica Construction remodela casas antiguas.


• Los gerentes se han dado cuenta que su volumen de
trabajo de remodelación en dólares depende de la
nómina de los distritos de Lima.

Ventas Nómina local


($100,000) (por $100,000,000)
6 3
8 4
9 6
5 4
4.5 2
9.5 5
Rústica Construction
Recta de regresión
Regresión lineal simple

• Los modelos de regresión se utilizan para probar si existe relaciones


entre las variables.

• Existe un error aleatorio que no se puede predecir.

intersección pendiente

= + +

error
variable
dependiente variable
independiente
Regresión lineal simple
intersección pendiente

= + +
variable variable error
dependiente independiente

Plantear una regresión lineal simple, es suponer que

En otras palabras, se espera que Y sea igual a


Regresión lineal simple

= + +

Los verdaderos valores de la pendiente y de la intersección no son


conocidos, se estiman usando los datos de la muestra.

!= +

donde:
Rústica Construction
Recta de regresión

valor
pronosticado
error

valor observado
Rústica Construction

• Rústica Construction intenta predecir las ventas.

La recta de regresión minimiza la suma de los


cuadrados de los errores.

Error = Valor actual – Valor pronosticado

= −!
Rústica Construction
!= +
! !
= ( − )( − )
= = = !
= ( − )
!
=
SION MODELS
= = −

– – –
Y X (X – X )2 (X – X )(Y – Y )
6 3 (3 – 4)2 = 1 (3 – 4)(6 – 7) = 1
8 4 (4 – 4)2 = 0 (4 – 4)(8 – 7) = 0
9 6 (6 – 4)2 = 4 (6 – 4)(9 – 7) = 4
5 4 (4 – 4)2 = 0 (4 – 4)(5 – 7) = 0
4.5 2 (2 – 4)2 = 4 (2 – 4)(4.5 – 7) = 5
9.5 5 (5 – 4)2 = 1 (5 – 4)(9.5 – 7) = 2.5
g Y ! 42 g X ! 24 g 1X - X22 = 10 g 1X - X21Y - Y2 = 12.5
Rústica Construction
!= +
! !
=( − )( − ) .
= =
= = = ! = = .
= ( − )

!
= = − = −( . × )=
= = =

Entonces:

!= + .
Ventas = 2 + (1.25 x Nómina)

Que sería el valor anticipado de las ventas según ese


modelo si la nómina para el próximo año fuera de
$600,000 (X = 6)?
Medición del ajuste del modelo de
regresión

Regresión lineal Regresión política

floro
Medición del ajuste del modelo de
regresión
Desviación de la recta de regresión y de la media

desviación
de la recta
de regresión
desviación
de la media
Medición del ajuste del
modelo de regresión

• Un modelo de regresión se puede desarrollar para


cualquier par de variables (X, Y).
• ¿Pero como se puede saber si el modelo es util y tiene
sentido para predecir el valor Y en base al valor X?
• 3 medidas de variabilidad se utilizan:
• SCT (suma de cuadrados total): Variabilidad total
alrededor de la media
• SCE (suma de cuadrados de los errores):
Variabilidad alrededor de la recta de regresión
• SCR (suma de cuadrados debido a la regresión):
Variabilidad explicada por el modelo
Medición del ajuste del
modelo de regresión

• SCT (suma de cuadrados total)


SST (total sum of squares)

• SCE (suma de cuadrados de los


SSE (error sum of squares)
errores)

• SCR (suma de cuadrados debido a


SSR (regression sum of squares)
la regresión)
Medición del ajuste del modelo de
regresión

SCT (suma de cuadrados total)


Variabilidad total alrededor de la media

!
= ( − )

SCT = 22.5
Medición del ajuste del modelo de
regresión

SCE (suma de cuadrados de los errores)


Variabilidad alrededor de la recta de regresión

! !
= = ( − ")

SCE = 6.875
Medición del ajuste del modelo de
regresión

SCR (suma de cuadrados debido a la regresión)


Variabilidad explicada por el modelo

!
= (" − )

SCR = 15.625
Medición del ajuste del modelo de
regresión
RELACION IMPORTANTE

SCT (suma de cuadrados total)


Variabilidad total alrededor de la media
=
SCR (suma de cuadrados debido a la regresión)
Variabilidad explicada por el modelo
+
SCE (suma de cuadrados de los errores)
Variabilidad alrededor de la recta de regresión
Coeficiente de determinación
La proporción de la variabilidad en Y explicada por la
regresión se llama coeficiente de determinación

= = −

En el caso de Rústica Construction

.
= = .
.
Aproximadamente 69% de la variabilidad de las
ventas Y se explica con la nómina X del área.
Coeficiente de correlación
El coeficiente de correlación expresa el grado o la
fuerza de la relación lineal


Es negativo si la pendiente es negativa,


positivo si la pendiente es positiva

En el caso de Rústica Construction

√ √
= = . = .
Coeficiente de correlación 4.4 MEASURING THE FIT OF THE REGRESSION MODEL 141

RE 4.3
Values of the Y Y
lation Coefficient

(a) Correlación
Perfect Positive X (b) Correlación
Positive Correlation:
positiva X
Correlation:
positiva perfecta 0 <#r r<#1
1
rr ="1 !1
Y Y

(c) NoNocorrelación
Correlation: X (d ) Correlación negativa X
Perfect Negative
rr ="0 0 Correlation:
perfecta
r=
"–1$1
Supuestos del modelo de regresión

Con supuestos acerca de los errores, podemos


realizar pruebas estadísticas para determinar si
el modelo es útil. Los supuesto acerca de los
errores son:

1. no dependen del valor de X


2. siguen una distribución normal
3. tienen una media de cero
4. tienen una varianza constante con X

Se gráfica frecuentemente los residuos para ver


cualquiera transgresión evidente de un
presupuesto.
highlight It is possible to check the data to see if these assumptions are met. Often a plot of the
l. will highlight any glaring violations of the assumptions. When the errors (residuals) ar
against the independent variable, the pattern should appear random.
Figure 4.4 presents some typical error patterns, with Figure 4.4A displaying a patte
Gráfica de residuos
expected when the assumptions are met and the model is appropriate. The errors are ran
no discernible pattern is present. Figure 4.4B demonstrates an error pattern in which t
increase as X increases, violating the constant variance assumption. Figure 4.4C show
Patrones de errores que indican aleatoriedad

mness
Error

X
Homocedasticidad
E
Gráfica de residuos
X

Varianza del error no constante

r
Error

X
Heterocedasticidad
Gráfica deX residuos
Errores que indican que la relación no es lineal
Error

X
Estimación de la varianza de los
errores
• Un supuesto importante es que la varianza de los
errores es constante con X. Esa varianza no se
conoce pero se puede estimar a partir de la
muestra.
• El cuadrado medio debido al error (EMC) se denota
con s2:

= =
− −
con:
Estimación de la varianza de los
errores

• En el caso de Rústica Construction:

.
= = = = .
− − − −

• El error estándar de la estimación (o desviación


estándar de la regresión) se escribe:
√ √
= = = .
Prueba de la
significancia del modelo

• Cuando el tamaño de la muestra es demasiado


pequeño, se puede obtener buenos valores de EMC
y r2 aun cuando no exista una relación entre las
variables del modelo de regresión.

• Se necesita una prueba de significancia para soportar


la posibilidad de una relación lineal entre X y Y.

• Se realiza una prueba de hipótesis estadística.


Prueba de significancia del modelo

• Con el modelo lineal general:

= + +

• Hipótesis nula ß1=0: indica que no hay relación lineal


entre X y Y.
• Hipótesis alternativa ß1≠0: indica que existe una
relación lineal entre X y Y.
• Se demuestra que existe una relación cuando se puede
rechazar la hipótesis nula.
• La distribución F se utiliza para probar esta hipótesis.
Prueba de la significancia del
modelo
• El estadístico F se basa en el EMC y en la regresión media
cuadrada (RMC):

=
• k es el número de variables independientes
• El estadístico F es:
=

• EMC: Error medio cuadrado = =


− −

• El estadístico F calculado está descrito por la distribución F con:


• df1 = k grados de libertad para el numerador
• df2 = n–k–1 grados de libertad para el denominador
Pasos de la prueba de hipótesis
1. Especificar las hipótesis nulas y alternativas:
=

=
2. Seleccionar el nivel de significancia α (generalmente 0.01
o 0.05)

3. Calcular el valor del estadístico usando uno de los


siguientes métodos:
A. Rechazar la hipótesis nula si el estadístico F es
mayor que el valor de F en la tabla de distribución F:
> , ,
B. Rechazar la hipótesis nula si el nivel de significancia
observado (valor-p) es menor que el nivel de
significancia α.
= ( > )

<
Rústica Construction
1. Especificar las hipótesis nulas y alternativas:
=

=
2. Seleccionar α = 0.05

3. Calcular el valor del estadístico:


.
= = = .
.
= = = .
.

. , , = .

4. 9.09 > 7.71 y se rechaza la hipótesis nula.

Conclusión: Existe una relación lineal entre X y Y


Rústica Construction
4.7• Se puedeTHE
TESTING concluir
MODELque
FORhay una
SIGNIFICANCE 147
relación estadísticamente significativa
entre X y Y.
for Triple
n Test for • El valor r2 de 0.69 significa que
aproximadamente 69% de la
variabilidad de las ventas Y se
explican por la nómina X.

0.05

F " 7.71 9.09

Triple A Construction Example


Análisis de regresión
múltiple
• Es una extensión práctica del modelo simple que permite la
construcción de modelos con más de una variable independiente.

= + + + ··· + +

donde:
Análisis de regresión
múltiple
• Para estimar los valores de los coeficientes, se toma una muestra y se
desarrolla la ecuación:

!= + + + ··· +

donde:
Jenny Wilson Realty
• Jenny Wilson quiere desarrollar un modelo para determinar los precios
listados sugeridos de las casas con base en sus tamaños y
antigüedades.

!= + +
donde:
Jenny Wilson Realty
Precio de
Pies cuadrados Antigüedad Condición
venta ($)
95,000 1,926 30 Buena
119,000 2,069 40 Excelente
124,800 1,720 30 Excelente
135,000 1,396 15 Buena
142,000 1,706 32 Nueva
145,000 1,847 38 Nueva
159,000 1,950 27 Nueva
165,000 2,323 30 Excelente
182,000 2,285 26 Nueva
183,000 3,752 35 Buena
200,000 2,300 18 Buena
211,000 2,525 17 Buena
215,000 3,800 40 Excelente
219,000 1,740 12 Nueva
Evaluación del modelo de
regresión múltiple
• La evaluación es parecida a la evaluación del modelo de regresión simple: el
valor-p para la prueba F y r2 se interpretan de la misma manera.

• La hipótesis que se prueba con la prueba F es distinta: se prueba que todos


los coeficientes son iguales a 0.

• Para determinar cuál de las variables independientes son significativas, se


realiza una prueba de significancia sobre los coeficientes de cada
variable. La hipótesis nula es que el coeficiente es igual a 0:
=

=
• El estadístico de prueba se calcula con R y da los valores-p. Si el valor-p es
menor que el nivel de significancia, se rechaza la hipótesis nula y se
concluye que la variable es significativa.
Jenny Wilson Realty
• El modelo es estadísticamente significativo y útil para predecir el precio
de venta de las casas: el valor-p de la prueba F es de 0.002 y
r2 = 0.6719 (67% de la variabilidad en el precio se podrían explicar por
el modelo de regresión).

• Pero la prueba F sólo se aplica sobre el modelo completo y no se puede


decir si una o si las dos variables independientes son significativas.

• Se puede calcular el valor-p asociado a cada variable independiente y


así evaluar la significancia de cada variable individualmente.

• En el ejemplo, los valores-p de X1 (pies cuadrados) y X2 (antigüedad)


son ambos menos que el nivel de significancia de 0.05. Para cada una
de las variables se puede rechazar la hipótesis nula.
Variables binarias o ficticias
• Seutilizan variables binarias (o ficticias, indicativas) (dummy variables) para
trabajar con datos cualitativos.
• Unavariable ficticia solo puede tener el valor 0 o 1: 0 si se cumple una
condición, 1 sino.
• El
número de variables ficticias es necesariamente menos que el número de
categorías de la variable cualitativa.
• En el ejemplo, la variable cualitativa “Condición” tiene 3 categorías: Nueva,
Excelente y Buena. Para integrar esa variable en la regresión, tenemos que
utilizar dos nuevas variables independientes:
• X3 = 1 si la condición de la casa es excelente, X3 = 0 sino.
• X4 = 1 si la condición de la casa es nueva, X4 = 0 sino.
• Nose necesita ninguna variable adicional para la condición “buena”: si no es
excelente ni tampoco nueva, es necesariamente buena.
Construcción de modelos

• El mejor modelo es un modelo estadísticamente significativo con r2


alto y pocas variables.

• Problema: r2 crece con el número de variables crece.

• Por esa razón se utiliza frecuentemente un valor ajustado de r2 para


determinar si una variable adicional es útil o no.

• El valor r2 ajustado tiene en cuenta el número de variables


independientes del modelo.
Construcción de modelos
• La formula para r2 es:
= = −
• La formula para r2 ajustado es:

/( − − )
= −
/( − )

• Cuando el número de variables crece, el valor r2 ajustado decrece a


menos que el crecimiento debido a la nueva variable es
suficientemente alto para compensar el cambio en k.
Construcción de modelos
• En general, si la r2 ajustada aumenta cuando se agrega una nueva
variable al modelo, es probablemente útil conservarla en el modelo.

• En algunos casos, las variables pueden contener una información


redundante.

• Cuando dos variables son correlacionadas, se dice que son colineales.

• Cuando más que dos variables son correlacionadas, se dice que existe
multicolinealidad.

• Cuando hay multicolinealidad, la prueba F del modelo completo es


válida, pero las pruebas de hipótesis de cada variable individual no son
válidas.
Regresiones no lineales
• Algunas veces existen relaciones no lineales entre variables.

• Si X y Y no tienen una relación lineal, se puede transformar la variable X


en otra variable X’ de tal manera que X’ y Y tengan una relación lineal.

Y Y

* * * *
*
** * * ** *
*
*** * ** *
Relación lineal
X Relación no lineal
X
Colonel Motors
• Los ingenieros de Colonel Motors quiere utilizar un modelo de regresión
para estudiar el impacto del peso de un carro sobre el consumo de
combustible (en millas por galón).

• Han seleccionado 12 modelos de automóviles nuevos y registrado el


peso y el consumo de cada uno.

Peso (1,000 Peso (1,000


MPG LBS.) MPG LBS.)
12 4.58 20 3.18
13 4.66 23 2.68
15 4.02 24 2.65
18 2.53 33 1.70
19 3.09 36 1.95
19 3.11 42 1.92
RESSION MODELS

A sample of 12 new automobiles was selected, and the weight and MPG rating were
recorded. Table 4.6 provides this data. A scatter diagram of this data in Figure 4.6A shows the
weight and MPG. A linear regression line is drawn through the points. Excel was used to
develop a simple linear regression equation to relate the MPG (Y) to the weight in 1,000 lb. 1X12
in the form

Colonel Motors
YN = b0 + b1X1

WEIGHT WEIGHT
MPGPeso (1,000 (1,000 LB.) MPG Peso (1,000
(1,000LB.)
MPG
12
LBS.)
4.58
MPG
20
LBS.)
3.18
• En primer lugar, han buscado una
12 4.58 20 3.18
13
13
4.66
4.66
23
23
2.68
2.68 relación lineal entre el consumo (Y) y el
15
15
4.02
4.02
24
24
2.65
2.65 peso (X), de esa forma:
18 2.53 33 1.70
18 2.53 33 1.70
19 3.09 36 36 1.95 1.95
19
19 19
3.09
3.11 3.11 42 42 1.92 1.92
!= +

45
• Han obtenido la ecuación:
40

35 != . − .
30

25
• El valor de r2 es de 0.7446 con un nivel
MPG

20
de significancia para la prueba F
15
pequeño.
10

0
• Sin embargo, el diagrama de dispersión
1.00 2.00 3.00 4.00 5.00
Weight (1,000 lb.) sugiera una relación non lineal.
4.6
WEIGHT WEIGHT
obile Weight MPG (1,000 LB.) MPG (1,000 LB.)
G
45 12 4.58 20 3.18
13 4.66 23 2.68
40 15 4.02 24 2.65

Colonel Motors
18 2.53 33 1.70
35 19 3.09 36 1.95
19 3.11 42 1.92
30

E 4.6A 25
MPG

Model for 45 • Un modelo cuadrático podría ser más


ata 20 40

35
adaptado que el modelo lineal. En este
15
30 caso, buscamos una ecuación de la
10 25
forma:
MPG

20
5
15

0 10
= + ( )+ ( )
1.00 2.00 3.00 4.00 5.00
5
Weight (1,000 lb.)
0
1.00 2.00 3.00 4.00 5.00
• Para eso, definimos una nueva variable
Weight (1,000 lb.)
X2 = (peso)2. Así podemos buscar un
E 4.6B
45 45
modelo lineal de la forma:
ear Model for
ata
40
40

35
!= + +
35 30

25
• Se obtiene la ecuación:
MPG

30
20

25 15
!= . − . + .
MPG

10
20
5 • Equivalente a:
15 0
1.00 2.00 3.00 4.00 5.00
Weight (1,000 lb.)
10 = . − . ( )+ . ( )
5
• con r2 = 0.8478 y la r2 ajustada aumentó
0
1.00 2.00 3.00 4.00 5.00 de 0.719 a 0.814, confirmando que la
Weight (1,000 lb.)
nueva variable mejora el modelo.

S-ar putea să vă placă și