Regresión Lineal Multiple

UNIVERSIDAD SIMÓN BOLÍVAR
DEPARTAMENTO DE CÓMPUTO CIENTÍFICO Y ESTADÍSTICA

CÁTEDRA: MÉTODOS ESTADÍSTICOS II (CO2124)
Laboratorio 7: Regresión Lineal Múltiple.
Las técnicas de regresión lineal múltiple busca establecer una relación

entre una variable de respuesta o variable dependiente y, y las variables
explicativas, predictorias o independientes x1 , x2 , ..., xp
La ecuación de regresión lineal múltiple tiene la forma:
y = β0 + β1 x1 + β2 x2 + ... + βp xp
Hipótesis del problema:
1. εi ∼ N (0, σ 2 ) ; i = 1, 2, .., n
2. El número de datos n es mayor p + 1, es decir, que se debe tener

suficientes datos para estimar los p + 1 parámetros.
3. Los regresores son linealmente independientes, es decir, que ninguno de

ellos está exactamente determinado por otros.
4. E(y|x1 , x2 , ..., xp ) = σ 2
5. y ∼ N (µ, σ 2 ) y su componentes son independientes.
6. Las yi no están correlacionadas entre si, i = 1, 2, ..., n.
7. Las variables x1 , x2 , ..., xn son determinı́sticas.
Los coeficientes de regresión se estiman por el método de mı́nimos cuadra-

dos, donde el modelo se puede escribir matricialmente como:
Y = X β̂ + ε
de aquı́:
1
β̂ = (X T X)−1 X T Y
donde:
 
y1
 
 y2 
 
 . 
Y =



 . 
 
 . 
yn
 
1 x11 x12 ... x1p
 
 1 x21 x22 ... x2p 
 
 . . . ... . 
X=



 . . . ... . 
 
 . . . ... . 
1 xn1 xn2 ... xnp
 
β̂0
 
 β̂1 
 
 
 . 
β̂ =  
 . 
 
 . 
 
β̂p
 
ε1
 
 ε2 
 
 . 
ε=



 . 
 
 . 
εn
2
Coeficiente de determinación múltiple:
SSE
R2 = 1 −
SSyy
∑n
donde SSE = Y T Y − β̂ T X T Y y SSyy = i=1 (yi − ŷ)2
Inferencia respecto a los parámetros:
1. Intervalos de confianza para βi ; i = 0, 1, 2, ..., p
El estadı́stico de prueba es:
β̂i − βi
T = ∼ tn−1−p
e.e(βi )
donde el error estándar de estimación para βi viene dado por:
√
e.e(βi ) = S cii
Ahora bien, los cii se obtienen a partir de:

 
c00 c01 ... c0p

 c10 c11 ... c1p 

 
 . . ... . 
(X T X)−1 =


 . . ... .  
 
 . . ... . 
cp0 cp1 ... cpp
√
SSE
yS= n−p−1
El intervalo de confianza es:
I = (β̂i − tn−p−1; α2 e.e(βi ) , β̂i + tn−p−1; α2 e.e(βi ))
3
2. Pruebas de hipótesis para βi ; i = 0, 1, 2, ..., p
El estadı́stico de prueba bajo H0 es:
β̂i − βi0
T = ∼ tn−p−1
e.e(βi )
• Si la prueba es bilateral:
H0 : βi = βi0 contra H1 : βi ̸= βi0
La región de rechazo es
RR = (−∞ , −tn−p−1; α2 ) ∪ (tn−p−1; α2 , ∞)
• Si la prueba es unilateral derecha:

H0 : βi ≤ βi0 contra H1 : βi > βi0
RR = (tn−p−1; α , ∞)
• Si la prueba es unilateral izquierda:

H0 : βi ≥ βi0 contra H1 : βi < βi0
RR = (−∞ , −tn−p−1; α )
3. Análisis de varianza en la regresión lineal múltiple:
H0 : β1 = β2 = ... = βp , es decir, las variables independientes no están

relacionadas linealmente con la variable dependiente, contra
H1 : βi ̸= 0 para algún i = 1, 2, ..., p, es decir, existe al menos una
variable independientes que está linealmente relacionada con la variable
dependiente.
El estadı́stico de prueba bajo H0 es:
R2 (n − p − 1)
F = ∼ Fp , n−p−1
p(1 − R2 )
4
R = (fp,n−p−1 ; α , ∞)
y el p-valor es 1 − P (F ≤ fobs )
Ejemplo:
Un ingeniero especialı́sta en avalúo de inmuebles, está interesado en de-
sarrollar un modelo de regresión lineal múltiple que le permita estimar el
valor de unos apartamentos ubicados en una determinada zona de la ciudad.
Para armar el modelo se seleccionaron las siguientes variables:
x1 : Área de construcción (en metros2 )
x2 : Número de dormitorios.
x3 : Número de baños.
x4 : Puestos de estacionamiento.
x5 : Años de construcción.
y : Precio de venta (en miles de dólares)
El referido ingeniero hace una investigación en el registro mercantil y
toma las últimos 14 apartamentos vendidos en el sector.
Los resultados se presentan a continuación:
y x1 x2 x3 x4 x5
10 90 2 1 1 5
16 96 2 1 1 8
20 100 2 1 1 12
26 106 2 1 1 6
34 120 3 2 1 5
36 122 3 2 2 11
39 125 3 3 1 17
54 140 3 3 1 25
64 150 3 3 2 38
65 151 4 3 3 40
74 160 4 3 2 40
84 170 4 3 2 41
94 180 4 4 2 48
115 200 5 4 3 50
5
> y = c(10, 16, 20, 26, 34, 36, 39, 54, 64, 65, 74, 84, 94, 115)
> x1 = c(90, 96, 100, 106, 120, 122, 125, 140, 150, 151, 160, 170, 180, 200)
> x2 = c(2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5)
> x3 = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4)
> x4 = c(1, 1, 1, 1, 1, 2, 1, 1, 2, 3, 2, 2, 2, 3)
> x5 = c(5, 8, 12, 6, 5, 11, 17, 25, 38, 40, 40, 41, 48, 50)
> ajuste = lm(y ∼ x1 + x2 + x3 + x4 + x5)
> summary(ajuste)
Esto nos da como resultado:
Los coeficientes de regresión son:
β̂0 = −79.31384; β̂1 = 1.04073; β̂2 = −0.99374; β̂3 = −3.61777;
β̂4 = −0.57829; β̂5 = 0.09718
El coeficiente de determinación es R2 = 0.9984 y el coeficiente de deter-
minación ajustado es R̄2 = 0.9974
Esto indica que el 99.84% de la variación del precio de venta de un aparta-
mento se le puede atribuir al área del construcción, el número de dormitorios,
el número de baños, el número de puestos de estacionamiento y los años de
construcción.
El tobs y el p-valor para las pruebas de hipótesis de los coeficientes de
regresión son las siguientes:
Para β̂0 : tobs = −17.123 y p − valor = 0.000000138
Para β̂1 : tobs = 13.547 y p − valor = 0.000000847
Para β̂5 : tobs = 0.996 y p − valor = 0.3483
La variable más significativa para el modelo es x1 ,ya que tiene el p-valor
más cercano a cero, en otras palabras, el precio de un apartamento depende
de gran manera de los metros cuadrados de construcción de este, seguido del
número de baños de este. Las demás variables no son significativas, puesto
que arrojan p-valores muy altos.
Análisis de varianza:
fobs = 1016 y p − valor = 0.00000000005501
6
Al arrojar un un p-valor muy pequeño, entonces existe al menos una
variable que es significativa en el modelo de regresión lineal.
En consecuencia, el modelo de regresión lineal es:
y = −79.31384+1.04073x1 −0.99374x2 −3.61777x3 −0.57829x4 +0.09718x5
Matriz de correlación:
> M = cbind(y, x1, x2, x3, x4, x5)

> cor(M )
Predicción:
Predecir el precio de venta de un apartamento de 145 metros2 , 2 dormi-

torios, un baño, 2 puestos de estacionamiento y 17 años de construcción.
Solución:
> B0 = coef icientes[1]
> x1 = 145
> x2 = 2
> x3 = 1
> x4 = 2
> x5 = 17
> y = B0 + B1 ∗ x1 + B2 ∗ x2 + B3 ∗ x3 + B4 ∗ x4 + B5 ∗ x5
> y = y ∗ 1000
>y
[1]66482.62
El precio de venta del apartamento será de 66482.62 dólares.
7
Diagrama de dispersión:
> x11()
> pairs(M )
Histograma de residuos:
> x11()
> hist(resid(ajuste), main = ’Histograma de residuos’)
El modelo es correcto si la distribución de los residuos es normal con
media 0.
Gráfica de normalidad de los residuos:
> x11()
> qqnorm(resid(ajuste), main = ’Gráfica de normalidad de los residuos’)
> qqline(resid(ajuste))
Para que el modelo sea correcto, los puntos del diagrama de dispersión
deben estar muy cercanos a la recta de regresión.
Gráfica de independencia de los residuos:
> x11()
> plot(ajuste$f itted.values, resid(ajuste), main = ’Gráfica de independencia’)
> abline(h = 0)
Los puntos del diagrama de dispersión tienen que estar distribuidos por
encima y por debajo de la recta h = 0. De ser ası́, se cumple la hipótesis de
independencia de los residuos.
Tablas:
8
1. Tabla ANOVA de Regresión Múltiple:
Sum of squares df Mean square F P r(> F )

Regression SSR p M SR = SSR
p
M SR
M SE
p-valor
Residual SSE n−p−1 SSE
M SE = s2 = n−p−1
Total SSR + SSE n−1 M SR + M SE
1. Tabla de coeficientes de Regresión Múltiple:
Beta estimate Std.error t P r(> T )

√ β̂0
Intercept β̂0 e.e(β0 ) = S c00 e.e(β0 )
p-valor
√ β̂1
x1 β̂1 e.e(β1 ) = S c11 e.e(β1 )
p-valor
... ... ... ... ...
√ β̂p
xp β̂p e.e(βp ) = S cpp e.e(βp )
p-valor

Regresión Lineal Multiple

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresión Lineal Multiple

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD SIMÓN BOLÍVAR

DEPARTAMENTO DE CÓMPUTO CIENTÍFICO Y ESTADÍSTICA

Laboratorio 7: Regresión Lineal Múltiple.

Las técnicas de regresión lineal múltiple busca establecer una relación

Hipótesis del problema:

2. El número de datos n es mayor p + 1, es decir, que se debe tener

3. Los regresores son linealmente independientes, es decir, que ninguno de

5. y ∼ N (µ, σ 2 ) y su componentes son independientes.

6. Las yi no están correlacionadas entre si, i = 1, 2, ..., n.

7. Las variables x1 , x2 , ..., xn son determinı́sticas.

Los coeficientes de regresión se estiman por el método de mı́nimos cuadra-

Inferencia respecto a los parámetros:

1. Intervalos de confianza para βi ; i = 0, 1, 2, ..., p

El estadı́stico de prueba es:

Ahora bien, los cii se obtienen a partir de:

El intervalo de confianza es:

I = (β̂i − tn−p−1; α2 e.e(βi ) , β̂i + tn−p−1; α2 e.e(βi ))

El estadı́stico de prueba bajo H0 es:

RR = (−∞ , −tn−p−1; α2 ) ∪ (tn−p−1; α2 , ∞)

• Si la prueba es unilateral derecha:

• Si la prueba es unilateral izquierda:

3. Análisis de varianza en la regresión lineal múltiple:

H0 : β1 = β2 = ... = βp , es decir, las variables independientes no están

El estadı́stico de prueba bajo H0 es:

> M = cbind(y, x1, x2, x3, x4, x5)

Predecir el precio de venta de un apartamento de 145 metros2 , 2 dormi-

Gráfica de normalidad de los residuos:

Gráfica de independencia de los residuos:

Sum of squares df Mean square F P r(> F )

1. Tabla de coeficientes de Regresión Múltiple:

Beta estimate Std.error t P r(> T )

S-ar putea să vă placă și