Documente Academic
Documente Profesional
Documente Cultură
y = β0 + β1 x1 + β2 x2 + ... + βp xp
1. εi ∼ N (0, σ 2 ) ; i = 1, 2, .., n
4. E(y|x1 , x2 , ..., xp ) = σ 2
Y = X β̂ + ε
de aquı́:
1
β̂ = (X T X)−1 X T Y
donde:
y1
y2
.
Y =
.
.
yn
1 x11 x12 ... x1p
1 x21 x22 ... x2p
. . . ... .
X=
. . . ... .
. . . ... .
1 xn1 xn2 ... xnp
β̂0
β̂1
.
β̂ =
.
.
β̂p
ε1
ε2
.
ε=
.
.
εn
2
Coeficiente de determinación múltiple:
SSE
R2 = 1 −
SSyy
∑n
donde SSE = Y T Y − β̂ T X T Y y SSyy = i=1 (yi − ŷ)2
β̂i − βi
T = ∼ tn−1−p
e.e(βi )
donde el error estándar de estimación para βi viene dado por:
√
e.e(βi ) = S cii
3
2. Pruebas de hipótesis para βi ; i = 0, 1, 2, ..., p
β̂i − βi0
T = ∼ tn−p−1
e.e(βi )
• Si la prueba es bilateral:
H0 : βi = βi0 contra H1 : βi ̸= βi0
La región de rechazo es
RR = (tn−p−1; α , ∞)
RR = (−∞ , −tn−p−1; α )
R2 (n − p − 1)
F = ∼ Fp , n−p−1
p(1 − R2 )
4
La región de rechazo es
R = (fp,n−p−1 ; α , ∞)
y el p-valor es 1 − P (F ≤ fobs )
Ejemplo:
Un ingeniero especialı́sta en avalúo de inmuebles, está interesado en de-
sarrollar un modelo de regresión lineal múltiple que le permita estimar el
valor de unos apartamentos ubicados en una determinada zona de la ciudad.
Para armar el modelo se seleccionaron las siguientes variables:
x1 : Área de construcción (en metros2 )
x2 : Número de dormitorios.
x3 : Número de baños.
x4 : Puestos de estacionamiento.
x5 : Años de construcción.
y : Precio de venta (en miles de dólares)
El referido ingeniero hace una investigación en el registro mercantil y
toma las últimos 14 apartamentos vendidos en el sector.
Los resultados se presentan a continuación:
y x1 x2 x3 x4 x5
10 90 2 1 1 5
16 96 2 1 1 8
20 100 2 1 1 12
26 106 2 1 1 6
34 120 3 2 1 5
36 122 3 2 2 11
39 125 3 3 1 17
54 140 3 3 1 25
64 150 3 3 2 38
65 151 4 3 3 40
74 160 4 3 2 40
84 170 4 3 2 41
94 180 4 4 2 48
115 200 5 4 3 50
5
> y = c(10, 16, 20, 26, 34, 36, 39, 54, 64, 65, 74, 84, 94, 115)
> x1 = c(90, 96, 100, 106, 120, 122, 125, 140, 150, 151, 160, 170, 180, 200)
> x2 = c(2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5)
> x3 = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4)
> x4 = c(1, 1, 1, 1, 1, 2, 1, 1, 2, 3, 2, 2, 2, 3)
> x5 = c(5, 8, 12, 6, 5, 11, 17, 25, 38, 40, 40, 41, 48, 50)
> ajuste = lm(y ∼ x1 + x2 + x3 + x4 + x5)
> summary(ajuste)
Esto nos da como resultado:
Los coeficientes de regresión son:
β̂0 = −79.31384; β̂1 = 1.04073; β̂2 = −0.99374; β̂3 = −3.61777;
β̂4 = −0.57829; β̂5 = 0.09718
El coeficiente de determinación es R2 = 0.9984 y el coeficiente de deter-
minación ajustado es R̄2 = 0.9974
Esto indica que el 99.84% de la variación del precio de venta de un aparta-
mento se le puede atribuir al área del construcción, el número de dormitorios,
el número de baños, el número de puestos de estacionamiento y los años de
construcción.
El tobs y el p-valor para las pruebas de hipótesis de los coeficientes de
regresión son las siguientes:
Para β̂0 : tobs = −17.123 y p − valor = 0.000000138
Para β̂1 : tobs = 13.547 y p − valor = 0.000000847
Para β̂2 : tobs = −0.458 y p − valor = 0.6588
Para β̂3 : tobs = −2.798 y p − valor = 0.0233
Para β̂4 : tobs = −0.409 y p − valor = 0.6932
Para β̂5 : tobs = 0.996 y p − valor = 0.3483
La variable más significativa para el modelo es x1 ,ya que tiene el p-valor
más cercano a cero, en otras palabras, el precio de un apartamento depende
de gran manera de los metros cuadrados de construcción de este, seguido del
número de baños de este. Las demás variables no son significativas, puesto
que arrojan p-valores muy altos.
Análisis de varianza:
fobs = 1016 y p − valor = 0.00000000005501
6
Al arrojar un un p-valor muy pequeño, entonces existe al menos una
variable que es significativa en el modelo de regresión lineal.
En consecuencia, el modelo de regresión lineal es:
y = −79.31384+1.04073x1 −0.99374x2 −3.61777x3 −0.57829x4 +0.09718x5
Matriz de correlación:
Predicción:
7
Diagrama de dispersión:
> x11()
> pairs(M )
Histograma de residuos:
> x11()
> hist(resid(ajuste), main = ’Histograma de residuos’)
El modelo es correcto si la distribución de los residuos es normal con
media 0.
> x11()
> qqnorm(resid(ajuste), main = ’Gráfica de normalidad de los residuos’)
> qqline(resid(ajuste))
Para que el modelo sea correcto, los puntos del diagrama de dispersión
deben estar muy cercanos a la recta de regresión.
> x11()
> plot(ajuste$f itted.values, resid(ajuste), main = ’Gráfica de independencia’)
> abline(h = 0)
Los puntos del diagrama de dispersión tienen que estar distribuidos por
encima y por debajo de la recta h = 0. De ser ası́, se cumple la hipótesis de
independencia de los residuos.
Tablas:
8
1. Tabla ANOVA de Regresión Múltiple: