Sunteți pe pagina 1din 41

1

UNIVERSIDAD DE LOS ANDES


Facultad de Ingeniera
Departamento de Ingeniera Industrial
Probabilidad y Estadstica I
Sesiones # 28 y # 29
Regresin Lineal Mltiple y sus Aplicaciones
Mario Castillo (Coordinador General Curso)
2
Objetivos de la Sesin
Presentar las ideas centrales del modelo de Regresin Lineal Mltiple, la
estimacin e interpretacin de sus parmetros, las hiptesis de mayor inters
y las pruebas estadsticas correspondientes.
Ilustrar con casos reales la utilizacin de dichos modelos y su relevancia en la
explicacin y pronstico de variables de inters.
Dar algunas indicaciones generales a los estudiantes sobre el uso del
software SPSS en la formulacin y anlisis de modelos de Regresin Lineal.
3
Regresin Lineal Mltiple
1. Representacin de los datos.
Se parte de n observaciones
(y
1
, x
11
, x
12
, ..., x
1q
)
(y
2
, x
21
, x
22
, ..., x
2q
)
(y
i
, x
i1
, x
i2
, ..., x
iq
)
(y
n
, x
n1
, x
n2
, ..., x
nq
)
.
.
.
.
Por ejemplo:
(Precio Acc. 1, UPA.Acc 1, Divid Acc 1, Retorno Acc 1)
(Precio Acc. 35, UPA.Acc 35, Divid Acc 35, Retorno Acc 135)
.
.
.
.
.
.
.
.
.
.
4
2. El modelo y los supuestos
La ecuacin del modelo est dada por:
i iq q ij j i i i
q q
e x x x x y
e x x x Y
+ + + + + + + =
+ + + + + =


... ...
....
2 2 1 1 0
2 2 1 1 0
nes observacio las de trminos en o
Supuestos
i) Las variables X
i
son VAs controladas
ii) E(e
i
) = 0 ; var (e
i
) =
2
iii) Cov (e
i
, e
j
) = 0
iv) Supuesto fuerte: e
i
=> N(0,
2
)
5
3. Estimacin de los parmetros: Se utiliza el mismo principio que en el
MRLS, es decir, se hallan los que minimizan la
en donde:
q


,...,

1 0

=
=
n
i
i
e SCE
1
2

...

...

(

2 2 1 1 0 iq q ij j i i i i
x x x x y e + + + + + + =
i i
E = )

(
4. Como en el MRLS, cada uno de los estimadores son centrados, es decir:
produciendo como la solucin el vector = (X
T
X)
-1
X
T
Y

q
q
i

1
2
1
0

=
6
5. Ecuacin de ANOVA y Coeficiente de Determinacin
La ecuacin de ANOVA es la misma que en el MRLS, es decir:
SCE SCR SCT
y y y y y y
n
i
i i
n
i
n
i
i i
+ =
+ =

= = = 1
2
1 1
2 2
)

( )

( ) (
1 0 ,
2 2
= R
SCT
SCR
R
Coeficiente de Determinacin:
7
6. Hiptesis de inters
Bondad global del modelo:
H
o
:
1
=
2
= ....=
q
= 0
H
1
: al menos uno de los
j
0
Prueba asociada:
) 1 , (
1 /
/


q n q F
q n SCE
q SCR
Ho
8
6. Hiptesis de inters
Relevancia de la variable x
j
:
H
o
:
j
= 0
H
1
:
j
Prueba Asociada:
0
) 1 (
)

.( .

q n t
e d
j
j

Bajo H
0
9
RLM - Caso CERNA - Interpretacin de las Salidas de SPSS
R
2
= SCR / SCT
1


=
q n
SCE

10
RLM - Caso CERNA - Interpretacin de las Salidas de SPSS
) 1 , (
1 /
/


q n q F
q n SCE
q SCR
F =
11
RLM - Caso CERNA - Interpretacin de las Salidas de SPSS
d.e.(B
j
)
t = B
j
/d.e.(B
j
) => t(n-q-1)
B
j
*
= B
j
*(S
Xj
/S
Y
)
12
RLM - Caso CERNA - Interpretacin de las Salidas de SPSS
13
14
15
16
17
18
19
RLM - Caso CERNA
Modelo1-Todas las variables
Modelo2 - Sin NOASIAT
20
Coeficientes
a
2543.674 4014.276 .634 .528
-1804.885 1757.195 -.055 -1.027 .307
19232.808 1064.995 .614 18.059 .000
10008.190 1171.531 .293 8.543 .000
1962.386 183.220 .575 10.711 .000
344.853 3396.720 .102 .919
19196.977 1064.700 .613 18.030 .000
9924.076 1168.968 .290 8.490 .000
2107.890 116.230 .618 18.136 .000
(Constante)
NOASIAT
GPA-pregrado
con postgrado(1)
aos de experiencia
(Constante)
GPA-pregrado
con postgrado(1)
aos de experiencia
Modelo
1
2
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficient
es
estandari
zados
t Sig.
Variable dependiente: Salario
a.
21
Variables excluidas
b
-.055
a
-1.027 .307 -.100 .393
NOASIAT
Modelo
2
Beta dentro t Sig.
Correlacin
parcial Tolerancia
Estadstic
os de
colinealid
ad
Variables predictoras en el modelo: (Constante), aos de experiencia,
GPA-pregrado, con postgrado(1)
a.
Variable dependiente: Salario
b.
22
RLM - Caso Credit Scoring Empresa
Seleccin de Variables - Backward
23
24
25
26
RLM - Caso Precio Acciones
Seleccin de Variables - Forward
27
RLM - Caso Precio Acciones
Seleccin de Variables - Forward
28
RLM - Caso Precio Acciones
Seleccin de Variables - Forward
29
RLM - Caso Precio Acciones
Seleccin de Variables - Forward
Regresin Residuo tipificado
2
,
0
0
1
,
7
5
1
,
5
0
1
,
2
5
1
,
0
0
,
7
5
,
5
0
,
2
5
0
,
0
0
-
,
2
5
-
,
5
0
-
,
7
5
-
1
,
0
0
-
1
,
2
5
-
1
,
5
0
-
1
,
7
5
Histograma
Variable dependiente: pr_acc
F
r
e
c
u
e
n
c
i
a
6
5
4
3
2
1
0
Desv. tp. = ,95
Media = 0,00
N = 35,00
Grfico de dispersin
Variable dependiente: pr_acc
Regresin Valor pronosticado tipificado
3 2 1 0 -1 -2
R
e
g
r
e
s
i

n

R
e
s
i
d
u
o

t
i
p
i
f
i
c
a
d
o
3
2
1
0
-1
-2
30
RLM - Caso Precio Acciones
Seleccin de Variables - Forward
Grfico de regresin parcial
Variable dependiente: pr_acc
Retorno de los accionistas
8 6 4 2 0 -2 -4
p
r
_
a
c
c
20
10
0
-10
-20
Grfico de regresin parcial
Variable dependiente: pr_acc
Utilidad por accin
4 3 2 1 0 -1 -2 -3
p
r
_
a
c
c
30
20
10
0
-10
-20
-30
31
RLM - Caso Precio Acciones
Seleccin de Variables - Backward
32
RLM - Caso Precio Acciones
Seleccin de Variables - Backward
33
R
L
M

-
C
a
s
o

P
r
e
c
i
o
A
c
c
i
o
n
e
s
S
e
l
e
c
c
i

n


d
e

V
a
r
i
a
b
l
e
s

-
B
a
c
k
w
a
r
d
34
RLM - Caso Encuesta Hbitos Estudiantes P&E I
Seleccin de Variables - Backward
Estadsticos descriptivos
Media Desviacin tp. N
Promedio 3.7576 .32881 472
Horas_Deporte 3.8178 3.61711 472
Tiempo_Transporte_C 50.00 21.661 472
Horas_Estudio 14.9417 9.97796 472
Horas_Internet 3.3258 3.06720 472
Horas_Television 1.9578 2.10150 472
Resumen del modelo
e
Modelo R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
1 .197
a
.039 .029 .32407
2 .195
b
.038 .030 .32388
3 .187
c
.035 .029 .32406
4 .176
d
.031 .027 .32437
ANOVA
e
Modelo
Suma de
cuadrados gl
Media
cuadrtica F Sig.
1 Regresin 1.982 5 .396 3.775 .002
a
Residual 48.940 466 .105
Total 50.922 471
2 Regresin 1.935 4 .484 4.610 .001
b
Residual 48.988 467 .105
Total 50.922 471
3 Regresin 1.777 3 .592 5.640 .001
c
Residual 49.146 468 .105
Total 50.922 471
4 Regresin 1.576 2 .788 7.491 .001
d
Residual 49.346 469 .105
Total 50.922 471
35
RLM - Caso Encuesta Hbitos Estudiantes P&E I
Seleccin de Variables - Backward
Coeficientes
a
Modelo
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig.
Intervalo de confianza para B al 95%
B Error tp. Beta Lmite inferior Lmite superior
1 (Constante) 3.808 .050 75.860 .000 3.709 3.906
Horas_Deporte -.010 .004 -.113 -2.482 .013 -.018 -.002
Tiempo_Transporte_C .000 .001 -.057 -1.245 .214 -.002 .000
Horas_Estudio .004 .002 .121 2.639 .009 .001 .007
Horas_Internet -.004 .006 -.036 -.674 .501 -.015 .007
Horas_Television -.007 .008 -.047 -.880 .379 -.024 .009
2 (Constante) 3.801 .049 77.188 .000 3.705 3.898
Horas_Deporte -.010 .004 -.112 -2.466 .014 -.018 -.002
Tiempo_Transporte_C .000 .001 -.056 -1.227 .221 -.002 .001
Horas_Estudio .004 .002 .118 2.585 .010 .001 .007
Horas_Television -.010 .007 -.066 -1.444 .149 -.024 .004
3 (Constante) 3.759 .035 108.020 .000 3.690 3.827
Horas_Deporte -.011 .004 -.116 -2.542 .011 -.019 -.002
Horas_Estudio .004 .002 .119 2.613 .009 .001 .007
Horas_Television -.010 .007 -.063 -1.381 .168 -.024 .004
4 (Constante) 3.738 .032 118.115 .000 3.676 3.801
Horas_Deporte -.011 .004 -.120 -2.645 .008 -.019 -.003
Horas_Estudio .004 .001 .124 2.720 .007 .001 .007
a. Variable dependiente: Promedio
36
RLM - Caso Encuesta Hbitos Estudiantes P&E I
Seleccin de Variables - Backward
37
38
39
40
Ejercicio Propuesto
Considere el problema relacionado con el consumo de gasolina de un automvil. Se
busca explicar la variable Consumo de Gasolina (litros por cada 100 kms) a travs
de un modelo de regresin lineal, utilizando una muestra aleatoria de 50 automviles,
y con base en las siguientes variables:
Cilindrada (en cc): cilindrada del automvil en centmetros cbicos.
Potencia: caballos de fuerza del automvil.
Peso Total (en kilogramos): peso total del automvil.
Aceleracin: Tiempo, en segundos, que requiere el automvil para pasar de 0 a 100
km/h.
Modelo: Modelo (ao) del automvil.
Nmero de Cilindros: Nmero de cilindros del motor del automvil.
Pas de Origen: Pas al que pertenece la marca del automvil (codificada como 1 si
es de Japn, 0 si no).
Con el propsito de crear un buen modelo explicativo y predictor se reuni
informacin sobre el Consumo de Gasolina y el valor de las variables antes
descritas para una muestra aleatoria de 50 automviles que usted encontrar en el
archivo de SPSS Datos Automviles.sav que le ha sido entregado.
41
Utilizando esta informacin y el archivo de datos que se encuentra en Sicua usted
debe resolver los siguientes interrogantes, utilizando, cuando sea el caso, un
nivel de significancia = 0.05:
a) Es el modelo completo globalmente significativo para explicar la variable
Consumo de Gasolina?
b) Qu variables son significativas y cules no en el modelo completo?
c) De acuerdo con el modelo completo, cul es el pronstico para el automvil
correspondiente a la observacin # 10 del archivo? Cul es el residuo
asociado a esta observacin?
d) Con base en el modelo completo, si se aumenta el modelo de un automvil
en un ao, manteniendo las dems variables constantes, cul sera el efecto
sobre el Consumo de Gasolina del vehculo?
e) Qu porcentaje de la variabilidad de la variable Consumo de Gasolina es
explicada por las variables del modelo completo?
f) Con relacin al modelo completo, presente las grficas de los residuos y de la
variable dependiente con cada una de las variables independientes.
Comente.

S-ar putea să vă placă și