Sunteți pe pagina 1din 68

3.

Regresin lineal
Curso 2011-2012
Estadstica
2 Regresin Lineal
Regresin simple
consumo y peso de automviles
Nm. Obs. Peso Consumo
(i) kg litros/100 km
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13
6 655 6
7 1273 14
8 1485 17
9 1366 18
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
15 981 13
16 729 7
17 1034 12
18 1384 17
19 776 12
20 835 10
21 650 9
22 956 12
23 688 8
24 716 7
25 608 7
26 802 11
27 1578 18
28 688 7
29 1461 17
30 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
C
o
n
s
u
m
o

(
l
i
t
r
o
s
/
1
0
0

K
m
)
3 Regresin Lineal
i
x
i
y
x
1 0
Modelo
os desconocid parmetros : , ,
2
1 0
) , 0 ( ,
2
1 0
N u u x y
i i i i
4 Regresin Lineal
Hiptesis del modelo
Linealidad
y
i
=
0
+
1
x
i
+ u
i

Normalidad
y
i
|x
i
N (
0
+
1
x
i
,
2
)
Homocedasticidad
Var [y
i
|x
i
] =
2

Independencia
Cov [y
i
, y
k
] = 0
2
1
0
Parmetros
5 Regresin Lineal
Modelo



) , 0 ( ,
2
1 0
N u u x y
i i i i
y
i
: Variable dependiente
x
i

: Variable independiente
u
i

:

Parte aleatoria
0

6 Regresin Lineal
Estimacin
x y
x
y x
n
x x
n
x x y y
n x x n y x
x y
x x y x x x y
d
dM
x n y x y
d
dM
x y M
i
i i
n
i
i
n
i
i i
i
n
i
i i
i i i i
n
i
i i i
i i
n
i
i i
n
i
i i
1 0 1
1
2
1
1
2
1 0
1
1 0
2
1 0
1
1 0
0
1 0
1
1 0
0
1
2
1 0 1 0
;
) var(
) , cov(
) ( ) )( (
0 ) (
0 ) (
) ( ) , (
7 Regresin Lineal
Estimacin: mxima verosimilitud
x y
x
y x
n
x x
n
x x y y
n x x n y x
x y
x x y x x x y
d
dL
x n y x y
d
dL
x y
n n
l L
x y l
i
i i
n
i
i
n
i
i i
i
n
i
i i
i i i i
n
i
i i i
i i
n
i
i i
n
i
i i
n
i
i i
n n
1 0 1
1
2
1
1
2
1 0
1
1 0
2
1 0
1
1 0
2
0
1 0
1
1 0
2
0
1
2
1 0
2
2
2
1 0
2
1 0
1
2
1 0
2 2 /
2
1 0
;
) var(
) , cov(
) ( ) )( (
0 ) (
1
0 ) (
1
) (
2
1
log
2
) 2 log(
2
) , , ( log ) , , (
) (
2
1
2
1
) , , ( exp
8 Regresin Lineal
Estimacin
2
: mxima verosimilitud
n
x y
x y
n
d
dL
x y
n n
L
n
i
i i
n
i
i i
n
i
i i
1
2
1 0
2
1
2
1 0
4 2 2
1
2
1 0
2
2 2
1 0
) (
0 ) (
2
1 1
2
) (
2
1
log
2
) 2 log(
2
) , , (
2
0
0
1
2
2
1
1
1 0
n
e
s
x e
e
x y e
n
i
i
R
n
i
i i
n
i
i
i i i
9 Regresin Lineal
Estimacin
n
i i
n
i i i
i
i i
x x
y y x x
x
y x
x y
1
2
1
1
1 0
) (
) )( (
) var(
) , cov(
n
i
i i
x y
1
2
1 0
) ( Mn
Mnimos cuadrados
n
i
i i
n
n
x y Max
1
2
1 0
2 2 /
) (
2
1
2
1
exp
Mxima verosimilitud
10 Regresin Lineal
x y
1 0
Recta de regresin
x
y
x y
1 0
Pendiente
1
11 Regresin Lineal
Residuo
Previsto Valor
observado Valor
1 0 i i i
e x y
i
x
i
y
i i
x y
1 0
i
e
Residuos
12 Regresin Lineal
Ejemplo: estimacin
Nm. Obs. Peso Consumo Prediccin Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
C
o
n
s
u
m
o

(
l
i
t
r
o
s
/
1
0
0

K
m
)
; 0117 . 0 071 . 0
i i
x y
38 . 2
2
R
s
13 Regresin Lineal
Propiedades de
1
n n
n
i
i
x
i
n
i
i
x
n
i
i i
x
n
i
i i
x x
i i
y w y w y w y
ns
x x
y x x
ns
y x x
ns
y y x x
ns s
y x
2 2 1 1
1
2
1
2
1
2
1
2 2
1
1 1
1 ) , cov(
0
2 1
2
2
2 1
2
1
2
2 1 2 1 2 1 2 1
1 2 1
1 1
1
1 1 1 1
0
1
x
n
i i
x
n
i i
n
i i
x
n
i i
x
n
i i i
x
n
i i i
x
i
n
i i
n
i i
x
n
i i
ns
x x
ns
w
x x
ns
x x x
ns
x x x
ns
x x x
ns
x w
x x
ns
w
2
x
i
i
ns
x x
w
14 Regresin Lineal
son v.a. independientes
1
, y
0 ) var( ) , cov(
1 1 1 1 1 1
1
2
1
2
1
2 1 2 2 1 1 1
2
1
2 1
n
i
i
T
T
n
n n n
T
n
n
w
n
y
y
y
y
w w w y w y w y w
y
y
y
n n n
y
n
y
n
y
n
y
w Y a
Y w
Y a
15 Regresin Lineal
Distribucin de
1
2
2
2
1
2
2 2
2
2
2 1
2
1
2 2 1 1 1
1 1 0
1 0 2 2 1 1
2 2 1 1 1
2 2 1 1 1
2
1 0
) (
) ] [ ( ] [ ] [ ] [
] [ ] [
) ( ) (
) ] [ ( ] [ ] [ ] [
] [ ] [
normales de lineal Comb.
) , (
x
n
i
i
i n n
n n
i i i
i i n n
n n
n n
i i
ns
w
y Var y w y Var w y Var w
y w y w y w Var Var
x w w
x y E y E w y E w y E w
y w y w y w E E
y w y w y w
x N y
2
2
1 1
,
x
ns
N
16 Regresin Lineal
Modelo en diferencias a la
media
) (
) (
) (
1
1
1
1 0
1 0
x x y y
e x x y y
e x x y y
x y
e x y
i i
i i i
i i i
i i i
17 Regresin Lineal
Distribucin de
0
2
2 2
0 0
2
2 2
0
0 1 0
1 0
1
2
2
1 1
2
1 0
1 ,
1 ] var[
] [ ] [ ] [
ntes independie son ,
) , (
) , (
x
x
x
s
x
n
s
x
n
E x y E E
Normal x y
y
ns
N
n
x N y
N
18 Regresin Lineal
R

2
2
2
2
2
2
1
2
) 2 (
n
R
n
i
i
s n
e
0
0
) , 0 (
2
2
2
1
2
2
2
1
2
2
1 0 1 0
i i
i
n
n
i
i
n
n
i
i
i
i i i i i i
x e
e e u
N u
e x y u x y
19 Regresin Lineal
Contraste principal de regresin:
depende y de x?
0 :
0 :
1 1
1 0
H
H
i
x
i
y
i
x
i
y
i i i
u x y
1 0 i i
u y
0
H
0
es falso
x e y estn relacionados
H
0
es cierto
x e y no estn relacionados
20 Regresin Lineal
i i
x y
1 0
0 :
0 :
1 1
1 0
H
H
Ho rechaza Se ;
) 1 , 0 (
) , (
2 / ; 2 1
1
1
2
1 1 1 1
2
2
1 1
n
x
R
n
x
R
x
x
t t
s n
s
t
t
s n
s
N
s n
ns
N
Contraste sobre la pendiente
1
21 Regresin Lineal
i i
x y
1 0
0 :
0 :
0 1
0 0
H
H
Ho rechaza Se
;
1
)) 1 ( , (
2 / ; 2 0
2
2
0
0
2
2 2
0 0
n
x
R
x
t t
s
x
n
s
t
s
x
n
N
Contraste: ordenada en el origen
22 Regresin Lineal
Descomposicin de la
variabilidad en regresin
VNE VE VT
i
y
i
y y
i
y y y
i
y
i
y y
i
y y y
y
i
y
i
y
i
y y
i
y
i
y
e
i
y
x y
u x y
n
i
n
i
n
i
i
i
i
i i i
i i i
1
2
1
2
1
2
1 0
1 0
) ( ) ( ) (
sumando) y cuadrado al elevando ( ) ( ) ( ) (
) restando ( ) (
23 Regresin Lineal
Coeficiente de determinacin R
2

2 2
1
1
2 2
1
1
) ( : ) (
x
n
i
i i i
ns x x VE x x y y
VNE VE VT
VT
VE
R
2
regresor el por explicado est
que VT de porcentaje el Mide
1 0
2
R
n
i
i
n
i
i i
n
i
i
y y VT
y y VNE
y y VE
1
2
1
2
1
2
) (
) (
) (
24 Regresin Lineal
Coef. determinacin
1
2
R
80 . 0
2
R
50 . 0
2
R 0
2
R
25 Regresin Lineal
i i
x y
1 0
0 :
0 :
1 1
1 0
H
H
Contraste F
1
ntes independie son ,
) 2 (
cierto) es H (Si
2 2
2
2
2
2
2
1
2
2
o
2
1
2
VNE VE
s n e
VNE
VE
n
R
n
i
i
2 1
2
2
n ,
R
F
s
VE
) VNE/(n-
VE
F
0
H rechaza Se F F
Regresin con R
26 Regresin Lineal
ARCHIVO TEXTO: coches.txt
Regresin con R: Estimacin
27 Regresin Lineal
Grfico en R
28 Regresin Lineal
29 Regresin Lineal
Ejemplo regresin mltiple
Consumo =
0
+
1
CC +
2
Pot +
3
Peso +
4
Acel + Error
Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleracin
l/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...
Var. Independientes
o regresores
Var. dependientes
o respuesta
30 Regresin Lineal
Modelo regresin mltiple
os desconocid parmetros : , , , , ,
2
2 1 0 k
) , 0 (
,
2
2 2 1 1 0
N u
u x x x y
i
i ki k i i i
Linealidad
E[y
i
] =
0
+
1
x
1i
+ +
k
x
ki

Normalidad
y
i
| x
1
,...,x
k
Normal
Homocedasticidad
Var [y
i
|x
1
,...,x
k
] =
2

Independencia
Cov [y
i
, y
k
] = 0
31 Regresin Lineal
Notacin matricial
n k kn n n
k
k
n
u
u
u
x x x
x x x
x x x
y
y
y
2
1
1
0
2 1
2 22 12
1 21 11
2
1
1
1
1
) , (
2
I 0 U
U X Y
N
32 Regresin Lineal
Estimacin mnimo-cuadrtica
e X Y
donde el vector e cumple
mnimo es
n
i
i
e
1
2
2
e
n
k
kn n n
k
k
n
e
e
e
x x x
x x x
x x x
y
y
y
2
1
1
0
2 1
2 22 12
1 21 11
2
1
1
1
1
33 Regresin Lineal
Para que ||e||
2
sea mnimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
n
ki i
n
i i
n
i
n kn n n
k
k
x e
x e
e
e
e
e
x x x
x x x
x x x
1
1
1
1
2
1
2 1
2 22 12
1 21 11
0
0
0
,
1
1
1
0 e X
e X
T
34 Regresin Lineal
Mnimos cuadrados
Y X X X X X Y X
e X X X Y X
0 e X
T T T T
T T T
T
1
) (
x
1
Y
X Y
Y Y e
x
2
x
2

x
1
Y
Solucin MC
35 Regresin Lineal
Matriz de proyeccin V
1
x
1
VY Y
V)Y (I e
Y
VY Y
Y X X) X(X Y
X Y
T 1 T
Previstos Val.
V)Y (I
VY Y X Y e
Residuos
T T
X X X(X V
1
)
Simtrica V=V
T

Idempotente VV=V
36 Regresin Lineal
Distribucin de probabilidad
de
1 T
1 T T 1 T
T 1 T T 1 T
T
T 1 T
T 1 T T 1 T
X) (X
X) X(X X X) (X
X X) (X I X X) (X
C Y C CY
X X X) (X CX Y C
X X) (X C CY Y X X) (X
I X Y
2
2
2
2
) )( )( (
] [ ] [ ] [
] [ ] [
) siendo (
) , (
T
Var Var Var
E E
Normal
N
37 Regresin Lineal
Distribucin de probabilidad
de
kk k k
k
k
T
k
k
q q q
q q q
q q q
1 0
1 11 10
0 01 00
1
1
0
1
0
) ( X X Q
) , (
) , (
2
2
ii i i
q N
N
1 T
X) (X
) 1 ( ) 1 ( ) dim( k k Q
38 Regresin Lineal
Residuos
) (
1 1 0 ki k i i i
x x y e
n
k
kn n n
k
k
n
e
e
e
x x x
x x x
x x x
y
y
y
2
1
1
0
2 1
2 22 12
1 21 11
2
1
1
1
1
Residuos Previstos Observados
e X Y
39 Regresin Lineal
Varianza Residual
2 1
2
2
1
2
2
1
2
1
2
2
]
1
[
1 ] [
k n
e
E
k n
e
E
e
n
i
i
n
i
i
k n
n
i
i
e e
T
2
1
2
2
1
2
2
) 1 (
1
k n
R
n
i
i
R
s k n
k n
e
s
40 Regresin Lineal
0 :
0 :
1
0
i
i
H
H
Ho rechaza Se
2 / ; 1
1
1 1
2
;
) 1 , 0 (
) , (
k n
i
ii R
i
i
k n
ii R ii
i i
ii i i
t t
q s
t
t
q s
N
q
q N
Contraste individual
i

i ki k i i
u x x y
1 1 0
41 Regresin Lineal
Descomposicin de la
variabilidad en regresin
VNE VE VT
e y y y y
e y y y y
y e y y
e x x y
n
i
i
n
i
i
n
i
i
i i i
i i i
i ki k i i
1
2
1
2
1
2
1 1 0
) ( ) (
) ( ) (
) ( Restando
42 Regresin Lineal
Modelo en diferencias a la
media
k
k kn n n
k k
k k
n
k ki k i i
ki k i i
k k
i ki k i i
x x x x x x
x x x x x x
x x x x x x
y y
y y
y y
x x x x y y
x x y
x x y
e x x y
) ( ) (
2
1
2 2 1 1
2 2 22 1 12
1 2 21 1 11
2
1
1 1 1
1 1 0
1 1 0
1 1 0
0
1 1 1
1 1 0
1
n
i
i
n
i
ki k
n
i
i
n
i
i
e x x n y
b X Y Y
~
e b X Y Y
~
43 Regresin Lineal
Modelo en diferencias a la
media
U b X Y
~ ~
) )
~ ~
( , (
1 2
X X b b
T
N
k kn n n
k k
k k
k k n
x x x x x x
x x x x x x
x x x x x x
y
y
y
y y
y y
y y
2 2 1 1
2 2 22 1 12
1 2 21 1 11
2
1
2
1
2
1
~
, , ,
~
X
b b Y Y
Y X ) X X ( b
~ ~ ~ ~
1 T T
44 Regresin Lineal
0 :
0 :
1
2 1 0
de di sti nto es al guno H
H
k
Contraste general de regresin.
ntes i ndependi e son
ci erto) es H (Si
o
2 2
2
1
2
2
2
2
2
,
) 1 (
VNE VE
s k n
VNE
VE
k n
R
k
1
1
/
k n , k
F
) VNE/(n-k
k VE
F
0
H rechaza Se F F
i ki k i i
u x x y
1 1 0
45 Regresin Lineal
Coeficiente de determinacin R
2

VNE VE VT
VT
VE
R
2
regresores l os por expl i cado est
que VT de porcentaj e el Mide
1 0
2
R
n
i
i
n
i
i i
n
i
i
y y VT
y y VNE
y y VE
1
2
1
2
1
2
) (
) (
) (
)
~ ~
( )
~ ~
( ) (
1
2
Y X b b X X b ) Y Y ( ) Y Y (
T T T T T
n
i
i
y y VE
46 Regresin Lineal
Coef. determinacin corregido
2
2
2
) 1 (
) 1 (
1 1
y
R
s n
s k n
VT
VNE
VT
VNE VT
VT
VE
R
1
) (
1
2
2
n
y y
s
n
i
i
y
) 1 /(
) 1 /(
1 1
2
2
2
n VT
k n VNE
s
s
R
y
R
2
R
Regresin con R
48 Regresin Lineal
Interpretacin (inicial)
Contraste F=438 (p-valor=0.0000) Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para =0.05, la cilindrada y la aceleracin tambin
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R
2
= 0.8197)

49 Regresin Lineal
Multicolinealidad
Cuando la correlacin entre los
regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable
i
: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretacin de los parmetros
del modelo estimado (ver el caso de la
aceleracin en el ejemplo).
50 Regresin Lineal
Identificacin de la multicolinealidad:
Matriz de correlacin de los regresores.
51 Regresin Lineal
Grficos consumo - x
i

peso
c
o
n
s
u
m
o
500 1000 1500 2000
0
4
8
12
16
20
24
potencia
c
o
n
s
u
m
o
0 40 80 120 160 200 240
0
4
8
12
16
20
24
cilindrada
c
o
n
s
u
m
o
0 2 4 6 8
(X 1000)
0
4
8
12
16
20
24
aceleracion
c
o
n
s
u
m
o
8 11 14 17 20 23 26
0
4
8
12
16
20
24
52 Regresin Lineal
Consumo y aceleracin
53 Regresin Lineal
Multicolinealidad: efecto en la
varianza de los estimadores
) 1 (
1
) 1 (
) 1 ( ) 1 (
1
) 1 ( | |
~ ~ ~ ~
var
2 2 1 1 0
2
12
2
2
2
12
2 1
12
2
12
2 1
12
2
12
2
1 1 2
12
2
2
2
1
2
2 2 1 12
2 1 12
2
1
2
2 12
12
2
1
2
1
2
1
r s r s s
r
r s s
r
r s
r s s
s s s r
s s r s
s s
s s
n
i
u
i
x
i
x y
XX XX
XX XX
T T
i
S S
S S X X X X
) 1 ( ) 1 (
) 1 ( ) 1 (
var
2
12
2
2
2
2
12
2 1
2
12
2
12
2 1
2
12
2
12
2
1
2
2
1
r ns r s ns
r
r s ns
r
r ns
54 Regresin Lineal
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.

55 Regresin Lineal
Consumo Cilindrada Potencia Peso Aceleracin Origen
l/100Km cc CV kg segundos
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japn
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japn
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japn
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...
Variables cualitativas como
regresores
Consumo =
0
+
1
CC +
2
Pot +
3
Peso +
+
4
Acel +
JAP
Z
JAP
+
USA
Z
USA
+ Error
USA
Japn
Europa
Ori gen
EUROPA si
EUROPA si
USA si
USA si
JAPON si
JAPON si
i
i
i
Z
i
i
i
Z
i
i
i
Z
EUR
USA
JAP
1
0
1
0
1
0
56 Regresin Lineal
Consumo Cilindrada Potencia Peso Aceleracin ZJAP ZUSA ZEUR
l/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Variables cualitativas
Consumo =
0
+
1
CC +
2
Pot +
3
Peso +
+
4
Acel +
JAP
Z
JAP
+
USA
Z
USA
+ Error
57 Regresin Lineal
Interpretacin var. cualitativa
Consumo =
0
+
1
CC +
2
Pot +
3
Peso +
+
4
Acel +
JAP
Z
JAP
+
USA
Z
USA
+ Error
Coches europeos: Z
JAP
= 0 y Z
USA
= 0 REFERENCIA
Consumo =
0
+
1
CC +
2
Pot +
3
Peso +
4
Acel + Error
Coches japoneses: Z
JAP
=1 y Z
USA
= 0
Coches americanos: Z
JAP
=0 y Z
USA
= 1
Consumo =
0
+
JAP
+
1
CC +
2
Pot +
3
Peso +
4
Acel + Error
Consumo =
0
+
USA
+
1
CC +
2
Pot +
3
Peso +
4
Acel + Error
58 Regresin Lineal
Interpretacin del modelo
0
+
JAP
0
0
+
USA
Europeos
Japoneses
Americanos
x
i

y
Ref.
59 Regresin Lineal
60 Regresin Lineal
Interpretacin
El p-valor del coeficiente asociado a Z
JAP

es 0.1956>.05, se concluye que no existe
diferencia significativa entre el consumo
de los coches Japoneses y Europeos
(manteniendo constante el peso, cc, pot y
acel.)
La misma interpretacin para Z
USA
.

Comparando R
2
=0.821 de este modelo
con el anterior R
2
=0.8197, se confirma
que el modelo con las variables de
Origen no suponen una mejora sensible.
61 Regresin Lineal
Modelo de regresin con
variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuacin r-1 variables ficticias

Y el nivel r no utilizado es el que acta de
referencia
1 1
1 0
, ,
2 1
2 0
,
1 1
1 0
1 2 1
r i
r i
z
i
i
z
i
i
z
i r i i
nivel
nivel
nivel
nivel
nivel
nivel
i i r r i i
ki k i i
u z z z
x x y
a cual i tati v vari abl e
, 1 1 2 2 1 1
1 1 0
62 Regresin Lineal
Prediccin
h
x
h
y
Media m
h
|x
h

Nueva Observ. y
h
|x
h

h
x
h
m
h
m
h
y
h
x
63 Regresin Lineal
Prediccin de la media m
h
(Regresin simple)
h h
h h
x m
x N y
1 0
2
1 0
) , (
h
x
h
m
h
x
h
y
2
2
2
2
1
2
1
1 0 1 0
1 1 0
)
] var[ ) ]
)]
[
)
(
( var[
( var[ ] var[
] [ ]
(
x
h
h
h h
h h h h
h h h
ns
x x
n
x x y
x x y y
x x y E
x x y x y
m E
2
2
) (
1
2
,
x
s
x
h
x
n
h
m N y
h
64 Regresin Lineal
Prediccin de la media m
h

(Regresin mltiple)
h
T
kh k h h
h h
x x m
m N y
'
) , (
1 1 0
2
x
h
x
h
m
h
' x
h
y
h
T T
h hh
hh h
T T
h
h
T T
h h
T
h
h
T
h
T
h
T
h
kh h h
T
h
T
h
v
y
y E
y
v
E E
x x x
h
'
'
' ] ' var[ ] var[
' ' ] [ ] ' [ ]
) , , , , 1 ( ' , '
1
2 2 1
2 1
) ( '
) ( '
var[ ' ]
[
x
x
x x
x x x
x x
X X x
X X x
x
hh h h
v m N y
2
,
65 Regresin Lineal
Expresin alternativa para v
hh
)) ( ) ( 1 (
)
~ ~
( , ) ( )
~ ~
( ) (
) ]( var[ ) ( ] var[ )] ( var[ ] var[
) (
1
2
2 1
2
x x S x x
X X
S x x X X x x
x x b x x x x b
x x b
h x
T
h
T
x h
T T
h
h
T
h h
T
h
h
T
h
n
n n
y y y
y y
)) ( ) ( 1 (
1
1
x x S x x
h x
T
h hh
n
v
n v
n v
hh h
hh h
/ 1
/ 1
x x
x x
66 Regresin Lineal
Intervalos de confianza para la
media m
h

1
2
) 1 , 0 (
,
k n
hh
R
h h
hh
h h
hh h
t
v s
m
N
v
m
y
y
v
h
m N y
h
x
h
y
)
) (
1 (
1
2
2
x
h
hh
s
x x
n
v
hh R
v s t
h
y
h
m
2 /
)) ( ) ( 1 (
1
1
x x S x x
h h x
T
hh
n
v
Regresin simple
67 Regresin Lineal
Prediccin de una nueva
observacin y
h
(Reg.Simple)
h h
h h
x m
m N y
1 0
2
) , (
h
x
h
x
h
y
hh
h h h
h h h
h h h
hh h h
h h
v
y y e
y E y E e E
y y e
v m N y
x y
2 2
2
1 0
] var[ ] var[ ]
~
var[
0 ] [ ] [ ]
~
[
~
) , (
)) 1 ( , 0 (
~
2
hh h
v N e
h
m
h
y
68 Regresin Lineal
Prediccin de una nueva
observacin y
h
(Reg. Mltiple)
h
x
h
m
h
x
h
y
) 1 ( ] var[ ] var[ ]
~
var[
0 ] [ ] [ ]
~
[
~
) , (
2
2
hh h h h
h h h
h h h
hh h h h
T
h
v y y e
y E y E e E
y y e
v m N y y y x b
)) 1 ( , 0 (
~
2
hh h
v N e
h
y
69 Regresin Lineal
Intervalos de prediccin para
una nueva observacin y
h

1
2
1
) 1 , 0 (
1
~
) 1 ( , 0
~
k n
hh
R
h h
hh
h h
h h h
hh h
t
v s
y
N
v
y
y
y
y
y e
v N e
hh R
v s t
h
y
h
y 1
2 /
h
x
h
y
70 Regresin Lineal
k k
x x y
1 1 0
Lmites de prediccin
x
y
hh R
v s t
h
y
h
y 1
2 /
hh R
v s t
h
y
h
m
2 /
71 Regresin Lineal
Diagnosis: Residuos
) (
1 1 0 ki k i i i
x x y e
n
k
kn n n
k
k
n
e
e
e
x x x
x x x
x x x
y
y
y
2
1
1
0
2 1
2 22 12
1 21 11
2
1
1
1
1
Residuos Previstos Observados
e X Y
72 Regresin Lineal
Distribucin de los residuos
V) (I V) (Y)(I V) (I e
0 V)X (I Y V) (I e
e
X X) X(X V
V)Y (I e I X Y
T 1 T
2
2
var ] var[
] [ ] [
) , (
E E
N
Normal
)) 1 ( , 0 (
) , (
2
ii i
v N e
N V) (I 0 e
2
73 Regresin Lineal
Distancia de Mahalanobis
0
0
. ( ) ( ) (
2
2
1 2
i
i
i x
T
i i
D
D
D
x x
x x
x x
x x S x x
i
i
i

a de di stanci a l a Mi de
s) Mahal anobi de Di st
T T
ii
v
X X) X(X V
1
V matri z l a de di agonal es el ementos l os son
1
1
0 ) 1 (
, 1
2 2
, 1
2
1
ii
n
i j j
ij ii ii ii
n
i j j
ij ji
n
j
ij ii
v
n
v v v v v v v v
)) ( ) ( 1 (
1
' ) ( '
1 1
x x S x x x X X x
i x
T
i i
T T
i ii
n
v
74 Regresin Lineal
Residuos estandarizados
ii
v
R
s
i
e
i
r
e e v
e n v
v e
i i ii i
i ii i
ii i
1
ados estandariz Residuos
0 0 ) var( 1 de lejos est Cuando
) var( / 1 a prximo est Cuando
) 1 ( ) var(
2
2
x x
x x
) ) 1 ( , 0 (
2
ii i
v N e
75 Regresin Lineal
Hiptesis de normalidad
Herramientas de comprobacin:
Histograma de residuos
Grfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches

-6 -4 -2 0 2 4 6
Residuos
0,1
1
5
20
50
80
95
99
99,9
p
r
o
b
a
b
i
l
i
d
a
d
76 Regresin Lineal
Comprobacin de la linealidad
y homocedasticidad
Ambas hiptesis se comprueban
conjuntamente mediante grficos de los
residuos
Frente a valores previstos
Frente a cada regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformacin de las variables.

i ki k i i
i ki k i i
u x x y
u x x y
log log log
log
1 1 0
1 1 0
77 Regresin Lineal
Residuos - Valores previstos
0
i
y
i
e
0
i
y
i
e
0
i
y
i
e
Lineal y homocedstico No lineal y homocedstico
Lineal y no homocedstico
0
i
y
i
e
No lineal y no homocedstico
78 Regresin Lineal
Funciones R relacionadas
79 Regresin Lineal

80 Regresin Lineal
Ejemplo 1: Cerezos Negros
Se desea construir un
modelo de regresin para
obtener el volumen de
cerezo
en funcin de la
altura del tronco y del
dimetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 rboles. Las
unidades de longitudes
son pies y de volumen
pies cbicos.
81 Regresin Lineal
Cerezos negros: Datos
rbol Diametro Altura Volumen rbol Diametro Altura Volumen
1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20
82 Regresin Lineal
Grficos x-y
83 Regresin Lineal
Primer modelo:cerezos negros
Error Altura Diametro Volumen
2 1 0
84 Regresin Lineal
Diagnosis
85 Regresin Lineal
Transformacin
error dimetro) altura) vol)
dimetro altura k vol
2 0
2
log( log( log(
1
86 Regresin Lineal
Diagnosis (modelo transformado)
87 Regresin Lineal
Interpretacin
Se comprueba grficamente que la distribucin
de los residuos es compatible con las hiptesis
de normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y
el dimetro del rbol (R
2
= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuacin vol=k Alt Diam
2
La desviacin tpica residual es s
R
=0.081 que
indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.
Modelos de regresion lineal
1. La tabla muestra los mejores tiempos mundiales en Juegos Olmpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresi on lineal de y sobre x y calcular la varianza residual y el coeciente
de correlaci on.
(b) Obtener intervalos de conanza para la pendiente y varianza residual ( = 0.01).
(c) Analizar si la relaci on lineal es adecuada, transformando las variables si es necesario.
(d) Sup ongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olmpico en dicha carrera, dando un intervalo
de conanza con = 0.05.
2. Estimar por mnimos cuadrados los par ametros a y b de la ecuacion y = a + bx
2
con la
muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
3. Dada la recta de regresi on y = 3 + 5(x 2) con r = 0.8, s
R
= 1, construir un intervalo de
conanza del 95% para la pendiente si n = 100.
4. Dado el modelo estimado con n = 25 datos, y = 2 + 3(x 4), s
R
= 5, con desviaci on tpica
del coeciente de regresi on S(

1
) = 0.5, calcular la desviaci on tpica de la prediccion del
valor medio de y cuando x = 20.
5. Sir Francis Galton (1877) estudio la relaci on entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Exista una correlaci on positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medan m as que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenan hijos m as altos que ellos, calicando este hecho como de
regresion a la media.
Contrastar ( = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante de
estimar un modelo de regresi on lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tama no 100 si la desviaci on tpica (estimada) de

1
es 0.04.
6. La ley de Hubble sobre la expansi on del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via L actea. Se pide:
1
Galaxia Distancia Velocidad
(millones a nos luz) (10
3
Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Geminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Observese que seg un el modelo de Hubble la regresi on debe pasar por el origen.
T omese 1 a no luz = 300 000 Km/seg x 31 536 000 seg = 9.46 10
12
Km.
(a) Estimar por regresi on la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de conanza del 95% para dicha
edad .
9. Para establecer la relaci on entre el alargamiento en mm (Y ) producido en un cierto material
pl astico sometido a traccion y la fuerza aplicada en toneladas por cm
2
(X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla
x
i
0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
y
i
23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento y
i
(mm) producidos por la fuerza x
i
(Tm/cm
2
).
(a) Ajustar el modelo de regresi on lineal E(Y |x) =
0
+
1
x y contrastar ( = 0.01) la
hip otesis de que, en promedio, por cada Tm/cm
2
de fuerza aplicada es de esperar un
alargamiento de 50 milmetros, sabiendo que la desviaci on tpica residual vale 10.55.
(b) Si el lmite de elasticidad se alcanza cuando x = 2.2 Tm/cm
2
, construir un intervalo
de conanza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo tambien, estimar el nuevo modelo E [Y |x] = x con los datos anteriores
Cu al es el sesgo del estimador del par ametro de la pendiente si se estima seg un el
modelo del apartado 1?
2
10. La ecuacion de regresi on entre las ventas de un producto y y su precio x es y = 320 1.2x,
s
R
= 2 y s
y
= 4. Si el n umero de datos ha sido n = 50, contrastar H
0
:
1
= 1 frente a la
alternativa H
1
:
1
< 1.
11. Se estudia la relaci on entre el tiempo de reparaci on (minutos) de ordenadores personales y
el n umero de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10
tiempo de reparacion 23 49 74 96 109 149 154
Se pide:
(a) Construir la recta de regresi on para prever el tiempo de reparaci on y utilizarla para
construir un intervalo de conanza ( = 0.01) para el tiempo medio de reparaci on de
8 unidades.
(b) Construir un intervalo de conanza ( = 0.01) del tiempo de reparaci on para un lote
de 14 unidades.
(c) Si los tiempos de reparaci on fuesen medias de 10 datos. Cual sera la recta de regresi on?
13. Se realiza una regresi on m ultiple con tres regresores y se encuentra un coeciente de cor-
relaci on de 0.5 entre los residuos de la regresi on y uno de los regresores. Interpretar este
resultado.
14. La matriz de varianzas de tres variables estandarizadas es la siguiente
_
_
1 0.8 0.6
0.8 1 0.2
0.6 0.2 1
_
_
Calcular la ecuacion de regresi on de la primera variable respecto a las otras dos.
15. Dos variables x
1
y x
2
tienen la siguiente matriz de varianzas
_
1 0.5
0.5 1
_
y las regresiones simples con y son y = 0.75x
1
; y = 0.6x
2
. Calcular la regresi on m ultiple
entre y y las dos variables x
1
, x
2
sabiendo que la variable y tiene media cero y varianza
unidad.
16. Se realiza la regresi on entre la variable dependiente y y tres regresores x
1
, x
2
y x
3
. Posterior-
mente se decide realizar la regresi on entre la variable y y los tres regresores estandarizados.
Explicar cu ales son las diferencias entre los resultados de una regresi on y otra en cuanto a
los coecientes estimados

i
, los residuos y el coeciente de determinaci on, justicando la
respuesta.
3
17. La matriz de varianzas de las variables X
1
, X
2
e Y es
_
_
25 27 14
27 36 19.2
14 19.2 16
_
_
Siendo X
1
= 30, X
2
= 40, Y = 100 y el n umero de datos n = 10.
Se pide:
(a) Realizar la regresi on simple entre Y (variable dependiente) y X
1
, dando el intervalo de
conanza para la pendiente de la recta con = 0.05. Hacer lo mismo con Y y X
2
.
(b) Realizar la regresi on m ultiple entre Y (variable dependiente) y X
1
, X
2
, en desviaciones
a la media.
(c) Indicar si los coecientes de la regresi on anterior son signicativos.
(d) Calcular R
2
para los tres modelos, comentar los resultados obtenidos e indicar que
modelo eligira y por que.
18. Para establecer la relaci on entre el voltaje de unas bateras y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Batera 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
Se pide:
(a) Contrastar la hipotesis ( = 0.05) de que no existe relaci on lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas bateras de Cadmio y las 2,4, 6 y 8 con
bateras de Zinc. Introducir en el analisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de bateras y contrastar si es signicativa al 95%.
(c) Dar un intervalo de conanza para el voltaje de una batera de Cadmio que va a trabajar
a 35

centgrados. (Utilizar el modelo estimado en el apartado 2).


(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-
riores.
19. C omo disminuira la varianza te orica de los estimadores

en el modelo de regresi on lineal
al replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de la
variable respuesta manteniendo las X jas).
4
20. Se ha estimado un modelo de regresi on para la estatura (y) de un grupo de adultos y sus
estaturas a los 7 (x
1
) y 14 (x
2
) a nos. La desviaci on tpica residual obtenida es 5 cm y la
desviaci on tpica del coeciente de x
1
(estatura a los 7 a nos) resulta 2.4, siendo este efecto
no signicativo al 95%. Sin embargo, un segundo modelo de regresi on que incluya solo a
esta variable (x
1
) conduce a una desviaci on tpica residual de 7 cm y a un coeciente de
regresi on de 2 con desviaci on tpica de 1. Que podemos concluir con estos resultados de la
correlaci on entre x
1
y x
2
?
21. Se dispone de una muestra de 100 autom oviles con informacion respecto a su consumo
(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyecci on, NI=no inyecci on) y
nacionalidad (1=USA, 2=Alemania, 3=Japon, 4=Francia). Escribir la ecuacion del modelo
de regresi on lineal del consumo respecto al resto de las variables e interpretar el signicado
de cada uno de los par ametros del modelo. Indicar como contrastar si la nacionalidad del
vehculo inuye en el consumo.
22. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de dise no experi-
mental puede escribirse como un modelo de regresi on, determinar la matriz V = X(X
T
X)
1
X
T
de proyecci on y la varianza de un residuo e
ij
para el modelo basico de analisis de la varianza
y
ij
=
i
+u
ij
, i = 1, ..., I ; j = 1, ..., n
i
Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundo
y 3 en el tercero.
23. La variable y se relaciona con las variables x
1
y x
2
seg un el modelo E(y) =
0
+
1
x
1
+
2
x
2
;
no obstante se estima el siguiente modelo de regresi on que no incluye la variable x
2
y
i
=

0
+

1
x
1i
.
Justicar en que condiciones el estimador

1
es centrado.
24. Se efect ua una regresi on con dos variables explicativas E[y] =
0
+
1
x
1
+
2
x
2
. La matriz
de varianzas de x
1
y x
2
es
_
2 1
1 3
_
Cu al de los dos estimadores

1
y

2
tendr a menor varianza?
25. Se estudia la relaci on entre los costes de fabricacion totales en miles de pesetas (Y ), de 25
libros tecnicos, la tirada en miles de ejemplares producidos (T) y el n umero de paginas del
libro (N), encontrandose la relaci on
Y = 1400 + 900T + 4N
5
(a) Sabiendo que las desviaciones tpicas (sin corregir por grados de libertad) de T y N
son 1.5 miles de ejemplares y 200 paginas respectivamente, y s
R
= 600, calcular un
intervalo de conanza del 90% para los efectos de T y N suponiendo que las variables
estan incorreladas. Interpretar el resultado.
(b) Si el coeciente de correlaci on entre las variables T y N es 0.5, Puede admitirse la
hip otesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?
( = 0.05).
(c) Sabiendo que la desviaci on tpica (sin corregir por grados de libertad) de los costes de
fabricacion es 2200 miles de pesetas, calcular el coeciente de correlaci on m ultiple y el
estadstico F para contrastar que ambas variables no inuyen. Interpretar el resultado.
(d) Para estudiar cu anto encarecen los gr acos el precio se introduce en el modelo una
variable cticia Z que toma el valor 1 en libros con gr acos y 0 en el resto, obteniendose
el nuevo modelo estimado siguiente (desviaciones tpicas entre parentesis)
Y = 1080 + 520Z + 840T + 3.8N
(100) (16) (0.97)
Interpretar el resultado.
26. Demostrar que el coeciente de correlaci on m ultiple en el modelo general de regresi on es
igual al coeciente de correlaci on lineal entre la variable observada y y la prevista y.
27. Para 11 provincias espa nolas se conocen los siguientes datos:
Y = n umero de mujeres conductoras dividido por el n umero de hombres conductores.
X
1
= porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.
X
2
= porcentaje de poblacion que trabaja en el sector agrcola.
Si se denomina X = (1 X
1
X
2
) a la matriz de regresores (1 es un vector de unos) se sabe que
(X
T
X)
1
=
_
_
5.1 0.12 0.05
0.12 30.8 0.08
0.05 0.08 0.001
_
_
(X
T
Y ) =
_
_
0.06
0.05
9.45
_
_
s
R
= 0.03;
n

i=1
(y
i
y)
2
= 0.0645
Se pide:
(a) Estimar el modelo de regresi on y realizar los contrastes individuales ( = 0.05). Inter-
pretar la regresi on.
(b) Calcular el coeciente de determinaci on R
2
y realizar el contraste de que las dos vari-
ables no inuyen mediante el test F ( = 0.05).
6
(c) Se introducen dos nuevas variables en la regresi on: X
3
que representa el porcentaje
de poblacion que trabaja en los servicios, y X
4
el porcentaje de poblacion que trabaja
en otras actividades distintas de agricultura y servicios. Explicar razonadamente como
sera la regresi on al introducir estas dos nuevas variables y los efectos de cada una de
ellas.
28. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresi on simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justicando la respuesta.
(b) Estimar el modelo
y
i
=
0
+
1
x
i
+
2
x
2
i
+u
i
y realizar el contraste H
0
:
2
= 0.
(c) El resultado de la estimaci on del modelo que incluye el termino x
3
es,
y
i
= 2.81 + 0.80x
i
- 0.06x
2
i
- 0.035x
3
i
(0.05) (0.048) (0.019) (0.010)
con s
R
= 0.113 (entre parentesis las desviaciones tpicas de los estimadores). Realizar
el contraste general de regresi on con = 0.01. Seleccionar entre los tres el modelo m as
adecuado, justicando la respuesta.
29. En un modelo de regresi on simple se ha obtenido un coeciente de correlaci on igual a 0.8.
Si el n umero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construir
un intervalo de conanza al 95% para el valor medio de la variable dependiente (y) cuando
x (regresor) es igual a x. (Aproximar la distribucion t de Student correspondiente por una
distribuci on normal, si Z N(0, 1), P(Z 1.96) = 0.975).
30. En una planta piloto se obtiene un nuevo producto mediante un proceso qumico. Con el
n de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son
Temperatura
Catalizador 20
0
30
0
40
0
A 115 125 130 140 110 120
B 115 105 135 145 100 110
(a) Contrastar si los factores Temperatura y Catalizador tienen efectos signicativos. ( =
0.05)
(b) Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-
tizar una probabilidad de error tipo I total,
T
= 0.03?
7
(c) Estimar y contrastar el modelo de regresi on simple entre el rendimiento y la tempera-
tura. Que conclusiones obtiene? Proponga un modelo de regresion que subsane las
deciencias encontradas.
31. El modelo de regresion m ultiple se puede escribir en notacion matricial
Y = X +U
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-
pendencia y homocedasticidad. Deducir razonadamente la distribuci on, media y matriz de
varianzas del vector de residuos e = Y X

.
32. La empresa de bebidas gaseosas CIBELES quiere determinar la inuencia sobre la presi on
interna (y
i
) en los botes de refresco de dos variables continuas (x
1
, x
2
) y del tipo de bebida
(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x
1
y x
2
y 20 botes de
cada sabor, ha medido la presion interna. El tipo de bebida se representa por las variables z
1
,
z
2
y z
3
que identican el sabor NARANJA, LIMON y COLA, respectivamente. El modelo
estimado de regresi on de y con respecto a x
1
, x
2
, z
2
y z
3
es:
y = 19.4 + 77.2x
1
50.8x
2
+ 2.95z
2
+ 5.52z
3
; hats
R
= 4.32
donde
(X
T
X)
1
=
_

_
0.1772 0.6909 0.5043 0.0605 0.0896
0.6909 5.8085 0.2541 0.1478 0.2444
0.5043 0.2541 5.0070 0.0680 0.1216
0.0605 0.1478 0.0680 0.1049 0.0546
0.0896 0.2444 0.1216 0.0546 0.1127
_

_
(a) Realizar los contrastes individuales con = 0.01, indicando las variables que inuyen
signicativamente en la presion. Interpretar el resultado explicando el signicado de
cada par ametro.
(b) Si se realiza una regresi on entre la presion interna (y
i
) y las dos variables continuas x
1
y x
2
se obtiene el siguiente modelo de regresi on
y = 23.86 + 65.1x
1
56.3x
2
; s
R
= 4.78.
Contrastar ( = 0.01) conjuntamente que el tipo de bebida no inuye. (H
0
:
2
=
3
=
0 frente a H
1
:
2
o
3
es distinto de cero).
(c) Existe diferencia signicativa en las presiones internas de los botes de LIMON y
COLA? ( = 0.01)
33. Estimar por m axima verosimilitud los par ametros
1
y
2
del modelo
y
i
=
1
x
1i
+
2
x
2
2i
+u
i
; u
i
N(0, ).
En que condiciones los estimadores obtenidos por m axima verosimilitud son iguales que los
obtenidos por mnimos cuadrados?
8
34. Obtener la relaci on entre el coeciente de determinaci on R
2
y el coeciente de determinaci on
corregido R
2
. Que ventajas presenta el segundo frente al primero ?
35. Con el n de reducir el tiempo de secado se han realizado 20 ensayos con cementos de
distintas caractersticas. El ajuste por mnimos cuadrados de la ecuacion de regresi on entre
el tiempo de secado y una de las variables x
1
es
y = 17.1 + 2.9x
1
, s
R
= 12.8, R
2
= 0.37
(a) Obtener el intervalo de conanza al 95% para el par ametro de la pendiente de la recta
e indicar si su efecto es signicativo.
(b) Incluir en el modelo de regresi on otra variable independiente x
2
, sabiendo que su var-
ianza muestral es s
2
2
= 9.2, la covarianza entre las dos variables independientes es
s
12
= 3.35 y la covarianza entre el tiempo de secado y la nueva variable s
2y
= 9.55.
Realizar los contrastes individuales para los par ametros de x
1
y x
2
.
(c) Un estudio te orico del problema indica que el efecto de las dos variables es igual y que
por tanto, la ecuacion de regresi on debera ser
y =

b
0
+

b
1
(x
1
+x
2
).
Con la informacion de los apartados anteriores, obtener

b
1
y contrastar si la pendiente
de la recta es signicativamente distinta de cero.
36. Explicar como contrastar que dos o m as coecientes en un modelo de regresi on m ultiple son
simultan aneamente nulos.
37. En el analisis de regresi on simple entre dos variables, se considera como importante desde
el punto de vista pr actico, una correlaci on entre las dos variables igual o superior a r = 0.1.
Determinar el n umero mnimo de observaciones con las que se debe estimar el modelo de
regresi on para que una correlaci on igual a 0.1, implique que el regresor tiene un efecto
signicativo sobre la variable dependiente. (Aproximar la distribuci on t de Student corre-
spondiente por una distribucion normal, si Z N(0, 1), P(Z 1.96) = 0.975).
38. Interpretar geometricamente el problema de estimaci on por mnimos cuadrados en regresi on
m ultiple. Demostrar que los residuos del modelo se obtienen mediante la expresion e =
PY , donde Y es el vector correspondiente a la variable dependiente y P es una matriz de
dimension n n. Determinar P en terminos de la matriz X de los regresores. A partir de
la expresion anterior, obtener la distribucion de probabilidad de los residuos, la media y la
matriz de varianzas.
39. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrir
los oricios con una l amina de cobre mediante electr olisis. Una caracterstica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X
1
: Concentracion de Cobre, X
2
: Concentraci on de Cloruro, X
3
:
Concentracion de

Acido, X
4
: Temperatura, X
5
: Intensidad, X
6
: Posicion y X
7
: Supercie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
9
X
1
X
2
X
3
X
4
X
5
X
6
X
7
Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresi on m ultiple, teniendo en
cuenta que X
T
X = 12I
8
, donde I
8
es la matriz identidad de 8 8.
(a) Estimar el modelo de regresi on m ultiple
y
i
=
0
+
1
x
1i
+
2
x
2i
+
3
x
3i
+
4
x
4i
+
5
x
5i
+
6
x
6i
+
7
x
7i
+u
i
.
Obtener la descomposicion de la variabilidad del modelo y realizar el contraste
H
0
:
1
=
2
=
3
=
4
=
5
=
6
=
7
= 0
frente a la hipotesis alternativa H
1
: alg un
j
es distinto de cero.
(NOTA.: X
T
Y = (21.41, 0.03, 0.01, 0.23, 1.69, 2.35, 0.09, 0.19)
T
)
(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efecto
signicativo.
(c) Eliminar del modelo del apartado 1 todas las variables no signicativas. Estimar el
modelo y contrastar sus coecientes. Interpretar los resultados del experimento.
40. Una medida crtica de calidad en la fundicion de llantas de aluminio por inyecci on es la
porosidad. Se ha realizado un dise no experimental para analizar la porosidad (Y ) en funcion
de la temperatura (T) del aluminio lquido y de la presion (P) con que este se inyecta al
molde. Se han realizado n=16 experimentos y el modelo obtenido ha sido
y = 2.84 + 0.59 T - 0.031 P
(.048) (.048) (.048)
+ 0.26 T
2
+ 0.30 P
2
- 0.22 TP
(.048) (.048) (.068)
Entre parentesis se proporciona la desviaci on tpica estimada para cada uno de las estima-
ciones de los par ametros del modelo. Adem as s
R
= 0.137 y R
2
= 0.9267. Las condiciones
experimentales se eligieron de forma que los cinco regresores utilizados en el modelo estan
incorrelados.
10
(a) Realizar el contraste F general de regresi on y los contrastes individuales de todos los
coecientes del modelo, indicando cu al es signicativamente distinto de cero.
(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,
las estimaciones de los restantes no varan. Adem as, si se elimina el regresor j, con
par ametro estimado

j
, la variabilidad no explicada del nuevo modelo V NE
1
es igual
a V NE
0
+ ns
2
j

2
j
, donde V NE
0
es la variabilidad no explicada del modelo con todos
los regresores. Obtener s
R
y R
2
para el modelo que unicamente incluye los par ametros
signicativos.
(c) Determinar en que condiciones de presion y temperatura la porosidad es mnima seg un
el modelo anterior y dar un intervalo para prediccion de la porosidad media en estas
condiciones. (Si t es la temperatura medida en grados centgrados (
0
C) y p la presi on
en kg/cm
2
,
T = (t 650)/10 y P = (p 975)/25. En estas unidades se cumple que

n
i=1
T
i
= 0,

n
i=1
P
i
= 0,

n
i=1
T
2
i
= 8,

n
i=1
P
2
i
= 8,

n
i=1
T
i
P
i
= 0)
41. Demostrar que cuando todos los regresores estan incorrelados, el coeciente de determinaci on
de un modelo de regresi on m ultiple cumple R
2
=

k
j=1
r
2
j
, donde k es el n umero de regresores
y r
j
el coeciente de correlaci on entre el regresor j y la variable dependiente.
42. Explicar el concepto de multicolinealidad en regresi on m ultiple, como se identica y cu ales
son sus efectos sobre (a) los estimadores

i
, (b) los residuos y (c) las predicciones.
43. Demostrar que en un modelo de regresi on simple y y el estimador de la pendiente

1
son
independientes. Utilizar esta propiedad para calcular la varianza de

0
= y

1
x.
44. La masa M de un cristal de hielo depositado en una camara a temperatura (-5
o
C) y humedad
relativa constante crece seg un la ecuacion M = T

, donde T es el tiempo y y son


par ametros desconocidos. La relaci on anterior se linealiza con la transformacion logartmica,
estim andose el siguiente modelo
log M = log + log T +u
donde el termino a nadido u son los errores experimentales, que se consideran aleatorios e
independientes con distribucion normal, N(0,
2
). Diez cristales del mismo tama no y forma se
introdujeron en una camara, extrayendose secuencialmente seg un unos tiempos previamente
establecidos. Para determinar la inuencia del tipo de camara, se repiti o exactamente el
experimento en una segunda camara. Los valores de s
R
para la camara 1 y 2 son 0.64 y
0.50, respectivamente. Los modelos estimados para cada camara, X
T
X y (X
T
X)
1
son:
log M
1
= 7.30 + 2.40 log T
log M
2
= 5.74 + 2.03 log T
X
T
X =
_
10.00 46.66
46.66 218.9
_
(X
T
X)
1
=
_
18.27 3.89
3.89 0.835
_
11
(a) Contrastar con nivel de signicaci on 0.05 si los dos modelos tienen la misma pendiente.
Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los
dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales
calculadas.)
(b) Un modelo de regresi on m ultiple Y = X + U, se replica, es decir se obtienen dos
vectores de variables respuesta Y
1
, Y
2
, para los mismo regresores (matriz X). Demostrar
que si

1
y

2
son los resultados de la estimaci on de utilizando por separado la variable
Y
1
e Y
2
; entonces el estimador de con todos los datos es (

1
+

2
)/2.
(c) Estimar un unico modelo con los datos de las dos camaras. Sabiendo que Y
T
Y = 306.8,
donde Y = log M, dar un intervalo de conanza al 99% para los dos par ametros.
45. El molibdeno se a nade a los aceros para evitar su oxidaci on, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidaci on del acero en funcion del
porcentaje de molibdeno. Adem as se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R
1
, R
2
). Los resultados se muestran en la tabla.
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R
1
26.2 23.4 20.3 23.3 23.3
R
2
34.8 31.7 29.4 26.9 30.7
R
1
33.2 31.3 28.6 29.3 30.6
R
2
43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresi on que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar que par ametros son signicativos
( = 0.05)).
(b) Los experimentos relativos a las dos primeras las se realizaron en un tipo de instalaci on
y los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de uno
de ellos no inuye en el valor de los estimadores

i
, (i = 0) restantes. Inuye en
la varianza residual y en los contrastes ? Explicar este efecto en funcion de que el
par ametro del regresor eliminado sea o no nulo.
46. Demostrar que en un modelo de regresi on m ultiple estimado por m axima verosimilitud, los
residuos cumplen
n

j=1
e
j
x
ij
= 0,
donde [x
i1,
x
i2,
..., x
in,
] es cualquier regresor del modelo. Obtener la distribuci on conjunta
del vector de residuos. Si
2
es la varianza te orica de la componente aleatoria del modelo,
indicar en que circuntancias la varianza de un residuo es mayor que
2
.
12
47. Se dispone de una muestra de 86 vehculos, de los cuales 31 son japoneses (J), 41 norteame-
ricanos (N) y 14 europeos (E). La media y desviaci on tpica del consumo de gasolina (en litros
cada 100 Km) para los coches japoneses es y
J
= 9.1781, s
J
= 1.42, para los norteamericanos
y
N
= 9.7274, s
N
= 1.25 y para los europeos y
E
= 10.64, s
E
= 1.36.
(a) Suponiendo que los vehculos escogidos son muestras aleatorias independientes y que
pueden aplicarse las hipotesis de normalidad y homocedasticidad, contrastar la hip otesis
de que el lugar de fabricacion no inuye en el consumo de combustible. Existe alg un
grupo con un consumo signicativamente menor que los otros dos?
(b) Los coches tienen caractersticas muy diferentes (peso, potencia,...) que deben ser
tenidas en cuenta para hacer la comparacion anterior. Con esa nalidad, se ha ajustado
el siguiente modelo de regresi on:
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 Z
J
+ 1.127 Z
E
s
2
R
= 0.506, R
2
= 75.7%
donde (X
T
X)
1
es:
_
_
_
_
_
_
4.791e 1 5.054e 2 3.794e 1 9.157e 2 4.682e 2
5.054e 2 1.595e 1 1.931e 1 3.443e 3 1.262e 2
3.794e 1 1.931e 1 4.646e 1 5.210e 2 2.865e 2
9.157e 2 3.443e 3 5.210e 2 6.667e 2 2.744e 2
4.682e 2 1.262e 2 2.865e 2 2.744e 2 9.759e 2
_
_
_
_
_
_
donde la variable dependiente es el consumo, Pot (potencia) esta expresada en unidades
de 100 Cv, el Peso en Toneladas, Z
J
toma el valor 1 si el coche es japones y cero en
los demas, y Z
E
toma el valor 1 para los coches europeos y cero en los demas. Realizar
el contraste general de regresi on para el modelo anterior e interpretar los coecientes
estimados.
(c) Con el modelo de regresi on anterior realizar los tres contrastes siguientes:
(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.
(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.
(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.
Comparar los resultados con los obtenidos en el apartado 1, explicar a que se deben las
diferencias y justicar cu al es el modelo m as adecuado para hacer las comparaciones.
48. El modelo de regresi on m ultiple con n observaciones y k + 1 variables independientes (in-
cluyendo la constante
0
) se puede escribir en notacion matricial como
Y = X +U,
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-
pendencia y homocedasticidad y la matriz de los regresores X es de dimension n (k + 1).
Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A es
cualquier matriz cuadrada de dimension (k + 1) (k + 1) y rango m aximo, entonces la
regresi on de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.
Justicar geometricamente este resultado.
13
49. La resistencia a la traccion (y) de una aleacion met alica en funcion de la temperatura de
templado (x) se ha ajustado con una ecuacion de regresi on para 30 observaciones resultando:
y = 276.1 + 1.9x, s
R
= 15.7, R
2
= 0.43
Se puede concluir con una conanza del 95% que la temperatura de templado tiene efecto
signicativo en la resistencia a la traccion.
50. En Cosby Creek, una ciudad al sur de las monta nas Apalaches, se ha hecho un estudio para
determinar como el pH y otras medidas de acidicaci on del agua se ven afectadas durante
las tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentas
monitorizadas para un total de 19 variables, aunque en este analisis se analizar an solo 2, el
pH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresi on m ultiple
del valor pH con respecto a la variable WA y para cada una de las tres tormentas. Las
tormentas se representan con las variables cticias z
1
, z
2
y z
3
que identican respectivamente
la tormenta 1, 2 y 3. El modelo estimado de regresi on de y con respecto a WA, z
1
, z
2
y z
3
es:

pH = 5.77 0, 00008WA
(0,000727)
+0, 998z
1
(0,4664)
+1, 65z
2
(0,4701)
0, 005z
1
WA
(0,0014)
0, 008z
2
WA
(0,0016)
, R
2
= 0, 866
Entre parentesis las deviaciones tpicas estimadas de los estimadores de los par ametros cor-
respondientes.
(a) Realice el contraste general de regresi on y los contrastes individuales con = 0, 05
indicando las variables que inuyen signicativamente en el pH. Interprete el signicado
de cada par ametro.
(b) Proporcione sendos intervalos de conanza al 95% para los par ametros de las interac-
ciones z
1
WA y z
2
WA. Que conclusiones pueden extraerse? Se puede simplicar el
modelo?
51. Dos becarios del Departamento de Ciencias Sociales estan interesados en el estudio de la
Tasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 pases dicha magnitud
as como la alfabetizacion (A), el PIB y la poblacion (Pob) en cada uno de ellos.
Las medias y desviaciones tpicas corregidas de estas 4 variables son:
TMI A PIB Pob
Media 42.67 78.34 5831.4 48501
DT corregida 38.3 22.88 6537.24 147.991
(a) Si el coeciente de correlaci on entre TMI y A vale -0.9005 estime el modelo de regresi on
simple en el que TMI es la variable respuesta y A la variable explicativa y contraste si
la pendiente estimada es signicativa.
(b) Los becarios han estimado un modelo de regresi on m ultiple en que la variable depen-
diente es TMI y las variables independientes son A, PIB y Pob. Observando que la
diagnosis del modelo es inadecuada. Estime el modelo de regresi on m ultiple entre TMI
(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:
14
(

X)
1
= 10
3
_
_
0.0259 0.0499 0.0001
0.0499 0.3186 0.0007
0.0001 0.0007 0.0004
_
_
(

Y ) = 10
4
_
_
8.3651
1.7007
5.1293
_
_
siendo

X la matriz de estos 3 ultimos regresores en desviaciones a la media e

Y el vector
respuesta en desviaciones a la media. Son signicativos los coecientes estimados?
c. Para el modelo del apartado anterior realice el contraste general de regresi on. En-
cuentra contradicciones entre el resultado de los contrastes individuales del apartado 2
y el del apartado 3? Justique la respuesta.
d. Los pases objeto del estudio se pueden clasicar en desarrollados y no desarrollados.
Para ello se introduce la variable cualitativa Z que toma valor 0 si el pas es desarrollado
y 1 si no lo es. El modelo resultante se presenta a continuacion:
TMI = 138.2 1.1A9.6 log(PIB) + 3.3Z con s
2
R
= 196.3
Todos los coecientes estimados resultan signicativos. Interprete dichos coecientes y elija
de manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados
NOTA: Utilice = 0.05 para todos los contrastes que sean necesarios.
52. Se ha realizado la regresi on entre la anchura y la longitud del pie en centmetros con datos
de chicos y chicas de cuarto curso de la ense nanza secundaria. En la tabla se proporciona el
resultado de la regresi on. En el modelo se ha incluido una variable cualitativa que toma el
valor 1 si la observacion corresponde a una chica y 0 si es a un chico. Interpreta el resultado
del analisis.
Multiple Regression Analysis
-----------------------------------------------------------------------------
Dependent variable: Anch
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 4,29977 1,12692 3,81551 0,0005
Long 0,21311 0,048554 4,38913 0,0001
Chica -0,272394 0,127844 -2,13067 0,0402
-----------------------------------------------------------------------------
Analysis of Variance
15
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,60164 2 2,30082 16,41 0,0000
Residual 4,90599 35 0,140171
-----------------------------------------------------------------------------
Total (Corr.) 9,50763 37
R-squared = 48,3994 percent
53. Seg un la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica)
y de la masa del gas para el argon.
Presi on (psi) Masa (g)
52 1, 028
49 0, 956
44 0, 88
39 0, 793
34 0, 725
29 0, 645
25 0, 593
21 0, 526
19 0, 5
19 0, 442
11 0, 373
0 0, 21
(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguiente
modelo de regresi on
P
i
= m
i
+u
i
, con u
i
N(0,
2
).
Obtener el estimador de m axima verosimilitud del par ametro
(b) Realizar el contraste H
0
: = 50 frente a H
1
: = 50 con nivel de signicaci on 0.05.
(c) Para el modelo del apartado 1, obtener un intervalo de prediccion para la presi on cuando
la masa es igual a 1 gramo.
(d) Se considera tambien el modelo alternativo
P
i
=
0
+
1
m
i
+u
i
con u
i
N(0,
2
).
16
Obtener la varianza del estimador de E[P
h
|m
h
], es decir del valor medio de la presi on P
h
para una masa dada m
h
con ambos modelos. Si el modelo verdadero fuese el del primer
apartado, que efecto tendra sobre la prediccion adoptar el modelo alternativo?
54. Se ha estimado un modelo de regresi on con dos variables independientes y 150 observaciones
obteniendose la siguiente ecuacion:
y
i
= 1.17 + 0.025 log x
1
+ 0.59 log x
2
, s
2
R
= 2.48
La matriz de varianzas estimada de

b = [

1
,

2
]
T
para el modelo propuesto es
_

X
T

X
_
1
s
2
R
=
_
.253 .201
.201 .288
_
.
realiza el contraste general de regresi on con = 0.05:
H
0
:
1
=
2
= 0
H
1
: alg un
i
es distinto de cero
55. En el modelo de regresi on
y
i
=
0
+
1
X
1i
+
2
X
2i
+u
i
con las hipotesis habituales, explicar como se contrasta
H
0
:
1
=
2
H
1
:
1
=
2
56. Demostrar que en el modelo de regresi on m ultiple con k regresores y constante, el estadstico
que contrasta H
0
:
0
=
1
=
2
= =
k
= 0 frente a H
1
: alg un
i
= 0, si H
0
es cierta
es:
F =
Y
T
V Y
Y
T
(I V )Y
n k 1
k + 1
F
k+1,nk1
donde V = X(X
T
X)
1
X
T
e I es la matriz identidad de dimension n n.
57. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calor
generado en el proceso de endurecimiento del 13 muestras de cemento en funcion de su
composicion. Los regresores X
i
corresponden al porcentaje de 4 componentes de la mezcla.
17
Fila Regresores Calor Modelo II
X
1
X
2
X
3
X
4
Y Residuo v
ii
1 7 26 6 60 78.5 -1.574 0.25
2 1 29 15 52 74.3 1.049 0.26
3 11 56 8 20 104.3 -1.515 0.12
4 11 31 8 47 87.6 -1.658 0.24
5 7 52 6 33 95.9 -1.393 0.08
6 11 55 9 22 109.2 4.048 0.11
7 3 71 17 6 102.7 -1.302 0.36
8 1 31 22 44 72.5 -2.075 0.24
9 2 54 18 22 93.1 1.825 0.18
10 21 47 4 26 115.9 1.362 0.55
11 1 40 23 34 83.8 3.264 0.18
12 11 66 9 12 113.3 0.863 0.20
13 10 68 8 12 109.4 -2.893 0.21
Modelo I Modelo II
Desv. Tp.
Par ametros Estimacion Estimadas t
Constante 62.4 70.1 0.89
X
1
1.55 0.74 2.08
X
2
0.51 0.72 0.70
X
3
0.10 0.75 0.13
X
4
-0.14 0.71 -0.20
Desv. Tp.
Par ametros Estimacion Estimadas t
Constante 52.6 2.28 23.0
X
1
1.46 0.12 12.1
X
2
0.66 0.045 14.4
Analisis de la Varianza
Varia- Grados
Fuentes bilidad Lib. Var. F
Explic. 2667.9 4 667.0 111.5
Residual 47.8 8 5.98
Total 2715.7 12
Analisis de la Varianza
Varia- Grados
Fuentes bilidad Lib. Var. F
Explic. 2657.8 2 1328.9 229.5
Residual 57.9 10 5.8
Total 2715.7 12
En las tablas se proporcionan dos modelos de regresi on lineal, con las estimaciones de los
par ametros, las desviaciones tpicas estimadas de estos y los estadsticos t de los contrastes
individuales. Debajo se incluyen las tablas de analisis de la varianza de cada modelo.
(a) Realizar los contrastes H
0
:
i
= 0 frente H
1
:
i
= 0 para los distintos par ametros en
los dos modelos. Realizar el contraste conjunto H
0
:
3
=
4
= 0 frente H
1
: alguno de
los dos es = 0. Se puede concluir con estos datos que X
4
no inuye signicativamente
en el calor Y ?
(b) Estimar el modelo de regresi on simple del calor Y y la variable explicativa X
4
Inuye
signicativamente X
4
en el calor Y ? Analizar este resultado e interpretarlo teniendo
en cuenta el resultado del apartado anterior.
(c) En la tabla superior se muestran los residuos del modelo II y los elementos de la
diagonal de la matriz V = X(X
T
X)
1
X
T
. Indicar los residuos con mayor y menor
varianza, justicando la respuesta. Si se vuelve a repetir los experimentos en estas dos
18
condiciones, dar un intervalo para la prediccion de los nuevos valores de la variable
dependiente (usar = 0.05).
58. En un estudio de regresi on simple con 35 observaciones ha resultado el siguiente modelo
y = 0.12 + 7.6 log(x), s
R
= 1.2, R
2
= 0.37
Obtener el intervalo de conanza al 95% para el par ametro de la pendiente e indicar si su
efecto es signicativo.(El percentil 0.975 de la distribucion t de Student con 33 grados de
libertad es 2.03)
59. Los datos siguientes corresponden a la perdida (P) por abrasion en gr/h y su medida de
dureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tensi on (A) y
otras 15 gomas de caucho con resistencia a la tension baja (B):
A D 75 55 61 66 71 71 81 86
A D 53 60 64 68 79 81 56
A P 128 206 175 154 136 112 55 45
A P 221 166 164 113 82 32 228
B D 45 68 83 88 59 71 80 82
B D 89 51 59 65 74 81 86
B P 372 196 97 64 249 219 186 155
B P 114 341 340 283 267 215 148
Escribir el modelo estadstico, indicar los par ametros y explicar el procedimiento de esti-
maci on para estudiar con estos datos simultaneamente el efecto de la dureza y de la resisten-
cia a la tension (alta o baja) en las perdidas por abrasion. Indicar como contrastar con el
modelo propuesto que las gomas de caucho con baja resistencia a la traccion tienen por
termino medio mayor perdida que las gomas con resistencia a la traccion baja. (Nota.- No
se pide ning un calculo numerico, los datos se presentan para ilustrar y describir el problema
de forma precisa).
60. Sea x
1
la altura del tronco de un arbol y x
2
el di ametro del mismo en su parte inferior. El
volumen y del tronco de arbol puede ser calculado aproximadamente con el modelo
y
i
= x
1i
x
2
2i
+u
i
,
seg un el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x
1i
, x
2i
, siendo el par ametro (desconocido) de proporcionalidad, m as una componente
de error aleatorio u
i
. La tabla siguiente contiene los datos (en metros y metros c ubicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
19
Obs. x
1i
x
2i
x
1i
x
2
2i
y
i
Obs. x
1i
x
2i
x
1i
x
2
2i
y
i
1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,821
2 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,280
3 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,034
4 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,679
5 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,073
6 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,022
7 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,630
8 22,9 0,269 1,66 0,722
(a) Estimar por m axima verosimilitud suponiendo que las variables u
i
tienen distribuci on
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de prediccion de su volumen (95% de conanza). La varianza residual del modelo es
0,0058.
(c) En el analisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log y
i
=
0
+
1
log x
1i
+
2
log x
2i
+u
i
El resultado de la estimaci on es:
Par ametro Estimacion

0
-1,45

1
1,14

2
1,86
y

M

=
_
_
0, 1250 0, 0212 0, 0317
0, 0212 0, 0082 0, 0051
0, 0317 0, 0051 0, 0042
_
_
siendo

M

= s
2
R
(X
T
X)
1
(X es la matriz de los regresores transformados seg un el
modelo) La transformacion logartmica del modelo inicial (x
1i
x
2
2i
) implicara que
1
=
1 y
2
= 2. Contrastar (nivel de signicaci on 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de prediccion (95% de conanza) para el volumen
del tronco del apartado 2 si la varianza residual es 0,0031.
61. La cantidad m axima y
i
de cierto compuesto disuelta en un litro de agua a temperatura x
i
sigue el modelo de regresi on simple,
y
i
=
0
+
1
x
i
+u
i
,
donde u
i
cumple las hipotesis de normalidad, homocedasticidad (Var(u
i
) =
2
) e indepen-
dencia. Una muestra de n disoluciones diferentes han proporcionado los valores (y
i
, x
i
).
Adem as se han medido las cantidades disueltas y

1
, y

2
, ..., y

m
en otra muestra de m disolu-
ciones que se encontraban a la misma temperatura x
0
. El valor x
0
es desconocido. Estimar
por m axima verosimilitud los par ametros
0
,
1
,
2
y x
0
utilizando las n +m observaciones.
20
62. Explicar en que consiste el problema de la multicolinealidad en el modelo de regresi on: como
se detecta, como se puede corregir y cu ales son sus efectos.
63. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T
0
= 1525
o
F) en un ba no templado de aceite (t
0
= 95
o
F). Para determinar la inuencia de las
temperaturas del acero y del ba no de aceite en las propiedades nales del material se han
elegido tres valores de la temperatura del acero y tres del ba no de aceite,
Temperatura acero (T)
_
_
_
1450
o
F
1525
o
F
1600
o
F
Temperatura aceite (t)
_
_
_
70
o
F
95
o
F
120
o
F
y se han realizado los siguientes experimentos:
x
1i
0 0 0 0 -1 1 -1 1 0 0 -1 1
x
2i
0 0 0 0 -1 -1 1 1 -1 1 0 0
y
i
49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
donde se ha utilizado la siguiente transformacion (para simplicar calculos)
x
1i
=
T
i
1525
75
y x
2i
=
t
i
95
25
.
Estimar el modelo de regresi on
y
i
=
0
+
1
x
1i
+
2
x
2i
+
3
x
1i
x
2i
+u
i
e indicar que par ametros son signicativos para nivel de signicaci on 0.05, teniendo en
cuenta que la desviaci on tpica residual es s
R
= 9.6. Estimar y contrastar el modelo anterior
empleando las variables originales T
i
y t
i
.
64. Se ha ajustado un modelo de regresi on para estudiar el efecto de la velocidad de corte (x
1
)
y el caudal de refrigerante (x
2
) en la duracion (y) de una herramienta de corte. Las tres
variables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:
log y = 18, 30 5, 050 log x
1
3, 750 log x
2
(1,65) (0,19) (0,34)
(entre parentesis se proporcionan las desviaciones tpicas estimadas de los coecientes estima-
dos del modelo). El n umero de observaciones es 32 y la desviaci on tpica residual s
R
= 0, 24.
Obtener los intervalos de conanza (99%) para los tres par ametros de la ecuacion de re-
gresion. El coeciente de determinaci on es R
2
= 0, 96, realizar el contraste conjunto de los
par ametros correspondientes a las dos variables explicativas.
65. Se ha ajustado el siguiente modelo de regresi on m ultiple con una muestra de 86 vehculos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, donde la variable dependiente
es el consumo, y los regresores: Pot (potencia) esta expresada en unidades de 100 Cv, el
21
Peso en Toneladas, Z
J
toma el valor 1 si el coche es japones y cero en los demas, y Z
E
toma
el valor 1 para los coches europeos y cero en los demas.
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 Z
J
+ 1.127 Z
E
s
2
R
= 0.506, R
2
= 75.7%
(X
T
X)
1
=
_
_
_
_
_
_
4.791e 1 5.054e 2 3.794e 1 9.157e 2 4.682e 2
5.054e 2 1.595e 1 1.931e 1 3.443e 3 1.262e 2
3.794e 1 1.931e 1 4.646e 1 5.210e 2 2.865e 2
9.157e 2 3.443e 3 5.210e 2 6.667e 2 2.744e 2
4.682e 2 1.262e 2 2.865e 2 2.744e 2 9.759e 2
_
_
_
_
_
_
Dar el intervalo de conanza para el consumo previsto de un coche norteamericano con una
potencia de 120 Cv y 1600 Kg de peso.
66. El modelo de regresi on m ultiple que relaciona el calor generado en el proceso de endurec-
imiento (variable dependiente) de 13 muestras de cemento en funci on de su composicion
x
1
, x
2
, x
3
y x
4
, es
y
i
= 62.4 + 1.55 x
1i
+ 0.51 x
2i
+ 0.10 x
3i
0.14 x
4i
(70.1) (0.74) (0.72) (0.75) (0.71)
(entre parentesis la desviaci on tpica estimada de las estimaciones de los par ametros). Abajo
se proporciona el coeciente de determinaci on R
2
de los 15 modelos de regresi on diferentes
que se obtienen seg un los regresores elegidos.
R
2
Variables en el Modelo
53.3948 x
1
66.6268 x
2
28.5873 x
3
67.4542 x
4
97.8678 x
1
, x
2
54.8167 x
1
, x
3
97.2471 x
1
, x
4
84.7025 x
2
, x
3
68.0060 x
2
, x
4
93.5290 x
3
, x
4
98.2285 x
1
, x
2
, x
3
98.2335 x
1
, x
2
, x
4
98.1281 x
1
, x
3
, x
4
97.2820 x
2
, x
3
, x
4
98.2376 x
1
, x
2
, x
3
, x
4
Que variables inuyen signicativamente en el calor generado? Justicar la respuesta. Que
modelo seleccionaras para predecir el calor generado?
67. Se desea estudiar la relaci on entre el sueldo de 100 personas, en funcion del n umero de
a nos que llevan trabajando y el sector al que pertenecen, pudiendose dividir el sector en
22
S=servicios, I=industria, A=agricultura. Escribir el modelo de regresi on entre el sueldo
(variable respuesta) y el resto de las variables. Se estima este modelo de regresi on obteniendo
una varianza residual s
2
R
= 0.25. Con el objetivo de contrastar si el sector inuye en el sueldo
se estima otro modelo de regresi on que no contiene ninguna variable de sector, para este
modelo se obtiene una varianza residual s

2
R
= 0.4. Contrastar si el sector inuye en el sueldo
que perciben los empleados ( = 0.05).
68. En un modelo de regresi on m ultiple Y = X+U se realiza la transformacion de los regresores
Z = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango m aximo.
Calcular la estimaci on de los coecientes del nuevo modelo Y = Z
N
+U en funcion de los
antiguos.
10.64. (S-00) Se ha estimado el siguiente modelo de regresi on entre la variable y y los regresores
x
1
, x
2
y x
3
,
y = 61.1 + 46.1 log x
1
+ 83.1 log x
2
+ 27.9 log x
3
, s
R
= 5.49
Teniendo en cuenta que el n umero de observaciones es n = 60 y que
(X
T
X)
1
=
_
_
_
_
0.1939 0.0892 0.0887 0.1534
0.0892 0.1924 0.0125 0.0010
0.0887 0.0125 0.2093 0.0066
0.1534 0.0010 0.0066 0.2613
_
_
_
_
Dar un intervalo de conanza para los 4 par ametros de la ecuacion de regresi on y para la varianza
del modelo ( = 0.05).
69. Se ha estimado un modelo de regresi on m ultiple para explicar el consumo de combustible
de autom oviles en funcion del peso, la potencia y el lugar de fabricaci on. La muestra es de
86 vehculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 Z
J
+ 1.127 Z
E
, s
2
R
= 0.506, R
2
= 75.7%
(X
T
X)
1
=
_
_
_
_
_
_
4.791e 1 5.054e 2 3.794e 1 9.157e 2 4.682e 2
5.054e 2 1.595e 1 1.931e 1 3.443e 3 1.262e 2
3.794e 1 1.931e 1 4.646e 1 5.210e 2 2.865e 2
9.157e 2 3.443e 3 5.210e 2 6.667e 2 2.744e 2
4.682e 2 1.262e 2 2.865e 2 2.744e 2 9.759e 2
_
_
_
_
_
_
La variable dependiente, el consumo, esta medida en litros cada 100 km, Pot es la potencia
y esta expresada en unidades de 100 Cv, el Peso en Toneladas, Z
J
toma el valor 1 si el coche
es japones y cero en los demas, y Z
E
toma el valor 1 para los coches europeos y cero en
los demas. Realizar el contraste general de regresi on y los contrastes individuales para el
modelo anterior. Interpretar el resultado.
70. En una muestra de 31 arboles se ha medido la altura (x
1i
), el di ametro del arbol a un metro
de altura sobre el suelo (x
2i
) y el volumen de madera del tronco (y
i
) y se ha estimado el
siguiente modelo de regresi on
log(y
i
) =
0
+
1
log(x
1i
) +
2
log(x
2i
) +u
i
.
Los resultados se muestran en las tablas siguientes:
23
Analisis de regresion m ultiple
Variable dependiente: Log(Volumen)
Regresor Estimacion Desviacion tpica Estadstico t Nivel crtico
Ordenada en el origen -6,63162 0,79979 -8,2917 0,0
Log(Altura) 1,11712 0,20444 -5,4644 0,0
Log(Diametro) 1,98265 0,07501 26,4316 0,0
Analisis de la varianza
Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crtico
Modelo 8,12323 2 4,06161 613,19 0,0
Residual 0,18546 28 0,00662
Total 8,30869 30
Aproximando el volumen del arbol por el de un tronco conico, el volumen debe ser proporcional
a kx
1i
x
2
2i
y tomando logaritmos
log(k) + log(x
1i
) + 2 log(x
2i
).
Realizar los siguientes contrastes de hipotesis con nivel de signicaci on 0,05:
_
H
0
:
1
= 1
H
1
:
1
= 1
_
H

0
:
2
= 2
H

1
:
2
= 2
.
71. Una medida crtica de calidad en la fundicion de llantas de aluminio por inyecci on es la
porosidad. Se ha realizado un dise no 2
2
replicado (n = 16 experimentos) para analizar la
porosidad (Y ) en funcion de la temperatura (T) del aluminio lquido y de la presi on (P) con
que este se inyecta al molde. El modelo obtenido ha sido
y = 2.84 + 0.59 T - 0.031 P - 0.22 TP
y s
R
= 0.137 . Indica que efectos son signicativos ( = 0.05) y las condiciones optimas de
fabricaci on
72. En la tabla siguiente se presenta la estimaci on de la regresi on entre el resultado en la prueba
del salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de
100 metros lisos, 110 metros valla, 400 metros y 1500 metros.
Coecientes

i
Desv. T. t p-valor
Constante 17.9 2.12 8.45 0.000
X
1
(100 m) -.462 .266 -1.73 0.093
X
2
(110 m) -.181 .124 -1.45 0.155
X
3
(400 m) -3.39E-02 .070 -.485 0.631
X
4
(1500 m) -4.47E-03 .004 -1.03 0.312
La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidad
residual 2.413. Realizar el contraste general de regresi on, e interpretar el resultado del
contraste y los contrastes individuales de la tabla.
24

S-ar putea să vă placă și