Sunteți pe pagina 1din 16

Regresion Lineal

Tarea #3
Jose Daniel Rivera Medina
MODELOS POLINOMIALES DE REGRESI

ON
1. Un combustible solido para cohetes pierde peso despues de haber sido producido. Se dispone de los
siguientes datos:
Meses despues de Perdida de Meses despues de Perdida de
producido x peso y (kg) producido x peso y (kg)
0.25 1.42 1.50 3.15
0.50 1.39 1.75 4.05
0.75 1.55 2.00 5.15
1.00 1.89 2.25 6.43
1.25 2.43 2.50 7.89
a) Ajustar un polinomio de segundo orden que exprese la perdida de peso en funcion de la cantidad
de meses despues de haber sido producido.
b) Pruebe la signicancia de la regresi on.
c) Pruebe la hipotesis H
0
:
2
= 0. Comente la necesidad del termino cuadratico en este modelo.
d) Hay riesgos potenciales al extrapolar con este modelo?
2. Acerca del problema1, calcular los residuales del modelo de segundo orden. Analizar los residuales y
comentar la adecuaci on del modelo.
3. El grado de carbonatacion de una bebida gaseosa se afecta por la temperatura del producto y por
la presion de funcionamiento de la llenadora. Se obtuvieron 12 observaciones, y los datos resultantes
se presentan a continuacion.
Carbonatacion Temperatura Presi on Carbonatacion Temperatura Presi on
y x
1
x
2
y x
1
x
2
2.60 31.0 21.0 6.19 31.5 22.0
2.40 31.0 21.0 10.17 30.5 23.0
17.32 31.5 24.0 2.62 31.0 21.5
15.60 31.5 24.0 2.98 30.5 21.5
16.12 31.5 24.0 6.92 31.0 22.5
5.36 30.5 22.0 7.06 30.5 22.5
a) Ajustar un polinomio de segundo orden.
b) Probar la signicancia de la regresi on.
c) Probar la falta de ajuste y llegar a conclusiones.
d) Contribuye al modelo el termino de interacci on, en forma signicativa?
e) Contribuyen al modelo los terminos de segundo orden, en forma signicativa?
1
4. Un entomologo estudia el efecto de varios factores sobre la actividad de la colinesterasa en los huevos
del grillo. Los datos resultantes del estudio se encuentran en la Tabla B.8 apendice
a) Aproxima un modelo de regresi on de la forma
y =
0
+
1
x
1
+
2
x
2
+
4
x
4
+
1
x
2
1
+
44
x
2
4
+
14
x
1
x
4
+
donde y es la actividad de la colinesterasa como un porcentaje de la normalidad. x
1
es la edad
de los huevos en el momento del tratamiento, x
2
es la edad de los huevos en el momento de la
observacion y x
4
es el nivel de dosis de los tratamientos
b) Probar la signicancia de regresi on
c) Los terminos cuadraticos contribuyen signicativamente a la modelo?
d) Deberan ser agregados los terminos x
2
2
, x
1
x
2
y x
2
x
4
al modelo?
5. Un analista de investigacion de operaciones estudia la relaci on entre el tama no del lote de producci on,
x, y el costo unitario promedio de producci on, y. Un estudio de las operaciones recientes produjo los
siguientes datos:
x 100 120 140 160 180 200 220 240 260 280 300
y($) 9.73 9.61 8.15 6.98 5.87 4.98 5.09 4.79 4.02 4.46 3.82
El analista cree que un modelo de regresi on lineal por segmentos debe ajustar a esos datos. Estimar
los par ametros de ese modelo, suponiendo que la pendiente de la recta cambia en x = 200 unidades.
Respaldan los datos el uso de ese modelo?
6. Modicar el modelo del problema 5 para investigar la posibilidad de que exista una discontinuidad
en la funcion de regresi on en x = 200 unidades. Estimar los par ametros en este modelo. Probar las
hipotesis adecuadas para determinar si la funcion de regresi on cambia, tanto de pendiente como de
ordenada, en x = 200 unidades.
7. Considere los datos del problema 1.
a) Ajustar un modelo de segundo orden y =
0
+
l
x +
11
x
2
+ para esos datos. Evaluar los
factores de inacion de la varianza.
b) Ajustar un modelo de segundo orden y =
0
+
l
(x x) +
11
(x x)
2
+ para los datos. Evaluar
los factores de inacion de la varianza.
c) Cual sera la conclusion acerca del impacto, sobre la multicolinealidad, de centrar las x

s en un
modelo polinomial?
VARIABLES INDICADORAS
8. Para los datos de rendimiento de gasolina en coches, de la tabla B.3 del apendice.
2
Automovil x
10
x
11
Automovil x
10
x
11
Apollo 3910 A Eldorado 5290 A
Omega 2860 A Imperial 5185 A
Nova 3510 A Nova 3910 A
Monarch 3890 A Valiant 3660 A
Duster 3365 M Starre 3050 A
Jenson 4215 A Cordoba 4250 A
Skyhawk 3020 A TransAM 3850 A
Monza 3180 A Corolla 2275 M
Scirocco 1905 M Astre 2150 M
Corolla 2320 M MarkIV 5430 A
Camaro 3885 A Celica 2535 M
Datsun 2009 M Charger 4370 A
Capri 2655 M Cougar 4540 A
Pacer 3375 A Elite 4715 A
Babcat 2700 M Matador 4215 A
Granada 3890 A Corvette 3660 A
a) Formar un modelo de regresi on lineal que relacione el rendimiento de la gasolina y con el peso
del vehculo x
10
y con el tipo de transmision x
11
. El tipo de transmisi on afecta el rendimiento
de la gasolina en forma importante?
b) Modicar el modelo desarrollado en la parte a, para incluir una interacci on entre el peso del
vehculo y el tipo de transmision. A que conclusiones se puede llegar acerca del efecto del tipo
de transmision sobre el rendimiento de la gasolina? Interpretar los par ametros de este modelo.
9. Considerense los datos de la Liga Nacional de Futbol de la tabla B.1 del apendice. Formular un
modelo de regresi on lineal que relacione la cantidad de juegos ganados con las yardas corridas por los
oponentes x
8
, el porcentaje de jugadas por tierra x
7
y una modicaci on del diferencial de perdidas
de bal on x
5
. En forma especca, sea el diferencial de perdidas de bal on una variable indicadora cuyo
valor se determina si ese diferencial real es positivo, negativo o cero. Que conclusiones se pueden
sacar acerca del efecto de las perdidas de balon sobre la cantidad de juegos ganados?
Equipo y x5 x7 x8 Equipo y x5 x7 x8
Washington 10 4 59.7 2205 Detroit 6 6 59.2 1901
Minnesota 11 3 55 2096 Green 5 -19 54.4 2288
New E. 11 14 65.6 1847 Houston 5 -5 49.6 2072
Oakland 13 -4 61.4 1903 Kansas 5 10 54.3 2861
Pittsburgh 10 15 66.1 1457 Miami 6 6 58.7 2411
Baltimore 11 -8 61 1848 Nueva O. 4 7 51.7 2289
Los A. 10 12 66.1 1564 Nueva Y. G. 3 -9 61.9 2203
Dalias 11 -1 58 1821 Nueva Y. J. 3 -21 52.7 2592
Atlanta 4 -3 57 2577 Philadelphia 4 -8 57.8 2053
Bualo 2 -1 58.9 2476 San Luis 10 2 59.7 1979
Chicago 7 19 67.5 1984 San Diego 6 0 54.9 2048
Cincinnati 10 6 57.2 1917 San Franc. 8 -8 65.3 1786
Cleveland 9 -5 58.8 1761 Seatt1e 2 -22 43.8 2876
Denver 9 3 58.6 1709 Tampa 0 -9 53.5 2560
3
10. Un estudio realizado intento relacionar la propiedad de viviendas con los ingresos familiares. Se
seleccionaron veinte hogares, un ingreso familiar junto con el hecho de que la casa fue propiedad
(y = 1) o alquiladas (y = 0) se registraron. Los datos se muestran a continuacion. Ajuste un modelo
de regresi on lineal para estos datos. Parece que el modelo lineal razonable?
N umero de Ingresos Estado de propiedad N umero de Ingresos Estado de propiedad
casa de la casa casa de la casa
1 8,300 0 11 18,700 1
2 21,200 1 12 10,100 0
3 9,100 0 13 19,500 1
4 13,400 1 14 8,000 0
5 17,700 0 15 12,000 1
6 23,00 0 16 24,000 1
7 11,500 1 17 21,700 1
8 10,800 0 18 9,400 0
9 15,400 1 19 10,900 0
10 22,400 1 20 22,800 1
11. El departamento de investigacion de marcado de un fabricante de refrescos esta investigando la
ecacia de un descuento en el precio de un paquete de seis de un producto de bebida de 2 litros. Se
seleccion o una muestra de 5.500 consumidores, y un cup on se le dio a cada uno. Los cupones ofrecen
descuentos diferentes precios que van desde 5 centavos de descuento de 25 centavos de descuento en
incrementos de 2 centavos de dolar, y 500 consumidores fueron asignados a uno de los precios de
11 categoras de descuento. La variable de respuesta fue si el cup on se ha canjeado despues de un
mes. Los datos se muestran m as abajo. Ajustar una respuesta logstica a estos datos. Este modelo
describe adecuadamente los datos?
Presio de Tama no de N umero de cupones
descuento (x
j
) muestra (n
j
) canjeados (c
j
)
5 500 100
7 500 122
9 500 147
11 500 176
13 500 211
15 500 244
17 500 277
19 500 310
21 500 343
23 500 372
25 500 391
SOLUCIONES
1. a) Tomando en cuenta la recomendacion de que al centrar los datos se puede eliminar el mal
acondicionamiento no esencial, el modelo a ajustar es:
y =
0
+
1
(x x) +
2
(x x)
2
+
4
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 2 47.3102 23.6550 1858613 < 0.0001
0
2.7644 0.0017
Error 7 0.0001 0.00001
1
2.8778 0.0016
Total 9 47.3103 R
2
0.999998
2
1.4945 0.0025
entonces el modelo ajustado es:
y = 2.7644 + 2.8778(x 1.375) + 1.4945(x 1.375)
2
b) Considerando que la hipotesis a probar es H
0
:
1
=
2
= 0, con los datos de la tabla anterior
tenemos que = 0,05 > 0.0001 = por lo que H
0
es rechazada con = 0.05. Con esto
concluimos que
1
o
2
(o ambos) contribuyen al modelo en forma signicativa.
c) Considerando que deseamos probar la hipotesis H
0
:
2
= 0 para determinar si el termino
cuadratico contribuye al modelo. Con esto el modelo redusido es:
y =
0
+
1
(x x) +
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 1 42.7032 42.70323 74.15 < 0.0001
0
3.5350 0.24997
Error 8 4.6070 0.5759
1
2.8778 0.3342
Total 9 47.0302 R
2
0.9026
entonces el modelo ajustado es:
y = 3.5350 + 2.8778(x 1.375)
Con lo anterior tenemos que
SCR(
2
|
1
,
0
) = SCR(
1
,
2
|
0
) SCR(
1
|
0
)
= 47.3102 42.7032 = 4.607
Asi, entonces tenemos:
F
0
=
SCR(
2
|
1
,
0
)/1
CMR
=
4.607
0.00001
= 876, 188.6649
Ahora tenemos que:
F
0
= 876188,6649 > 4,4939 = F
0,05,(1,7)
= F
(1,gle)
Con lo anterior rechamos H
0
con = 0,05. Con lo que concluimos que
2
= 0,por lo que
2
si
contribuye de manera signicativa al modelo.
Vemos CMR y SE(
1
0) aumentan en este modelo y ademas tambien R
2
se reduce moderada-
mente con este modelo , por lo que podemos concluir que el termino cuadratico es indispensable
para la esplicaci on del modelo.
d) Considerando que el rango de los datos es x [0.25, 2.5] podemos ver en la graca 1 que no hay
riesgo potencial de extrapolar en el modelo, ya que al estar considerando solo valores positivos
de x la graca es monotona creciente para casi todos estos valores, a excepcion de unos cuantos
valores cercanos de 0 o fuera del rango de los datos es donde podria aver peligro de extrapolar.
5
2. Considerando que los residuales estan denidos por e
i
= y y, entonces los residuales obtenidos son:
y y e
i
y y e
i
1.42 1.418351563 0.001648438 3.15 3.147476563 0.002523437
1.39 1.390551563 -0.000551563 4.05 4.053739063 -0.003739063
1.55 1.549564063 0.000435938 5.15 5.146814063 0.003185937
1.89 1.895389063 -0.005389063 6.43 6.426701563 0.003298437
2.43 2.428026563 0.001973438 7.89 7.893401563 -0.003401562
La graca 2 corresponde a las graca de las estimaciones y de los residuales, y podemos ver que
esta graca no tiene ninugn patrn en prticual, lo cual es lo que se esperaria ya que los errores
tienen una distribucin normal.
Tambien podemos ver que los residuales convergen rapidamente a 0, lo cual seria de esperarse
si un modelo es adecuado para explicar los datos. Con esto podemos concluir que el modelo
obtenido es adecuado para la explicacin de los datos.
3. a) Tomando en cuenta la recomendacion de que al centrar los datos se puede eliminar el mal
acondicionamiento no esencial, el modelo a ajustar es:
y =
0
+
1
(x
1
x
1
) +
2
(x
2
x
2
) +
3
(x
1
x
1
)(x
2
x
2
) +
4
(x
1
x
1
)
2
+
5
(x
2
x
2
)
2
+
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 5 339.8877 67.9775 177.17 < 0.0001
0
6.27967 0.5396
Error 6 2.3022 0.3837
1
0.6788 0.6309
Total 11 342.1899 R
2
0.9933
2
4.4153 0.2783

3
-1.3317 0.8962

4
3.6259 2.2098

5
1.1542 0.3237
entonces el modelo ajustado es:
y = 6.27967 + 0.6788(x
1
31) + 4.4153(x
2
22.4167) 1.3317(x
1
31)
(x
2
22.4167) + 3.6259(x
1
31)
2
+ 1.1542(x
2
22.4167)
2
b) Considerando que la hipotesis a probar es H
0
:
1
=
2
=
3
=
4
=
5
= 0, con los datos de la
tabla anterior tenemos que = 0,05 > 0.0001 = por lo que H
0
es rechazada con = 0.05. Con
esto concluimos que alemnos un
i
, i = 1, 2, 3, 4, 5 contribuye al modelo en forma signicativa.
c) Podemos ver que probar la nesecidad del ajuste del modelo a un modelo polinomial se reduce
a probar la hipotesis H
0
:
3
,
4
,
5
= 0. Por lo que el modelo reducido para este caso es:
y =
0
+
1
(x
1
x
1
) +
2
(x
2
x
2
) +
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 2 334.0657 167.03287 185.04 < 0.0001
0
-147.4892 21.3572
Error 9 8.1242 0.9027
1
1.7188 0.7629
Total 11 342.1899 R
2
0.9763
2
4.5570 0.2892
6
Por lo que el modelo ajustado es:
y = 147.4892 + 1.7188(x
1
31) + 4.5570(x
2
22,4167)
Con lo anterior tenemos que
SCR(
5
,
4
,
3
|
2
,
1
,
0
) = SCR(
1
,
2
,
3
,
4
,
5
|
0
) SCR(
1
,
2
|
0
)
= 339.8877 334.0657 = 5.8220
Asi, entonces tenemos:
F
0
=
SCR(
5
,
4
,
3
|
2
,
1
,
0
)/3
CMR
=
5.8220/3
0.3837
= 5.0578
Ahora tenemos que:
F
0
= 5.0578 > 4.7571 = F
0.05,(3,6)
Con lo anterior rechamos H
0
con = 0,05. Con lo que concluimos que almenos un
i
= 0, i =
3, 4, 5,por lo que alemos un
i
si contribuye de manera signicativa al modelo.
Vemos CMR, SE(
1
) y SE(
1
) aumentan en este modelo y ademas tambien R
2
se reduce
levemente con este modelo , por lo que podemos concluir que los terminos cuadratico y la
iteraci on son indispensable para la explicacion del modelo.
d) Considerando que determinar si el termino de iteraccion contribuye de manera signicativa al
modelo se reduce a probar la hip otesis H
0
:
3
= 0. Por lo que el modelo reducido es:
y =
0
+
1
(x
1
x
1
) +
2
(x
2
x
2
) +
4
(x
1
x
1
)
2
+
5
(x
2
x
2
)
2
+
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 4 339.0405 84.7601 189.39 < 0.0001
0
6.5593 0.5477
Error 7 3.1494 0.4499
1
0.7738 0.6797
Total 11 342.1899 R
2
0.9908
2
4.2758 0.2837

4
4.2758 2.2770

5
0.8189 0.2513
Por lo que el modelo ajustado es:
y = 6.5593 + 0.7738(x
1
31) + 4.2758(x
2
22.4167) + 4.2758(x
1
31)
2
+ 0.8189(x
2
22.4167)
2
Con lo anterior tenemos que
SCR(
3
|
1
,
2
,
4
,
5
,
0
) = SCR(
1
,
2
,
3
,
4
,
5
|
0
) SCR(|
1
,
2
,
4
,
5
,
0
)
= 339.8877 339.0405 = 0.8472
Asi, entonces tenemos:
F
0
=
SCR(
3
|
1
,
2
,
4
,
5
,
0
)/1
CMR
=
0.8472/1
0.3837
= 2.2080
7
Ahora tenemos que:
F
0
= 2.2080 < 5.9874 = F
0.05,(1,6)
Con lo anterior tenemos que no rechamos H
0
con = 0,05. Con lo que concluimos que
3
=
0, i = 3, 4, 5,por lo que
3
no contribuye de manera signicativa al modelo.
Vemos que elCMR, SE(
i
), i = 1, 2, 3, 4, 5 en este modelo no es muy notable y ademas tambien
R
2
se reduce muy poco, por lo que podemos concluir que
3
no es indispensable en el modelo.
e) Considerando que determinar si los terminos cuadraticos contribuyen de manera signicativa al
modelo se reduce a probar la hipotesis H
0
:
4
,
5
= 0. Por lo que el modelo reducido para este
caso es:
y =
0
+
1
(x
1
x
1
) +
2
(x
2
x
2
) +
3
(x
1
x
1
)(x
2
x
2
) +
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 3 334.8994 111.6331 122.50 < 0.0001
0
7.7494 0.3433
Error 8 7.2905 0.9113
1
1.5081 0.7976
Total 11 342.1899 R
2
0.9787
2
4.3811 0.3439

3
0.9395 0.9823
Por lo que el modelo ajustado es:
y = 7,7494 + 1,5081(x
1
31) + 4,3811(x
2
22.4167)
+ 0,9395(x
1
31)(x
2
22.4167)
Con lo anterior tenemos que
SCR(
4
,
5
|
1
,
2
,
3
,
0
) = SCR(
1
,
2
,
3
,
4
,
5
|
0
) SCR(|
1
,
2
,
3
|
0
)
= 339.8877 334.8994 = 4.9883
Asi, entonces tenemos:
F
0
=
SCR(
4
,
5
|
1
,
2
,
3
,
0
)/2
CMR
=
4.9883/2
0.3837
= 6.5003
Ahora tenemos que:
F
0
= 6.5003 > 5.1433 = F
0.05,(2,6)
Con lo anterior tenemos que rechamos H
0
con = 0,05. Con lo que concluimos que
4
,
5
= 0,
por lo que
4
y
5
si contribuye de manera signicativa al modelo.
Vemos que el CMR en este modelo aumenta levemente y ademas tambien R
2
se reduce muy
poco, por lo que podemos concluir que
4
y
5
son indispensable en el modelo, aunque no de-
masiado.
Con lo concluido en los incisos anteriores podemos concluir que el mejor modelo para explicar
los datos esta dado por :
y = 6.5593 + 0.7738(x
1
31) + 4.2758(x
2
22.4167) + 4.2758(x
1
31)
2
+ 0.8189(x
2
22.4167)
2
8
4. a) Considerando el modelo dado y haciendo uso de SAS tenenos que la tabla del ANOVA y los
estimadores obtenidos son:
FV GL SC CM Fcal P-valor
Regresion 6 103145.8971 17190.9828 38.94 < 0.0001
Error 149 65789.7888 441.5221
Total 168932.6859 R
2
0.610574
Parametro Estimador SE

0
20.9732 64.3222

1
-6.7147 9.2915

2
17.9913 1.1847

4
-65.5880 146.7366

11
2.1898 6.7366

44
-0.3037 6.5743

14
24.0385 89.2196
Con lo anterior tenenemos que el modelo ajustado es:
y = 20,9732 6,7147x
1
+ 17,9913x
2
65,5880x
4
+ 2,1898x
2
1
0,3037x
2
4
+ 24,0385x
1
x
4
b) Considerando que debemos probar la hipotesis H
0
:
1
=
2
=
4
=
14
=
11
=
44
= 0
, con siderando los resultados de la tabla del ANOVA tenemoq que Fcal=38.94 y dado que P-
valor es muy peque no se rechaza H
0
con = 0,05, con esto tenemos que almenos un explica
signicativamente el modelo.
c) Considerando que determinar si los terminos cuadraticos contribuyen de manera signicativa al
modelo se reduce a probar la hipotesis H
0
:
11
=
44
= 0. Por lo que el modelo reducido para
este caso es:
y =
0
+
1
x
1
+
2
x
2
+
4
x
4
+
14
x
1
x
4
+
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor
Regresion 4 103035.8386 125758.9597 59.03 < 0.0001
Error 151 65896.8473 436.4030
Total 155 168932.6859 R
2
0.6099
Parametro Estimador SE

0
13.9868 218.1608

1
-9.8950 5.3617

2
17.9621 1.1758

4
-27.1265 33.7683

14
2.1898 6.5361
Por lo que el modelo ajustado es:
y = 13,9868 9,8950x
1
+ 17,9621x
2
27,1265x
4
+ 2,1898x
1
x
4
9
Con lo anterior tenemos que
SCR(
11
,
44
|
1
,
2
,
4
,
14
,
0
) = SCR(
1
,
2
,
4
, 14,
11
,
44
|
0
) SCR(|
1
,
2
,
4
,
14
|
0
)
= 103145,8971 103035,8386 = 110,0585
Asi, entonces tenemos:
F
0
=
SCR(
11
,
44
|
1
,
2
,
4
,
14
,
0
)/2
CMR
=
110,0585/2
441,5221
= 55,0293
Ahora tenemos que:
F
0
= 55,0293 > 3,0568 = F
0.05,(2,149)
Con lo anterior tenemos que rechamos H
0
con = 0,05. Con lo que concluimos que almenos
uno de los dos
4
,
5
= 0, por lo que
4
o
5
o ambos si contribuye de manera signicativa al
modelo.
Vemos que el CMR en este modelo aumenta levemente y ademas tambien R
2
se reduce muy
poco, por lo que podemos concluir que almenos unos de los terminos cuadraticos es indispensa-
ble en el modelo, aunque tambien podemos observar al comparar los SE(
i
) de ambos modelos,
en este se reducen drasticamente.
d) Ahora pasa saber si debemos agregar o no los terminos x
2
2
, x
1
x
2
y x
2
x
4
al modelo, es necesario
llevar a cabo la prueba de las hipotesis H
0
:
12
=
24
=
22
= 0. Consideremos el modelo a
ajustar para este caso:
y =
0
+
1
x
1
+
2
x
2
+
4
x
4
+
12
x
1
x
2
+
14
x
1
x
4
+
24
x
2
x
4
+
11
x
2
1
+
22
x
2
2
+
44
x
2
4
+
Haciendo uso de SAS tenemos que la tabla del ANOVA y los estimadores para este modelo son:
FV GL SC CM Fcal P-valor
Regresion 9 117292.2131 13032.4681 36.85 < 0.0001
Error 146 51640.4728 353.7019
Total 155 168932.6859 R
2
0.6943
Parametro Estimador SE Parametro Estimador SE

0
27.2022 68.2193
14
-6.5225 6.5383

1
-19.7279 9.5026
14
19.8114 6.4820

2
39.7083 10.4827
14
-1.5038 0.7755

4
-162.1386 135.0808
14
-4.0439 0.7616

14
4.1268 1.0419
14
24.0384 79.8551
Con lo anterior tenemos que el modelo ajustado es:
y = 27,2022 19,7279x
1
+ 39,7083x
2
162,1386x
4
+ 4,1268x
1
x
2
6,5225x
1
x
4
+ 19,8114x
2
x
4
1,5038x
2
1
4,0439x
2
2
+ 24,0384x
2
4
10
Con lo anterior tenemos que
SCR(
12
,
24
,
22
|
1
,
2
,
4
,
14
,
11
,
44
,
0
) =
SCR(
1
,
2
,
4
,
12
,
14
,
24
,
11
,
22
,
44
|
0
) SCR(
1
,
2
,
4
,
14
,
11
,
44
|
0
)
= 117292,2131 103145,8971 = 14146,3160
Asi, entonces tenemos:
F
0
=
SCR(
12
,
24
,
22
|
1
,
2
,
4
,
14
,
11
,
44
,
0
)/3
CMR
=
14146,3160/3
353,7019
= 234,4071
Ahora tenemos que:
F
0
= 234,4071 > 2,666574 = F
0.05,(3,146)
Con lo anterior tenemos que rechamos H
0
con = 0,05. Con lo que concluimos que almenos
uno de los dos
12
,
24
,
22
= 0, por lo que alguno de estos betas si contribuyen de manera
signicativa para la explicasion del modelo.
Vemos que el CMR en este modelo disminuye considerablemente y ademas tambien R
2
a umenta
cosiderablemente, por lo que podemos concluir que almenos unos de los terminos agregados es
indispensable en el modelo.
5. Considerando que el modelo de regresi on por segmentos para este caso esta dado por el spline con
un nodo de primer orden:
E[y] = S(x) =
00
+
01
x +
10
(x 200)
0
+
11
(x 200)
1
E[y] =

00
+
01
x Si x 200
(
00
+
10
200
11
) + (
01
+
11
)x Si x > 200
Haciendo uso de SAS tenemos que la tabla de anova y los estimadores son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresi on 3 45.9853 15.3284 146.58 < 0.0001
00
7.8419 1.0490
Error 7 0.7320 0.1046
01
-0.0144 0.0051
Total 10 46.7173 R
2
0.9843
10
0.3250 0.4120

11
-0.0373 0.0064
Por lo que el modelo ajustado de regresi on segmentos para estos datos es
y =

7,8419 ,0144x Si x 20
15,6269 ,0517x Si x > 20
Para determinar si los datos respaldan al modelo propuesto, consideremos si tal modelo explica mejor
a los datos que un modelo de regresion lineal simple( y =
00
+
01
). Usando SAS tenemos que:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresi on 1 41.6663 41.6663 74.24 < 0.0001
00
12.2909 0.7491
Error 9 5.0510 0.5612
01
-0.0308 0.0036
Total 10 46.7173 R
2
0.8918
11
Con esto el modelo ajustado para este caso es:
E[y] = y = 12,2909 0,0308x
con lo anterior pordemos probar las hipotesis H
0
:
10
,
11
= 0.
F
0
=
SCR(
10
,
11
|
00
,
01
,
00
)/2
CME
=
(45,9853 41,6663)/2
0,1046
= 24,8599
Asi, tenemos que:
F
0
= 24,8599 > 4,737414 = F
0,05,2,7
Por lo que H
0
se rechaza con = 0,05, con lo que podemos concluir que
10
,
11
= 0, lo que nos dice
que contribuyen con la explicacion del modelo.
Ademas podemos ver que el CME aumenta considerablemente en este modelo, mientras que R
2
disminuye notablemente; ademas si observamos la graca 3 podemos ver que el modelo obtenido se
ajuta a los datos, tambien podemos ver que el cambio de pendiente sugrge al rededor de x = 200.
Con esto podemos concluir que los datos apoyan en el uso del modelo por segmentos propuesto.
6. Consideremos que probar si el modelo empleado en 5 es continuo o no en x = 200 debemos
llevar acavo la prueba de la hipetesis H
0
:
10
= 0. Para esto consideremos entonces el modelo
a ajustar:
E[y] =

00
+
01
x Si x 200
(
00
200
11
) + (
01
+
11
)x Si x > 200
Haciendo uso de SAS tenemos que la tabla de anova y los estimadores son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 2 45.9202 22.9601 230.44 < 0.0001
00
15.1165 0.5354
Error 8 0.7971 0.09964
01
-0.0502 0.0033
Total 10 46.7173 R
2
0.9829
11
0.0389 0.0.00590
Por lo que el modelo ajustado de regresi on segmentos para estos datos es
E[y] = y =

15,1165 0,0502x Si x 20
22,8965 ,0113x Si x > 20
F
0
=
SCR(
10
|
11
,
01
,
11
,
00
)/1
CME
=
(45,9853 45,9202)/1
0,1046
= 0,6224
Asi, tenemos que:
F
0
= 0,6224 < 5,5914 = F
0,05,1,7
Por lo que H
0
no se rechaza con = 0,05, con lo que podemos concluir que
10
= 0, por lo que
el modelo usado en 5 es continuo en x = 200.
12
Ahora para derminar si el modelo cambia tanto de pendiente como de ordenada es necesario
probar la hipotesis H
0
:
10
= 11 = 0. Recordando que en el problema 5 ya se probo esta
hip otesis, obtuvimos que H
0
era rechazada por lo que teniamos que
10
o
11
o ambos podia ser
distintos de cero; considerando lo obtenido en el inciso anterior tenemos que
10
= 0, por tanto
tenemos que
11
= 0. con esto podemos concluir que el modelo que mejor explica estos datos
es:
E[y] = y =

15,1165 0,0502x Si x 20
22,8965 ,0113x Si x > 20
as podemos concluir que el modelo de regresi on cambia tanto de pendiente como de ordenada.
7. a) Considerando el modelo para este caso:
y =
0
+
1
x +
2
x
2
+
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 2 43.6298 21.8149 41.49 0. 0001
0
3.4267 0.5571
Error 7 3.6804 0.5258
1
-3.9887 1.2120
Total 9 47.3103 R
2
0.9222
2
2.3539 0.4601
entonces el modelo ajustado es:
E[y] = y = 3,4267 3,9887x + 2,3539x
2
b) Ahora tomando en cuenta el centrar los datos el modelo a ajustar es:
y =
0
+
1
(x x) +
2
(x x)
2
+
Haciendo uso de SAS tenemos que la tabla del anova y los parametros estimados son:
FV GL SC CM Fcal P-valor Parametro Estimador SE
Regresion 2 47.3102 23.6550 1858613 < 0.0001
0
2.7644 0.0017
Error 7 0.0001 0.00001
1
2.8778 0.0016
Total 9 47.3103 R
2
0.999998
2
1.4945 0.0025
entonces el modelo ajustado es:
E[y] = y = 2.7644 + 2.8778(x 1.375) + 1.4945(x 1.375)
2
c) Ahora comparando los resultados obetenidos al ajustar ambos modelos podenemos ver que:
El CME del modelo con los datos centrados es considerablemente menor que en el que no
lo estan.
Podemos ver que R
2
considerablemente mayor en el modelo con los datos centrados.
Tambien podemor observar que SE(
1
) y SE(
2
) son notablemente menores en el modelo
con los datos centrados.
Considerando que el factor de agrandamiento de la varianza FAV = 1/(1 R
2
) muestra
multicolinealidad severa cuando este es mayor a 10. Podemos ver que los FAV son 500,000
y 2.8535 respectivamente, vemos que al central los datos la multicolinealidad es demasiado
severa en comparacin con el caso en que no se centran.
13
8. Al revisar el diagrama de dispersin (graco 4) se ve que se requieren dos lneas de regresin para
modelar bien estos datos, y que la ordenada al origen depende del tipo de herramienta que se
usa; en consecuencia, el modelo a ajustar sera:
y =
0
+
10
x
10
+
11
x
11
+ Donde x
11
=

1 Si es transmisin tipo A
0 Si es transmisin tipo M
Haciendo uso de SAS tenemos los siguientes resultados:
Fuente GL SC CM Fcal P-valor
Modelo 2 893.575364 446.787682 37.67 < ,0001
Error 29 343.968723 11.860990
Total correcto 31 1237.544088 R
2
0.72205
Parmetro Estimacin SE t
0
P-valor Invervalo de conanza (95 %)

0
38.6139 2.5797 14.97 < ,0001 33.3379 43.8899

10
-0.0047 0.0009 -5.17 < ,0001 -6.2612 1.2585

11
-2.5014 1.8384 -1.36 0.1841 -0.0065 -0.0028
Con lo anterior tenemos que el modelo ajustado es :
y =

38,6139 0,0047x
10
Si x
11
= 0
36,1125 0,0047x
10
Si x
11
= 1
Con los resultados anteriores podemos concluir que si cambiamos de un auto con transmisin tipo
M a tipo A el rendimiento se vera perjudicado en un intervalo de [-0.0065,-0.0028].Considerando
la hiptesis H
0
:
11
= 0, dado que = 0,05 < 0,1841 H
0
no es rechazada con = 0,05. Portanto
11 =, por lo que el rendimiento de la gasolina no es esplocado signicativamente por el tipo
de transmisin.
Ahora, entonces incluyendo la interaccin entre el peso del vehculo y el tipo de transmisin el
modelo es:
y =
0
+
1
x
11
x
10
+
10
x
10
+
11
x
11
+
Haciendo uso de SAS tenemos los siguientes resultados:
Fuente GL SC CM Fcal P-valor
Modelo 3 1016.3810 338.7937 42.89 < ,0001
Error 228 221.1631 7.8987
Total correcto 31 1237.544088 R
2
0.8213
Parmetro Estimacin SE t
0
P-valor Invervalo de conanza (95 %)

0
51.9944 3.9934 13.02 < ,0001 43.8143 60.1745

11
-22.4408 5.2747 -4.25 0.0002 -33.2456 -11.6361

1
0.0068 0.0017 3.94 0.0005 0.0033 0.0104

10
-0.0099 0.0015 -6.54 < ,0001 -0.0130 -0.0068
Por lo que el modelo ajustado es:
14
y =

51,9944 0,0099x
10
Si x
11
= 0
29,5536 0,0031x
10
Si x
11
= 1
Con los resultados anteriores podemos concluir que si cambiamos de un auto con transmisin
tipo M a tipo A el rendimiento se vera perjudicado en un intervalo de [-33.2456,-11.6361]; ahora
entonces tambien podemos concluir que por cada libra disminuida en el peso de un auto con
transmisin tipo M y cambiar a un tipo A el rendimiento se vera mejorado en un intervalo de
[0.0.0033,0.0104]. Considerando los P-valores de la tabla anterior y con un = 0,05 podenos
concluir que
1
y
11
si contribuyen de manera signicativa para explicar el modelo. Al agregar
la iteracin a este modelo tambien podemos ver que R
2
aumenta signicativamente con el modelo
que no la tiene, al igual que tambien podemos que CME disminuye signicativamente en este
modelo, adems SE(
10
) tambien mejora. Por lo que podemos concluir que el tipo de transmisin
del auto si ayuda a explicar el rendimiento de la gasolina.
9. Considerando que el modelo de regresin es:
y =
0
+
5
x
5
+
7
x
7
+
8
x
8
+ Donde x
5
=

0 Si x 0
1 Si x > 0
Fuente GL SC CM Fcal P-valor
Modelo 3 193.2197 64.4066 11.56 < ,0001
Error 24 133.7446 5.5727
Total correcto 27 326.9643 R
2
0.5910
Parmetro Estimacin SE t
0
P-valor Invervalo de conanza (95 %)

0
19.3725 9.6140 2.02 0.0552 -0.4698 39.2147

5
1.5036 0.9435 1.59 0.1241 -0.4437 3.4509

7
0.0082 0.1184 0.07 0.9453 -0.2362 0.2526

8
-0.0064 0.0017 -3.77 0.0009 -0.001 -0.0029
Por lo que el modelo ajustado es:
y = 19,3725 + 1,5036x
5
+ 0,0082x
7
0,0064x
8
Con los resultados de anteriores y con un = 0,05 podemos concluir que
5
,
8
= 0 por lo que si
contribuyen de manera signicativa par la explicacin del modelo, mietreas que
7
= 0 por lo tanto
no contribuye de manera signicativa a la explicacin del modelo. Ademas tambien podemos concluir
que si el diferencial de perdidas de valon cambia de negativa o cero a positiva (x
5
) el nmero de juegos
ganados se vera afectado en un rango de [-0.4437,3.4509], se puede ver la mayor parte del intervalo
es positivo, por lo que se espera con mayor probabilidad que si este cambio ocurre, entonces el nmero
de juegos ganas se vera mejorado. Con estos podemos concluir aun mejor que el diferencial de juegos
ganados contribuye a explicar signicativamente el modelo.
15
10. Considerando que la variable respuesta y es binaria, consideremos en usar la regresin logstica
E[y
i
] =
i
= exp(X
t
)/(1 exp(X
t
)) y luego considerando = X
t
y utilizando la transfor-
macion = ln((1 )) (transformacin logit) podremos obtener el modelo lineal correspondiente.
Usando el procedimiento proc genmod de SAS tenemos los siguientes resultados:
Criterios para valorar la bondad de ajuste
Criterio DF Valor Valor/DF
Desviaci 18 20.0724 1.1151
Desviacin esca 18 20.0724 1.1151
Chi-cuadrado de Pe 18 21.5244 1.1958
Pearson X2 escala 18 21.5244 1.1958
Verosimilitud -10.0362
Anlisis de estimadores de parmetros
Cociente de verosimilitud 95 %
Parmetro DF Estimacin SE Lmites de conanza Chi-Sq Pr > ChiSq
Intercept 1 -3.6994 1.7121 -7.6310 -0.6759 4.67 0.0307
x 1 0.0003 0.0001 0.0001 0.0005 5.30 .0213
Escal 0 1.0000 0.0000 1.0000 1.0000
Con esto tenemos que el modelo de regresin logstica esta dado por:
E[y
i
] =
i
=
1
(1 exp(X
t
))
=
1
(1 e
(3,69940,0003x)
)
11. Considerando que el modelo de egresin logstica es E[y
i
] =
i
= exp(X
t
)/(1 exp(X
t
))
Usando el procedimiento proc genmod de SAS tenemos los siguientes resultados:
Criterios para valorar la bondad de ajuste
Criterio DF Valor Valor/DF
Desviaci 9 0.2943 0.0327
Desviacin esca 9 0.2943 0.0327
Chi-cuadrado de Pe 9 0.2943 0.0327
Pearson X2 escala 9 0.2943 0.0327
Verosimilitud -3375.6653
Anlisis de estimadores de parmetros
Cociente de verosimilitud 95 %
Parmetro DF Estimacin SE Lmites de conanza Chi-Sq Pr > ChiSq
Intercept 1 -2.0848 0.0804 -2.2434 -1.9282 672.39 <.0001
x 1 0.1357 0.0050 0.1261 0.1455 749.69 <.0001
Escal 0 1.0000 0.0000 1.0000 1.0000
Con esto tenemos que el modelo de regresin logstica esta dado por:
E[y
i
] =
i
=
1
(1 exp(X
t
))
=
1
(1 e
(0,1357+2,0849x)
)
16

S-ar putea să vă placă și