Sunteți pe pagina 1din 18

TALLER DE SEMINARIO I

CASOS
PRESENTADO POR: ANDRES DAVID ALMANZA CASTRO
GRUPO: 3
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,870551245
Coeficiente de determinación R^2 0,75785947
R^2 ajustado 0,751487351
Error típico 5,093596038
Observaciones 40
40 45 50 55 60 65 70 75 80
ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 3085,700617 3085,700617 118,9336615 2,90585E-13
Residuos 38 985,8993826 25,9447206
Total 39 4071,6

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 127,636359 5,472944335 23,3213333 4,04659E-24 116,5569624 138,7157556 116,5569624 138,7157556
Mil as por galon -12,54757896 1,15055542 -10,90567107 2,90585E-13 -14,87675664 -10,21840128 -14,87675664 -10,21840128
Análisis de los residuales

Observación Pronóstico Peso Residuos Residuos estándares


1 61,13419052 -1,13419052 -0,225580741
2 64,89846421 -9,898464207 -1,96871941
3 77,44604317 2,553956835 0,507960052
4 74,93652737 -2,936527374 -0,584050042
5 71,17225369 3,827746314 0,761305826
6 63,64370631 -0,643706312 -0,12802765
7 37,2937905 10,7062095 2,129373003
8 78,70080106 0,299198939 0,059508096
9 79,95555896 2,044441043 0,406621743
10 72,42701158 -0,427011582 -0,084928932
11 66,1532221 -8,153222103 -1,621605764
12 63,64370631 -3,643706312 -0,724701852
13 71,17225369 2,827746314 0,562414425
14 73,68176948 6,318230522 1,256641718
15 53,60564315 -0,605643145 -0,120457213
16 58,62467473 2,375325272 0,47243177
17 83,71983264 -3,719832645 -0,739842725
18 76,19128527 -8,19128527 -1,6291762
19 71,17225369 4,827746314 0,960197226
20 72,42701158 2,572988418 0,51174527
21 64,89846421 -1,898464207 -0,377588205
22 66,1532221 -1,153222103 -0,229365959
23 69,91749579 2,082504209 0,414192179
24 77,44604317 3,553956835 0,706851453
25 61,13419052 2,86580948 0,569984861
26 72,42701158 5,572988418 1,108419472
27 66,1532221 -4,153222103 -0,826040161
28 79,95555896 3,044441043 0,605513143
29 76,19128527 2,80871473 0,558629207
30 67,40798 -6,407979999 -1,274492117
31 64,89846421 -1,898464207 -0,377588205
32 66,1532221 -4,153222103 -0,826040161
33 69,91749579 7,082504209 1,408649182
34 71,17225369 4,827746314 0,960197226
35 56,11515894 -5,115158937 -1,017361125
36 74,93652737 -0,936527374 -0,186267241
37 73,68176948 4,318230522 0,858858917
38 51,09612735 -1,096127353 -0,218010305
39 73,68176948 5,318230522 1,057750317
40 68,66273789 -13,66273789 -2,717401077
Peso vs Millas por galon
7.5
7
6.5
6
5.5 f(x) = − 0.06 x + 8.85
R² = 0.76
5
4.5
4
3.5
3
40 45 50 55 60 65 70 75 80 85 90

En el modelo de regresión lineal se tomó como variable predictora el peso con el cual se
cargan los camiones para su transporte y variable de respuesta el consumo de
combustible medidos en millas por galón en este modelo se muestra que dicha variable
explica el 75,1 % del consumo, el cual se vislumbra en el coeficiente de determinación R2,
también cabe mencionar que dicho modelo es significativo.
Los automóviles tienen un consumo base de 8.8484 millas por galón y por cada kilo libras
que se le agregada generara una disminución del rendimiento de 0,060399.
El análisis nos ayuda a ver mediante su ecuación que el modelo es de carácter
decreciente, es decir la relación entre las millas por galón y el peso en los envíos es
inversamente proporcional. Esto es de vital importancia a la hora de pronosticar, ya que
conociendo el comportamiento de cada variable sabremos optimizar el pronóstico para
poder conseguir un modelo que se ajuste a las necesidades de la demanda.
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,800159664
Coeficiente de determinación R^2 0,640255489
R^2 ajustado 0,623124798
Error típico 59,37539993
Observaciones 23

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 131762,4082 131762,4082 37,3747613 4,57455E-06
Residuos 21 74034,20045 3525,438117
Total 22 205796,6087
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 551,2064805 22,8397802 24,13361581 8,4993E-17 503,7085574 598,7044036 503,7085574 598,7044036
x -8,877463983 1,452110631 -6,113490112 4,5746E-06 -11,89729335 -5,857634611 -11,89729335 -5,857634611

Diferencia de temperatura (x)


40
35
30
25
20 f(x) = − 0.07 x + 44.51
15 R² = 0.64
10
5
0
300 350 400 450 500 550 600 650

PREGUNTAS
1. ¿Cuántas unidades pronosticaría usted para un día en el cual la temperatura más
alta es de 89 grados Fahrenheit?
Y=552-8,91| (89-65) |= 338 productos
2. ¿Cuántas unidades pronosticaría usted para un día en el cual la temperatura más
alta es de 41 grados Fahrenheit?
Y=552-8,91| (65-41) |=347 productos
3. Con base en los resultados del análisis de regresión que se presentó antes, ¿qué
acción aconsejaría usted a Gene para incrementar la producción diaria?

Implementar un sistema de climatización en la planta productiva que garantice


una temperatura ideal para trabajar cuyo objetivo sea el de reducir la
variabilidad que se puede llegar a tener por este fenómeno.

4. ¿Cree usted que Gene ha desarrollado una herramienta de pronóstico efectiva?

Gene puede que este cometiendo un error dado que no tiene en cuenta la
relación de la temperatura en general con respecto a la productividad, esta
partió de una hipótesis la cual no fue probada con anterioridad por lo que el
modelo puede estar resultados sesgados además por uno de los dos extremos
(mucho calor o mucho frio). También puede ocurrir que sus hipótesis sean
parcialmente correctas puesto que el aumento o disminución de la temperatura
tenga un efecto negativo en la productividad, pero estos no la afecten en la
misma proporción.

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,926910161
Coeficiente de determinación R^2 0,859162447
R^2 ajustado 0,848328789
Error típico 1,108067942
Observaciones 15

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 97,37174399 97,37174399 79,3049266 6,78607E-07
Residuos 13 15,96158935 1,227814565
Total 14 113,3333333
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0% Superior 95,0%
Intercepción -4,276944787 1,116441126 -3,830873558 0,00208168 -6,688869202 -1,86502037 -6,688869202 -1,865020373
Edad 0,253792556 0,028498946 8,90533136 6,7861E-07 0,192224327 0,31536079 0,192224327 0,315360785
Resultados de datos de probabilidad

Percentil Faltas
3,333333333 2
10 2
16,66666667 3
23,33333333 3
30 3
36,66666667 4
43,33333333 4
50 5
56,66666667 5
63,33333333 6
70 7
76,66666667 7
83,33333333 8
90 9
96,66666667 12

Faltas vs Edad
70
60
f(x) = 3.39 x + 19.81
50 R² = 0.86
40
30
20
10
0
1 3 5 7 9 11 13
Gráfico de probabilidad normal
14
12
10
8
Faltas

6
4
2
0
0 20 40 60 80 100 120
Muestra percentil

PREGUNTAS
1. ¿Qué tan bien están correlacionados las faltas al trabajo y la edad? ¿Podría
generalizarse esta correlación para la fuerza laboral completa?
El modelo cuenta con un coeficiente de determinación del 86%, lo que significa
que explica muy bien la relación entre las variables edad y faltas laborales, de
modo que siempre y cuando la muestra sea representativa y no sesgada si podría
generalizar este modelo a lo demás.

2. ¿Cuál es la ecuación para pronosticar los días de ausentismo usando la edad como
variable de predicción?
Y= -4,276944787+0,253792556X
3. ¿Qué porcentaje de la variabilidad en días de ausencia se puede explicar al conocer
la edad del empleado?
El porcentaje de la variabilidad explicada mediante el modelo de la regresión es
del 86%

4. ¿Existe una relación significativa entre las faltas al trabajo y la edad? Al responder
esta pregunta use los procedimientos estadísticos pertinentes para fundamentar
su respuesta.
Según el modelo de regresión, el coeficiente de correlación entre las variables es
del 92,69% Además el modelo muestra significancia por los que las predicciones
realizadas con este modelo son bastante acertadas.

5. Suponga que una persona recién contratada tiene 24 años. ¿Cuántas faltas
pronosticaría usted en el caso de esta persona durante el año fiscal?
Y=-4,276944787+0,253792556(24) =1,81 aproximado a 2.

6. ¿Debe proceder Bill McGone a tomar una muestra más grande de los empleados
de la compañía con base en los resultados preliminares de su muestra?
Dado los resultados de este modelo preliminar, si debería implementarlo con el
fin de crear un modelo mucho más robusto usando una muestra más
representativa que valide la información en su totalidad para posteriormente
utilizarlo como herramienta de pronóstico.

7. ¿Se ha desarrollado un método efectivo de pronóstico?


Según los datos arrojados por el modelo podemos concluir que SI, sin embargo,
la población utilizada no es significativa teniendo en cuenta el volumen de
trabajadores que manejaría la empresa, por eso se aconseja proceder con un
segundo modelo usando un tamaño muestral mucho más grande como planea
McGone.
PREGUNTA
1. ¿Qué preguntas cree usted que le hará Judy a Ron?

• ¿Cómo podemos usar esta información?


• ¿Son confiables estas cifras?
• ¿Cuánta mejora obtendríamos con la aplicación de este modelo?
• ¿Qué tan pronto lo obtendríamos?
• ¿Cuál es el riesgo de pérdida?
PREGUNTAS
1. Desarrolle una ecuación de regresión múltiple usando la tasa de desempleo y la
temperatura promedio mensual para pronosticar las llamadas al servicio de
emergencias en el camino.
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,720977006
Coeficiente de determinación R^2 0,519807843
R^2 ajustado 0,502022948
Error típico 1,292221166
Observaciones 57
ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 97,61020504 48,80510252 29,22749057 2,50154E-09
Residuos 54 90,1711192 1,669835541
Total 56 187,7813242

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 27,20803767 1,828895888 14,87675589 9,51419E-21 23,54132218 30,8747532 23,54132218 30,87475316
Variable X 1 0,138649481 0,157194344 0,882025888 0,381672242 -0,176506204 0,45380517 -0,176506204 0,453805165
Variable X 2 -0,127511361 0,021314264 -5,982442552 1,81957E-07 -0,170243887 -0,08477883 -0,170243887 -0,084778834

Gráfico de probabilidad normal


30
25
20
15
Y

10
5
0
0 20 40 60 80 100 120
Muestra percentil

Ecuación: 27,2+x1*0,138-x2*0,127

2. Defina una nueva variable de temperatura y relaciónela con el servicio de emergencia


en el camino. Recuerde que la temperatura es una escala relativa y que la selección
del punto cero es arbitraria. Si los vehículos están diseñados para operar mejor a 65
grados Fahrenheit, entonces cada grado por arriba o por debajo de 65 grados debe
hacer que los vehículos operen menos confiablemente. Para llevar a cabo una
transformación de los datos de temperatura que simule este efecto, empiece por
sustraer 65 de los valores de temperatura promedio mensual. Esto reposiciona el
“cero” a 65 grados Fahrenheit. ¿Deben usarse los valores absolutos de esta nueva
variable de temperatura?
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,534044205
Coeficiente de determinación R^2 0,285203212
R^2 ajustado 0,258729257
Error típico 1,576596706
Observaciones 57

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 53,55583691 26,77791846 10,7729733 0,000115593
Residuos 54 134,2254873 2,485657173
Total 56 187,7813242

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 21,15477839 1,781558123 11,87431278 1,1091E-16 17,58296941 24,72658737 17,58296941 24,72658737
Variable X 1 0,410035642 0,185894699 2,205741447 0,03167814 0,03733921 0,782732073 0,03733921 0,782732073
Variable X 2 -0,045480457 0,018091698 -2,513885494 0,01495472 -0,081752127 -0,00920879 -0,081752127 -0,009208786

Variable X 2 Gráfico de los residuales


4
3
2
Residuos

1
0
-1 0 10 20 30 40 50 60 70 80
-2
-3
-4
Variable X 2

Gráfico de probabilidad normal


30
25
20
15
Y

10
5
0
0 20 40 60 80 100 120
Muestra percentil
3. Defina una nueva variable de tasa de desempleo y relaciónela con el servicio de
emergencia en el camino. Dé al desempleo un efecto retrasado en el servicio de
emergencia en el camino usando la tasa de desempleo para el mes: A. tres meses
antes del mes actual y B. 11 meses antes del mes actual de acuerdo con los datos de
la variable independiente de desempleo. ¿Qué modelo es mejor para pronosticar?
¿Los signos de los coeficientes de las variables independientes son los que usted
esperaría que fueran? ¿Los coeficientes de las variables independientes son
significativamente diferentes de cero?
A)
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,718923455
Coeficiente de determinación R^2 0,516850934
R^2 ajustado 0,498956525
Error típico 1,296193654
Observaciones 57

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 97,05495291 48,52747646 28,88337415 2,95251E-09
Residuos 54 90,72637134 1,680117988
Total 56 187,7813242

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 29,06064029 1,200199277 24,21317929 1,13457E-30 26,65438561 31,46689496 26,65438561 31,46689496
Variable X 1 -0,09982411 0,150026752 -0,6653754 0,508642544 -0,400609638 0,200961417 -0,400609638 0,200961417
Variable X 2 -0,134946878 0,01853662 -7,280015148 1,44586E-09 -0,172110564 -0,097783191 -0,172110564 -0,097783191

Gráfico de probabilidad normal


30
25
20
15
Y

10
5
0
0 20 40 60 80 100 120
Muestra percentil
B)
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,785933144
Coeficiente de determinación R^2 0,617690907
R^2 ajustado 0,60353131
Error típico 1,153019449
Observaciones 57

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 115,9908164 57,9954082 43,62348362 5,31123E-12
Residuos 54 71,79050784 1,329453849
Total 56 187,7813242

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 22,28263464 1,847024656 12,06406994 5,93117E-17 18,57957317 25,98569612 18,57957317 25,98569612
Variable X 1 0,643454126 0,16724189 3,847445921 0,000317543 0,308154325 0,978753926 0,308154325 0,978753926
Variable X 2 -0,091324163 0,020110721 -4,541068529 3,17636E-05 -0,131643731 -0,051004594 -0,131643731 -0,051004594

Gráfico de probabilidad normal


30
25
20
15
Y

10
5
0
0 20 40 60 80 100 120
Muestra percentil
4. Desarrolle una ecuación de regresión múltiple usando la variable de temperatura
promedio transformada creada en el paso 2 y la variable de desempleo retrasada
creada en el paso 3. ¿Es éste un buen modelo? ¿Se ha violado cualquiera de los
supuestos subyacentes?

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,724141109
Coeficiente de determinación R^2 0,524380346
R^2 ajustado 0,506764803
Error típico 1,286054031
Observaciones 57

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 98,46883579 49,2344179 29,7680494 1,93203E-09
Residuos 54 89,31248845 1,653934971
Total 56 187,7813242

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 17,37797023 1,405977809 12,36006011 2,2551E-17 14,55915444 20,19678602 14,55915444 20,19678602
Variable X 1 0,9482705 0,161521165 5,870874582 2,7448E-07 0,624440063 1,272100938 0,624440063 1,272100938
Variable X 2 -0,034095549 0,013940903 -2,445720236 0,01774615 -0,062045376 -0,006145721 -0,062045376 -0,006145721

Variable X 1 Curva de regresión ajustada


30
20
Y

10
0
2 3 4 5 6 7 8 9 10
Variable X 1

Y Pronóstico para Y
Variable X 2 Curva de regresión ajustada
30
Y 20
10
0
0 10 20 30 40 50 60 70 80
Variable X 2

Y Pronóstico para Y

CONCLUSIONES

Del modelo inicial, podemos percatarnos que existe un coeficiente de determinación


medio del 52%, significa que el modelo no explica satisfactoriamente la relación de las
variables significativas seleccionadas.

Luego, transformando la temperatura de los vehículos, los cuales están diseñados


para funcionar óptimamente a 65° Fahrenheit, nos deja ver que el coeficiente de
determinación es muy inferior al anterior con una caída hasta el 28%, dando a
entender que la temperatura de los vehículos tiene gran significancia dentro del
modelo y que valores originales son vitales.

Seguidamente, el modelo realizado con un factor de desempleo con retraso de 3 y 11


meses presento resultados interesantes. El modelo con 3 meses de retraso presento
una ligera disminución de su coeficiente de determinación respecto al original, dando
un 51%, esto ya nos deja entrever que con los datos adecuados se puede optimizar el
modelo. Después, del modelo con 11 meses de retraso se percibe la mayor mejora,
dado que su coeficiente de determinación es del 61%, siendo este valor el mayor
obtenido hasta el momento.

Por último, se realiza el modelado con las transformaciones en los valores de la


temperatura y el retraso a 11 meses, el cual fue el que presento los mejores
resultados y se obtuvo un coeficiente de determinación del 52,4%, lo cual no es una
mejora significativa respecto al modelo original y mucho menos de manera general.

De la labor realizada se puede concluir que las variables seleccionadas no poseen gran
significancia para el modelo dado que los coeficientes de determinación no pasan del
61% en donde un modelo optimo debe llegar a por lo menos un 80%, por ende, no es
conveniente aplicarlos para realizar un pronóstico efectivo para la compañía. Se
sugiere revisar los datos y el proceso y seleccionar mejores variables para obtener
mejores resultados de pronósticos.

S-ar putea să vă placă și