Documente Academic
Documente Profesional
Documente Cultură
Tarea 3
• La presente tarea debe ser realizada en computador. Deben tener en cuenta que la
presentación del informe puede influir en la calificación final.
• El informe debe ser presentado en hojas blancas, numeradas, impresión por ambos lados y
en la parte superior de cada hoja se debe especificar el nombre y código de cada estudiante.
• La primera hoja de su tarea debe contener el formato que se presenta en la siguiente página.
• Debe respetar el horario y el lugar de entrega de las tareas. Las tareas entregadas
después del plazo establecido no serán recibidas y su calificación será de cero (0).
• Las tareas que incumplan alguna de las normas de formato tendrán una penalización de
cero punto cinco (0.5) sobre la nota final de la tarea.
Forma de entrega
Fecha de entrega
La fecha límite de entrega es el viernes 22 de julio de 2016, antes de las 2:00 p.m.
1
Yerro que por inadvertencia deja escapar quien escribe o habla. (Definición según La Real Academia de la Lengua Española)
Integrante 1: Código: Sección:
Integrante 2: Código: Sección:
TOTAL /91
NOTA /5
Punto 1.
A continuación se muestra una breve descripción de las variables que fueron recolectadas para cada
una de las empresas:
Clases Frecuencia
Financiero 8
Energético 6
Petrolero 5
Cemento 3
Inversiones 3
Construcción 2
Empaques 2
Aeronáutico 1
Alimentación 1
Comercio 1
Comunicación 1
Minero 1
Textil 1
Empresas por Sector
9
8
Frecuencia 7
6
5
4
3
2
1
0
De acuerdo con el histograma obtenido, los tres sectores con mayor frecuencia en la muestra de
empresas que transan en la Bolsa de Valores de Colombia son: financiero, energético y petrolero.
Estos tres sectores comprenden 19 empresas de las 35 evaluadas en la muestra. Esto
corresponde a un porcentaje aproximado de participación del 54.3%. Por otra parte, los sectores
con menor frecuencia son el aeronáutico, alimentación, comercio, comunicación, minero y textil.
Estos sectores representan 6 empresas de las 35 de la muestra, lo que corresponde a un
porcentaje aproximado de 17.1%.
b. (4 puntos) Construya un diagrama de caja que represente la distribución del precio promedio
de la acción de las 35 empresas de la muestra. Comente sobre todos los elementos que
representa el diagrama de caja.
Opción 1:
70,000
60,000
50,000
40,000
30,000
20,000
10,000
-
19/07/16
Q1 MIN MAX Q3
El diagrama de caja muestra los valores mínimo y máximo de la muestra, además de los cuartiles
25, 50, 75 y lo que se podrían considerar como datos atípicos. En este caso, se puede observar
que el rango de la muestra de precios es bastante amplio. Desde empresas con precios bastante
bajos, como Acerías Paz del Río y Fabricato ($7.5 y $14.3 respectivamente), hasta empresas con
precios altos como PREC y Corficol ($38,580 y $38,200 respectivamente). Esto se representa en
los bigotes del gráfico. Por otra parte, el gráfico muestra que, el 75% de los precios están por
debajo de los $25,000, el 50% por debajo de los $5,000 pesos y finalmente el 25% por debajo de
los $1,500. Esto ayuda a entender que, a pesar del rango tan amplio de precios, la mitad de estas
empresas tienen un precio menor a los $4,550 pesos. Finalmente, el gráfico también identifica
un dato atípico, representado por la observación 24. Este dato de precio corresponde al Banco
de Bogotá, cuyo precio según la muestra es de $59,880, el cual está muy por encima de los precios
de las otras empresas.
c. (2 puntos) Los inversionistas están interesados en conocer cuáles son los tres sectores que
prometen, en promedio, mayores dividendos. Para ello construya y presente una tabla
dinámica que le permita comparar cada sector en términos de sus dividendos promedio.
A continuación se presenta la tabla dinámica que relaciona el promedio de dividendos por sector.
Los sectores que prometen mayores dividendos en promedio son: el sector comercial, el
alimenticio y el financiero.
d. (4 puntos) Presente la tabla de percentiles del precio promedio de las acciones de las 35
empresas.
ii. ¿Cuál es el precio de la acción y los dividendos asociados con esta compañía?
yg + yi
µg =
2
µi = Y
Para determinar cuál es el estimador que se debe utilizar, entre los dos anteriores, la persona
encargada propone que se realicen los siguientes análisis sobre los estimadores.
Para determinar cuál estimador es el más eficiente se comparar sus varianzas, aquel que tenga
menor varianza será el más eficiente:
σi 1 i
< σ para n mayores a 2.
n 2
1 i σi
σ < para n menores a 2.
2 n
Para tamaños muestrales mayores a 2, el estimador µji tiene menor varianza, es decir, es más
eficiente que el estimador µjg , en el caso en donde el tamaño de la muestra sea menor a 2, se
considera que el estimador µjg tiene menor varianza, por lo tanto será más eficiente.
Punto 3.
1 ~
g •~€ ‚
f x; µ, σi = e i • −∞<x<∞
σ 2π
u(xr − µ) = u xr − nµ = 0
rtg rtg
∑srtg xr
µj = = X
n
Se despeja el parámetro σi :
s
n 1
− + • u(xr − µ)i = 0
σ σ
rtg
s
n 1
= u(xr − µ)i
σ σ•
rtg
σ• ∑srtg(xr − µ)i
=
σ n
∑srtg(xr − µj)i
•i =
σ
n
Punto 4.
El consumo de combustible de Volkswagen es una variable aleatoria X con distribución N(µ’ , σi’ ). El
consumo de combustible de Toyota es una variable aleatoria Y con distribución N(µ“ , σi“ ). X y Y son
variables aleatorias independientes entre sí. Se usaron 40 automóviles Volkswagen y 35 Toyota en
pruebas de ruta similares. El promedio de combustible de los 40 automóviles Volkswagen fue 14.3
kilómetros por litro, con una desviación estándar muestral de 1 kilómetro por litro; el promedio de
consumo de combustible de los 35 vehículos Toyota fue de 14 kilómetros por litro, con una desviación
estándar muestral de 1.5 kilómetros por litro.
a. (2 puntos) Realice un intervalo de confianza del 90% para la media del consumo de
combustible de Volkswagen.
Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:
Variables Aleatorias:
X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.
Supuestos:
X → Normal(µ’ , σi’ )
Varianza desconocida.
Información muestral:
n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i
Puesto que la varianza poblacional es desconocida, se utilizaría un estadístico con distribución t,
sin embargo, dado que el tamaño muestral de las dos poblaciones es mayor a 30, por el Teorema
del Límite Central, se puede utilizar un estadístico con distribución normal estándar y la varianza
muestral. Por lo tanto, el intervalo de confianza adecuado es:
S
p±z š ’ ›
IC–—% (µ’ ) = ˜X ‡g~ ‰ n
i √ ’
1
IC–—% (µ’ ) = œ14.3 ± z‡g~—.g‰ • ž, donde z(—.–Ÿ) = 1.64
i 40
IC–—% (µ’ ) = [14.04; 14.56]
Con un 90% de confianza, el consumo promedio de combustible de los automóviles Volkswagen
se encuentra entre 14.04 y 14.56 km/lt.
b. (3 puntos) Realice un intervalo de confianza del 99% para la diferencia de las medias de
consumo de combustible de las dos marcas (µ’ − µ“ ). Asuma que las varianzas
poblacionales son iguales. De acuerdo con el IC construido, indique si el consumo de
combustible de los dos automóviles es el mismo, o si alguno de los dos presenta un mayor
consumo.
Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:
Variables Aleatorias:
X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.
Y: Consumo de combustible de un automóvil Toyota en kilómetros por litro.
Supuestos:
X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
σi’ y σi“ Desconocidas pero se asumen iguales.
Información muestral:
n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i
n“ = 35 automóviles
p = 14 km/lt
Y
S“i = 2.25 kmi /lt i
Puesto que la varianza poblacional es desconocida, se utilizaría un estadístico con distribución t,
sin embargo, dado que el tamaño muestral de las dos poblaciones es mayor a 30, por el Teorema
del Límite Central, se puede utilizar un estadístico con distribución normal estándar y la varianza
muestral. Por lo tanto, el intervalo de confianza adecuado es:
Si Si
p ± z š • ’ + “ž
p−Y
IC––% (µ’ − µ“ ) = œX ‡g~ ‰ n n“
i ’
1 2.25
IC––% (µ’ − µ“ ) = œ14.3 − 14 ± z‡g~—.—g‰ • + ž , donde z(—.––Ÿ) = 2.58
i 40 35
IC––% (µ’ − µ“ ) = [−0.47; 1.07]
Dado que el 0 se encuentra en el intervalo, se puede concluir que con un 99% de confianza, el
consumo promedio de combustible de los automóviles de las dos marcas (Volkswagen y Toyota),
es el mismo.
c. (3 puntos) La compañía está interesada en conocer si la varianza del consumo de
combustible de las dos marcas de automóvil es la misma. Realice un intervalo de confianza
del 95% para la razón de varianzas σi’ σi“ . Determine si el supuesto de igualdad de
varianzas se mantiene.
Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:
Variables Aleatorias:
X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.
Y: Consumo de combustible de un automóvil Toyota en kilómetros por litro.
Supuestos:
X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Información muestral:
n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i
n“ = 35 automóviles
p = 14 km/lt
Y
S“i = 2.25 kmi /lt i
Puesto que se quiere calcular el intervalo de confianza para el cociente de varianzas, el
estadístico que se utiliza y su distribución es:
S“i σi’
→ F(n“ − 1, n’ − 1)
S’i σi“
Por lo tanto, el intervalo de confianza apropiado es el siguiente:
σi’ S’i S’i
IC(–Ÿ%) l i m = i F š , iF š £
σ“ S“ Š i,(s¡ ~g),(s¢ ~g)‹ S“ Šg~ i,(s¡ ~g),(s¢ ~g)‹
Se calculan los valores de las F:
1 1
F(—.—iŸ,•¤,•–) = = = 0.513
F(—.–¥Ÿ,•–,•¤) 1.95
F(—.–¥Ÿ,•¤,•–) = 1.922
Se reemplazan los valores en el intervalo de confianza:
σi’ 1 1
IC(–Ÿ%) l i m = ˜ (0.513), (1.922)›
σ“ 2.25 2.25
σi’
IC(–Ÿ%) l i m = [0.228, 0.854]
σ“
Dado que el 1 no se encuentra en el intervalo de confianza, con una confianza del 95%, las
varianzas del consumo de combustible de los automóviles de las dos marcas no son iguales.
Gocars también está interesada en conocer la proporción de automóviles que presentan un consumo
de gasolina mayor a 14.6 kilómetros por litro. En el experimento realizado, se encontró que de los
40 automóviles Volkswagen, 14 presentaron un consumo mayor a 14.6 kilómetros por litro. De los
35 vehículos Toyota, 10 presentaron un consumo mayor a 14.6 kilómetros por litro.
d. (3 puntos) Realice un intervalo de confianza del 92% para la diferencia de las proporciones
en el consumo de gasolina entre las dos marcas de automóviles para un consumo mayor a
14.6 kilómetros por litro (p’ − p“ ). Determine si la proporción automóviles que presentan un
consumo mayor a 14.6 kilómetros es el mismo en las dos marcas de automóviles.
Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:
Variables Aleatorias:
X: 1 si el automóvil Volkswagen presenta un consumo mayor a 14.6 kilómetros por litro, 0 de lo
contrario.
Y: 1 si el automóvil Toyota presenta un consumo mayor a 14.6 kilómetros por litro, 0 de lo
contrario.
Supuestos:
X → Bernoulli(p’ )
Y → Bernoulli(p“ )
Información muestral:
n’ = 40 automóviles
x = 14 automóviles
n“ = 35 automóviles
y = 10 automóviles
Dado que los tamaños de las muestras son mayores a 30, por el TLC, se asume que la suma de las
variables Bernoulli da como resultado una variable con distribución Normal, tanto para X como
para Y, por lo tanto, el estadístico a utilizar tendrá una distribución Normal Estándar. Según lo
anterior, el intervalo de confianza apropiado es:
pj’ (1 − pj’ ) pj“ (1 − pj“ )
IC(–i%) (p’ − p“ ) = pj’ − pj“ ± Z‡g~š‰ • +
i n’ n“
En primer lugar, se calculan las proporciones de cada muestra, las cuales serán los estimadores:
14 10
pj’ = = 0.35, pj“ = = 0.286
40 35
Se obtiene el valor de Z‡g~§‰ :
‚
Z(—.–¨) = 1.75
Reemplazando valores se obtiene:
0.35(1 − 0.35) 0.286(1 − 0.286)
IC(–i%) (p’ − p“ ) = 0.35 − 0.286 ± (1.75) ∗ • +
40 35
IC(––%)(p’ − p“ ) = [−0.124,0.252]
Dado que el 0 se encuentra en el intervalo, con una confianza del 92%, las proporciones del
consumo de combustible entre las dos marcas para un consumo mayor a 14.6 kilómetros son
iguales.
Punto 5.
Para contrastar las dos hipótesis el ingeniero ha diseñado las siguientes pruebas:
• Prueba 1: tomar una muestra de 10 vigas, si hay una o menos vigas defectuosas no se
rechaza la hipótesis nula.
• Prueba 2: tomar una muestra de 12 vigas, si hay dos o menos vigas defectuosas no se
rechaza la hipótesis nula.
a. (2 puntos) Calcule la probabilidad de cometer error tipo I para las anteriores pruebas.
En primer lugar se definen las variables aleatorias, una relacionada con cada prueba:
X: número de vigas defectuosas en una muestra de diez.
X → Binomial(N = 10, p)
Y: número de vigas defectuosas en una muestra de doce.
Y → Binomial(N = 12, p)
c. (2 puntos) Si se desea que la probabilidad de cometer error tipo I sea máximo del 10% ¿cuál
prueba debe seleccionarse?
Se debe seleccionar la prueba dos, dado que el error tipo I de esta prueba no supera la restricción
del 10%.
Punto 6.
Sucursal 1 Sucursal 2
Media 3.7 3.3
Desviación 1.2 1.5
Tamaño de
13 18
la muestra
a. (3 puntos) Hasta el momento se asume que la sucursal 1 tiene una media de ventas de 3.9
miles de dólares. Plantee una prueba de hipótesis que le permita evaluar esta afirmación.
Para esto especifique la prueba de hipótesis nula y alterna, estadístico de prueba, región de
rechazo y concluya. Use un nivel de significancia del 1%.
Se plantea la hipótesis nula y alterna, en este caso, dado que en cuanto a parámetros se trabaja
con la varianza, la hipótesis nula y alterna se realizarán con respecto a la varianza dada una
desviación de 1.6:
H— : σi“ = 2.56
Hg: σi“ < 2.56
Supuestos:
X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.
Se define el estadístico de prueba, el cual, al ser relacionado con la varianza, se distribuirá chi-
cuadrado con n-1 grados de libertad:
(n“ − 1)S“i (18 − 1)1.5i
Estadístico de Prueba (EP) = = = 14.94
σi“ 2.56
Se construye la región de rechazo teniendo en cuenta la distribución del estadístico de prueba
(chi-cuadrado):
Se rechazará la hipótesis nula si: EP < χi(š,s~g)
EP < χi(—.g,g¥)
χiµ¶í·rµ¸ = χi (—.g,g¥) = 10.09
Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la desviación estándar del volumen de ventas
de la sucursal 2 es inferior a 1.6 miles de dólares.
c. (3 puntos) La junta directiva asegura que la media de ventas de la sucursal 1 es mayor a la
media de ventas de la sucursal 2 en 0.2 miles. Plantee una prueba de hipótesis que le
permita evaluar esta afirmación. Para esto especifique la prueba de hipótesis nula y alterna,
estadístico de prueba, región de rechazo y concluya. Use un nivel de significancia del 5% y
suponga que las varianzas poblacionales son desconocidas pero iguales.
Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la media de ventas de la sucursal 1 es mayor
a la media de ventas de la sucursal 2 en 0.2 miles de millones.
d. (4 puntos) La junta directiva esta interesada en conocer si existe diferencia en la varianza
de las ventas generadas por las dos sucursales σi“ σi’ . Plantee una prueba de hipótesis
que le permita evaluar esta afirmación. Para esto especifique la prueba de hipótesis nula y
alterna, estadístico de prueba, región de rechazo y concluya. Use un nivel de significancia
del 5%.
Se plantea la hipótesis nula y la alterna:
H— : σi“ ⁄σi’ = 1
Hg : σi“ ⁄σi’ ≠ 1
Supuestos:
X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.
El estadístico de prueba para el cociente de varianzas tiene una distribución F y es el siguiente:
S“i 1.5i
Estadístico de Prueba (EP) = i = = 1.56
S’ 1.2i
Se rechazará la hipótesis nula si cumple alguna de las siguientes:
EP < F š , donde F(—.—iŸ,gi,g¥) = 0.32
Ši ,(s¢~g),(s¡ ~g)‹
EP > F š , donde F(—.–¥Ÿ,gi,g¥) = 2.825
Šg~ i ,(s¢ ~g),(s¡ ~g)‹
0.32 2.825
Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que las varianzas de las ventas generadas por las
dos sucursales son diferentes.
La compañía NY ha llevado un registro histórico mes a mes para analizar cuál de las dos sucursales
ha generado mayores ventas. La junta directiva está interesada en realizar un análisis sobre la
proporción de meses en los que una sucursal genera más ventas. Para esto tomó una muestra
aleatoria de 15 meses, obteniendo que en 10 de esos 15 meses, la sucursal 1 generó un mayor
volumen de ventas que la sucursal 2.
e. (4 puntos) La junta especificó que el 60% de las veces la sucursal que genera mayores
ingresos es la sucursal 1. Plantee una prueba de hipótesis que le permita evaluar esta
afirmación. Para esto especifique la prueba de hipótesis nula y alterna, estadístico de
prueba, región de rechazo y concluya. Use un nivel de significancia del 10%.
Dado que en este caso se realiza una afirmación sobre la proporción, se debe definir la variable
aleatoria adecuada, en este caso específico, se asume que cada mes, la variable aleatoria
representa si la sucursal 1 tuvo mayores ventas que la sucursal 2, o no, de esta manera, la
variable resultante sería la suma de 15 variables Bernoulli (una por cada mes), la cual, para este
caso específico, se asume que sigue una distribución Normal:
Por lo tanto, se establecen las hipótesis nula y alterna, para el parámetro p•
H— : p’ = 0.6
Hg: p’ ≠ 0.6
Se construye el estadístico adecuado para la hipótesis de una proporción, el cual tiene
distribución normal estándar:
pj − p’ x 10
Estadístico de Prueba (EP) = , donde pj = = = 0.67
p (1 − p’ ) n ’ 15
º ’
n’
0.67 − 0.6
Estadístico de Prueba (EP) = = 0.55
º0.6 ∗ (1 − 0.6)
15
Se rechazará la hipótesis nula si cumple alguna de las siguientes:
EP < −Z‡g~š‰ , donde − Z—.–Ÿ = −1.64
i
EP > Z‡g~š‰ , donde Z—.–Ÿ = 1.64
i
Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la proporción de meses en las que la sucursal
1 genera mayores ingresos es diferente de 0.6 con un nivel de confianza del 90%.
Punto 7.
MiBanco es una entidad bancaria que actualmente desea realizar mejoras en la calidad del servicio
prestado a sus clientes. Para ello, se decidió iniciar un estudio en una de las sucursales, que se
caracteriza por las constantes quejas que realizan los usuarios por el tiempo que les toma realizar
sus operaciones financieras en el banco.
El ingeniero encargado de identificar las posibles mejoras ha definido, como primera tarea, identificar
la distribución del tiempo, en minutos, que le toma a un cajero atender la solicitud de un cliente. Para
lo anterior, el ingeniero cuenta con los registros de los últimos 100 clientes atendidos y de sus
respectivos tiempos de servicio. Estos datos están disponibles en el archivo de Excel que acompaña
la tarea en la hoja ‘Tiempos’.
A partir del histograma de datos que realizó el ingeniero, él piensa que la distribución del tiempo que
tarda un cliente en ser atendido por el cajero se asemeja a la de una distribución exponencial, sin
embargo, él sabe que es conveniente efectuar una prueba estadística para comprobar si esa es la
distribución más apropiada para representar los datos obtenidos.
De acuerdo a lo anterior, realice una prueba de bondad de ajuste Chi-Cuadrado que le permita al
ingeniero probar si el tiempo de atención de un cajero se distribuye como una variable aleatoria
exponencial. Para ello realice los siguientes literales.
a. (2 puntos) Plantee la hipótesis nula e hipótesis alterna de la prueba que debe realizar el
ingeniero.
Dado que el ingeniero desea probar si el tiempo de atención de un cajero se distribuye como una
variable aleatoria exponencial, las hipótesis nula y alterna son las siguientes:
H— : El tiempo de atención de un cajero sigue una distribución exponencial.
H½ : El tiempo de atención de un cajero no se distribuye como una exponencial.
En primer lugar se debe estimar el parámetro λ de esta distribución. Se tiene en cuenta que λ es
una tasa, por lo tanto, sus unidades son (# de unidades/tiempo), dado que los datos relacionan
el tiempo de atención de un cajero por cliente, las unidades de λ serán (# de clientes/tiempo),
donde el # de clientes será 1, puesto que es por cada cliente, y el tiempo será el tiempo promedio
de atención de un cliente, el cual, obtenido de la muestra es de 4.82. Por lo tanto la tasa estimada
es igual a:
1
λÀ = = 0.207
4.82
Sea X el tiempo de atención de un cliente. X es una variable aleatoria exponencial, para la cual se
conoce que su función de probabilidad acumulada está dada por:
F’ (x) = 1 − e~Á•
Dado que son 8 clases equiprobables, la probabilidad de cada clase será 1/8. Teniendo en cuenta
lo anterior, se calculan los límites inferior y superior de cada clase despejando x de la función de
probabilidad acumulada:
ln(1 − p)
x= , donde p = F’ (x) y λ = λÀ = 0.207
−λ
Con esta última expresión se calculan los límites de las distintas clases, a manera de ejemplo se
presenta el cálculo detallado de los límites de la primera y segunda clase:
Dado que cada clase acumula una probabilidad de 1/8, dicha probabilidad se puede expresar
como:
1
PnxÂsÃĶr¸¶ ≤ X ≤ xÅƹĶr¸¶ o =
8
1
PnX ≤ xÅƹĶr¸¶ o − P(X ≤ xÂsÃĶr¸¶ ) =
8
Dado que X se distribuye exponencial, se despeja la x de la función de probabilidad acumulada:
ln(1 − p)
xÂsÃĶr¸¶ =
−λ
ln(1 − p)
xÅƹĶr¸¶ =
−λ
Teniendo en cuenta que es acumulada, en el límite superior habrá acumulado 1/8 de
probabilidad, y dado que es la primera clase, en el límite inferior habrá acumulado 0 de
probabilidad, esos serán los valores de p en cada uno:
ln(1 − 0)
xÂsÃĶr¸¶ = = 0
−2.07
ln(1 − 1/8)
xÅƹĶr¸¶ = = 0.644
−2.07
Para la segunda clase, el límite inferior habrá acumulado 1/8 de probabilidad y el superior 1/4
de probabilidad, se calculan los límites con dichos valores de p:
ln(1 − 1/8)
xÂsÃĶr¸¶ = = 0.644
−2.07
ln(1 − 1/4)
xÅƹĶr¸¶ = = 1.387
−2.07
Dada la información anterior se calculan los límites de las 8 clases, de manera que cada uno
acumule una probabilidad de 1/8. Una vez obtenidos los límites, se obtiene la frecuencia
observada, con ayuda de la herramienta “Histograma” del complemento “Análisis de Datos” de
Excel:
Clase Frecuencia
1 14
2 18
3 15
4 10
5 5
6 9
7 15
8 14
Dado lo anterior, se calcula la frecuencia esperada como npr en donde n será el tamaño muestral
(100) y pr será la probabilidad que acumula caca clase, en este caso 1/8 para cada una, por lo
tanto se obtendrá la misma frecuencia observada para cada clase:
1
npr = 100 ∗ = 12.5
8
A continuación se presenta la tabla donde se relaciona todo lo anteriormente calculado y se
construye el estadístico de prueba:
Probabilidad Límite Límite 𝑿𝒊 − 𝒏𝒑𝒊 𝟐
Clase 𝒑𝒊 𝑿𝒊 𝒏𝒑𝒊
Acumulada Inferior Superior 𝒏𝒑𝒊
(𝑿𝒊 ~𝒏𝒑𝒊 )𝟐
Estadístico de prueba (EP) se calcula como la sumatoria del factor obtenido para cada
𝒏𝒑𝒊
clase i, su distribución será chi-cuadrado con gl grados de libertad, en donde gl se calcula como
la diferencia entre k número de clases, r parámetros estimados en la distribución y 1:
Ì
(X r − npr )i i
EP = u ~χÎÏ
npr
rtg
Parámetros estimados (r): La distribución exponencial sólo tiene un parámetro (lambda):
g
λÀ = ¤.Ìi = 0.207
Por lo tanto, la cantidad de parámetros estimado será r=1.
Con lo anterior se calculan los grados de libertad:
Grados libertad = k − r − 1 = 8 − 1 − 1 = 6
c. (2 puntos) Si se ha definido un nivel de significancia del 10%, ¿cuál es la región critica de
esta prueba?
La región crítica de esta prueba estará determinada por una distribución Chi-Cuadrado con 6
grados de libertad y 10% de significancia, por lo tanto:
Se rechazar la hipótesis nula si:
EP > χi(g~š,ÎÏ)
EP > χi(—.–,¨)
EP > 10.645
EP > 10.645
No cumple que 9.76 > 10.645, por lo tanto no se rechaza la hipótesis nula:
Debido a que el estadístico de prueba no cae en la región de rechazo, no se rechaza la hipótesis
nula. En consecuencia, se concluye que no existe evidencia estadística para afirmar que los datos
no posean una distribución exponencial con tasa 0.207 clientes/min.
e. (3 puntos) Utilice Crystal Ball para verificar los resultados obtenidos en el literal anterior.
Se puede observar que el p-value calculado por el software es mayor al nivel de significancia
especificado. Por lo tanto, no se rechaza la hipótesis nula y se concluye que no existe evidencia
estadística para afirmar que los datos no posean una distribución exponencial con tasa 0.207
clientes/min.
Punto 8.
Michael B., que es el gerente administrativo de la cadena de restaurantes Croq’Pain, tiene la tarea
de formular un modelo que sirva como apoyo para tomar la decisión de elegir la ubicación de las
nuevas sedes del restaurante. Para este propósito reunió información de las variables que se listan
a continuación, en cada una de las sedes que actualmente operan.
Variable Descripción
Utilidad (Y): Utilidades obtenidas en las sucursales de Croq’Pain, en miles de dólares.
Capital invertido en la tienda. Costo del local más el costo de los equipos,
Capital (X1):
en miles de dólares.
2
Tamaño (X2): Tamaño de la tienda en m .
nEmpl (X3): Número de empleados de la tienda.
PobTotal (X4): Población total en un radio de 3 km de la tienda.
Ingreso (X5): Ingreso promedio en el vecindario donde se ubica la tienda.
Número de establecimientos que se consideran competencia directa de
Comp. Dir. (X6):
Croq’Pain.
Número de establecimientos que no se consideran competencia directa de
Comp. No Dir. (X7):
Croq’Pain.
No Rest. (X8): Número de establecimientos que no son restaurantes.
Renta (X9): Costo mensual de la renta que paga Croq’Pain.
ICV (X10): Costo de vida promedio.
En el archivo adjunto ‘CroqPain.xlsx’ se encuentran los datos recolectados para las 60 sucursales
que operan actualmente. De acuerdo con la información anterior, resuelva cada uno de los literales
que se presentan a continuación:
a. (1 punto) Plantee un modelo de regresión lineal múltiple que le permita explicar la variable
Utilidad a partir de todas las variables mencionadas previamente, esto es, la ecuación del
modelo.
Se construye el modelo de regresión lineal múltiple teniendo en cuenta que cada variable tendrá
su coeficiente βÀr y el intercepto βÀ— :
yj = βÀ— + βÀgxg + βÀixi + βÀ•x• + βÀ¤x¤ + βÀŸxŸ + βÀ ¨x¨ + βÀ ¥x¥ + βÀÌ xÌ + βÀ– x– + βÀg—xg—
b. (4 puntos) Utilice SPSS para estimar los parámetros del modelo, mencione las variables
2
significativas individualmente que explican a la variable Utilidad e interprete el R . Utilice un nivel
de significancia del 5%.
c. (5 puntos) Realice una interpretación de cada uno de los coeficientes que resultaron significativos
en el literal anterior, en términos del problema.
Hipótesis para la significancia global, se define como hipótesis nula cuando todos los betas son
iguales a 0, y como alterna, cuando por lo menos uno es diferente de 0:
H— : βr = 0, ∀ i ∈ {1, … ,10}
Hg : al menos un βr diferente de cero
Estadístico de prueba:
SCR/q 419341.1/10
Estadístico de prueba(EP) = = = 28.21
SCE/(n − 1 − q) 72831.53/(60 − 10 − 1)
Se obtiene la región de rechazo dado que la distribución del estadístico es F:
F(g~š,Õ,s~g~Õ) = F(—.–Ÿ,g—,¤–) = 2.03
Se rechaza la hipótesis nula si:
EP > F(g~š,Õ,s~g~Õ)
EP > 2.03
Dado que EP = 28.21 es mayor a 2.03, cae en la zona de rechazo, por lo tanto:
Con una significancia del 5%, se concluye que existe evidencia estadística suficiente para afirmar
que al menos una de las 10 variables escogidas por el gerente explica el comportamiento de la
utilidad.
Variable Ubic. 1 Ubic. 2 Ubic. 3 Ubic. 4 Ubic. 5 Ubic. 6 Ubic. 7 Ubic. 8 Ubic. 9 Ubic. 10
Capital 660 733 1050 836 784 925 1090 738 584 681
nEmpl 14 16 26 20 18 19 19 15 10 12
PobTotal 6710 11040 11910 11350 3500 12720 16660 9410 19020 12650
Ingreso 38 31 29 37 30 23 25 30 29 35
Comp Dir 4 7 1 5 12 1 2 4 4 3
Comp No dir 5 6 4 8 7 9 0 4 5 12
No Rest 18 21 13 62 38 41 5 11 26 54
Renta 22 13 22 13 18 12 33 9 13 15
ICV 131 115 135 136 130 136 133 126 128 128
Se utiliza el modelo de regresión estimado, es decir, cada beta estimado toma el valor obtenido
en SPSS para calcular la utilidad esperada en cada una de las 10 ubicaciones.
Cada uno de los valores que toman las variables en cada ubicación es reemplazado en el modelo,
de manera que se obtiene una utilidad estimada para cada ubicación:
yj = −449.34 − 0.17xg + 1.36xi − 1.6x• + 0.008x¤ + 10.85xŸ − 2.07x¨ − 0.42x¥ + 1.49xÌ
+ 0.58x– + 0.5xg—
En la tabla que sigue a continuación se presentan dichas utilidades estimadas:
Se observa que la mayor utilidad estimada corresponde a la ubicación número 4. Por este motivo
se debería seleccionar dicha ubicación para abrir la nueva sucursal.