Documente Academic
Documente Profesional
Documente Cultură
Excel se puede usar para generar las medidas estadsticas descriptivas que explicamos en este capitulo.
En ese apndice mostraremos como se usa Excel para generar varias de las medidas de localizacin y
dispersin para una sola variable. Y para generar la covarianza y el coeficiente de correlacin como
medidas de la asociacin entre dos variables.
Excel cuenta con funciones para calcular medidas como la media, mediana, moda, varianza de la
muestra y la desviacin estndar de la muestra. Ilustramos el uso de estas funciones de Excel mediante
el calculo de la media, mediana, varianza muestral y desviacin estndar de la muestra para los datos
de salarios iniciales de la tabla 3.1. Consulte la figura 3.12 conforme describimos los pasos necesarios.
Los datos se introdujeron en la columna B.
La funcin PROMEDIO (AVERAGE) de Excel se puede usar para calcular la media al escribir la
formula en la celda E1.
=AVERAGE(B2:B13)
Figura 3.12 COMO USAR LAS FUNCIONES DE EXCEL PARA CALCULAR LA MEDIA,
MEDIANA, MODA, VARIANZA Y DESVIACIN ESTNDAR
Excel cuanta tambin con fusiones que se pueden usar para calcular la covarianza y el coeficiente de
correlacin. Sin embargo, se debe tener cuidado al usar estas fusiones debido a que la fusin de la
covarianza trata a los datos como si fueran una poblacin y la fusin de correlacin como si se tratara
de una muestra. As que el resultado obtenido con la funcin de covarianza de Excel se debe ajustar
para obtener la covarianza de la muestra. Aqu se mostrara la manera de usar estas fusiones para
calcular la covarianza de la muestra y el coeficiente de correlacin para los datos del almacn de
equipos estreo fnicos de la tabla.3.7 consulte la figura 3.13 conforme se presentan los pasos
necesarios.
La fusin Excel para la covarianza, COVAR, se puede utilizar para el calculo de la covarianza
poblacional al introducir la formula siguiente en la celda F1.
=COVAR(B2:B11,C2:C11)
= PROMEDIO(A2:A101)
=C2-C3
=C2+C3
En la figura 8.10 aparece el resultado formateado con las leyendas.
Para ilustrar se utiliza los datos del balance de tarjetas de crdito de la tabla 8.2. Los datos se
introdujeron en una hoja de calculo de Excel con la leyenda Balance en la celda A1 y los balances de
las tarjetas de crdito para la muestra de 85 hogares en las celdas A2:A86. No.
A continuacin construyamos la estimacin del intervalo por medio de los mismos pasos para el caso
de muestras grandes donde se supone que se conoce el valor de o.
=PROMEDIO(A2:A86)
=CONFIANZA(0.05,C1,85)
=C2-C3
=C2+C3
El resultado con la desviacin estndar muestral que aparece en la celta C1 ser muy al resultado
mostrado en la figura 8.10.
Tabla 8.4
Empleado Tiempo Empleado Tiempo Empleado Tiempo
1 52 6 59 11 54
2 44 7 50 12 58
3 55 8 54 13 60
4 44 9 62 14 62
5 45 10 46 15 63
Si es apropiado la suposicin de que la poblacin tiene una distribucin normal, el muestras pequeas ,
donde se supone se conoce o, utiliza el mismo procedimiento pasado ya descrito en el caso de muestras
generales, donde se supone que o es conocida.
Los datos de la tabla 8.4 muestran los tiempos del programa de capacitacin para la de empleados.
Los datos se introdujeron en una hoja de calculo de Excel con la tiempo en la celda A1 y lo tiempos del
programa de capacitacin en das en las celdas A2:A16. En este caso no se conoce la desviacin
estndar poblacional o y se estima mediante la desviacin estndar muestral s. Mediante los pasos
siguientes se calcula una ecuacin del intervalo de confianza de 95% para el promedio poblacional.
La media de la muestra 53.87 aparece en la celda C3 y el margen de error 3.78 en le celda C16 observe
que el nombre en Excel para el margen de error es Nivel de Confianza
(95.0%). El intervalo de confianza se puede obtener al restar y sumar despus del margen de error al
promedio muestral. La formula =C3-C16 se puede usar para colocar el limite superior en la celda C18.
SECCION 9.5
A una muestra aleatoria simple de 12 viajeros se les pidi calificar al aeropuerto Heathrow de Londres
y las calificaciones obtenidas fueron:
7 8 10 8 6 9 6 7 7 8 9 8
Ilustraremos el caso de muestras grandes con los datos de las distancias de las pelotas de golf de la
tabla 9.2. El rotulo yardas aparece en la celda A1 y los 36 valores de distancia aparecen en las celdas
A2 y A37 de una hoja de calculo de Excel. Observa que el nivel de significacin para la prueba de
hiptesis es = 0.05 y la desviacin estndar poblacional o se estima mediante la desviacin estndar
maestral s.
Una forma relativamente fcil de hacer la prueba de hiptesis con Excel es que usted construya su
propia hoja de clculo y utilice el criterio de valor p para obtener la conclusin. La hoja de clculo que
construimos se muestra en la figura 9.18. Los pasos que se pueden usar para probar H 0 : = 280 y H a :
280 son los siguientes:
=CONTAR(A2:A37)
=PROMEDIO(A2:A37)
=DESVEST(A2:A37)
=(D7-D2)/(D8/RAIZ(D6))
Las evaluaciones que 12 viajeros dieron al aeropuerto Heathrow se listaron en la seccin 9.5. Los datos
se introdujeron en una hoja de clculo de Excel con el rotulo Evaluacin en la celda A1 y las 12
evaluaciones en las celdas A2:A13. El nivel de significancia para la prueba es =0.05 y la desviacin
estndar de la poblacin, , se estima mediante la desviacin estndar muestral s. Con el diseo de hoja
de calculo que se muestra en la figura 9.18, se pueden usar los pasos siguientes para probar las
hiptesis Ho : 7 y Ha : 7.
Paso 1. Teclee 7 en la celda D2
Paso 2. Calcule el tamao de la muestra en la celda D6.
=CONTAR(A2:A13)
=PROMEDIO(A2:A13)
=DESVEST(A2:A13)
La celda D10 contiene la formula para calcular el valor p, que es el rea del
extremo superior de la distribucin t asociada con el estadstico de prueba t. Esta
formula es relativamente compleja porque la expresin para calcular el valor p
depende de si el estadstico de prueba de la celda D9 es positiva o negativa.
En el estudio del aeropuerto de Heathrow se utilizo la desviacin estndar
muestral s para estimar la desviacin estndar de la poblacin, 0. En una prueba
de hiptesis con muestras pequeas donde se supone que se conoce a, el valor de o se puede introducir
directamente en la celda D8 porque no se necesita ningn calculo. En este caso, el estadstico de prueba
z y su valor asociado p se calculan por medio de la funcin DISTR NORM ESTAND en la forma como
se describi para el caso de muestras grandes.
Por ultimo, el estudio para muestras pequeas del aeropuerto Heathrow requiri una prueba de
hiptesis unilateral y una regin de rechazo en el extremo superior. Sin embargo, este procedimiento se
puede modificar fcilmente para otras pruebas de hiptesis. Por ejem. La formula de la celda D10
=SI(D90,1-DISTR T (D9,D6-1,1),1-DISTR T (ABS(D9,D6-1,1)) da el valor de p cuando la regin de
rechazo esta en el extremo inferior y la formula de la celda D10=DISTR T(ABS(D9)D6-1,2)) da el
valor de p para una prueba bilateral.
97 83 91 64 66 91 84
90 84 87 85 83 78 85
94 76 73 72 74 87 85
79 82 92 64 70 93 84
78 85 64 74 82 89 59
87 85 74 93 82 79 62
83 91 88 70 75 84 91
89 72 88 79 78 65 83
76 86 74 79 99 78 80
84 70 73 75 57 66 76
300 276
280 222
344 310
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265
Resumen estadstico
Tamao n1=12 n2=12
Media de la muestra x1=325 x2=288
Desviacin estndar de la muestra s1=40 s2=44
10.3 Inferencias acerca de la diferencia entre las medias de dos poblaciones muestras
Muestras pareadas
Utilizamos los datos de los tiempos de produccin de la tabla 10.4 para ilustrar el procedimiento de
muestras pareadas o por pares.
En la columna C1 se escriben los tiempos de terminacin para el mtodo 1 y en la columna C2 los que
corresponden al mtodo 2. Los pasos de Minitab para la prueba de hiptesis de muestras por pares son
los siguientes:
Paso 1. Seleccione el men desplegable Stat
Paso 2. Seleccione Basic Statistics
Paso 3. Seleccione Paired t
Paso 4. Cuando aparezca el cuadro de dialogo Paired t:
Teclee C1 en el cuadro First sample
Teclee C2 en el cuadro Second Sample
Elija Optiones
Paso 5.Escriba 95 en Confidence level
Escriba 0 en el cuadro Test Mean
Escriba diferente de en el cuadro Alternative
De clic en OK
Paso 6. Seleccione OK
En la celda D8 aparece el valor del estadstico de prueba z=2.09. El valor p bilateral, 0.0366, aparece
en la celda D11 con el nombre valor critico z (dos colas).
Usaremos los datos del estudio de prueba de software de la tabla 10.3. Los datos se introdujeron en una
hoja de calculo de Excel con el rotulo Actual en la celda A1 y el rotulo Nuevo en la celda B1. Los
tiempos de terminacin para la tecnologa actual estn en las celdas A2:A13, y los tiempos de
terminacin para el software nuevo estn en las celdas B2:B13.Con los pasos siguientes se puede llevar
a cabo la prueba de hiptesis de muestras pequeas acerca de la diferencia entre dos medias
poblacionales:
Paso 1. Seleccione el men desplegable Herramientas (Tools)
Paso 2. Seleccione Anlisis de datos (Data Analysis)
Paso 3. Cuando aparezca el cuadro de dialogo Anlisis de datos (Data Analysis)
Seleccione Prueba z para medias de dos muestras (z-Test:Two Sample for Means)
Seleccione prueba t para dos muestras suponiendo varianza iguales:
Paso 4: Cuando aparece el cuadro de dilogo Prueba t para dos muestras suponiendo varianzas iguales:
Teclee A1:A31 en el cuadro rango para la variable 1 ( Variable 1Range)
Teclee B1:B41 en el cuadro tango para la variable 2 (Variable 2 Range)
Teclee 0 en el lugar Diferencia Hipottica entre las medias (Hypothesized Mean Difference)
Seleccione Rtulos (Labels)
Teclee 0.05 en el lugar alfa
Seleccione Rango de salida y teclear C1 en el cuadro (Output Range ) Oprima Aceptar (OK)
El valor del estadstico de prueba t=2.16 aparece en la celda D10, y el valor p unilateral 0.021 aparece
en la celda D11.
Muestras pareadas
Para ejemplificar se utilizan los tiempos de terminacin de muestras pareadas de la tabla 10.4.Los datos
se escriben en una hoja de calculo con el rotulo Mtodo 1 en la celda A1 y el rotulo Mtodo 2 en la
celda B1. En las celdas A2:A7 estn los tiempos de terminacin para el mtodo 1 y los que
corresponden al mtodo 2 estn en las celdas B2:B7. El procedimiento de Excel utiliza los pasos antes
descritos para el caso de muestras pequeas, excepto que en el paso 3 el usuario elige la Prueba t para
medias de dos muestras emparejas en anlisis de datos del men herramientas. El rango de la variable 1
es A1:A7 y el rango de la variable 2 es B1:B7. El valor de la estadstica de prueba t=2.196 aparece en
la celda D10 y el valor bilateral p=0.08 aparece en la celda D13.
H0 : = 12
Ha : 12
Informe Gerencial
1. Efectu la prueba de hiptesis para cada muestra, al nivel de significancia de 0.01, y determine
que accin, si es el caso, se debe tomar. Presente el estadstico y el valor p para cada prueba.
2. Calcule la desviacin estndar de cada una de las 4 muestras. Parece razonable la hiptesis de
0.21 para la desviacin estndar de la poblacin?
3. Calcule los limites de la media x alrededor de = 12 tales que, mientras una media de la
muestra este dentro de ellos, se considera que el proceso funciona en forma satisfactoria. Si x es
mayor que el limite superior, o menor que el limite inferior, se debe emprender una accin
correctiva. Esos lmites se llaman lmite superior e inferior de control, para fines de control de
calidad.
4. Describa las implicaciones de cambiar el nivel de significacia a un valor mayor. Qu error
podra aumentar si se hiciera eso?
Cada mes la oficina estadounidense de estadstica laboral publica diversas estadsticas acerca del
desempleo, como el nmero de individuos sin trabajo y el tiempo promedio que han estado
desempleados. Para el mes de noviembre de 1998, la oficina informo que el tiempo promedio de
desempleo fue de 14.6 semanas.
El alcance de Filadelfia solicito en estudio sobre el estado del desempleo en esa rea. Una muestra de
50 residentes de Filadelfia desempleados contena datos acerca de la edad y nume4ro de semana sin
trabajo. A continuacin se muestra una parte de lo datos reunidos en noviembre de 1998. El conjunto
complejo de datos se encuentra en el archivo electrnico.
Informe Gerencial
UNA POBLACION
Utilizaremos los datos del ejemplo de Autobuses urbanos de la seccin 11.1. La hora de calculo
de Excel tiene el rotulo Tiempo en la celda A1 y los 10 tiempos de llegada en las Celdas A2 a A11. La
prueba de hiptesis es H0 = 2 4 y Ha :2 d 4. La forma ms fcil de usar Excel para esta prueba de
hiptesis es elaborar su propia hoja de clculo y usar el valor p para obtener la conclusin. La hoja de
clculo que construimos se muestra en la figura 11.6. Las entradas de las celdas son como se describen
a continuacin
=VAR(A2:A11)
=(D6-1)*D7/D2
=DISTR.CHI(D8,D6-1)
FIGURA 11.6
DOS POBLACIONES
Utilizaremos los datos del estudio del autobs escolar de la seccin 11.2 La hoja de calculo de Excel
tiene el rotulo Transporte rpidos en la celda A1 el rotulo Transporte eficaces en la celda B1. Los
tiempos para la muestra de Transportes Rpidos estn en las celdas A2:A26 y lo tiempos para la
muestra de transporte eficaces estn en las celdas B2:B17. Los pasos para llevar a cabo la prueba de
hiptesis Ho : 21 = 22 y Ha : 21 022 son como sigue:
El resultado P(F f) = 0.041 es el rea unilateral asociada con el estadstico de prueba F= 2.40. Por
tanto, el valor p bilateral es 2(0.041) = 0.082. Si la prueba de hiptesis hubiera sido una prueba
unilateral, el rea de la celda marcada como P(F f) proporciona la informacin necesaria para
determinar el valor p para la prueba.
**************************
INFORME GERENCIAL
1. Aplique los estadsticos adecuados para sintetizar los datos de tiempo de adiestramiento para
cada mtodo. Qu semejanzas y/o diferencias observa en los datos de la muestra?
2. Aplique los mtodos del capitulo 10 para hacer comentarios acerca de alguna diferencia entre
las medias de poblacin para los dos mtodos. Comente sus resultados.
3. Calcule la desviacin estndar y la varianza de cada mtodo de adiestramiento. Realice una
prueba de hiptesis acerca de la igualdad de varianza poblacionales para los dos mtodos de
adiestramiento. Describa sus resultados.
4. A que conclusin llegara respecto alas diferencias entre los dos mtodos? Cul es su
recomendacin? Explique sus propuestas.
5. Puede sugerir otros datos u otras pruebas que seria convenientes para tomar una decisin final
referentes al programa de adiestramiento que se debe usar en el futuro?
En este apndice ilustraremos como utilizar la herramienta de regresin de Excel para llevar a cabo los
clculos del anlisis de regresin para el problema de Pizzeras Armad. Consulte la figura 14.23 de la
pagina siguiente conforme se describen los pasos del caso. Los rtulos Restaurante, Poblacin y Ventas
se introdujeron en las celdas A1:C1 de la hoja de clculo. Para identificar cada una de las 10
observaciones se escribieron los nmeros del 1 al 10 en las celdas A2:A11. Los datos de la muestra se
teclearon en las celdas B2:C11.En los pasos siguientes se describe como usar Excel para obtener los
resultados de la regresin.
La primera seccin de la salida, titulada estadstica de regresin, contiene las estadsticas del
resumen como el coeficiente de determinacin (R cuadrada). La segunda seccin de la salida, la
cual no tiene titulo, contiene los coeficientes de regresin estimados e informacin relacionada.
Comenzaremos nuestro anlisis con la interpretacin de la salida de regresin con la
informacin contenida en las celdas A28:I30.
*********************
INTERPRETACIN DEL RESULTADO DE LA ECUACIN DE REGRESIN ESTIMADA.
La ordenada al origen (y) de la tecla de regresin estimada, b 0 =60, se muestra en la celda B29, y la
pendiente de la recta de regresin estimada, B1 =5, se observa en la celda B30. El rotulo Ordenada al
origen en la celda A29 y el rotulo Poblacin en la celda A30 se cumplen para identificar estos dos
valores.
La informacin de las celdas F28:I30 se emplean para construir estimaciones de los intervalos de
confianza de la ordenada al origen (y) y la pendiente de la ecuacin de regresin estimada. Mediante
Excel siempre se obtiene los lmites superiores e inferiores para un intervalo de confianza de 95%.
Recuerde que en el paso 4 seleccionamos Nivel de confianza y se tecleo 99 en el cuadro Nivel de
confianza. Como resultado, la herramienta de regresin de Excel tambin proporciona los limites
superior e inferior para un intervalo de confianza de 99% El calor de la celda H30 es el limite inferior
para la estimacin del intercalo de confianza de 99% de B 1 y el valor de la celda I30 es el limite
superior. Por tanto, despus de redondear, la estimacin del intervalo de confianza de 99% de B 1 es
3.05 a 6.95. Los valores de las celdas F30 y G30 proporcionan los lmites superior e inferior para el
intervalo de confianza de 95%. As, el intervalo de confianza de 95% es 3.66 a 6.34.
INTERPRETACIN DEL RESULTADO DE ANOVA
La informacin de las celdas A22:F26 es un resumen del anlisis de datos de los clculos de varianza.
Las tres fuentes de variacin se rotulan como regresin, residual y total. El rotulo df en la celda B23
representa los grados de libertad, el rotulo SS en la celda C23 indica la suma de cuadros y el rotulo MS
en la celda D23 significa el cuadrado de la media.
En la seccin 14.5 se enuncio que el error cuadrado medio, obtenido al dividir el error cuadrado medio,
obtenido al dividir el error o la suma residual de cuadrados entre sus grados de libertad, proporcional
una estimacin de 2 . El valor de la celda D25, 191.25, es el error cuadrado medio para el resultado de
la regresin de Pizzeras Armand. En la seccin 14.5 se mostr que se poda usar una prueba f para la
significancia de la regresin. El valor de la celda F24, 0.0000255, es el valor de p asociado con la
prueba f para la significancia. Debido a que el valor p = 0.0000255 = 0.01, se rechaza H0 y se
concluye que hay una relacin significativa entre la poblacin de estudiantes y las ventas trimestrales.
El rotulo que utiliza Excel para identificar el valor p para la prueba de significancia F, mostrado en la
celda F23, es valor crtico de F.
Como parte de un estudio sobre la seguridad en el transporte, el Departamento de transporte en ese pas
reuni datos sobre la cantidad de accidentes fatales por cada 1000 licencias de conducir y el porcentaje
de los conductores con licencia menor de 21 aos, en una muestra de 42 ciudades. A continuacin
vemos esos datos, recopilacin durante un periodo de un ao.
13 2.962 17 4.100
12 0.708 8 2.190
8 0.885 16 3.623
12 1.652 15 0.835
11 2.091 9 0.820
17 2.627 8 2.890
18 3.830 14 1.267
8 0.368 8 3.224
13 1.142 15 1.014
8 0.645 10 0.493
9 1.028 10 1.443
16 2.801 14 1.443
12 1.405 18 3.614
9 1.433 10 1.926
10 0.039 14 1.643
9 0.338 16 2.943
11 1.849 12 1.913
12 2.246 15 2.814
14 2.855 13 2.634
14 2.352 9 0.926
11 1.294 17 3.256
INFORME GERENCIAL
Estas contribuciones son una fuente importante de ingresos para los colegios y universidades. Si los
administradores pudieran determinar los factores que afectan los incrementos en el porcentaje de
alumnos que hacen una donacin, estaran en la posibilidad de poner en prctica polticas que lograran
incrementar los ingresos. En la investigacin se observa que los estudiantes que estn ms satisfechos
con su relacin con los maestros tienen ms probabilidades de graduarse. Como resultados, se podra
esperar que, mientras mas pequeos sea el grupo y menores las relaciones estudiante-facultad, el
resultado seria un mayor porcentaje de graduados satisfechos, que a su vez dara lugar a incrementos en
el porcentaje de alumnos que hacen una donacin. En la tabla 14.15 de la pagina siguiente se muestran
los datos para 48 universidades estadounidenses (Americas Best Colleges, edicin ao 2000). La
columna marcada como % de grupos con menos de 20 muestras el porcentaje de grupos que tienen
menos de 20 estudiantes. La columna marcada como relacin estudiante / facultad es la cantidad de
estudiantes inscritos dividida entre el numero total de la facultad. Por ultimo, la columna marcada
como Tasa de donacin es el porcentaje de alumnos que hacen una donacin a la universidad.
INFORME GERENCIAL
Proporcin
%de grupos con Relacin alumnos que hacen
Menos de 20 Estudiante/Facultad una donacin
Boston College 39 13 25
Brandres University 68 8 33
Brown University 60 8 40
California Institute of Technology 65 3 46
Carnegie Mellori University 67 10 28
Case Western Reserve Univ. 52 8 31
College of William and Mary 45 12 27
Columbia University 69 7 31
Cornell University 72 13 35
Datmounth College 61 10 53
Duke University 68 8 45
Emory University 65 7 37
George Town University 54 10 29
Harvard University 73 8 46
Johns Hopkins University 64 9 27
Lehigh University 55 11 40
Massachusett Ins. Of Technololy 65 6 44
New York University 63 13 13
North Western University 66 8 30
Pennsylvania State Univ. 32 19 21
Princeton University 68 5 67
Rice University 62 8 40
Stanford University 69 7 34
Tufts University 67 9 29
Tulane University 56 12 17
U. of California Berkeley 58 17 18
U. of California Davis 32 19 7
U. of California Irvine 42 20 9
U. of California Los ngeles 41 18 13
U. of California San Diego 48 19 8
U. of California Santa Barbara 45 20 12
U. of Chicago 65 4 36
U. of Florida 31 23 19
U. of Illinois Urbana Champaign 29 15 23
U. of Michigan Ann Arbor 51 15 13
U. of North California Chapel Hill 40 16 26
U. of Notre Dame 53 13 49
U. of Pennsylvania 65 7 41
U. of Rochester 63 10 23
U. of Southem California 53 13 22
U. of Texas Austin 39 21 13
U. of Virginia 44 13 28
U. of Washington 37 12 12
U. of Wisconsin Madison 37 13 13
Vanderbilt University 68 9 31
Wake Forest University 59 11 38
Washington University St. Louis 73 7 33
Yale University 77 7 50