Documente Academic
Documente Profesional
Documente Cultură
Edición ESTAD IS TI CA
ELEMENTAL
John E. Freund
Arizona State University
Gary A. Simon
New York University
TRADUCCION
JOSE JULIAN DIAZ DIAZ
Traductor
REVISION TECNICA
MARCIAL GIL RICO RICO
Ingeniero Civil
'
--------
PEARSON
Educación
®
.
España • Guatemala • Panamá • Perú • Puerto Ricp • Uq1guay :ven'ézuela
.
040230
COLEF BIBLIOTECA
INTRODUCCION
1.1
EL CRECIMIENTO DE LA ESTADISTICA MODERNA
Hay varias razones por las que el alcance de la estadística y la necesidad de estudiar la
estadística han crecido de manera considerable en los últimos quince años o a1go así.
Una razón es el planteamiento cuantitativo que se usa en forma creciente en todas las
ciencias, así como en los negocios y muchas otras actividades que afectan m.:1estras vi-
das de modo directo. Esto incluye el uso de técnicas matemáticas en la evaluación de
sistemas de con_trol de emisión de contaminantes, la planificación de las existencias, el
análisis de los patrones del tránsito, el estudio de los efectos de varias clases de medi-
camentos, la evaluación de técnicas de enseñanza, el análisis del comportamiento com-
petitivo de empresarios y gobiernos, el estudio de la dieta y la longevidad y demás ac-
tividades pertinentes. La disponibilidad de computadoras poderosas ha incrementado
en gran medida nuestra capacidad para manejar información numérica. El costo de mu-
chas computadoras también es accesible, de modo que pequeñas empresas, estudiantes
universitarios y aun bachilleres pueden efectuar un trabajo estadístico sofisticado.
La otra razón es que la cantidad de datos que se recopila, procesa y difunde al pú-
blico por a~gún motivo se ha incrementado casi más allá de la comprensión y cada quien
debe determinar la parte "buena" y la parte"'mala" de l<} estadística. Para actuar como
vigilantes, se requiere que cada vez más personas con cierto conocimiento-estadístico
participen en forma activa en la recopilación y el at¡áJisis de los datos y, lo que es de
igual importancia, en toda la planificación preliminar. Sin haber participado en esta úl-
tima actividad, es aterrador pensar en todos los aspectos que pueden presentar proble-
mas en la recopilación de datos estadísticos. Los resultados de costosas encuestas pue-
2 CAP. 1 / INTRODUCCION
den ser inútiles si las preguntas son ambiguas o se formulan erróneamente, si se formu-
lan a las personas equivocadas, en el lugar o el momento equivocado. Como lo ilustran
los ejemplos siguientes, gran parte de esto consiste tan sólo en el sentido común:
EJEMPLO Para determinar la opinión del público acerca de la continuación de cierto programa gu-
bernamental, un entrevistador pregunta: "¿Piensa que este programa derrochador se
debería detener?" Explique por qué esta pregunta quizá no obtendrá la información de-
seada.
Solución De hecho, el entrevistador está "rogando por la pregunta" a sugerir que el programa in-
curre en el dispendio.
EJEMPLO Para estudiar la reacción de los consumidores en relación con un nuevo producto ali-
' sin
menticio, se realiza una encuesta casa por casa todos los días durante las mañanas,
repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto puede ge-
nerar información equivocada.
Solución Esta encuesta no llegará a aquellas personas que es más probable usen el producto: sol-
teros y parejas de casados en las que ambos trabajan.
Si bien gran parte del crecimiento de la estadística al que se hizo mención comen-
zó antes de la "revolución de las computadoras", la amplia disponibilidad y el uso de
la computadora han acelerado el proceso en gran medida. En particular, las computa-
doras nos permiten manejar, analizar y clasificar grandes cant.idades de datos, así como
realizar cálculos que en el pasado parecían demasiado complicados inclusive para ob-
servarlos. El objetivo de este libro será que usted comprenda las ideas de la e,stadística.
Para ésta, el acceso a la computadora no es crucial. A veces, en el texto se ilustran los
usos de la computadora, pero casi todos los ejercicios pueden realizarse sólo con una
calculadora de cuatro funciones.
1.2
EL ESTUDIO DE LA ESTADISTICA
13.96 En una muestra aleatoria de 200 personas jubiladas, 137 afirmaron que
prefieren vivir en un departamento que vivir en una casa unifamiliar. En el
nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todas
las personas jubiladas prefieren vivir en un departamento que en una casa
unifamiliar?
La pregunta que se plantea aquí debería ser clara y también debería serlo que la res-
puesta sería interesante sobre todo para los científicos sociales o para personas de la in-
dustria de la construcción. Sin embargo, si quisiéramos satisfacer los intereses de estu-
diantes de biología, ingeniería, educáción o ecología, tendríamos que replantear el ejer-
cicio como sigue:
13.96 En una muestra aleatoria de 200 árboles de cítricos expuestos a una tempe-
ratura de - 6.66º, 137 mostraron daños en sus frutos. En el nivel 0.05 de
significancia, ¿esto refuta la aseveración de que el 60% de todos los árboles
de cítricos expuestos a una temperatura de - 6.66º presentarán algún daño en
sus frutos?
4 CAP. 1 / INTRODUCCJON
EJERCICIOS
1.1 Replantee el ejercicio 13.96 al que se hace referencia en (b) Para estudiar los patrones de gasto de las familias
la página 4 de modo que sea de interés para de un grupo de ingresos determinados, se realiza
(a) un vendedor de cosméticos; ·una encuesta durante las primeras tres semanas de
(b) un músico; diciembre.
(c) un ingeniero de tráfico.
1.4 Explique por qué cada uno de los siguientes estudios qui-
1.2 Una "mala" estadística puede resultar del plantearniento zá no genere la información deseada:
de preguntas en forma incorrecta o a las personas equivo- (a) Para deterrninar la proporción de latas de café mal
cadas. Explique-por qué las siguientes situaciones pueden selladas, un inspector de control de calidad analiza
generar información inútil: · cada quincuagésima lata que sale de la línea de pro-
(a) Para determinar el sentirniento del público en cuan- ducción.
to a una restricción de comercio exterior específica, (b) Para determinar el ingreso anual promedio de sus
un entrevistador pregunta a los electores: "¿Usted egresados 10 años después de la graduación, en
cree que esta práctica injusta debería detenerse?" 1990 la oficina de alumnos de una universidad en-
(b) Con el objeto de pronosticar una elección munici- vió cuestionarios a todos los miembros de Ja gene-
pal, un encuestador de opinión pública telefonea a ración de 1980 y la estimación se basó en Jos cues-
personas seleccionadas al azar en el directorio tele- tionarios que regresaron.
fónico de la ciudad. (c) Para averiguar Jos hechos acerca de los hábitos de
limpieza dental, se preguntó a una muestra de Jos
1.3 Una "mala" estadística puede resuttar del plantearniento residentes de una comunidad cuántas veces al día se
de preguntas en el lugar o momento incorrectos. Explique
cepillaban los dientes.
por qué las siguientes situaciones pueden generar infor-
mación inútil:
(a) Para pronosticar una elección, un encuestador en-
trevista a las personas que salen de un edificio en el
que se encuentra la sede nacional de un partido po-
lítico.
1.3
ESTADISTICA DESCRIPTIVA E INFERENCIA ESTADISTICA
El origen de la estadística moderna se puede rastrear en dos áreas de interés que, super-
ficialmente, tienen muy poco en común: gobierno (ciencia política) y juegos de azar.
-i::os gobiernos han hecho gran uso de .los censos para contar personas y propiedad,
y el problema de describir, resumir y analizar los datos de los censos ha llevado al de-
sarrollo de los métodos que hasta hace poco constituían casi todo el material disponible
de la materia de estadística. Estos métodos, que en un principio consistían sobre todo
en la presentación de datos en forma de tablas y gráficas, constituyen lo que ahora lla-
mamos estadística descriptiva. Esta comprende cualquier actividad relacionada con
los datos y está diseñada para resumir o describir los mismos sin factores pertinentes
adicionales; esto es, siri intentar inferir nada que vaya más allá de los datos, como tales.
Por ejemplo, si las pruebas practicadas en seis automóviles compactos, demostraran
que pueden acelerar de Oa 100 k/h en 18.7, 19.2, 16.2, 12.3, 17.5 y 13.9 segundos y re-
portáramos que la mitad de éstos aceleró de O a 100 k/h en menos de 17.0 segundos,
pero no es así si concluimos que la mitad de todos los automóviles importados ese año
podrían acelerar de O a 100 k/h en menos de 17.0 segundos.
Aunque la estadística descriptiva es una rama importante de la estadística y con-
tinúa usándose en forma general, por lo regular se deriva de muestras (de observaciones
hechas sólo acerca de una parte de un conjunto numeroso de elementos) y esto implica
que su análisis requiere de generalizaciones que van más allá de los datos. Como con-
secuencia, la característica más importante del reciente crecimiento de la estadística ha
sido un cambio en el énfasis de los métodos que describen a métodos que sirven para
hacer generalizaciones; es decir, un cambio en el énfasis de la estadística descriptiva a
los métodos de la inferencia estadística.
Por ejemplo, se requiere que tales métodos pronostiquen el periodo de vida de una
calculadora de bolsillo (sobre la base del comportamiento de varias calculadoras simi-
lares); para calcular el valor estimado para 1995 de todas las propiedades privadas de
Orange County, California (sobre la base de las tendencias empresariales, las proyec-
ciones de población y demás factores pertinentes); para comparar la efectividad de dos
dietas para reducir de peso (sobre la base de las pérdidas de peso de personas que han
estado a dieta); para determinar la dosis más efectiva de un nuevo medicamento (sobre
la base de pruebas practicadas con pacientes voluntarios de hospitales seleccionados);
o para pronosticar el flujo de tránsito de una vía rápida que aún no ha sido construida
(sobre la base de conteos de tránsito hechos en el pasado en rutas alternativas).
En cada una de las situaciones descritas en el párrafo anterior existen incertidum-
bres, porque sólo hay información parcial, incompleta o indirecta; por lo tanto, los mé-
todos de inferencia estadística necesitan valorar los méritos de nuestros resultados,
para seleccionar el pronóstico "más prometedor", o para seleccionar el curso de acción
"más razonable" (el pronóstico "potencialmente más rentable").
En vista de las incertidumbres, manejamos problemas como éstos con métodos es-
tadísticos que tienen su origen en los juegos de azar. Aunque el estudio matemático de
los juegos de azar se remonta al siglo XVII, no fue sino hasta el inicio del siglo XIX que
ta teoría desarrolló un criterio de "caras o cruces" por ejemplo, o de "rojo o negro" o
"pares o nones", se aplicó también a situaciones de la vida real en que los resultados
eran "niño o niña'', "vida o muerte", "éxito o fracaso" y demás. Así, la teoría de la
probabilidad se aplicaba a muchos problemas de las ciencias del comportamiento, na-
turales y sociales y en la actualidad constituye un importante instrumento para el aná-
lisis de cualquier situación (en las ciencias, los negocios o la vida diaria) que en cierto
modo implica un elemento de incertidumbre o de azar. En particular, proporciona la
base para los métodos que usamos cuando generalizamos, a partir de datos observados,
expresamente, cuando utilizamos los métodos de inferencia estadística.
En años reciernes, se ha sugerido que el énfasis se ha distanciado mucho de la es-
tadística descriptiva para aproximarse a la inferencia estadística y que se debería pres-
tar una mayor atención al tratamiento de problemas que requieren sólo de técnicas des-
criptivas. Para cubrir estas necesidades, en fechas recientes se han desarrollado algunos
métodos descriptivos nuevos con la nomenclatura de análisis exploratorio de datos.
En las secciones 2.3 y 4.5 se presentarán dos de estos métodos.
6 CAP. 1 / INTRODUCCION
1.4
LA NATURALEZA DE LOS DATOS ESTADISTICos*t
Los datos estadísticos son la materia prima de las investigaciones estadísticas -surgen
siempre que se toman medidas o se registran observaciones. Pueden ser pesos de ani-
males, medidas de características de la personalidad o intensidades de movimientos te-
lúricos y pueden ser simples respuestas de "sí o no" de descripciones del estado civil de
las personas como solteras, casadas, viudas o divorciadas. Dado que en la página 2 se-
ñalamos que la estadística maneja datos numéricos, esto requiere alguna explicación,
porque las respuestas de "sí-o no" y las descripciones del estado civil difícilmente pa-
recerían corresponder a la calificación de numérico. Observe, no obstante, que pode-
mos registrar las respuestas de "sí o no" a una pregunta como Oy 1 (o como 1 y 2, o tal
vez como 29 y 30 si nos referimos a la decimoquinta pregunta de "sí o no" de una prue-
ba) y que podemos registrar el estado civil de una persona 1, 2, 3 o 4, dependiendo de
que la persona sea soltera, casada, viuda o divorciada. De esta manera artificial o no-
minal, los datos categóricos (cualitativos o descriptivos) se pueden convertir en datos
numéricos y si, en consecuencia, clasificamos las diversas categorías, nos referimos a
los números que registramos como datos nominales.
Los datos nominales son numéricos sólo por su nombre, porque no comparten nin-
guna de las propiedades de los números que manejamos con la aritmética común. Por
ejemplo, si registramos estados civiles como 1, 2, 3 o 4, como hemos sugerido, no po-
demos expresar que 3 > 1 o que 2 < 4 y no podemos expresar que 2 - 1 = 4 - 3, que
1 + 3 = 4 o que 4 + 2 = 2, de ahí que siempre es importante verificar si los cálculos
matemáticos efectuados en un análisis estadístico en realidad son legítimos.
Ahora consideremos algunos ejemplos en que los datos comparten algunas, pero
no necesariamente todas las propiedades de los números que manejamos con la aritmé-
tica ordinaria. Por ejemplo, en mineralogía, la dureza de los sólidos se determina me-
diante la observación de "qué raya qué". Si un mineral puede rayar otro, éste recibe un
número de dureza más alto y en la escala de Mohs, los números del 1 al 10 se asignan
al talco, el yeso, la calcita, la fluorita, la apatita, el feldespato, el cuarzo, el topacio, el
zafiro y el diamante. Con estos números podemos expresar que 6 > 3, por ejemplo, o
que 7 < 9, ya que el feldespato es más duro que la calcita y el cuarzo es más suave que
el zafiro. Por otro lado, no podemos expresar que 10 - 9 = 2 - 1, por ejemplo, porque
la diferencia entre el diamante y el zafiro en realidad es mucho más grande que la di-
ferencia entre el yeso y el talco. Así mismo, no sería significativo indicar que el topacio
es dos veces más duro que la fluorita simplemente porque sus números de dureza res-
pectiva en la escala Mohs son de 8 y 4.
Si no podemos hacer nada más que determinar desigualdades, como fue el caso en
el ejemplo anterior, nos referimos a los datos ordinales. En relación con los datos or-
dinales, > no significa necesariamente "mayor que"; se puede usar para denotar con-
ceptos como "más feliz que", "preferible que", "más difícil qu,e", "más sabroso que" y
demás.
tcomo se explicó en el prefacio, todas las secciones marcadas con el símbolo* son opcionales. Aunque
el material de esta sección pretende servir como una advertencia en contra del tratamiento matemático inais-
criminado de los datos estadísticos, es de mayor importancia para los estudiantes de las ciencias del compor-
tamiento y sociales, donde las escalas artificiales sirven para medir, digamos, tendencias de neurosis, felicidad
o conformidad con las normas sociales.
Linda 89 51 40
Toin 61 56 54
Henry 40 70 55
Rose 13 77 72
Los totales de los cuatro ~studiantes son de 180, 171, 165 y 162, de modo que Linda ob-
tuvo la calificación más alta, seguida por Tom, Henry y Rose.
Ahora suponga que alguien propone que comparemos el rendimiento total de los
cuatro estudiantes clasificando sus calificaciones de altas a bajas para cªda parte de la
prueba promediando luego sus clasificaciones. Lo que obtenemos aparece en la tabla
siguiente
Linda 1 4 4 3
Tom 2 3 3 213
Henry 3 2 2 213
Rose 4 1 1 2
8 CAP. l I INTRODUCCION
Aquí, la clasificación del promedio de Linda se calculó como 1 + 4 + 4 = ~ = 3 el
3 3 '
de Tom como 2+3+3 = -8 = 2-, 2 , .
y as1 sucesivamente.
3 3 3
Ahora, si observamos el rango promedio, encontramos que Rose resultó ser la me-
jor, seguida por Henry, Tom y Linda, de modo que el orden es el inverso del anterior.
¿Cómo es esto posible? Bien, pueden suceder cosas raras cuando promediamos rangos.
Por ejemplo, cuando se trata de sus rangos, el excedente de 28 puntos de Linda sobre
Tomen historia de América cuenta tanto como el excedente de Tom de 5 puntos en his-
toria de Europa y el excedente de Tom sobre Henry de 21 puntos en historia de América
cuenta tanto como el excedente de Henry sobre él por un solo punto en historia antigua.
Concluimos que, tal vez, no deberíamos haber promediado sus rangos sino que también
se podría señalar que ni siquiera deberíamos haber totalizado las calificaciones origi-
nales. La variación de las calificaciones en historia de América que van de 13 a 89 es
mucho más alta que la de las otras dós clases de calificaciones y esto afecta en gran me-
dida las calificaciones totales y sugiere un resultado imperfecto del procedimiento. No
deberíamos comprender esto aquí, ya que nuestro objetivo ha sido sólo alertar al lector
en contra del uso indiscriminado de las técnicas estadísticas.
EJERCICIOSt
1.5 En cinco pruebas de biología un estudiante obtuvo califi- (d) Jean probablemente tomó sus vacaciones anuales
caciones de 46, 61, 74, 79 y 88. ¿A cuál de las conclusio- durante el segundo mes.
nes siguientes se puede llegar a partir de estas cifras me-
diante métodos meramente descriptivos y que requieren
l. 7 En tres días consecutivos, un policía de tránsito levantó 9,
14 y 10 infracciones por conducir;con exceso de veloci-
de generalizaciones? Explique sus respuestas.
dad y 5, 1O y 12 infracciones por no respetar el semáforo
(a) Sólo dos de las calificaciones fueron mayores
en rojo. ¿A cuál de las conclusiones siguientes se puede
que 75.
(b) Las calificaciones de cada uno en cada prueba au- llegar a partir de métodos meramente descriptivos y que
mentan en la siguiente. requieren de generalizaciones? Explique sus respuestas.
(a) En los tres días, el policía levantó más infracciones
(c) El estudiante debe haber estudiado más arduamente
por conducir con exceso de velocidad que por no
para cada prueba sucesiva.
respetar el semáforo en rojo.
(d) La diferencia entre las calificaciones más altas y las
(b) En dos de los tres días, el policía levantó más infrac-
más bajas es de 42.
ciones por conducir con exceso de velocidad que
1.6 Mary y Jean son vendedoras de bienes raíces. En los pri- por no respetar el semáforo en rojo.
meros tres meses de 1990 Mary vendió 3, 6 y 2 casas uni- (c) El policía levantó el número más bajo de infraccio-
familiares y Jean vendió 4, O y 5 casas unifamiliares.¿A nes en el primer día porque era su primer día de tra-
cuál de las conclusiones siguientes se puede llegar a partir bajo.
de métodos meramente descriptivos y que requieren de (d) En un día, el policía rara vez levantará más de 15 in-
generalizaciones? Explique sus respuestas. fracciones por conducir con exceso de velocidad.
(a) Durante los tres meses Mary vendió más casas uni-
1.8 Los tres limones que una persona compró en el mercado
familiares que Jean.
pesaron 200, 225 y 340 gramos. ¿A cuál de las conclusio-
(b) Mary es una mejor vendedora de bienes raíces que
nes siguientes se puede llegar a partir de métodos mera-
Jean.
mente descriptivos y que requieren de generalizaciones?
(c) Mary vendió por lo menos dos casas unifamiliares
Explique sus respuestas.
durante cada uno de los tres meses.
tLos ejercicios que se han señalado con el símbolo * fonnan parte del material opcional.
1.5
REVISION DE TERMINOS CLAVEt
(con referencias de página a sus definiciones)
1.6
EJERCICIOS DE REVISIONt·
1.13 El boletaje pagado para· asistir a lé>s juegos de futbol en (a) La asistencia al tercer partido en casa fue baja por-
casa de. una pequeña universidad fue de 12,305, 10,984, que llovió.
6,850; 11,733 y 10,641. ¿A cuál de las siguientes conclu- (b) Entre los cinco juegos, el boletaje pagado fue más
siones se puede llegar a partir de estas cifras por medio de alto en el primer partido.
métodos meramente descriptivos y que requieren de ge- (c) El boletaje pagado superó los 11,000 en dos de los
neralizaciones? Explique sus respuestas. cinco juegos.
tLos términos que se han señalado co11'P.I símbolo* forman parte del material opcional.
tLos ejercicios de revisión marcados con el símbolo *pertenecen al material opcional.
10 CAP. 1 I INTRODUCCION
(d) El bolct<ije pagado se incrementó del tercer al cuar- importaciones de India, se pregunta a personas se-
to partido en casa porque el equipo de futbol de la leccionadas si les agrada el arte hindú.
universidad había estado ganando. (b) Para valorar los hechos relacionados con los hábi-
tos de baño, a una muestra de los ciudadanos de un
* t.14 ¿Los datos siguientes son nominales, ordinales, de inter-
país europeo se le pregunta cuántas veces en pro-
valo o racionales? Explique sus respuestas.
medio se bañan a la semana.
(a) Elevaciones sobre el nivel del mar.
(b) Respuestas a la pregunta de si (en el área del centro 1.18 Usando el mismo modelo de automóvil, cinco conducto-
de una ciudad grande) las condiciones de vida "es- res promediaron 9.95, 9.57, 10.2, 9.95 y 9.65 kilómetros
tán empeorando mucho", "están empeorando un por litro. ¿A cuál de las siguientes conclusiones se puede
poco", "permanecen igual", "están mejorando un llegar a partir de estas cifras por medio de métodos mera-
poco" o "están mejorando mucho". mente descriptivos y que requieren de generalizaciones?
(c) Antigüedad de automóviles usados. Explique sus respuestas.
(d) Respuestas de las licencias para conductores en re- (a) Con mayor frecuencia que ninguna de las otras ci-
lación con el color de ojos. fras, los conductores promediaron 9.95 kilómetros
por litro.
1.15 Explique por qué cada uno de los datos siguientes bien
(b) Con mayor frecuencia que ninguna de las otras ci-
podría fracasar para proporcionar la información deseada:
fras, los conductores de este tipo de automóvil pro-
(a) Para pronosticar una elección municipal, un en-
mediaron 9.95 kilómetros por litro.
cuestador de opinión pública hace preguntas a las
(c) Ninguno de los promedios difiere de 9.99 por más
personas que caminan frente a la oficina de gobier-
de 1.6093 kilómetros.
no municipal. ,
(d) Si se repite el experimento completo, ninguno de
(b) Para determinar la opinión del público sobre ciertas
los conductores promediará menos de 9.57 ni más
restricciones a las importaciones, un entrevistador
de 10.41 kilómetros por litro.
pregunta a los electores: "¿Cree que a los consumi-
dores norteamericanos se les debería negar el uso *1.19 En dos torneos de golf de la liga mayor, un golfista pro-
de estos productos?" fesional terminó en el segundo y el noveno Jugar, en tanto
que otro terminó en el sexto y el quinto. Comente sobre el
*1.16 Si los estudiantes calculan sus índices de puntuación de argumento de que como 2 + 9 =6 + 5, el rendimiento total
calificaciones (esto es, el promedio de sus calificaciones) de los dos golfistas en estos dos torneos fue igualmente
contando A, B, C, D y F como 4, 3, 2, 1 y O, ¿qué implica bueno.
esto acerca de Ja naturaleza de las calificaciones?
1.20 Replantee el ejercicio al que nos referimos en la página 4
1.17 Explique por qué cada uno de los datos siguientes bien de manera que sea de especial interés para
podría fracasar para proporcionar la información desea- (a) un abogado;
da: (b) un agente de viajes;
(a) Para conocer la opinión del público en cuanto a las (c) un autor.
1.7
REFERENCIAS
WALKER H. M., Studies in the History ofStatistical Method. Baltimore: The Williams & Wil-
kins Company, 1929.
PEARSON E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Prob-
ability. Nueva York: Hafner Press, 1970.
KENDALL, M. G. y PLACKETI, R. L., editores, Studies in the History of Statistics and Prob-
ability, Vol.//. Nueva York: Macmillan Publishing Co., Inc., 1977. '
STIGLER, S. M., The History of Statistics. Cambridge, Mass.: Harvard University Press,
1986.
HILDEBRAND, D. K., LAING, J.D. y ROSENTHAL, H., Analysis ofürdinal Data. Beverly Hills,
Calif.: Sage Publications, Inc., 1977.
REYNOLDS, H. T., Analysis of Nominal Data. Beverly Hills, Calif.: Sage Publications, Inc.,
1977.
SJEGEL, S., Nonparametric Statisticsfor the Behavioral Sciences. Nueva York: McGraw-Hill
Book Company, 1956.
Los siguientes son algunos títulos de la lista siempre creciente de libros sobre estadís-
tica escritos para los principiantes.
BROOK, R. J., ARNOLD, G. C., HASSARD, T. H. y PRINGLE, R. M., editores, The Fascination
of Statistics. Nueva York: Marce! Dekker, Inc., 1986.
CAMPBELL, S. K., Flaws and Fallacies in Statistical Thinking. Englewood, Cliffs, N. J: Pren-
tice-Hall, Inc., 1974.
HOLLANDER, M. y PROSCHAN, F., The Statistical Exorcist: Dispelling Statistics Anxiety.
Nueva York: Marce! Dekker, Inc., 1984.
HOOKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc.,
1983.
KIMBLE, G. A., How to Use (and Misuse) Statistics. Englewood Cliffs, N. J.: Prentice-Hall,
Inc., 1978.
LARSEN, R. J. y STROUP, D. F., Statistics in the Real World. Nueva York: Macmillan Publis-
hing Co., Inc., 1976.
RUNYON, R.P., Winning with Statistics. Reading, Mass.: Addison-Wesley Publishing Com-
pany, Inc., 1977.
TANUR, J. M. editor, Statistics: A Guide to the Unknown. San Francisco: Holden-Day, Inc.,
1972.
12 CAP. 1 I INTRODUCCION
RESUMEN
DE DATOS:
DISTRIBUCION
DE LA FRECUENCIA
2.1
LISTA DE VALORES NUMERICOS
44.0 35.4 28.4 37.0 46.0 35.4 19.4 20.4 56.4 43.2
36.2 38.4 49.2 31.8 86.4 12.6 27.4 14.0 39.4 39.4
15.8 28.8 38.0 44.0 38.4 74.0 23.0 11.4 39.8 30.2
29.2 40.6 49.6 30.4 12.2 123.8 42.0 47.0 32.4 39.2
35.2 56.4 31.0 45.0 90.2 100.0 39.0 37.0 49.4 28.2
12.6 27.0 47.8 52.6 41.0 40.0 28.0 23.6 37.6 37.8
30.0 45.8 18.0 41.0 22.6 24.2 89.6 90.4 43.0 29.8
56.2 24.8 12.6 53.6 125.4 16.2 39.0 40.8 33.6 39.4
45.6 37.4 18.0 50.6 103.4 52.4 20.2 64.6 22.2 60.0
42.2 42.0 16.2 108.2 44.0 42.6 39.4 37.6 41.4 40.4
11.4 12.2 12.6 12.6 12.6 14.0 15.8 16.2 16.2 18.0
18.0 19.4 20.2 20.4 22.2 22.6 23.0 23.6 24.2 24.8
27.0 27.4 28.0 28.2 28.4 28.8 29.2 29.8 30.0 30.2
30.4 31.0 31.8 32.4 33.6 35.2 35.4 35.4 36.2 37.0
37.0 37.4 37.6 37.6 37.8 38.0 38.4 38.4 39.0 39.0
39.2 39.4 39.4 39.4 39.4 39.8 40.0 40.4 40.6 40.8
41.0 41.0 41.4 42.0 42.0 42.2 42.6 43.0 43.2 44.0
44.0 44.0 45.0 45.6 45.8 46.0 47.0 47.8 49.2 49.4
49.6 50.6 52.4 52.6 53.6 56.2 56.4 56.4 60.0 64.6
74.0 86.4 89.6 90.2 90.4 100.0 103.4 108.2 123.8 125.4
69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77
Ahora divida cada número en sus decenas y unidades, disponiendo juntos los valores
que comparten las decenas. Esto es, pensaremos en el número 69 como en 6 1 9. En-
tonces las decenas se dispondrán en forma vertical con unidades dispuestas al lado.
Para el conjunto de las 20 calificaciones de coordinación física, la gráfica es ésta:
5 2 7 5
6 9 1 5 3 4 7 1 8
7 4 9 2 4 7
8 4' 8 2
9 3
Con todo, este paso no tiene que ser perfecto, es fácitdisponer posiciones de tronco adi-
cionales en la parte superior o en la inferior. Luego, marque las hojas por elementos de
datos individuales en orden consecutivo. Después de los tres primeros valores (69, 84,
52), la gráfica de tronco y hoja lucirá así:
5 2
6 9
7
8 4
9
La gráfica de tronco y hoja estará completa después de efectuar sólo un paso con los da-
tos.
La gráfica de tronco y hoja contiene la misma información que la lista original,
pero es mucho más compacta. La gráfica de tronco y hoja destaca)os aspectos impor-
tantes de los datos. Por ejemplo, en este caso revela de inmediato que la mayoría de los
datos pertenece al orden de los 60.
La gráfica de tronco y hoja desarrolla la mayor parte de la tarea de clasificación de
los valores. A la mayoría de la gente le agrada completar la clasificación ordenando
también las hojas. En este ejemplo, se llega a lo siguiente:
5 2 5 7
6 1 1 3 4 5 7 8 9
7 2 4 4 7 9
8 2 4 8
9 3
No todos los valores se pueden disponer en una gráfica de tronco y hoja con tanta
facilidad. El tratámiento de situaciones más complicadas es una cuestión de dis-
cernimiento. Consideremo~ los 100 tiempos de trayecto antes señalados. Estos núme-
ros se dieron con décimas de minuto. Al realizar la gráfica de tronco y hoja, más que
redondear los valores al minuto más cercano, recomendamos que se ignoren las déci-
mas. Este introduce un sesgo de medio minuto en la gráfica, pero con casi el mismo es-
fuerzo se produce el mismo resultado tan apropiado como el redondeo.t Usaremos los
dígites de las decenas para clasificar el tronco y esto produce la siguiente gráfica:
toescartar.números representa varias ventajas durante el proceso de redondeo cuidadoso y éste es el pro-
cedimiento recomendado por John Tukey, el inventor de la representación gráfica de tronco y hoja. Su libro
aparece en la lista de referencias al final del capítulo.
16
,
GAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA
1 122224566889
2 0022334477888899
3 0001123555677777788899999999
4 0000111222233444555677999
5 0223666
6 04
7 4
8 69
9 00
10 038
11 NOTA: 7 4 medidas 74 minutos
12 35 12 3 medidas 123 minutos
13
Esta gráfica de tronco y hoja sólo requiere una revisión de la lista original. Se pueden
ordenar las hojas. De hecho, esta gráfica comunica el mensaje de la lista original en una
forma muy clara en términos gráficos. Es útil agregar una nota, como lo hicimos, para
ayudar al lector de esta gráfica. Esta ciertamente es útil cuando los números del tronco
no son decenas.
La gráfica de tronco y hoja se puede modificar de varias formas para satisfacer ne-
cesidades particulares. Si queremos elaborar una gráfica de tronco y hoja con más tron-
cos de los que habría de otra manera, podemos dividir en dos cada posición del tronco.
Usamos la primera posición del tronco para disponer las hojas O, 1, 2, 3 y 4 y usamos
la segunda posición para disponer las hojas 5, 6, 7, 8 y 9. Por tanto, para el segundo gru-
po de datos de la página 15, obtendríamos la representación gráfica de doble tronco:
5· 2
5* 5 7
6· 1 3 4
6* 5 7 8 9
7· 2 4 4
7* 7 9
8· 2 4
8* 8
9· 3
En esta gráfica, duplicamos el número de posiciones del tronco dividiendo por la mitad
el intervalo que cubre cada decena.
Así mismo, en el caso de algunas descripciones más detalladas (véase la sección
3.4), es conveniente tener algunas hojas en cada tronco dispuestas por tamaño, como en
la figura 2.1, donde usamos una computadora para elaborar la gráfica de tronco y hoja
anterior.
No estudiaremos las gráficas de tronco y hoja con mayor detalle, ya que.nu·estro
objetivo fue en esencia presentar una de las técnicas relativamente nuevas que forman·
parte del término general de análisis exploratorio de datos. Estas técnicas s~ utilizan
sobre todo para analizar datos sin emplear los métodos más tradicionales de análisis es- '
tadísticos o antes de aplicar los mismos. ·
1 5* 2
3 5. 57
7 6* 1134
(4) 6. 5789
9 7* 244
6 7. 79
4 8* 24
2 8. 8
-1- 9* 3
FIGURA 2.1 Impresión por computadora para la elaboración de una gráfica de doble tronco.
EJERCICIOS
2.1 Las siguientes son las alturas en centímetros de dieciséis 2.4 Elab.ore una lista de los valores de datos que aparecen en
estudiantes de bachillerato: 172, 182, 177, 174, 166, 158, la gráfica de tronco y hoja siguiente.
170, 178, 163, 161, 191, 167, l71,201, 166, 172.Elabore
una gráfica de tronco y hoja con las clasificaciones de 4 o 2 3
tronco 15, 16, 17, 18, 19 ~ 20;
5 1 8 9
2.2 Los siguientes son los pesds en libras de veinte solicitan- 6 233779
tes de empleo en un departamento de bomberos de la ciu- 7 o
dad: 225, 182, 194, 210, 205, 172, 181, 198, 164, 176,
180,193, 178, 193,208,186,183,170,186,l88.Elabore
2.5 Elabore una gráfica de doble tronco para los datos del
una gráfica de tronco y hoja con las clasificaciones de
ejercicio 2.2.
tronco 16, 17, 18, 19, 20, 21y22.
·2.3 Las siguientes son las ganancias semanales en dólares de 2.6 Las siguientes son las edades de treinta y dos cabezas de
quince vendedores: 425, 440, 610, 518, 324, 482, 624, familia de una comunidad de jubilados: 68, 81, 62, 61, 76,
390, 468, 457, 509, 561, 482, 480, 520. Elabore una grá- 65,69,73,66,68, 71, 74,64, 70,68, 73,82, 79,63, 69,
fica de tronco y hoja con las clasificaciones de tronco 3, 68, 66, 73, 74, 77, 80, 73, 66, 67, 81, 77 y 66 años. Elabore
4, 5 y 6; las decenas se deben usar como hojas. una gráfica de doble tronco para estos valores.
2.2
DISTRIBUCIONES DE LA FRECUENCIA
Total 5,640
Una tabla como ésta se conoce como una distribución de la frecuencia (o simple~
mente como una distribución); esto demuestra cómo se distribuyen los sistemas de te-
levisión por cable entre las seis clases. Entonces cuando los datos se agrupan por tama-
ños hacemos referencia a una tabla como la anterior como una distribución numérica
(o cuantitativa).
En el ejemplo de la televisión por cable, cada clase cubrió un amplio rango de va-
lores, pero también hay distribuciones numéricas en que la clase cubre sólo un valor
único. Esto se ilustra por medio del ejemplo siguiente con base en un estudio en el que
se preguntó a 200 personas cuántas veces habían visitado el zoológico local durante los
doce meses anteriores:
o 90
1 72
1 16
3 8
4 3
5 o
6 1
Total 200
Total 2,439
Podríamos convertir una distribución como ésta en una distribución numérica codifi-
cando los datos, digamos, asignando a las seis alternativas los números 1, 2, 3, 4, 5 y
6, pero esto nos daría datos nominales, que son numéricos sólo en un sentido trivial.
Las distribuciones de la frecuencia présentan los datos en una forma relativamente
compacta, dan una buena imagen en general y contienen información adecuada para
muchos propósitos, pero por lo general hay algunos factores que no se pueden determi-
nar sin referirse a los datos originales. Por ejemplo, a partir de la primera tabla de esta
seccion no podemos encontrar ni el tamaño del más pequeño de los 5,640 sistemas de
televisión por cable, ni el promedio de suscriptores de los diez sistemas más grandes.
De modo similar, con base en la tercera tabla no podemos indicar el número de quejas
sobre asientos incómodos por la amplitud de los asientos de los mismos o el número de
quejas por compartimientos de equipaje insuficientes en relación con el espacio para
los portatrajes. No obstante, las distribuciones de la frecuencia presentan datos en bru-
to (no procesados) de una manera más práctica y el precio que debemos pagar por esto
-la pérdida de cierta información- por lo regular vale la pena.
En esencia la elaboración de una distribución de la frecuencia consiste en tres pa-
sos: (1) la selección de las clases (intervalos o categorías), (2) la selección o clasifica-
ción de los datos en estas clases y (3) el conteo del número de factores de cada clase.
Dado que el segundo y el tercer paso son meramente mecánicos en este caso debemos
Cóncentrarnos, a saber, en el de la selección de una clasificación ideal.
Para las distribuciones numéricas, esto consiste en decidir el número de clases que
se usarán y de qué clase a qué clase se debe ir. Ambas alternativas son en esencia ar-
bitrarias, sin embargo por lo común se observan las reglas siguientes:
Para concluir, debemos asegurarnos de que los valores inferiores y superiores caigan en
Siempre que es posible hacemos que las clases cubran rangos de valo-
res iguales.
Del mismo modo, si podemos, disponemos los rangos en múltiplos de números de ma-
nejo fácil, tales como 5, 10 o 100 porque esto tenderá a facilitar la elaboración y el uso
de una distribución.
Por lo que respecta a estas reglas, la distribución de la televisión por cable de la pá-
gina 19 satisface las dos primeras, pero viola la tercera. En realidad, la tercera regla se
viola de varias maneras, ya que las clases 1,000-3,499, 3,500-9,999, 10,000-19,999 y
20,000-49,999 cubren distintos rangos de valores, la primera clase no tiene ningún lí-
mite inferior específico y la última clase no tiene ningún límite superior específico. Es
probable que los estadistas del gobierno responsables de esta tabla tengan buenas razo-
nes para seleccionar las clases como lo hicieron.
Nos referimos a las clases de la variedad de "menos de'', "o menos", "más de" u "o
más" como clases abiertas y las usamos para reducir el número de clases necesarias
cuando algunos de los valores son bastante menores o bastante mayores que el resto.
Sin embargo, generalmente se deben evitar las clases abiertas, ya que éstas hacen im-
posible el cálculo de ciertos valores de interés, tales como los promedios o los totales
(véase el ejercicio 3.52, página 62).
En cuanto a la segunda regla, tenemos que observar si los datos se dan al dólar o
al cer)tavo más cercano, si se dan a la pulgada o a la décima de pulgada más cercana,
a la onza o al céntimo de onza más cercano y así, dependiendo el caso. Por ejemplo, si
queremos agrupar los pesos de ciertos animales podríamos usar la primera de las cla-
sificaciones siguientes cuando los pesos se dan al kilogramo más cercano, la segunda
cuando se dan a la décima de kÜogramo más cercana y la tercera cuan_9o se dan a la cén-
tima de kilogramo más cercana:
Para ilustrar lo que hemos estudiado en esta sección, ahora revisemos los pa-
sos reales de agrupación de un conjunto de datos de una distribución de la fre-
cuencia.
EJEMPLO Elabore una distribución de las siguientes cantidades de óxidos de azufre (en toneladas
emitidas por una planta industrial en 80 días:
Solución Dado que el valor inferior es 6.2 y el valor superior es 31.8, podríamos seleccionar las
seis clases 5.0-9.9, 10.0-14.9, ... y 30.0-34.9, las siete clases 5.0-8.9, 9.0-12.9, ... y
29.0-32.9, las nueve clases 5.0-7.9, 8.0-10.9, ... y 29.0-31.9 o muchas otras clasifica-
ciones. Nótese que en cada una de las clasificaciones mencionadas, las clases acomo-
dan todos los datos, no los traslapan y todas son del mismo tamaño.
Esencialmente, la selección entre estas clasificaciones es arbitraria, pero supo-
niendo que por algunas razones legales (digamos leyes gubernamentales) sea necesario
mantener todos los valores mayores que 16.9 pero menores que 21.0 en la clase, selec-
cionamos la segunda. Así, clasificando las ochenta medidas en siete clases obtenemos
la ·tabla siguiente:
Toneladas de óxido
de azufre cuenta o conteo Frecuencia
Total 80
Los números que aparecen en la columna del lado derecho de la tabla anterior, que
muestra cuántos factores pertenecen a cada clase, se conocen como frecuencias de cla-
se. Los valores superiores e inferiores que pueden corresponder a cualquier clase seco-
nocen como sus límites de clase y para la distribución de los datos de emisión éstos son
5.0 y 8.9, 9.0 y 12.9, 13.0 y 16.9, ... y 29.0 y 32.9. Más específicamente, 5.0, 9.0, 13.0, ...
y 29.0 se llaman límites de clase inferior y 8.9, 12.9, 16.9, ... y 32.9 se llaman límites
de clase superior.
Todas las cantidades que agrupamos en nuestro ejemplo se dieron a la décima de
tonelada más cercana, de modo que 5.0 en realidad incluye todos los valores de 4.95 a
5.05, 8.9 comprende todos los valores de 8.85 a 8.95 y la clase 5.0-8.9 incluye todos
los valores de 4.95 a 8.95. En forma similar, la segunda clase comprende todos los va-
lores de 8.95 a !2.95, ... y fa séptima clase incluye todos los valores de 28.95 a 32.95 .
.Comúnmente nos referimos a 4.95, 8.95, 12.95, ... y 32.95 como fronteras de clase o
límites de clase reales. Aunque 8.95 es la frontera superior de la primera clase y tam-
Para evitar las brechas en la escala numérica continua, algunos libros de texto de
estadística y programas de computación de uso común (por ejemplo el Minitab) inclu-
yen en cada clase su limitación inferior. Incluirían 4.95, pero no 8.95 en la primera cla-
se de la distribución de los datos de emisión de óxidos de azufre. De modo similar, in-
cluirían 8.95, pero no 12.95 en la segunda clase y así sucesivamente. Es evidente que
todo esto es por completo inmaterial en tanto que los límites de clase sean valores im-
posibles que no pueden ocurrir entre los datos que se están agrupando. En especial, es
por esta razón que no se puede enfatizar en forma excesiva el uso de los límites de clase
(véase el estudio de la figura 10.3, página 258).
Las distribuciones numéricas también tienen lo que llamamos marcas de clase e
intervalos de clase. Las marcas de clase son simplemente los puntos medios de la cla-
se y se-obtienen sumando los límites inferiores y superiores de una clase (o sus límites
inferiores y superiores) y dividiendo el resultado entre dos. Si la longitud detodas las
clases de una distribución es igual, su intervalo d.e clase común, que conocemos como
el intervalo de clase de la distribución, también se obtiene por la diferencia entre dos
marcas de clase sucesivas cualquiera.
EJEMPLO Obtenga las marcas de clase y el intervalo de clase de la distribución de los datos de
emisión de óxidos de azufre.
Solución Las marcas de clase son 5 ·º ; 8·9 = 6.95, 9·0 ~ 12·9 = 10.95, l3.0 ; 16·9 = 14.95,
29 ·º +2 32·9 = 30.95. Por tanto, ya que los intervalos. de clase son 8.95- 4.95 = 4,
= =
12.95 - 8.95 4, ... y 32.95 - 28.95 4 y que todos son iguales, el intervalo de clase de
la distribución es de 4. Nótese que si hubiéramos tomado las diferencias entre los lími-
tes de clase en vez de las diferencias entre las fronteras de clase, habríamos obtenido
3.9 en lugar de 4 y 3.9 no es el intervalo de clase.
EJEMPLO Convierta la distribución de los datos de emisión de óxidos de azufre en una distribu-
ción porcentual.
Toneladas de óxi·
dos de azufre Porcentaje
100.00
Solución Dado que ninguno de los valores es de menos de 5.0, 3 de los valores son de menos de
9.0, 3 + 10 = 13 de los valores son de menos de 13.0, 3 + 10 + 14 =27 de los valores
son de menos de 17.0 y así consecutivamente, obtenemos los resultados de la tabla si-
guiente:
Toneladas de óxidos Frecuencia
de azufre acumulativa
Menos de 5.0 O
Menos de 9.0 3
Menos de 13.0 13
Menos de 17.0 27
Menos de 21.0 52
Menos de 25.0 69
Menos de 29.0 78
Menos de 33.0 80
Nótese que en vez de "menos de 5.0", "menos de 9.0", "menos de 13.0", ... , podríamos
haber expresado "4.9 o menos", "8.9 o menos", "12.9 ó menos", ... o "menos de 4.95",
"menos de 8.95", "menos de 12.95",. ..
EJERCICIOS
2.7 Los pesos de los jugadores de un equipo de futbol ameri- de frecuencias con las clases $0.00-4.99, $5.00-9.99,
cano varían entre 168 y 266 libras. Indique los límites de $10.00-14-99, $15.00-19.99, $20.00-24.99 $25.00-
once clases en que se podrían agrupar estos pesos. 29.99 y $30.00 y más altas. ¿Es posible determinar, con
base en esta proporción, las compras valoradas a
2.8 Las medidas del punto de ebullición de un saborizante en
(a) menos de $10.00;
extracto, dadas a la décima de grados Celsius más cerca-
(b) $10.00 o menos;
na, varían entre 148.2º y 160.6º. Indique los límites de
(c) más de $25.00;
clase en que se podrían agrupar estas medidas.
(d) $25.00 o más?
2.9 Las ganancias semanales de los empleados a destajo de
una fábrica de muebles varían entre $227.82 y $396.05. 2.12 La siguiente es la distribución de los pesos de 125 mues-
Indique los límites de siete clases en que se podrían agru- tras de mineralé's recolectadas en una investigación de
par estos valores. campo:
2.10 Los números de asientos de autobús en los viajes de Fila- Peso en Número de
delfia a Baltimore se agrupan en una tabla con las clases gramos especímenes
0-4, 5-9, 10-14, 15-19, 20-24 y 25 o más. ¿Será posible
determinar exactamente, a partir de esta tabla, los viajes O.O- 19.9 16
de autobús en los que hubo 20.0- 39.9 38
(a) por lo menos 10 asientos vacíos; 40.0- 59.9 35
(b) más de 10 asientos vacíos; 60.0- 79.9 20
(c) más de 14 asientos vacíos; 80.0- 99.9 11
(d) por lo menos 14 asientos vacíos; 100.0-119.9 4
(e) exactamente 9 asientos vacíos? 120.0-139.9 1
2.3
REPRESENTACIONES GRAFICAS
que requieren de especial atención cuando no todos los intervalos de clase son iguales
(véase ejercicio 2.39, página 32).
Los datos que llevaron a la figura 2.2 fueron fáciles de agruparse porque sólo había
80 valores en la muestra. En el caso de conjuntos de datos en realidad cuantiosos, puede
CJ
ser conveniente elaborar histogramas directamente a partir de los datos en bruto usando
un paquete de computación adecuado. Por ejemplo, la figura 2.3 presenta un histogra-
ma de los datos de la emisión de óxidos de azufre creado por computadora. t Como se
puede apreciar en el comando "HIST C 1 6.95 4.0", la primera marca de clase es de 6,95
y el intervalo de clase es 4, de modo que las clases están dispuestas como en la tabla de
la página 22. En comparación con la figura 2.2, el diagrama que está a su lado en reali-
dad no es un histograma de acuerdo con la definición que mencionamos. No obstante,
combina algunas de las características de las figuras 2.4 y 2. 7 y representa la misma
idea.
Las gráficas de barras, como la que aparece en la figura 2.4, son parecidas a los
histogramas. Las alturas de los rectángulos o barras representan las frecuencias de la
clase como un histograma, pero no hay motivo para tener una escala horizontal continua.
Otra forma de representación gráfica de uso menos común es el polígono de fre-
cuencias, como el que se presenta en la figura 2.5. Aquí, las frecuencias de clase están
trazadas en las marcas de clase y los puntos sucesivos están unidos con líneas rectas.
Nótese que agregamos clases con frecuencia cero en ambos extremos de la distribución
para "sujetar" la gráfica a la escala horizontal. Si aplicamos una técnica similar a una
distribución acumulativa, obtenemos lo que se conoce como una ojiva. Sin embargo,
en una ojiva, las frecuencias acumulativas se trazan en las fronteras de clase en lugar
de hacerlo en las marcas de clase; es obvio que la frecuencia acumulativa correspon-
diente a, digamos, "menos de 13.0" se debería trazar en la frontera de clase 12.95, ya
tEn la impresión de la figura 2.3 y otras que se presentan en este texto, las palabras y los números parecen
referirse a los aspectos técnicos de la operación del programa de computación particular empleado. Si tiene ac-
ceso a una computadora, el lector debería referirse a los manuales pertinentes de instrucciones de operación
y una lista de problemas para poder resolver con los programas existentes. Los usuarios capacitados pueden
crear los programas necesarios.
que "menos de 13.0" en realidad comprende todos los valores hasta 12.95. La figura 2.6
presenta una ojiva de la distribución acumulativa de "menos de" obtenida que aparece
en la página 24 para los datos de la emisión de los óxidos de azufre.
A pesar de que el atractivo visual de los histogramas, gráficas de barras, polígonos
de frecuencias y ojivas es un claro avance sobre las tablas simples, hay varias maneras de
presentar las distribuciones de un modo más dramático y a menudo con mayor efec-
EJERCICIOS
2.34 La siguiente es la distribución de la facturación mensual 2.37 Convierta la distribución del ejercicio anterior en una dis-
de 200 cuentas de una tienda departamental: tribución acumulativa de "menos de" y trace ~na ojiva.
Medios de
0.00- 19.99 22 transporte Porcentaje
20.00- 39.99 47
40.00~ 59.99 66
60.00- 79.99 35 Viaja solo 82
80.00- 99.99 21 Viaja en grupo en automóvil 13
100.00-119.99 9 Viaja en autobús 2
Varios o trabajan en casa 3
(a) Trace un histograma de esta distribución. Elabore una gráfica circular para esta distribución por-
(b) Trace una gráfica de barras de esta distribución. centual. -·
2.35 Convierta la distribución del ejercicio anterior en una dis- 2.39 La figura 2.9 presenta la distribución de las calificaciones
tribución acumulativa de "menos de" y trace una ojiva. de 80 principiantes de una universidad en un examen de
2.36 La siguiente es la distribución de los pesos de 150 muje- clasificación de conocimientos de lenguas extranjeras.
res que ingresaron a una universidad: Explique por qué se podría dar con facilidad una impre-
sión errónea e indique cómo se podría mejorar.
90- 99 6
100-109 25
110-119 46
120-129 37
130-139 22
140-149 7
150-159 3
160-169 3
170-179 o
180-189 1 50-59 60-69 70-79 80-99
Calificaciones en el examen de clasificación
(a) Trace lin histograma de esta distribución. FIGURA 2.9 Distribución de las calificaciones en el
(b) Trace un polígono de frecuencias de esta distribu- examen de clasificación de conocimientos de lenguas
ción. extranjeras.
32 CAP.2 I RESUMENDEDATOS:DISTRIBUCIONDELAFRECUENCIA
2.42 Aquí, de nuevo, presentamos las calificaciones (del ejer-
~ cicio 2.19) que obtuvieron 40 estudiantes en una prueba
de psicología:
75 89 66 52 90 68 83 94 77 60
38 47 87 65 97 49 65 72 73 81
63 77 31 88 74 37 85 76 74 63
69 72 91 87 76 58 63 70 72 65
Total
2.4
REVISION DE TERMINOS CLAVEt
(con referencias de página a sus definiciones)
2.5
EJERCICIOS DE REVISION
2.45 Las marcas de clase de una distribución del número de (a) por lo menos 79 personas;
llamadas recibidas a diario por una pequeña compañía (b) más de 79 personas;
de taxis son 18, 25, 32, 39,46y 53. ¿Cuáles son los límites (c) 40 o más personas;
de clase si todos los intervalos de clase son iguales? (d) a lo sumo 120 personas?
2.46 Los siguientes son los números de venados observados en 2.51 La siguiente es la distribución del número de alimentos
72 sectores de tierra en un conteo de vida silvestre: que 60 vendedores de bienes raíces cobraron como gastos
de representación comercial en una semana dada:
18 8 9 22 12 16 20 33 15 21 18 13
13 19 o 2 14 17 11 18 16 13 12 6 Número de
8 12 13 21 8 11 19 1 14 4 19 16 las medidas Frecuencia
2 16 11 18 10 28 15 24 8 20 6 7
21 o 16 12 20 17 13 20 10 16 5 10 0-1 16
15 10 16 14 29 17 4 18 21 10 16 9 2-3 25
4-5 13
Agrupe estos datos en una distribución que tenga las cla- 6-7 4
ses 0-4, 5-9, 10-14, 15-19, 20-24, 25-29 y 30-34. 8-9 2
2.49 Las edades de los empleados de una compañía se deben 2.52 Convierta la distribución del ejercicio anterior en una dis-
agrupar en las clases siguientes: menores de 19, 20-24, tribución porcentual acumulativa de "o más" y trace una
25-29, 30-34, 34-39 y mayores de 39 años. Explique en gráfica de barras.
dónde podrían surgir dificultades.
2.53 En 1982, las 1,572 orquestas de Estados Unidos, incluye-
2.50 El número de personas que asiste cada día a una exposi- ron 385 orquestas universitarias, 919 orquestas comuni-
ción de arte se agrupan en una distribución con las clases tarias, 94 orquestas urbanas, 110 orquestas metropolita-
0-39, 40-79, 80-119 y 120-159. ¿Es posible determinar a nas y otras 64. Presente esta información en forma de una
partir de esta distribución en cuántos días asistieron a la (a) gráfica de barras;
exposición (b) gráfica circular.
2.56 Las medidas de longitud del pescado que se dan a la dé- 2.59 Los siguientes son los números de alarmas falsas (repor-
cima de pulgada más cercana se agrupan en una tabla cu- tadas accidentalmente o por mal funcionamiento del
yas clases tienen las limitaciones 5.95, 7 .95, 9.95, 11.95, equipo) que un servicio de supervisión de seguridad re-
13.95 y 15.95. ¿Cuáles son los límites inferiores y supe- cibió en treinta días: 3, 6, 2, 4, 5, 8, 2, 5, 6, 3, 4, 7, 4, 6, 5,
riores de cada clase? 5, 5, 4, 3, 7, 4, 4, 6, 3, 9, 5, 7, 4, 4 y 6. Elabore una distri-
bución de frecuencias.
2.57 Al preguntar a cincuenta residentes de una comunidad si
alguna vez habían asistido a las juntas del consejo del 2.60 Estructure un histograma de la distribución obtenida en el
pueblo, éstos respondieron: nunca, ocasionalmente, rara ejercicio anterior.
vez, rara vez, nunca, rara vez, ocasionalmente, a menudo,
2.61 Las siguientes son las presiones sanguíneas sistólicas de
nunca, rara vez, rara vez, rara vez, ocasionalmente, rara
veinte pacientes hospitalizados: 165, 135, 151, 153, 155,
vez, ocasionalmente, nunca, nunca, rara vez, a menudo,
182, 142, 158, 146, 149, 124, 162, 173, 204, 159, 130,
nunca, nunca, rara vez, ocasionalmente, ocasionalmente,
177, 162, 141 y 156. Elabore una representación gráfica
rara vez, rara vez, nunca, nunca, rara vez, rara vez, a me-
de tronco y hoja con hojas de unidades.
nudo, ocasionalmente, ocasionalmente, nunca, rara vez,
nunca, rara vez, rara vez, ocasionalmente, rara vez, nun- 2.62 En una encuesta, se preguntó a las personas si
ca, nunca, rara vez, ocasionalmente, nunca, rara vez, rara (1) terminaron el bachillerato;
vez, ocasionalmente, rara vez y nunca. Elabore una distri- (2) terminaron la universidad;
bución categórica y trace una gráfica circular. (3) tienen estudios de posgrado.
2.58 Haga una lista de los datos que corresponden a los si- Explique en dónde podrían surgir las dificultades.
guientes sistemas de representaciones gráficas de tronco
y hoja:
2.6
REFERENCIAS
CLEVELAND, W. S., The Elements ofGraphing Data. Monterey, Calif.: Wadsworth Advan-
ced Books and Software, 1985.
SCHMID, C. F., Statistical Graphics: Design Principies and Practices. Nueva York: John Wi-
ley & Sons, Inc., 1983.
TUFrE, E. R., The Visual Display of Quantitative lnformation, Chesshire, Conn.: Graphics
Press, 1985.
PEARSON, E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Prob-
ability. Nueva York: Hafner Press, 1970.
CAMPBELL, S. K., F/aws and Fallacies in Statistical Thinking. Englewood Cliffs, N. J.: Pren-
tice-HaU, Inc., 1974.
HUFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, Inc., 1954.
REICHMAN, Wd., Use andAbuse ofStatistics. Nueva York: Penguin Books, 1971.
HAUSER, P.M. y LEONARD, W. R., Govemment Statisticsfor Business Use, segunda edición,
Nueva York: John Wiley & Sons, Inc., 1956.
Para obtener información acerca del análisis exploratorio de datos y las repre-
sentaciones gráficas de.tronco y hoja en particular, véase.
HARTWIG, F. y DEARING, 8. E., Exploratory Data Analysis. Beverly Hills, Calif.: Sage Pub-
lications, Inc., 1979.
HOAGLIN, D. C., MOSTELLER, F. y TuKEY, J. W., Understanding Robustand Exploratory
Data Analysis. Nueva York: John Wiley & Sons, lnc., 1983.
KOOPMANS, L. H., An Introduction to Contemporary Statistics. Boston: uuxbury Press,
1981.
TUKEY, J. W., Exploratory Data Analysis. Reading, Mass.: Addison-Wesley Publishing
Company, Inc., 1977.
VELLEMAN, P. F. y HoAGLIN, D. C., Applications, Basics, and Computing for Exploratory
DataAnalysis. North Scituate, Mass.: Duxbury Press, 1980.
3.1
POBLACIONES Y MUESTRAS
Aquí, agregamos la frase "hipotéticamente posibles" para tomar las precauciones ne-
cesarias en cuanto a dichas situaciones evidentemente hipotéticas como cuando obser-
vamos los resultados (caras o cruces) de 12 lanzamientos de una moneda al aire como
una muestra del número potencialmente infinito de lanzamientos de una moneda al
aire, cuando observamos los pesos de todos los carneros (del pasado, el presente y el fu-
turo) de 30 días de edad criados en un rancho determinado o cuando observamos cuatro
determinaciones del contenido de uranio de un mineral como una muestra de las mu-
chas determinaciones que de modo concebible se podrían hacer. De hecho, observamos
Jos resultados de un experimento como una muestra de lo que podríamos obtener si re-
pitiéramos el experimento una y otra vez.
Originalmente, la estadística manejaba la descripción de poblaciones humanas,
contabilidades de censo y actividades similares (véase página 5), pero conforme su al-
cance se tornó más amplio, el término "población" cobró la más vasta connotación de
sus orígenes. Ya sea que parezca extraño o no referirse como poblaciones a las alturas
de todos los árboles de un bosque o las velocidades de todos los automóviles que pasan
3.2
LAMEDI~
tEl término "media aritmética" se utiliza principalmente para distinguir la media de la media geométri-
ca o la media armónica, otros dos tipos de promedios que se usan sólo en situaciones muy especiales (véanse
los ejercicios 3.17 y 3.18}.
72
media=-= 6
12
Ya que debemos tener la ocasión de calcular las medias de muchos conjuntos di-
ferentes de datos simples, será conveniente contar con una fórmula sencilla que siem-
pre se pueda aplicar. Esto implica que representemos las cifras a promediar con algún
símbolo general, como x, y o z; el número de valores de una muestra, el tamaño de la
muestra, usualmente es representado con la letra n. Seleccionando la letra x, podemos
referirnos a los n valores de una muestra como x 1, x 2,. •., y x,, (que se leen como "x sub-
uno", "x sub-dos",. .., y "x sub-n"), y se expresan como
media de la muestra
X¡ + X2 + X3 + · · · + X 11
Esta fórmula se podrá aplicar a cualquier conjunto de datos muestrales, pero se puede
hacer más compacta asignando a la media de la muestra el símbolo X: (que se lee "x ba-
rra") y usando la notación L. El símbolo Les sigma mayúscula, la letra griega equiva-
lente a la S. En esta notación, consideramos L x como "la suma de las x's" (esto es, L
x = x1 + x2 + ... + Xn ), y se,puede expresar como
Mediade - l:x
x=~-
la muestra n
Si nos referimos a las medidas como y's o z's, expresamos su media como y o z. En la
fórmula para x el término u no establece explícitamente qué valores de x se suman;
sin emiJargo, comprendamos que L x siempre se refiere a la suma de todas las x' s que
Mediade µ=-
LX
la población N
1
con el recordatorio de que I: x ahora es la suma de todos los valores N de x que cons-
tituyen la población. t
Así mismo, para diferenciar entre las descripciones de poblaciones y las descrip-
ciones de muestras, no usamos símbolos distintos tales como µ y x, sino que nos refe-
rimos a la descripción de una población como un parámetro y a una descripción de una
muestra cómo un valor estadístico. Generalmente, los parámetros se expresan por me-
dio de letras griegas. '
Para ilustrar la terminología y notaciones que presentamos en esta sección, supon-
ga que nos interesamos en la vida media de un lote de producción de N 40,000 focos. =
Es evidente que no podemos probar todos los focos para que ninguno dejara de usarse
o venderse, de modo que tomamos una muestra, calculamos x y usamos esta cantidad
para estimarµ. Sin= 5 y los focos de la muestra duran, 967, 949, 940, 952 y 922 horas,
tenemos
Si estas vidas constituyen una muestra en el sentido técnico (es decir, un conjunto de
datos del que se pueden hacer generalizaciones válidas), podemos estimar que la vida,
µ de los 40,000 focos es de 946 horas.
En el caso de datos no negativos, la media no sólo describe el punto medio de un
conjunto de datos, sino que también establece un límite sobre su tamaño. Si multipli-
camos por n ambos lados de la ecuación · x = ~ x , se deriva que I: x = n · x, por tanto,
n
ningún valor de x puede ser mayor que n · X.
EJEMPLO Si el salario anual medio pagado a los tres ejecutivos principales de una empresa es de
$156,000, ¿es posible que uno de ellos reciba $500,000?
Solución Dado que n = 3 y x = $156,000, tenemos que I:x = 3 · 156,000 = $468,000 y es imposible
que cualquiera de los ejecutivos gane más de esa cantidad.
tEn los casos en que el tamaño de la población es ilimitado, como lo estudiamos en la sección 3.1, no
se puede definir de esta manera la media de la población. La media de una población infinita se comenta en
las referencias de la sección 3 .11.
No obstante, las muestras a veces contienen valores muy bajos o muy altos que son tan
ajenos al cuerpo principal de los datos, que es cuestionable la conveniencia de incluir-
los en una muestra. Tales valores pueden ser consecuencia del azar o de graves errores
en el registro de los datos, errores de cálculo considerables, mal funcionamiento del
equipo u otras fuentes identificables de contaminación. En cualquier caso, cuando se
promedian dichos valores con los otros valores, pueden afectar la media en un grado tal
que es discutible si en'realidad ofrece una descripción útil del "punto medio" de los datos.
EJEMPLO Refiriéndonos a la ilustración acerca de los focos de la página 41, suponga que se re-
gistra el segundo valor incorrectamente como 499 en vez de 949. Encuentre el error que
esto originaría en el cálculo de la vida media de los cinco focos.
Solución La media de 967, 499, 940, 952 y 922 es
EJEMPLO Las edades de seis estudiantes que asistieron a una investigación de campo de geología
son 18, 19, 20, 17, 19 y 18 años y la edad del profesor que los acompañó es de 50 años.
Obtenga la edad media de estas siete personas.
Solución La media es
18 + 19 + 20 + 17 + 19 + 18 + 50
.X= = 23
7
pero cualquier aseveración en el sentido de que la edad media del grupo es 23 años se
podría malinterpretar. Bien podríamos inferir erróneamente que todas las personas que
asistieron a la investigación de campo tienen poco más de veinte años.
Para evitar la posibilidad de confundirse con una media afectada por un valor muy
bajo o muy alto, en ocasiones encontramos que es preferible describir el punto medio
o el centro de un conjunto de datos con una medida estadística diferente de la media;
quizá, con una mediana, que analizaremos en la sección 3.4.
3.3
LA MEDIA PONDERADA
. d
L a me d rn . 40.3 + 56.4 + 62.1
e estos tres porcentajes es ----·--·---- = 52.9, pero no podemos
3
indicar con certeza que ésta sea la tasa promedio de residencias habitadas por sus pro-
pietarios para las tres ciudades. Las tres cifras no tienen la misma importancia porque
existen considerables diferencias en el tamaño de las tres ciudades.
Para dar cantidades de las que se promedia su grado de importancia pertinente, es
necesario asignarles pesos o valores relativos (importancia relativa) y luego calcular
una media ponderada. En general, la media ponderada, .iw de un conjunto de números,
Iw·x
Media ponderada ¿-;-
Aquí, I.w · x es la suma de los productos obtenidos de la multiplicación de cada x por
el valor relativo correspondiente y I.w es simplemente la suma de los valores relativos.
Nótese que cuando todos los valores relativos son iguales, la fórmula de la media pon-
derada se reduce a la fórmula de la media ordinaria (aritmética).
EJEMPLO Considerando que habían 1,135,000 residencias en Los Angeles, 113,000 en Sacra-
mento y 210,000 en San José, utilice estas cifras y los porcentajes del texto anterior
para determinar la tasa (porcentaje) promedio de residencias habitadas por sus propie-
tarios para las tres ciudades.
Solución Sustituyendo Xi =40.3, Xi= 56.4, X3 =62.1, w1 =1, 135, wi =113 y w3 =210 en la fór-
mula para Xw, obtenemos
65,154.7
1,458
= 44.7
Nótese que el valor que obtuvimos para .iw es mucho menor que el de x, 44.7 en com-
paración con 52.9 y esto es consecuencia por completo del gran tamaño de Los Angeles
y su baja tasa de ocupación por los propietarios.
n 1 +ni+···+ nk
datos combinados
donde los valores relativos son los tamaños de los respectivos conjuntos de datos, el nu-
merador es el total de todas las medidas u observaciones y el denominador es el número
total de artículos de los datos combinados.
EJEMPLO En una clase de biología hay 20 alumnos de primer grado, 18 de segundo y 12 de ter-
cero. Si los estudiantes de primer grado promediaron 68 en un examen, los de segundo
.x- = 20·68+18·75+12·86
------------
20 + 18 + 12
3,742
50
= 74.84
EJERCICIOS
3.1 Suponga que se nos proporciona información completa en veinte días laborales: 4, 6, 8, 4, 2, 6, 4, 3, 4, 9, 5, 8, 5,
acerca de los gastos de viaje que los administradores del 3, 5, 7, 6, 3, 8 y 6. Obtenga la media.
equipo de asesoría de computación de una empresa carga-
ron a sus cuentas de gastos durante 1990. Ilustre cada si- 3.7 En un retén, se citó a doce conductores por exceder el lí-
tuación en la que estos datos se considerarían como mite de velocidad por 8, 11, 14, 6, 8, 10, 20, 11, 13, 18, 9
(a) una población y 15 millas por hora.
(b) una muestra (a) ¿Por cuántas millas, en promedio, excedieron estos
conductores el límite de velocidad?
3.2 Los resultados de la elección final de un condado demos- (b) Si un conductor que excede el límite de velocidad
traron que tres candidatos a una oficina recibieron por menos de 15 millas por hora recibe una multa de
14,276, 10,210 y 2,873 votos. Indique una oficina que es- $60 y los demás de $88, obtenga la media de las
tos candidatos podrían buscar, de modo que estas cifras multas que estos conductores deberían pagar.
constituyeran
(a) una población; 3.8 En su toma de posesión, los diez primeros presidentes de
(b) una muestra. Estados Unidos tenían 57, 61, 57, 57, 58, 57, 61, 54, 68 y
51 años. Obtenga la media de las edades de esos presiden-
3.3 Suponga que contamos con la información completa tes en su toma de posesión.
acerca del número de devoluciones de compras de cada
una de 23 tiendas departamentales. Ilustre cada situación 3.9 Como parte de una tarea del laboratorio de nutrición,
en la que estos datos se considerarían como quince estudiantes determinaron el número de calorías de
(a) una población; una porción de lasagna. Obtuvieron los valores 329, 335,
(b) una muestra. 347,318,322,330,351,362,315,342,346,353,316,
327 y 333.
3.4 Suponga que acabamos de obtener los resultados de un
(a) Obtenga la media.
cuestionario aplicado a 848 alumnos de una universidad
(b) Sustraiga 300 a cada valor y luego obtenga la media
particular. Indique una situación en la que éstos se consi-
de los números obtenidos. Sume 300 al resultado.
derarían como
¿Esto sugiere una simplificación en el cálculo de..._
(a) una población;
una media?
(b) una muestra.
3.5 Las siguientes son las edades de treinta personas designa- 3.10 Un puente está diseñado para soportar una carga máxima
das para rendir juramento: 42, 45, 51, 39, 32, 61, 27, 62, de 75,000 kilogramos. ¿Está sobrecargado si soporta 18
53,51,48,40,34,37,28,58,55,43,29,39,40,22,58,28, vehículos con un peso medio de 2,315 kilogramos?
31, 31, 52, 44, 38 y 36 años. Obtenga su edad media.
3.11 Un elevador de un edificio de oficinas está diseñado para
3.6 Los siguientes son los números de perros callejeros cap- soportar una carga máxima de 1,000 kilogramos. ¿Está
turados o devueltos de un asilo para animales de la ciudad sobrecargado si lleva a nueve mujer~s con un peso medio
V'(2)(3)(36) = V2i6 = 6 3.21 Una encuesta muestra) conducida por una organización
de salud pública lanzó los datos siguientes sobre el núme-
La media geométrica se usa principalmente para prome- ro promedio de veces que personas de varios grupos de
diar razones, tasas de variación e índices económicos. edades acuden al dentista:
Total 400
3.4
LA MEDIANA
Para evitar la posibilidad de dejarse llevar por valores muy bajos o muy altos, en oca-
siones describimos el "punto medio" o "centro" de un conjunto de datos con medidas
estadísticas diferentes de la media. Una de éstas, la mediana den valores, requiere que
se acomoden los datos de acuerdo con su tamaño y se define como sigue:
En cualquier caso, cuando no hay dos valores iguales, la mediana se ve excedida por
tantos valores como ésta exceda. Cuando algunos de los valores son iguales, éste puede
no ser el caso.
EJEMPLO En un mes reciente, un departamento estatal de caza y pesca registró 53, 31, 67, 53 y
36 infracciones de caza o pesca en cinco regiones distintas. Obtenga la mediana del nú-
mero de infracciones de estos meses.
Solución La mediana no es 67, el tercer artículo (o medio), porque las cifras se deben ordenar pri-
mero de acuerdo con su tamaño: Así, tenemos
31 36 53 53 67
Nótese que en este ejemplo hay dos 53's entre los datos y que no nos referimos a nin-
guno de éstos como la mediana; la mediana es un número y no necesariamente una me-
dida u observación particular.
EJEMPLO En algunas áreas, las personas citadas por infracciones de tránsito menores pueden
asistir a una clase sobre manejo defensivo en vez de pagar una multa. Obtenga la me-
diana de asistencia si a 12 de esas clases asistieron 40, 32, 37, 30, 24, 40, 38, 35, 40, 28,
32 y 37 personas.
En el ejemplo anterior, algunos de los valores eran iguales, pero esto no afecta la
mediana, que excede seis de los valores y es excedida por otros seis. No obstante, en el
ejemplo siguiente, la situación es bastante distinta:
EJEMPLO En el tercer hoyo de cierto campo de golf, nueve golfistas registraron las calificaciones
4, 3, 4, 5, 4, 3, 3, 4 y 3. Obtenga la mediana.
Solución Ordenando estas cifras de acuerdo con su tamaño, tenemos
3 3 3 3 4 4 4 4 5
Esta vez, la mediana excede cuatro de los valores pero sólo uno la excede y sería erró-
neo considerarla como la "mediana" de las calificaciones; ésta no es excedida tantas
veces como excede otros valores.
El símbolo que usamos para la mediana den valores muestrales X1, xi, X3, ••• , y Xn es
x(y por tanto, yo zsi nos referimos a los valores de y's o z's). El símbolox se lee como
"x tilde". Si un conjunto de datos constituye una población, expresamos su mediana
como ji
Así, tenemos un símbolo para la mediana, pero no una fórmula; sólo hay una fór-
mula para la posición mediana. Refiriéndonos de nuevo a los datos ordenados según
su tamaño, usualmente disponiéndolos de bajos a altos, podemos expresar
Solución Con los datos ordenados de acuerdo con su tamaño (y contándolos a partir de cualquier
. extremo)
n + 1 20 + 1
(a) . -2- = · -2- - = 10.5, de modo que la mediana es la media de los valores del
1()!? y el 11 2 artículos;
n-
(b) - + ·1 = -
48-+-1 = 24.5, de manera que la me d"iana es la me dºta de los va1ores
2 2
del 242 y 25 2 artículos.
·
E s importante recordar que n-+-1es una 1ormu
'' la para l a pos1c10n
· ·' me dºiana y no una 1or-
''
2
mula para la mediana como tal.
La determinación de una mediana a veces se puede simplificar, particularmente en
el caso de conjuntos numerosos de datos, utilizando la agrupación de una repre-
sentación gráfica de tronco y hoja.
EJEMPLO Los siguientes son los números de pasajeros de 50 viajes de un transbordador: 61, 52,
65,84,35,57,58,95,82,64,50,53, 103,40,62, 77, 78,66,60,41,58,92,51,65, 71,
75,89,37,54,67,59, 79,80, 73,49, 71,97,62,68,53,43,80, 75, 70,45,91,50,64,
56 y 86. Elabore una gráfica de tronco y hoja con hojas de un dígito y utilícelo para ob-
tener la mediana.
Solución Elaborando primero la gráfica de tronco y hoja, tenemos
3 5 7
4 o 9 3 5
5 2 7 8 o 3 8 1 4 9 3 o 6
6 5 4 2 6 o 5 7 2 8 4
7 7 8 1 5 9 3 5 o
8 4 2 9 o o 6
9 5 2 7
10 3
3.5
OTROS FRACTILES*
La mediana no es más que uno de muchos fractiles que dividen los datos en dos o más
partes, tan iguales como sea posible. Entre éstos, también encontramos los cuartiles,
deciles y percentiles, que pretenden dividir los datos en cuatro, diez y cien partes. Has-
Aquí, se supone que no hay dos valores iguales; de otra manera, el orden debeóa cam-
biar como lo indicamos en la página 53.
Para ilustrar esto, considere las siguientes lecturas de temperatura alta en doce ciu-
dades europeas en un día de junio: 90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74 y 93 grados.
Ordenando estas cifras de acuerdo con su tamaño, tenemos
72 74 75 77 78 79 82 85 86 90 93 94
y se puede apreciar que las líneas punteadas de la parte superior de la figura 3 .1 dividen
los datos en cuatro partes iguales. Si determinamos que los puntos centrales entre 75 y
77, 79 y 82, y 86 y 90 sean los tres cuartiles, tenemos
75 + 77 79 + 82 + 90
Q¡ =-2-- = 76,
º -J = 2 = 80.5 , y Q3 =
86
2 = 88.
Es evidente que Q2 =80.5 también es la mediana y se puede verificar con facilidad que
se satisfacen las tres propiedades de los cuartiles antes mencionadas.
72 74 75 78 79 82 85 86 90 93 94
La mediana o Q2 ahora es 82, ¿pero qué podemos hacer en relación con las otras dos lí-
neas divisorias? Si se piensa que la segunda de las tres propiedades que se mencionan
en la página 51 es la más considerable, las líneas divisorias se pueden trazar como en
la parte inferior de la figura 3.1, de manera que Q1=75, Q2 = 82 y Q3 = 90. Hay dos va-
lores menores que Q1, dos valores entre Q1 y Q2, dos valores entre Q2 y Q3 y dos valores
mayores que Q3, pero Q1 es excedido cuatro veces por tantos valores como excede y
sólo cinco de los once valores caen entre Q1 y Q3.
A este procedimiento de la obtención de cuartiles se le puede dar una definición
simple. Suponiendo que no haya dos valores iguales (pero, vea el párrafo posterior al
siguiente ejemplo) expresamos que
El cuartil i1'ferior es la mediana de todos los valores menores que la
mediana del conjunto completo de datos.
EJEMPLO Las siguientes son las calificaciones de nueve estudiantes en una prueba de historia: 86,
82, 73, 94, 88, 66, 79, 90 y 74. Obtenga la mediana y los dos cuartiles.
. ~ . 73
. que 1a me d"tana es 82 , e 1cuart1·1o m1enor
y se pue de apreciar + 74 = 73.5, y e1cuar-
2
til superior es 88 +2 90 -- 89 .
3 3 3 3 4 4 4 4 5
en el tercer hoyo de un campo. El cuartil inferior, la media del segundo y el tercer va-
lores, es 3. La mediana, el quinto valor, es 4. El cuartil superior, la media del segundo
y el tercer valores a partir de la derecha, es 4.
75 + 78 86 + 90
Q¡ = 2 = 76.5 y Q3 = 2 = 88.
En realidad, en el análisis exploratorio de datos, nos referimos a estos dos valores como
los puntos esenciales; el punto esencial inferior es 76.5 y el punto esencial superior
es 88. Esta terminología refleja el proceso de doblaIµiento, que usamos para dividir los
datos en cuatro partes.
Habiendo presentado el concepto de un punto esencial por medio de un ejemplo,
ahora demos una definición formal. Suponiendo que no haya dos valores iguales (pero,
vea la figura siguiente) expresamos que
EJEMPLO Las siguientes son las lecturas de presión de nueve personas después de haber efectua-
·~
S oluciun P aran =9 , 1a pos1c1
. "ón me d"iana es -9 +-t = 5. A s1,' 1a pos1c1on
.. , de1 punto esencia
. l"in.e-
e
. es 5- +- t = 3, y e1 punto esencia 2
. 1 superior
. es e1 tercer va1or a partir
. de1 otro extre-
nor 2
mo. Ordenando los datos según su tamaño tenemos
91 94 96 98 100 103 104 108 111
y se puede apreciar que el punto esencial inferior es 96, la mediana es 100 y el punto
esencial superior es 104. Así mismo, si imaginamos líneas punteadas a través de estos
valores como en la figura 3.2, encontraremos que, de hecho, las cuatro partes se tras-
laparán.
Si algunos de los valores son iguales, tal vez debamos modificar la definición de
los puntos esenciales sustituyendo "menores o iguales que la mediana" con "a la iz-
quierda de la posición mediana o en ésta" y "mayores o iguales que la mediana" con "a
la derecha de la posición mediana o en ésta". De otro modo, el procedimiento es exac-
tamente el mismo. Por citar un caso, en el ejemplo de la página 48, los nueve golfistas
obtuvieron las calificaciones
3 3 3 3 4 4 4 4 5
1 1 1 1 1 1 1 1 1 1 1 t 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
~ ~ ro n ~ ~ ~ oo ~ ~ ~ ~ oo ~ ~ ~
t
Valor
t t
Mediana
t
03
t
Valor superior
inferior
FIGURA 3.3 Representación gráfica de recuadro y sección para los datos sobre las
calificaciones en la prueba de historia.
3.6
LA MODA
Otra medida que en ocasiones se usa para describir el "punto medio" o "centro" de un
conjunto de datos es la moda, que se define simplemente como el valor que ocurre con
la mayor frecuencia y más de una vez. Sus dos ventajas principales son que no requiere
de cálculos, sólo de conteo y que se puede determinar al igual para datos cualitativos
que para datos nominales.
EJEMPLO A las 20 juntas de una academia de bailes tradicionales asistieron 26, 25, 28, 23, 25, 24,
24, 21, 23, 26, 28, 26, 24, 32, 25, 27, 24, 23, 24 y 22 de sus miembros. Obtenga la moda.
Solución Entre los veinte números, 21, 22, 27 y 32 ocurren una vez cada uno; 28 ocurre dos ve-
ces; 23, 25 y 26 ocurren tres veces cada uno; y 24 ocurre cinco veces. Así, 24 es la asis-
tencia modal.
Del mismo modo, si más personas que visitan California desean ir a Disneylandia más
que a ningún otro centro turístico, decimos que Disneylandia es su selección modal.
Además del hecho de que la moda rara vez es útil para la inferencia estadística, pre-
senta también la desventaja de que no puede existir (que es el caso cuando no hay dos
valores iguales) o que no puede ser única.
EJERCICIOS
3.23 Encuentre Ja posición mediana para 92, 86, 109, 102, 92, 353, 78, 74, 102, 106, 95 y 91 por
(a) n = 25; ciento de sus cuotas de ventas. Calcule la media y la me-
(b) n =32. diana de estos porcentajes e indique cuál de las dos medi-
das da una mejor idea del rendimiento "promedio" de es-
3.24 Encuentre la posición mediana para tos vendedores.
=
(a) n 37;
(b) n = 64. 3.33 Para verificar Ja aseveración de que Ja media por Jo gene-
ral es más confiable que la mediana (expresamente, que
3.25 En quince días, un restaurante sirvió desayunos a 40, 52, está sujeta a menores fluctuaciones posibles), un estu-
55, 38, 40, 48, 56, 56, 60, 37, 58, 63, 46, 50 y 61 clientes. diante condujo un experimento consistente en 12 lanza-
Obtenga Ja mediana. mientos de tres dados. Los siguientes son sus resultados:
3.26 En 1991, doce vendedores de autos usados vendieron 58, 2, 4 y 6; 5, 3 y 5; 4, 5 y 3; 5, 2 y 3; 6, 1y5;3, 2 y 1; 3, l
70, 85, 42, 64, 46, 66, 89, 44, 93, 58 y 79 autos usados. y 4; 5, 5 y 2; 3, 3 y 4; 1, 6 y 2; 3, 3 y 3; y 4, 5 y 3.
Obtenga Ja mediana. (a) Calcule las doce medianas y las doce medias.
(b) Agrupe las medianas y medias obtenidas en Ja parte
3.27 Veinte fallas de energía duraron 18, 125, 44, 96, 31, 26, (a) en distribuciones separadas que tengan las cla-
80,49, 125,63,45, 33,89, 12, 103, 75,40, 80,61 y28 mi- ses 1.5-2.5, 2.5-3.5, 3.5-4.5 y 4.5-5.5. (Nótese que
nutos. Obtenga Ja mediana. no habrá ambigüedades ya que las medianas de tres
3.28 Otenga el número mediano de infracciones de tránsito de números enteros y las medias de tres números ente-
Jos 18 conductores del ejemplo de la página 55. ros no pueden equivaler a 2.5, 3.5 ni 4.5.)
(c) Elabore histogramas de las dos distribuciones obte-
3.29 En diecinueve páginas de un informe, un mecanógrafo nidas en Ja parte (b) y explique cómo ilustran Ja ase-
cometió O, O, 1, 2, O, 3, 1, O, O, O, O, 1, O, O, 4, 1, O, Oy 2 veración de que Ja media generalmente es más con-
errores. Encuentre fiable que la mediana.
(a) Ja media;
(b) Ja mediana. 3.34 Vuelva a hacer el ejercicio anterior con sus propios datos
lanzando en repetidas ocasiones tres dados (o un dado tres
3.30 Los siguientes valores son Jos tiempos en minutos de veces) y elaborando las distribuciones correspondientes
veinticinco juegos de Ja National Basketball Association de las medianas y medias. (Si no dispone de ningún dado,
(NBA): simule el experimento mentalmente, usando una compu-
138 142 113 126 135 tadora o sacando pedazos de papel de un sombrero.)
142 159 157 140 157 3.35 Un servicio de pruebas de consumo obtuvo las siguientes
121 128 142 164 155 millas por galón en cinco recorridos de prueba realizados
139 143 158 140 118 con cada uno de tres automóviles compactos:
142 146 123 130 137
Automóvil A: 27.9 30.4 30.6 31.4 31. 7
(a) Obtenga la mediana directamente ordenando los
Autom6vil B: 31.2 28. 7 31.3 28. 7 31.3
datos de acuerdo con su tamaño.
(b) Obtenga Ja mediana elaborando primero una gráfi- Automóvil C: 28.6 29.1 28.5 32.1 29. 7
ca de tronco y hoja.
(a) Si Jos fabricantes del automóvil A quieren anunciar
3.31 Utilice la gráfica de tronco y hoja de la página 16 para en-
que su carro obtuvo el mejor rendimiento en esta
contrar Ja mediana de las calificaciones que veinte estu-
prueba, ¿cuál de Jos "promedios" estudiados en este
diantes obtuvieron en una prueba de coordinación física.
texto se podrían usar para sustentar su asevera-
3.32 En cierto mes, quince vendedores alcanzaron 107, 90, 80, ción?
3.7
LA DESCRIPCION DE LOS DATOS AGRUPADOS*
Aquí, n es el tamaño de la muestra.Ji +/2 + ... +fk y para expresar una fórmula corres-
pondiente para la media de una población sustituimos µ con x y N con n.
Marca
de. clase Frecuencia
X f x·f
6.95 3 20.85
10.95 10 109.50
14.95 14 209.30
18.95 25 473.75
22.95 17 390.15
26.95 9 242.55
30.95 2 61.90
80 1,508.00
La mediana de una distribución es tal que la mitad del área total de los
rectángulos del histograma de la distribución cae a su izquierda y la
otra mitad cae a su derecha.
Esta definición, que ilustramos por medio de la figura 3.5, es igual que la suposición de
que los valores de la clase que contiene la mediana de los datos agrupados están distri-
buidos equitativamente -es decir, dispersados en forma regular- a través de la clase.
Para encontrar la línea divisoria entre las dos mitades de un histograma (cada una de las
n n
cuales representa 2. de los elementos agrupados) debemos contar 2. de los elementos
Solución Ya que ~= 8
2° = 40, debemos contar 40 de los elementos empezando por cualquie1
extremo. Empezando por la parte inferior de la distribución (esto es, empezando con
los valores más bajos), encontramos que 3 + 10 + 14 =27 de los valores caen en las pri-
Mediana de los -
X= L +-·e
j
datos "'grupa dos f
EJEMPLO Use este planteamiento alternativo para encontrar la mediana de la distribución de los
datos de la emisión de óxidos de azufre.
Solución Dado que 2 + 9 + 17 =28 de los valores deben caer sobre 20.95, necesitamos 40 - 28
=12 de los 25 valores que caen en la clase siguiente para obtener la mediana, y expre-
samos que
12
.X= 20.95 - 25 ·4 = 19.03
Nótese que se puede obtener la mediana de una distribución sin importar que todos
los intervalos de la clase sean iguales; de hecho, por lo general, se puede encontrar aún
si alguna o ambas clases de la parte superior o la inferior de una distribución son abier-
tas (véase el ejercicio 3.52).
También podemos usar el método por el que encontramos la mediana de una dis-
tribución para determinar otros fractiles. Por ejemplo, se definen los tres cuartiles (que
pretenden dividir un conjunto de datos en cuatro partes más o menos iguales) para los
datos agrupados de modo que 25% del área total de los rectángulos del histograma cae
del lado izquierdo de Qi, 25% cae entre Q1 y Q2, 25% cae entre Q2 y QJ y 25% cae a la
derecha de Q3 • En forma similar, se definen los nueve deciles (que pretenden dividir un
conjunto de datos en diez partes más o menos iguales) para los datos agrupados de
modo que 10% del área total de los rectángulos del histograma cae a la izquierda de Di,
10% cae entre Di y D2,··· y 10% cae del lado derecho de D9. Y finalmente, se definen
Y contando 80(0.02) = 1.6 de los artículos comenzando con los valores más bajos, te-
nemos
1.6
P2 = 4.95 + 3 .4 = 7.08
EJERCICIOS
*3.52 Determine, para cada una de las siguientes distribucio- (b) IQ Frecuencia
nes, si es posible enq:mtrar la media y/o la mediana:
Menos de90 3
(a) Calificación Frecuencia 90- 99 14
100-109 22
110-119 19
40-49 5
Más de 119 7
50-59 18
60-69 27
70-79 15
80-89 6
Edad(años) 1 Frecuencia
*3.53 Encuentre Ja media de Ja siguiente distribución de las ca-
lificaciones que obtuvieron 500 estudiantes en un exa- 15-19 16
men de geografía: 20-24 35
25-29 44
Número de 30-34 27
Calificación estudiantes 35-39 17
40-44 8
10-24 44 45-49 2
25-39 70 50-54
40-54 92
55-69 147
70-84 115 •3.60 Refiriéndonos a Ja distribución del ejercicio anterior, en-
85-99 32 cuentre
(a) Ja mediana;
(b) Jos cuartiles Q1 y QJ.
*3.54 Refiriéndonos a Ja distribución del ejercicio anterior, en- •3.61 Refiriéndonos a la distribución del ejercicio 3.59, en-
cuentre cuentre Jos dos fractiles que dividen Ja distribución en tres
(a) Ja mediana; partes iguales.
(b) Jos cuartiles Q1 y QJ. •3.62 Encuentre Ja media de Ja distribución obtenida en el ejer-
*3.55 Refiriéndonos a Ja distribución del ejercicio 3.53, encuentre cicio 2.22 de Ja página 26 para Jos pesos de las 50 ratas.
(a) Jos deciies D1 y D9; También, use un programa de computación o una calcu-
(b) Jos percentiles Ps y P9s. ladora para encontrar Ja media de Jos datos originales (no
agrupados) y Juego determine el tamaño del error de agru-
*3.56 Encuentre la media de Ja siguiente distribución de Jos por- pación.
centajes de Jos estudiantes que pertenecen a un grupo ét- •3.63 Encuentre Ja media de Ja distribución obtenida en el ejer-
nico determinad_o ~n una muestra de 50 escuelas prima- cicio 2.27 de la página 26 para Jos rendimientos obtenidos
rias: con 40 tanques llenos de gasolina. También, use un pro-
grama de computación o una calculadora para encontrar
Número de la media de Jos datos originales (no agrupados) y Juego
escuelas determine el tamaño del error de agrupación.
Porcentaje
•3.64 Suponga que se han agrupado Jos valores de Jos datos en
O- 4 18 una distribución con el intervalo de Ja clase c. Se garan-
5- 9 15 tiza que el error de agrupación en el cálculo de Ja media no
10-14 9 puede ser mayor que c. Compare, para cada uno de Jos dos
15-19 7 ejercicios anteriores, el error de agrupación con el inter-
20-24 1 valo de Ja clase.
En la notación que presentamos en la página 40, I x no nos indica cuáles ni cuántos va-
lores de x debemos sumar. Se maneja esto con la notación más explícita
n
LX¡= x1 + x 2 + ··· + Xn
i= 1
donde es evidente que estamos sumando lasx's cuyos subíndices, i, son 1, 2, ... y n. No 1
estamos usando la notación más explícita en este texto para simplificar la apariencia
general de las fórmulas, suponiendo que en cada caso es evidente a qué x' s nos estamos
refiriendo y cuántas hay.
Usando la notación I, también tendremos la ocasión para escribir expresiones ta-
les como Ix2, I.xy, Ix'l, ... , que representan (más explícitamente) las sumas
n
"
L. X¡ -
2_
X¡
2
+ Xz2 + X 32 + ··· + Xn2
i= 1
m
L xjyj = X1Y1 + X2Y2 + ... + XmYm
j= 1
n
L x? f; = xU
i= 1
1 + x~ f 2 + ··· + x; fn
Trabajando con dos subíndices, también tendremos la ocasión de evaluar dobles suma-
torias como
3 4 3
L L X¡i = L (x i + x2i + x3i + x4i)
j=l i=l j=l
1
n n
Regla A: L (X¡± y¡)= LX¡± L y¡i-:;o;: 1
i= 1 i= 1
Reglas para n
las sumatorias ReglaB: L k·x¡ = k· IX¡
i= 1 i= 1
n
Regla C: L k = k •n
i= 1
EJERCICIOS
i= 1 j= 1
3.70 Considerando quexu = 3,x12 = 1,x13 =-2,X14 = 2,x21 = 1,
3.66 Escriba cada una de las siguientes expresiones sin signos X22= 4, X23 = -2, X24 = 5, X31 = 3, X32 = -1, X33 = 2 y X34 = 3,
de sumatoria y simplifique si es posible: encuentre
5
(a) L (X¡+ J);
(a)
3
¿ xij por separado paraj = 1, 2, 3 y 4;
i= 1
i= 1
4 4
(b) ¿ (3y); (b) ¿ xij por separado para i = 1, 2 y 3.
j=l j=I
4 4 3.71 En relación con el ejercicio anterior, evalúe la doble su-
(c) ¿ X; + L1 (2x). 3 4
i= 1 j= matoria, ¿ ¿ xij usando
i= 1j=1
3.67 Escriba como sumatorias cada una de las siguientes ex-
presiones: (a) los resultados de la parte (a) de ese ejercicio;
(a) z 1 +z 2 +z 3 +z 4 ; (b) los resultados de la parte (b) de ese ejercicio.
(b) X6 + X7 + Xg + X9 + X¡o +X¡¡; n
(c) xif1 + X2f2 + X3f3 + X4f4 + Xsfs + x6f6; 3.72 Demuestre que ¿ (x - .X) = O para cualquier conjunto
i= 1
(d) yf + y~ + y~ + y¡ + y~;
(e) 3x 1 + 3x 2 + 3x 3 + 3x4 + 3x 5 + 3x 6; de x's cuya media sea x.
(f) (x 1 - y¡) + (x 2 - Y2) + (x3 - y3) + (x4 - y4);
(g) (w 1 - 5) + (w 2· - 5) + (w 3 - 5);
(h) a 1b 1c 1 + a 2b 2c 2 + a 3b 3c 3 + a4b4c4 .
3.73 ¿Es cierto, en términos generales, que
(Sugerencia: Verifique si la ecuación es verdadera para
Ct x;y ¡t
= xf?
3.9
REVISION DE TERMINOS CLAVE
(con referencia de página a sus definiciones)
3.10
EJERCICIOS DE REVISION
3.74 Las siguientes son las clasificaciones de televidentes es- •3.78 En relación con el ejercicio 3.77, encuentre
timadas para dieciséis partidos de futbol profesional: (a) Ja mediana de Ja distribución;
(b) Jos cuartiles de Ja distribución.
1.46 1.32 1.58 1.88 1.32 1.39 l. 72 1.66
1.82 1.21 1.36 1.76 1.86 1.63 1.55 1.57 *3.79 Refiriéndonos al ejercicio 3.77, encuentre el 60!! percentil
de la distribución.
Obtenga la mediana y Ja moda para estos valores. 3.80 Un productor de comerciales de televisión sabe exacta-
*3.75 Encuentre Jos puntos esenciales para las clasificaciones mente 'uánto dinero se gastó en Ja producción de cada
de televidentes del problema anterior. uno de diez comerciales de un minuto. Dé un ejemplo de
un problema en el que estos datos se considerarían como
3.76 En una venta de beneficencia, una organización de servi- (a) una población;
cios vendió 120 libros con un precio medio de $2.10, 80 (b) una muestra.
pasteles con un precio medio de $2.75 y 50 artesanías con
un precio medio de $4.55. Encuentre el importe del total 3.81 Encuentre Ja posición mediana para
de las ventas y del precio medio por artículo vendido. (a) n=31;
(b) n = 80.
•3.77 La siguiente es Ja distribución del número de días que llo-
vió en Seattle en 60 meses: 3.82 Las siguientes son las ganancias de 1990, en miles de dó-
lares de diez vendedoras industriales:
Número
de días Frecuencia 28.2 30.5 25.8 20.4 23.2
32.5 33.0 26.4 28.8 27.3
5-7 5
8-10 9 (a) Encuentre Ja mediana de estas ganancias.
11-13 12 (b) Encuentre la media de estas ganancias.
14-16 18
17-19 13 •3.83 Con base en los datos del problema anterior, encuentre
20-22 3 Jos puntos esenciales de las ganancias de 1990 de estas
vendedoras.
Calcule la media. 3.84 En un día de clases, un estudiante obtuvo 78 de califica-
HooKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc.,
1983.
HuFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, lnc., 1954.
Para mayor información acerca del uso y la interpretación de los puntos esenciales,
léanse los libros sobre el análisis exploratorio de datos al que hacemos referencia en la
página 36.
La simplificación de los cálculos de los datos agrupados por medio del uso de la
"codificación" se analiza en el apéndice C de
HAMBURG, M., Basic Statistics: A Modem Approach. Nueva York: Harcourt Brace, Jovano-
vich, Inc., 1974.
NETER, J., WASSERMAN, W. y WHITMORE, G., Applied Statistics, segunda edición. Boston:
Allyn and Bacon, Inc., 1982.
4.1 La amplitud 70
4.2 La varianza y la desviación estándar 71
4.3 Aplicaciones de la desviación estándar 74
4.4 La descripción de los datos agrupados * 81
4.5 Algunas descripciones adicionales * 82
4.6 Revisión de términos clave 86
4.7 Ejercicios de revisión 86
4.8 Referencias 88
En la mayoría de los conjuntos de datos, no todos los valores son iguales. El grado en
el que varían es de suma importancia en la estadística. Considere los ejemplos que se
dan a continuación:
En un hospital en el que se toma tres veces al día la presión sanguínea de cada pa-
ciente, la del paciente A es de 72, 76 y 74, mientras que la del paciente Bes de 72, 91
y 59. La lectura de presión media de los dos pacientes es la misma, 74, pero observe
la diferencia de la variabilidad. En tanto que la presión del paciente A es estable, la del
paciente B fluctúa en gran medid~.
Un supermercado almacena ciertas bolsas de una libra de nueces mixtas, que en
promedio contienen 12 almendras por bolsa. Si todas las bolsas contienen cualquier
cantidad de 1O a 14 almendras, el producto es consistente y satisfactorio, pero la situa-
ción es bastante distinta si algunas de las bolsas no tienen almendras mientras que
otras tienen 20 o más.
Considere a un jugador de basquetbol que ha anotado 22, 26 y 24 puntos en sus
tres primeros juegos. Un compañero de equipo ha anotado 41, 13 y 18 puntos en los
mismos juegos. Ambos jugadores tienen el mismo promedio, 24, pero el primer jugador
es más consistente.
La medida de la variabilidad es de especial importancia para la inferencia estadís-
tica. Suponga, por ejemplo, que tenemos una moneda ligeramente doblada y nos pre-
guntamos si las probabilidades de cara o cruz aún son de cincuenta-cincuenta. ¿Qué
sucede si lanzamos la moneda al aire 100 veces y obtenemos 28 caras y 72 cruces?
¿La disminución de caras -de sólo 28, cuando podríamos haber esperado 50- implica
que el conteo no es "justo"? Para responder a tales preguntas debemos tener alguna
idea acerca de la magnitud de las fluctuaciones o variaciones consecuencia de cuando
al azar se lanzan monedas 100 veces al aire.
Necesitamos valorar el grado en el que los datos están dispersos; las medidas que
esta información proporcionará se conocen como medidas de variación. En las sec-
ciones 4.1 a 4.3 presentamos las medidas de variación más comunes y algunas de sus
aplicaciones especiales. En las secciones 4.4 y 4.5, que son opcionales, se estudia la
medida de la variación de los datos agrupados y algunas descripciones estadísticas
distintas de las medidas de localización y variación.
4.1
LA AMPLITUD
tiene una amplitud de 20- 5 = 15, pero en cada caso la dispersión es por completo dis-
tinta. Así, la amplitud se usa principalmente como una referencia de variabilidad "rá-
pida y fácil", por ejemplo, en el control de calidad industrial para mantener una super-
visión rigurosa de las materias primas o algunos productos mediante la observación y
graficación de la amplitud de muestras pequeñas tomadas con intervalos de tiempo ,re-
gulares.
Mientras que la amplitud comprende todos los valores de una muestra, una medida
de variación similar comprende (más o menos) el 50% medio. Esta es la amplitud en-
tre cuartiles, Q3 -Qi. donde Q1 y Q3 se pueden definir de varias maneras para datos no
agrupados o agrupados como en las secciones 3.5 y 3.7. Por ejemplo, para las nueve ca-
lificaciones de la prueba de historia de la página 52, podríamos usar Q1-Q1 = 89 - 73.5
= 15.5 y para la distribución de los datos de la emisión de óxido de azufre podríamos
usar los valores de Q1 y Q1 de la página 62 y escribir 22.83 - 14.95 = 7 .88. Algunos es-
tadistas tam,bién usan la amplitud semi-intercuartílica, i (Q1 -Q1), que en ocasiones
se conoce como la desviación entre cuartiles.
4.2
LA VARIANZA Y LA DESVIACION ESTANDAR
Para definir la desviación estándar, que por mucho es la medida de variación usada
con mayor frecuencia, observemos que la dispersión de un conjunto de datos es peque-
ña si los valores se acumulan estrechamente alrededor de su media; y que es amplia si
los valores se acumulan en forma esparcida alrededor de su media. Por tanto, parecería
razonable medir la variación de un conjunto de datos en los términos de las cantidades
por las que se desvían los valores de su media. Si un conjunto de números, xi, x 2 , x 3 , ...
y x,,, que constituye una muestra, tiene la media x, las diferencias x1-X'.x2 -x, x1-
x, ... y x,, -x se conocen como las desviaciones de la media y esto sugiere quepo-
dríamos usar su promedio (específicamente.su media) como una medida de la variación
de la muestra. Por desgracia, esto no resultaÍá. A menos de que todas las x's sean igua-
les, algunas de las desviaciones serán positivas, algunas serán negativas y como se le pi-
dió al lector que lo demostrara en el ejercicio 3.72 de la página 66, la suma de las des-
viaciones de la media, :r(x -x), y por tanto también su media, siempre serán de cero.
Ya que en realidad nos interesa la magnitud de las desviaciones y no si son posi-
tivas o negativas, simplemente podríamos ignorar los signos y definir una medida de
JL.<x n-x)2
y así es como tradicionalmente se solía definir la desviación estándar. La expresión en
forma literal de lo que aquí hemos hecho en forma matemática, se llama también la des-
viación cuadrática media.
Es común que se modifique esta fórmula dividiendo la suma de las desviaciones
cuadráticas de la media entren - 1 en vez de n. Siguiendo esta práctica, que explicare-
mos a continuación, definamos la desviación estándar de la muestra, expresada con
unas, como
Desviaci6n
estándar de
s= JL.<x- x)2
n-1
la muestra
2 '[,(x - x)2
Varianza de s ==----
n- 1
la muestra
Desviación
estándar de
la población
72 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION
timaciones de µ, encontrarfamos que su promedio se aproxima mucho a µ. Sin embar-
EJEMPLO En seis domingos consecutivos, un operador de grúa recibió 9, 7, 11, 10, 13 y 7 llama-
das de servicio. Calcule s.
Solución Calculando primero la media, obtenemos
- 9 + 7 + 11 + 10 + 13 + 7 57
X= . 6 =6 = 9.5
y el trabajo requerido para encontrar I: (x -'X)2 se puede ordenar como en la tabla si-
guiente:
X x-x (x - x)2
9 -0.5 0.25
7 -2.5 6.25
11 1.5 2.25
10 0.5 0.25
13 3.5 12.25
7 -2.5 6.25
o.o 27.50
Fue fácil calcular s en este ejemplo porque los datos eran números enteros y la me-
dia era exactamente de un decimal. De otro modo, los cálculos requeridos por la fórmu-
EJEMPLO Use esta fórmula de cálculo paras para volver a trabajar con el ejemplo anterior.
Solución Primero calculamos l: x y l: x 2 , obteniendo
X X2
9 81
7 49
11 121
10 100
13 169
7 49
57 569
Esto nos da
. [2750
s = ...¡~ = .J5.5 = 2.3,
concordando con el resultado antes obtenido.
También se puede usar la fórmula paras para obtener cr; se debe reemplazar el de-
nominador n - 1 por N.
4.3
APLICACIONES DE LA DESVIACION ESTANDAR
. 1 3
Así, podemos estar seguros de que, como mínimo, 1 - 22 = 4' o 75% de los va-
lores de cualquier conjunto de datos debe caer dentro de las dos desviaciones estándar
de cualquier lado de la media; por lo menos 1 - 3\ = ~· o 88.9% debe caer dentro de
las tres desviaciones estándar de cualquier lado de la media; y que como mínimo
1 24
1 - 52 = 25 , o 96% debe caer dentro de las cinco desviaciones estándar de cualquier
lado de la media. Aquí, arbitrariamente establecemos que k =2, 3 y 5.
EJEMPLO Si todas las latas de una libra de café llenadas por un procesador de alimentos tienen un
peso medio de 16.00 onzas con una desviación estándar de 0.02 onzas, ¿qué porcentaje
de las latas, como mínimo, debe contener entre 15.80 y 16.20 onzas de café?
Solución Ya que k desviaciones estándar o k(0.02) equivale a
tenemos que k(0.02) =0.20 y k = 0·20 = 10.De acuerdo con el teorema de Chebys-
0.02
. 1
hev, se denva que porlo menos 1 - 102 = 0.99, o 99% de las latas debe contener entre
15.80 y 16.20 onzas de café.
El teorema de Chebyshev se aplica a cualquier tipo de datos, pero sólo nos indica
"por lo menos qué porcentaje" debe caer entre ciertos límites. Para casi todos los datos,
el porcentaje real de datos que cae entre los límites es bastante mayor que el que espe-
cifica el teorema de Chebyshev.
(1) alrededor del 68% de los valores caerán dentro de una desviación
estándar de la media, esto es, x -s y x + s;
(3) alrededor del 99.7% de los valores caerán dentro de tres desviacio-
nes estándar de la media, esto es, entre x - 3s y x + 3s.
EJEMPLO Use los valores deiy s que se dan en la impresión por computadora de la figura 3.4 para
determinar qué porcentaje de los datos de la emisión de óxidos de azufre de la página
22 en realidad cae dentro de una desviación estándar de la media, dentro de dos desvia-
ciones estándar de la media y dentro de tres desviaciones estándar de la media.
Solución Puesto quei= 18.896 y s = 5.6565, primero tendremos que determinar el porcentaje de
los datos que cae entre
dos límites. De modo similar, encontramos que ;~ · 100% = 97.5% de los datos cae
80
dentro de dos desviaciones estándar de la media y que . 80 · 100% = 100% de los datos
cae dentro de tres desviaciones estándar de la media.
Los resultados que hemos obtenido aquí no son exactamente 68, 95 y 99.7%, pero sería
lógico señalar que son "aproximadamente 68%" "aproximadamente 95%" y "aproxi-
madamente 99.7%". Del mismo modo, la figura 2.2 de la página 28 demuestra que la
distribución de los datos tiene la forma de una campana en cierto modo cortada, así que
en realidad no podemos esperar resultados perfectos.
Fórmula
para converti1 X-X x-µ
z=-- o z=--
a unidades s u
estándard
dependiendo de que los datos constituyan una muestra o una población. En estas uni-
dades, z nos indica cuántas desviaciones estándar un valor cae por encima o por debajo
de la media del conjunto de datos al que pertenece. En capítulos posteriores se usarán
con frecuencia unidades estándar.
EJEMPLO Los modelos con dos años de antigüedad de cierta marca de automóvil se han estado
vendiendo, en promedio, a $7 ,860 con una desviación estándar de $820, en tanto que
los modelos con tres años de antigüedad de la misma marca de automóvil se han estado
vendiendo, en promedio, a $6,400, con una desviación estándar de $960. ¿Un modelo
con dos años de antigüedad valuado en $6,960 es una mejor oferta que un modelo con
tres años de antigüedad valuado en $5,400, sin tomar en cuenta todas las demás consi-
deraciones?
Solución Convirtiendo ambos precios en unidades estándar, obtenemos
6,960 - 7,860 = -1 10
820 .
para el automóvil con dos años de antigüedad y
5,400 - 6,400 = - 1 04
960 .
Una desventaja de la desviación estándar como una medida de variación es que de-
pende de las unidades de medida. Por ejemplo, los pesos de ciertos objetos pueden tener
una desviación estándar de 0.1 onzas o 2,835 miligramos, que es lo mismo, pero ningún
valor nos indica en realidad si refleja una variación muy alta o una variación muy baja.
Si estamos pesando los huevos de aves pequeñas, ninguna cifra reflejaría una vari"ación
importante, pero éste no sería el caso si pesamos costales de papas de 100 libras. Lo que
necesitamos en una situación como ésta es una medida de variación relativa, como el
coeficiente de variación
Coeficiente
V=~·l00% o V=~·l00%
de variación x º ~
que expresa la desviación estándar como up porcentaje de lo que se mide, por lo menos,
en promedio.
EJEMPLO Varias m~didas del diámetro de un rodamiento de balas tomadas con un micrómetro tu-
vieron una media de 2.49 mm y una desviación estándar de O.O 12 m,m y varias medidas
dela longi~d de un resorte sin estirar tomadas con otro micrómetro tuvieron una media
de 0.75 pul~das con una-Oesviación estándar de 0.002 pulgadas. ¿Cuál de los dos mi-
crómetros e~ relativamente más preeiso?
Solución Calculando los dos coeficientes de· variación, obtenemos
0.012 o o
2.49 . 100% = 0.48% y 0 ·002 • 100%
0.75 o
= o. 27%o
Así, las medidas de longitud del resorte son relativamente variables y esto significa que
(!l segundo micrómetro es más preciso. Ambos coeficientes de variación son menores
del 1%, de modo que ambos micrómetros califican como altamente precisos.
EJERCICIOS
4.1 Los siguientes son los tiempos de respuesta de una alarma 4.3 Los siguientes son los precios al cierre de dos acciones en
de humo después de liberar humo desde una fuente fija: cinco viernes consecutivos:
12, 9, 11, 7, 9, 14, 6y10 segundos. Encuentre la amplitud.
4.2 Los siguientes números son las producciones (en cajas Capital A: 15~ 151 16~ 16~ 15j
por acre) de pasas durante un periodo de diez años en Cali- Capital B: 22~ 22 21~ 22~ 22¡
fornia.
80 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION
día de 4.96 mm con una desviación estándar de 0.022 Pollo: 46 55 43 48 54 65 36 40
mm. El segundo midió el diámetro de una varilla metálica 51 53 64 32 41 46 53 47
y obtuvo una media de 6.48 mm con una desviación es- Bistec: 39 41 25 30 46 36 37 23
tándar de 0.032 mm. ¿Cuál de los dos instrumentos fue re- 30 33 50 44 41 28 35 37
lativamente más preciso?
Calcule los dos coeficientes de variación para determinar
4.30 La presión sanguínea de un paciente se midió diariamente el artículo para el que el número de órdenes es relativa-
durante varias semanas. Estas medidas tuvieron una me- mente más variable.
dia de 188 con una desviación estándar de 14.2. También
se tomó a diario la presión de un segundo paciente, obte- *4.32 Una medida alternativa de la variación relativa es el coe·
niéndose un promedio de 136 con una desviación están- ficiente de variación de cuartiles, que se define como
dar de 8.6 La presión sanguínea de ¿qué paciente es rela- Q3 - Q1 • 100% donde Q1 y Q3 son los cuartiles interior y
tivamente más variable? Q3 + Q¡
superior. Use los resultados del ejercicio 4. 7 de la página
4.31 En dieciséis días, un restaurante tuvo los siguientes nú- 79 para obtener el coeficiente de variación de cuartiles
meros de órdenes de pollo y bistec: para la distancia de frenado del ejercicio 3.38 de la página57.
4.4
LA DESCRIPCION DE LOS DATOS AGRUPADOS*
- Ix·f
x=--- y S = ~ x2 • f - (L x • f)2
n "" L. n
Entonces
EJEMPLO Obtenga la media y la desviación estándar de la siguiente distribución, dando las can-
tidades de tiempo que 80 estudiantes de universidad dedicaron a actividades de espar-
cimiento durante una semana escolar típica:
10-14 8
15-19 28
20-24 27
25-29 12
30-34 4
35-39 1
12 144 8 96 1,152
17 289 28 476 8,092
22 484 27 594 13,068
27 729 12 324 8,748
32 1,024 4 128 4,096
37 1,369 1 37 1,369
80 1,655 36,525
:X = l,:i 5 = 20.6875
Sxx = 36,525 -
(1,655) 2
80 = 2287.19 y entonces s= )22 ~~· 19 = 5.38
4.5
ALGUNAS DESCRIPCIONES ADICIONALES*
Hasta ahora, hemos estudiado sólo descripciones estadísticas conocidas por lo regular
como medidas de localización o medidas de variación. En realidad, el número de ma-
neras en que se pueden describir los datos estadísticos es ilimitado y los estadistas con-
tinuamente desarrollan nuevos métodos de descripción de características de datos nu-
méricos que son de interés en problemas particulares. En esta ocasión consideraremos
escuetamente el problema de la descripción de la forma general de una distribución.
Aunque las distribuciones de la frecuencia pueden tener casi cualquier contorno o
forma, la mayoría de las distribuciones que encontramos en la práctica se pueden des-
cribir muy bien por medio de una u otra forma de pocos tipos estándar. Entre éstas, des-
taca en importancia la distribución acampanada simétrica, que ha sido aptamente
descrita y que presentamos en la parte superior de la figura 4.2; es simétrica cerca de
EJEMPLO Use los resultados obtenidos en las páginas 58-60 y 62,junto con S = 5.55, para encon-
trar el coeficiente de asimetria de Pearson para la distribución de los datos de la emisión
de óxidos de azufre.
Solución Sustituyendo x = 18.85, x = 19.03 y s = 5.55 en la fórmula, obtenemos
Además de las distribuciones que hemos estudiado en esta sección, otras dos dis-
tribuciones que se encuentran algunas veces en la práctica son las distribuciones en
EJERCICIOS
*4.33 En una fábrica, el tiempo que una máquina no está ope- *4.35 Calcule el coeficiente de asimetría de Pearson para la dis-
rando en horas de trabajo es resultado de una falla o des- tribución del ejercicio anterior y comente sobre la sime-
compostura conocida como un tiempo perdido. La si- tría o sesgo de los datos.
guiente distribución presenta una muestra de la duración
*4.36 Encuentre s para la distribución de las calificaciones cfut
de los tiempos perdidos de cierta máquina:
ejercicio 3.53 de la página 63.
Tiempo *4.37 Utilice los resultados del ejercicio 3.53, la parte (a) del
perdido ejercicio 3.54 y el ejercicio anterior para calcular el coe-
(minutos) Frecuencia ficiente de asimetría de Pearson para la distribución de las
calificaciones del ejercicio 3.53. Comente sobre la sime-
O- 9 2 tría o asimetría de los datos.
10-19 15
20-29 17 *4.38 En una muestra de 30 intervalos de tres minutos un res-
30-39 13 taurante de comida rápida sirvió a 4, 5, 5, 8, 7, 3, 5, 6, 9,
40-49 3 5, 6, 5, 4, 7, 3, 5, 10, 6, 4, 5, 6, 9, 4, 5, 3, 8, 6, 7, 4 y 5
clientes. Calcule el coeficiente de asimetría de Pearson y
comente acerca del sesgo o asimetría de estos datos.
Obtenga
(a) la media y la mediana; *4.39 Elabore una representación gráfica de recuadro para los
(b) la desviación estándar. datos del ejercicio anterior y comente sobre la simetría o
asimetría de los datos.
4.34 Encuentre i y para la siguiente distribución de las ganan-
cias semanales de 125 asalariados. Observe que las mar- 4.40 Trace una gráfica de recuadro para los datos del ejercicio
cas de la clase son $124.995, $134.995, $144.995 y así 3.37 de la página 57 y comente sobre su simetría o sesgo.
sucesivamente. Estos cálculos serán en cierto modo más
fáciles si usted suma a estas cifras $0.005, teniendo $125, *4.41 Trace una gráfica de recuadro para los datos del ejercicio
$135, $145 y así en forma consecutiva. Esta acción tendrá 3.38 de la página 57 y comente acerca de la simetría o ses-
el efecto de aumentar medio centavo en promedio, a cada go de las distancias de frenado.
valor de la lista. *4.42 Trace una gráfica de recuadro para los datos del ejercicio
3.28 de la página 56 y comente sobre su simetría o sesgo.
Ganancias semanales
(dólares) Frecuencia *4.43 Trace una gráfica de recuadro para los datos de la NBA
del ejercicio 3.30 de la página 56 y comente acerca de su
120.00--129.99 9 simetría o sesgo.
130.00-139.99 20
140.00-149.99 36 *4.44 Los siguientes son los números de 6's obtenidos en 50
150.00-159.99 30 lanzamientos de cuatro dados: 0,0,1, O, O, O, 2, O, O, 1, O,
160.00-169.99 15 O, O, O, 1, 1, O, 1, 2, O, O, 1, O, O, O, 1, 1, O, 1, O, O, 1, 2, 1,
170.00-179.99 11 O, O, 3, 1, 1, O, O, O, O, 1, 2, 1, O, O, 1 y l. Elabore una dis-
180.00-189.99 4 tribución de la frecuencia y un histograma y comente so-
bre la forma general de los datos.
4.6
REVISION DE TERMINOS CLAVE
(Con referencia de página a sus definiciones)
4.7
EJERCICIOS DE REVISION
4.48 Encuentre la desviación estándar para un conjunto de da- mailana entre 8:00 a.m. y el mediodía tuvieron una media
tos para el que n = 15, :E :X= 202 y :Ex= 3,452. de $56.42 y una desviación estándar de $12.40. ¿Qué por-
centaje de los importes, como mínimo, debe caer entre
4.49 Los importes de las compras de los clientes de un super-
$37.82 y $75.02?
mercado particular correspondientes a un sábado por la
Total 200
FREUND, J. E., Mathematical Statistics, quinta edición. Englewood Cliffs, N. J.: Prentice-Hall,
Inc., 1987.
Para encontrar información adicional acerca del uso y la interpretación de las repre-
sentaciones gráficas de recuadro léanse los libros sobre el análisis exploratorio de datos
que se mencionan en la página 36.
MILLS, F. G, Introduction to Statistics. Nueva York: Holt, Rinehart and Winston, 1956.