Sunteți pe pagina 1din 89

Octava

Edición ESTAD IS TI CA
ELEMENTAL
John E. Freund
Arizona State University

Gary A. Simon
New York University

TRADUCCION
JOSE JULIAN DIAZ DIAZ
Traductor

REVISION TECNICA
MARCIAL GIL RICO RICO
Ingeniero Civil

'
--------
PEARSON
Educación
®

México • Argentina • Brasil • Colombia • Costa ~ca • Chile • Ecuador

.
España • Guatemala • Panamá • Perú • Puerto Ricp • Uq1guay :ven'ézuela
.

040230

COLEF BIBLIOTECA
INTRODUCCION

1.1 El crecimiento de la estadística moderna 2


1.2 El estudio de la estadística 3
1.3 Estadística descriptiva e inferencia estadística 5
1.4 La naturaleza de los datos estadísticos * 7
1.5 Revisión de términos clave 10
1.6 Ejercicios de revisión 10
1.7 Referencias 11
La recopilación, el proceso, la interpretación y la presentación de los datos numéricos
pertenece al dominio de la estadística. Estas tareas comprenden el cálculo de los pro-
medios de bateo de beisbol, la recopilación de datos sobre nacimientos y muertes, la
evaluación de la efectividad de productos comerciales y el pronóstico del tiempo. La in-
formación estadística se nos presenta constantemente en la radio y la televisión. Nues-
tro entusiasmo por los hechos estadísticos se ve alentado por diarios nacionales, tales
como The Wall Street Journal y USA Today.
La palabra "estadística" se usa de varias maneras. Se puede referir no sólo a la
simpie tabulación de información numérica, corr.o en los informes de las transacciones
bursátiles, sino también al conjunto de técnicas que se utilizan en el procesamiento o
el análisis de datos.
También el término "estadista" se usa de varias maneras. El término se puede apli-
car a quienes simplemente recopilan información, así como a aquellos que elaboran
análisis o interpretaciones y también a los académicos que desarrollan la teoría mate-
mática sobre la cual se basa la estadística.
En las secciones 1.1 y 1.2 estudiamos el crecimiento reciente de la estadística y
su campo de aplicaciones siempre creciente. En la sección 1.3 explicamos la diferencia
entre las dos ramas principales de la estadística, la estadística descriptiva y la inferen-
cia estadística y en la sección 1A, que es opcional, analizamos la naturaleza de las di-
versas clases de datos y en relación con esto, advertimos al lector acerca del uso del
tratamiento matemático indiscriminado de los datos estadísticos.

1.1
EL CRECIMIENTO DE LA ESTADISTICA MODERNA

Hay varias razones por las que el alcance de la estadística y la necesidad de estudiar la
estadística han crecido de manera considerable en los últimos quince años o a1go así.
Una razón es el planteamiento cuantitativo que se usa en forma creciente en todas las
ciencias, así como en los negocios y muchas otras actividades que afectan m.:1estras vi-
das de modo directo. Esto incluye el uso de técnicas matemáticas en la evaluación de
sistemas de con_trol de emisión de contaminantes, la planificación de las existencias, el
análisis de los patrones del tránsito, el estudio de los efectos de varias clases de medi-
camentos, la evaluación de técnicas de enseñanza, el análisis del comportamiento com-
petitivo de empresarios y gobiernos, el estudio de la dieta y la longevidad y demás ac-
tividades pertinentes. La disponibilidad de computadoras poderosas ha incrementado
en gran medida nuestra capacidad para manejar información numérica. El costo de mu-
chas computadoras también es accesible, de modo que pequeñas empresas, estudiantes
universitarios y aun bachilleres pueden efectuar un trabajo estadístico sofisticado.
La otra razón es que la cantidad de datos que se recopila, procesa y difunde al pú-
blico por a~gún motivo se ha incrementado casi más allá de la comprensión y cada quien
debe determinar la parte "buena" y la parte"'mala" de l<} estadística. Para actuar como
vigilantes, se requiere que cada vez más personas con cierto conocimiento-estadístico
participen en forma activa en la recopilación y el at¡áJisis de los datos y, lo que es de
igual importancia, en toda la planificación preliminar. Sin haber participado en esta úl-
tima actividad, es aterrador pensar en todos los aspectos que pueden presentar proble-
mas en la recopilación de datos estadísticos. Los resultados de costosas encuestas pue-

2 CAP. 1 / INTRODUCCION
den ser inútiles si las preguntas son ambiguas o se formulan erróneamente, si se formu-
lan a las personas equivocadas, en el lugar o el momento equivocado. Como lo ilustran
los ejemplos siguientes, gran parte de esto consiste tan sólo en el sentido común:

EJEMPLO Para determinar la opinión del público acerca de la continuación de cierto programa gu-
bernamental, un entrevistador pregunta: "¿Piensa que este programa derrochador se
debería detener?" Explique por qué esta pregunta quizá no obtendrá la información de-
seada.

Solución De hecho, el entrevistador está "rogando por la pregunta" a sugerir que el programa in-
curre en el dispendio.

EJEMPLO Para estudiar la reacción de los consumidores en relación con un nuevo producto ali-
' sin
menticio, se realiza una encuesta casa por casa todos los días durante las mañanas,
repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto puede ge-
nerar información equivocada.

Solución Esta encuesta no llegará a aquellas personas que es más probable usen el producto: sol-
teros y parejas de casados en las que ambos trabajan.

Si bien gran parte del crecimiento de la estadística al que se hizo mención comen-
zó antes de la "revolución de las computadoras", la amplia disponibilidad y el uso de
la computadora han acelerado el proceso en gran medida. En particular, las computa-
doras nos permiten manejar, analizar y clasificar grandes cant.idades de datos, así como
realizar cálculos que en el pasado parecían demasiado complicados inclusive para ob-
servarlos. El objetivo de este libro será que usted comprenda las ideas de la e,stadística.
Para ésta, el acceso a la computadora no es crucial. A veces, en el texto se ilustran los
usos de la computadora, pero casi todos los ejercicios pueden realizarse sólo con una
calculadora de cuatro funciones.

1.2
EL ESTUDIO DE LA ESTADISTICA

La materia de la estadística puede presentarse en diferentes niveles de dificultad mate-


mática y puede estar dirigida hacia aplicaciones en distintos campos de la investiga-
ción. De acuerdo con esto, se han escrito muchos libros de texto sobre estadística
empresarial, estadística educativa, estadística médica, estadística psicológica, ... , e in-
clusive sobre estadísticá para historiadores. Si bien los problemas que surgen en estas
distintas disciplinas en ocasiones requerirán de técnicas estadísticas especiales, ninguno
de los métodos básicos que se analizan en este libro está limitado a un campo de apli-
cación en particular. De la misma forma en que 2 + 2 = 4 sin importar si lo que sumamos
son dólares, caballos o árboles, los métodos que presentaremos proporcionan modelos
estadísticos que se aplican sin importar si los datos son coeficientes intelectuales, pa-
gos de impuestos, tiempos de reacción, lecturas de la humedad, evaluación de pruebas,

SEC. 1.2 I EL ESTUDIO DE LA ESTADISTICA 3


etcétera. Para ilustrar mejor esto, considere el ejercicio 13.96 de la página 379, que ela-
boró el autor.

13.96 En una muestra aleatoria de 200 personas jubiladas, 137 afirmaron que
prefieren vivir en un departamento que vivir en una casa unifamiliar. En el
nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todas
las personas jubiladas prefieren vivir en un departamento que en una casa
unifamiliar?

La pregunta que se plantea aquí debería ser clara y también debería serlo que la res-
puesta sería interesante sobre todo para los científicos sociales o para personas de la in-
dustria de la construcción. Sin embargo, si quisiéramos satisfacer los intereses de estu-
diantes de biología, ingeniería, educáción o ecología, tendríamos que replantear el ejer-
cicio como sigue:

13.96 En una muestra aleatoria de 200 árboles de cítricos expuestos a una tempe-
ratura de - 6.66º, 137 mostraron daños en sus frutos. En el nivel 0.05 de
significancia, ¿esto refuta la aseveración de que el 60% de todos los árboles
de cítricos expuestos a una temperatura de - 6.66º presentarán algún daño en
sus frutos?

13.96 En una muestra aleatoria de 200 transistores producidos por un fabricante


determinado, 137 pasaron una prueba de rendimiento acelerado. En el nivel
0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todos los
transistores producidos por ese fabricante pasará la prueba?

13.96 En una muestra aleatoria de 200 estudiantes de bachillerato de una ciudad


grande, 137 dijeron que asistirían a la universidad. En el nivel 0.05 de
significancia, ¿esto refuta la aseveración de que el 60% de todos los estu-
diantes de bachillerato de esta ciudad asistirá a la universidad?

13.96 En una muestra aleatoria de 200 automóviles sometidos a verificación de


emisión de contaminantes, 137 no cumplieron las normas legales del estado.
En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60%
de todos los automóviles verificados en este estado no cumplirá con las
normas legales de emisión?

Hasta donde el trabajo de este libro comprende, el tratamiento estadístico de todas


estas versiones del ejercicio 13.96 es el mismo y con algo de imaginación el lector po-
drá replantearlo para casi cualquier campo de especialización. Como algunos autores
lo hacen, podríamos presentar y designar problemas especiales para los lectores con in-
tereses específicos, pero esto opacaría nuestro objetivo de señalar al lector la importan-
cia de la estadística en todas las ciencias, los negocios y la vida diaria. Para lograr este
objetivo, hemos incluido en este texto ejercicios que cubren una amplia gama de inte-
reses.
Para evitar la posibilidad de confundir a alguien con nuestras diferentes versiones
del ejercicio 13.96, debemos aclarar que no es posible plantear todos los problemas de
estadística siguiendo el mismo patrón. A pesar que los métodos que estudiaremos en
este libro tienen una aplicación amplia, siempre es importante asegurarse que el mode-
lo estadístico utilizado sea el correcto.

4 CAP. 1 / INTRODUCCJON
EJERCICIOS
1.1 Replantee el ejercicio 13.96 al que se hace referencia en (b) Para estudiar los patrones de gasto de las familias
la página 4 de modo que sea de interés para de un grupo de ingresos determinados, se realiza
(a) un vendedor de cosméticos; ·una encuesta durante las primeras tres semanas de
(b) un músico; diciembre.
(c) un ingeniero de tráfico.
1.4 Explique por qué cada uno de los siguientes estudios qui-
1.2 Una "mala" estadística puede resultar del plantearniento zá no genere la información deseada:
de preguntas en forma incorrecta o a las personas equivo- (a) Para deterrninar la proporción de latas de café mal
cadas. Explique-por qué las siguientes situaciones pueden selladas, un inspector de control de calidad analiza
generar información inútil: · cada quincuagésima lata que sale de la línea de pro-
(a) Para determinar el sentirniento del público en cuan- ducción.
to a una restricción de comercio exterior específica, (b) Para determinar el ingreso anual promedio de sus
un entrevistador pregunta a los electores: "¿Usted egresados 10 años después de la graduación, en
cree que esta práctica injusta debería detenerse?" 1990 la oficina de alumnos de una universidad en-
(b) Con el objeto de pronosticar una elección munici- vió cuestionarios a todos los miembros de Ja gene-
pal, un encuestador de opinión pública telefonea a ración de 1980 y la estimación se basó en Jos cues-
personas seleccionadas al azar en el directorio tele- tionarios que regresaron.
fónico de la ciudad. (c) Para averiguar Jos hechos acerca de los hábitos de
limpieza dental, se preguntó a una muestra de Jos
1.3 Una "mala" estadística puede resuttar del plantearniento residentes de una comunidad cuántas veces al día se
de preguntas en el lugar o momento incorrectos. Explique
cepillaban los dientes.
por qué las siguientes situaciones pueden generar infor-
mación inútil:
(a) Para pronosticar una elección, un encuestador en-
trevista a las personas que salen de un edificio en el
que se encuentra la sede nacional de un partido po-
lítico.

1.3
ESTADISTICA DESCRIPTIVA E INFERENCIA ESTADISTICA

El origen de la estadística moderna se puede rastrear en dos áreas de interés que, super-
ficialmente, tienen muy poco en común: gobierno (ciencia política) y juegos de azar.
-i::os gobiernos han hecho gran uso de .los censos para contar personas y propiedad,
y el problema de describir, resumir y analizar los datos de los censos ha llevado al de-
sarrollo de los métodos que hasta hace poco constituían casi todo el material disponible
de la materia de estadística. Estos métodos, que en un principio consistían sobre todo
en la presentación de datos en forma de tablas y gráficas, constituyen lo que ahora lla-
mamos estadística descriptiva. Esta comprende cualquier actividad relacionada con
los datos y está diseñada para resumir o describir los mismos sin factores pertinentes
adicionales; esto es, siri intentar inferir nada que vaya más allá de los datos, como tales.
Por ejemplo, si las pruebas practicadas en seis automóviles compactos, demostraran
que pueden acelerar de Oa 100 k/h en 18.7, 19.2, 16.2, 12.3, 17.5 y 13.9 segundos y re-
portáramos que la mitad de éstos aceleró de O a 100 k/h en menos de 17.0 segundos,

SEC 1.3 / ESTADISTICA DESCRIPTIVA E INFERENCIA ESTADISTICA 5


nuestro trabajo pertenecería al dominio de la estadística descriptiva. Este también sería
el caso si sostuviéramos que estos seis automóviles promediaron

18.7 + 19.2 + 16.2 + 12.3 + 17.5 + 13.9 = 16 .3 segundos


6

pero no es así si concluimos que la mitad de todos los automóviles importados ese año
podrían acelerar de O a 100 k/h en menos de 17.0 segundos.
Aunque la estadística descriptiva es una rama importante de la estadística y con-
tinúa usándose en forma general, por lo regular se deriva de muestras (de observaciones
hechas sólo acerca de una parte de un conjunto numeroso de elementos) y esto implica
que su análisis requiere de generalizaciones que van más allá de los datos. Como con-
secuencia, la característica más importante del reciente crecimiento de la estadística ha
sido un cambio en el énfasis de los métodos que describen a métodos que sirven para
hacer generalizaciones; es decir, un cambio en el énfasis de la estadística descriptiva a
los métodos de la inferencia estadística.
Por ejemplo, se requiere que tales métodos pronostiquen el periodo de vida de una
calculadora de bolsillo (sobre la base del comportamiento de varias calculadoras simi-
lares); para calcular el valor estimado para 1995 de todas las propiedades privadas de
Orange County, California (sobre la base de las tendencias empresariales, las proyec-
ciones de población y demás factores pertinentes); para comparar la efectividad de dos
dietas para reducir de peso (sobre la base de las pérdidas de peso de personas que han
estado a dieta); para determinar la dosis más efectiva de un nuevo medicamento (sobre
la base de pruebas practicadas con pacientes voluntarios de hospitales seleccionados);
o para pronosticar el flujo de tránsito de una vía rápida que aún no ha sido construida
(sobre la base de conteos de tránsito hechos en el pasado en rutas alternativas).
En cada una de las situaciones descritas en el párrafo anterior existen incertidum-
bres, porque sólo hay información parcial, incompleta o indirecta; por lo tanto, los mé-
todos de inferencia estadística necesitan valorar los méritos de nuestros resultados,
para seleccionar el pronóstico "más prometedor", o para seleccionar el curso de acción
"más razonable" (el pronóstico "potencialmente más rentable").
En vista de las incertidumbres, manejamos problemas como éstos con métodos es-
tadísticos que tienen su origen en los juegos de azar. Aunque el estudio matemático de
los juegos de azar se remonta al siglo XVII, no fue sino hasta el inicio del siglo XIX que
ta teoría desarrolló un criterio de "caras o cruces" por ejemplo, o de "rojo o negro" o
"pares o nones", se aplicó también a situaciones de la vida real en que los resultados
eran "niño o niña'', "vida o muerte", "éxito o fracaso" y demás. Así, la teoría de la
probabilidad se aplicaba a muchos problemas de las ciencias del comportamiento, na-
turales y sociales y en la actualidad constituye un importante instrumento para el aná-
lisis de cualquier situación (en las ciencias, los negocios o la vida diaria) que en cierto
modo implica un elemento de incertidumbre o de azar. En particular, proporciona la
base para los métodos que usamos cuando generalizamos, a partir de datos observados,
expresamente, cuando utilizamos los métodos de inferencia estadística.
En años reciernes, se ha sugerido que el énfasis se ha distanciado mucho de la es-
tadística descriptiva para aproximarse a la inferencia estadística y que se debería pres-
tar una mayor atención al tratamiento de problemas que requieren sólo de técnicas des-
criptivas. Para cubrir estas necesidades, en fechas recientes se han desarrollado algunos
métodos descriptivos nuevos con la nomenclatura de análisis exploratorio de datos.
En las secciones 2.3 y 4.5 se presentarán dos de estos métodos.

6 CAP. 1 / INTRODUCCION
1.4
LA NATURALEZA DE LOS DATOS ESTADISTICos*t

Los datos estadísticos son la materia prima de las investigaciones estadísticas -surgen
siempre que se toman medidas o se registran observaciones. Pueden ser pesos de ani-
males, medidas de características de la personalidad o intensidades de movimientos te-
lúricos y pueden ser simples respuestas de "sí o no" de descripciones del estado civil de
las personas como solteras, casadas, viudas o divorciadas. Dado que en la página 2 se-
ñalamos que la estadística maneja datos numéricos, esto requiere alguna explicación,
porque las respuestas de "sí-o no" y las descripciones del estado civil difícilmente pa-
recerían corresponder a la calificación de numérico. Observe, no obstante, que pode-
mos registrar las respuestas de "sí o no" a una pregunta como Oy 1 (o como 1 y 2, o tal
vez como 29 y 30 si nos referimos a la decimoquinta pregunta de "sí o no" de una prue-
ba) y que podemos registrar el estado civil de una persona 1, 2, 3 o 4, dependiendo de
que la persona sea soltera, casada, viuda o divorciada. De esta manera artificial o no-
minal, los datos categóricos (cualitativos o descriptivos) se pueden convertir en datos
numéricos y si, en consecuencia, clasificamos las diversas categorías, nos referimos a
los números que registramos como datos nominales.
Los datos nominales son numéricos sólo por su nombre, porque no comparten nin-
guna de las propiedades de los números que manejamos con la aritmética común. Por
ejemplo, si registramos estados civiles como 1, 2, 3 o 4, como hemos sugerido, no po-
demos expresar que 3 > 1 o que 2 < 4 y no podemos expresar que 2 - 1 = 4 - 3, que
1 + 3 = 4 o que 4 + 2 = 2, de ahí que siempre es importante verificar si los cálculos
matemáticos efectuados en un análisis estadístico en realidad son legítimos.
Ahora consideremos algunos ejemplos en que los datos comparten algunas, pero
no necesariamente todas las propiedades de los números que manejamos con la aritmé-
tica ordinaria. Por ejemplo, en mineralogía, la dureza de los sólidos se determina me-
diante la observación de "qué raya qué". Si un mineral puede rayar otro, éste recibe un
número de dureza más alto y en la escala de Mohs, los números del 1 al 10 se asignan
al talco, el yeso, la calcita, la fluorita, la apatita, el feldespato, el cuarzo, el topacio, el
zafiro y el diamante. Con estos números podemos expresar que 6 > 3, por ejemplo, o
que 7 < 9, ya que el feldespato es más duro que la calcita y el cuarzo es más suave que
el zafiro. Por otro lado, no podemos expresar que 10 - 9 = 2 - 1, por ejemplo, porque
la diferencia entre el diamante y el zafiro en realidad es mucho más grande que la di-
ferencia entre el yeso y el talco. Así mismo, no sería significativo indicar que el topacio
es dos veces más duro que la fluorita simplemente porque sus números de dureza res-
pectiva en la escala Mohs son de 8 y 4.
Si no podemos hacer nada más que determinar desigualdades, como fue el caso en
el ejemplo anterior, nos referimos a los datos ordinales. En relación con los datos or-
dinales, > no significa necesariamente "mayor que"; se puede usar para denotar con-
ceptos como "más feliz que", "preferible que", "más difícil qu,e", "más sabroso que" y
demás.

tcomo se explicó en el prefacio, todas las secciones marcadas con el símbolo* son opcionales. Aunque
el material de esta sección pretende servir como una advertencia en contra del tratamiento matemático inais-
criminado de los datos estadísticos, es de mayor importancia para los estudiantes de las ciencias del compor-
tamiento y sociales, donde las escalas artificiales sirven para medir, digamos, tendencias de neurosis, felicidad
o conformidad con las normas sociales.

SEC. 1.4 / LA NATURALEZA DE LOS DA TOS EST ADISTICOS 7


Si también podemos determinar diferencias, pero no podemos multiplicar o divi-
dir, nos referimos a los datos como datos de intervalo. Para dar un ejemplo, suponga
que se nos dan las lecturas de temperatura siguientes en grados Fahrenheit: 63º, 68º,
91º, 107º, 126° y 131 º.Aquí, podemos expresar que 107° > 68° o 91° < 131 º,que sim-
plemente significa que 107° es más cálido que 68º y que 91 º es más frío que 131°. Del
mismo modo, podemos expresar que 68° - 63º = 131 º - 126º, ya que las diferencias
de temperatura iguales son iguales en el sentido de que se requiere de la misma cantidad
de calor para aumentar la temperatura de un objeto de 63º a 68º al igual que de 126° a
131 º;Por otro lado,,Jl_o...sería muy significativo expresar que 126º es el doble de cálido
de 63º, aunque 126º·+ 63º = 2. Para demostrar por qué, sólo tenemos que convertir a
grados Celsius, donde la primera temperatura se convierte en ~(126- 32) 52.2º, la se- =
gunda temperatura se convierte en f(63 - 32) =17 .2°, y demostrar que la primera ci-
fra ahora es de más de tres veces de la segunda. Esta dificultad surge porque las escalas
Fahrenheit y Celsius tienen origen (cero) artificial; en otras palabras el número cero de
ninguna escala indica la ausencia de cualquier cantidad que intentemos medir.
Si también podemos formar cocientes, nos referimos a los datos como datos racio-
nales y no es dificil obtener tales datos. Estos incluyen todas las medidas (o determina-
ciones) comunes de longitud, altura, cantidades de dinero, peso, volumen, área presión,
tiempo transcurrido (aunque no el tiempo calendario), intensidad del sonido, densidad,
brillo, velocidad y demás.
La diferencia que hemos hecho aquí entre datos nominales, de intervalo y raciona-
les es importante, ya que como apreciaremos, la naturaleza de un conjunto de datos
puede sugerir el uso de técnicas estadísticas particulares. Para enfatizar el punto de que
lo que podemos y lo que no podemos hacer aritméticamente con un conjunto de datos
determinado depende de la naturaleza de los datos, considere las siguientes calificacio-
nes obtenidas por cuatro estudiantes en las tres partes de una prueba de historia com-
pleta

Historia de Historia de Historia


América Europa antigua

Linda 89 51 40
Toin 61 56 54
Henry 40 70 55
Rose 13 77 72

Los totales de los cuatro ~studiantes son de 180, 171, 165 y 162, de modo que Linda ob-
tuvo la calificación más alta, seguida por Tom, Henry y Rose.
Ahora suponga que alguien propone que comparemos el rendimiento total de los
cuatro estudiantes clasificando sus calificaciones de altas a bajas para cªda parte de la
prueba promediando luego sus clasificaciones. Lo que obtenemos aparece en la tabla
siguiente

Historia de Historia de Historia Rango


América Europa antigua promedio

Linda 1 4 4 3
Tom 2 3 3 213
Henry 3 2 2 213
Rose 4 1 1 2

8 CAP. l I INTRODUCCION
Aquí, la clasificación del promedio de Linda se calculó como 1 + 4 + 4 = ~ = 3 el
3 3 '
de Tom como 2+3+3 = -8 = 2-, 2 , .
y as1 sucesivamente.
3 3 3
Ahora, si observamos el rango promedio, encontramos que Rose resultó ser la me-
jor, seguida por Henry, Tom y Linda, de modo que el orden es el inverso del anterior.
¿Cómo es esto posible? Bien, pueden suceder cosas raras cuando promediamos rangos.
Por ejemplo, cuando se trata de sus rangos, el excedente de 28 puntos de Linda sobre
Tomen historia de América cuenta tanto como el excedente de Tom de 5 puntos en his-
toria de Europa y el excedente de Tom sobre Henry de 21 puntos en historia de América
cuenta tanto como el excedente de Henry sobre él por un solo punto en historia antigua.
Concluimos que, tal vez, no deberíamos haber promediado sus rangos sino que también
se podría señalar que ni siquiera deberíamos haber totalizado las calificaciones origi-
nales. La variación de las calificaciones en historia de América que van de 13 a 89 es
mucho más alta que la de las otras dós clases de calificaciones y esto afecta en gran me-
dida las calificaciones totales y sugiere un resultado imperfecto del procedimiento. No
deberíamos comprender esto aquí, ya que nuestro objetivo ha sido sólo alertar al lector
en contra del uso indiscriminado de las técnicas estadísticas.

EJERCICIOSt

1.5 En cinco pruebas de biología un estudiante obtuvo califi- (d) Jean probablemente tomó sus vacaciones anuales
caciones de 46, 61, 74, 79 y 88. ¿A cuál de las conclusio- durante el segundo mes.
nes siguientes se puede llegar a partir de estas cifras me-
diante métodos meramente descriptivos y que requieren
l. 7 En tres días consecutivos, un policía de tránsito levantó 9,
14 y 10 infracciones por conducir;con exceso de veloci-
de generalizaciones? Explique sus respuestas.
dad y 5, 1O y 12 infracciones por no respetar el semáforo
(a) Sólo dos de las calificaciones fueron mayores
en rojo. ¿A cuál de las conclusiones siguientes se puede
que 75.
(b) Las calificaciones de cada uno en cada prueba au- llegar a partir de métodos meramente descriptivos y que
mentan en la siguiente. requieren de generalizaciones? Explique sus respuestas.
(a) En los tres días, el policía levantó más infracciones
(c) El estudiante debe haber estudiado más arduamente
por conducir con exceso de velocidad que por no
para cada prueba sucesiva.
respetar el semáforo en rojo.
(d) La diferencia entre las calificaciones más altas y las
(b) En dos de los tres días, el policía levantó más infrac-
más bajas es de 42.
ciones por conducir con exceso de velocidad que
1.6 Mary y Jean son vendedoras de bienes raíces. En los pri- por no respetar el semáforo en rojo.
meros tres meses de 1990 Mary vendió 3, 6 y 2 casas uni- (c) El policía levantó el número más bajo de infraccio-
familiares y Jean vendió 4, O y 5 casas unifamiliares.¿A nes en el primer día porque era su primer día de tra-
cuál de las conclusiones siguientes se puede llegar a partir bajo.
de métodos meramente descriptivos y que requieren de (d) En un día, el policía rara vez levantará más de 15 in-
generalizaciones? Explique sus respuestas. fracciones por conducir con exceso de velocidad.
(a) Durante los tres meses Mary vendió más casas uni-
1.8 Los tres limones que una persona compró en el mercado
familiares que Jean.
pesaron 200, 225 y 340 gramos. ¿A cuál de las conclusio-
(b) Mary es una mejor vendedora de bienes raíces que
nes siguientes se puede llegar a partir de métodos mera-
Jean.
mente descriptivos y que requieren de generalizaciones?
(c) Mary vendió por lo menos dos casas unifamiliares
Explique sus respuestas.
durante cada uno de los tres meses.

tLos ejercicios que se han señalado con el símbolo * fonnan parte del material opcional.

SEC. 1.4 I LA NATURALEZA DE LOS DATOS ESTADISTICOS 9


(a) El peso promedio de los tres limones es de 765 gra- (a) Números de seguridad social.
mos. (b) El número de pasajeros que viajan en autobús de
(b) El promedio ponderado de los limones que se ven- Los Angeles a San Diego.
den en el mercado es de 765 gramos. (c) Clasificaciones del interés vocacional, consistentes
*1.9 Obtendremos datos nominales u ordinales si en el número total de respuestas de "sí" para un con-
(a) los mecánicos tienen que indicar si es muy difícil, junto de preguntas, si se puede suponer que cada
difícil, fácil o muy fácil cambiar las bujías de un au- respuesta de "sf' representa el mismo incremento
tomóvil último modelo; del interés vocacional.
(b) la religión de las personas que intentan suicidarse se (d) Grados militares.
clasifica como 1, 2, 3, 4 o 5, representando el pro-
testantismo, el catolicismo, el judaísmo, otra y nin- *1.11 Las clasificaciones del coeficiente intelectual en ocasio-
guna; nes se consideran como datos de intervalo. ¿Qué suposi-
(c) los consumidores deben señalar si prefieren la mar- ción implicaría esto acerca de las diferencias de la inteli-
ca A que la B, les agradan las dos por igual o prefie-1 gencia de tres personas con coeficientes intelectuales de
ren la marca B que la A; 95, 105 y 135? ¿Es lógica esta suposición?
(d) los consumidores deben señalar si prefieren la mar-
ca A que la B, les agradan las dos por igual, prefie- *1.12 En la página 8 indicamos que los datos que pertenecen al .
ren la marca B que la A o no expresan su opinión. tiempo calendario (por ejemplo, los años en que el equipo
de futbol de la Armada derrota al de la Marina) no son da-
*1.10 ¿Los datos siguientes son nominales, ordinales, de in ter-' tos racionales. Explique por qué. ¿Qué tipo de medidas
valo o racionales? Explique sus respuestas. temporales constituyen los datos racionales?

1.5
REVISION DE TERMINOS CLAVEt
(con referencias de página a sus definiciones)

Análisis exploratorio de datos, 6 Estadística descriptiva, 5


*Datos de intervalo, 8 Inferencia estadística, 6
*Datos nominales, 7 Modelos estadísticos, 3
*Datos o~dinales, 7 Teoría de la probabilidad, 6
*Datos racionales, 8

1.6
EJERCICIOS DE REVISIONt·

1.13 El boletaje pagado para· asistir a lé>s juegos de futbol en (a) La asistencia al tercer partido en casa fue baja por-
casa de. una pequeña universidad fue de 12,305, 10,984, que llovió.
6,850; 11,733 y 10,641. ¿A cuál de las siguientes conclu- (b) Entre los cinco juegos, el boletaje pagado fue más
siones se puede llegar a partir de estas cifras por medio de alto en el primer partido.
métodos meramente descriptivos y que requieren de ge- (c) El boletaje pagado superó los 11,000 en dos de los
neralizaciones? Explique sus respuestas. cinco juegos.

tLos términos que se han señalado co11'P.I símbolo* forman parte del material opcional.
tLos ejercicios de revisión marcados con el símbolo *pertenecen al material opcional.

10 CAP. 1 I INTRODUCCION
(d) El bolct<ije pagado se incrementó del tercer al cuar- importaciones de India, se pregunta a personas se-
to partido en casa porque el equipo de futbol de la leccionadas si les agrada el arte hindú.
universidad había estado ganando. (b) Para valorar los hechos relacionados con los hábi-
tos de baño, a una muestra de los ciudadanos de un
* t.14 ¿Los datos siguientes son nominales, ordinales, de inter-
país europeo se le pregunta cuántas veces en pro-
valo o racionales? Explique sus respuestas.
medio se bañan a la semana.
(a) Elevaciones sobre el nivel del mar.
(b) Respuestas a la pregunta de si (en el área del centro 1.18 Usando el mismo modelo de automóvil, cinco conducto-
de una ciudad grande) las condiciones de vida "es- res promediaron 9.95, 9.57, 10.2, 9.95 y 9.65 kilómetros
tán empeorando mucho", "están empeorando un por litro. ¿A cuál de las siguientes conclusiones se puede
poco", "permanecen igual", "están mejorando un llegar a partir de estas cifras por medio de métodos mera-
poco" o "están mejorando mucho". mente descriptivos y que requieren de generalizaciones?
(c) Antigüedad de automóviles usados. Explique sus respuestas.
(d) Respuestas de las licencias para conductores en re- (a) Con mayor frecuencia que ninguna de las otras ci-
lación con el color de ojos. fras, los conductores promediaron 9.95 kilómetros
por litro.
1.15 Explique por qué cada uno de los datos siguientes bien
(b) Con mayor frecuencia que ninguna de las otras ci-
podría fracasar para proporcionar la información deseada:
fras, los conductores de este tipo de automóvil pro-
(a) Para pronosticar una elección municipal, un en-
mediaron 9.95 kilómetros por litro.
cuestador de opinión pública hace preguntas a las
(c) Ninguno de los promedios difiere de 9.99 por más
personas que caminan frente a la oficina de gobier-
de 1.6093 kilómetros.
no municipal. ,
(d) Si se repite el experimento completo, ninguno de
(b) Para determinar la opinión del público sobre ciertas
los conductores promediará menos de 9.57 ni más
restricciones a las importaciones, un entrevistador
de 10.41 kilómetros por litro.
pregunta a los electores: "¿Cree que a los consumi-
dores norteamericanos se les debería negar el uso *1.19 En dos torneos de golf de la liga mayor, un golfista pro-
de estos productos?" fesional terminó en el segundo y el noveno Jugar, en tanto
que otro terminó en el sexto y el quinto. Comente sobre el
*1.16 Si los estudiantes calculan sus índices de puntuación de argumento de que como 2 + 9 =6 + 5, el rendimiento total
calificaciones (esto es, el promedio de sus calificaciones) de los dos golfistas en estos dos torneos fue igualmente
contando A, B, C, D y F como 4, 3, 2, 1 y O, ¿qué implica bueno.
esto acerca de Ja naturaleza de las calificaciones?
1.20 Replantee el ejercicio al que nos referimos en la página 4
1.17 Explique por qué cada uno de los datos siguientes bien de manera que sea de especial interés para
podría fracasar para proporcionar la información desea- (a) un abogado;
da: (b) un agente de viajes;
(a) Para conocer la opinión del público en cuanto a las (c) un autor.

1.7
REFERENCIAS

Se pueden encontrar análisis breves e informales sobre lo que es la estadística y lo que


hacen Jos estadistas en los panfletos titulados Careers in Statistics y Statistics as a Ca-
reer: Women at Work, publicados por la American Statistical Association. Se pueden
obtener escribiendo a esta organización a 1429 Duke Street, Alexandria, VA, 22314.
Entre los pocos libros sobre Ja historia de la estadística, en el nivel elemental, tenemos

WALKER H. M., Studies in the History ofStatistical Method. Baltimore: The Williams & Wil-
kins Company, 1929.

SEC. 1.7 I REFERENCIAS 11


y en el nivel más avanzado

PEARSON E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Prob-
ability. Nueva York: Hafner Press, 1970.
KENDALL, M. G. y PLACKETI, R. L., editores, Studies in the History of Statistics and Prob-
ability, Vol.//. Nueva York: Macmillan Publishing Co., Inc., 1977. '
STIGLER, S. M., The History of Statistics. Cambridge, Mass.: Harvard University Press,
1986.

Un análisis más detallado de la naturaleza de los datos estadísticos y el problema ge-


neral de la escala (en particular, el problema de la construcción de escalas de medición)
se puede encontrar en

HILDEBRAND, D. K., LAING, J.D. y ROSENTHAL, H., Analysis ofürdinal Data. Beverly Hills,
Calif.: Sage Publications, Inc., 1977.
REYNOLDS, H. T., Analysis of Nominal Data. Beverly Hills, Calif.: Sage Publications, Inc.,
1977.
SJEGEL, S., Nonparametric Statisticsfor the Behavioral Sciences. Nueva York: McGraw-Hill
Book Company, 1956.

Los siguientes son algunos títulos de la lista siempre creciente de libros sobre estadís-
tica escritos para los principiantes.

BROOK, R. J., ARNOLD, G. C., HASSARD, T. H. y PRINGLE, R. M., editores, The Fascination
of Statistics. Nueva York: Marce! Dekker, Inc., 1986.
CAMPBELL, S. K., Flaws and Fallacies in Statistical Thinking. Englewood, Cliffs, N. J: Pren-
tice-Hall, Inc., 1974.
HOLLANDER, M. y PROSCHAN, F., The Statistical Exorcist: Dispelling Statistics Anxiety.
Nueva York: Marce! Dekker, Inc., 1984.
HOOKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc.,
1983.
KIMBLE, G. A., How to Use (and Misuse) Statistics. Englewood Cliffs, N. J.: Prentice-Hall,
Inc., 1978.
LARSEN, R. J. y STROUP, D. F., Statistics in the Real World. Nueva York: Macmillan Publis-
hing Co., Inc., 1976.
RUNYON, R.P., Winning with Statistics. Reading, Mass.: Addison-Wesley Publishing Com-
pany, Inc., 1977.
TANUR, J. M. editor, Statistics: A Guide to the Unknown. San Francisco: Holden-Day, Inc.,
1972.

12 CAP. 1 I INTRODUCCION
RESUMEN
DE DATOS:
DISTRIBUCION
DE LA FRECUENCIA

2.1 Lista de valores numéricos 14


2.2 Distribuciones de la frecuencia 18
2.3 Representaciones gráficas 27
2.4 Revisión de términos clave 33
2.5 Ejercicios de revisión 34
2.6 Referencias 35
En años recientes, la recopilación de datos estadísticos se ha incrementado con una
tasa tal que sería imposible mantenerse al día siquiera con una pequeña parte de los
factores que afectan directamente nuestras vidas, a menos de que se difunda esta
información en una forma "digerida" o resumida. La actividad de agrupar grandes can-
tidades de datos en una forma útil siempre ha sido importante, pero en las últimas
décadas esta actividad se ha multiplicado en gran medida. En parte, esto ha sido con-
secuencia del desarrollo de computadoras que ahora permiten efectuar en minutos ac-
tividades que antes se evitaban porque habrían requerido de meses o años y en parte
son resultado de la multitud de datos generados por el planteamiento cada vez más
cuantitativo de las ciencias, en especial de las ciencias del comportamiento y las socia-
les, donde casi todos los aspectos de la vida humana en la actualidad se miden de una
u otra manera.
El método de resumen de datos más común consiste en su presentación en forma
condensada en tablas o gráficas y en algún momento esto constituyó la mejor parte de
un curso elemental de estadística. Hoy en día, hay tanto más que aprender sobre es-
tadística, que se dedica muy poco tiempo a este tipo de trabajo. En cierto modo, esto
es desafortunado porque no se necesita buscar con detenimiento en diarios, revistas y
aun en publicaciones periódicas profesionales para encontrar gráficas estadísticas que
son intencionalmente engañosas.
La sección 2.1 aborda la tarea del listado de valores numéricos y presenta una téc-
nica nueva, la exposición de tronco y hoja. La sección 2.2 estudia las distribuciones de
la frecuencia, el método estándar para la agrupación de datos. La sección 2.3 presenta
algunos métodos gráficos.

2.1
LISTA DE VALORES NUMERICOS

La organización y la presentación de un conjunto de información numérica es una de


las primeras tareas para comprender un problema. Como una situación típica, conside-
re los valores que aparecen en seguida, los cuales representan el tiempo del trayecto al
trabajo de 100 empleados de un gran edificio de oficinas ubicado en el centro. Los
tiempos se dan en minutos y cada valor representa el tiempo promedio de un empleado
en cinco días de trabajo consecutivos. La simple recopilación de esta información no
es una tarea sencilla, pero es evidente que se debe hacer más para que los números sean
comprensibles.

44.0 35.4 28.4 37.0 46.0 35.4 19.4 20.4 56.4 43.2
36.2 38.4 49.2 31.8 86.4 12.6 27.4 14.0 39.4 39.4
15.8 28.8 38.0 44.0 38.4 74.0 23.0 11.4 39.8 30.2
29.2 40.6 49.6 30.4 12.2 123.8 42.0 47.0 32.4 39.2
35.2 56.4 31.0 45.0 90.2 100.0 39.0 37.0 49.4 28.2
12.6 27.0 47.8 52.6 41.0 40.0 28.0 23.6 37.6 37.8
30.0 45.8 18.0 41.0 22.6 24.2 89.6 90.4 43.0 29.8
56.2 24.8 12.6 53.6 125.4 16.2 39.0 40.8 33.6 39.4
45.6 37.4 18.0 50.6 103.4 52.4 20.2 64.6 22.2 60.0
42.2 42.0 16.2 108.2 44.0 42.6 39.4 37.6 41.4 40.4

14 CAP.2 / RESUMEN DE DA TOS: DISTRlBUCION DE LA FRECUENCIA


¿Qué se puede hacer para que esta información sea más práctica? Algunas personas en-
cuentran interesante identificar los valores extremos.
Para esta lista, el valor más bajo es de 11.4 minutos y el más alto es de 125.4 mi-
nutos. En ocasiones, es útil ordenar los valores de los datos en orden de creciente a de-
creciente. La lista que se presenta a continuación da estos valores ordenados y ahora es
posible saber más acerca de los tiempos de trayecto. Por ejemplo, ahora vemos que hay
muchos valores que se aproximan a 40 minutos.

11.4 12.2 12.6 12.6 12.6 14.0 15.8 16.2 16.2 18.0
18.0 19.4 20.2 20.4 22.2 22.6 23.0 23.6 24.2 24.8
27.0 27.4 28.0 28.2 28.4 28.8 29.2 29.8 30.0 30.2
30.4 31.0 31.8 32.4 33.6 35.2 35.4 35.4 36.2 37.0
37.0 37.4 37.6 37.6 37.8 38.0 38.4 38.4 39.0 39.0
39.2 39.4 39.4 39.4 39.4 39.8 40.0 40.4 40.6 40.8
41.0 41.0 41.4 42.0 42.0 42.2 42.6 43.0 43.2 44.0
44.0 44.0 45.0 45.6 45.8 46.0 47.0 47.8 49.2 49.4
49.6 50.6 52.4 52.6 53.6 56.2 56.4 56.4 60.0 64.6
74.0 86.4 89.6 90.2 90.4 100.0 103.4 108.2 123.8 125.4

Ordenar un conjunto numeroso de datos en forma creciente o decreciente es una labor


sorprendentemente difícil.
Esta lista de números, aun en su forma ordenada, sigue siendo una vasta pieza de
información. Será útil contar con otras formas de manejar estos valores. Una técnica
desarrollada hace poco, la gráfica de tronco y hoja, brindará una buena impresión to-
tal de los datos.
Para ilustrar esta técnica, considere las siguientes calificaciones en una prueba de
coordinación física aplicada a 20 estudiantes que habían ingerido una cantidad de al-
cohol equivalente a 0.1 % de supeso:

69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77

Ahora divida cada número en sus decenas y unidades, disponiendo juntos los valores
que comparten las decenas. Esto es, pensaremos en el número 69 como en 6 1 9. En-
tonces las decenas se dispondrán en forma vertical con unidades dispuestas al lado.
Para el conjunto de las 20 calificaciones de coordinación física, la gráfica es ésta:

5 2 7 5
6 9 1 5 3 4 7 1 8
7 4 9 2 4 7
8 4' 8 2
9 3

El primer renglón de la gráfica, expresamente 5 1 2 7 5, nos indica que la lista con-•


tiene los valores de 52, 57 y 55. El segundo renglón nos indica que la lista contiene ocho
valores de la decena de los 60.
Esta tabla se conoce como una representación gráfica de tronco y hoja porque
cada renglón representa una posición de tronco y cada dígito a la derecha de la línea
vertical se puede considerar como una hoja. Para hacer esta gráfica de tronco y hoja,
comience sólo con los troncos, de la siguiente manera:

SEc'. 2.1 / LISTA DE VALORBS NUMERICOS 15


5
6
7
8
9

Con todo, este paso no tiene que ser perfecto, es fácitdisponer posiciones de tronco adi-
cionales en la parte superior o en la inferior. Luego, marque las hojas por elementos de
datos individuales en orden consecutivo. Después de los tres primeros valores (69, 84,
52), la gráfica de tronco y hoja lucirá así:

5 2
6 9
7
8 4
9

La gráfica de tronco y hoja estará completa después de efectuar sólo un paso con los da-
tos.
La gráfica de tronco y hoja contiene la misma información que la lista original,
pero es mucho más compacta. La gráfica de tronco y hoja destaca)os aspectos impor-
tantes de los datos. Por ejemplo, en este caso revela de inmediato que la mayoría de los
datos pertenece al orden de los 60.
La gráfica de tronco y hoja desarrolla la mayor parte de la tarea de clasificación de
los valores. A la mayoría de la gente le agrada completar la clasificación ordenando
también las hojas. En este ejemplo, se llega a lo siguiente:

5 2 5 7
6 1 1 3 4 5 7 8 9
7 2 4 4 7 9
8 2 4 8
9 3

No todos los valores se pueden disponer en una gráfica de tronco y hoja con tanta
facilidad. El tratámiento de situaciones más complicadas es una cuestión de dis-
cernimiento. Consideremo~ los 100 tiempos de trayecto antes señalados. Estos núme-
ros se dieron con décimas de minuto. Al realizar la gráfica de tronco y hoja, más que
redondear los valores al minuto más cercano, recomendamos que se ignoren las déci-
mas. Este introduce un sesgo de medio minuto en la gráfica, pero con casi el mismo es-
fuerzo se produce el mismo resultado tan apropiado como el redondeo.t Usaremos los
dígites de las decenas para clasificar el tronco y esto produce la siguiente gráfica:

toescartar.números representa varias ventajas durante el proceso de redondeo cuidadoso y éste es el pro-
cedimiento recomendado por John Tukey, el inventor de la representación gráfica de tronco y hoja. Su libro
aparece en la lista de referencias al final del capítulo.

16
,
GAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA
1 122224566889
2 0022334477888899
3 0001123555677777788899999999
4 0000111222233444555677999
5 0223666
6 04
7 4
8 69
9 00
10 038
11 NOTA: 7 4 medidas 74 minutos
12 35 12 3 medidas 123 minutos
13

Esta gráfica de tronco y hoja sólo requiere una revisión de la lista original. Se pueden
ordenar las hojas. De hecho, esta gráfica comunica el mensaje de la lista original en una
forma muy clara en términos gráficos. Es útil agregar una nota, como lo hicimos, para
ayudar al lector de esta gráfica. Esta ciertamente es útil cuando los números del tronco
no son decenas.
La gráfica de tronco y hoja se puede modificar de varias formas para satisfacer ne-
cesidades particulares. Si queremos elaborar una gráfica de tronco y hoja con más tron-
cos de los que habría de otra manera, podemos dividir en dos cada posición del tronco.
Usamos la primera posición del tronco para disponer las hojas O, 1, 2, 3 y 4 y usamos
la segunda posición para disponer las hojas 5, 6, 7, 8 y 9. Por tanto, para el segundo gru-
po de datos de la página 15, obtendríamos la representación gráfica de doble tronco:

5· 2
5* 5 7
6· 1 3 4
6* 5 7 8 9
7· 2 4 4
7* 7 9
8· 2 4
8* 8
9· 3

En esta gráfica, duplicamos el número de posiciones del tronco dividiendo por la mitad
el intervalo que cubre cada decena.
Así mismo, en el caso de algunas descripciones más detalladas (véase la sección
3.4), es conveniente tener algunas hojas en cada tronco dispuestas por tamaño, como en
la figura 2.1, donde usamos una computadora para elaborar la gráfica de tronco y hoja
anterior.
No estudiaremos las gráficas de tronco y hoja con mayor detalle, ya que.nu·estro
objetivo fue en esencia presentar una de las técnicas relativamente nuevas que forman·
parte del término general de análisis exploratorio de datos. Estas técnicas s~ utilizan
sobre todo para analizar datos sin emplear los métodos más tradicionales de análisis es- '
tadísticos o antes de aplicar los mismos. ·

SEC. 2.1 I LISTA DE VALORES NUMERICn<: 17


040230
r.n1 FF BIBLIOTECA.
MTB > CONJUNTO Cl
DA+:OS .> 69 84 52 93 61 74 79 65 88 63
DATOS > 57 64 67 72 74 55 82 61 68 77
MTB > TRONCO Cl

GRAFICA DE TRONCO Y HOJA DE Cl


UNIDAD DE TRONCO Y HOJA l. ftHHl
1 2 REPRESENTA 12.

1 5* 2
3 5. 57
7 6* 1134
(4) 6. 5789
9 7* 244
6 7. 79
4 8* 24
2 8. 8
-1- 9* 3

FIGURA 2.1 Impresión por computadora para la elaboración de una gráfica de doble tronco.

EJERCICIOS

2.1 Las siguientes son las alturas en centímetros de dieciséis 2.4 Elab.ore una lista de los valores de datos que aparecen en
estudiantes de bachillerato: 172, 182, 177, 174, 166, 158, la gráfica de tronco y hoja siguiente.
170, 178, 163, 161, 191, 167, l71,201, 166, 172.Elabore
una gráfica de tronco y hoja con las clasificaciones de 4 o 2 3
tronco 15, 16, 17, 18, 19 ~ 20;
5 1 8 9
2.2 Los siguientes son los pesds en libras de veinte solicitan- 6 233779
tes de empleo en un departamento de bomberos de la ciu- 7 o
dad: 225, 182, 194, 210, 205, 172, 181, 198, 164, 176,
180,193, 178, 193,208,186,183,170,186,l88.Elabore
2.5 Elabore una gráfica de doble tronco para los datos del
una gráfica de tronco y hoja con las clasificaciones de
ejercicio 2.2.
tronco 16, 17, 18, 19, 20, 21y22.
·2.3 Las siguientes son las ganancias semanales en dólares de 2.6 Las siguientes son las edades de treinta y dos cabezas de
quince vendedores: 425, 440, 610, 518, 324, 482, 624, familia de una comunidad de jubilados: 68, 81, 62, 61, 76,
390, 468, 457, 509, 561, 482, 480, 520. Elabore una grá- 65,69,73,66,68, 71, 74,64, 70,68, 73,82, 79,63, 69,
fica de tronco y hoja con las clasificaciones de tronco 3, 68, 66, 73, 74, 77, 80, 73, 66, 67, 81, 77 y 66 años. Elabore
4, 5 y 6; las decenas se deben usar como hojas. una gráfica de doble tronco para estos valores.

2.2
DISTRIBUCIONES DE LA FRECUENCIA

Cuando manejarnos conjuntos cuantiosos de datos, a menudo podernos obtener una


buena imagen general y toda la información que necesitemos agrupando los datos en un

18 c;AP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


;o.,t_.... ,,., 1J'.
~~c.,~~-"9\)
número de clases, intervalos o categorías. Por ejemplo, los datos correspondientes a
1983 sobre el tamaño de los sistemas de televisión por cable de Estados Unidos se pue-
den resumir como sigue:

Número de Sistemas dé televisión


suscriptores por cable

Mt¡nos de 1,000 2,444


1,000- 3,499 1,573
3.500- 9,999 9·5g
10.000-19.999 369
20,000-49,999 239
50.000 omás 57

Total 5,640

Una tabla como ésta se conoce como una distribución de la frecuencia (o simple~
mente como una distribución); esto demuestra cómo se distribuyen los sistemas de te-
levisión por cable entre las seis clases. Entonces cuando los datos se agrupan por tama-
ños hacemos referencia a una tabla como la anterior como una distribución numérica
(o cuantitativa).
En el ejemplo de la televisión por cable, cada clase cubrió un amplio rango de va-
lores, pero también hay distribuciones numéricas en que la clase cubre sólo un valor
único. Esto se ilustra por medio del ejemplo siguiente con base en un estudio en el que
se preguntó a 200 personas cuántas veces habían visitado el zoológico local durante los
doce meses anteriores:

Número de visitantes Número de


del zoológico local personas

o 90
1 72
1 16
3 8
4 3
5 o
6 1

Total 200

Si se agrupan los datos en categorías no numéricas, la tabla resultante se conoce


como una distribución categórica (o cualitativa). Esta clase de ci1stribuCión se ilustra
mediante la tabla siguiente de 2,439 quejas sobre las características de comodidad de
una línea aérea:

SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCIA 19


Número de
Naturaleza de la queja quejas

Espacio insuficiente para


las piernas 719
Asientos incómodos 914
Pasillos angostos 146
Compartimientos de
equipaje insuficientes 218
Sanitarios insuficientes 58
Otras quejas diversas 384

Total 2,439

Podríamos convertir una distribución como ésta en una distribución numérica codifi-
cando los datos, digamos, asignando a las seis alternativas los números 1, 2, 3, 4, 5 y
6, pero esto nos daría datos nominales, que son numéricos sólo en un sentido trivial.
Las distribuciones de la frecuencia présentan los datos en una forma relativamente
compacta, dan una buena imagen en general y contienen información adecuada para
muchos propósitos, pero por lo general hay algunos factores que no se pueden determi-
nar sin referirse a los datos originales. Por ejemplo, a partir de la primera tabla de esta
seccion no podemos encontrar ni el tamaño del más pequeño de los 5,640 sistemas de
televisión por cable, ni el promedio de suscriptores de los diez sistemas más grandes.
De modo similar, con base en la tercera tabla no podemos indicar el número de quejas
sobre asientos incómodos por la amplitud de los asientos de los mismos o el número de
quejas por compartimientos de equipaje insuficientes en relación con el espacio para
los portatrajes. No obstante, las distribuciones de la frecuencia presentan datos en bru-
to (no procesados) de una manera más práctica y el precio que debemos pagar por esto
-la pérdida de cierta información- por lo regular vale la pena.
En esencia la elaboración de una distribución de la frecuencia consiste en tres pa-
sos: (1) la selección de las clases (intervalos o categorías), (2) la selección o clasifica-
ción de los datos en estas clases y (3) el conteo del número de factores de cada clase.
Dado que el segundo y el tercer paso son meramente mecánicos en este caso debemos
Cóncentrarnos, a saber, en el de la selección de una clasificación ideal.
Para las distribuciones numéricas, esto consiste en decidir el número de clases que
se usarán y de qué clase a qué clase se debe ir. Ambas alternativas son en esencia ar-
bitrarias, sin embargo por lo común se observan las reglas siguientes:

Rara vez usamos menos de 6 o más de 15 clases; el número exacto que


usaremos en una situación determinada dependerá en gran medida del
número de lecturas u observaciones implícitas.

Es evidente que perderíamos más de lo que gaQaríamos si agrupáramos cinco observa-


ciones en doce clases con la mayor parte de éstas vacías y quizá descartaríamos mucha
información si agrupáramos mil lecturas en tres clases.

Asegúrese siempre de que cada factor (lectura u observación) perte-


nezca a una y sólo una:, clase.

Para concluir, debemos asegurarnos de que los valores inferiores y superiores caigan en

20 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


la clasificación, que ninguno de los valores caiga en una brecha entre clases sucesivas
y que las clases no se traslapen, expresamente, que las clases sucesivas no tengan va-
lores en común.

Siempre que es posible hacemos que las clases cubran rangos de valo-
res iguales.

Del mismo modo, si podemos, disponemos los rangos en múltiplos de números de ma-
nejo fácil, tales como 5, 10 o 100 porque esto tenderá a facilitar la elaboración y el uso
de una distribución.
Por lo que respecta a estas reglas, la distribución de la televisión por cable de la pá-
gina 19 satisface las dos primeras, pero viola la tercera. En realidad, la tercera regla se
viola de varias maneras, ya que las clases 1,000-3,499, 3,500-9,999, 10,000-19,999 y
20,000-49,999 cubren distintos rangos de valores, la primera clase no tiene ningún lí-
mite inferior específico y la última clase no tiene ningún límite superior específico. Es
probable que los estadistas del gobierno responsables de esta tabla tengan buenas razo-
nes para seleccionar las clases como lo hicieron.
Nos referimos a las clases de la variedad de "menos de'', "o menos", "más de" u "o
más" como clases abiertas y las usamos para reducir el número de clases necesarias
cuando algunos de los valores son bastante menores o bastante mayores que el resto.
Sin embargo, generalmente se deben evitar las clases abiertas, ya que éstas hacen im-
posible el cálculo de ciertos valores de interés, tales como los promedios o los totales
(véase el ejercicio 3.52, página 62).
En cuanto a la segunda regla, tenemos que observar si los datos se dan al dólar o
al cer)tavo más cercano, si se dan a la pulgada o a la décima de pulgada más cercana,
a la onza o al céntimo de onza más cercano y así, dependiendo el caso. Por ejemplo, si
queremos agrupar los pesos de ciertos animales podríamos usar la primera de las cla-
sificaciones siguientes cuando los pesos se dan al kilogramo más cercano, la segunda
cuando se dan a la décima de kÜogramo más cercana y la tercera cuan_9o se dan a la cén-
tima de kilogramo más cercana:

Peso Peso Peso


(kilogranws) (kilogranws) (kilogramos)

10-14 10.0-14.9 10.00-14.99


15-19 15.0-19.9 15.00-19.99
20-24 20.0-24.9 20.00-24.99
25-29 25.0 29.9 25.00-29.99
30-34 30.0-34.9 30.00-34.99
etc. etc. etc.

Para ilustrar lo que hemos estudiado en esta sección, ahora revisemos los pa-
sos reales de agrupación de un conjunto de datos de una distribución de la fre-
cuencia.

EJEMPLO Elabore una distribución de las siguientes cantidades de óxidos de azufre (en toneladas
emitidas por una planta industrial en 80 días:

SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCIA 21


15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Solución Dado que el valor inferior es 6.2 y el valor superior es 31.8, podríamos seleccionar las
seis clases 5.0-9.9, 10.0-14.9, ... y 30.0-34.9, las siete clases 5.0-8.9, 9.0-12.9, ... y
29.0-32.9, las nueve clases 5.0-7.9, 8.0-10.9, ... y 29.0-31.9 o muchas otras clasifica-
ciones. Nótese que en cada una de las clasificaciones mencionadas, las clases acomo-
dan todos los datos, no los traslapan y todas son del mismo tamaño.
Esencialmente, la selección entre estas clasificaciones es arbitraria, pero supo-
niendo que por algunas razones legales (digamos leyes gubernamentales) sea necesario
mantener todos los valores mayores que 16.9 pero menores que 21.0 en la clase, selec-
cionamos la segunda. Así, clasificando las ochenta medidas en siete clases obtenemos
la ·tabla siguiente:

Toneladas de óxido
de azufre cuenta o conteo Frecuencia

5.0- 8.9 111 3


9.0-12.9 -f(lf lfH 10
13.0-16.9 -f!H HH /JI/ 14
17.0-20.9 -ffH -fflf -fH+ -flff -flH 25
21.0-24.9 -fHI fHI -HH 11 17
25.0-28.9 fH-1 //// 9
29.0-32.9 JI 2

Total 80

En la presentación final de esta tabla, por lo regular se omite la cuenta o conteo.

Los números que aparecen en la columna del lado derecho de la tabla anterior, que
muestra cuántos factores pertenecen a cada clase, se conocen como frecuencias de cla-
se. Los valores superiores e inferiores que pueden corresponder a cualquier clase seco-
nocen como sus límites de clase y para la distribución de los datos de emisión éstos son
5.0 y 8.9, 9.0 y 12.9, 13.0 y 16.9, ... y 29.0 y 32.9. Más específicamente, 5.0, 9.0, 13.0, ...
y 29.0 se llaman límites de clase inferior y 8.9, 12.9, 16.9, ... y 32.9 se llaman límites
de clase superior.
Todas las cantidades que agrupamos en nuestro ejemplo se dieron a la décima de
tonelada más cercana, de modo que 5.0 en realidad incluye todos los valores de 4.95 a
5.05, 8.9 comprende todos los valores de 8.85 a 8.95 y la clase 5.0-8.9 incluye todos
los valores de 4.95 a 8.95. En forma similar, la segunda clase comprende todos los va-
lores de 8.95 a !2.95, ... y fa séptima clase incluye todos los valores de 28.95 a 32.95 .
.Comúnmente nos referimos a 4.95, 8.95, 12.95, ... y 32.95 como fronteras de clase o
límites de clase reales. Aunque 8.95 es la frontera superior de la primera clase y tam-

22 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


bién la frontera inferior de la segunda, ... y 28.95 es la frontera superior de la sexta clase
al igual que la frontera superior de la séptima, no hay razón para alarmarse. Las fron-
teras de clase son, por su misma naturaleza, valores imposibles que no pueden ocurrir
entre los datos que se agrupan. Por ejemplo, en el caso de la televisión por cable de la
página 19, los límites de clase son los valores imposibles 999.5, 3,499.5, 9,999.5,
19,999.5 y 49,999.5. Son valores imposibles porque un sistema de televisión por cable
no puede pertenecer muy bien a medio suscriptor. 1

Para evitar las brechas en la escala numérica continua, algunos libros de texto de
estadística y programas de computación de uso común (por ejemplo el Minitab) inclu-
yen en cada clase su limitación inferior. Incluirían 4.95, pero no 8.95 en la primera cla-
se de la distribución de los datos de emisión de óxidos de azufre. De modo similar, in-
cluirían 8.95, pero no 12.95 en la segunda clase y así sucesivamente. Es evidente que
todo esto es por completo inmaterial en tanto que los límites de clase sean valores im-
posibles que no pueden ocurrir entre los datos que se están agrupando. En especial, es
por esta razón que no se puede enfatizar en forma excesiva el uso de los límites de clase
(véase el estudio de la figura 10.3, página 258).
Las distribuciones numéricas también tienen lo que llamamos marcas de clase e
intervalos de clase. Las marcas de clase son simplemente los puntos medios de la cla-
se y se-obtienen sumando los límites inferiores y superiores de una clase (o sus límites
inferiores y superiores) y dividiendo el resultado entre dos. Si la longitud detodas las
clases de una distribución es igual, su intervalo d.e clase común, que conocemos como
el intervalo de clase de la distribución, también se obtiene por la diferencia entre dos
marcas de clase sucesivas cualquiera.

EJEMPLO Obtenga las marcas de clase y el intervalo de clase de la distribución de los datos de
emisión de óxidos de azufre.

Solución Las marcas de clase son 5 ·º ; 8·9 = 6.95, 9·0 ~ 12·9 = 10.95, l3.0 ; 16·9 = 14.95,

17.0; 20.9 = 18.95, 21.0; 24.9 = 22.95, 25.0; 28.9 = 26.95, y

29 ·º +2 32·9 = 30.95. Por tanto, ya que los intervalos. de clase son 8.95- 4.95 = 4,

= =
12.95 - 8.95 4, ... y 32.95 - 28.95 4 y que todos son iguales, el intervalo de clase de
la distribución es de 4. Nótese que si hubiéramos tomado las diferencias entre los lími-
tes de clase en vez de las diferencias entre las fronteras de clase, habríamos obtenido
3.9 en lugar de 4 y 3.9 no es el intervalo de clase.

Esencialmente, existen dos maneras en que las distribuciones de la frecuencia se


pueden modificar para satisfacer necesidades particulares. Una manera consiste en
convertir una distribución en una distribución porcentual dividiendo cada frecuencia
de clase entre el número total de factores agrupados y multiplicando luego por el
100%.

EJEMPLO Convierta la distribución de los datos de emisión de óxidos de azufre en una distribu-
ción porcentual.

SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCI/. 23


Solución .
L a pnmera 1 . 3
case contiene - · 100º/ = 3.75º/ de los datos, la segunda clase compren-
10 80 /o /o ')
de 80 · 100% = 12.50% de los datos, ... y la séptima clase contiene 8-0 · 100/(, =
2.50% de los datos. Estos resultados aparecen en la tabla siguiente:

Toneladas de óxi·
dos de azufre Porcentaje

5.0- 8.9 3.75


9.0-12.9 12.50
13.0-16.9 17.50
17.0-20.9 31.25
21.0-24.9 21.25
25.0-28.9 11.25
29.0-32.9 2.50

100.00

A menudo, usamo~ las distribuciones porcentuales cuando queremos comparar dos o


más distribuciones; por ejemplo, si deseamos comparar la emisión de óxidos de la plan-
ta considerada en nuestro ejemplo con la de una planta con una ubicación distinta.

La otra forma de modificar una distribución de la frecuencia es convirtiéndola en


una distribución acumulativa de "menos de", "o menos", "más de" u "o más". Para
elaborar una distribución acumulativa simplemente sumamos las frecuencias de clase,
iniciando sea con la distribución superior o la inferior.

EJEMPLO Convierta la distribución de la página 22 en una distribución acumulativa de "me-


nos de".

Solución Dado que ninguno de los valores es de menos de 5.0, 3 de los valores son de menos de
9.0, 3 + 10 = 13 de los valores son de menos de 13.0, 3 + 10 + 14 =27 de los valores
son de menos de 17.0 y así consecutivamente, obtenemos los resultados de la tabla si-
guiente:
Toneladas de óxidos Frecuencia
de azufre acumulativa

Menos de 5.0 O
Menos de 9.0 3
Menos de 13.0 13
Menos de 17.0 27
Menos de 21.0 52
Menos de 25.0 69
Menos de 29.0 78
Menos de 33.0 80

Nótese que en vez de "menos de 5.0", "menos de 9.0", "menos de 13.0", ... , podríamos
haber expresado "4.9 o menos", "8.9 o menos", "12.9 ó menos", ... o "menos de 4.95",
"menos de 8.95", "menos de 12.95",. ..

24 CAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


De la misma manera, también podemos convertir una distribución porcentual en distri-
buciones porcentuales acumulativas. Sólo sumamos los porcentajes en lugar de las
frecuencias comenzando sea con la distribución superior o la inferior.
Hasta ahora, sólo hemos estudiado la elaboración de distribuciones numéricas,
pero el problema general de la elaboración de distribuciones categóricas (o cualitati-
vas) es casi el mismo. Aquí, tenemos que volver a decidir cuántas categorías (clases)
debemos usar y el tipo de factores que cada categoría comprende, asegurándonos de
que todos los factores estén acomodados y que ~aya ambigüedades. Puesto que las
categorías con frecuencia se deben seleccionar antes& que se pueda recompilar cual-
quier dato, por lo regular es prudente incluir una categoría denominada "otros" o "di-
versos".
En el caso de las distribuciones categóricas, no tenemos que preocupamos por de-
talles matemáticos, tales como los límites, fronteras y marcas de clase. Por otro lado,
a menudo se suscita un problema grave con las ambigüedades y debemos extremar pre-
cauciones, siendo explícitos en la definición de lo que se comprende en cada categoría.
Por ejemplo, si tuviéramos que clasificar mercancías vendidas a un supermercado
como "carnes", "alimentos congelados", "productos de repostería" y demás, sería di~
fícil decidir, por mencionar un caso, dónde disponer los pasteles de carne congelados.
Similarmente, si debiéramos clasificar ocupaciones, sería difícil decidir dónde dispo-
ner al administrador de una granja, si nuestra tabla comprendiera (sin calificación) las
dos categorías de "granjeros" y "gerentes". Por esto, siempre que es posible, es reco-
mendable usar las categorías estándar desarrolladas por el departamento de censos
y otros organismos gubernamentales. Se pueden encontrar referencias a las listas de ta-
les categorías en el libro de P.M. Hauser y W. R. Leonard entre las referencias de la pá-
gina 35.

EJERCICIOS
2.7 Los pesos de los jugadores de un equipo de futbol ameri- de frecuencias con las clases $0.00-4.99, $5.00-9.99,
cano varían entre 168 y 266 libras. Indique los límites de $10.00-14-99, $15.00-19.99, $20.00-24.99 $25.00-
once clases en que se podrían agrupar estos pesos. 29.99 y $30.00 y más altas. ¿Es posible determinar, con
base en esta proporción, las compras valoradas a
2.8 Las medidas del punto de ebullición de un saborizante en
(a) menos de $10.00;
extracto, dadas a la décima de grados Celsius más cerca-
(b) $10.00 o menos;
na, varían entre 148.2º y 160.6º. Indique los límites de
(c) más de $25.00;
clase en que se podrían agrupar estas medidas.
(d) $25.00 o más?
2.9 Las ganancias semanales de los empleados a destajo de
una fábrica de muebles varían entre $227.82 y $396.05. 2.12 La siguiente es la distribución de los pesos de 125 mues-
Indique los límites de siete clases en que se podrían agru- tras de mineralé's recolectadas en una investigación de
par estos valores. campo:
2.10 Los números de asientos de autobús en los viajes de Fila- Peso en Número de
delfia a Baltimore se agrupan en una tabla con las clases gramos especímenes
0-4, 5-9, 10-14, 15-19, 20-24 y 25 o más. ¿Será posible
determinar exactamente, a partir de esta tabla, los viajes O.O- 19.9 16
de autobús en los que hubo 20.0- 39.9 38
(a) por lo menos 10 asientos vacíos; 40.0- 59.9 35
(b) más de 10 asientos vacíos; 60.0- 79.9 20
(c) más de 14 asientos vacíos; 80.0- 99.9 11
(d) por lo menos 14 asientos vacíos; 100.0-119.9 4
(e) exactamente 9 asientos vacíos? 120.0-139.9 1

2.11 El administrador de una oficina de correos ha agrupado


Total 125
los valores de las compras de timbres en una distribución

SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCtA 25


Si es posible, encuentre cuántas de las muestras pesan Agrupe estas calificaciones en una distribución que tenga
como máximo las clases 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-
(a) 59.9 gramos; 89 y 90-99.
(b) más de 59.9 gramos;
(c) más de 80.0 gramos: 2.20 Convierta la distribución obtenida en el ejercicio anterior
(d) 80.0 gramos o menos; en una distribución porcentual.
(e) exactamente 70.0 gramos; 2.21 Convierta la distribución obtenida en el ejercicio 2.19 en
(f) cualquier valor de 60.0 a 100.0 gramos. una distribución acumulativa de "menos de", comenzan-
2.13 Los números de enfermeras en servicio cada día en un do por "menos de 20".
hospital se agrupan en una distribución que tiene las cla- 2.22 Los siguientes son los pesos corporales (en gramos) de 50
ses 15-29, 30-44, 45-59, 60-74 y 75-89. Encuentre ratas usadas en un estudio de deficiencias vitamínicas:
(a) los límites de clase;
(b) las fronteras de clase; 136 92 11s 118 121 137 132 120 104
(c) las marcas de clase; 125 119 115 101 129 87 108 110 133
(d) el intervalo de clase de la distribución. 135 126 127 103 110 126 118 82 104
2•.14 Los valores declarados de los paquetes enviados por co- 137 120 95 146 126 119 119 105 132
rreo de Gran Bretaña a Estados Unidos se agrupan en una 126 118 100 113 106 125 117 102 146
distribución con las clases $0.00-49.99, $50.00-99.99, 129 124 113 95 148
$100.00-149.99, $150.00-199.99, $200.00-249.99,
$250.00-299.99 y $300.00 y más. Encuentre Agrupe estos pesos en una distribución que tenga las cla-
(a) los límites de clase; ses 80-89, 90~99, 100-109, ... y 140-149.
(b) las fronteras de clase; 2.23 Convierta la distribución obtenida en el ejercicio anterior
(c) las marcas de clase; en una distribución porcentual.
(d) el intervalo de clase de la distribución.
2.24 Convierta la distribución obtenida en el ejercicio 2.22 en
2.15 Las marcas de clase de una distribución del número de
una distribución acumulativa de "o más", comenzando
asaltos rl?gistrados diariamente en una delegación de po-
por "80 o más".
licía son 4, 13, 22, 31 y 40. Si los intervalos de clase son
iguales, encuentre 2.25 Los siguienteS son los números de clientes de un restaurante
(a) las fronteras de clase; a quienes se les sirvió almuerzo en 120 días laborales:
(b) los límites de clase.
50 64 55 51 60 41 71 53 63; 64
2.16 Las marcas de clase de una distribución de VCRs (graba-
46 59 66 45 61 57 65 62 58 65
doras de video cassette),reparadas diariamente por un
55 61 50 55 53 57 58 66 53 56
centro de servicio regional del fabricante son 6, 19, 32 y
64 46 59 49 64 60 58 64 42 47
45. Si los intervalos de clase son iguales, encuentre
59 62 56 63 61 68 57 51 61 51
(a) las fronteras de clase;
60 59 67 52 52 58 64 43 60 62
(b) los límites de clase.
48 62 56 63 55 73 60 69 53 66
2.17 Para agrupar datos sobre el número de días lluviosos re- 54 52 56 59 65 60 61 59 63 56
gistrados por una estación climatológica para el mes de 62 56 62 57 57 52 63 48 58 64
agosto durante los últimgs seis días, un meteorólogo usa 59 43 67 52 58 47 63 53 54 67
las clases 0-5, 6-11, 12-,16, 18-24 y 24-30. Explique en 57 61 76 78 60 66 63 58 60 55
dónde pueden surgir las dificultades. 61 59 74 62 49 63 65 55 61 54
2.18 Para agrupar las ventas que varían entre $10.00 y $60.00,
Agrupe estas cifras en una distribución que tenga las cla-
un dependiente utiliza las clasificaciones siguientes:
ses 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74 y 75-
$10.00-19.99, $20.00-35.99, $35.00-49.90 y $50.00-
79.
59.99. Explique en dónde pueden surgir las dificultades.
2.19 Las siguientes son las calificaciones que obtuvieron 40 2.26 Convierta la distribución obtenida en el ejercicio anterior
estudiantes en una prueba de psicología: en una
(a) distribución porcentual;
(b) distribución porcentual acumulativa de "menos
75 89 66 52 90 68 83 94 77 60
de".
38 47 87 65 97 49 65 72 73 81
63 77 31 88 74 37 85 76 74 63 2.27 Las siguientes son las millas por galón obtenidas con 40
69 72 91 87 76 58 63 70 72 65 tanques de gasolina llenos:

26 CAP. 2 RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


24.5 23.6 24.1 25.0 22.9 24.7 23.8 25.2 3,2,0, 1,0,0, 1,2,2, 1,0,0,3, 1,0,0,2,0,2, 1, 1,2,0,
23.7 24.4 24.7 23.9 25.1 24.6 23.3 24.3 4, 2, O, 1, O, O, 1, O y· 1 errores en la cotización de los pre-
24.6 23.9 24.1 24.4 24.5 25.7 23.6 24.0 cios. Estructure una distribución que demuestre en cuán-
23.9 24.2 24.7 24.9 25.0 24.8 24.5 23.4 tas de las facturas hubo O, 1, 2, 3 o 4 errores.
24.9 24.8 24.7 24.1 22.8 23.1 25.3 24.6
2.31 Convierta la distribución obtenida en el ejemplo anterior
en una distribución acumulativa de "menos de".
Agrupe estas cifras en una distribución que tenga las cla-
ses 22.5-22.9, 23.0-23.4, 23.5-23.9, 24.0-24.4, 24.5- 2.32 Una encuesta efectuada en un hotel de Nueva York indicó
24.9, 25.0-25.4 y 25.5-25.9. que 40 huéspedes llegaron en los medios de transporte si-
guientes: automóvil, automóvil, autobús, avión, tren, au-
2.28 Convierta la distribución obtenida en el ejemplo anterior en tobús, autobús, avión, automóvil, avión, avión, autobús,
(a) una distribución acumulativa de "más de"; avión, automóvil, automóvil, tren, tren, automóvil, auto-
(b) una distribución porcentual acumulativa de "más móvil, automóvil, automóvil, avión, avión, automóvil,
de". autobús, automóvil, autobús, automóvil, avión, automó-
2.29 En una autopista hubo 1, O, 3, 2, 3, 5, 3, O, 2, 7, O, 4, 3, 1, vil, avión, avión, automóvil, automóvil, automóvil, auto-
3, 1, 5, 3, 4, 4, 2, 1, 3, 1, 2, 2, 1, O, 2, O, O, 1, 1, 2, 4, 5, 3, bús, tren, automóvil, autobús y automóvil. Estructure una
4, 3, 4, 3, 3, 5, 2, 1, 6, 1, 2, 4 y 6 accidentes de tránsito du- distribución categórica que demuestre las frecuencias co-
rante cincuenta tardes en horas pico. Elabore una distri- rrespondientes a los diferentes medios de transporte.
bución que demuestre en cuántas tardes se registraron O,
2.33 En una distribución categórica, los vestidos de mujer se
1, 2, 3, 4, 5, 6 o 7 accidentes.
clasifican de acuerdo con la tela con la que se hicieron,
2.30 Una auditoría de 60 facturas de venta reveló O, O, 2, O, 2, lana, algodón, seda o fibras sintéticas. Explique en dónde
1, O, 1, 3, 1, 2, O, 1, 1, O, 1, O, 3, 1, 4, 1, 1, O, O, O, O, 1, O, pueden surgir las dificultades.

2.3
REPRESENTACIONES GRAFICAS

Cuando las distribuciones de la frecuencia se estructuran principalmente para conden-


sar conjuntos numerosos de datos y representarlos en una forma "fácil de asimilar", por
lo general es mejor presentarlos gráficamente. Una fotografía dice más que mil pala-
bras y esto era verdadero antes· de la popularidad actual de las gráficas por computado-
ra, en la que los paquetes de software tratan de superar sus competidores mediante la
elaboración de representaciones gráficas de datos estadísticos.
Én el caso de las distribuciones de la frecuencia, la forma de representación gráfica
más común es el histograma, como el que presentamos en la figura 2.2. Los histogra-
mas se elaboran representando las medidas u observaciones agrupadas (en la figura 2.2,
los datos de la emisión de óxidos de azufre) en una escala horizo~tal y las frecuencias
de clase en una escala vertical y trazando rectángulos cuyas bases equivalgan a los in-
tervalos de clase y cuyas alturas correspondan a las frecuencia de clase. (No hay nada
sagrado acerca de esta disposición y, de ser conveniente, la escala de medida y las fre-
cuencias de clase se pueden representar como en la impresión por computadora de la fi-
gura 2.3.)
Las marcas sobre la escala horizontal de un histograma pueden ser los límites de
clase como en la figura 2.2, las fronteras de clase, las marcas de clase o valores clave
arbitrarios. Para facilitar la lectura, usualmente es preferible mostrar los límites de cla-
se, aunque los rectángulos en realidad van de una frontera de clase a la siguiente. Nó-
tese que no se pueden diseñar los histogramas para distribuciones con clases abiertas y

SEC. 2.3 I REPRESENTACIONES GRAFICAS 27


FIGURA 2.2 Histograma de la distribución de los datos de la emisión
de óxidos de azufre.

que requieren de especial atención cuando no todos los intervalos de clase son iguales
(véase ejercicio 2.39, página 32).
Los datos que llevaron a la figura 2.2 fueron fáciles de agruparse porque sólo había
80 valores en la muestra. En el caso de conjuntos de datos en realidad cuantiosos, puede

MTB '> SET,Cl


DATA> 15,. á 26.4 17.3 11. 2 23.9 24.8 18.7 13.9 9.0 13.2
DATA> 22.1 9.8 ~6.2 i, 14. 7, 17.S 26.l 12.a 28.6 17.6 23.7
DATA> 26,8 22.7 i0. cr 20.s 11.0 20.9 15.5 19.4 16.7 10.7
DJ\.TA>; 19.1 lS.2 22:9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
DATA> ,Ül.5 23.0 24.6 20.l 16.2 18. o. 7.7 13.5 23.S 14.5
DATA> 14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.l
DATA> a.3 21.9 12.J/ 22,. ~ 13.3 11.8 19.3 20.0 25.7 31.8
DATA> 25.9 10.5 15.9 27.5 18;1 17.9 9.4 24.1 20.1 28.S
MTB >' HIST Cl 6 ,95 ,4,;-0

CJ

FIGURA 2.3 Impresión por computadora para la elaboración del


histograma de los datos de la emisión de óxidos de azufre.

28 CAP. 2 f RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


FIGURA 2.4 Gráfica de barras de la distribució11 de los datos de la emisió11 óxidos de azufre.

ser conveniente elaborar histogramas directamente a partir de los datos en bruto usando
un paquete de computación adecuado. Por ejemplo, la figura 2.3 presenta un histogra-
ma de los datos de la emisión de óxidos de azufre creado por computadora. t Como se
puede apreciar en el comando "HIST C 1 6.95 4.0", la primera marca de clase es de 6,95
y el intervalo de clase es 4, de modo que las clases están dispuestas como en la tabla de
la página 22. En comparación con la figura 2.2, el diagrama que está a su lado en reali-
dad no es un histograma de acuerdo con la definición que mencionamos. No obstante,
combina algunas de las características de las figuras 2.4 y 2. 7 y representa la misma
idea.
Las gráficas de barras, como la que aparece en la figura 2.4, son parecidas a los
histogramas. Las alturas de los rectángulos o barras representan las frecuencias de la
clase como un histograma, pero no hay motivo para tener una escala horizontal continua.
Otra forma de representación gráfica de uso menos común es el polígono de fre-
cuencias, como el que se presenta en la figura 2.5. Aquí, las frecuencias de clase están
trazadas en las marcas de clase y los puntos sucesivos están unidos con líneas rectas.
Nótese que agregamos clases con frecuencia cero en ambos extremos de la distribución
para "sujetar" la gráfica a la escala horizontal. Si aplicamos una técnica similar a una
distribución acumulativa, obtenemos lo que se conoce como una ojiva. Sin embargo,
en una ojiva, las frecuencias acumulativas se trazan en las fronteras de clase en lugar
de hacerlo en las marcas de clase; es obvio que la frecuencia acumulativa correspon-
diente a, digamos, "menos de 13.0" se debería trazar en la frontera de clase 12.95, ya

tEn la impresión de la figura 2.3 y otras que se presentan en este texto, las palabras y los números parecen
referirse a los aspectos técnicos de la operación del programa de computación particular empleado. Si tiene ac-
ceso a una computadora, el lector debería referirse a los manuales pertinentes de instrucciones de operación
y una lista de problemas para poder resolver con los programas existentes. Los usuarios capacitados pueden
crear los programas necesarios.

SEC. 2.3 I REPRESENTACIONES GRAFICAS 29


FIGURA 2.5 Polígono de frecuencias de la distribución de los datos de la
emisión de óxidos de azufre.

que "menos de 13.0" en realidad comprende todos los valores hasta 12.95. La figura 2.6
presenta una ojiva de la distribución acumulativa de "menos de" obtenida que aparece
en la página 24 para los datos de la emisión de los óxidos de azufre.
A pesar de que el atractivo visual de los histogramas, gráficas de barras, polígonos
de frecuencias y ojivas es un claro avance sobre las tablas simples, hay varias maneras de
presentar las distribuciones de un modo más dramático y a menudo con mayor efec-

FIGURA 2.6 Ojiva de la distribución acumulativa de los datos de la emisión


de óxidos de azufre.

30 CAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


FIGURA 2.7 Pictograma de la población de Estados Unidos.

tividad. Un ejemplo de·tales representaciones pictóricas (frecuentemente vistas en los


diarios, revistas e informes de varios tipos) es el pictograma de la figura 2.7.
A menudo, las distribuciones categóricas (o cualitativas) se representan gráfica-
mente como gráficas circulares, como la que aparece en la figura 2.8, donde se divide
un círculo en secciones (partes en forma de segmento) que son proporcionales entama-
ño con las frecuencias o los porcentajes correspondientes. Para elaborar una gráfica
circular, primero convertimos la distribución en una distribución porcentual. Luego, ya
que un círculo completo corresponde a 360 grados, obtenemos los ángulos centrales de
varias secciones multiplicando los porcentajes por 3.6.

FIGURA 2.8 Producción de energía eléctrica de Estados Unidos en 1982.

SEC. 2.3 I REPRESENTACIONES GRAFICAS 31


Muchas computadoras están programadas con anticipación de modo que, una vez
que se han capturados los datos, un simple comando producirá una gráfica circular o va-
riaciones de la misma. Algunas gráficas circulares creadas por computadora utilizan
colores, algunas son tridimensionales, algunas cortan secciones (como rebanadas de
pastel) para hacer énfasis y algunas sombrean o entintan las diferentes secciones.
La investigación sobre la capacidad para leer representaciones gráficas ha sugeri-
do que los usuarios no capacitados presentan problemas para interpretar las gráficas
circulares. Comparar la información de dos gráficas circulares adyacentes es particu-
larmente difícil. La comparación de las alturas de barras de los histogramas es más bien
fácil. Se recomienda usar las gráficas circulares sólo en raras ocasiones y con extrema
precaución.

EJERCICIOS

2.34 La siguiente es la distribución de la facturación mensual 2.37 Convierta la distribución del ejercicio anterior en una dis-
de 200 cuentas de una tienda departamental: tribución acumulativa de "menos de" y trace ~na ojiva.

Importe en 2.38 La siguiente tabla demuestra cómo viajan a su trabajo los


dólares Frecuencia trabajadores en Denver, Colorado.

Medios de
0.00- 19.99 22 transporte Porcentaje
20.00- 39.99 47
40.00~ 59.99 66
60.00- 79.99 35 Viaja solo 82
80.00- 99.99 21 Viaja en grupo en automóvil 13
100.00-119.99 9 Viaja en autobús 2
Varios o trabajan en casa 3

(a) Trace un histograma de esta distribución. Elabore una gráfica circular para esta distribución por-
(b) Trace una gráfica de barras de esta distribución. centual. -·
2.35 Convierta la distribución del ejercicio anterior en una dis- 2.39 La figura 2.9 presenta la distribución de las calificaciones
tribución acumulativa de "menos de" y trace una ojiva. de 80 principiantes de una universidad en un examen de
2.36 La siguiente es la distribución de los pesos de 150 muje- clasificación de conocimientos de lenguas extranjeras.
res que ingresaron a una universidad: Explique por qué se podría dar con facilidad una impre-
sión errónea e indique cómo se podría mejorar.

Peso en libras Frecuencia 28

90- 99 6
100-109 25
110-119 46
120-129 37
130-139 22
140-149 7
150-159 3
160-169 3
170-179 o
180-189 1 50-59 60-69 70-79 80-99
Calificaciones en el examen de clasificación

(a) Trace lin histograma de esta distribución. FIGURA 2.9 Distribución de las calificaciones en el
(b) Trace un polígono de frecuencias de esta distribu- examen de clasificación de conocimientos de lenguas
ción. extranjeras.

32 CAP.2 I RESUMENDEDATOS:DISTRIBUCIONDELAFRECUENCIA
2.42 Aquí, de nuevo, presentamos las calificaciones (del ejer-
~ cicio 2.19) que obtuvieron 40 estudiantes en una prueba
de psicología:

75 89 66 52 90 68 83 94 77 60
38 47 87 65 97 49 65 72 73 81
63 77 31 88 74 37 85 76 74 63
69 72 91 87 76 58 63 70 72 65

Utilice un paquete de computación para elaborar un his-


tograma con las e fases 20-29, 30-39, 40-49, 50-59, 60-69,
70-79, 80-89 y 90-99. Elabore también un histograma
con las clases 20-39, 40-59, 60-79 y 80-99. ¿Qué histo-
grama prefiere?
Ingreso familiar 2.43 Utilice un paquete de computadora para elaborar un his-
FIGURA 2.10 Pictograma para el ejercicio 2.40 ~ togramacon las clases 40-44, 45-49, 50-54, 55-59, 60-64,
65-69, 70-74 y 75-79 para el número de clientes del al-
muerzo del ejercicio 2.25.
2.40 El pictograma de la figura 2.1 O pretende ilustrar que en
cierta región, el ingreso familiar promedio se ha duplica- 2.44 Utilice un paquete de computadora para elaborar un his-
do de $7,000 en 1970 a $14,000 en 1982. Explique por ~ tograma con las clases 22.5-22.9, 23.0-23.4, 23.5-23.9,
qué este pictograma da una impresión errónea y señale 24.0-24.4, 24.5-24.9, 25.0-25.4 y 25.5-25.9 para los da-
cómo se podría modificar. tos de millas por galón del ejercicio 2.27 de las páginas
26-27.
2.41 Elabore una gráfica circular de la siguiente distribución,
que presenta los números de vehículos de motor registra-
dos en una oficina estatal:

Tipo de vehículo Niímero

Automóvil de pasajeros 248


Mini van 62
Camión de dos ejes 42
Camión multiejes 12
Motocicleta 55
Lancha de motor 9

Total

2.4
REVISION DE TERMINOS CLAVEt
(con referencias de página a sus definiciones)

Análisis exploratorio de datos, 17 Datos en bruto, 20


Clases, 20 Distribución, 19
Clases abiertas, 21 Distribución acumulativa, 24

tLos ténninos que se presentan en los ejercicios aparecen en negritas.

SEC. 2.4 I REVISION DE TERMINOS CLAVE 33


Distribución categórica, 19 Histograma, 27
Distribución cualitativa, 19 Intervalos de clase, 23
Distribución cuantitativa, 19 Límites de clase, 22
Distribución de la frecuencia, 19 Límites de clase inferior, 22
Distribución numérica, 19 Límites de clase reales, 22
Distribución porcentual, 23 Límites de clase superior, 22
Distribuciones porcentuales acumulativas, 25 Marcas de clase, 23
Frecuencias de clase, 22 Ojiva, 29
Fronteras de clase, 22 Pictograma, 31
Gráfica de tronco y hoja, 15 Polígono de frecuencia, 29
Gráficas circulares, 31 Representación gráfica de doble tronco. 17
Gráficas de barras, 29

2.5
EJERCICIOS DE REVISION

2.45 Las marcas de clase de una distribución del número de (a) por lo menos 79 personas;
llamadas recibidas a diario por una pequeña compañía (b) más de 79 personas;
de taxis son 18, 25, 32, 39,46y 53. ¿Cuáles son los límites (c) 40 o más personas;
de clase si todos los intervalos de clase son iguales? (d) a lo sumo 120 personas?

2.46 Los siguientes son los números de venados observados en 2.51 La siguiente es la distribución del número de alimentos
72 sectores de tierra en un conteo de vida silvestre: que 60 vendedores de bienes raíces cobraron como gastos
de representación comercial en una semana dada:
18 8 9 22 12 16 20 33 15 21 18 13
13 19 o 2 14 17 11 18 16 13 12 6 Número de
8 12 13 21 8 11 19 1 14 4 19 16 las medidas Frecuencia
2 16 11 18 10 28 15 24 8 20 6 7
21 o 16 12 20 17 13 20 10 16 5 10 0-1 16
15 10 16 14 29 17 4 18 21 10 16 9 2-3 25
4-5 13
Agrupe estos datos en una distribución que tenga las cla- 6-7 4
ses 0-4, 5-9, 10-14, 15-19, 20-24, 25-29 y 30-34. 8-9 2

2.47 Elabore un histograma de la distribución obtenida en el Encuentre


ejercicio anterior. (a) las marcas de clase;
2.48 Convierta la distribución del ejercicio 2.46 en una distri- (b) las fronteras de clase;
bución acumulativa de "o menos" y trace una ojiva. · (c) el intervalo de clase de la distribución.

2.49 Las edades de los empleados de una compañía se deben 2.52 Convierta la distribución del ejercicio anterior en una dis-
agrupar en las clases siguientes: menores de 19, 20-24, tribución porcentual acumulativa de "o más" y trace una
25-29, 30-34, 34-39 y mayores de 39 años. Explique en gráfica de barras.
dónde podrían surgir dificultades.
2.53 En 1982, las 1,572 orquestas de Estados Unidos, incluye-
2.50 El número de personas que asiste cada día a una exposi- ron 385 orquestas universitarias, 919 orquestas comuni-
ción de arte se agrupan en una distribución con las clases tarias, 94 orquestas urbanas, 110 orquestas metropolita-
0-39, 40-79, 80-119 y 120-159. ¿Es posible determinar a nas y otras 64. Presente esta información en forma de una
partir de esta distribución en cuántos días asistieron a la (a) gráfica de barras;
exposición (b) gráfica circular.

34 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


2.54 En 1986, los salarios anuales pagados a los profesores de (a) 125 1 3 o 4 8 7 6 6 5
un distrito escolar variaron entre $18,400 y $32,600. In- (b) 34 1 67 05 19 48
dique los límites de seis clases, cada una con un intervalo (c) ¡* o
de $2,500, en el cual se podrían agrupar estos salarios. 1. 8 6 7 7

*2.55 Entre los histogramas, gráficas de barras y gráficas circu-


2* 2 4 o 3
2· 9 6 7 7
lares, ¿cuáles se pueden usar para representar:
3* 3 2
(a) datos nominales;
3· 8 5
(b) datos ordinales;
4* 2
(c) datos de intervalo?

2.56 Las medidas de longitud del pescado que se dan a la dé- 2.59 Los siguientes son los números de alarmas falsas (repor-
cima de pulgada más cercana se agrupan en una tabla cu- tadas accidentalmente o por mal funcionamiento del
yas clases tienen las limitaciones 5.95, 7 .95, 9.95, 11.95, equipo) que un servicio de supervisión de seguridad re-
13.95 y 15.95. ¿Cuáles son los límites inferiores y supe- cibió en treinta días: 3, 6, 2, 4, 5, 8, 2, 5, 6, 3, 4, 7, 4, 6, 5,
riores de cada clase? 5, 5, 4, 3, 7, 4, 4, 6, 3, 9, 5, 7, 4, 4 y 6. Elabore una distri-
bución de frecuencias.
2.57 Al preguntar a cincuenta residentes de una comunidad si
alguna vez habían asistido a las juntas del consejo del 2.60 Estructure un histograma de la distribución obtenida en el
pueblo, éstos respondieron: nunca, ocasionalmente, rara ejercicio anterior.
vez, rara vez, nunca, rara vez, ocasionalmente, a menudo,
2.61 Las siguientes son las presiones sanguíneas sistólicas de
nunca, rara vez, rara vez, rara vez, ocasionalmente, rara
veinte pacientes hospitalizados: 165, 135, 151, 153, 155,
vez, ocasionalmente, nunca, nunca, rara vez, a menudo,
182, 142, 158, 146, 149, 124, 162, 173, 204, 159, 130,
nunca, nunca, rara vez, ocasionalmente, ocasionalmente,
177, 162, 141 y 156. Elabore una representación gráfica
rara vez, rara vez, nunca, nunca, rara vez, rara vez, a me-
de tronco y hoja con hojas de unidades.
nudo, ocasionalmente, ocasionalmente, nunca, rara vez,
nunca, rara vez, rara vez, ocasionalmente, rara vez, nun- 2.62 En una encuesta, se preguntó a las personas si
ca, nunca, rara vez, ocasionalmente, nunca, rara vez, rara (1) terminaron el bachillerato;
vez, ocasionalmente, rara vez y nunca. Elabore una distri- (2) terminaron la universidad;
bución categórica y trace una gráfica circular. (3) tienen estudios de posgrado.
2.58 Haga una lista de los datos que corresponden a los si- Explique en dónde podrían surgir las dificultades.
guientes sistemas de representaciones gráficas de tronco
y hoja:

2.6
REFERENCIAS

Se puede encontrar información acerca de las gráficas estadísticas en

CLEVELAND, W. S., The Elements ofGraphing Data. Monterey, Calif.: Wadsworth Advan-
ced Books and Software, 1985.
SCHMID, C. F., Statistical Graphics: Design Principies and Practices. Nueva York: John Wi-
ley & Sons, Inc., 1983.
TUFrE, E. R., The Visual Display of Quantitative lnformation, Chesshire, Conn.: Graphics
Press, 1985.

y cierta información de interés referente a la historia de la representación gráfica de los


datos estadísticos aparece en un artículo de E. Royston en

PEARSON, E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Prob-
ability. Nueva York: Hafner Press, 1970.

SEC. 2.6 I REFERENCIAS 35


Se pueden encontrar estudios sobre lo que no se debe hacer en la presentación de datos
estadísticos en

CAMPBELL, S. K., F/aws and Fallacies in Statistical Thinking. Englewood Cliffs, N. J.: Pren-
tice-HaU, Inc., 1974.
HUFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, Inc., 1954.
REICHMAN, Wd., Use andAbuse ofStatistics. Nueva York: Penguin Books, 1971.

Se encuentran útiles referencias a listas de las categorías estándar en

HAUSER, P.M. y LEONARD, W. R., Govemment Statisticsfor Business Use, segunda edición,
Nueva York: John Wiley & Sons, Inc., 1956.

Para obtener información acerca del análisis exploratorio de datos y las repre-
sentaciones gráficas de.tronco y hoja en particular, véase.

HARTWIG, F. y DEARING, 8. E., Exploratory Data Analysis. Beverly Hills, Calif.: Sage Pub-
lications, Inc., 1979.
HOAGLIN, D. C., MOSTELLER, F. y TuKEY, J. W., Understanding Robustand Exploratory
Data Analysis. Nueva York: John Wiley & Sons, lnc., 1983.
KOOPMANS, L. H., An Introduction to Contemporary Statistics. Boston: uuxbury Press,
1981.
TUKEY, J. W., Exploratory Data Analysis. Reading, Mass.: Addison-Wesley Publishing
Company, Inc., 1977.
VELLEMAN, P. F. y HoAGLIN, D. C., Applications, Basics, and Computing for Exploratory
DataAnalysis. North Scituate, Mass.: Duxbury Press, 1980.

36 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA


RESUMEN
DE DATOS:
MEDIDAS
DE TENDENCIA

3.1 Poblaciones y muestras 38


3.2 La media 39
3.3 La media ponderada 43
3.4 La mediana 47
3.5 Otros fractiles * 50
3.6 La moda 55
3.7 La descripción de datos agrupados* 58
3.8 Nota técnica (sumatorias) 64
3.9 Revisión de términos clave 65
3.10 Ejercicios de revisión 66
3.11 Referencias 68
Cuando describimos un conjunto de datos, no tratamos de expresar ni demasiado ni
muy poco. Dependiendo de los fines que deben satisfacer, las descripciones estadís-
ticas pueden ser breves o elaboradas. En ocasiones, los datos se presentan en su for-
ma original y se permite que hablen por sí mismos. Otras veces, éstos se presentan
como distribución de la frecuencia o bien como gráficas. No obstante, la mayoría de las
veces se deben describir mediante uno o dos números cuidadosamente seleccionados.
A menudo es necesario resumir los datos por medio de un número único, que des-
cribe a su modo el conjunto entero. El tipo de número que seleccionamos depende
exactamente de la característica particular que queremos describir. Tal vez en un es-
tudio nos interese el valor que sólo el 25% de los datos excede; en otro, en el valor que
excede el 10% inferior de los datos: y en otro más, en un valor que describa en cierta
forma el centro o punto medio de los datos. Las medidas estadísticas que describen ta-
les características se conocen como medidas de localización o de tendencia; entre
éstas, las que describen el centro o punto medio de los datos se llaman medidas de lo-
calización central.
En las secciones 3.2, 3.3, 3.4 y 3.6, presentamos cuatro de las medidas de loca-
lización central más empleadas; en las secciones 3.5 y 3.7, que son opcionales, se ana-
lizan medidas de localización distintas de la localización central y la descripción de los
datos agrupados.

3.1
POBLACIONES Y MUESTRAS

Antes de estudiar descripciones estadístícas particulares, permítanos hacer la siguiente


diferencia:

Si un conjunto de datos consta de todas las observaciones concebibles


(o hipotéticamente) posibles de un fenómeno determinado, lo llama-
mos una población; si un conjunto de datos consiste sólo en una parte
de estas observaciones, se le conoce como una muestra.

Aquí, agregamos la frase "hipotéticamente posibles" para tomar las precauciones ne-
cesarias en cuanto a dichas situaciones evidentemente hipotéticas como cuando obser-
vamos los resultados (caras o cruces) de 12 lanzamientos de una moneda al aire como
una muestra del número potencialmente infinito de lanzamientos de una moneda al
aire, cuando observamos los pesos de todos los carneros (del pasado, el presente y el fu-
turo) de 30 días de edad criados en un rancho determinado o cuando observamos cuatro
determinaciones del contenido de uranio de un mineral como una muestra de las mu-
chas determinaciones que de modo concebible se podrían hacer. De hecho, observamos
Jos resultados de un experimento como una muestra de lo que podríamos obtener si re-
pitiéramos el experimento una y otra vez.
Originalmente, la estadística manejaba la descripción de poblaciones humanas,
contabilidades de censo y actividades similares (véase página 5), pero conforme su al-
cance se tornó más amplio, el término "población" cobró la más vasta connotación de
sus orígenes. Ya sea que parezca extraño o no referirse como poblaciones a las alturas
de todos los árboles de un bosque o las velocidades de todos los automóviles que pasan

38 CAP. 3 I RESUMEN DE DA TOS: MEDIDAS DE TENDENCIA


por un punto de revisión, esto es ajeno al punto en cuestión; en estadística, "población"
es un término técnico que cuenta con un significado propio. ·
A pesar de que somos libres de designar cualquier grupo de artículos como una po-
blación, lo que se hace en la práctica depende del contexto en el que se deben considerar
los artículos. Por ejemplo, suponga que se nos ofrece un lote de 400 losetas cerámicas,
que podemos comprar o no dependiendo de su dureza. Si medimos el esfuerzo de rup-
tura de 20 de estas losetas para estimar la fuerza de ruptura promedio de todas las pie-
zas, estas 20 medidas son una muestra de la población que consiste del esfuerzo de rup-
tura de las 400 losetas. Sin embargo, en otro contexto, si consideramos la celebración
de un contrato a largo plazo para la entrega de decenas de miles de dichas losetas, ob-
servaríamos los esfuerzos de ruptura de las 400 piezas originales sólo como muestra.
De modo similar, podemos observar como una población o una muestra las cifras com-
pletas de un año reciente, considerando los intervalos entre las solicitudes y los man-
datos de las demandas de divorcio del Condado de San Diego. Si sólo nos interesaran
el Condado de San Diego y ese año particular, observaríamos los datos como úna po-
blación; por otro lado, observaríamos_Ios datos como una muestra si deseáramos gene-
ralizar el tiempo que se requiere para el mandato de divorcio en todo Estados Unidos,
en algún otro condado o en algún otro año.
Como la hemos aplicado aquí, la palabra "muestra" tiene en gran medida el mismo
significado que en el lenguaje coloquial. Un periódico considera que las actitudes de
150 lectores hacia una fianza escolar propuesta son una muestra de las actitudes de to-
dos sus lectores hacia la fianza. Un consumidor consid.era un paquete de dulces Mrs.
See como una muestra del producto de la empresa. Más tarde, debemos usar la palabra
"muestra" sólo para ~eferirnos a datos que pueden servir razonablemente como la base
para generalizar acerca de las poblaciones de su origen; en este sentido más técnico,
muchos conjuntos de datos que por lo regular se conocen como muestras no lo son en
absoluto.
En este capítulo y el capítulo 4, debemos describir las cosas estadísticamente sin
hacer ninguna generalización. No obstante, para referencia futura, aún aquí es impor-
tante distinguir entre poblaciones y muestras. Así, debemos utilizar distintos símbolos
dependiendo de lo que se describa, poblaciones o muestras.

3.2
LAMEDI~

La medida más popular de la tendencia central es lo que el lego llama un "promedio"


y lo que los estadistas llaman media aritmética o solamente una media. t Esta se define
como sigue:

La media den números es la suma de los mismos dividida ~ntre n.

tEl término "media aritmética" se utiliza principalmente para distinguir la media de la media geométri-
ca o la media armónica, otros dos tipos de promedios que se usan sólo en situaciones muy especiales (véanse
los ejercicios 3.17 y 3.18}.

SEC. 3.2 I LA MEDIA 39


Es correcto usar el término "promedio" y en su momento, lo debemos aplicar, pero en
la estadística existen otros tipos de promedios y no podemos darnos el lujo de hablar va-
gamente cuando es latente cualquier riesgo de ambigüedad.

EJEMPLO Durante los 12 meses de 1990, un departamento de policía registró 4, 3, 5, 5, 10, 8, 9,


6, 3, 4, 8 y 7 asaltos a mano armada. Obtenga la media, expresamente, el número pro-
medio de asaltos a mano armada por mes.
Solución El total para los 12 meses es de 4 + 3 + 5 + 5 + 10 + 8 + 9 + 6 + 3 + 4 + 8 + 7 = 72 y
por tanto

72
media=-= 6
12

EJEMPLO El gerente de un supermercado, quien desea estudiar la "concurrencia" a su tienda, en-


cuentra que 295, 1002, 941, 768 y 1283 personas entraron a la tienda durante los pasa-
dos cinco días. Obtenga la media de personas que entró al supermercado durante estos
cinco días.
Solución El total de personas que entró al supermercado durante los cinco días anteriores es de
295 + 1002 + 941+768 + 1283 =4289. Dado que 4289 =857.8, ésta es la media (o el
5
promedio) de personas que entró a la tienda por día.

Ya que debemos tener la ocasión de calcular las medias de muchos conjuntos di-
ferentes de datos simples, será conveniente contar con una fórmula sencilla que siem-
pre se pueda aplicar. Esto implica que representemos las cifras a promediar con algún
símbolo general, como x, y o z; el número de valores de una muestra, el tamaño de la
muestra, usualmente es representado con la letra n. Seleccionando la letra x, podemos
referirnos a los n valores de una muestra como x 1, x 2,. •., y x,, (que se leen como "x sub-
uno", "x sub-dos",. .., y "x sub-n"), y se expresan como

media de la muestra
X¡ + X2 + X3 + · · · + X 11

Esta fórmula se podrá aplicar a cualquier conjunto de datos muestrales, pero se puede
hacer más compacta asignando a la media de la muestra el símbolo X: (que se lee "x ba-
rra") y usando la notación L. El símbolo Les sigma mayúscula, la letra griega equiva-
lente a la S. En esta notación, consideramos L x como "la suma de las x's" (esto es, L
x = x1 + x2 + ... + Xn ), y se,puede expresar como

Mediade - l:x
x=~-
la muestra n

Si nos referimos a las medidas como y's o z's, expresamos su media como y o z. En la
fórmula para x el término u no establece explícitamente qué valores de x se suman;
sin emiJargo, comprendamos que L x siempre se refiere a la suma de todas las x' s que

40 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


se consideran en una situación determinada. Adviértase que en la nota técnica de la sec-
ción 3.8 se analiza con mayor detalle la notación de ~igma.
El número de valores de una población, el tamaño de la población, por lo general
se expresa como N. La media de la población de N artículos se define de la misma ma-
nera. Es la suma de N artículos, xi + x2 + X3 + ... XN, o I: x, dividida entre N.
Asignando el símbolo µ (mu, la letra griega para la m minúscula), expresamos

Mediade µ=-
LX
la población N
1

con el recordatorio de que I: x ahora es la suma de todos los valores N de x que cons-
tituyen la población. t
Así mismo, para diferenciar entre las descripciones de poblaciones y las descrip-
ciones de muestras, no usamos símbolos distintos tales como µ y x, sino que nos refe-
rimos a la descripción de una población como un parámetro y a una descripción de una
muestra cómo un valor estadístico. Generalmente, los parámetros se expresan por me-
dio de letras griegas. '
Para ilustrar la terminología y notaciones que presentamos en esta sección, supon-
ga que nos interesamos en la vida media de un lote de producción de N 40,000 focos. =
Es evidente que no podemos probar todos los focos para que ninguno dejara de usarse
o venderse, de modo que tomamos una muestra, calculamos x y usamos esta cantidad
para estimarµ. Sin= 5 y los focos de la muestra duran, 967, 949, 940, 952 y 922 horas,
tenemos

967 + 949 + 940 + 952 + 922


i =----------- 946 horas
5

Si estas vidas constituyen una muestra en el sentido técnico (es decir, un conjunto de
datos del que se pueden hacer generalizaciones válidas), podemos estimar que la vida,
µ de los 40,000 focos es de 946 horas.
En el caso de datos no negativos, la media no sólo describe el punto medio de un
conjunto de datos, sino que también establece un límite sobre su tamaño. Si multipli-
camos por n ambos lados de la ecuación · x = ~ x , se deriva que I: x = n · x, por tanto,
n
ningún valor de x puede ser mayor que n · X.

EJEMPLO Si el salario anual medio pagado a los tres ejecutivos principales de una empresa es de
$156,000, ¿es posible que uno de ellos reciba $500,000?
Solución Dado que n = 3 y x = $156,000, tenemos que I:x = 3 · 156,000 = $468,000 y es imposible
que cualquiera de los ejecutivos gane más de esa cantidad.

tEn los casos en que el tamaño de la población es ilimitado, como lo estudiamos en la sección 3.1, no
se puede definir de esta manera la media de la población. La media de una población infinita se comenta en
las referencias de la sección 3 .11.

SEC. 3.2 I LA MEDIA 41


EJEMPLO Si nueve alumnos de bachillerato promediaron 41 en la parte verbal de la prueba
PSAT/NMSQT, ¿cuántos de ellos como máximo pueden haber promediado 65 o más?
Solución Ya que n =9 y x =41, tenemos que I.x =9·41 =369 y puesto que 65 entra en 369 cinco
veces (369 =5 · 65 + 44), se deriva que a lo sumo cinco de los nueve estudiantes deba-
chillerato pueden haber promediado 65 o más.

La popularidad de la media como una medida del "punto medio" o "centro" de un


conjunto de datos no es una coincidencia. Siempre que usamos un número único para
decribir algún aspecto de un conjunto de datos, hay ciertos requerimientos o caracterís-
ticas deseables, que debemos recordar. Aparte del hecho de que la media es una medida
simple y común, las siguientes son algunas propiedades que es importante considerar:

Se puede calcular para cualquier conjunto de datos, luego siempre


existe.

Un conjunto de datos numéricos tiene una y sólo una media, entonces


ésta siempre es única.

Lleva a un tratamiento estadístico más a fondo; como veremos, por


ejemplo, las medias de varios conjuntos de datos siempre se pueden
combinar en una media general de todos los datos.

Es relativamente confiable en el sentido de que las medias de muchas


muestras obtenidas a partir de la misma población usualmente no fluc-
túan o varían tanto como otras medidas estadísticas utilizadas para es-
timar la media de una población.

La última de estas propiedades es de esencial importancia para la inferencia estadística


y la estudiaremos más detalladamente en el capítulo l O.
Hay otra propiedad de la media que, en apariencia, parece deseable:

Toma en cuenta todos los artículos de un conjunto de datos.

No obstante, las muestras a veces contienen valores muy bajos o muy altos que son tan
ajenos al cuerpo principal de los datos, que es cuestionable la conveniencia de incluir-
los en una muestra. Tales valores pueden ser consecuencia del azar o de graves errores
en el registro de los datos, errores de cálculo considerables, mal funcionamiento del
equipo u otras fuentes identificables de contaminación. En cualquier caso, cuando se
promedian dichos valores con los otros valores, pueden afectar la media en un grado tal
que es discutible si en'realidad ofrece una descripción útil del "punto medio" de los datos.

EJEMPLO Refiriéndonos a la ilustración acerca de los focos de la página 41, suponga que se re-
gistra el segundo valor incorrectamente como 499 en vez de 949. Encuentre el error que
esto originaría en el cálculo de la vida media de los cinco focos.
Solución La media de 967, 499, 940, 952 y 922 es

.X = 967 + 499 + 940 + 952 + 922 = 856


5

42 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


y esto difiere de 946, la media que obtuvimos en la página 41, por 946 - 856 = 90 horas.

EJEMPLO Las edades de seis estudiantes que asistieron a una investigación de campo de geología
son 18, 19, 20, 17, 19 y 18 años y la edad del profesor que los acompañó es de 50 años.
Obtenga la edad media de estas siete personas.
Solución La media es
18 + 19 + 20 + 17 + 19 + 18 + 50
.X= = 23
7

pero cualquier aseveración en el sentido de que la edad media del grupo es 23 años se
podría malinterpretar. Bien podríamos inferir erróneamente que todas las personas que
asistieron a la investigación de campo tienen poco más de veinte años.

Para evitar la posibilidad de confundirse con una media afectada por un valor muy
bajo o muy alto, en ocasiones encontramos que es preferible describir el punto medio
o el centro de un conjunto de datos con una medida estadística diferente de la media;
quizá, con una mediana, que analizaremos en la sección 3.4.

3.3
LA MEDIA PONDERADA

Cuando calculamos un promedio, podemos estar cometiendo un grave error si contem-


plamos el hecho de que no todas las cantidades tienen la misma importancia en relación
con el fenómeno que se describe. Considere, por ejemplo, la siguiente información so-
bre el porcentaje de unidades de residencia habitadas por sus propietarios en tres ciu-
dades de California en 1980:
Porcentaje de residencias
habitadas por sus propietarios

Los Angeles 40.3


Sacramento 56.4
San José 62.1

. d
L a me d rn . 40.3 + 56.4 + 62.1
e estos tres porcentajes es ----·--·---- = 52.9, pero no podemos
3
indicar con certeza que ésta sea la tasa promedio de residencias habitadas por sus pro-
pietarios para las tres ciudades. Las tres cifras no tienen la misma importancia porque
existen considerables diferencias en el tamaño de las tres ciudades.
Para dar cantidades de las que se promedia su grado de importancia pertinente, es
necesario asignarles pesos o valores relativos (importancia relativa) y luego calcular
una media ponderada. En general, la media ponderada, .iw de un conjunto de números,

SEC. 3.3 I LA MEDIA PONDERADA 43


y x., cuya importancia relativa se expresa numéricamente por medio de un
xi. Xi, X3, ... J•
conjunto de números correspondientes, wi. wi, w3, .•• , y w., se obtiene mediante la fór-
mula:

Iw·x
Media ponderada ¿-;-
Aquí, I.w · x es la suma de los productos obtenidos de la multiplicación de cada x por
el valor relativo correspondiente y I.w es simplemente la suma de los valores relativos.
Nótese que cuando todos los valores relativos son iguales, la fórmula de la media pon-
derada se reduce a la fórmula de la media ordinaria (aritmética).

EJEMPLO Considerando que habían 1,135,000 residencias en Los Angeles, 113,000 en Sacra-
mento y 210,000 en San José, utilice estas cifras y los porcentajes del texto anterior
para determinar la tasa (porcentaje) promedio de residencias habitadas por sus propie-
tarios para las tres ciudades.

Solución Sustituyendo Xi =40.3, Xi= 56.4, X3 =62.1, w1 =1, 135, wi =113 y w3 =210 en la fór-
mula para Xw, obtenemos

(1,135)(40.3) + (113)(56.4) + (210)(62.1)


iw =
1,135 + 113 + 210

65,154.7
1,458

= 44.7

Nótese que el valor que obtuvimos para .iw es mucho menor que el de x, 44.7 en com-
paración con 52.9 y esto es consecuencia por completo del gran tamaño de Los Angeles
y su baja tasa de ocupación por los propietarios.

Una aplicación especial de la fórmula de la media ponderada tiene lugar cuando


debemos obtener la media total o media general de k conjuntos de datos que tienen las
medias de Xi. .ii, .i3, ... , y Xk y consisten en ni. ni, nJ, ... , y nk medidas u observaciones.
El resultado se obtiene por medio de

Media general n 1.i 1 + ni.Xi + · · · + nkik


o gran media de los X
=
= ~~~~~~~~~~

n 1 +ni+···+ nk
datos combinados

donde los valores relativos son los tamaños de los respectivos conjuntos de datos, el nu-
merador es el total de todas las medidas u observaciones y el denominador es el número
total de artículos de los datos combinados.

EJEMPLO En una clase de biología hay 20 alumnos de primer grado, 18 de segundo y 12 de ter-
cero. Si los estudiantes de primer grado promediaron 68 en un examen, los de segundo

44 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


grado promediaron 75 y los de tercero promediaron 86, obtenga la calificación media
de toda la clase.
Solución Sustituyendo n1=20, n2 = 18, n 3 = 12,x1=68,x2 = 75 y X3 = 86 eri la fórmula de la media
general de los datos combinados, tenemos

.x- = 20·68+18·75+12·86
------------
20 + 18 + 12
3,742
50
= 74.84

o 75 redondeando al entero más cercano.

EJERCICIOS

3.1 Suponga que se nos proporciona información completa en veinte días laborales: 4, 6, 8, 4, 2, 6, 4, 3, 4, 9, 5, 8, 5,
acerca de los gastos de viaje que los administradores del 3, 5, 7, 6, 3, 8 y 6. Obtenga la media.
equipo de asesoría de computación de una empresa carga-
ron a sus cuentas de gastos durante 1990. Ilustre cada si- 3.7 En un retén, se citó a doce conductores por exceder el lí-
tuación en la que estos datos se considerarían como mite de velocidad por 8, 11, 14, 6, 8, 10, 20, 11, 13, 18, 9
(a) una población y 15 millas por hora.
(b) una muestra (a) ¿Por cuántas millas, en promedio, excedieron estos
conductores el límite de velocidad?
3.2 Los resultados de la elección final de un condado demos- (b) Si un conductor que excede el límite de velocidad
traron que tres candidatos a una oficina recibieron por menos de 15 millas por hora recibe una multa de
14,276, 10,210 y 2,873 votos. Indique una oficina que es- $60 y los demás de $88, obtenga la media de las
tos candidatos podrían buscar, de modo que estas cifras multas que estos conductores deberían pagar.
constituyeran
(a) una población; 3.8 En su toma de posesión, los diez primeros presidentes de
(b) una muestra. Estados Unidos tenían 57, 61, 57, 57, 58, 57, 61, 54, 68 y
51 años. Obtenga la media de las edades de esos presiden-
3.3 Suponga que contamos con la información completa tes en su toma de posesión.
acerca del número de devoluciones de compras de cada
una de 23 tiendas departamentales. Ilustre cada situación 3.9 Como parte de una tarea del laboratorio de nutrición,
en la que estos datos se considerarían como quince estudiantes determinaron el número de calorías de
(a) una población; una porción de lasagna. Obtuvieron los valores 329, 335,
(b) una muestra. 347,318,322,330,351,362,315,342,346,353,316,
327 y 333.
3.4 Suponga que acabamos de obtener los resultados de un
(a) Obtenga la media.
cuestionario aplicado a 848 alumnos de una universidad
(b) Sustraiga 300 a cada valor y luego obtenga la media
particular. Indique una situación en la que éstos se consi-
de los números obtenidos. Sume 300 al resultado.
derarían como
¿Esto sugiere una simplificación en el cálculo de..._
(a) una población;
una media?
(b) una muestra.
3.5 Las siguientes son las edades de treinta personas designa- 3.10 Un puente está diseñado para soportar una carga máxima
das para rendir juramento: 42, 45, 51, 39, 32, 61, 27, 62, de 75,000 kilogramos. ¿Está sobrecargado si soporta 18
53,51,48,40,34,37,28,58,55,43,29,39,40,22,58,28, vehículos con un peso medio de 2,315 kilogramos?
31, 31, 52, 44, 38 y 36 años. Obtenga su edad media.
3.11 Un elevador de un edificio de oficinas está diseñado para
3.6 Los siguientes son los números de perros callejeros cap- soportar una carga máxima de 1,000 kilogramos. ¿Está
turados o devueltos de un asilo para animales de la ciudad sobrecargado si lleva a nueve mujer~s con un peso medio

SEC. 3.3 / LA MEDIA PONDERADA 45


de 61.5 kilogramos y cinco hombres con un peso medio (a) Obtenga la media geométrica de 0.8 y 3.2.
de 87 kilogramos? (b) Obtenga la media geométrica de 1, 2, 8 y 16.
(c) Durante una epidemia de gripe, se reportaron 12 ca-
3.12 Un dependiente fracasó en uno de diez intentos de ven-
sos en el primer día, 18 en el segundo y 48 en el ter-
ta en la última hora. El valor medio de los intentos de cero. Del primero al segundo día, el número de ca-
venta fue de $7 .20 y los nueve intentos restantes tuvieron
sos se multiplicó por : ~, y del segundo al tercer día,
los valores siguientes: $4.80, $7.10, $7.90, $9.55, $4.45,
el número de casos se multiplicó por i~. Obtenga la
$5. 72, $7 .54, $8.34 y $9. 70. ¿Cuál es el valor del intento media geométrica de estas dos tasas de crecimiento
de venta fracasado?
y (suponiendo que el patrón de crecimiento conti-
3.13 Medidas cuidadosas revelan que las cantidades reales de núe) pronostique los números de casos que se regis-
café en seis tarros de cuatro onzas de café instantáneo son trarán en el cuarto y el quinto día.
4.02, 3.98, 4.01, 4.05, 3.97 y 4.03 onzas.
(a) Obtenga el contenido medio de café de estos seis ta- 3.18 La media armónica den números, xi. x2, ... , y x. se define
rros. como n dividida entre la suma de los recíprocos de los n
b) ¿Cuál sería el error al calcular el contenido medio números. El cálculo requerido es~. La media armó-
de café de los seis tarros si registrara incorrecta- ¡_, 1/x
mente el cuarto valor como 4.50 en vez de 4.05? nica se usa para manejar frecuencias musicales y algunas
otras situaciones especiales. Por ejemplo, si un mensajero
3.14 El peso medio de los 45 jugadores de un equipo de futbol' conduce 10 millas en una vía rápida a 60 millas por hora
americano es de 215 libras. Si ninguno de los jugadores y las siguientes l Omillas después de la vía rápida las con-
pesa menos de 170 libras, ¿cuántos de ellos, como máxi- duce a 30 millas por hora, su velocidad promedio no es de
mo, pueden pesar 250 libras o más? 45 millas por hora. Habrá conducido un total de 20 millas
3.15 Se puede generalizar el argumento de los ejemplos de la en 30 minutos, de modo que su velocidad promedio co-
página 41. Para cualquier conjunto de datos no negativos rrecta es de 40 millas por hora.
con la media x, la fracción de los datos que son mayores (a) Verifique que la media armónica de 60 y 30 sea40,
o iguales que el valor positivo k no puede exceder xlk. Uti- de manera que sea el "promedio" apropiado para
lice este resultado, conocido como teorema de Markov, este ejemplo.
para responder a las preguntas siguientes: (b) Si un inversionista compra $18,000 del capital de
(a) Si el peso adulto medio de una raza de perros es de una compañía a $45 por acción y luego compra
35 libras, ¿qué fracción, como máximo, puede tener $18,000 del capital a $36 por acción, obtenga el
un peso mayor de 40 libras? precio promedio que el inversionisfa ha pagado por
(b) Si los árboles de cítricos de un huerto tienen un diá- acción. Verifique que este precio sea la media ar-
metro medio de 16.0 centímetros, ¿qué fracción de mónica de $45 y $36.
los árboles, como máximo, puede tener un diámetro (c) Si una pastelería compra $36 de un ingrediente a 60
de 24 centímetros o más? centavos la libra, $36 a 72 centavos la libra y $36 a
90 centavos la libra, ¿cuál es el costo promedio por
3.16 Los registros demuestran que en Phoenix, Arizona, la libra?
temperatura normal diaria máxima para cada mes es de
65, 69, 74, 84, 93, 102, 105, 102, 98, 88, 74 y 66 grados 3.19 Un profesor cuenta el examen final de un curso como el
Fahrenheit. Verifique que la media de estas cifras sea 85 triple de cada uno de los tres exámenes de una hora. ¿Cuál
y comente acerca de la aseveración de que la temperatura es la calificación promedio de un estudiante que obtuvo
normal diaria promedio en Phoenix es muy agradable, 85 las calificaciones 72, 86 y 80 en los tres exámenes de una
grados. hora y 90 en el examen final?
3.17 La media geométrica de n números positivos es la ni•ima
3.20 En un año reciente, los salarios promedio de los profeso-
raíz de su producto. Por ejemplo, la media geométrica de
res de educación básica en tres ciudades fueron de
3 y 12 es
$28,300, $34,500 y $31,000. Considerando que había
800, 640 y 450 profesores de educación básica en estas
ciudades, obtenga el salario promedio de todc;>s los profe-
La media geométrica de 2, 3 y 36 es sores de educación b.ásica de las tres ciudades.

V'(2)(3)(36) = V2i6 = 6 3.21 Una encuesta muestra) conducida por una organización
de salud pública lanzó los datos siguientes sobre el núme-
La media geométrica se usa principalmente para prome- ro promedio de veces que personas de varios grupos de
diar razones, tasas de variación e índices económicos. edades acuden al dentista:

46 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


Número de ¿Cuál es la media de todas las personas de la muestra?
personas de Número medio
Grupo de edad la muestra de visitas 3.22 En una temporada reciente, los cinco mejores bateadores
de un equipo de beisbol amateur tuvieron promedios de
Menores de 6 años 55 0.6 bateo de 0.381, 0.367, 0.321, 0.312 y 0.293. Si estos juga-
6-24 112 1.9 dores tuvieron, respectivamente, 223, 180, 274, 125 y
25-64 145 1.8 191 bateos, obtenga su promedio de bateo combinado.
65 años y mayores 88 1.5

Total 400

3.4
LA MEDIANA

Para evitar la posibilidad de dejarse llevar por valores muy bajos o muy altos, en oca-
siones describimos el "punto medio" o "centro" de un conjunto de datos con medidas
estadísticas diferentes de la media. Una de éstas, la mediana den valores, requiere que
se acomoden los datos de acuerdo con su tamaño y se define como sigue:

La mediana es el valor del artículo medio cuando n es non y la media


de los dos artículos medios cuando n es par.

En cualquier caso, cuando no hay dos valores iguales, la mediana se ve excedida por
tantos valores como ésta exceda. Cuando algunos de los valores son iguales, éste puede
no ser el caso.

EJEMPLO En un mes reciente, un departamento estatal de caza y pesca registró 53, 31, 67, 53 y
36 infracciones de caza o pesca en cinco regiones distintas. Obtenga la mediana del nú-
mero de infracciones de estos meses.
Solución La mediana no es 67, el tercer artículo (o medio), porque las cifras se deben ordenar pri-
mero de acuerdo con su tamaño: Así, tenemos

31 36 53 53 67

y se puede apreciar que la mediana es 53.

Nótese que en este ejemplo hay dos 53's entre los datos y que no nos referimos a nin-
guno de éstos como la mediana; la mediana es un número y no necesariamente una me-
dida u observación particular.

EJEMPLO En algunas áreas, las personas citadas por infracciones de tránsito menores pueden
asistir a una clase sobre manejo defensivo en vez de pagar una multa. Obtenga la me-
diana de asistencia si a 12 de esas clases asistieron 40, 32, 37, 30, 24, 40, 38, 35, 40, 28,
32 y 37 personas.

Solución Ordenando estas cifras según su tamaño, tenemos

SEC. 3.4 / LA MEDIANA 47


24 28 30 32 32 35 37 37 38 40 40 40

y encontramos que la mediana es 35 + 37 = 36, expresamente, la media de los dos va-


2
lores más cercanos al punto medio.

En el ejemplo anterior, algunos de los valores eran iguales, pero esto no afecta la
mediana, que excede seis de los valores y es excedida por otros seis. No obstante, en el
ejemplo siguiente, la situación es bastante distinta:

EJEMPLO En el tercer hoyo de cierto campo de golf, nueve golfistas registraron las calificaciones
4, 3, 4, 5, 4, 3, 3, 4 y 3. Obtenga la mediana.
Solución Ordenando estas cifras de acuerdo con su tamaño, tenemos

3 3 3 3 4 4 4 4 5

y se puede apreciar que la mediana, el quinto valor, es 4.

Esta vez, la mediana excede cuatro de los valores pero sólo uno la excede y sería erró-
neo considerarla como la "mediana" de las calificaciones; ésta no es excedida tantas
veces como excede otros valores.
El símbolo que usamos para la mediana den valores muestrales X1, xi, X3, ••• , y Xn es
x(y por tanto, yo zsi nos referimos a los valores de y's o z's). El símbolox se lee como
"x tilde". Si un conjunto de datos constituye una población, expresamos su mediana
como ji
Así, tenemos un símbolo para la mediana, pero no una fórmula; sólo hay una fór-
mula para la posición mediana. Refiriéndonos de nuevo a los datos ordenados según
su tamaño, usualmente disponiéndolos de bajos a altos, podemos expresar

Posición La mediana es el valor del n ; 1 ésimo artículo.


mediana

euando n es non, -n +2-es


1 . un entero y d a ia pos1c1on
. . , a la med"iana; cuando n es par,
" ; 1 es el punto medio entre dos enteros y la mediana es la medía de los valores de
los artículos correspondientes.

EJEMPLO Encuentre la posición mediana para (a) n = 15 y (b) n =45.


Solución Con los datos ordenados de acuerdo con su tamaño (y contándolos a partir de cualquier
extremo)
n+l 15+1
(a) : -2-- =- -
2 - = 8, de modo que la mediana es el valor del 8!! artículo;
n+1 45 + 1=
~~-- = - --
(b) 2 2 23, de manera que la mediana es el valor del 23º artículo.

48 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


EJEMPLO Encuentre la posición mediana para (a) n = 20 y (b) n = 48.

Solución Con los datos ordenados de acuerdo con su tamaño (y contándolos a partir de cualquier
. extremo)
n + 1 20 + 1
(a) . -2- = · -2- - = 10.5, de modo que la mediana es la media de los valores del

1()!? y el 11 2 artículos;

n-
(b) - + ·1 = -
48-+-1 = 24.5, de manera que la me d"iana es la me dºta de los va1ores
2 2
del 242 y 25 2 artículos.

·
E s importante recordar que n-+-1es una 1ormu
'' la para l a pos1c10n
· ·' me dºiana y no una 1or-
''
2
mula para la mediana como tal.
La determinación de una mediana a veces se puede simplificar, particularmente en
el caso de conjuntos numerosos de datos, utilizando la agrupación de una repre-
sentación gráfica de tronco y hoja.

EJEMPLO Los siguientes son los números de pasajeros de 50 viajes de un transbordador: 61, 52,
65,84,35,57,58,95,82,64,50,53, 103,40,62, 77, 78,66,60,41,58,92,51,65, 71,
75,89,37,54,67,59, 79,80, 73,49, 71,97,62,68,53,43,80, 75, 70,45,91,50,64,
56 y 86. Elabore una gráfica de tronco y hoja con hojas de un dígito y utilícelo para ob-
tener la mediana.
Solución Elaborando primero la gráfica de tronco y hoja, tenemos

3 5 7
4 o 9 3 5
5 2 7 8 o 3 8 1 4 9 3 o 6
6 5 4 2 6 o 5 7 2 8 4
7 7 8 1 5 9 3 5 o
8 4 2 9 o o 6
9 5 2 7
10 3

Y a que la pos1c1on 50 +-1 = 25.5 y d'1ecmueve


. . , med"1ana es - . d e los valores caen en los
2
tres primeros troncos, debemos encontrar la media del 6!! y el 7 2 yalor del cuarto tronco
(contando de bajos a altos). Ordenando las hojas del cuarto tronco según su tamaño, ob-
tenemos O, 1, 2, 2, 4, 4, 5, 5, 6, 7 y 8, de manera que la 6ª y la 7ª hoja son 4 y 5 y la me-
. 64 + 65
diana es = 64.5.
2

Además de la mediana y la media, hay otras medidas de localización central (véa-


se, por ejemplo, la amplitud media, o rango medio descrita en el ejercicio 3.36 y el
cuartil medio que definimos en la página 54). Cada una de estas medidas describe el
"punto medio" o "centro" de un conjunto de datos a su manera particular y no debería
ser sorprendente que sus valores puedan no ser los mismos. Por ejemplo, en el caso en

SEC. 3.4 / LA MEDIANA 49


el que siete estudiantes leyeron 16, 10, 14, 13, 20, 11 y 17 de los libros que se les asig-
naron, la mediana es 14 y la media es

~~+_l_O~~_2-~2_+ 20 +_1_1+_17__ l_O_I = 14.4


7 7

(redondeada a un decimal). La mediana es un promedio en el sentido en que divide los


datos en dos partes de modo que, a menos de que haya valores iguales, hay tantos va-
lores por debajo de la mediana como por encima de ésta. Por otro lado, la media es un
promedio en el sentido de que si se sustituye cada valor de un conjunto de datos con al-
gún número k mientras que el total permanece sin cambios, este número k tendrá que
ser la media. Esto se deriva directamente de la relación n ·.X=~ x.
La mediana comparte algunas, mas no todas las propiedades de la media, que men-
cionamos en la página 42. Al igual que la media, la mediana siempre existe y es única
para cualquier conjunto de datos y su obtención es bastante sencilla una vez que se han
ordenado los datos de acuerdo con su tamaño, pero ordenar un conjunto de datos ma-
nualmente puede ser una tarea muy tediosa.
A diferencia de la media, las medianas de varios conjuntos de datos por lo regular
no se pueden combinar en una mediana general de todos los datos y en problemas de
inferencia estadística, la mediana usualmente es menos confiable que la media. Esto
significa que las medianas de muchas muestras derivadas de la misma población por lo
general variarán en mayor grado que las medias muestrales correspondientes (véanse
los ejercicios 3.33 de Ja página 56 y 10.53 de Ja página 267). Además, en algunas situa-
ciones puede ser preferible usar Ja mediana en lugar de Ja media porque ésta no se ve
afectada con tanta facilidad por los valores extremos (muy bajos o muy altos). Por
ejemplo, en la página41 demostramos que la media de 967, 949, 940, 952 y 922 (las vi-
das de cinco focos) es 946 y en la página 42 demostramos que si 949 se confunde como
499, la media se convierte en 856. Como consecuencia, el error es 946 - 856 = 90. Si
hubiéramos usado la mediana en vez de la media, habríamos obtenido 949 y 940 y el
error sólo habría sido 949 - 940 =9.
Por último, se puede usar la media para definir el punto medio de un número de ob-
jetos, propiedades o cualidades que se pueden clasificar, específicamente cuando ma-
nejamos datos ordinales. Por ejemplo, podríamos clasificar un número de tareas de
acuerdo con su dificultad y luego describir el punto medio (o la mediana) como la tarea
de dificultad "promedio"; así mismo, podríamos clasificar muestras de chocolate según
su consistencia y posteriormente describir el punto medio (o la mediana) como la mues-
tra que tiene la consistencia "promedio". Ya que no se usaron números, no se puede cal-
cular la media para estas situaciones.

3.5
OTROS FRACTILES*

La mediana no es más que uno de muchos fractiles que dividen los datos en dos o más
partes, tan iguales como sea posible. Entre éstos, también encontramos los cuartiles,
deciles y percentiles, que pretenden dividir los datos en cuatro, diez y cien partes. Has-

50 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


ta hace poco, los fractiles se manejaban principalmente para distribuciones de conjun-
tos numerosos de datos y en este sentido los estudiaremos en la sección 3.7.
En esta sección, nos ocuparemos sobre todo de un problema que surgió en un aná-
lisis exploratorio de datos; en el análisis preliminar de conjuntos de datos relativa-
mente pequeños. El problema yace en dividir tales datos en cuatro partes casi iguales,
donde decimos "casi iguales" porque no hay manera en que se pueda dividir un conjun-
to de datos en cuatro partes iguales, digamos, en el caso den= 27 o n = 33. Las medidas
estadísticas disefiadas para este propósito se han conocido tradicionalm-ente como los
tres cuartiles, Qi. Q2 y Q3 y no hay ningún argumento acerca de Q2, que es tan sólo la
mediana. Por otro lado, la definición de Q1 y Q3 da una pauta considerable para la ar-
bitrariedad.
Las siguientes son algunas propiedades deseables que querríamos que tuvieran los
cuartiles Q1 y Q3:

l. Q1 es excedido tres veces por tantos valores como excede y es la otra


posibilidad para Q3.
2. Hay tantos valores menores que Q1 como los hay entre Q1 y Q2, entre
Q2 y Q3, y mayores que Q3.
3. La mitad de los datos caen entre Q1 y Q3.

Aquí, se supone que no hay dos valores iguales; de otra manera, el orden debeóa cam-
biar como lo indicamos en la página 53.
Para ilustrar esto, considere las siguientes lecturas de temperatura alta en doce ciu-
dades europeas en un día de junio: 90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74 y 93 grados.
Ordenando estas cifras de acuerdo con su tamaño, tenemos

72 74 75 77 78 79 82 85 86 90 93 94

y se puede apreciar que las líneas punteadas de la parte superior de la figura 3 .1 dividen
los datos en cuatro partes iguales. Si determinamos que los puntos centrales entre 75 y
77, 79 y 82, y 86 y 90 sean los tres cuartiles, tenemos

75 + 77 79 + 82 + 90
Q¡ =-2-- = 76,
º -J = 2 = 80.5 , y Q3 =
86
2 = 88.

Es evidente que Q2 =80.5 también es la mediana y se puede verificar con facilidad que
se satisfacen las tres propiedades de los cuartiles antes mencionadas.

FIGURA 3.1 Cuartiles.

SEC. 3.5 I OTROS FRACTILES 51


Todo funcionó muy bien porque 12, el tamaño de la muestra, resultó ser un múl-
tiplo de 4. No obstante, ¿qué podemos hacer cuando éste no es el caso? Suponga, por
ejemplo, que la ciudad en que la temperatura fue de 77 grados no emitió su informe co-
rrespondiente, de modo que sólo nos quedan los siguientes once números ordenados se-
gún su tamaño:

72 74 75 78 79 82 85 86 90 93 94
La mediana o Q2 ahora es 82, ¿pero qué podemos hacer en relación con las otras dos lí-
neas divisorias? Si se piensa que la segunda de las tres propiedades que se mencionan
en la página 51 es la más considerable, las líneas divisorias se pueden trazar como en
la parte inferior de la figura 3.1, de manera que Q1=75, Q2 = 82 y Q3 = 90. Hay dos va-
lores menores que Q1, dos valores entre Q1 y Q2, dos valores entre Q2 y Q3 y dos valores
mayores que Q3, pero Q1 es excedido cuatro veces por tantos valores como excede y
sólo cinco de los once valores caen entre Q1 y Q3.
A este procedimiento de la obtención de cuartiles se le puede dar una definición
simple. Suponiendo que no haya dos valores iguales (pero, vea el párrafo posterior al
siguiente ejemplo) expresamos que
El cuartil i1'ferior es la mediana de todos los valores menores que la
mediana del conjunto completo de datos.

El cuartil superior es la mediana de todos los valores mayores que la


mediana del conjunto completo de datos.

EJEMPLO Las siguientes son las calificaciones de nueve estudiantes en una prueba de historia: 86,
82, 73, 94, 88, 66, 79, 90 y 74. Obtenga la mediana y los dos cuartiles.

Solución Para n =9, la posición mediana es 9 + 1 = 5. El cuartil inferior es la mediana de los


2
cuatro valores por debajo de la mediana y el cuartil superior es la mediana de los cuatro
valores por encima de la mediana. Ordenando los datos de acuerdo con su tamaño, te-
nemos
66 73 74 79 82 86 88 90 94

. ~ . 73
. que 1a me d"tana es 82 , e 1cuart1·1o m1enor
y se pue de apreciar + 74 = 73.5, y e1cuar-
2

til superior es 88 +2 90 -- 89 .

Si alguno de los valores son iguales, modificamos la definición de cuartiles susti-


tuyendo "menores que la mediana" con "a la izquierda de la posición mediana" "y"
"mayores que la mediana" con "a la derecha de la posición mediana". Por ejemplo, los
nueve golfistas del ejemplo de la página 48 obtuvieron los golpes

3 3 3 3 4 4 4 4 5

en el tercer hoyo de un campo. El cuartil inferior, la media del segundo y el tercer va-
lores, es 3. La mediana, el quinto valor, es 4. El cuartil superior, la media del segundo
y el tercer valores a partir de la derecha, es 4.

52 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


En los ejercicios se presentan otras definiciones de los cuartiles.
En el análisis exploratorio de datos observamos el proceso de la obtención de los
valores que dividen un conjunto de datos en cuatro partes de una manera distinta; como
un proceso de doblamiento. En relación con el primero de nuestros dos ejemplos, en
el que el tamaño de la muestra fue doce, suponga que en la parte superior de la figura
3.1 o de la figura 3.2 doblamos la página a lo largo de la línea punteada de la izquierda,
a lo largo de la línea punteada de la derecha y luegó a lo largo de la línea punteada de
en medio. Si hacemos esto, se traslaparán las cuatro partes en que hemos dividido los
datos. Si lo hacemos para nuestro segundo ejemplo, donde el tamaño de la muestra fue
once, las cuatro partes no se traslaparán si doblamos la página a lo largo de las líneas
punteadas de la parte inferior de la figura 3.1. Sin embargo, se traslaparán si movemos
las líneas punteadas como en la parte inferior de la figura 3.2.
Las nuevas líneas divisorias de la izquierda y la derecha se encuentran en los pun-
tos centrales entre 75 y 78, y 86 y 90 y podríamos expresar que

75 + 78 86 + 90
Q¡ = 2 = 76.5 y Q3 = 2 = 88.

En realidad, en el análisis exploratorio de datos, nos referimos a estos dos valores como
los puntos esenciales; el punto esencial inferior es 76.5 y el punto esencial superior
es 88. Esta terminología refleja el proceso de doblaIµiento, que usamos para dividir los
datos en cuatro partes.
Habiendo presentado el concepto de un punto esencial por medio de un ejemplo,
ahora demos una definición formal. Suponiendo que no haya dos valores iguales (pero,
vea la figura siguiente) expresamos que

El punto esencial inferior es la mediana de todos los valores menores o


iguales que la mediana del conjunto completo de datos; el punto esen-
cial superior es la mediana de todos los valores mayores o iguales que
la mediana del conjunto completo de datos.

En la práctica, primero encontramos la posición de un punto esencial y luego contamos


la misma cantidad de sitios a partir del otro extremo para encontrar la posición del otro
punto esencial.

EJEMPLO Las siguientes son las lecturas de presión de nueve personas después de haber efectua-

FIGURA 3.2 Puntos esenciales.

SEC. 3.5 I OTROS FRACTILES 53


do ejercicios con esfuerzo: 104, 100, 98, l ll, 91, 94, 103, 96y 108. Obtenga la mediana
y los dos puntos esenciales.

·~
S oluciun P aran =9 , 1a pos1c1
. "ón me d"iana es -9 +-t = 5. A s1,' 1a pos1c1on
.. , de1 punto esencia
. l"in.e-
e

. es 5- +- t = 3, y e1 punto esencia 2
. 1 superior
. es e1 tercer va1or a partir
. de1 otro extre-
nor 2
mo. Ordenando los datos según su tamaño tenemos
91 94 96 98 100 103 104 108 111

y se puede apreciar que el punto esencial inferior es 96, la mediana es 100 y el punto
esencial superior es 104. Así mismo, si imaginamos líneas punteadas a través de estos
valores como en la figura 3.2, encontraremos que, de hecho, las cuatro partes se tras-
laparán.

Si algunos de los valores son iguales, tal vez debamos modificar la definición de
los puntos esenciales sustituyendo "menores o iguales que la mediana" con "a la iz-
quierda de la posición mediana o en ésta" y "mayores o iguales que la mediana" con "a
la derecha de la posición mediana o en ésta". De otro modo, el procedimiento es exac-
tamente el mismo. Por citar un caso, en el ejemplo de la página 48, los nueve golfistas
obtuvieron las calificaciones

3 3 3 3 4 4 4 4 5

en el tercer hoyo de cierto campo. Ya que el tamaño de la muestra es el mismo que en


el ejemplo anterior, encontramos que el punto esencial inferior, es 3, la media-
na; el quinto valor es 4; y el punto esencial superior, el tercer valor a partir de la dere-
cha, es 4.
En la práctica, los cuartiles y puntos esenciales a menudo se usan alternativamente.
Los cuartiles o puntos esenciales no pretenden describir el "punto medio" o "cen-
tro" de un conjunto de datos y los hemos presentado aquí principalmente porque, al
igual que la mediana, son fractil~s y se determinan más o menos de la misma manera.

El cuartil medio, Qi + Q3 , se ha usado, en su ocasión, como una medida de localiza-


2
ción central y es probable que la media de los dos puntos esenciales se pueda usar en
la misma forma.
La información proporcionada por la mediana, los dos cuartiles y los valores infe-
riores y superiores a veces se presenta en forma de una representación gráfica de re-

1 1 1 1 1 1 1 1 1 1 1 t 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
~ ~ ro n ~ ~ ~ oo ~ ~ ~ ~ oo ~ ~ ~

t
Valor
t t
Mediana
t
03
t
Valor superior
inferior

FIGURA 3.3 Representación gráfica de recuadro y sección para los datos sobre las
calificaciones en la prueba de historia.

54 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


cuadro y sección, a menudo llamada simplemente gráfica de recuadro. Dicha gráfica
aparece en la figura 3.3 ilustrando los datos de las calificaciones en la prueba de historia
de las páginas 53 y 54. En la práctica, a veces se usan los dos puntos esenciales en lugar
de los dos cuartiles. En ocasiones, se altera esta cifra con otras características de los datos,
pero la forma simple que aquí presentamos se adecua a la mayoría de los propósitos.

3.6
LA MODA

Otra medida que en ocasiones se usa para describir el "punto medio" o "centro" de un
conjunto de datos es la moda, que se define simplemente como el valor que ocurre con
la mayor frecuencia y más de una vez. Sus dos ventajas principales son que no requiere
de cálculos, sólo de conteo y que se puede determinar al igual para datos cualitativos
que para datos nominales.

EJEMPLO A las 20 juntas de una academia de bailes tradicionales asistieron 26, 25, 28, 23, 25, 24,
24, 21, 23, 26, 28, 26, 24, 32, 25, 27, 24, 23, 24 y 22 de sus miembros. Obtenga la moda.
Solución Entre los veinte números, 21, 22, 27 y 32 ocurren una vez cada uno; 28 ocurre dos ve-
ces; 23, 25 y 26 ocurren tres veces cada uno; y 24 ocurre cinco veces. Así, 24 es la asis-
tencia modal.

Del mismo modo, si más personas que visitan California desean ir a Disneylandia más
que a ningún otro centro turístico, decimos que Disneylandia es su selección modal.
Además del hecho de que la moda rara vez es útil para la inferencia estadística, pre-
senta también la desventaja de que no puede existir (que es el caso cuando no hay dos
valores iguales) o que no puede ser única.

EJEMPLO Una muestra de los registros de un departamento de vehículos automotores demuestra


que 18 conductores de un grupo de edad determinado recibieron 3, 2, O, O, 2, 3, 3, 1, O,
1, O, 3, 4, O, 3, 2, 3 y Oinfracciones de tránsito durante los pasados tres años. Encuentre
la moda.
Solución Como se puede ver, el número 4 ocurre una vez, el número 1 ocurre dos veces, el nú-
mero 2 ocurre tres veces y los números Oy 3 ocurren seis veces cada uno. Así, tenemos
las dos modas O y 3.

Una dificultad adicional de la moda es que se comporta erráticamente cuando se


redondean los valores de los datos (véase el ejercicio 3.51, página 58).
Además de las que hemos mencionado, hay muchas medidas de localización cen-
tral, y por lo menos una más, la amplitud media, se presenta en el ejercicio 3.36. El
"promedio" particular que ~e debe usar en una situación determinada puede depender
de muchos factores (véase la sección 7.3, por ejemplo) y la selección puede ser difícil.
Ya que la selección de descripciones estadísticas a menudo contiene un elemento de ar-
bitrariedad, hay quienes piensan que se puede usar la magia de la estadística para pro-

SEC. 3.6 I LA MODA 55


bar casi cualquier cosa. De hecho, un famoso estadista británico del siglo XIX dijo que
hay tres clases de mentiras: los engaños, las mentiras mal intencionadas y la estadís-
tica, y los ejercicios 3.35 y 3.36 de ésta y la siguiente página describen una situación en
la que bien se justificaría esta crítica.

EJERCICIOS

3.23 Encuentre Ja posición mediana para 92, 86, 109, 102, 92, 353, 78, 74, 102, 106, 95 y 91 por
(a) n = 25; ciento de sus cuotas de ventas. Calcule la media y la me-
(b) n =32. diana de estos porcentajes e indique cuál de las dos medi-
das da una mejor idea del rendimiento "promedio" de es-
3.24 Encuentre la posición mediana para tos vendedores.
=
(a) n 37;
(b) n = 64. 3.33 Para verificar Ja aseveración de que Ja media por Jo gene-
ral es más confiable que la mediana (expresamente, que
3.25 En quince días, un restaurante sirvió desayunos a 40, 52, está sujeta a menores fluctuaciones posibles), un estu-
55, 38, 40, 48, 56, 56, 60, 37, 58, 63, 46, 50 y 61 clientes. diante condujo un experimento consistente en 12 lanza-
Obtenga Ja mediana. mientos de tres dados. Los siguientes son sus resultados:
3.26 En 1991, doce vendedores de autos usados vendieron 58, 2, 4 y 6; 5, 3 y 5; 4, 5 y 3; 5, 2 y 3; 6, 1y5;3, 2 y 1; 3, l
70, 85, 42, 64, 46, 66, 89, 44, 93, 58 y 79 autos usados. y 4; 5, 5 y 2; 3, 3 y 4; 1, 6 y 2; 3, 3 y 3; y 4, 5 y 3.
Obtenga Ja mediana. (a) Calcule las doce medianas y las doce medias.
(b) Agrupe las medianas y medias obtenidas en Ja parte
3.27 Veinte fallas de energía duraron 18, 125, 44, 96, 31, 26, (a) en distribuciones separadas que tengan las cla-
80,49, 125,63,45, 33,89, 12, 103, 75,40, 80,61 y28 mi- ses 1.5-2.5, 2.5-3.5, 3.5-4.5 y 4.5-5.5. (Nótese que
nutos. Obtenga Ja mediana. no habrá ambigüedades ya que las medianas de tres
3.28 Otenga el número mediano de infracciones de tránsito de números enteros y las medias de tres números ente-
Jos 18 conductores del ejemplo de la página 55. ros no pueden equivaler a 2.5, 3.5 ni 4.5.)
(c) Elabore histogramas de las dos distribuciones obte-
3.29 En diecinueve páginas de un informe, un mecanógrafo nidas en Ja parte (b) y explique cómo ilustran Ja ase-
cometió O, O, 1, 2, O, 3, 1, O, O, O, O, 1, O, O, 4, 1, O, Oy 2 veración de que Ja media generalmente es más con-
errores. Encuentre fiable que la mediana.
(a) Ja media;
(b) Ja mediana. 3.34 Vuelva a hacer el ejercicio anterior con sus propios datos
lanzando en repetidas ocasiones tres dados (o un dado tres
3.30 Los siguientes valores son Jos tiempos en minutos de veces) y elaborando las distribuciones correspondientes
veinticinco juegos de Ja National Basketball Association de las medianas y medias. (Si no dispone de ningún dado,
(NBA): simule el experimento mentalmente, usando una compu-
138 142 113 126 135 tadora o sacando pedazos de papel de un sombrero.)
142 159 157 140 157 3.35 Un servicio de pruebas de consumo obtuvo las siguientes
121 128 142 164 155 millas por galón en cinco recorridos de prueba realizados
139 143 158 140 118 con cada uno de tres automóviles compactos:
142 146 123 130 137
Automóvil A: 27.9 30.4 30.6 31.4 31. 7
(a) Obtenga la mediana directamente ordenando los
Autom6vil B: 31.2 28. 7 31.3 28. 7 31.3
datos de acuerdo con su tamaño.
(b) Obtenga Ja mediana elaborando primero una gráfi- Automóvil C: 28.6 29.1 28.5 32.1 29. 7
ca de tronco y hoja.
(a) Si Jos fabricantes del automóvil A quieren anunciar
3.31 Utilice la gráfica de tronco y hoja de la página 16 para en-
que su carro obtuvo el mejor rendimiento en esta
contrar Ja mediana de las calificaciones que veinte estu-
prueba, ¿cuál de Jos "promedios" estudiados en este
diantes obtuvieron en una prueba de coordinación física.
texto se podrían usar para sustentar su asevera-
3.32 En cierto mes, quince vendedores alcanzaron 107, 90, 80, ción?

56 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


-(b) Si los fabricantes del automóvil B quieren anunciar es una fracción entre Oy 1. Encuentre el fractil correspon-
que su carro obtuvo el mejor rendimiento en esta diente a p como sigue:
prueba, ¿cuál de los "promedios" estudiados en este
texto se podrían usar para sustentar su aseveración?
Calcule pn. Si no es un entero, utilice el siguiente en-
3.36 Suponga que los fabricantes del automóvil C contratan a tero más alto para la posición del l';mo fractil; si es un
un estadista sin escrúpulos y le dan instrucciones de que entero, use la media de los valores de las posiciones
encuentre algún tipo de "promedio" que demuestre que su pn y pn + 1 como el l';mo fractil.
automóvil obtuvo el mejor rendimiento en la prueba. De-
muestre que la amplitud media, la media de los valores
=
Por ejemplo, si quisiera que el fractil p 0.6 en una lista
con n = 103, encontraría pn = 61.8 y usaría el valor de la
inferiores y superiores, servirá para sus propósitos.
posición 62. Si quisiera que el fractil p = 0.6 en una lista
*3.37 Los registros de la librería de una universidad grande de- con n = 11 O, encontraría pn = 66 y utilizaría los valores de
mostraron que veintidós estudiantes de último año de fi- las posiciones 66 y 67. Los fractiles a menudo se expresan
losofía revisaron estos números de libros durante el año como percentiles, por ejemplo, el fractil 0.6 se conoce
académico. como el 60" percentil. Encuentre el 6()!! percentil para las
duraciones de los juegos de la NBA del ejercicio 3.30.
62 73 40 72 79
88 35 51 48 42 *3.44 Algunos estadistas y algunos programas de computación
75 65 69 82 50 utilizan la interpolación para determinar la posición de
66 103 68 54 38 los cuartiles y otros fractiles. Esta técnica comienza por
52 76 obtener la posición del fractil correspondiente a p como
p(n + 1 ). Por ejemplo, para encontrar la posición del cuar-
(a) Encuentre la mediana. til inferior de 30 valores, sustituimos p = 0.25 y n = 30
(b) Encuentre los dos puntos esenciales. para obtener 0.25(30 + 1) = 7 .75. Esto significa que debe-
*3.38 En un estudio de la capacidad de frenado de un automóvil
mos apartamos tres cuartos de la distancia entre el sépti-
mo y el octavo valor. Si estos valores son 146 y 148, en-
con un nuevo sistema de frenos, veintiún conductores que
tonces el cuartil inferior es
viajaban a treinta millas por hora pudieron frenar en las
distancias siguientes, expresadas en pies: 3
146 + 4 (148 - 146) = 147.5
69 58 70 80 46 Una universidad tuvo 8, 3, 20, 5, 2, 8, 14, 2, 6, 10, 7 y 15
61 65 74 75 55 solicitantes para doce puestos distintos de profesores. En-
67 56 70 72 61 cuentre los puntos esenciales y obtenga también los cuar-
66 58 68 70 68 tiles usando la técnica del ejercicio 3.43. Entonces, use el
58 método de la interpolación para obtener los cuartiles.
(a) Encuentre la mediana. *3.45 Use los resultados de los ejercicios 3.27 y 3.42 para ela-
(b) Encuentre los dos puntos esenciales. borar una representación gráfica de recuadro y sección
para las duraciones de las fallas eléctricas.
*3.39 Encuentre los dos puntos esenciales de las duraciones de
los partidos de la NBA del ejercicio 3.30. *3.46 Use los resultados de los ejercicios 3.30 y 3.39 para ela-
borar una representación gráfica de recuadro y sección
*3.40 Si se ordenan n valores muestrales de acuerdo con su ta-
para los partidos de la NBA.
maño, encuentre las posiciones de la mediana, los dos
puntos esenciales y los cuartiles: 3.47 Los siguientes son los números de días que diecisiete per-
(a) cuando n = 40; sonas se anticiparon para comprar localidades para un
(b) cuando n 41;= evento deportivo: 7, 3, 4, 12, 18, 3, 8, 14, 6, 16, 7, 6, 11,
(c) cuando n 42;= 7, 9, 5 y 2. Encuentre la moda.
(d) cuando n 43.= 3.48 En cincuenta días, éstos fueron los números de estudian-
*3.41 Encuentre los cuartiles superiores e inferiores de las du- tes ausentes en una clase de álgebra:
raciones de los partidos de la NBA del ejercicio 3.30. 1 3 o o 1 o 4 1 1 o
*3.42 Encuentre los cuartiles y puntos esenciales de los datos de 1 2 6 o 1 o o 1 o o
las fallas de energía del ejercicio 3.27. o o 1 3 2 5 o
3 1
1 o 3 o o o 4 1 1 2
*3.43 En este problema, daremos un procedimiento para obte- 1 2 o 1 o 1 o o 3 2
ner fractiles o percentiles generales. Supongamos que p Encuentre la moda.

SEC. 3.6 / LA MODA 57


3.49 Encuentre la moda (si existe) de cada uno de los siguien- 3.51 Las siguiente cifras son las cantidades, de harina, en li-
tes conjuntos de lecturas de presión sanguínea: bras que se utilizan diariamente en una pastelería, para
w1~1~1~1~1~1~1~1~1~1~ veinte días calendario consecutivos:
144;
(b) 146, 149, 146, 141, 146, 149, 147, 147, 149, 149,
440 677 481 690 707
145;
514 671 488 483 554
(c) 167, 151, 175, 144, 152, 148, 156, 169, 143, 177,
611 638 572 514 623
161.
664 631 570 484 612
3.50 Se preguntó a treinta personas cuál es su color favorito.
Estas son sus respuestas: (a) Encuentre Ja media, Ja mediana y la moda para este
conjunto de valores.
rojo azul azul verde amarillo (b) Redondee Jos veinte valores a las diez libras más
azul café rojo rojo rojo cercanas. Entonces, de nuevo, dé Ja media, Ja me-
verde blanco azul rojo amarillo diana y la moda.
azul azul rojo verde amarillo (c) Redondee los veinte valores a las cien libras más
azul azul naranja verde azul cercanas. Entonces, de nuevo, dé Ja media, Ja me-
azul verde rojo morado azul diana y la moda.
(d) Señale una conclusión acerca del efecto de Ja me-
¿Cuál es su selección modal? dia, Ja mediana y Ja moda.

3.7
LA DESCRIPCION DE LOS DATOS AGRUPADOS*

En el pasado, se prestaba atención considerable a la descripción de los datos agrupados


porque generalmente era conveniente agrupar los datos antes de calcular varias des-
cripciones estadísticas. Este ya no es el caso, puesto que ahora los cálculos necesarios
se pueden efectuar en cuestión de segundos usando computadoras o aun calculadoras
de bolsillo. No obstante, dedicaremos esta sección y la sección 4.4 a la descripción de
los datos agrupados porque algunos datos (por ejemplo, cifras gubernamentales publi-
cadas) están disponibles sólo en forma de distribuciones de la frecuencia.
Como ya hemos visto, la agrupación de los datos implica cierta pérdida de infor-
mación. Cada artículo pierde su identidad, por así decirlo; sólo sabemos cuántos artí-
culos hay en cada clase, de modo que debemos estar satisfechos con las aproximacio-
nes. Para determinar la media, por lo regular podemos obtener una buena aproximación
asignando a cada artículo que cae en una clase el valor de la marca de la clase co-
rrespondiente. Por ejemplo, para calcular la media de los datos agrupados de la emi-
sión de óxidos de azufre de la página 22, manejamos los tres valores de la primera clase
como si todos fueran 6.95, los diez valores de la segunda clase como si todos fueran
10.95, ... y los dos valores que caen en la séptima clase como si todos fueran 30.95. Est~
procedimiento usualmente es bastante satisfactorio, ya que los errores que se introdu-
cen así en los cálculos tenderán a "promediarse".
Para dar una fórmula general para la media de una distribución con k clases, ano-
temos las marcas de las clases sucesivas como xi. x2, .•• y Xk y las frecuencias de las cla-
ses correspondientes comof1,J2, ... , y Ji. Entonces, la aproximación de la suma de todas
las medidas se realiza por medio de

58 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


y la media de la distribución se obtiene mediante

Media delos _ Ix·f


X=---
datos agrupados n

Aquí, n es el tamaño de la muestra.Ji +/2 + ... +fk y para expresar una fórmula corres-
pondiente para la media de una población sustituimos µ con x y N con n.

EJEMPLO Calcule la media de la distribución de los datos de la emisión de óxidos de azufre de la


página 22.
Solución Para obtener I: x ·f, efectuamos los cálculos que aparecen en la tabla siguiente, donde
la primera columna contiene las marcas de la clase, la segunda columna se copia de la
distribución original y la tercera columna contiene los productos x · f:

Marca
de. clase Frecuencia
X f x·f
6.95 3 20.85
10.95 10 109.50
14.95 14 209.30
18.95 25 473.75
22.95 17 390.15
26.95 9 242.55
30.95 2 61.90

80 1,508.00

Entonces, la sustitución de la fórmula da como resultado


1,508.00
x= 80 = 18.85

Para verificar el error de agrupación, específicamente, el error en que se incurre al


reemplazar cada valor de una clase por una marca de la clase, refirámonos a la impre-
sión por computadora de la figura 3.4, que demuestra que la media de los datos no agru-
pados originales es 18.896. Así, el error es de sólo 18.85 - 18.896 =- 0.046, que es muy
bajo.
Una vez que hemos agrupado un conjunto de datos, aún podemos determinar la
mayoría de las otras medidas estadísticas aparte de la media, pero tenemos que hacer
suposiciones especiales o modificar las definiciones. Por ejemplo, definimos la media-
na de una distribución de la manera siguiente:

La mediana de una distribución es tal que la mitad del área total de los
rectángulos del histograma de la distribución cae a su izquierda y la
otra mitad cae a su derecha.

Esta definición, que ilustramos por medio de la figura 3.5, es igual que la suposición de
que los valores de la clase que contiene la mediana de los datos agrupados están distri-
buidos equitativamente -es decir, dispersados en forma regular- a través de la clase.

SEC. 3.7 / LA DESCRIPCION DE LOS DATOS AGRUPADOS 59


MTB > CONJUNTO Cl
DATC°S) 15.8 26 .4 17 .3 11.2 23 .9 24.8 18. 7 13.9 9. 0 13.2
DATOS) 22.7 9.8 6.2 14. 7 17 .5 26 .1 12.8 28.6 17.6 23. 7
DATOS) 26 .8 22.7 18 .0 2e.5 11.0 20. 9 15.5 19.4 16.7 1". 7
DATOS) 19.1 15.2 22 .9 26 .6 28.4 21.4 19.2 21.6 16. 9 19.0
DATOS) 18.5 23 .e 24.6 ·2e .1 16.2 18.S 7.7 13.5 23 .5 14.5
DATOS) 14.4 29 .6 19.4 17.0 20.8 24.3 22.5 24.6 18 .4 18.1
DATOS) 8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
DATOS> 25. 9 10.5 15.9 27 .5 18 .1 17. 9 9.4 24.1 20.1 28.5
MTB > MEDIA Cl
MEDIA = 18.896
MTB > STAN Cl
DESVIACION :a 5 .6565
ESTANDAR

FIGURA 3.4 lmpresi6n por computadora de la media de los datos de la emisi6n


de 6xidos de azufre.

Para encontrar la línea divisoria entre las dos mitades de un histograma (cada una de las
n n
cuales representa 2. de los elementos agrupados) debemos contar 2. de los elementos

comenzando por cualquier extremo de la distribución. El ejemplo siguiente ilustra


cómo se hace esto:

EJEMPLO Obtenga la mediana de la distribución de los datos de la emisión de óxidos de azufre.

Solución Ya que ~= 8
2° = 40, debemos contar 40 de los elementos empezando por cualquie1

extremo. Empezando por la parte inferior de la distribución (esto es, empezando con
los valores más bajos), encontramos que 3 + 10 + 14 =27 de los valores caen en las pri-

FIGURA 3.5 La mediana de la distribuci6n de los datos de la emisi6n de 6xidos de azufre.

60 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


=
meras tres clases y que 3 + 10 + 14 + 25 52 de los valores caen en las primeras cuatro
=
clases. Por tanto, debemos contar 40 - 27 13 valores más, además de los 27 valores
que caen en las tres primeras clases. Con base en la suposición de que 25 valores de las
cuatro clases están distribuidos en forma regular a través de la clase, podemos hacer
n
esto sumando del intervalo de la clase de 4 a 16.95, la frontera inferior de las cuatro
clases. Así, tenemos
13
x= 16.95 + 25 ·4 = 19.03

para la mediana de la distribución.

En general, si L es la limitacióin inferior de la clase en que debe caer la mediana,


fes la frecuencia, e es el intervalo de la clase y j es el número de artículos que aún nos
faltan cuando obtenemos L, entonces la mediana de la distribución se obtiene por medio de

Mediana de los -
X= L +-·e
j
datos "'grupa dos f

Si lo preferimos, podemos encontrar la mediana de una distribución comenzando por


contar desde el otro extremo (comenzando con los valores más altos) y sustrayendo una
fracción adecuada del intervalo de la clase a la frontera superior de la clase en que debe
caer la mediana.

EJEMPLO Use este planteamiento alternativo para encontrar la mediana de la distribución de los
datos de la emisión de óxidos de azufre.
Solución Dado que 2 + 9 + 17 =28 de los valores deben caer sobre 20.95, necesitamos 40 - 28
=12 de los 25 valores que caen en la clase siguiente para obtener la mediana, y expre-
samos que
12
.X= 20.95 - 25 ·4 = 19.03

Es evidente que el resultado es el mismo.

Nótese que se puede obtener la mediana de una distribución sin importar que todos
los intervalos de la clase sean iguales; de hecho, por lo general, se puede encontrar aún
si alguna o ambas clases de la parte superior o la inferior de una distribución son abier-
tas (véase el ejercicio 3.52).
También podemos usar el método por el que encontramos la mediana de una dis-
tribución para determinar otros fractiles. Por ejemplo, se definen los tres cuartiles (que
pretenden dividir un conjunto de datos en cuatro partes más o menos iguales) para los
datos agrupados de modo que 25% del área total de los rectángulos del histograma cae
del lado izquierdo de Qi, 25% cae entre Q1 y Q2, 25% cae entre Q2 y QJ y 25% cae a la
derecha de Q3 • En forma similar, se definen los nueve deciles (que pretenden dividir un
conjunto de datos en diez partes más o menos iguales) para los datos agrupados de
modo que 10% del área total de los rectángulos del histograma cae a la izquierda de Di,
10% cae entre Di y D2,··· y 10% cae del lado derecho de D9. Y finalmente, se definen

SEC. 3.7 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 61


los noventa y nueve percentiles (que pretenden dividirun conjunto de datos en cien par-
tes más o menos iguales) para los datos agrupados de modo que 1% del área total de los
rectángulos del histograma cae del lado izquierdo de Pi. 1% cae entre P1 y P2, ... y 1%
cae a la derecha de P99. Nótese que Q2, Ds y P5o son iguales a la mediana y que P2s equi-
vale a Q1 y P1s equivale a Q3. Véase también el ejercicio 3.43 de la página 57.

EJEMPLO Encuentre Qi y Q3 para la distribución de los datos de la emisión de óxidos de azufre.


Solución Para encontrar Qi. debemos contar ªP = 20 de los artículos comenzando por la parte in-
ferior de la distribución. Puesto que hay 3 + 10 =13 valores en las dos primeras clases,
debemos contar 20 - 13 =7 de los 14 valores de la tercera clase para obtener Q1 y te-
nemos
7
Ql = 12.95 + --· 4 = 14.95
14
Para encontrar Q3, debemos contar 20 de los artículos iniciando por el otro extremo de
la distribución. Ya que 2 + 9 = 11 de los valores caen en las dos clases de la parte su-
perior de la distribución, debemos contar 20 - 11 =9 de los 17 valores de la clase si-
guiente para obtener Q3 y tenemos
9
Q3 = 24.95 - Tf 4 = 22.s3

EJEMPLO Encuentre Ds y P2 para la distribución de los datos de la emisión de óxidos de azufre.


Solución Contando 80(0.20) =16 de los artículos empezando con los valores más altos, tenemos
5
D8 = 24.95 - 17 ·4 = 23.77

Y contando 80(0.02) = 1.6 de los artículos comenzando con los valores más bajos, te-
nemos
1.6
P2 = 4.95 + 3 .4 = 7.08

Nótese que cuando determinamos un fractil de una distribución, el número de artículos


que contamos y la cantidadj de la fórmula de la página 61 no necesita ser un número
entero.

EJERCICIOS

*3.52 Determine, para cada una de las siguientes distribucio- (b) IQ Frecuencia
nes, si es posible enq:mtrar la media y/o la mediana:
Menos de90 3
(a) Calificación Frecuencia 90- 99 14
100-109 22
110-119 19
40-49 5
Más de 119 7
50-59 18
60-69 27
70-79 15
80-89 6

62 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


(c) Peso Frecuencia •3.58 Refiriéndonos a Ja distribución del ejercicio 3.56, encuentre
(a) Jos deciles D3 y I>,;
lOOomenos 41 (b) Jos percentiles Ps y P9s.
101-110 13 •3.59 Obtenga Ja media de Ja siguiente distribución de edades
111-120 8 de Jos miembros de un sindicato:
121-130 3
131-140 1

Edad(años) 1 Frecuencia
*3.53 Encuentre Ja media de Ja siguiente distribución de las ca-
lificaciones que obtuvieron 500 estudiantes en un exa- 15-19 16
men de geografía: 20-24 35
25-29 44
Número de 30-34 27
Calificación estudiantes 35-39 17
40-44 8
10-24 44 45-49 2
25-39 70 50-54
40-54 92
55-69 147
70-84 115 •3.60 Refiriéndonos a Ja distribución del ejercicio anterior, en-
85-99 32 cuentre
(a) Ja mediana;
(b) Jos cuartiles Q1 y QJ.

*3.54 Refiriéndonos a Ja distribución del ejercicio anterior, en- •3.61 Refiriéndonos a la distribución del ejercicio 3.59, en-
cuentre cuentre Jos dos fractiles que dividen Ja distribución en tres
(a) Ja mediana; partes iguales.
(b) Jos cuartiles Q1 y QJ. •3.62 Encuentre Ja media de Ja distribución obtenida en el ejer-
*3.55 Refiriéndonos a Ja distribución del ejercicio 3.53, encuentre cicio 2.22 de Ja página 26 para Jos pesos de las 50 ratas.
(a) Jos deciies D1 y D9; También, use un programa de computación o una calcu-
(b) Jos percentiles Ps y P9s. ladora para encontrar Ja media de Jos datos originales (no
agrupados) y Juego determine el tamaño del error de agru-
*3.56 Encuentre la media de Ja siguiente distribución de Jos por- pación.
centajes de Jos estudiantes que pertenecen a un grupo ét- •3.63 Encuentre Ja media de Ja distribución obtenida en el ejer-
nico determinad_o ~n una muestra de 50 escuelas prima- cicio 2.27 de la página 26 para Jos rendimientos obtenidos
rias: con 40 tanques llenos de gasolina. También, use un pro-
grama de computación o una calculadora para encontrar
Número de la media de Jos datos originales (no agrupados) y Juego
escuelas determine el tamaño del error de agrupación.
Porcentaje
•3.64 Suponga que se han agrupado Jos valores de Jos datos en
O- 4 18 una distribución con el intervalo de Ja clase c. Se garan-
5- 9 15 tiza que el error de agrupación en el cálculo de Ja media no
10-14 9 puede ser mayor que c. Compare, para cada uno de Jos dos
15-19 7 ejercicios anteriores, el error de agrupación con el inter-
20-24 1 valo de Ja clase.

*3.57 Refiriéndonos a Ja distribución del ejercicio anterior, en-


cuentre
(a) la mediana;
(b) Jos cuartiles Q1 y QJ.

SEC. 3.7 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 63


3.8
NOTA TECNICA (SUMATORIAS)

En la notación que presentamos en la página 40, I x no nos indica cuáles ni cuántos va-
lores de x debemos sumar. Se maneja esto con la notación más explícita
n
LX¡= x1 + x 2 + ··· + Xn
i= 1
donde es evidente que estamos sumando lasx's cuyos subíndices, i, son 1, 2, ... y n. No 1
estamos usando la notación más explícita en este texto para simplificar la apariencia
general de las fórmulas, suponiendo que en cada caso es evidente a qué x' s nos estamos
refiriendo y cuántas hay.
Usando la notación I, también tendremos la ocasión para escribir expresiones ta-
les como Ix2, I.xy, Ix'l, ... , que representan (más explícitamente) las sumas
n
"
L. X¡ -
2_

2
+ Xz2 + X 32 + ··· + Xn2
i= 1
m
L xjyj = X1Y1 + X2Y2 + ... + XmYm
j= 1

n
L x? f; = xU
i= 1
1 + x~ f 2 + ··· + x; fn

Trabajando con dos subíndices, también tendremos la ocasión de evaluar dobles suma-
torias como
3 4 3
L L X¡i = L (x i + x2i + x3i + x4i)
j=l i=l j=l
1

=X¡¡ + Xz¡ + X31 + X4¡ + X¡z + X22 + X32 + X42


+ X13 + X23 + X33 + X43
Para verificar algunas de las fórmulas que implican sumatorias que se mencionan
pero que no se prueban en el texto, el lector tendrá necesidad de las reglas siguientes:

n n
Regla A: L (X¡± y¡)= LX¡± L y¡i-:;o;: 1
i= 1 i= 1

Reglas para n
las sumatorias ReglaB: L k·x¡ = k· IX¡
i= 1 i= 1

n
Regla C: L k = k •n
i= 1

La primera de estas reglas establece que la sumato1ia de la suma (o diferencia) de dos


términos equivale a la suma (o diferencia) de las sumatorias individuales y se puede ge-
neralizar a la suma o diferencia de más de dos términos. La segunda regla establece que
podemos, por así decirlo, factorizar una constante de una sumatoria y la tercera regla

64 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


establece que la sumatoria de una constante simplemente es n veces esa constante. To-
das estas reglas se pueden probar escribiendo por completo lo que cada sumatoria re-
presenta.

EJERCICIOS

3.65 Escriba por completo cada una de las siguientes expresio- 5 5


nes; es decir, sin signos de sumatoria: (a) L X¡; (c) L X¡• f¡;
i=l i=l
6 8 5 5
(a) LX¡; (d) L xj.fj; (b) I ¡;; (d) I x'f · ¡;.
i= 1 j= 1 i=l i=l

5 7 3.69 Considerandoquex1=-2,x2=3,x3=1 yx4 = 4, encuen-


(b) ¿y¡; (e) L xf; tre
i= 1 i=3 4 4

3 4 (a) I X¡; (b) I x'f.


i= 1
(c) L x¡y¡; (f) L (xj +Y)· i=l

i= 1 j= 1
3.70 Considerando quexu = 3,x12 = 1,x13 =-2,X14 = 2,x21 = 1,
3.66 Escriba cada una de las siguientes expresiones sin signos X22= 4, X23 = -2, X24 = 5, X31 = 3, X32 = -1, X33 = 2 y X34 = 3,
de sumatoria y simplifique si es posible: encuentre
5
(a) L (X¡+ J);
(a)
3
¿ xij por separado paraj = 1, 2, 3 y 4;
i= 1
i= 1
4 4
(b) ¿ (3y); (b) ¿ xij por separado para i = 1, 2 y 3.
j=l j=I
4 4 3.71 En relación con el ejercicio anterior, evalúe la doble su-
(c) ¿ X; + L1 (2x). 3 4
i= 1 j= matoria, ¿ ¿ xij usando
i= 1j=1
3.67 Escriba como sumatorias cada una de las siguientes ex-
presiones: (a) los resultados de la parte (a) de ese ejercicio;
(a) z 1 +z 2 +z 3 +z 4 ; (b) los resultados de la parte (b) de ese ejercicio.
(b) X6 + X7 + Xg + X9 + X¡o +X¡¡; n

(c) xif1 + X2f2 + X3f3 + X4f4 + Xsfs + x6f6; 3.72 Demuestre que ¿ (x - .X) = O para cualquier conjunto
i= 1
(d) yf + y~ + y~ + y¡ + y~;
(e) 3x 1 + 3x 2 + 3x 3 + 3x4 + 3x 5 + 3x 6; de x's cuya media sea x.
(f) (x 1 - y¡) + (x 2 - Y2) + (x3 - y3) + (x4 - y4);
(g) (w 1 - 5) + (w 2· - 5) + (w 3 - 5);
(h) a 1b 1c 1 + a 2b 2c 2 + a 3b 3c 3 + a4b4c4 .
3.73 ¿Es cierto, en términos generales, que
(Sugerencia: Verifique si la ecuación es verdadera para
Ct x;y ¡t
= xf?

3.68 Considerando que x, = 1, x2 = 3, X3 = 5, X4 = 7, xs = 9,j; = n = 2.)


1,fi = 5,h = 10,_'4 = 3 y fs = 2, encuentre

3.9
REVISION DE TERMINOS CLAVE
(con referencia de página a sus definiciones)

Amplitud media, 57 *Cuartil medio, 54


•Cuartiles 50 * Deciles, 50
Cuartil inferior, 52 Doblamiento, 53

SEC. 3.9 I LISTA TERMINOS CLAVE 65


Doble sumatoria, 64 Notación de sumatoria, 40
*Error de agrupación, 59 Parámetro, 41
* Fractiles, 50 * Percentiles, 50
Gráfica de recuadro, 55 Población, 38
*Interpolación, 51 Posición mediana, 48
Media, 39 Puntos esenciales, 53
Media aritmética, 39 Punto esencial inferior, 53
Media armónica, 46 Punto esencial superior, 53
Media geométrica, 46 Representación gráfica de recuadro y sección, 54, 55
Media general, 44 Tamaño de la muestra, 40
Mediana, 47 Tamaño de la población, 41
Medidas de localización, 38 Teorema de Markov, 46
Medidas de localización central, 38
Moda, 55
Muestra, 38

3.10
EJERCICIOS DE REVISION

3.74 Las siguientes son las clasificaciones de televidentes es- •3.78 En relación con el ejercicio 3.77, encuentre
timadas para dieciséis partidos de futbol profesional: (a) Ja mediana de Ja distribución;
(b) Jos cuartiles de Ja distribución.
1.46 1.32 1.58 1.88 1.32 1.39 l. 72 1.66
1.82 1.21 1.36 1.76 1.86 1.63 1.55 1.57 *3.79 Refiriéndonos al ejercicio 3.77, encuentre el 60!! percentil
de la distribución.
Obtenga la mediana y Ja moda para estos valores. 3.80 Un productor de comerciales de televisión sabe exacta-
*3.75 Encuentre Jos puntos esenciales para las clasificaciones mente 'uánto dinero se gastó en Ja producción de cada
de televidentes del problema anterior. uno de diez comerciales de un minuto. Dé un ejemplo de
un problema en el que estos datos se considerarían como
3.76 En una venta de beneficencia, una organización de servi- (a) una población;
cios vendió 120 libros con un precio medio de $2.10, 80 (b) una muestra.
pasteles con un precio medio de $2.75 y 50 artesanías con
un precio medio de $4.55. Encuentre el importe del total 3.81 Encuentre Ja posición mediana para
de las ventas y del precio medio por artículo vendido. (a) n=31;
(b) n = 80.
•3.77 La siguiente es Ja distribución del número de días que llo-
vió en Seattle en 60 meses: 3.82 Las siguientes son las ganancias de 1990, en miles de dó-
lares de diez vendedoras industriales:
Número
de días Frecuencia 28.2 30.5 25.8 20.4 23.2
32.5 33.0 26.4 28.8 27.3
5-7 5
8-10 9 (a) Encuentre Ja mediana de estas ganancias.
11-13 12 (b) Encuentre la media de estas ganancias.
14-16 18
17-19 13 •3.83 Con base en los datos del problema anterior, encuentre
20-22 3 Jos puntos esenciales de las ganancias de 1990 de estas
vendedoras.
Calcule la media. 3.84 En un día de clases, un estudiante obtuvo 78 de califica-

66 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


ción en la primera prueba, 83 en la segunda prueba y 88 Número de
en la final. El profesor considera que la segunda prueba es personas Frecuencia
del doble de importancia que la primera y que la prueba
final es tres veces más importante que la segunda prueba. 15 o menos 5
¿Cuál es la calificación media ponderada de las tres prue- 16-20 8
bas del estudiante? 21 25 11
26-30 13
3.85 Durante las tres semanas anteriores a Navidad, doce per- 31-35 6
sonas hicieron compras, en promedio, en 5.75 tiendas de 3640 3
ropa. ¿Es posible que por lo menos siete de estas personas
hayan hecho compras en diez o más tiendas?
Si es posible, encuentre la media y la mediana.
3.86 Se preguntó a veinte electores registrados si se conside-
raban demócratas, republicanos o independientes. Use •3.91 Refiriéndonos a la distribución del ejercicio anterior, en-
las respuestas siguientes para determinar su selección cuentre, si es posible,
modal: (a) el cuartil inferior;
(b) el cuartil superior;
(c) el 40!! percentil;
(d) el 80!! percentil.
Demócrata Demócrata Demócrata
Demócrata Independiente Independiente 3.92 Considerando que x1 = 3, x2 = 5, X3 = -2, X4 = 1, xs = 3, X6
Independiente Independiente Repúblicano = -4, X1 = 2 y Xs = 4, encuentre
Demócrata Independiente Independiente 6 &

Independiente Republicano Independiente (a) LX¡; (b) LX¡.


i= 1 j::::: 3
Republicano Demócrata Demócrata
Independiente Republicano 3.93 Si el salario medio de todos los empleados de sexo mas-
culino de la compañía A excede el de todos los empleados
de sexo masculino de la compañía By el salario medio de
•3.87 Considerando una muestra de 23 observaciones, en- todos los empleados de sexo femenino de la compañía A
cuentre las posiciones de la mediana y los dos puntos es mayor que el de todos los empleados de sexo femenino
esenciales. de la compañía B, ¿se deduce que el salario medio de to-
dos los empleados de la compañía A excede el de todos los
•3.88 Considerando una muestra de 24 observaciones, en- empleados de la compañía B? Explique su respuesta.
cuentre las posiciones de la mediana y los dos puntos
esenciales. 3.94 Los promedios de bateo de beisbol se obtienen dividien-
do el número de hits de un jugador entre su número de ve-
3.89 Los siguientes valores son las retenciones porcentuales ces al bat, expresando el resultado como un_a-clfra de tres
de azufre de 42 áreas de vertientes del noroeste de Esta- decimales. Por ejemplo, un jugador con 30 hits y 100 ve-
dos Unidos, registrados en 1989:
ces al bat tiene un promedio de bateo de 0.300. Estos son
algunos de los valores de la temporada de béisbol de
1990:
18.3 41.9 32.4 33.2 25.9
60.6 19.0 54.7 48.8 43.0
57.4 44.2 56.2 59.6 43.5
Jugador Liga Hits Veces albat
17.8 37.6 66.2 49.7 39.0
53.7 39.8 21.8 43.2 24.3
George Brett Americana 179 544
42.0 19.3 42.1 53.9 28.2 Americana
Willie McGee 31 113
47.8 34.3 33.0 33.2 42.2 Willie McGee Nacional 168 501
31.7 38.0 45.3 41.7 45.7 Eddie Murray Nacional 184 558
37.0 51.0

George Brett tuvo el promedio de bateo más alto de la


Elabore una gráfica de tronco y hoja y úsela para encon- Liga Americana y Willie McGee tuvo el promedio más
trar la mediana de estos datos. alto de bateo de la Liga Nacional. No obstante, McGee
jugó en ambas ligas. Demuestre que Eddie Murray tuvo el
3.9J) Los siguientes son los números de pasajeros de 46 auto- promedio de bateo general más alto, aun cuando no fue el
buses con vista panorámica en Boston, Massachusetts: inejor de su liga.

SEC. 3.10 I EJERCICIOS DE REVISION - 67


3.11
REFERENCIAS

Se presentan estudios informales de la ética implícita en la selección entre promedios


y otras cuestiones éticas de la estadística en general en

HooKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc.,
1983.
HuFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, lnc., 1954.

Para mayor información acerca del uso y la interpretación de los puntos esenciales,
léanse los libros sobre el análisis exploratorio de datos al que hacemos referencia en la
página 36.
La simplificación de los cálculos de los datos agrupados por medio del uso de la
"codificación" se analiza en el apéndice C de

HAMBURG, M., Basic Statistics: A Modem Approach. Nueva York: Harcourt Brace, Jovano-
vich, Inc., 1974.

Un estudio de la media de una población infinita aparece en la página 187 de

NETER, J., WASSERMAN, W. y WHITMORE, G., Applied Statistics, segunda edición. Boston:
Allyn and Bacon, Inc., 1982.

68 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA


RESUMEN
DE DATOS:
MEDIDAS
DE VARIACION

4.1 La amplitud 70
4.2 La varianza y la desviación estándar 71
4.3 Aplicaciones de la desviación estándar 74
4.4 La descripción de los datos agrupados * 81
4.5 Algunas descripciones adicionales * 82
4.6 Revisión de términos clave 86
4.7 Ejercicios de revisión 86
4.8 Referencias 88
En la mayoría de los conjuntos de datos, no todos los valores son iguales. El grado en
el que varían es de suma importancia en la estadística. Considere los ejemplos que se
dan a continuación:
En un hospital en el que se toma tres veces al día la presión sanguínea de cada pa-
ciente, la del paciente A es de 72, 76 y 74, mientras que la del paciente Bes de 72, 91
y 59. La lectura de presión media de los dos pacientes es la misma, 74, pero observe
la diferencia de la variabilidad. En tanto que la presión del paciente A es estable, la del
paciente B fluctúa en gran medid~.
Un supermercado almacena ciertas bolsas de una libra de nueces mixtas, que en
promedio contienen 12 almendras por bolsa. Si todas las bolsas contienen cualquier
cantidad de 1O a 14 almendras, el producto es consistente y satisfactorio, pero la situa-
ción es bastante distinta si algunas de las bolsas no tienen almendras mientras que
otras tienen 20 o más.
Considere a un jugador de basquetbol que ha anotado 22, 26 y 24 puntos en sus
tres primeros juegos. Un compañero de equipo ha anotado 41, 13 y 18 puntos en los
mismos juegos. Ambos jugadores tienen el mismo promedio, 24, pero el primer jugador
es más consistente.
La medida de la variabilidad es de especial importancia para la inferencia estadís-
tica. Suponga, por ejemplo, que tenemos una moneda ligeramente doblada y nos pre-
guntamos si las probabilidades de cara o cruz aún son de cincuenta-cincuenta. ¿Qué
sucede si lanzamos la moneda al aire 100 veces y obtenemos 28 caras y 72 cruces?
¿La disminución de caras -de sólo 28, cuando podríamos haber esperado 50- implica
que el conteo no es "justo"? Para responder a tales preguntas debemos tener alguna
idea acerca de la magnitud de las fluctuaciones o variaciones consecuencia de cuando
al azar se lanzan monedas 100 veces al aire.
Necesitamos valorar el grado en el que los datos están dispersos; las medidas que
esta información proporcionará se conocen como medidas de variación. En las sec-
ciones 4.1 a 4.3 presentamos las medidas de variación más comunes y algunas de sus
aplicaciones especiales. En las secciones 4.4 y 4.5, que son opcionales, se estudia la
medida de la variación de los datos agrupados y algunas descripciones estadísticas
distintas de las medidas de localización y variación.

4.1
LA AMPLITUD

Para presentar una manera simple de medir la variabilidad, refirámonos al primero de


los tres ejemplos anteriores, en el que la presión sanguínea del paciente A varió de 72
a 76 mientras que la del paciente B varió de 59 a 91. Estos valores extremos (más bajos
y más altos) indican la variabilidad de los dos conjuntos de datos y obtenemos casi la
misma información si-tomamos las diferencias entre los extremos respectivos. Así, de-
mos la siguiente definición:

La amplitud de un conjunto de datos es el valor mayor menos el valor


menor.

Para el paciente A del ejemplo anterior, tenemos una amplitud de 76 - 72 = 4 y para el


paciente B tenemos una amplitud de 91 - 59 =32. Así mismo, para los datos de la emi-

70 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION


sión de óxidos de azufre de la página 22, el valor más bajo es 6.2, el más alto es 31.8 y
la amplitud es 31.8 - 6.2 = 25.6; y para las vidas de los cinco focos de la página 41, el
valor más bajo es 1}22, el más alto es 967 y la amplitud es 967...., 922 = 45.
Es fácil calcular y comprender la amplitud y hay una curiosidad natural por los va-
lores mínimos y máximos. No obstante, por lo general, ésta no es una medida de varia-
ción útil. Su principal desventaja es que no nos indica nada acerca de la dispersión de
los valores que caen entre los dos extremos. Cada uno de los siguientes conjuntos de datos

Conjunto J: 5, 20, 20, 20, 20, 20, 20, 20


Conjunto 2: 5, 5, 5, 5, 20, 20, 20, 20
Conjunto3: 5, 7, 9,12,15,17,19,20

tiene una amplitud de 20- 5 = 15, pero en cada caso la dispersión es por completo dis-
tinta. Así, la amplitud se usa principalmente como una referencia de variabilidad "rá-
pida y fácil", por ejemplo, en el control de calidad industrial para mantener una super-
visión rigurosa de las materias primas o algunos productos mediante la observación y
graficación de la amplitud de muestras pequeñas tomadas con intervalos de tiempo ,re-
gulares.
Mientras que la amplitud comprende todos los valores de una muestra, una medida
de variación similar comprende (más o menos) el 50% medio. Esta es la amplitud en-
tre cuartiles, Q3 -Qi. donde Q1 y Q3 se pueden definir de varias maneras para datos no
agrupados o agrupados como en las secciones 3.5 y 3.7. Por ejemplo, para las nueve ca-
lificaciones de la prueba de historia de la página 52, podríamos usar Q1-Q1 = 89 - 73.5
= 15.5 y para la distribución de los datos de la emisión de óxido de azufre podríamos
usar los valores de Q1 y Q1 de la página 62 y escribir 22.83 - 14.95 = 7 .88. Algunos es-
tadistas tam,bién usan la amplitud semi-intercuartílica, i (Q1 -Q1), que en ocasiones
se conoce como la desviación entre cuartiles.

4.2
LA VARIANZA Y LA DESVIACION ESTANDAR

Para definir la desviación estándar, que por mucho es la medida de variación usada
con mayor frecuencia, observemos que la dispersión de un conjunto de datos es peque-
ña si los valores se acumulan estrechamente alrededor de su media; y que es amplia si
los valores se acumulan en forma esparcida alrededor de su media. Por tanto, parecería
razonable medir la variación de un conjunto de datos en los términos de las cantidades
por las que se desvían los valores de su media. Si un conjunto de números, xi, x 2 , x 3 , ...
y x,,, que constituye una muestra, tiene la media x, las diferencias x1-X'.x2 -x, x1-
x, ... y x,, -x se conocen como las desviaciones de la media y esto sugiere quepo-
dríamos usar su promedio (específicamente.su media) como una medida de la variación
de la muestra. Por desgracia, esto no resultaÍá. A menos de que todas las x's sean igua-
les, algunas de las desviaciones serán positivas, algunas serán negativas y como se le pi-
dió al lector que lo demostrara en el ejercicio 3.72 de la página 66, la suma de las des-
viaciones de la media, :r(x -x), y por tanto también su media, siempre serán de cero.
Ya que en realidad nos interesa la magnitud de las desviaciones y no si son posi-
tivas o negativas, simplemente podríamos ignorar los signos y definir una medida de

SEC. 4.2 / LA VARIANZA Y LA DESVIACION ESTANDAR 71


variación en términos de los valores absolutos de las desviaciones de la media. De he-
cho, si sumamos las desviaciones de la media como si todas fueran positivas o cero y
dividimos entre n, obtenemos la medida estadística conocida como la desviación me-
dia. Esta medida tiene un atractivo intuitivo, pero como consecuencia de los valores ab-
solutos, lleva a serias dificultades teóricas en los problemas de inferencia y rara vez se usa.
Un planteamiento alternativo consiste en trabajar con los cuadrados de las desvia-
ciones de la media, pues esto también eliminará el efecto de los signos. Los cuadrados
de los números reales no pueden ser ñegativos; de hecho, todos los cuadrados de las
desviaciones de una media son positivos a menos de que un valor coincida con la me-
dia. Entonces, si promediamos las desviaciones cuadráticas de la media y sacamos la
raíz cuadrada del resultado (para compensar el hecho de que las desviaciones se elevan
al cuadrado) tenemos

JL.<x n-x)2
y así es como tradicionalmente se solía definir la desviación estándar. La expresión en
forma literal de lo que aquí hemos hecho en forma matemática, se llama también la des-
viación cuadrática media.
Es común que se modifique esta fórmula dividiendo la suma de las desviaciones
cuadráticas de la media entren - 1 en vez de n. Siguiendo esta práctica, que explicare-
mos a continuación, definamos la desviación estándar de la muestra, expresada con
unas, como

Desviaci6n
estándar de
s= JL.<x- x)2
n-1
la muestra

y su cuadrado, la varianza de la muestra, como

2 '[,(x - x)2
Varianza de s ==----
n- 1
la muestra

Estas fórmulas para la desviación estándar y la varianza se aplican a las muestras,


pero si sustituimos µ por x-y N por n, obtenemos fórmulas análogas para la desviación
estándar y la varianza de una población. Se ha tomado en una práctica generalizada de-
signar a la desviación estándar de la población con la notación a (sigma, la letra grie-
ga para las minúscula) cuando se divide entre N y la notación S cuando se divide entre
N - 1. Así, para CJ, escribimos

Desviación
estándar de
la población

Por lo regular, el propósito de calcular la estadística de una muestra (como la me-


dia, la desviación estándar o la varianza) es estimar el parámetro de la población corres-
pondiente. Si en realidad tomáramos muchas muestras de una población que tiene la
media y, calculáramos las medias de la muestrax, y luego promediáramos todas estas es-

72 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION
timaciones de µ, encontrarfamos que su promedio se aproxima mucho a µ. Sin embar-

go, si calculáramos la varianza de cada muestra por medio de la fórmula L (x - x) 2 ,


n
y luego promediáramos todas estas estimaciones supuestas de <i, tal vez encontraría-
mos que su promedio es menor que a 2 • Teóricamente, se puede demostrar que podemos
compensar esto dividiendo entren - 1 en vez den en la fórmula para s2. Se dice que los
estimadores que tienen la propiedad deseable de qu~us valores en promedio equival-
gan a la cantidad que se supone que estiman son no sesgadÓs; de otro modo, se dice que
son sesgados. De esta manera, decimos que x es un estimador no sesgac;to de la media
de la poblaciónµ y que s2 es un estimador no sesgado de la varianza de la población a 2 •
De aquf no se desprende que s sea también un estimador no sesgado de a, pero cuando
n es alta, el sesgo es reducido y por lo general se puede ignorar.
Cuando calculamos la desviación estándar de la muestra usando la fórmula por la
que se define, debemos (1) encontrar x, (2) determinar las n desviacione!¡ de la media
x -x, (3) elevar el cuadrado estas desviaciones, (4) sumar todas las desviaciones cua-
dráticas, (5) dividir entren - 1; y (6) sacar la raíz cuadrada del resultado obtenido en
el paso 5. En la práctica real, esta fórmula se usa rara vez, pero aquí, enfatizaremos lo
que en realidad se mide con O' y s.

EJEMPLO En seis domingos consecutivos, un operador de grúa recibió 9, 7, 11, 10, 13 y 7 llama-
das de servicio. Calcule s.
Solución Calculando primero la media, obtenemos

- 9 + 7 + 11 + 10 + 13 + 7 57
X= . 6 =6 = 9.5
y el trabajo requerido para encontrar I: (x -'X)2 se puede ordenar como en la tabla si-
guiente:
X x-x (x - x)2

9 -0.5 0.25
7 -2.5 6.25
11 1.5 2.25
10 0.5 0.25
13 3.5 12.25
7 -2.5 6.25

o.o 27.50

Entonces, dividiendo entre 6 - '¡ =5 y sacando la raíz cuadrada, tenemos


s= ~=./55 =2.3
redondeado a un decimal. Nótese que en la tabla anterior el total de la columna central
es cero; ya que éste siempre debe ser el caso, proporciona una revisión de los cálculos.

Fue fácil calcular s en este ejemplo porque los datos eran números enteros y la me-
dia era exactamente de un decimal. De otro modo, los cálculos requeridos por la fórmu-

SEC. 4.2 I LA VARIANZA Y LA DESVIACION ESTANDAR 73


la que define s pueden ser muy tediosos y a menos de que obtengamos s directamente
con una calculadora para estadística o una computadora, es útil calcular la fórmula

Fórmula para calcular


la desviación estándar s= rs::
...¡-;:=¡ donde Sxx = L x2 - (L x) 2
n
de una muestra

EJEMPLO Use esta fórmula de cálculo paras para volver a trabajar con el ejemplo anterior.
Solución Primero calculamos l: x y l: x 2 , obteniendo

X X2

9 81
7 49
11 121
10 100
13 169
7 49

57 569

Luego, sustituyendo l: x = 57 y l: x 2 =569 con n =6, encontramos que


s XX
= 569 - (S?)
6
2
= 27 •50

Esto nos da
. [2750
s = ...¡~ = .J5.5 = 2.3,
concordando con el resultado antes obtenido.

También se puede usar la fórmula paras para obtener cr; se debe reemplazar el de-
nominador n - 1 por N.

4.3
APLICACIONES DE LA DESVIACION ESTANDAR

En capítulos posteriores, se usarán las desviaciones estándar de la muestra principal-


mente para estimar las desviaciones estándar de la población en problemas de inferen-
cia. Para familiarizarse más con lo que en realidad mide la desviación estándar, dedi-
caremos esta sección a algunas aplicaciones.
En el argumento que llevó a la definición de la desviación estándar, observamos
que la dispersión de un conjunto de datos es pequeña si los valores se acumulan estre-
chamente alrededor de su media y es amplia silos valores se acumulan en forma espar-
cida alrededor de su media. De modo correspondiente, ahora podemos decir que si la

74 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION


desviación estándar de un conjunto de datos es pequeña, los valores se concentran cer-
ca de la media y si la desviación estándar es amplia, los valores se acumulan en forma
esparcida alrededor de la media. Esta idea se expresa más formalmente por medio del
teorema siguiente, conocido como el teorema de Chebyshev por el matemático ruso
P. L. Chebyshev (1821-1894):

Para cualquier conjunto de datos (de una población o una muestra) y


cualquier constante k mayor que 1, el porcentaje de los datos que debe caer
Teorema de dentro de k desviaciones estándar de cualquier lado de la media es de por
Chebyshev lo menos
1
1--
k2

. 1 3
Así, podemos estar seguros de que, como mínimo, 1 - 22 = 4' o 75% de los va-
lores de cualquier conjunto de datos debe caer dentro de las dos desviaciones estándar
de cualquier lado de la media; por lo menos 1 - 3\ = ~· o 88.9% debe caer dentro de
las tres desviaciones estándar de cualquier lado de la media; y que como mínimo
1 24
1 - 52 = 25 , o 96% debe caer dentro de las cinco desviaciones estándar de cualquier
lado de la media. Aquí, arbitrariamente establecemos que k =2, 3 y 5.

EJEMPLO Si todas las latas de una libra de café llenadas por un procesador de alimentos tienen un
peso medio de 16.00 onzas con una desviación estándar de 0.02 onzas, ¿qué porcentaje
de las latas, como mínimo, debe contener entre 15.80 y 16.20 onzas de café?
Solución Ya que k desviaciones estándar o k(0.02) equivale a

16.20 -16.00 = 16.00 -15.80 = 0.20

tenemos que k(0.02) =0.20 y k = 0·20 = 10.De acuerdo con el teorema de Chebys-
0.02
. 1
hev, se denva que porlo menos 1 - 102 = 0.99, o 99% de las latas debe contener entre
15.80 y 16.20 onzas de café.

El teorema de Chebyshev se aplica a cualquier tipo de datos, pero sólo nos indica
"por lo menos qué porcentaje" debe caer entre ciertos límites. Para casi todos los datos,
el porcentaje real de datos que cae entre los límites es bastante mayor que el que espe-
cifica el teorema de Chebyshev.

Para las distribuciones que tienen la forma general de la sección de


corte de una campana (véase la figura 4.1), podemos hacer la siguiente
aseveración que es mucho más firme:

(1) alrededor del 68% de los valores caerán dentro de una desviación
estándar de la media, esto es, x -s y x + s;

SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 75


FIGURA 4.1 Distribución acampanada.

(2) aproximadamente 95% de los valores caerán dentro de dos desvia-


ciones estándar de la media, es decir que x - 2s y x + 2s;

(3) alrededor del 99.7% de los valores caerán dentro de tres desviacio-
nes estándar de la media, esto es, entre x - 3s y x + 3s.

En ocasiones, nos referimos a este resultado como la regla empírica, supuestamente


porque esos porcentajes se observan en la práctica. En realidad, se trata de un resultado
teórico basado en la distribución normal, la cual estudiaremos en el capítulo 9 (en par-
ticular, véase el ejercicio 9.12 de la página 224).

EJEMPLO Use los valores deiy s que se dan en la impresión por computadora de la figura 3.4 para
determinar qué porcentaje de los datos de la emisión de óxidos de azufre de la página
22 en realidad cae dentro de una desviación estándar de la media, dentro de dos desvia-
ciones estándar de la media y dentro de tres desviaciones estándar de la media.
Solución Puesto quei= 18.896 y s = 5.6565, primero tendremos que determinar el porcentaje de
los datos que cae entre

18.896 - 5.6565 = 13.2395 y 18.896 + 5.6565 = 24.5525.


Contando 14 valores menores que 13.2395 y 14 valores mayores que 24.5525, encon-
52
tramos que 80 - 28 = 52 valores y por tanto, - · 100% = 65% de los datos cae entre los
80

dos límites. De modo similar, encontramos que ;~ · 100% = 97.5% de los datos cae
80
dentro de dos desviaciones estándar de la media y que . 80 · 100% = 100% de los datos
cae dentro de tres desviaciones estándar de la media.

Los resultados que hemos obtenido aquí no son exactamente 68, 95 y 99.7%, pero sería
lógico señalar que son "aproximadamente 68%" "aproximadamente 95%" y "aproxi-
madamente 99.7%". Del mismo modo, la figura 2.2 de la página 28 demuestra que la
distribución de los datos tiene la forma de una campana en cierto modo cortada, así que
en realidad no podemos esperar resultados perfectos.

76 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION


En la página 70 dimos ejemplos en los que fue importante el conocimiento acerca
de la variabilidad de los datos. Este también es el caso cuando queremos comparar nú-
meros que pertenecen a diferentes conjuntos de datos. fara ilustrar esto, suponga que
el examen final de un curso de francés consta de dos partes, vocabulario y gramática,
y que cierta alumna promedió 66 puntos en la parte de vocabulario y 80 en la parte de
gramática. A primera vista, parecería que la estudiante presentó un resultado mucho
mejor en gramática que en vocabulario, pero suponga que todos los estudiantes de la
clase promediaron 51 puntos en la parte de vocabulario con una desviación estándar de
12 y 72 puntos en la parte de gramática, con una desviación estándar de 16. Así, pode-
mos sostener que el promedio de esta estudiante en la parte de vocabulario es de
66 - 51 . . .
12 = 1.25 desv1ac10nes estándar sobre el promedio de la clase, en tanto que su

calificación en la parte de gramática es de sólo SO - 72 = 0.50 desviaciones estándar


16
sobre el promedio de la clase. Mientras que no se pueden comparar en forma significa-
tiva las calificaciones originales, es posible hacerlo con estas nuevas calificaciones, ex-
presadas en términos de desviaciones estándar. Es evidente que en comparación con el
resto de la clase, dicha estudiante tiene una calificación mucho más alta en su dominio
del vocabulario francés que en su conocimiento de la gramática francesa.
Lo que aquí hemos hecho consiste en convertir las calificaciones en unidades es-
tándar o valores de la z. En general, si x es una medida perteneciente a un conjunto de
datos que tiene la mediax (oµ) y la desviación estándar s (o cr), entonces su valor en
unidades estándar, expresado con la z, es

Fórmula
para converti1 X-X x-µ
z=-- o z=--
a unidades s u
estándard
dependiendo de que los datos constituyan una muestra o una población. En estas uni-
dades, z nos indica cuántas desviaciones estándar un valor cae por encima o por debajo
de la media del conjunto de datos al que pertenece. En capítulos posteriores se usarán
con frecuencia unidades estándar.

EJEMPLO Los modelos con dos años de antigüedad de cierta marca de automóvil se han estado
vendiendo, en promedio, a $7 ,860 con una desviación estándar de $820, en tanto que
los modelos con tres años de antigüedad de la misma marca de automóvil se han estado
vendiendo, en promedio, a $6,400, con una desviación estándar de $960. ¿Un modelo
con dos años de antigüedad valuado en $6,960 es una mejor oferta que un modelo con
tres años de antigüedad valuado en $5,400, sin tomar en cuenta todas las demás consi-
deraciones?
Solución Convirtiendo ambos precios en unidades estándar, obtenemos

6,960 - 7,860 = -1 10
820 .
para el automóvil con dos años de antigüedad y

5,400 - 6,400 = - 1 04
960 .

SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 77


para el automóvil con tres años de antigüedad. Aunque el modelo con dos años de an-
tigüedad está valuado en $900 por debajo del promedio y que el modelo con tres años
de antigüedad está valuado en $1,000 por debajo del promedio, el primero está valuado
relativamente por debajo de los automóviles de la misma marca y por tanto, es una ma-
yor oferta.

Una desventaja de la desviación estándar como una medida de variación es que de-
pende de las unidades de medida. Por ejemplo, los pesos de ciertos objetos pueden tener
una desviación estándar de 0.1 onzas o 2,835 miligramos, que es lo mismo, pero ningún
valor nos indica en realidad si refleja una variación muy alta o una variación muy baja.
Si estamos pesando los huevos de aves pequeñas, ninguna cifra reflejaría una vari"ación
importante, pero éste no sería el caso si pesamos costales de papas de 100 libras. Lo que
necesitamos en una situación como ésta es una medida de variación relativa, como el
coeficiente de variación

Coeficiente
V=~·l00% o V=~·l00%
de variación x º ~

que expresa la desviación estándar como up porcentaje de lo que se mide, por lo menos,
en promedio.

EJEMPLO Varias m~didas del diámetro de un rodamiento de balas tomadas con un micrómetro tu-
vieron una media de 2.49 mm y una desviación estándar de O.O 12 m,m y varias medidas
dela longi~d de un resorte sin estirar tomadas con otro micrómetro tuvieron una media
de 0.75 pul~das con una-Oesviación estándar de 0.002 pulgadas. ¿Cuál de los dos mi-
crómetros e~ relativamente más preeiso?
Solución Calculando los dos coeficientes de· variación, obtenemos

0.012 o o
2.49 . 100% = 0.48% y 0 ·002 • 100%
0.75 o
= o. 27%o

Así, las medidas de longitud del resorte son relativamente variables y esto significa que
(!l segundo micrómetro es más preciso. Ambos coeficientes de variación son menores
del 1%, de modo que ambos micrómetros califican como altamente precisos.

EJERCICIOS

4.1 Los siguientes son los tiempos de respuesta de una alarma 4.3 Los siguientes son los precios al cierre de dos acciones en
de humo después de liberar humo desde una fuente fija: cinco viernes consecutivos:
12, 9, 11, 7, 9, 14, 6y10 segundos. Encuentre la amplitud.

4.2 Los siguientes números son las producciones (en cajas Capital A: 15~ 151 16~ 16~ 15j
por acre) de pasas durante un periodo de diez años en Cali- Capital B: 22~ 22 21~ 22~ 22¡
fornia.

715 825 640 900 790 Encuentre la amplitud de cada acción.


965 895 700 915 945
4.4 Veinticinco empleados de una cadena de moteles, ha-
Encuentre la amplitud. biendo estudiado un curso de primeros auxilios, obtuvie-

78 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION


ron estas calificaciones en una prueba practicada después 4.14 Cada una de las listas siguientes contiene un número igual
del curso: de artículos. Además, cada lista contiene sólo dos valores
diferentes. Encuentre Ja desviación estándar para cada
17 19 14 20 17 lista. ¿Puede relacionar esta desviación estándar con la
17 12 15 15 16 diferencia entre los valores? Para este ejercicio, será en
16 19 18 15 16 cierto modo más fácil usar la fórmula que define s.
16 17 18 17 13 (a) 16, 16, 20, 20.
17 16 14 18 17 (b) 100, 100, 100,200,200,200.
(c) 60,60,60,60,80,80,80,80.
Encuentre la amplitud.
4.15 Cada una de las listas siguientes contiene sólo un valor
Encuentre los puntos esenciales de los datos anteriores. que es diferente del resto. Encuentre Ja desviación están-
Interpretando los puntos esenciales como cuartiles, ob- dar para cada lista. ¿Puede relacionar esta desviación es- .
tenga la amplitud entre cuartiles. ¿Debería ser sorpren- tándar con Ja diferencia entre Jos valores?
dente que la amplitud entre cuartiles es menor que la mi-
tad de la amplitud? (a) 6, 6, 6, 10.
(b) 6, 10, 10, 10.
4.6 .Encuentre la amplitud de las distancias de frenado del
(c) 20, 20, 20, 20, 30.
ejercicio 3.38 de la página 57.
4.16 Se ha aseverado que en el caso de las muestras de tamaño
*4.7 . Encuentre la amplitud entre cuartiles de las distancias de
n = 4, la amplitud difícilmente debería ser del doble de la
frenado del ejercicio 3.38 de la página 57.
desviación estándar. Verifique esta aseveración refirién-
4.8 El ejemplo de la página 49 da Jos números de pasajeros de dose a Jos datos siguientes, que representan los números
50 viajes de un transbordador. Encuentre Ja amplitud. de cirugías de emergencia practicadas en un hospital en
cuatro días: 3, 6, 2 y 6.
*4.9 Encuentre Jos dos puntos esenciales del ejemplo del
transbordador de Ja página 49. Interpretando estos puntos 4.17 Se ha aseverado que en el caso de las muestras de tamaño
esenciales como cuartiles, encuentre la amplitud semi-in- n = 1O, la amplitud difícilmente debería ser del triple de la
tercuartílica. desviación estándar. Verifique esta aseveración refirién-
dose a los datos siguientes, que representan las emisiones
4.10 En einco intentos, una persona requirió de 12, 18, 14, 11 de diez automóviles:
y 15 minutos para cambiar el aceite de una marca particu-
lar de automóvil. Calcule Ja desviación estándar de esta
18 21 16 24 28
muestra usando 20 22 29 19 25
(a) Ja fórmula que defines;
(b) Ja fórmula para calcular s. 4.18 Si sumamos la misma constante e a cada artículo de un
conjunto de datos, la media y la mediana del nuevo con-
~1 Cuatro compras de frijoles refritos en bolsas con Ja leyen- junto equivalen a Ja media y la mediana del conjunto ori-
da "una libra" contenían 16.2, 15.9, 15.8 y 16. l onzas. ginal más Ja constante e, mientras que Ja amplitud y la
Calcule s usando desviación estándar permanecen sin cambios.
(a) la fórmula que defines; (a) Verifique que para una muestra consistente en los
(b) la fórmula para calcular s. valores -3, 4, 1, 5, 3, 4 y O Ja media es 2, Ja mediana
4.12 Los números de casos de equipaje con destino equivoca- es 3, Ja amplitud es 8 y Ja desviación estándar es
do registrados durante seis semanas consecutivas en un JS. y que después de que sumamos 3 a cada valor
pequeño aeropuerto fueron 13, 8, 15, 11, 3 y 10. Obtenga la media se coiwierte en 5 y Ja mediana en 6, pero
la varianza de estas cifras usando Ja amplitud aún es de 8 y Ja desviación estándar
(a) La fórmula por la que se define s2; todavía es de JS.
(b) La fórmula para calcular s2. (b) Encuentre la desviación estándar de los datos del
ejercicio 4.4 después de sustraer 10 a cada valor.
4.13 En cuatro días una persona requirió de 37, 32, 35 y 41 mi-
nutos para conducir a su trabajo. 4.19 Si multiplicamos cada artículo de un conjunto de datos
(a) Use la fórmula de cálculo que defines para calcular por la misma constante positiva b, Ja media, la mediana,
la desviación estándar de estos datos. la amplitud y Ja desviación estándar del nuevo conjunto
(b) Sustraiga 30 a cada cifra y luego use Ja fórmula de equivalen a Ja media, la mediana, Ja amplitud y la desvia-
cálculo de s para calcular la desviación estándar. ción estándar del conjunto original multiplicadas por b.
¿Qué regla general sugiere esto para simplificar el (a) Refiriéndonos a los siete valores muestrales de la
cálculo de s? parte (a) del ejercicio anterior, demuestre que si se

SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 79


multiplica cada valor por 2, la media se convierte en nada debe tener un contenido de tiamina de entre 0.245 y
4, la mediana en 6, la amplitud en 16 y la desviación 0.275 miligramos? ¿Qué podemos señalar acerca de este
estándar enfo = 2J8. porcentaje si se puede suponer que la distribución del
(b) Durante cuatro paradas en los pits, el encargado de contenido de tiamina de las rebanadas de pan es acampa-
cambiar las llantas delanteras de un automóvil de nada?
carreras cambió una llanta delantera derecha en ~.26 Los datos siguientes son los números de los clientes a los
l0.8, 12.0, l0.5y10.7 segundos. Calcule la desvia- ~ que se les sirvió almuerzo en 120 dias hábiles. Estos datos
ción estándar multiplicando primero cada cifra por se dieron en el ejercicio 2.25 de la página 26.
10, susttayendo 110, determinando s para las cifras
resultantes y dividiendo luego entre 10. 50 64 55 51 60 41 71 53 63 64
46 59 66 45 61 57 65 62 58 65
4.20 De acuerdo con el teorema de Chebyshev, ¿qué podemos
55 61 50 55 53 57 58 66 53 56
afirmar acerca de la proporción de cualquier coµjunto de
64 46 59 49 64 60 58 64 42 47
datos que debe caer dentro de k desviaciones estándar de
59 62 56 63 61 68 57 51 61 51
la media cuando
60 59 67 52 52 58 64 43 60 62
(a) k= 6;
48 62 56 63 55 73 60 69 53 66
(b)k= 12?
54 52. 56 59 65 60 61 59 63 56
4.21 De acuerdo con el teorema de Chebyshev, ¿qué podemos 62 56 62 57 57 52 63 48 58 64
afirmar acerca del porcentaje de cualquier conjunto de 59 43 67 52 58 47 63 53 54 67
datos que debe caer dentro de k desviaciones estándar de ·57 61 76 78 60 66 63 58 60 55
la media cuando 61 59 ·74 62 49 63 65 55 61 54
(a) k=4;
(a) Use un paquete de computaCión para determinar xy
(b) k=9? s para estos datos.
4.22 De acuerdo con el teorema de Chebyshev, ¿qué podemos (b) Utilice los resultados de (a) para obtener los porcen-
afirmar acerca del porcentaje de cualquier conjunto de tajes de los valores de los datos que caen dentro de
datos que debe caer dentro de k desviaciones estándar de una, dos y tres desviaciones estándar de la media.
cualquier lado de la media cuando · Compare estos porcentajes con los porcentajes es-
(a) k= 5; parados de acuerdo con la página 76. (El ejercicio
(b) k= 8; 2.25 indica que es razonable que la distribución de
(c) k= 10; estos valores sea acampanada.)
(d) k=20? 4.27 En una ciudad del sureste, los supermercados cobran, en
4.23 Los registros de una aerolínea demuestran que sus vuelos promedio, $3.67 por libra de sirloin (con una desviación
entre dos ciudades llegan, en promedio, 5.4 minutos tarde estándar de $0.40), $1.12 por libra de muslo de pollo (con
con una desviación estándar de l.4 minutos. ¿Por lo me- una desviación estándar de $0.11) y $8.18 por libra de
nos, qué porcentaje de estos vuelos entre las dos ciudades pierna de ternera (con una desviación estándar de $0.92).
llegan con cualquier tiempo entre Si un supermercado de esta ciudad cobra $3.59 por libra
(a) 2.6 y 8.2 minutos de rettaso; de sirloin, $1.09 por libra de muslo de pollo y $7.69 por
(b) l.6 minutos de anticipación y 12.4 minutos de retraso? libra de pierna de ternera, ¿cuál de los tres articulos es el
,más barato, hablando en u~ sentido relativo?
4.24 Un estudio del valor nutritivo de cierta marca de pan re-
vela que, en promedio, una rebanada contiene 0.260 mi- 4.28 Entre dos hombres sujetos a una dieta de reducción de
ligramos de tiamina (vitamina B 1) con una desviación es- peso, el primero pertenece a un tipo de edad/cuerpo para
tándar de 0.005 miligramos. De acuerdo con el teorema el cual el peso medio es de 145 libras con una desviación
de Chebyshev, ¿entre qué valores se debe encontrar el estándar de 15 libras. El segundo pertenece a un tipo de
contenido de tiamina de edad/cuerpo para el cual el peso medio es de 165 libras
con upa desviación estándar de '20 li6ras. ¿Quién tiene un
35
(a) por lo menos 36 de todas las rebanadas de este sobrepeso más grave para su tipo de edad/cuerpo, si sus
pan; pesos respectivos son de 178 y 204 libras?
80 4.29 Un técnico de laboratorio estudió medidas recientes to-
(b) por lo menos 81 de todas las rebanadas ae este
pan? madas con dos instrumentos distintos. El primero midió
el diámetro de un rodamiento de balas y obtuvo una me-
4.25 Refiriéndonos al ejercicio anterior, ¿como mínimo, qué
porcentaje de estas rebanadas de la marca de pan determi-

80 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION
día de 4.96 mm con una desviación estándar de 0.022 Pollo: 46 55 43 48 54 65 36 40
mm. El segundo midió el diámetro de una varilla metálica 51 53 64 32 41 46 53 47
y obtuvo una media de 6.48 mm con una desviación es- Bistec: 39 41 25 30 46 36 37 23
tándar de 0.032 mm. ¿Cuál de los dos instrumentos fue re- 30 33 50 44 41 28 35 37
lativamente más preciso?
Calcule los dos coeficientes de variación para determinar
4.30 La presión sanguínea de un paciente se midió diariamente el artículo para el que el número de órdenes es relativa-
durante varias semanas. Estas medidas tuvieron una me- mente más variable.
dia de 188 con una desviación estándar de 14.2. También
se tomó a diario la presión de un segundo paciente, obte- *4.32 Una medida alternativa de la variación relativa es el coe·
niéndose un promedio de 136 con una desviación están- ficiente de variación de cuartiles, que se define como
dar de 8.6 La presión sanguínea de ¿qué paciente es rela- Q3 - Q1 • 100% donde Q1 y Q3 son los cuartiles interior y
tivamente más variable? Q3 + Q¡
superior. Use los resultados del ejercicio 4. 7 de la página
4.31 En dieciséis días, un restaurante tuvo los siguientes nú- 79 para obtener el coeficiente de variación de cuartiles
meros de órdenes de pollo y bistec: para la distancia de frenado del ejercicio 3.38 de la página57.

4.4
LA DESCRIPCION DE LOS DATOS AGRUPADOS*

Para determinar la desviación estándar de una distribución, hacemos la misma aproxi-


mación que en la página 58, a cada valor que cae en una clase asignamos el valor de
la marca de la clase correspondiente. Determinando de nuevo que xi, x2•••• y Xt repre·
sentan las marcas de la clase y queji,/z, ... , y fisimbolizan las frecuencias de la clase co·
rrespondiente, entonces la suma de todas las medidas u observaciones se expresa como

y la suma de sus cuadrados se representa como

xif1 + x~f2 + xU3 + · · · + xf Ík = L x 2 • f


La fórmula para x y la fónnula para calcular s se pueden expresar como

- Ix·f
x=--- y S = ~ x2 • f - (L x • f)2
n "" L. n

Entonces

Para obtener las fórmulas correspondientes ax y Su para una población, reemplazamos


n por N; entonces en la fórmula paras, sustituimos n - l con N.

EJEMPLO Obtenga la media y la desviación estándar de la siguiente distribución, dando las can-
tidades de tiempo que 80 estudiantes de universidad dedicaron a actividades de espar-
cimiento durante una semana escolar típica:

SEC. 4.4 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 81


Horas Frecuencia

10-14 8
15-19 28
20-24 27
25-29 12
30-34 4
35-39 1

Solución Para obtener I: x · fy I: x 2 • f. efectuamos los cálculos de la tabla siguiente

Marca de la clase Frecuencia


X x2 J x·f x2 ·f

12 144 8 96 1,152
17 289 28 476 8,092
22 484 27 594 13,068
27 729 12 324 8,748
32 1,024 4 128 4,096
37 1,369 1 37 1,369

80 1,655 36,525

Entonces, la sustitución en las fórmulas da como resultado

:X = l,:i 5 = 20.6875

o x = 20.69 redondeado a dos decimales y

Sxx = 36,525 -
(1,655) 2
80 = 2287.19 y entonces s= )22 ~~· 19 = 5.38

4.5
ALGUNAS DESCRIPCIONES ADICIONALES*

Hasta ahora, hemos estudiado sólo descripciones estadísticas conocidas por lo regular
como medidas de localización o medidas de variación. En realidad, el número de ma-
neras en que se pueden describir los datos estadísticos es ilimitado y los estadistas con-
tinuamente desarrollan nuevos métodos de descripción de características de datos nu-
méricos que son de interés en problemas particulares. En esta ocasión consideraremos
escuetamente el problema de la descripción de la forma general de una distribución.
Aunque las distribuciones de la frecuencia pueden tener casi cualquier contorno o
forma, la mayoría de las distribuciones que encontramos en la práctica se pueden des-
cribir muy bien por medio de una u otra forma de pocos tipos estándar. Entre éstas, des-
taca en importancia la distribución acampanada simétrica, que ha sido aptamente
descrita y que presentamos en la parte superior de la figura 4.2; es simétrica cerca de

82 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACJON


FIGURA 4.2 Distribuciones acampanadas.
la línea vertical punteada. Las otras dos distribuciones de la figura 4.2 también pueden,
siendo imaginativos, interpretarse como de forma acampanada, pero no son simétricas.
Se dice que las distribuciones como éstas que tienen una "cola" de uno u otro lado, son
sesgadas; si la cola se halla del lado izquierdo, se dice que son negativamente sesga..
das y si la cola se encuentra del lado derecho se dice que son positivamente sesgadas.
Las distribuciones de las rentas o los salarios a menudo son positivamente sesgadas
como resultado de la presencia de algunos valores relativamente altos que no están
compensados por valores bajos correspondientes.
Los conceptos de simetría y sesgo se aplican a cualquier tipo de datos, no sólo a las
distribuciones. Es evidente que para un conjunto cuantioso de datos, sólo podemos
agrupar los datos y trazar y estudiar un histograma, pero si eso no es suficiente, pode-
mos usar cualquiera de varias medidas de sesgo estadísticas. Una medida de relativa
facilidad se basa en el hecho de que cuando hay una simetría perfecta como en la dis-
tribución de la parte superior de la figura 4.2, la media y la mediana coincidirán; cuando
hay un sesgo positivo y algunos de los valores altos _no están compensados con valores
bajos correspondientes, la media será mayor que la mediana (véase ia figura 4.3); y
cuando hay sesgo negativo y algunos de los valores bajos no están compensados con
valores altos correspondientes la media será menor que la mediana. Se puede usar esta
relación entre la media y la mediana para definir una medida de sesgo relativamente
simple. Se llama el coeficiente de asimetria de Pearson y se obtiene mediante
Coeficiente
de asimetría SK = 3(media - mediana)
dePearson desviación estándar

SEC. 4.5 / ALGUNAS DESCRIPCIONES ADICIONALES 83


FIGURA 4.3 La media y la mediana de una distribución positivamente asimétrica.

Para una distribución perfectamente simétrica, el valor de SK es Oy en general, sus


valores deben caer entre -3 y 3. (La división entre la desviación estándar hace que SK
sea independiente de la escala de medidas.)

EJEMPLO Use los resultados obtenidos en las páginas 58-60 y 62,junto con S = 5.55, para encon-
trar el coeficiente de asimetria de Pearson para la distribución de los datos de la emisión
de óxidos de azufre.
Solución Sustituyendo x = 18.85, x = 19.03 y s = 5.55 en la fórmula, obtenemos

SK = 3(18.8~-~5 19.03) = -O.Ol


Ya que este valor es tan cercano a cero, podemos decir que la distribución es casi simé-
trica. También se puede apreciar esto en el histograma de la figura 2.2 de la página 28.

Además de las distribuciones que hemos estudiado en esta sección, otras dos dis-
tribuciones que se encuentran algunas veces en la práctica son las distribuciones en

FIGURA 4.4 Distribuciones en forma de J inversa y en forma de U.

84 CAP. 4 / RESUMEN DE DATOS: MEDIDAS DE VARIACION


forma de J inversa y en forma de U, que presentamos en la figura4.4. Como se puede
apreciar en esta figura los nombres de estas distribuciones literalmente describen su
forma. En los ejercicios 4.44 y 4.46 de ésta y la siguiente página 'Se pueden encontrar
ejemplos de estas distribuciones.
Nótese que la distribución en forma de U tiene dos picos, de ahí que con frecuencia
se le describa como bimodal; las distribuciones de un pico se conocen como unimo-
dales.
Las representaciones gráficas de recuadro que-presentamos en la sección 3.5, tam-
bién pueden ser útiles para describir di~tribuci~nes.

EJERCICIOS

*4.33 En una fábrica, el tiempo que una máquina no está ope- *4.35 Calcule el coeficiente de asimetría de Pearson para la dis-
rando en horas de trabajo es resultado de una falla o des- tribución del ejercicio anterior y comente sobre la sime-
compostura conocida como un tiempo perdido. La si- tría o sesgo de los datos.
guiente distribución presenta una muestra de la duración
*4.36 Encuentre s para la distribución de las calificaciones cfut
de los tiempos perdidos de cierta máquina:
ejercicio 3.53 de la página 63.
Tiempo *4.37 Utilice los resultados del ejercicio 3.53, la parte (a) del
perdido ejercicio 3.54 y el ejercicio anterior para calcular el coe-
(minutos) Frecuencia ficiente de asimetría de Pearson para la distribución de las
calificaciones del ejercicio 3.53. Comente sobre la sime-
O- 9 2 tría o asimetría de los datos.
10-19 15
20-29 17 *4.38 En una muestra de 30 intervalos de tres minutos un res-
30-39 13 taurante de comida rápida sirvió a 4, 5, 5, 8, 7, 3, 5, 6, 9,
40-49 3 5, 6, 5, 4, 7, 3, 5, 10, 6, 4, 5, 6, 9, 4, 5, 3, 8, 6, 7, 4 y 5
clientes. Calcule el coeficiente de asimetría de Pearson y
comente acerca del sesgo o asimetría de estos datos.
Obtenga
(a) la media y la mediana; *4.39 Elabore una representación gráfica de recuadro para los
(b) la desviación estándar. datos del ejercicio anterior y comente sobre la simetría o
asimetría de los datos.
4.34 Encuentre i y para la siguiente distribución de las ganan-
cias semanales de 125 asalariados. Observe que las mar- 4.40 Trace una gráfica de recuadro para los datos del ejercicio
cas de la clase son $124.995, $134.995, $144.995 y así 3.37 de la página 57 y comente sobre su simetría o sesgo.
sucesivamente. Estos cálculos serán en cierto modo más
fáciles si usted suma a estas cifras $0.005, teniendo $125, *4.41 Trace una gráfica de recuadro para los datos del ejercicio
$135, $145 y así en forma consecutiva. Esta acción tendrá 3.38 de la página 57 y comente acerca de la simetría o ses-
el efecto de aumentar medio centavo en promedio, a cada go de las distancias de frenado.
valor de la lista. *4.42 Trace una gráfica de recuadro para los datos del ejercicio
3.28 de la página 56 y comente sobre su simetría o sesgo.
Ganancias semanales
(dólares) Frecuencia *4.43 Trace una gráfica de recuadro para los datos de la NBA
del ejercicio 3.30 de la página 56 y comente acerca de su
120.00--129.99 9 simetría o sesgo.
130.00-139.99 20
140.00-149.99 36 *4.44 Los siguientes son los números de 6's obtenidos en 50
150.00-159.99 30 lanzamientos de cuatro dados: 0,0,1, O, O, O, 2, O, O, 1, O,
160.00-169.99 15 O, O, O, 1, 1, O, 1, 2, O, O, 1, O, O, O, 1, 1, O, 1, O, O, 1, 2, 1,
170.00-179.99 11 O, O, 3, 1, 1, O, O, O, O, 1, 2, 1, O, O, 1 y l. Elabore una dis-
180.00-189.99 4 tribución de la frecuencia y un histograma y comente so-
bre la forma general de los datos.

SEC. 4.5 I ALGUNAS DESCRIPCIONES ADICIONALES 85


*4.45 Trace una gráfica de recuadro para los datos del ejercicio co en el cuarto, mas de nuevo obtenemos cara en el quinto
anterior. ¿Qué características de la gráfica de recuadro lanzamiento; obtuvimos tres caras en total. En realidad,
sugieren que los datos tienen una forma en cierto modo repitiendo este "experimento" sesenta veces, obtuvimos
inusual? XXCCC, XCCXX, ... y XXXCX y encontramos que te-
níamos cara 1, 1, 5, O, O, 5, O, 1, 2, O, 1, O, 5, 1, O, O, 5, O,
*4.46 Si se lanza una moneda cinco veces seguidas, el resultado
O, O, O, 1, O, O, 5, O, 2, O, 1, O, 5, 5, O, 5, 4, 3, 5, O, 5, O, 1,
se puede representar con una secuencia de C's y X's, don-
5, O, 1, 5, 3, 1, 5, 5, 1, 2, 4, 2, 3, O, 5, 5, O, Oy Oveces. Ela-
de C representa las caras y X las,cruces. Habiendo obte-
bore una distribución de la frecuencia y un histograma y
nido tal secuencia de C's y X's, entonces podemos veri-
comente sobre la forma general de los datos.
ficar después de cada lanzamiento sucesivo si el número
de caras excede el número de cruces. Por ejemplo, para la *4.47 Trace una gráfica de recuadro para los datos del ejercicio
secuencia CCXXC, en el primer lanzamiento obtenemos anterior. ¿Qué característica de la gráfica de recuadro su-
cara, en el segundo también, pero no en el tercero, tampo- giere que los datos tienen una forma muy inusual?

4.6
REVISION DE TERMINOS CLAVE
(Con referencia de página a sus definiciones)

Amplitud, 70 *Distribución en forma de U, 85


Amplitud entre cuartiles, 71 *Distribución negativamente sesgada, 83
Amplitud semi-intercuartílica, 71 *Distribución positivamente sesgada, 83
Bimodal, 85 *Distribución sesgada, 83
*Coeficiente de asimetría de Pearson, 83 , Estimador no sesgado, 73
Coeficiente de variación, 78 Estimador sesgado, 73
*Coeficiente de variación de cuartiles, 81 *Medidas de sesgo, 83
Desviación cuadrática media, 72 Medidas de variación, 70
Desviación de la media, 71 Medida de variación relativa, 78
Desviación entre cuartiles, 71 Regla empírica, 76
Desviación estándar, 71 Teorema de Chebyshev, 75
Desviación estándar de la muestra, 72 Unidades estándar, 77
Desviación estándar de la población, 72 Unimodal, 85
Desviación media, 72 Valores de la z, 77
Distribución acampanada, 82 Varianza, 72
*Distribución en forma de J inversa, 85 Varianza de la muestra, 72

4.7
EJERCICIOS DE REVISION

4.48 Encuentre la desviación estándar para un conjunto de da- mailana entre 8:00 a.m. y el mediodía tuvieron una media
tos para el que n = 15, :E :X= 202 y :Ex= 3,452. de $56.42 y una desviación estándar de $12.40. ¿Qué por-
centaje de los importes, como mínimo, debe caer entre
4.49 Los importes de las compras de los clientes de un super-
$37.82 y $75.02?
mercado particular correspondientes a un sábado por la

86 CAP.4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION


*4.50 La siguiente es la distribución de los tamaños de una Obtenga
muestra de 60 pedidos recibidos por un negocio de venta (a) la media;
de semillas por correo; (b) la desviación estándar.
Tamaño Número
*4.56 Calcule el coeficiente de asimetría de Pearson para la dis-
del pedido de pedidos
tribución del ejercicio anterior y comente sobre la sime-
tría o sesgo de los datos.
$ 0.00-$ 19.99 6
$ 20.00-$ 39.99 16 4.57 Para cierta variedad de focos, un foco que dura 1,020 ho-
$ 40.00-$ 59.99 12 ras tiene un valor estándar de z = 2. Ya que las vidas de es-
$ 60.00-$ 79.99 11 tos focos tienen un coeficiente de variación del 14%, en-
$ 80.00-$ 99.99 8 cuentre la media y la desviación estándar de las vidas.
$100.00-$119.99 7
4.58 ¿Qué podemos afirmar, de acuerdo con el teorema de
Total 60 Chebyshev, acerca del porcentaje de cualquier conjunto
de <laios que debe caer dentro de k desviaciones estándar
Calcule de cua!quier lado de la media cuando
(a) los cuartiles Q1 y Q3;
(b) la amplitud entre cuartiles; (a) k= 6;
(c) el coeficiente de variación de cuartiles. (b) k= 8;
•4.51 Los siguientes son los números de alarmas falsas que re- (c) k= 15?
gistró un departamento de bomberos en diecisiete sema-
nas consecutivas: 8, 3, 12, 5, 6, 12, 6, 3, 4, 11, 8, 7, 5, 6, 4.59 Los siguientes son los números de accidentes que ocu-
8, 8 y 4. Elabore una gráfica de recuadro y comente sobre rrieron enjulio de 1990 en una población determinada en
la simetría o sesgo de estos datos. dieciocho cruceros sin flechas de vuelta a la izquierda: 8,
29, 31, 14, 35, 28, 12, 18, 22, 13, 6, 32, '/, 10, 26, 22, 32
4.52 Una encuesta de 218 familias de Massachusetts indicó y 25. Encuentre
que la desviación estándar del número de botellas retor- (a) la mediana;
nables vacías que tenían a la mano era de 14.6. ¿Cuál es (b) Q1 y Q3.
la media de los datos de la muestra si el coeficiente de va-
riación fue 74%? 4.60 Use los resultados del ejercicio anterior para trazar una
representación gráfica de recuadro para los datos de los
4.53 Calcule el para la población que consiste en los enteros 1, accidentes.
2, 3, 4 y 5. ¿Su cálculo respalda la aseveración de que para
una población que consiste en los primeros k enteros po- 4.61 Para un grupo numeroso de estudiantes, la calificación
media en una prueba de sucesos históricos es de 160 pun-
.. 1 . k2 - 1
s1t1vos a vananza es - - - ? tos, con una desviación estándar de 22 puntos. ¿Qué por-
12
centaje de las calificaciones, como mínimo, debe caer en-
4.54 Un supervisor de control de calidad examinó 15 embala-
tre
jes de tejas de cerámica, cada una con 144 tejas. Los nú-
(a) 127 y 193 puntos;
meros de tejas rotas de estas cajas fueron 2, 5, 3, 4, 2, O,
(b) 116 y 204 puntos;
1, 5, 7, 3, O, 2, 2, 4 y 3. Calcules para estos datos.
(c) 105 y 215 puntos?
•4.55 La siguiente es la distribución del número de errores co-
metidos por 200 estudiantes de alemán en una prueba de 4.62 Si un conjunto de medidas tiene la media.X= 48 y la des-
opción múltiple de vocabulario: viación estándar s = 12, convierta cada una de las cantida-
des siguientes en unidades estándar:
Número de Número de (a) 54;
errores estudiantes (b) 72;
(c) 78.
6-10 12
4.63 Encuentre la varianza de los datos de la muestra del ejer-
11-15 73
16-20 52 cicio 4.59.
21-25 39 4.64. Explique por qué es imposible tener n = 10, ~ x = 40,
26-30 24 Lx-2 = 140 para un conjunto de datos determinado.

Total 200

SEC. 4.7 I EJERCICIOS DE REVISION 87


4.8
REFERENCIAS

En la mayoría de los libros de texto de estadística matemática se puede encontrar una


prueba de que la división entren - 1 hace de la varianza de la muestra un estimador no
sesgado de la varianza de la población; por ejemplo, en

FREUND, J. E., Mathematical Statistics, quinta edición. Englewood Cliffs, N. J.: Prentice-Hall,
Inc., 1987.

Un estimador no sesgado de la desviación estándar de la población, cr aparece en las pá-


ginas 62-63 de

JOHNSON, N. L., y KOTZ, S., Distributions in Statistics: Continuous Univariate Distributions.


Boston: Houghton Miffiin, 1970.

Para encontrar información adicional acerca del uso y la interpretación de las repre-
sentaciones gráficas de recuadro léanse los libros sobre el análisis exploratorio de datos
que se mencionan en la página 36.

Cierta información sobre el efecto de la agrupación en el cáculo de varias descripcioP..es


estadísticas se puede encontrar en algunos de los libros de estadística más antiguos; por
ejemplo, en

MILLS, F. G, Introduction to Statistics. Nueva York: Holt, Rinehart and Winston, 1956.

88 CAP. 4 / RESUMEN DE DATOS: MEDIDAS DE VARIACION