Documente Academic
Documente Profesional
Documente Cultură
En epidemiología se utiliza una gran variedad de métodos para resumir los datos. En la
Unidad 2 aprendió acerca de las distribuciones de frecuencia, las relaciones, las proporciones
y las tasas. En esta Unidad aprenderá acerca de las medidas de localización central y de
dispersión. Una medida de tendencia central es un valor único que representa mejor
características tales como la edad o el peso de un grupo de personas.
Una medida de dispersión cuantif ica cuanto varían las personas entre sí y en relación a la
medida de tendencia central con respecto a la característica estudiada. Diversas medidas de
localización central y de dispersión aparecen descritas en esta unidad. Cada medida tiene su
lugar a la hora de resumir los datos de salud pública.
Objetivos
Después de preparar y entender éste módulo y responder las preguntas de los ejercicios, un
estudiante será capaz de:
*Usted puede requerir de una calculadora de mano y cuadros con valores de logaritmos para los
ejercicios de esta unidad.
156
Discusión adicional sobre las distribuciones de frecuencias
Intervalo de clase
En la unidad dos se habla sobre la distribución de frecuencias, los cuadros muestran los valores que
una variable puede tomar y el número de observaciones con cada valor. Cuando la variable toma un
número limitado de valores (por ejemplo 8 o 10) se pueden enumerar individualmente; cuando las
variables toman más de 10 valores, normalmente se agrupan; éstos grupos de valores son llamados
intervalos de clase. Una distribución de frecuencia con intervalos de clase usualmente tiene de 4 a 8
intervalos. El cuadro 3.1a muestra la frecuencia y distribución de una variable, (vasos de agua
promedio consumidos en una semana) con 8 intervalos de clase.
Note en el cuadro 3.1a que las categorías de agua consumida son mutuamente excluyentes, esto es
que el primer intervalo de clase incluye 0 y 1 vasos con agua, el segundo intervalo incluye 2 y 3
vasos y así sucesivamente. Cuando se introducen los datos en una distribución de frecuencia, es
importante decidir cómo tratar los datos decimales. Por ejemplo, ¿dónde se colocaría a una
persona que dice tomar 1.8 vasos de agua?
Cuando se introducen datos decimales en una distribución de frecuencia se pueden seguir éstas
reglas:
3.- Si el decimal es 0.5 entonces aproxímelo al valor par más próximo (p. ej., 5,5 y 6,5 a 6).
De acuerdo con éstas reglas se puede colocar a una persona que toma 1.8 vasos de agua al día en
la categoría 2-3 de El cuadro 3.1a. Entonces la categoría de 2-3 vasos realmente cubre todos los
valores desde 1.5 hasta 3.499 vasos de agua. Estos límites son llamados los límites verdaderos del
intervalo.
Cuadro 3.1
Número promedio de vasos de agua consumidos por semana por los
residents del Municipio X, 1990
Número promedio de Número de
vasos de agua por semana Residentes
0-1 20
2-3 51
4-7 124
8-14 119
15-21 43
22-28 36
29-35 13
36-42 4
Total 410
157
El cuadro 3.1b muestra los límites verdaderos de los intervalos usados. Se puede ver allí que los
límites verdaderos del intervalo 15-21 son 14.5- 21.499... Es necesario conocer los límites
verdaderos de clase para calcular algunas de las medidas de tendencia central de una distribución
de frecuencia.
La edad y otras variables que involucran tiempo no pueden seguir reglas específicas de
aproximación. No es posible redondear la edad. Una persona tiene una edad determinada desde un
cumpleaños hasta el siguiente. Por ejemplo usted tiene 16 años hasta su cumpleaños 17, aún el día
antes. El cuadro 3.2 muestra una distribución de frecuencia de las muertes por suicidio por edad en
intervalos de clase. ¿Dónde registraría el registro la defunción por suicidio de alguien de 14 años y 7
meses? El suicidio debe ser colocado en el intervalo de 5-14 años.
Cuadro 3.1 b ?
Número promedio de vasos de agua consumidos por semana por los
residents del Municipio X, 1990
Número promedio de Límites verdaderos de los Número de
vasos de agua por semana intervalos de clase Residentes
0-1 0,0-1,4999.. 20
2-3 1,5-3,4999.. 51
4-7 3,5-7,4999.. 124
8-14 7,5-14,4999.. 119
15-21 14,5-21,4999.. 43
22-28 21,5-28,4999.. 36
29-35 28,5-35,4999.. 13
36-42 35,5-42,4999.. 4
Total 410
Cuadro 3.2
Distribución de defunciones por suicidio por grupo de edad,
Estados Unidos, 1987 ?.
Edad de la de función (años) Número de Defunciones
0-4 0
5-14 251
15-24 4924
25-34 6655
35-44 5132
45-54 3707
55-64 3650
65-74 3428
75-84 2402
85+ 634
Total 30783
Fuente: 3
158
De esta forma, se muestra su distribución de frecuencia, sin embargo, también se puede presentar
ésta información mediante gráficas. Por ejemplo, la figura 3.1 muestra la distribución del cuadro
3.2. en forma de gráfica.
Fura 3.1
Distribución de frecuencia de suicidios
por grupo etario, Estados Unidos, 1987
Número de Defunciones
Edad de la defunción
Fuente: 3
Es posible calcular un valor central por varios métodos y cada uno puede producir un valor
diferente. El valor central que resulta de cualquiera de éstos métodos se conoce como medidas de
tendencia central. De las posibles medidas de tendencia central en epidemiología se usan
comúnmente 3: la media aritmética, la mediana y la moda. Las menos usadas son el rango medio y
la media geométrica.
La figura 3.3 muestra la gráfica de las tres distribuciones de frecuencia, idénticas en forma pero
diferentes en su medida de tendencia central.
159
Se discutirán las medidas de tendencia central con más detalle después de describir las otras
propiedades de las distribuciones de frecuencia como la variación y la dispersión, que muestran
cómo se aleja la distribución de su valor central. Algunas de las medidas de dispersión usadas en
epidemiología son el rango, la varianza y la desviación estándar. La dispersión de una distribución
de frecuencia es independiente de su localización central. Este hecho se ilustra en la figura 3.4 que
muestra la gráfica de tres distribuciones de frecuencia teóricas que tienen la misma tendencia central
con diferente dispersión.
Figura 3.2
Gráfica de distribución de frecuencias con una gran parte de las
observaciones conglomeradas alrededor del valor central
Número de Trabajadores
Una tercera propiedad de la distribución de frecuencia es la forma. Las gráficas de las distribuciones
teóricas en las figuras 3.2 y 3.3 son completamente simétricas. Las distribuciones de frecuencia de
algunas características de la población humana tienden a ser asimétricas. Por otra parte, la gráfica
de los datos de suicidio (figura 3.1) es asimétrica. Una distribución asimétrica quiere decir que está
desviada.
Una distribución que tiene una localización central hacia la izquierda y que la cola está a la derecha
se dice que está sesgada a la derecha o positivamente sesgada. En la figura 3.5 la distribución A
está sesgada a la derecha. Una distribución que tiene la localización central a la izquierda es una
curva sesgada a la izquierda o negativamente sesgada. En la figura 3.5 la distribución C está
negativamente sesgada. ¿Cómo describiría la forma de la distribución de los suicidios de la figura
3.1?
160
Figura 3.3
Tres curvas de forma idéntica con tres localizaciones centrales
Frecuencia
Variable x
Figura 3.4
Tres curvas con la misma localización central
pero diferente dispersión
Frecuencia
Variable x
La distribución de frecuencia de las defunciones por suicidio de la figura 3.1 esta sesgada
positivamente, es decir a la derecha.
161
generalizar los datos. Para usar estas pruebas los datos deberían tener una distribución normal, es
decir, deberían dibujar una curva normal si se representaran gráficamente.
Figura 3.5
Tres curvas con sesgos diferentes
Frecuencia
Variable x
Frecuencia
Figura 3.6
Curva normal
Notación estadística
Antes de proseguir, le sugerimos que revise la notación estadística usada en la unidad y que se
describe en el cuadro 3.3. A lo largo de la unidad, incorporaremos el uso de ésta notación en una
nota al calce de la página. El apéndice B contiene la hoja de referencia de fórmulas que resumen
todas aquellas revisadas en esta unidad.
162
Cuadro 3.3.
Notación estadística utilizada en esta unidad
Observación individual: Una letra usualmente X o Y se usa para representar una variable
particular, como por ejemplo:la paridad. Una observación individual
en una serie de datos se representa por Xi.
Número de observaciones: La letra n o N se usa para representar el número de observaciones
de una serie de datos. La letra fi (para una frecuencia individual) se
utiliza para representar con qué frecuencia aparece un valor en al
serie de datos.
Multiplicación: Cuando los valores se escriben juntos, por ejemplo, XY significa
que se multiplica el valor de X por el de Y.
Paréntesis: Los paréntesis se usan:
• Para indicar multiplicación, por ejemplo (X)(Y) quiere
decir que se multiplica X por Y.
• Para demostrar que lo que está en el paréntesis debe ser
tratado como términos separados por ejemplo (X+Y)2
significa que se debe sumar a X el valor de Y luego
elevar al cuadrado el valor de la adición.
Sumatoría: Se usa la letra griega mayúscula Σ para indicar que una lista de
números debe ser sumada; por ejemplo, se desea indicar que se
debe sumar la paridad usada en el Ejercicio 2.1. Se deberían listar
los números individualmente:
0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2.
Esto es ineficiente aún con una lista corta de números. En cambio se
puede usar esta notación estadística:
i = 19
∑x
i=1
i
Esta notación se lee: sumatoría de los X desde i=1 hasta i=19. Aún
puede ser más corta así: xi se lee como la sumatoria de los xi
La mejor medida en cada caso particular, depende tanto de las características de la distribución, así
como de la forma y del uso que se quiera dar a la medida.
163
La media aritmetica
Es la medida de tendencia central con la cual probablemente esté usted mas familiarizado es la
media aritmética; se conoce también como media o promedio; se representa como x y se conoce
como "x barra"; la fórmula para calcularla es:
media = x =
∑x i
Se lee así: la media es igual a “la suma de las x’s dividido por n”.
Ejemplo:
29,31,24,29,30 y 25
3.- Para calcular la media divida el numerador sumatoría de las observaciones) entre el
denominador (numero de las observaciones).
29 + 31 + 24 + 29 + 30 + 25 168
media = x = = = 28 días
6 6
164
Ejemplo
En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la media de cada
variable (A-E) en el listado. (Fíjese que este listado de variables, A, B, C, D y E, será utilizado a lo
largo de esta unidad en otros ejemplos y ejercicios).
2.- Para calcular el denominador cuente el número de observaciones (n=11) para cada variable.
3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el denominador
(número de las observacione s).
165
Se usa la media aritmética más que cualquier otra medida de localización central porque tiene
propiedades estadísticas deseables; una de éstas es la propiedad de centrar la media. Se puede
demostrar ésta propiedad con el ejemplo del brote de hepatitis A. En El cuadro al tomar el valor de
los períodos de incubación y restarle la media al sumar las diferencias debe dar 0. Esto demuestra
que la media es el centro de la distribución.
Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una distribución de
frecuencias. Esto significa que la media actúa como el punto de apoyo en una balanza, como se ve
en la figura 3.7.
Figura 3.7
La media es el centro de gravedad de la distribución
Aunque la media es una excelente medida de resumen de una serie de datos, éstos deben seguir una
distribución aproximadamente normal. La media es muy sensible a valores extremos que sesgan la
distribución. Por ejemplo, si en vez del 31 de la lista anterior, tuviéramos un 131 la media cambiaría
de 28.0 a 44.7
24+25+29+29+30+131 = 44.7
6
La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos prácticos es
poco representativa de éstos. Como resultado, la media es mayor que todos los valores a
166
excepción del valor extremo. Por ser muy sensible a valores extremos, la media es una medida
resumen muy pobre para datos que están gravemente sesgados en cualquier dirección.
La mediana
Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando los
datos están sesgados.
Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que han sido
colocados en orden. Específicamente, la mediana es el valor que divide una serie de datos en dos
mitades con una mitad de las observaciones mayores que ésta y la otra mitad menores a la mediana.
110,120,122,130,180 mm de Hg.
En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la
mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la media (132) ésta seria
mayor que 4 de los 5 valores.
a. Si el rango medio cae en una observación específica (n=impar) la mediana es igual al valor
de ésta observación.
b. Si el rango medio cae entre dos observaciones (n=par) la mediana es igual al promedio
(media aritmética) del valor de estas observaciones.
n=5: 13,7,9,15,11
167
o viceversa: 15,13,11,9,7.
n=6: 15,7,13,9,10,11
Se observa cómo una observación altera la media pero no cambia la mediana, entonces se prefie re
la mediana como medida de tendencia central cuando los datos están desviados en cualquier
dirección o cuando los datos incluyen valores extremadamente grandes o pequeños.
168
Ejemplo
A 0 0 1 1 1 5 9 9 9 10 10
B 0 4 4 4 5 5 5 6 6 6 10
C 0 1 2 3 4 5 6 7 8 9 10
D 0 1 1 2 2 2 3 3 3 4 10
E 0 6 7 7 7 8 8 8 9 9 10
169
Ejercicio 3.2: Calcule la mediana de los siguientes datos:
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.
En contraste con la media, la mediana no está influida en el mismo grado por los valores extremos.
Las dos siguientes series de datos son idénticas excepto por la última observación:
Aquí la diferencia en una observación altera la media considerablemente, pero no hay cambio en
la mediana. Entonces la mediana se prefiere con respecto a la media al ser una medida de tendencia
central para los datos que están desviados en una dirección u otra, o datos con unos valores
extremadamente grandes o pequeños.
La moda
La moda es el valor que ocurre más frecuentemente en una serie de datos; por ejemplo en los
siguientes datos, la moda es 1 por que ocurre 4 veces, más que cualquier otro valor.
0,0,1,1,1,1,2,2,2,3,4,6.
Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se ve cuántas veces
ocurre un valor. Si se encuentra que cada valor ocurre solo una vez, entonces ésta distribución
carece de moda, o si se advierte que 2 o más valores son los más comunes, entonces tiene más de
una moda.
170
Ejemplo:
En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los siguientes
datos: 29,31,24,29,30,25 días.
1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la variable (xi) y
la frecuencia fi cada vez que el valor ocurra:
xi fi
24 1
25 1
29 2
30 1
31 1
2.- Identifique el valor que ocurre más frecuentemente: 29: la moda es 29.
Ejemplo
xi fi
9 1
11 1
13 1
15 1
17 1
19 1
2.- Identifique el valor que ocurre más frecuentemente; como todos los valores tienen la misma
frecuencia no hay moda para esta distribución de datos.
171
Ejemplo
xi fi
9 2
13 1
15 1
17 2
2.- Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen la misma
frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal.
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.
172
Las fórmulas para calcular el rango medio de una serie de observaciones son:
Ejemplo
En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no se trata de
datos de edad)
A 0 0 1 1 1 5 9 9 9 10 10
B 0 4 4 4 5 5 5 6 6 6 10
C 0 1 2 3 4 5 6 7 8 9 10
D 0 1 1 2 2 2 3 3 3 4 10
E 0 6 7 7 7 8 8 8 9 9 10
2.- Identifique el valor más pequeño y el más grande: 0 y 10 para todas las distribuciones.
3.- Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones.
La edad difiere de la mayoría de otras variables porque no puede ser redondeada.. Alguien que
tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años de edad sino cinco días
después. Considere el siguiente ejemplo:
En una escuela de preescolares, los niños fueron asignados a los salones con base en la edad que
tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo menos 2 años pero no
alcanzaban a tener 3 años el 1 de septiembre. (todos los niños en el salón 2 tenían 2 años el primero
de septiembre). Cual es el rango medio de las edades de los niños en el salón 2 el primero de
septiembre?
Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el rango medio es
2. Sin embargo, como se dijo, el rango medio es calculado como un paso intermedio para obtener
otras medidas. Entonces, es necesario ser mas precisos; considere que algunos de los niños pueden
tener 2 años justos, otros pueden estar cerca de los 3 años, ignorando la tendencia estacional de los
nacimientos y asumiendo que los cumpleaños pueden estar distribuidos uniformemente a lo largo del
año; los niños más jóvenes pueden cumplir el 1 de septiembre y tener exactamente 2.0 años, el niño
mayor puede cumplir años en septiembre y tener 2.97 años. Para propósitos estadísticos la media y
el rango medio de éste grupo teórico es de 2.5 años, así:
173
Rango medio (para datos de edad) = (2+2+1) = 2.5
2
La media geométrica
Como se ha visto la media es una excelente medida de resumen para los datos que están cerca de
una distribución normal; algunas veces, se recogen datos que no están normalmente distribuidos
pero que tienen un patrón exponencial (1,2,4,8,16 etc) o patrón logarítmico (1/2, 1/4, 1/8, 1/16
etc). Por ejemplo para determinar cuantos anticuerpos están presentes en el suero, se diluyen
secuencialmente las muestras al 50% hasta que no se pueden detectar más anticuerpos. La primera
muestra que tiene el suero sin diluir tendrá el mayor título de anticuerpos, luego se diluye al 50%, y
queda con la mitad de los anticuerpos que había en la muestra original. Y así, sí se continúaasí sí se
continua diluyendo al 50%, la cantidad de anticuerpos irá disminuyendo a 1/4, 1/8, 1/16 y así
sucesivamente. Algunas veces se puede decir que estas diluciones están medidas en una escala
logarítmica; una medida de resumen para estos datos es la media geométrica.
El logaritmo de 4 en base 2 es 2 4 o 16. La mayoría de los títulos son reportados como múltiplos de
2 (2,4,6,8 etc) entonces, es más fácil usar base 2.
La media geométrica se calcula con base en la raíz enésima del producto de n observaciones. La
media geométrica es usada cuando los logaritmos de las observaciones se distribuyen normalmente
más que las observaciones por si mismas. Esta situación es típica cuando se hacen diluciones, como
en la detección de anticuerpos en el suero y muestreos ambientales.
1
Media geométrica = Xgeo = antilog (
n
∑ Log xi )
174
Ejemplo
En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente serie de datos:
10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000
Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en base 10.
Recuerde que:
y así sucesivamente.
1.- tome el logaritmo ( en éste caso en base 10 ) para cada valor:
2.- calcule el promedio de los valores de log sumando y dividiendo por el número de
observaciones (en este caso 10) media de log10 (Xi) =(1+1+2+2+2+2+4+5+5+6)/10=
30/10=3
3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media geométrica.
175
Ejercicio 3.4
Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos contra el virus
sincitial respiratorio en 7 pacientes
No dilución título
1 1:256 256
2 1:512 512
3 1:4 4
4 1:2 2
5 1:16 16
6 1:32 32
7 1:64 64
Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2
21 = 2
22 = 4
23 = 8
2 4 = 16
2 5 = 32
2 6 = 64
2 7 = 128
2 8 = 256
2 9 = 512
En resumen, las medidas de tendencia central son valores únicos que resumen los valores
observados de una variable continua. La medida más común de tendencia central es la media
aritmética, que la gran mayoría de personas llama el promedio. La media aritmética es más usada
cuando los datos se distribuyen normalmente representando el centro de gravedad de una serie de
datos; desafortunadamente, la media aritmética es demasiado sensible hacia los valores extremos.
Por fortuna, la mediana no es sensible a los valores extremos; la mediana representa la mitad de
los datos, con la mitad de las observaciones debajo y la mitad encima de la mediana. Cuando una
serie de datos está desviada o tienen valores extremos en una dirección, la mediana es la medida de
tendencia central a elegir.
La moda es simplemente el más común de los valores que toma una variable. Mientras cada serie
de datos tiene una y solo una media aritmética y una mediana puede tener una o varias modas o
carecer de ella. Como medida de tendencia central la moda es útil si estamos interesados en
conocer cuál es el valor más frecuente.
176
La media geométrica es la medida preferida cuando los datos tienen un patrón exponencial o
logarítmico. La media geométrica se usa muy comúnmente con los datos de laboratorio,
particularmente con muestras de suero que requieren ser diluidas y muestras ambientales.
Medidas de dispersión
Cuando se observa una gráfica de una distribución de frecuencias, normalmente se pueden ver dos
hallazgos primarios:
2.- se dispersa hacia uno y otro lado del pico. Así como usamos una medida de tendencia
central para describir dónde está el pico, también se usa una medida de dispersión para
describir cuánto se dispersa ésta distribución. Se pueden usar varias medidas de dispersión.
Ejemplo:
En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el rango de los
siguientes datos: 29,31,24,29,30,25.
177
Ejemplo
El valor de las variables A, B, y C son obviamente diferentes, pero la media, mediana, los valores
máximo y mínimo y el rango no permiten ver diferencias. Para las variables D y E el rango medio,
los valores máximo y mínimo y el rango tampoco sirven para mostrar diferencias en las variables.
178
Percentiles, cuartiles y rangos intercuartílicos
Consideremos el valor máximo de una distribuciónde otra manera: como el valor que tiene el 100%
de las observaciones por debajo de él y ahora denominémoslo el percentil 100 . Desde la misma
perspectiva, la mediana, es el valor que tiene el 50% de las observaciones por debajo de el o
también llamado el percentil 50. El percentil "n-ésimo" es el valor que tiene el "n%" de las
observaciones por debajo.
Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25 demarca el primer
cuartil, el percentil 50 el segundo cuartil, el percentil 75, el tercer cuartil y el percentil 100, el
cuarto cuartil.
2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas:
179
Figura 3.8
La mitas de las observaciones en una distribución
de frecuencia yace en el rango intercuartilar
Mediana
Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas
Pequeño Grande
Intervalo Intercuartíilico=Q3-Q1
Ejemplo.
2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8 observaciones, n=8.
180
posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
3(8 + 1) / 4 = 6.75
Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las observaciones
entre 6 y 7.
Ejemplo:
181
3(6 + 1) / 4 = 5,25
Así, se encuentraQ1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las observaciones 5 y 6.
Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la distancia entre
la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos se orientan hacía los números
más pequeños (orientados hacia la izquierda).
Este no es el único método para calcular los cuartiles. Otros métodos pueden producir resultados un
poco diferentes.
En general, se usan los cuartiles y el rango intercuartílico para describir la variabilidad cuando se
está usando la mediana como la medida de tendencia central. Cuando se está usando la media
aritmética, hay que usar la desviación típica.
En conjunto, estos valores forman una buena descripción del centro, la forma y la extensión de una
distribución. Se utilizan estos datos para dibujar un diagrama de cajas y bigotes.
182
Ejercicio 3,5
183
Varianza = s2 =
∑( x − x )
i
2
desviación estándard =
∑ ( x − x)
i
2
n− 1 n− 1
n ∑ xi − (∑ xi ) 2
2
Varianza = s =2
desviación estándard = s = s 2
n (n − 1)
Compare los dos términos, Σxi2 y ((Σxi)2 . El primero indica que hay que elevar al cuadrado cada
observación y sacar la suma de los valores cuadrados. El segundo indica que hay que sumar las
observaciones, y después elevar al cuadrado la suma.
Ejemplo
Varianza = s =2 ∑( x − x )
i
2
desviación estándard =
∑ ( x − x)
i
2
n− 1 n− 1
184
x=
∑x i
=
55
= 5.0
n 11
2. Reste la media de cada observación para encontrar las desviaciones de la media (columna 2)
5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la varianza:
∑ ( x − x)
i
2
=
110 110
= = 110
.
n− 1 11 − 1 10
Ejemplo
Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar de los datos del
ejemplo anterior.
Fórmula
n ∑ xi − (∑ xi ) 2
2
Varianza = s = 2
desviación estándard = s = s 2
n (n − 1)
xi xi 2
0 0
1 1
2 4
3 9
4 16
5 25
6 6
7 49
8 64
9 81
10 100
55 385
185
1. Para calcular el término Σxi2 en la fórmula, hay que elevar al cuadrado cada observación y
encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el cuadro de arriba).
Σxi2 = 385
2. Para calcular el término (Σxi)2 en la fórmula, hay que encontrar la suma de las observaciones y
elevarlas al cuadrado (ver la primera columna de el cuadro de arriba).
(Σ xi2)=552 = 3025
3. Calcule el numerador:
n ∑ xi − ( ∑ xi )2 = (11) (385) - 3025 = 4235 - 3025 = 1210
2
Para ilustrar las relaciones entre al desviación estándar, la media y la curva normal, hay que
considerar los datos con una distribución normal, como en la figura 3,9. Se encuentra el 68,3% del
área por debajo de la curva normal dentro la media y +/- una desviación estándar, es decir, entre
una desviación por debajo de la media y una por encima. Además, se encuentra el 95,5% del área
entre la media y +/- dos desviaciones estándares, y el 99,7% entre la media y +/- 3 desviaciones
estándares. Se encuentra el 95% del área entre la media y +/- 1.96 desviaciones estándares.
Figura 3.9
Areas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar
a cada lado de la media
186
Se puede usar la media y la desviación estándar para describir, en forma breve, los datos de una
distribución normal. Por ejemplo, los niveles séricos del colesterol de una muestra representativa de
miles de hombres en su cuarta década. Se podría listar el nivel de colesterol de cada hombre, o
mostrar la frecuencia de la distribución, o simplemente reportar el valor medio y la desviación
estándar. Se muestra la frecuencia de la distribución en El cuadro 3,4. En resumen, la media es 213
y la desviación estándar es 42.
Cuadro 3.4
Niveles de colesterol sérico
Colesterol (mg/dL) Frecuencia
60-79 2
80-99 7
100-119 25
120-139 86
140-159 252
160-179 559
180-199 810
200-219 867
220-239 764
240-259 521
260-279 318
280-299 146
300-319 66
320-339 22
340-359 7
360-379 4
380-399 2
400-419 1
420-439 1
440-479 0
480-499 1
500-619 0
620-639 1
Total 4,462
Fuente:1
Ejercicio 3.6
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1
187
Ejercicio 3.7
Observemos las variables A, B y C en la página 179, ¿Qué variable pareciera tener la menor
dispersión respecto a la media?. En otras palabras, ¿a que variable podría usted predecirle la
desviación estándar mas pequeña?
En resumen, las medidas de dispersión sirven para cuantificar la dispersión y la variabilidad de los
valores observados de una variable continua. La medida de dispersión más simple es el rango desde
el valor más pequeño hasta el valor más grande. El rango es bastante sensible a los valores extremos
en cualquier dirección.
Para los datos con una distribución normal, se utiliza la desviación estándar y la media aritmética. La
desviación estándar refleja la cercanía de los valores observados a la media . Para los datos con una
distribución normal, el rango desde "menos una desviación estándar" hasta "más una distribución
estándar" representa el 68.3% de los datos en la mitad de la distribución. Aproximadamente el 95%
de los datos están dentro del rango de -1,96 desviaciones estándares a +/- 1,96 desviaciones
estándares.
Para los datos no normales, se utiliza el rango intercuartílico y la mediana. El rango intercuartílico
representa el rango desde el percentil 25 (el primer cuartil) hasta el percentil 75 (el tercer cuartil),
más o menos el 50% de los datos del centro de la distribución.
188
Introducción a la inferencia estadística
A veces, se calculan las medidas de tendencia central y dispersión para describir unos datos
específicos. Sin embargo, otras veces, cuando los datos son de una muestra de una población más
grande, se quiere generalizar desde estos datos a la población total, es decir, inferir. Existen muchos
métodos estadísticos para este proceso. En esta sección, se mostrarán algunos de los métodos que
se pueden usar para inferir desde datos con una distribución normal.
Cuando se infiere desde datos con una distribución normal, las conclusiones se basan en la relación
de la desviación estándar y la media de la curva normal. Cuando la gráfica de la distribución de una
frecuencia parece normal, se asume que la población total, desde la cual se sacó la muestra, tiene
una distribución normal. Se asume que si tuviéramos todas las observaciones posibles de esta
población, se encontraría el 68,3%, el 95,5% y el 99,7% de las poblaciones dentro de la media y
+/- 1,2 y 3 desviaciones estándares. También, se asume que se encontraría el 95% de la población
entre la media y +/- 1.96 desviaciones estándares.
189
Fíjese que el error estándar de la media esta influenciado por dos componentes, la desviación
estándar y el tamaño del estudio. Entre más varían alrededor de la media las observaciones, mayor
será la incertidumbre de la media y más grande será el error estándar de la media. Entre más grande
el tamaño del estudio, más confiable será la media y más pequeño será el error estándar de la
media.
Ejemplo
Los investigadores de salud ocupacional midieron las alturas de una muestra aleatoria de
trabajadores masculinos de una fábrica, F. La media de las alturas era 69,713 pulgadas, con una
desviación de 1,870 pulgadas. ¿Cómo se calcularía el error estándar de las medias de la altura de
los trabajadores de la fabrica F?
1,870
Error estándar de la media = EEx = = 0209
.
80
Ejercicio 3.8
En el cuadro3.4 se mostraron los niveles séricos de colesterol en 4,462 hombres. La media de los
niveles de colesterol fue de 213, con una desviación estándar de 42. Calcule el error estándar de la
media del nivel sérico de colesterol de los hombres estudiados.
Intervalos de confianza
Para una muestra de por lo menos 30, se puede utilizar la media observada, el error estándar de la
media, y el conocimiento sobre las áreas por debajo de la curva normal para estimar los límites
dentro de los cuales se encuentra la verdadera media de la población y para especificar nuestra
confianza sobre estos límites. Por ejemplo, en el ejemplo anterior de las alturas de los trabajadores,
la media de las alturas era 69.713 y el error estándar era 0.209. Se resta y añade el error estándar
de la media de la altura media:
190
Resta: 69.713 – 0.209 = 69.504
Los resultados son las alturas que están dentro de +/- una desviación estándar a cada lado de la
media observada. Como se muestra en la figura 3,10, el área sombreada ilustra los intervalos que
delimitan 68.3% del área por debajo de la curva normal. Si se hubieran medido las alturas de
muchas muestras de 80 trabajadores en la fábrica F, era posible esperar que las medias de 68,3%
de las muestras se encontraran entre 69.504 y 69.922 pulgadas. A partir de eso, se puede inferir
que se puede tener una fiabilidad de 68.3% de que la media verdadera de la población se encuentra
dentro de estos intervalos. En otras palabras, la media verdadera tiene una probabilidad de 68,3%
de encontrarse dentro de estos límites.
Figura 3.10
Distribución de frecuencia de las poblaciones de trabajadores de la fábrica F
con sus límites de confianza
Número de trabajadores
191
Límite superior de confianza del 95% = x + (196
. * EE x )
Para utilizar estas fórmulas, primero hay que multiplicar 1,96 veces el error estándar de la media
para encontrar la distancia entre la media y 1,96 desviaciones estándares. Luego, se resta la
distancia de la media para encontrar el límite mínimo y la suma para encontrar el límite máximo. En
términos generales, la media verdadera tiene una probabilidad de 95% de encontrarse dentro de
estos límites. En epidemiología, se dice que los datos de la muestra son consistentes con la hipótesis
de que la media verdadera se encuentra dentro de estos límites. El tamaño del intervalo indica la
precisión de las estimaciones, es decir la confiabilidad de las inferencias que se puede hacer en la
población total con base en los hallazgos de la muestra.
Ejemplo
A continuación, se muestra cómo se usan las fórmulas para calcular los límites de confianza de 95%
para la media de las alturas de los trabajadores de la fábrica F.
Los límites tienen una probabilidad del 95% de incluir la media de la población (la media verdadera
de la altura de los trabajadores de la fábrica F). La interpretación epidemiológica es que los datos
de la muestra son consistentes con que la media verdadera de las alturas se encuentra dentro de
69,3 y 70,1 pulgadas. Fíjese que el intervalo de confianza de 95% es bastante estrecho (menos de
una pulgada), lo cual indica que la estimación de las alturas es bastante precisa.
Ejercicio 3.9
Recordara el estudio de niveles de colesterol sérico de varones en la mitad de sus 30’s con una
media de 213 (página 188). En el ejercicio 3.8 usted calculó que el error estándar de la media era
de 0.629.
Calcule los límites de confianza del 95% de los niveles de colesterol sérico de los hombres en este
estudio.
192
La media aritmética no es la única medida para la cual se calculan los límites de confianza; también,
se calculan para proporciones, tasas, riesgos relativos, razones de posibilidades ("odds ratios") y
otras medidas cuando se quiere inferir los hallazgos de una muestra a la población total. La
interpretació n del intervalo de confianza es igual: (1) entre más estrecho sea el intervalo, más precisa
será la estimación del valor de la población; (2) el rango de valores dentro del intervalo es el rango
de valores de la población más consistente con los datos de la muestra.
Tabla 3,5
Medidas de tendencia central y dispersión según
el tipo de datos
Tipo de distribución Medidas
Tendencia central Dispersión
Normal media aritmética desviación estándar
Sesgada mediana rango interquartilico
Exponencial o logarítmica media geométrica consultar al estadístico
Puesto que la distribución normal es perfectamente simétrica, la media, la mediana y la moda tienen
el mismo valor, como se muestra en la figura 3,11. Sin embargo, en la práctica, las series de datos
que se usan en la epidemiología, que son relativamente pequeñas, raras veces se asemejan a esta
forma ideal, y la media, la mediana y la moda son diferentes. Según esto, hay que decidir cuál es el
valor que representa mejor la serie de datos.
Existen muchas pruebas estadísticas y técnicas analíticas basadas en la media aritmética. Por eso, en
general se prefiere utilizar la media más que la mediana o la moda. Cuando se utiliza la media, se usa
la desviación estándar como la medida de dispersión. Sin embargo, la media esta influída por la
asimetría de los datos, moviéndose en la dirección de los valores extremos, como se muestra en la
figura 3,11. Se puede saber la dirección de la asimetría con la comparación de la media y la
mediana. La media se aparta de la mediana en la dirección de la asimetría.
193
Figura 3.11
Efecto del sesgo en la media mediana y moda
Moda Moda
Mediana Mediana
Moda Moda
Cuando los datos tienen una distribución asimétrica, es preferible utilizar la mediana para representar
el centro de los datos, porque no es influido por algunos datos extremos. Cuando se utiliza la
mediana, en general se utiliza el rango intercuartílico como medida de dispersión.
Desafortunadamente, estas medidas no son muy útiles para el análisis de los datos, porque existen
menos pruebas estadísticas y técnicas analíticas basadas en ellas.
La moda es la medida de distribución menos útil. Algunas series de datos no tienen una moda, y
otras tienen varias. En general, no se la puede usar para análisis estadísticos sofisticados. Sin
embargo, incluso la moda puede ayudar en la descripción de algunas series de datos.
A veces, es necesario combinar las medidas para describir bien un serie de datos. Considere los
antecedentes de fumar de las 200 personas presentadas en el cuadro 3.6.
Un análisis colectivo de los datos en El cuadro 3.6 produce los siguientes resultados:
media : 5.4
mediana : 0
moda :0
valor mínimo: 0
valor máximo: 40
rango : 0-40
rango intercuartílico : 8.8 (0-8.8)
desviación típica: 9.5
194
Cuadro 3.6
Promedio auto-reportado del número de cigarrillos fumados por día, encuesta entre
estudiantes de salud pública
Número de cigarillos fumados por día
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 2 3
4 6 7 7 8 8 9 10 12 12 13 13
14 15 15 15 15 15 16 16 17 18 18 18
18 19 19 20 20 20 20 20 20 20 20 20
20 20 21 21 22 22 23 24 25 25 26 28
29 30 30 30 30 32 35 40
Estos resultados son correctos, pero no son un buen resumen. Casí el 75% de los estudiantes no
fuman. La separación de los 58 fumadores de los 142 no fumadores mostraría los datos mejor.
Dentro de los 58 (29%) de los fumadores:
media : 18,5
mediana : 19,5
moda : 20
valor mínimo: 2
valor máximo: 40
rango : 2-40
rango intercuartílico : 8.5 (13.7-22.25)
desviación estándar: 8.0
Así, un resumen más útil podría ser que 142 (71%) de los estudiantes no fuman. De los 58
fumadores 29% fuman, en promedio, un poco menos de un paquete al día (media 18.5; mediana
19.5). El rango es de 2 a 40 cigarrillos al día y la mitad fuman de 14 a 22 cigarrillos al día".
195
Resumen
Las distribuciones de frecuencia, las medidas de tendencia central y las medidas de dispersión son
herramientas efectivas para resumir las características cuantitativas tales como altura, presión
sanguínea diastólica, período de incubación, y el número de compañeros sexuales. Algunas
características (como IC) tienen una distribución normal en la población. Otras características tienen
una distribución asimétrica hacia la derecha (hacia los valores más altos) o hacia la izquierda (hacia
los valores más bajos). Algunas características tienen una distribución casi normal, con pocos
valores extremos. Algunas características, especialmente pruebas de laboratorio, tienen una
distribución logarítmica. Finalmente, las características pueden tener otro patrón (p.ej., distribución
uniforme) o no tener ningún patrón. El patrón de los datos es el factor más importante en la
selección de medidas de tendencia central y de dispersión.
Las medidas de tendencia central son valores únicos que representan el centro de la distribución de
los valores. Las diferentes medidas de tendencia central representan el centro de maneras
diferentes. La media aritmética representa el "centro de gravedad" de los datos. La mediana
representa la mitad de los datos, con la mitad de las observaciones por encima y la otra mitad por
debajo. La moda representa el "pico" o el valor más frecuente. La media geométrica es comparable
con la media aritmética en la escala logarítmica.
En general, se hace un resumen de los datos con una distribución normal con la media aritmética y la
desviación estándar. Para los datos asimétricos o los datos con valores extremos, se utiliza la
mediana y el rango intercuartílic o. Para los datos en una escala logarítmica, se utiliza la media
geométrica. Se puede utilizar la moda y el rango para dar información adicional, pero raras veces se
usan solos.
196
Ejercicio de repaso
Ejercicio 3.10
Los datos del cuadro 3.7 corresponden a una serie de muestras de niveles
sanguíneos de plomo en Jamaica.
197
Cuadro 3.7
Niveles de plomo en sangre en niños menores de 6 años en una muestra al azar,
Jamaica, 1987
No. Nivel de Plomo* Log 10 del Nivel No. Nivel de Plomo* Log 10 del Nivel
1 46 1,66 30 36 1,56
2 69 1,84 31 45 1,65
3 29 1,46 32 31 1,49
4 9 0,95 33 39 1,59
5 52 1,72 34 5 0,70
6 37 1,57 35 53 1,72
7 9 0,95 36 30 1,48
8 10 1,00 37 26 1,41
9 5 0,70 38 58 1,76
10 16 1,20 39 85 1,93
11 35 1,54 40 28 1,45
12 31 1,49 41 14 1,15
13 12 1,08 42 28 1,45
14 11 1,04 43 14 1,15
15 15 1,18 44 10 1,00
16 9 0,95 45 14 1,15
17 14 1,15 46 13 1,11
18 12 1,08 47 16 1,20
19 22 1,34 48 13 1,11
20 23 1,36 49 10 1,00
21 76 1,88 50 11 1,04
22 42 1,62 51 5 0,70
23 40 1,60 52 9 0,95
24 98 1,99 53 12 1,08
25 18 1,26 54 5 0,70
26 23 1,36 55 52 1,72
27 19 1,28 56 94 1,97
28 14 1,15 57 12 1,08
29 63 1,80
*µg/dL=micrograms por decilitro
Fuente:2
198
Espacio de trabajo para el ejercicio de repaso
199
Respuestas a los ejercicios
Media = (0+0+0+0+1+1+1+1+1+2+2+2+2+3+3+4+5+7+8) / 19
= 43/19 =2.3 nacimientos
200
= antilog2 (5)= 32
Datos: 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 7, 8
Q1 en (19+1)/4 = 5, así Q1 = 1
Q3 en 3(19+1)/4 = 15, así Q3 = 3
xi fi fix i x i2 fix i2
0 4 0 0 0
1 5 5 1 5
2 4 8 4 16
3 2 6 9 18
4 1 4 16 16
5 1 5 25 25
6 0 0 36 0
7 1 7 49 49
8 1 8 64 64
Total 19 43 193
201
Respuesta al ejercicio 3.7 (página 188)
a.
Variable A Variable B
2
xi xi xi xi2
0 0 0 0
0 0 4 16
1 1 4 16
1 1 4 16
1 1 5 25
5 25 5 25
9 81 5 25
9 81 6 36
9 81 6 36
10 100 6 36
10 100 10 100
Total 55 471 55 331
= 19.600 = 5.600
Desvío Estándar = 4.4 = 2.4
202
Límite inferior de confianza al 95% = 213- (1.96)(0.629)
= 213-1.233 = 211.767
Los datos de la muestra concuerdan con los niveles medios de colesterol reales, que se
sitúan entre 211.8 y 214.2.
a.
Nivel de Frecuencia Nivel de Frecuencia Nivel de Frecuencia
Plomo Plomo Plomo
5 4 23 2 45 1
9 4 26 1 46 1
10 3 28 2 52 2
11 2 29 1 53 1
12 4 30 1 58 1
13 2 31 2 63 1
14 5 35 1 69 1
15 1 36 1 76 1
16 2 37 1 85 1
18 1 39 1 94 1
19 1 40 1 98 1
22 1 42 1
b. Media aritmética = 1627/57 = 28.544 = 28.5 ug/dl
a. media aritmética
b. media geométrica
c. mediana
d. moda
e. rango
2.- La medida de tendencia central que tiene a la mitad de las observaciones por debajo
de ella y a la otra mitad de las observaciones por encima, es:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
204
4.- ¿Qué pecado imperdonable se ha cometido en la distribución de frecuencias que se
muestra más abajo?
<1 1
1-5 8
5-15 31
15-25 119
25-35 656
35-45 1,395
45-55 2,502
55-65 6,109
65-75 11,092
75-85 11,907
?85+ 6,548
Desconocido 0
Total 40,368
a. rango intercuartílico
b. percentil
c. rango
d. desviación típica
e. varianza
6.- ¿Cuál de los siguientes términos describe más precisamente la curva que se muestra en
la figura 3.12? (Rodee con un círculo TODO lo que proceda.)
a. sesgo negativo
b. sesgo positivo
c. sesgo a la izquierda
205
d. sesgo a la derecha
e. normal
Figura 3.12
Distribución normal o sesgada
Frecuencia
7.- La medida de tendencia central que se ve más afectada si un valor es extremo es:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
8.- El valor que aparece con mayor frecuencia en un grupo de datos se define como:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
9.- La medida de tendencia central más comúnmente utilizada para los títulos de
anticuerpos es:
a. la media aritmética
b. la media geométrica
206
c. la mediana
d. la moda
e. el rango
10.- La medida de dispersión aue se ve más afectada cuando un valor es extremo es:
a. el rango intercuartílico
b. el rango
c. la desviación típica
d. la varianza
12.- La medida de dispersión más comúnmente utilizada junto a la media aritmética es:
a. el rango intercuartílico
b. el rango
c. la desviación típica
d. la varianza
13.- Dada el área bajo una curva normal, ¿cuáles de los siguientes rangos son iguales?
(Rodee los DOS que son iguales.)
207
e. De 1.96 desviaciones típicas por debajo de la media a 1.96 desviaciones
típicas por encima de la media
14.- Dada el área bajo una curva normal, ordene los siguientes rangos, desde el más
estrecho al más ancho.
Para las preguntas 15 - 17, seleccione las unidades de la lista de abajo, en las cuales cada
medida sería expresada, si hemos medido los pesos, en kilogramos, de 300 niños.
A. kilogramos
B. raíz cuadrada de kilogramos
C. kilogramos al cuadrado
D. sin unidades
Datos para las preguntas 18-21: 14, 10, 9, 11, 17, 20, 7, 90, 13, 9
208
19.- Usando los datos de arriba, identifique la mediana.
Mediana = ....................
20.- Usando los datos de arriba, identifique la(s) moda(s), si la(s) hay.
Moda = ...........................
22.- ¿Qué medidas de tendencia central y de dispersión son más apropiadas para los
siguientes datos?
0 12
1 19
2 23
3 17
4 28
5 18
6 12
7 5
8 3
9 2
10 11
Total 150
23.- Simplemente observando los valores de cada distribución de las que se muestran
abajo, identifique la que tiene la desviación típica más pequeña.
25.- Unos investigadores llevaron a cabo un estudio sobre estado nutricional entre una
muestra de niños en un campo de refugiados. Se obtuvieron los siguientes resultados:
a. 70.1 y 108.9
b. 79.6 y 99.4
c. 88.1 y 90.9
d. 88.8 y 90.2
210
Referencias
1. Center for Disease Control. Health status of Vietnam veterans. Volume 3: Medical
Examination. 1989.
2. Matte TD, Figuera JP, Ostrowski S, et al. Lead poisoning among household
members exposed to lead-acid battery repair shops in Kingston, Jamaica. Int J
Epidemiol 1989; 18: 874-881.
3. National Center for Health Statistics. Advance Report of Final Mortality Statistics,
1987. Monthly Vital Statistics Report, Vol 38 no. 5 Supplement. Hyattsville, MD, PHS
1989. p.21.
211