Documente Academic
Documente Profesional
Documente Cultură
El presente trabajo tiene el propósito de presentar las ideas básicas para la realización de una
distribución de frecuencias y su posterior ajuste a una distribución predeterminada mediante el método
de bondad de ajuste. Fundamentalmente, el texto resulta una transcripción y/o adaptación del material
incluído en un libro clásico de estudio y consulta escrito por Murray R. Spiegel, cuyos datos se podrán
encontrar en la bibliografía que aparece al final.
DISTRIBUCIONES DE FRECUENCIA
Si una muestra (o una población) es grande, es difícil observar las diferentes características o computar
estadísticos tales como la media, desviación típica, etc. Por esta razón es útil organizar o agrupar los
datos. Como ilustración suponga que una muestra consiste en el peso de 100 piezas de pan artesanal
de la Panadería La Ideal. Ordenamos los datos en clases o categorías y determinamos el número de
piezas que pertenecen a cada clase, denominada la frecuencia de clase. La ordenación resultante,
presentada en la Tabla T.1, se conoce como distribución de frecuencia o tabla de frecuencia.
Tabla T.1
La primera clase o categoría, por ejemplo, consiste en las piezas cuyo peso se encuentra entre 151 y
159 gramos, lo que se llama un intervalo de clase. Puesto que 5 piezas tienen un peso correspondientes
a esta clase, la correspondiente frecuencia de clase es 5. Puede verse que los intervalos son cerrados a
izquierda y abiertos a derecha, excepto el último. En el intervalo de clase [151-159), los números 151 y
159 se conocen como límites de clase. El ancho del intervalo de clase j-ésimo, denotado por cj, que
comúnmente es el mismo para todas las clases (en cuyo caso se denota simplemente por c, sin
subíndice), es la diferencia entre el límite real superior e inferior. En este caso, c =159 – 151 = 8
El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se llama
marca de clase. En la tabla anterior, la marca de clase correspondiente al intervalo de clase [151-159)
es el valor 155.
Una representación gráfica para la distribución de frecuencia puede suministrarse por un histograma,
como se muestra en la Figura F.1, o por un polígono de frecuencias uniendo los puntos medios de los
techos del histograma. Es interesante observar que la gráfica parece indicar que la muestra se extrajo de
una población de pesos (de las piezas de pan) normalmente distribuidas.
Página 1 de 9
Figura F.1
45
40
35
30
Frecuencia
25
20
15
10
5
0
[151-159) [159-167) [167-175) [175-183) [183-191]
Peso de las piezas de pan [en gramos]
Si en la Tabla T.1 registramos la frecuencia relativa o porcentual en lugar del número de piezas de pan
en cada clase, el resultado sería una distribución de frecuencia relativa o porcentual. Por ejemplo, la
frecuencia relativa o porcentual correspondiente a la clase [159-167) es (18/100) ó 18%. El histograma
correspondiente es entonces semejante al de la Figura F.1 excepto que el eje vertical es frecuencia
relativa en lugar de frecuencia absoluta. La suma de las áreas es 1 ó 100%.
Podemos considerar una distribución de frecuencia relativa como una distribución de probabilidad en la
que las probabilidades se reemplazan por frecuencias relativas. Ya que las frecuencias relativas pueden
considerarse como probabilidades empíricas, podemos considerar a las distribuciones de frecuencia
relativa como distribuciones de probabilidad empírica.
Se ha visto que podíamos asociar con cada distribución de probabilidad f(x) una función de distribución
definida por F(x) = P(X≤x) y también podíamos representar gráficamente esta función. Por analogía
podemos asociar con cualquier distribución de frecuencia una distribución de frecuencia acumulada o
distribución de frecuencia relativa acumulada, cuyas representaciones gráficas asociadas se conocen
como ojivas u ojivas porcentuales respectivamente.
Podemos representar una distribución de frecuencia como en la Tabla T.2 dando cada marca de clase y
la correspondiente frecuencia de clase. La frecuencia total es n, es decir:
n=f 1 + f 2+…+ f k =∑ f
Página 2 de 9
Tabla T.2
Puesto que hay f1 números iguales a x1, f2 números iguales a x2, …, fk números iguales a xk, la media está
dada por:
f 1 x1 + f 2 x 2 +... + f k x k ∑ f⋅x
x̄= = (1)
n n
NOTA: Cuando todos los intervalos de clase tienen igual tamaño c, hay disponibles métodos
cortos para computar la media y la varianza. Se conocen como métodos claves y pueden
consultarse en la bibliografía que aparece al final de este trabajo.
Tomando los datos de la Tabla T.1, realizaremos el cómputo de la media y la varianza (o bien la
desviación típica, que es su raíz cuadrada).
x̄=
∑ x⋅f = ∑ x⋅f = 17220 =172,20
∑f n 100
Página 3 de 9
La varianza y la desviación típica1 serán:
2
s=
∑ (x− x̄ )2 6064
= =60,64 entonces: s=√ s2=√ 60,64=7,787
n 100
Cuando se tiene alguna indicación sobre la distribución de una población por razonamientos
probabilísticos u otra causa, es posible frecuentemente ajustar tales distribuciones teóricas (también
llamadas “modelos” o distribuciones “esperadas”) a distribuciones de frecuencias obtenidas de
muestras de la población. El método utilizado generalmente consiste en emplear la media y la
desviación típica de la muestra para estimar la media y desviación típica de la población. (Ver
problemas).
Para determinar si la proporción p de “éxitos” en una muestra de tamaño n extraída de una población
binomial difiere de la proporción poblacional π de éxitos, hemos utilizado el estadístico Z dado por las
siguientes expresiones, según el caso:
p−π X −n π
Z= (3) o bien Z= (4)
√ π (1−˙ π )
n
√ n π (1−π )
Página 4 de 9
La expresión (3) se utiliza en el casos de que interesen las proporciones; la expresión (4) se utiliza en
los casos donde interesen la cantidad de “éxitos”. Debe observarse que ambas expresiones son
equivalentes, en el sentido de que si multiplicamos y dividimos la expresión (3) por n, se obtiene la
expresión (4).
En este caso sencillo solamente dos sucesos A1, A2 pueden ocurrir, que los hemos llamado “éxito” y
“fracaso” con probabilidades π y (1-π). Un valor muestral específico de la variable aleatoria X=np se
llama frecuencia observada para el suceso A1 en tanto que nπ se llama frecuencia esperada o teórica.
Una generalización al caso donde puede ocurrir k sucesos posibles A1, A2, …, Ak con probabilidades π1,
π2,...,πk, respectivamente. En tal caso, tenemos una población multinomial. Si extraemos una muestra
de tamaño n de esta población, las frecuencias observadas para los sucesos, A1, A2, …, Ak pueden
describirse por las variables aleatorias X1, X2,…,Xk (cuyos valores específicos x1, x2, …, xk serían las
frecuencias observadas para la muestra), en tanto que las frecuencias esperadas estarían dadas por nπ1,
nπ2, …, nπk respectivamente. Los resultados pueden indicarse como se hace en la siguiente tabla.
Tabla T.3
Suceso A1 A2 ... Ak
Frecuencia observada x1 x2 ... xk
Frecuencia esperada nπ1 nπ2 ... nπk
La clave para la posible generalización del estadístico (4) que podría medir las discrepancias existentes
entre las frecuencias observadas y esperadas en la Tabla T.3 se obtiene al elevar al cuadrado el
estadístico (4) y escribiéndolo como sigue:
2 2
2 (X −n π )2 ( X 1 −n⋅π ) ( X 2−n⋅(1−π ))
Z= = + (5)
n⋅π⋅(1− π ) n⋅π n⋅(1− π )
donde X1=X es la variable aleatoria asociada con “éxitos” y X2= n – X1 es la variable aleatoria asociada
con “fracaso”. Nótese que n·(1-π) en la expresión (5) es la frecuencia observada de fracasos.
La forma del resultado (5) sugiere que una medida de la discrepancia entre frecuencias observadas y
frecuencias esperadas para el caso general se suministra por el estadístico siguiente:
Página 5 de 9
( X 1 −n⋅π 1)2 (X 2−n⋅π 2)2 ( X k −n⋅π k )2 k ( X j−n⋅π j )2
χ 2= + +…+ =∑ (6)
n⋅π 1 n⋅π 2 n⋅π k j= 1 n⋅π
X 1 + X 2 +... + X k =n (7)
k
X 2j
χ 2= ∑ −n (8)
j= 1 n⋅π j
Si χ2=0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si χ 2>0, no
coinciden exactamente. A valores mayores de χ2, mayores son las discrepancias entre las frecuencias
observadas y esperadas.
En la práctica, las frecuencias esperadas se calculan de acuerdo con una hipótesis H 0. Si bajo esta
hipótesis el valor calculado de χ2 dado por (6) u (8) es mayor que algún valor crítico (tal como χ20,95 ó
χ20,99 , que son los valores críticos a los niveles de significación de 0,05 y 0,01 respectivamente), se
deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza H0 al
nivel de significación correspondiente. En caso contrario, se aceptará o al menos no se rechazará. Este
procedimiento se llama ensayo o prueba ji-cuadrado de la hipótesis.
Debe advertirse que en aquellas circunstancias en que χ2 esté muy próximo a cero debe mirarse con
cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las
esperadas. Para examinar tales situaciones se puede determinar si el valor calculado de χ2 es menor que
χ20,05 ó χ20,01 , en cuyos casos se decide que la concordancia es bastante buena a los niveles de
significación de 0,05 a 0,01 respectivamente.
Además de aplicarse a la distribución multinomial, la prueba ji-cuadrado puede ser empleada para
determinar de qué forma las distribuciones teóricas tales como la normal, de Poisson, etc., se
ajustan a distribuciones empíricas, es decir, aquellas que se obtienen de los datos muestrales. Veremos
un ejemplo que ilustra este caso.
Con los datos de la Tabla T.1 y en vista de los resultados obtenidos en el cómputo de la media y el
desvío típico, realizaremos el ajuste de una curva normal, presentándolo en la siguiente tabla:
Página 6 de 9
Tabla T.4
El trabajo puede organizarse como en la Tabla T.4. Para calcular el valor Z de los límites de clase se
utiliza z=( x− x̄ )÷s donde la media x̄ y la desviación típica s se han obtenido en cálculos previos.
x̄=172,2 s=7,787
La tercera columna que da las áreas bajo la curva normal entre los límites de clase, se obtiene
realizando el cómputo de probabilidades para los valores de Z correspondientes utilizando la tabla de la
normal tipificada (estandarizada).
Multiplicando los valores de la tercera columna (que representan las frecuencias relativas) por la
frecuencia total n (en este caso n = 100), se obtienen las frecuencias esperadas de la cuarta columna.
Se pone de manifiesto que se ajustan bastante bien (inclusive visualmente) con las frecuencias
observadas realmente, anotadas en la última columna.
Utilizaremos la prueba de bondad de ajuste explicada anteriormente para los datos de la Tabla T.1,
utilizando esta vez una distribución normal (en lugar de una multinomial).
k
(O j −E j )2
χ 2= ∑ (9)
j= 1 Ej
Puesto que el número de parámetros empleados para estimar las frecuencias esperadas es m = 2 (que
son la media μ y la desviación típica σ de la distribución normal), el número de grados de libertad (ν)
Página 7 de 9
para ingresar a la tabla de probabilidades de ji-cuadrado vendrá dado por ν = k – 1 – m = 5 – 1 – 2 = 2
donde k = 5 es la cantidad de intervalos de clase. Consultando la tabla de χ2 se tiene:
• Para ν = 2 se tiene que χ20,95 = 5,99. Se deduce que el ajuste de los datos es muy bueno.
• Para ν = 2 se tiene que χ20,05 = 0,103. Entonces, puesto que χ2 = 0,959 > 0,103, el ajuste no es
“demasiado bueno” (lo cual es “deseable”, según se ha visto anteriormente).
BIBLIOGRAFÍA DE REFERENCIA
NOTAS ADICIONALES
• Cuando se determinan los límites de los intervalos de clase, no es necesario que el límite
izquierdo del primer intervalo coincida necesariamente con el primer dato. Asimismo, no es
necesario que el límite derecho del último intervalo coincida necesariamente con el último dato.
Basta que cada dato quede incluido inequívocamente en uno y solo un intervalo de clase.
• Los valores de los límites de los intervalos deberán establecerse de modo tal que faciliten los
cálculos, tratando de evitar, hasta donde sea posible, la sobre-abundancia de decimales.
• La cantidad de intervalos no está fijada de antemano. Responde, sobre todo, a las necesidades
del realizador. Sin embargo, hay criterios. Una cantidad exigua de intervalos “no ayuda” a
comprender el comportamiento gráfico de la distribución. Por el contrario, una cantidad
exagerada de intervalos, complica innecesariamente los cálculos. Se trata de una decisión “de
compromiso”. Existen fórmulas empíricas que ayudan a tomar una decisión:
La más conocida consiste en tomar la raíz cuadrada del número de datos (u observaciones).
k =√ n
Obviamente, sería una enorme casualidad que el resultado de este cálculo entregue un número
entero. Será necesario redondear la cantidad por exceso o por defecto, según convenga a las
necesidades del realizador.
Otra expresión disponible es la Regla de Sturges, propuesta por el matemático alemán en 1926.
Página 8 de 9
Por ejemplo, para elaborar un histograma de frecuencia que exprese una muestra aleatoria de la
estatura de 142 niños, el número de intervalos o clases que tendrá la distribución es:
Página 9 de 9