Sunteți pe pagina 1din 9

PRESENTACION

El presente trabajo tiene el propósito de presentar las ideas básicas para la realización de una
distribución de frecuencias y su posterior ajuste a una distribución predeterminada mediante el método
de bondad de ajuste. Fundamentalmente, el texto resulta una transcripción y/o adaptación del material
incluído en un libro clásico de estudio y consulta escrito por Murray R. Spiegel, cuyos datos se podrán
encontrar en la bibliografía que aparece al final.

DISTRIBUCIONES DE FRECUENCIA

Si una muestra (o una población) es grande, es difícil observar las diferentes características o computar
estadísticos tales como la media, desviación típica, etc. Por esta razón es útil organizar o agrupar los
datos. Como ilustración suponga que una muestra consiste en el peso de 100 piezas de pan artesanal
de la Panadería La Ideal. Ordenamos los datos en clases o categorías y determinamos el número de
piezas que pertenecen a cada clase, denominada la frecuencia de clase. La ordenación resultante,
presentada en la Tabla T.1, se conoce como distribución de frecuencia o tabla de frecuencia.

Tabla T.1

Peso de la pieza [en gramos] Cantidad de piezas


[151-159) 5
[159-167) 18
[167-175) 42
[175-183) 27
[183-191] 8
Total 100

La primera clase o categoría, por ejemplo, consiste en las piezas cuyo peso se encuentra entre 151 y
159 gramos, lo que se llama un intervalo de clase. Puesto que 5 piezas tienen un peso correspondientes
a esta clase, la correspondiente frecuencia de clase es 5. Puede verse que los intervalos son cerrados a
izquierda y abiertos a derecha, excepto el último. En el intervalo de clase [151-159), los números 151 y
159 se conocen como límites de clase. El ancho del intervalo de clase j-ésimo, denotado por cj, que
comúnmente es el mismo para todas las clases (en cuyo caso se denota simplemente por c, sin
subíndice), es la diferencia entre el límite real superior e inferior. En este caso, c =159 – 151 = 8

El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se llama
marca de clase. En la tabla anterior, la marca de clase correspondiente al intervalo de clase [151-159)
es el valor 155.

Una representación gráfica para la distribución de frecuencia puede suministrarse por un histograma,
como se muestra en la Figura F.1, o por un polígono de frecuencias uniendo los puntos medios de los
techos del histograma. Es interesante observar que la gráfica parece indicar que la muestra se extrajo de
una población de pesos (de las piezas de pan) normalmente distribuidas.

Página 1 de 9
Figura F.1

45
40
35
30
Frecuencia

25
20
15
10
5
0
[151-159) [159-167) [167-175) [175-183) [183-191]
Peso de las piezas de pan [en gramos]

DISTRIBUCIONES DE FRECUENCIA RELATIVA Y OJIVAS

Si en la Tabla T.1 registramos la frecuencia relativa o porcentual en lugar del número de piezas de pan
en cada clase, el resultado sería una distribución de frecuencia relativa o porcentual. Por ejemplo, la
frecuencia relativa o porcentual correspondiente a la clase [159-167) es (18/100) ó 18%. El histograma
correspondiente es entonces semejante al de la Figura F.1 excepto que el eje vertical es frecuencia
relativa en lugar de frecuencia absoluta. La suma de las áreas es 1 ó 100%.

Podemos considerar una distribución de frecuencia relativa como una distribución de probabilidad en la
que las probabilidades se reemplazan por frecuencias relativas. Ya que las frecuencias relativas pueden
considerarse como probabilidades empíricas, podemos considerar a las distribuciones de frecuencia
relativa como distribuciones de probabilidad empírica.

Se ha visto que podíamos asociar con cada distribución de probabilidad f(x) una función de distribución
definida por F(x) = P(X≤x) y también podíamos representar gráficamente esta función. Por analogía
podemos asociar con cualquier distribución de frecuencia una distribución de frecuencia acumulada o
distribución de frecuencia relativa acumulada, cuyas representaciones gráficas asociadas se conocen
como ojivas u ojivas porcentuales respectivamente.

CÓMPUTO DE LA MEDIA Y LA VARIANZA

Podemos representar una distribución de frecuencia como en la Tabla T.2 dando cada marca de clase y
la correspondiente frecuencia de clase. La frecuencia total es n, es decir:

n=f 1 + f 2+…+ f k =∑ f

Página 2 de 9
Tabla T.2

Marca de clase Frecuencia de clase


x1 f1
x2 f2
... ...
xk fk
Total n

Puesto que hay f1 números iguales a x1, f2 números iguales a x2, …, fk números iguales a xk, la media está
dada por:

f 1 x1 + f 2 x 2 +... + f k x k ∑ f⋅x
x̄= = (1)
n n

Análogamente, la varianza está dada por:

2 f 1⋅( x 1− x̄)2 +f 2⋅( x 2− x̄)2 +... + f k⋅(x k − x̄)2 ∑ f⋅( x− x̄)2


s= = (2)
n n

NOTA: Cuando todos los intervalos de clase tienen igual tamaño c, hay disponibles métodos
cortos para computar la media y la varianza. Se conocen como métodos claves y pueden
consultarse en la bibliografía que aparece al final de este trabajo.

Tomando los datos de la Tabla T.1, realizaremos el cómputo de la media y la varianza (o bien la
desviación típica, que es su raíz cuadrada).

Peso [en gramos] Marca de clase (x) Frecuencia (f) x·f


[151-159) 155 5 775
[159-167) 163 18 2934
[167-175) 171 42 7182
[175-183) 179 27 4833
[183-191) 187 8 1496
n = Σf = 100 Σ x·f = 17220

x̄=
∑ x⋅f = ∑ x⋅f = 17220 =172,20
∑f n 100

Página 3 de 9
La varianza y la desviación típica1 serán:

Peso [en Marca de x− x̄ ( x− x̄)2 Frecuencia (f) ( x− x̄)2⋅f


gramos] clase (x)
[151-159) 155 -17,2 295,84 5 1479,20
[159-167) 163 -9.2 84,64 18 1523,52
[167-175) 171 -1,2 1,44 42 60,48
[175-183) 179 6,8 46,24 27 1248,48
[183-191) 187 14,8 219,04 8 1752,32
n = Σf = 100 6064,00

2
s=
∑ (x− x̄ )2 6064
= =60,64 entonces: s=√ s2=√ 60,64=7,787
n 100

AJUSTE DE LAS DISTRIBUCIONES TEÓRICAS A DISTRIBUCIONES DE FRECUENCIA


MUESTRALES

Cuando se tiene alguna indicación sobre la distribución de una población por razonamientos
probabilísticos u otra causa, es posible frecuentemente ajustar tales distribuciones teóricas (también
llamadas “modelos” o distribuciones “esperadas”) a distribuciones de frecuencias obtenidas de
muestras de la población. El método utilizado generalmente consiste en emplear la media y la
desviación típica de la muestra para estimar la media y desviación típica de la población. (Ver
problemas).

El problema de ensayar la bondad de ajuste de las distribuciones teóricas a las distribuciones


muestrales es esencialmente el mismo que el de decidir si hay diferencias importantes entre los valores
de la población y la muestra. Un ensayo de significación importante para la bondad del ajuste de
distribuciones teóricas, el ensayo ji-cuadrado, se describe más adelante.

ENSAYO JI-CUADRADO PARA LA BONDAD DE AJUSTE

Para determinar si la proporción p de “éxitos” en una muestra de tamaño n extraída de una población
binomial difiere de la proporción poblacional π de éxitos, hemos utilizado el estadístico Z dado por las
siguientes expresiones, según el caso:

p−π X −n π
Z= (3) o bien Z= (4)

√ π (1−˙ π )
n
√ n π (1−π )

1 Las expresiones desviación típica y desvío estándar son equivalentes.

Página 4 de 9
La expresión (3) se utiliza en el casos de que interesen las proporciones; la expresión (4) se utiliza en
los casos donde interesen la cantidad de “éxitos”. Debe observarse que ambas expresiones son
equivalentes, en el sentido de que si multiplicamos y dividimos la expresión (3) por n, se obtiene la
expresión (4).

En este caso sencillo solamente dos sucesos A1, A2 pueden ocurrir, que los hemos llamado “éxito” y
“fracaso” con probabilidades π y (1-π). Un valor muestral específico de la variable aleatoria X=np se
llama frecuencia observada para el suceso A1 en tanto que nπ se llama frecuencia esperada o teórica.

EJEMPLO 1. Si obtenemos una muestra de 100 lanzamientos de una moneda honrada, de


modo que n=100, entonces la proporción π=0,5 y la frecuencia esperada de caras (cantidad de
éxitos) es nπ = 100·0,5 = 50. La frecuencia observada en la muestra podría lógicamente ser
diferente.

Una generalización al caso donde puede ocurrir k sucesos posibles A1, A2, …, Ak con probabilidades π1,
π2,...,πk, respectivamente. En tal caso, tenemos una población multinomial. Si extraemos una muestra
de tamaño n de esta población, las frecuencias observadas para los sucesos, A1, A2, …, Ak pueden
describirse por las variables aleatorias X1, X2,…,Xk (cuyos valores específicos x1, x2, …, xk serían las
frecuencias observadas para la muestra), en tanto que las frecuencias esperadas estarían dadas por nπ1,
nπ2, …, nπk respectivamente. Los resultados pueden indicarse como se hace en la siguiente tabla.

Tabla T.3

Suceso A1 A2 ... Ak
Frecuencia observada x1 x2 ... xk
Frecuencia esperada nπ1 nπ2 ... nπk

EJEMPLO 2. Si obtenemos una muestra de 120 lanzamientos de un dado honrado, de modo


que n=120, entonces las probabilidades de las caras 1, 2, …, 6, se denotan por π 1, π2,...,π6
respectivamente y son todas iguales a 1/6. Las correspondientes frecuencias esperadas son nπ1,
nπ2, …, nπ6 y son todas iguales al valor (120)·(1/6) = 20. Las frecuencias observadas de las
diferentes caras que resultan en la muestra pueden ser diferentes.

La clave para la posible generalización del estadístico (4) que podría medir las discrepancias existentes
entre las frecuencias observadas y esperadas en la Tabla T.3 se obtiene al elevar al cuadrado el
estadístico (4) y escribiéndolo como sigue:
2 2
2 (X −n π )2 ( X 1 −n⋅π ) ( X 2−n⋅(1−π ))
Z= = + (5)
n⋅π⋅(1− π ) n⋅π n⋅(1− π )

donde X1=X es la variable aleatoria asociada con “éxitos” y X2= n – X1 es la variable aleatoria asociada
con “fracaso”. Nótese que n·(1-π) en la expresión (5) es la frecuencia observada de fracasos.

La forma del resultado (5) sugiere que una medida de la discrepancia entre frecuencias observadas y
frecuencias esperadas para el caso general se suministra por el estadístico siguiente:

Página 5 de 9
( X 1 −n⋅π 1)2 (X 2−n⋅π 2)2 ( X k −n⋅π k )2 k ( X j−n⋅π j )2
χ 2= + +…+ =∑ (6)
n⋅π 1 n⋅π 2 n⋅π k j= 1 n⋅π

donde la frecuencia total (es decir el tamaño muestral) es n, de modo que:

X 1 + X 2 +... + X k =n (7)

Una expresión equivalente a (6) es la siguiente:

k
X 2j
χ 2= ∑ −n (8)
j= 1 n⋅π j

Si χ2=0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si χ 2>0, no
coinciden exactamente. A valores mayores de χ2, mayores son las discrepancias entre las frecuencias
observadas y esperadas.

En la práctica, las frecuencias esperadas se calculan de acuerdo con una hipótesis H 0. Si bajo esta
hipótesis el valor calculado de χ2 dado por (6) u (8) es mayor que algún valor crítico (tal como χ20,95 ó
χ20,99 , que son los valores críticos a los niveles de significación de 0,05 y 0,01 respectivamente), se
deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza H0 al
nivel de significación correspondiente. En caso contrario, se aceptará o al menos no se rechazará. Este
procedimiento se llama ensayo o prueba ji-cuadrado de la hipótesis.

Debe advertirse que en aquellas circunstancias en que χ2 esté muy próximo a cero debe mirarse con
cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las
esperadas. Para examinar tales situaciones se puede determinar si el valor calculado de χ2 es menor que
χ20,05 ó χ20,01 , en cuyos casos se decide que la concordancia es bastante buena a los niveles de
significación de 0,05 a 0,01 respectivamente.

Además de aplicarse a la distribución multinomial, la prueba ji-cuadrado puede ser empleada para
determinar de qué forma las distribuciones teóricas tales como la normal, de Poisson, etc., se
ajustan a distribuciones empíricas, es decir, aquellas que se obtienen de los datos muestrales. Veremos
un ejemplo que ilustra este caso.

EJERCITACIÓN: AJUSTE DE UNA CURVA NORMAL

Con los datos de la Tabla T.1 y en vista de los resultados obtenidos en el cómputo de la media y el
desvío típico, realizaremos el ajuste de una curva normal, presentándolo en la siguiente tabla:

Página 6 de 9
Tabla T.4

Peso de la pieza Valor de Z para los Área para Frecuencia Frecuencia


[en gramos] límites de clase cada clase esperada observada
[151-159) -2,72; -1,70 0,0413 4,13 ó 4 5
[159-167) -1,70; -0,67 0,2068 20, 68 ó 21 18
[167-175) -0,67; 0,36 0,3892 38,92 ó 39 42
[175-183) 0,36; 1,39 0,2771 27,71 ó 28 27
[183-191] 1,39; 2,41 0,0743 7,43 ó 7 8

El trabajo puede organizarse como en la Tabla T.4. Para calcular el valor Z de los límites de clase se
utiliza z=( x− x̄ )÷s donde la media x̄ y la desviación típica s se han obtenido en cálculos previos.

x̄=172,2 s=7,787

La tercera columna que da las áreas bajo la curva normal entre los límites de clase, se obtiene
realizando el cómputo de probabilidades para los valores de Z correspondientes utilizando la tabla de la
normal tipificada (estandarizada).

Multiplicando los valores de la tercera columna (que representan las frecuencias relativas) por la
frecuencia total n (en este caso n = 100), se obtienen las frecuencias esperadas de la cuarta columna.
Se pone de manifiesto que se ajustan bastante bien (inclusive visualmente) con las frecuencias
observadas realmente, anotadas en la última columna.

EJERCITACIÓN: PRUEBA JI-CUADRADO DE BONDAD DE AJUSTE

Utilizaremos la prueba de bondad de ajuste explicada anteriormente para los datos de la Tabla T.1,
utilizando esta vez una distribución normal (en lugar de una multinomial).

La prueba (independientemente de la distribución considerada), conserva la estructura. Por lo tanto, la


expresión utilizada tendrá la forma de la expresión (6):

k
(O j −E j )2
χ 2= ∑ (9)
j= 1 Ej

donde O representa la frecuencia observada y E representa la frecuencia esperada. En consecuencia:

2 (5−4,13)2 (18−20,68)2 (42−38,92)2 (27−27,71)2 (8−7,43)2


χ = + + + + =0,959
4,13 20,68 38,92 27,71 7,43

Puesto que el número de parámetros empleados para estimar las frecuencias esperadas es m = 2 (que
son la media μ y la desviación típica σ de la distribución normal), el número de grados de libertad (ν)

Página 7 de 9
para ingresar a la tabla de probabilidades de ji-cuadrado vendrá dado por ν = k – 1 – m = 5 – 1 – 2 = 2
donde k = 5 es la cantidad de intervalos de clase. Consultando la tabla de χ2 se tiene:

• Para ν = 2 se tiene que χ20,95 = 5,99. Se deduce que el ajuste de los datos es muy bueno.

• Para ν = 2 se tiene que χ20,05 = 0,103. Entonces, puesto que χ2 = 0,959 > 0,103, el ajuste no es
“demasiado bueno” (lo cual es “deseable”, según se ha visto anteriormente).

BIBLIOGRAFÍA DE REFERENCIA

PROBABILIDAD Y ESTADÍSTICA, de Murray R. Spiegel, Serie Schaum, editado por McGraw-Hill.

NOTAS ADICIONALES

• Cuando se determinan los límites de los intervalos de clase, no es necesario que el límite
izquierdo del primer intervalo coincida necesariamente con el primer dato. Asimismo, no es
necesario que el límite derecho del último intervalo coincida necesariamente con el último dato.
Basta que cada dato quede incluido inequívocamente en uno y solo un intervalo de clase.

• Los valores de los límites de los intervalos deberán establecerse de modo tal que faciliten los
cálculos, tratando de evitar, hasta donde sea posible, la sobre-abundancia de decimales.

• La cantidad de intervalos no está fijada de antemano. Responde, sobre todo, a las necesidades
del realizador. Sin embargo, hay criterios. Una cantidad exigua de intervalos “no ayuda” a
comprender el comportamiento gráfico de la distribución. Por el contrario, una cantidad
exagerada de intervalos, complica innecesariamente los cálculos. Se trata de una decisión “de
compromiso”. Existen fórmulas empíricas que ayudan a tomar una decisión:

La más conocida consiste en tomar la raíz cuadrada del número de datos (u observaciones).

k =√ n

Obviamente, sería una enorme casualidad que el resultado de este cálculo entregue un número
entero. Será necesario redondear la cantidad por exceso o por defecto, según convenga a las
necesidades del realizador.

Otra expresión disponible es la Regla de Sturges, propuesta por el matemático alemán en 1926.

k =1+ log 2 (n) o bien k =1+ 3,322⋅log 10 (n)

donde k es el número de clases y n es el número de datos (u observaciones).

Página 8 de 9
Por ejemplo, para elaborar un histograma de frecuencia que exprese una muestra aleatoria de la
estatura de 142 niños, el número de intervalos o clases que tendrá la distribución es:

k =1+ 3,322⋅log 10 (142)


k =1+ 3,322⋅2,1523
k =8,14≃8
Así, la distribución será en 8 intervalos.

• Si las frecuencias (absolutas) esperadas son menores a 5, la aproximación de ji-cuadrado será


errónea. Para evitar esto se reagrupan las categorías (clases) de modo que los números
esperados en cada categoría sea al menos 5.

Página 9 de 9

S-ar putea să vă placă și