Documente Academic
Documente Profesional
Documente Cultură
PRUEBA DE JI-CUADRADO
6.1. Introducción
El método estadístico, llamado prueba ji-cuadrado, tiene 4 aplicaciones
principales:
(1) Realizar pruebas de bondad de ajuste para evaluar la credibilidad de
que los datos muestrales provienen de una población cuyos elementos se
ajustan a un tipo específico de distribución de probabilidad.
(2) Probar la independencia de dos variables categóricas de una
población.
(3) Hacer inferencias sobre la homogeneidad de muestras.
(4) Hacer inferencias sobre más de dos proporciones de una población.
1
Notar que se pueden realizar pruebas de bondad de ajuste de distribuciones
discretas y continuas.
PRUEBA JI-CUADRADO DE BONDAD DE AJUSTE: La prueba ji-cuadrado permite
probar si existe una diferencia significativa entre una distribución de frecuencias
observadas y una distribución de frecuencias teórica.
1. Sean X1, X2, ..., Xn una muestra aleatoria de tamaño n seleccionada de una
población cuya distribución poblacional es desconocida.
2. Construir una distribución de frecuencias con la siguiente información:
a) k intervalos de clase (con frecuencias esperadas Ei mayores o iguales a 5).
b) Frecuencias observadas Oi de cada una de las k clases.
c) Frecuencias esperadas Ei de cada una de las k clases, calculadas a partir de
la distribución teórica propuesta en la hipótesis nula H0.
k
( Oi Ei )2
3. Calcular el estadístico de prueba: 02
i 1 Ei
2
que la frecuencia esperada se igual o mayor que 5. Esto implica la reducción
de los grados de libertad.
Dígito 0 1 2 3 4 5 6 7 8 9 n
Oi 90 97 106 110 103 98 95 99 95 107 1000
Ei 100 100 100 100 100 100 100 100 100 100 1000
Puesto que las frecuencias esperadas pueden hallarse sin que sea necesario
estimar parámetro alguno a partir de los datos de la muestra (p = 0), entonces la
prueba ji-cuadrado de bondad de ajuste tiene k - p - 1 = 10 – 0 – 1 = 9 grados de
libertad.
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 16.919 ( 1 ,k p 1 0.95 ,9 = 16.919)
2 2
3
Ejemplo 2.- (Una distribución no especificada) Un fabricante de tarjetas de
circuito impreso preocupado por el número de defectos que pudiesen tener sus
productos registra el número de defectos que estos poseen en una muestra de 80
tarjetas. Como una primera aproximación el fabricante plantea que el número de
defectos tiene distribución de Poisson. Los resultados que se observaron fueron
los siguientes:
Número de Frecuencia
defectos Observada
0 25
1 17
2 15
3 12
4 11
¿Es la distribución de Poisson apropiada para modelar los datos?. Usar a = 0.05.
0 25 1 17 2 15 3 12 4 11
̂ X 1.5875
25 17 15 12 11
Oi pi Ei = npi
Frecuencia Probabilidad Frecuencia ( Oi Ei )2
Defectos
Observada de Poisson Esperada Ei
0 25 0.2044 16.352 4.5736
1 17 0.3245 25.960 3.0925
2 15 0.2576 20.608 1.5261
3 12 0.1363 10.904 0.1102
4 o más 11 0.0771 6.168 3.7854
k
( Oi Ei )2
02 13.0878
i 1 Ei
4
1. H0: Los datos se ajustan a una distribución de Poisson con l = 1.5875
H1: Los datos no se ajustan una distribución de Poisson con l = 1.5875
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba 02
4. Para a = 0.05, prueba de cola derecha y gl = 5 – 1 – 1 = 3 ® 0.95 ,3 = 7.8147
2
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 7.8147 ( 1 ,k p 1 0.95 ,3 = 7.8147)
2 2
5
(-¥, 4.948), [4.948, 4.986), [4.986, 5.0145), [5.0145, 5.04), [5.04, 5.0655),
[5.0655, 5.094), [5.094, 5.132), [5.132, ¥).
Frecuencia Frecuencia ( Oi Ei )2
Intervalo de Clase
Observada Oi Esperada Ei Ei
X < 4.9480 12 12.5 0.02
4.9480 £ X < 14 12.5 0.18
4.9860
4.9860 £ X < 12 12.5 0.02
5.0145
5.0145 £ X < 13 12.5 0.02
5.0400
5.0400 £ X < 12 12.5 0.02
5.0655
5.0655 £ X < 11 12.5 0.18
5.0940
5.0940 £ X < 12 12.5 0.02
5.1320
5.1320 £ X 14 12.5 0.18
TOTAL 100 100 0.64
1. H0: Los datos se ajustan a una distribución normal con µ = 5.04 y s = 0.08
H1: Los datos no se ajustan una distribución normal con µ = 5.04 y s = 0.08
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba 02
4. Para a = 0.05, prueba de cola derecha y gl = 8 – 2 – 1 = 5 ® 0.95 ,5 = 11.0705
2
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 11.0705 ( 1 ,k p 1 0.95 ,5 = 11.0705)
2 2
6
4. CONCLUSIÓN: La distribución normal con µ = 5.04 y s = 0.08 es un buen
modelo para describir los datos. En consecuencia hay evidencia para creer
que el voltaje de salida se distribuye normalmente, con a = 0.05.
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 13.2767 ( 1 ,k p 1 0.99 ,4 = 13.2767)
2 2
7
7. CONCLUSIÓN: Las vidas útiles pueden considerarse como una muestra de una
población exponencial con µ = 40 horas, con a = 0.01.
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 6.2514 ( 1 ,k p 1 0.90 ,3 = 6.2514)
2 2
9
I J
Donde: n = O X i OY j
i 1 j 1
gl ( I 1 ) ( J 1 )
I = Nº de filas o renglones
J = Nº de columnas
SEXO Y1 A Y2 B Y3 C Y4 D TOTAL
X1 MASCULINO 18 (30) 25 (18) 15 (9.6) 2 (2.4) 60 O X 1
MARCA PREFERIDA
SEXO Y1 A Y2 B Y3 C+D TOTAL
X1 MASCULINO 18 (30) 25 (18) 17 (12) 60 O X 1
10
Por lo tanto, 2 sexos y 3 marcas (A, B y C+D) hacen una tabla de 2´3.
Luego, el número de grados de libertad es: gl =(I-1)´(J-1)=(2-1)´(3-1) = 2
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 5.9915 ( 1 ,( I 1)( J 1) 0.95, 2 = 5.9915)
2 2
Dado que varias celdas en esta tabla de contingencia de 73 tienen frecuencias
esperadas menores que 5, las diversas especialidades se reducirán a 3 categorías.
Computación, Educación y Otras. Luego la tabla de contingencia rectificada es:
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 9.4877 ( 1 ,( I 1)( J 1) 0.95, 4 = 9.4877)
2 2
I J ( Oij Eij )2
2
0 5.2043
i 1 j 1 Eij
13
Entonces, con la prueba de homogeneidad de muestras se busca determinar si
dos o más muestras independientes provienen de una misma población.
Como en el caso anterior, para esta prueba los datos muestrales se registran las
celdas de una tabla de contingencias de orden I J.
¿Podemos concluir al nivel de significación 0.01, que los tres remedios para la
alergia son igualmente efectivos?
Oij
La siguiente tabla de contingencia muestra las frecuencias observadas y las
frecuencias esperadas Eij
1. H0: Los tres remedios para la alergia, R1, R2 y R3 son igualmente efectivos
H1: Los tres remedios para la alergia, R1, R2 y R3 no son igualmente efectivos
2. Nivel de significación a = 0.01 (1%)
3. Distribución muestral c2 y estadístico de prueba 02
14
4. Para a = 0.01, prueba de cola derecha y gl = (31) (31) = 4
® 0.99 ,4 = 13.2767
2
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 13.2767 ( 1 ,( I 1)( J 1) 0.99, 4 = 13.2767)
2 2
I J ( Oij Eij )2
02 20.0001
i 1 j 1 Eij
H0: 1 = 2 = 3 =...... = k
15
donde k > 2 y j representa la proporción de éxitos en la j-ésima población
binomial. Para cada hipótesis nula, la hipótesis alternativa es
Las dos variables de clasificación para problemas de este tipo son la categoría
del resultado, éxito o fracaso, y el número de la muestra (con k niveles). La tabla
de contingencia 2 J toma la siguiente forma:
Ejemplo 9.- En una fábrica de confecciones textiles que opera en tres turnos;
mañana, tarde y noche, el jefe de control de calidad, quiere saber si hay
diferencias en la calidad de las confecciones en los tres turnos. Para esto tomó
una muestra aleatoria de 100 confecciones de cada turno del día anterior y las
clasificó según el turno de su producción y según su calidad en defectuoso o no
defectuoso. Los resultados se dan en la siguiente tabla:
TURNOS
EFECTIVIDAD
Mañana Tarde Noche TOTAL
Defectuoso 3 (10) 12 (10) 15 (10) 30
No defectuoso 97 (90) 88 (90) 85 (90) 270
TOTAL 100 100 100 300
1. H0: 1 = 2 = 3
H1: Al menos dos proporciones poblacionales son distintas
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba 02
4. Para a = 0.05, prueba de cola derecha y gl = (21) (31) = 2
® 0.95 ,2 = 5.9915
2
REGLA DE DECISIÓN:
(a) Aceptar H0 si 02 < 5.9915 ( 1 ,( I 1)( J 1) 0.95, 2 = 5.9915)
2 2
16
CELDA ( Oij Eij )2
Oij Eij
ij Eij
11 3 10 4.9000
12 12 10 0.4000
13 15 10 2.5000
21 97 90 0.5444
22 88 90 0.0444
23 85 90 0.2778
TOTAL 300 300 0 = 8.6667
2
2 J ( Oij Eij )2
02 8.6667
i 1 j 1 Eij
6. 02 = 8.6667 > 1 ,( I 1)( J 1) 0.95, 2 = 5.9915® Cae en la región de rechazo,
2 2
1. H0: 1 = 2 = 3= 4 = 5 = 6
H1: Al menos dos de las pj son s
2. Nivel de significación = 0.01 (1%)
3. Distribución muestral c2 y estadístico de prueba 02
4. Para a = 0.01, prueba de cola derecha y gl = (21) (61) = 5
® 0.99 ,5 = 15.0863
2
REGLA DE DESICIÓN:
17
(a) Aceptar H0 si 02 < 15.0863 ( 1 ,( I 1)( J 1) 0.99,5 = 15.0863)
2 2
2 J ( Oij Eij )2
02 0.82
i 1 j 1 Eij
18