Sunteți pe pagina 1din 18

6.

PRUEBA DE JI-CUADRADO

6.1. Introducción
El método estadístico, llamado prueba ji-cuadrado, tiene 4 aplicaciones
principales:
(1) Realizar pruebas de bondad de ajuste para evaluar la credibilidad de
que los datos muestrales provienen de una población cuyos elementos se
ajustan a un tipo específico de distribución de probabilidad.
(2) Probar la independencia de dos variables categóricas de una
población.
(3) Hacer inferencias sobre la homogeneidad de muestras.
(4) Hacer inferencias sobre más de dos proporciones de una población.

6.2. Prueba de bondad de ajuste


Con frecuencia, los procedimientos estadísticos hacen suposiciones de
importancia crítica sobre el tipo de población a partir de la cual se generan los
datos muestrales. Entonces, la prueba ji-cuadrado se usa para decidir si una
distribución de probabilidad en particular, como la binomial, la de Poisson o la
normal, es la distribución apropiada
Las pruebas de hipótesis del capítulo anterior están diseñadas bajo la suposición
de que se conoce la distribución poblacional de los datos y las hipótesis son
formuladas con respecto a los parámetros de la población.
Un tipo de problema muy importante es el siguiente: no se conoce la
distribución poblacional de los datos y se desea probar la hipótesis de que una
distribución en particular (binomial, uniforme discreta, Poisson, normal,
exponencial, uniforme continua, etc.), es un buen modelo para explicar el
comportamiento poblacional de los datos o una buena descripción de los
mismos.
Algunas de estas hipótesis son:
 Los datos tienen distribución de Poisson con l = 5 (Distribución especificada
completamente)
 Los datos tienen distribución de Poisson (Distribución no especificada).
 Los datos tienen distribución normal con parámetros µ = 10 y s = 2.
(Distribución especificada completamente)
 Los datos tienen distribución normal (Distribución no especificada).

1
Notar que se pueden realizar pruebas de bondad de ajuste de distribuciones
discretas y continuas.
PRUEBA JI-CUADRADO DE BONDAD DE AJUSTE: La prueba ji-cuadrado permite
probar si existe una diferencia significativa entre una distribución de frecuencias
observadas y una distribución de frecuencias teórica.
1. Sean X1, X2, ..., Xn una muestra aleatoria de tamaño n seleccionada de una
población cuya distribución poblacional es desconocida.
2. Construir una distribución de frecuencias con la siguiente información:
a) k intervalos de clase (con frecuencias esperadas Ei mayores o iguales a 5).
b) Frecuencias observadas Oi de cada una de las k clases.
c) Frecuencias esperadas Ei de cada una de las k clases, calculadas a partir de
la distribución teórica propuesta en la hipótesis nula H0.

k
( Oi  Ei )2
3. Calcular el estadístico de prueba:  02  
i 1 Ei

4. Si la población propuesta en la hipótesis nula es verdadera, el estadístico de


prueba  02 es aproximada por la distribución ji-cuadrado con k - p - 1 grados
de libertad, donde p es el número de parámetros de la distribución propuesta
estimada por los datos de la muestra.
Por ejemplo, si la H0 es “los datos tienen distribución normal” (distribución
no especificada) y k = 7, luego p = 2 y los grados de libertad son 7-2 -1 = 4.
Por otro lado, si la H0 es “los datos tienen distribución normal con µ = 35 y s
= 20” (distribución especificada completamente) y k = 7, entonces p = 0 y los
grados de libertad son 7-0 -1= 6.
k = Nº de intervalos de clase
N° de grados de libertad = gl = k - p - 1
p = Nº de parámetros estimados
5. La aproximación es mejor conforme aumenta el valor de n.
6. La regla de decisión es:
(a) Aceptar la H0 de que la distribución de la población es la distribución
propuesta si  0   1 ,k  p 1
2 2

(b) Rechazar la H0 de que la distribución de la población es la distribución


propuesta si  0   1 ,k  p1
2 2

5. En caso de que las frecuencias esperadas sean pequeñas, el estadístico de


prueba no reflejará las diferencias entre las frecuencias observadas y
esperadas. Para que exista una buena aproximación a la distribución ji-
cuadrado debemos establecer que todas las frecuencias esperadas deben ser
no menos de 5. Cuando algún intervalo de clase tiene frecuencia esperada
menor que 5 se agrupan dos o más clases adyacentes en una sola de manera

2
que la frecuencia esperada se igual o mayor que 5. Esto implica la reducción
de los grados de libertad.

Ejemplo 1.- (Una distribución completamente especificada) Un ingeniero de


sistemas ha desarrollado un algoritmo para generar enteros seudoaleatorios del
intervalo 0 al 9. Los resultados de 1000 dígitos seudoaleatorios generados se
presentan en la siguiente tabla:

Dígito 0 1 2 3 4 5 6 7 8 9 n
Oi 90 97 106 110 103 98 95 99 95 107 1000
Ei 100 100 100 100 100 100 100 100 100 100 1000

¿Existe evidencia de que el algoritmo trabaja apropiadamente?. Utilizar a = 0.05

Si el algoritmo trabaja correctamente, los valores 0 al 9 deben tener una


distribución uniforme discreta. Esta es la razón que justifica que las frecuencias
esperadas sean 100, para i = 1, 2 ,.., 10.

Puesto que las frecuencias esperadas pueden hallarse sin que sea necesario
estimar parámetro alguno a partir de los datos de la muestra (p = 0), entonces la
prueba ji-cuadrado de bondad de ajuste tiene k - p - 1 = 10 – 0 – 1 = 9 grados de
libertad.

Con esta información se aplica el procedimiento de prueba de hipótesis:

1. H0: Los datos se ajustan a una distribución uniforme discreta


H1: Los datos no se ajustan a una distribución uniforme discreta
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y gl = 10 – 0 – 1 = 9 ®  0.95 ,9 = 16.919
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 16.919 (  1 ,k  p 1   0.95 ,9 = 16.919)
2 2

(b) Rechazar H0 si  02 > 16.919 (  1 ,k  p 1   0.95 ,9 = 16.919)


2 2

5. Muestra aleatoria: n = 1000

( 90  100 )2 ( 97  100 )2 ( 95  100 )2 ( 107  100 )2


 02    ...    3.58
100 100 100 100

6.  02 = 3.58 <  1 ,k  p 1   0.95 ,9 = 16.919


2 2

Cae en la región de aceptación, por tanto se acepta H0 con a = 0.05.


7. CONCLUSIÓN: Los datos se ajustan a una distribución uniforme discreta. En
consecuencia, el algoritmo trabaja satisfactoriamente con a = 0.05.

3
Ejemplo 2.- (Una distribución no especificada) Un fabricante de tarjetas de
circuito impreso preocupado por el número de defectos que pudiesen tener sus
productos registra el número de defectos que estos poseen en una muestra de 80
tarjetas. Como una primera aproximación el fabricante plantea que el número de
defectos tiene distribución de Poisson. Los resultados que se observaron fueron
los siguientes:

Número de Frecuencia
defectos Observada
0 25
1 17
2 15
3 12
4 11

¿Es la distribución de Poisson apropiada para modelar los datos?. Usar a = 0.05.

La media de la supuesta distribución de Poisson, el parámetro l, se desconoce y


puede estimarse a partir de los datos de la muestra. La estimación puntual de l
es el promedio de la muestra:

0  25  1  17  2  15  3  12  4  11
̂  X   1.5875
25  17  15  12  11

Este valor es usado para definir la distribución de Poisson y de esta manera


calcular las probabilidades.

Oi pi Ei = npi
Frecuencia Probabilidad Frecuencia ( Oi  Ei )2
Defectos
Observada de Poisson Esperada Ei
0 25 0.2044 16.352 4.5736
1 17 0.3245 25.960 3.0925
2 15 0.2576 20.608 1.5261
3 12 0.1363 10.904 0.1102
4 o más 11 0.0771 6.168 3.7854
k
( Oi  Ei )2
 02    13.0878
i 1 Ei

Puesto que para hallar las frecuencias esperadas es necesario estimar el


parámetro l a partir de los datos de la muestra (p = 1), entonces la prueba ji-
cuadrado de bondad de ajuste tiene k - p - 1 = 5 – 1 – 1 = 3 grados de libertad.

4
1. H0: Los datos se ajustan a una distribución de Poisson con l = 1.5875
H1: Los datos no se ajustan una distribución de Poisson con l = 1.5875
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y gl = 5 – 1 – 1 = 3 ®  0.95 ,3 = 7.8147
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 7.8147 (  1 ,k  p 1   0.95 ,3 = 7.8147)
2 2

(b) Rechazar H0 si  02 > 7.8147 (  1 ,k  p 1   0.95 ,3 = 7.8147)


2 2

5. Muestra aleatoria: n = 80, ̂ = 1.5875


k
( Oi  Ei )2
 
2
0  13.0878
i 1 Ei

6.  02 = 13.0878 >  1 ,k  p 1   0.95 ,3 = 7.8147 ® Cae en la región de rechazo,


2 2

por tanto se rechaza H0 y se acepta H1 con a = 0.05.


7. CONCLUSIÓN: Los datos no se ajustan a una distribución de Poisson con l =
1.5875. En consecuencia, la distribución de Poisson con l = 1.5875 no es un
buen modelo para describir los datos, con a = 0.05.

Ejemplo 3.- (Una distribución no especificada) El ingeniero de control de


calidad de una empresa fabricante de fuentes de alimentación para PC esta
interesado en modelar con una distribución normal el voltaje de salida. Con este
objetivo, emplea un a = 0.05 y selecciona una muestra aleatoria de 100
observaciones. En base a los datos muestrales se calculan los siguientes
estimadores: X = 5.04 Voltios y s = 0.08 Voltios.
En el caso de una variable aleatoria continua se deben calcular los límites de los
intervalos de clase de tal manera que la frecuencias esperadas Ei = npi sean las
mismas para todos los intervalos. Con este fin, se eligen los intervalos de clase
de tal manera que las probabilidades pi sean iguales:
ai
pi = P( ai 1 £ X £ ai ) = ai 1
f (x) dx

Suponer que se aplica la regla de Sturges: k =1 + (3.3´log n) =1 + (3.3´log100) =


7.6 » 8 intervalos.
El área encerrada por la normal es 1 y se divide entre 8, es decir, pi = 1/8 =
0.125. Luego los valores de X que corresponden son aquellos para los cuales P(
ai 1 £ X £ ai ) = 0.125, donde µ y s de la distribución normal son estimados
por X y s de la muestra (p = 2 y gl = k - p - 1 = 8 – 2 – 1 = 5).

Entonces, los intervalos son:

5
(-¥, 4.948), [4.948, 4.986), [4.986, 5.0145), [5.0145, 5.04), [5.04, 5.0655),
[5.0655, 5.094), [5.094, 5.132), [5.132, ¥).

Luego los intervalos de clase conjuntamente con las frecuencias observadas y


frecuencias esperadas son las siguientes:

Frecuencia Frecuencia ( Oi  Ei )2
Intervalo de Clase
Observada Oi Esperada Ei Ei
X < 4.9480 12 12.5 0.02
4.9480 £ X < 14 12.5 0.18
4.9860
4.9860 £ X < 12 12.5 0.02
5.0145
5.0145 £ X < 13 12.5 0.02
5.0400
5.0400 £ X < 12 12.5 0.02
5.0655
5.0655 £ X < 11 12.5 0.18
5.0940
5.0940 £ X < 12 12.5 0.02
5.1320
5.1320 £ X 14 12.5 0.18
TOTAL 100 100 0.64

El procedimiento de prueba de hipótesis es el siguiente:

1. H0: Los datos se ajustan a una distribución normal con µ = 5.04 y s = 0.08
H1: Los datos no se ajustan una distribución normal con µ = 5.04 y s = 0.08
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y gl = 8 – 2 – 1 = 5 ®  0.95 ,5 = 11.0705
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 11.0705 (  1 ,k  p 1   0.95 ,5 = 11.0705)
2 2

(b) Rechazar H0 si  02 > 11.0705 (  1 ,k  p 1   0.95 ,5 = 11.0705)


2 2

2. Muestra aleatoria: n = 100, X = 5.04 y s = 0.08.


k
( Oi  Ei )2
 02    0.64
i 1 Ei

3.  02 = 0.64 <  1 ,k  p 1   0.95 ,9 = 11.0705 ® Cae en la región de aceptación,


2 2

por tanto se acepta H0 con a = 0.05.

6
4. CONCLUSIÓN: La distribución normal con µ = 5.04 y s = 0.08 es un buen
modelo para describir los datos. En consecuencia hay evidencia para creer
que el voltaje de salida se distribuye normalmente, con a = 0.05.

Ejemplo 4.- (Una distribución completamente especificada) Entre 100 tubos al


vacío usados en un experimento, 46 tienen una vida útil de menos de 20 horas;
19 tiene una vida útil entre 20 horas y menos de 40; 17 tienen una vida útil entre
40 horas y menos de 60; 12 de ellos tienen una vida útil que fluctúa entre 60 y
80 horas y 6 tienen una vida útil de 80 horas o más. Probar con un nivel de
significación de 0.01 si las vidas útiles pueden considerarse como una muestra
de una población exponencial con µ = 40 horas.

Los intervalos de clase conjuntamente con las frecuencias observadas y


frecuencias esperadas son las siguientes:
Intervalo de Frecuencia Probabilidad Frecuencia ( Oi  Ei )2
Clase Observada Oi Exponencial pi Esperada Ei Ei
X < 20 46 0.3935 39.35 1.1238
20 £ X < 40 19 0.2387 23.87 0.9936
40 £ X < 60 17 0.1447 14.47 0.4424
60 £ X < 80 12 0.0878 8.78 1.1809
80 £ X 6 0.1353 13.53 4.1908
TOTAL 100 100 7.9315
Las frecuencias esperadas pueden hallarse sin que sea necesario estimar
parámetro alguno a partir de los datos de la muestra (p = 0), entonces la prueba
ji-cuadrado de bondad de ajuste tiene k - p - 1 = 5 – 0 – 1 = 4 grados de libertad.

1. H0: Los datos se ajustan a una distribución exponencial con µ = 40


H1: Los datos no se ajustan una distribución exponencial con µ = 40
2. Nivel de significación a = 0.01 (1%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.01, prueba de cola derecha y gl = 5 – 0 – 1 = 4 ®  0.99 ,4 = 13.2767
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 13.2767 (  1 ,k  p 1   0.99 ,4 = 13.2767)
2 2

(b) Rechazar H0 si  02 > 13.2767 (  1 ,k  p 1   0.99 ,4 = 13.2767)


2 2

5. Muestra aleatoria: n = 100.


k
( Oi  Ei )2
 02    7.9315
i 1 Ei

6.  02 = 7.9315 <  1 ,k  p 1   0.99 ,4 = 13.2767 ® Cae en la región de


2 2

aceptación, por tanto se acepta H0 con a = 0.01.

7
7. CONCLUSIÓN: Las vidas útiles pueden considerarse como una muestra de una
población exponencial con µ = 40 horas, con a = 0.01.

Ejemplo 5.- (Una distribución completamente especificada) GESA ha


establecido que los egresados universitarios que solicitan trabajo sean
entrevistados por tres ejecutivos diferentes. Esto permite a la compañía obtener
una evaluación consensual de los candidatos. Cada ejecutivo califica al
candidato en forma positiva o negativa. En la tabla se muestran los resultados de
las entrevistas de los últimos 100 candidatos.
Con el fin de planificar su fuerza de trabajo el gerente de personal de la empresa,
piensa que el proceso de entrevistas puede ser aproximado a una distribución
binomial con p = 0.40, es decir, con una posibilidad de 40% de que cualquier
candidato obtenga una calificación positiva en cualquiera de las entrevistas. Si el
gerente de personal desea probar está hipótesis con un nivel de significación de
0.10, ¿de qué manera deberá de proceder?
Posibles Nº candidatos que Probabilidad ( Oi  Ei )2
Frecuencia
calificaciones + obtienen c/u de las binomial de
esperada Ei Ei
en 3 entrevistas calificaciones Oi c/resultado pi
0 18 0.216 21.6 0.6000
1 47 0.432 43.2 0.3343
2 24 0.288 28.8 0.8000
3 11 0.064 6.4 3.3063
TOTAL 100 100 5.0406
Las frecuencias esperadas se hallan sin estimar parámetro alguno a partir de los
datos muestrales (p = 0), entonces la prueba ji-cuadrado de bondad de ajuste
tiene k - p - 1 = 4 – 0 – 1 = 3 grados de libertad.

1. H0: Los datos se ajustan a una distribución binomial con p = 0.40


H1: Los datos no se ajustan una distribución binomial con p = 0.40
2. Nivel de significación a = 0.10 (10%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.10, prueba de cola derecha y gl = 4 – 0 – 1 = 3 ®  0.90 ,3 = 6.2514
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 6.2514 (  1 ,k  p 1   0.90 ,3 = 6.2514)
2 2

(b) Rechazar H0 si  02 > 6.2514 (  1 ,k  p 1   0.90 ,3 = 6.2514)


2 2

2. Muestra aleatoria: n = 100.


k
( Oi  Ei )2
 02    5.0406
i 1 Ei

3.  02 = 5.0406 <  1 ,k  p 1   0.90 ,3 = 6.2514 ® Cae en la región de aceptación,


2 2

por tanto se acepta H0 con a = 0.10.


8
4. CONCLUSIÓN: La distribución binomial con p = 0.40 provee una buena
descripción de las frecuencias observadas, con a = 0.10.
6.3. Prueba de independencia
En el caso de las pruebas de bondad de ajuste, existe sólo una variable
categórica y por tanto las frecuencias observadas puede disponerse en una fila o
en una columna de categorías y lo que se prueba es el patrón hipotético de las
frecuencias.

Las pruebas de independencia implican dos variables categóricas y lo que se


prueba es la suposición de que las dos variables son estadísticamente
independientes

Otra forma de expresar el hecho de que dos variables son independientes es


diciendo que no se afectan entre si; esto es que no están relacionadas o
asociadas.

Para todas las pruebas de independencia, las hipótesis son:


H0: Las dos variables categóricas son independientes
H1: Las dos variables categóricas son dependientes

TABLA DE CONTINGENCIA: Es una tabla que clasifica datos de acuerdo a dos o


más categorías, relacionadas con cada una de dos variables categóricas, que
pueden ser o no estadísticamente independientes. Dicha tabla muestra todas las
posibles combinaciones de categorías o contingencias, que explican su nombre.

Una tabla de contingencias I ´ J indica que las frecuencias observadas ocupan I


renglones o filas y J columnas, esta tabla se puede representar de la siguiente
manera:

Y Y1 Y2 ..... Yj ..... YJ TOTAL


X
X1 O11 O12 ..... O1 j ..... O1 J OX 1
X2 O21 O22 ..... O2 j ..... O2 J OX 2
: : : : : :
: : : : : :
Xi Oi 1 Oi 2 ..... Oij ..... OiJ OX i
: : : : : :
: : : : : :
XI OI 1 OI 2 ..... OIj ..... OIJ OX I
TOTAL OY1 OY2 OY j OYJ n

9
I J
Donde: n =  O X i   OY j
i 1 j 1

La frecuencia esperada para una celda determinada se calcula mediante la


siguiente fórmula (si H0 es verdadera):
O X i  OY j
Eij 
n

donde: O X i = frecuencia total de un renglón o fila determinada i


O X j = frecuencia total de una columna determinada j
Eij = frecuencia esperada de la celda ij

El número de grados de libertad (gl) en una prueba de independencia es:

gl  ( I  1 )  ( J  1 )
I = Nº de filas o renglones
J = Nº de columnas

Ejemplo 6.- Una agencia de publicidad investiga si el sexo de los consumidores


es independiente de sus preferencias de cuatro marcas de café. La respuesta
determinará si deben crearse diferentes anuncios para revistas de hombres y de
mujeres. Se efectúa una prueba de independencia con un nivel de significación
del 5% usando una muestra aleatoria de 100 personas. Se registraron los
siguientes datos:

SEXO Y1 A Y2 B Y3 C Y4 D TOTAL
X1 MASCULINO 18 (30) 25 (18) 15 (9.6) 2 (2.4) 60 O X 1

X2 FEMENINO 32 (20) 5 (12) 1 (6.4) 2 (1.6) 40 O X 2


TOTAL 50 OY 30 OY 16 OY 4 OY
1 2 3 4 100 n

Para evitar frecuencias esperadas ( Eij ) menores de 5, se deben combinar dos de


las columnas de preferencia de marca, como indica la siguiente tabla:

MARCA PREFERIDA
SEXO Y1 A Y2 B Y3 C+D TOTAL
X1 MASCULINO 18 (30) 25 (18) 17 (12) 60 O X 1

X2 FEMENINO 32 (20) 5 (12) 3 (8) 40 O X 2


TOTAL 50 OY 30 OY
1 20 OY 2 3 100 n

10
Por lo tanto, 2 sexos y 3 marcas (A, B y C+D) hacen una tabla de 2´3.
Luego, el número de grados de libertad es: gl =(I-1)´(J-1)=(2-1)´(3-1) = 2

CELDA ( Oij  Eij )2


Oij Eij
ij Eij
11 18 30 4.8000
12 25 18 2.7222
13 17 12 2.0833
21 32 20 7.2000
22 5 12 4.0833
23 3 8 3.1250
TOTAL 100 100  0 = 24.0138
2

1. H0: El sexo y la marca de preferencia son variables independientes


H1: El sexo y la marca de preferencia son variables dependientes
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y 2 gl ®  0.95 ,2 = 5.9915
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 5.9915 ( 1 ,( I 1)( J 1)   0.95, 2 = 5.9915)
2 2

(b) Rechazar H0 si  02 > 5.9915 ( 1 ,( I 1)( J 1)   0.95, 2 = 5.9915)


2 2

5. Muestra aleatoria: n = 100.


I J ( Oij  Eij )2
 02     24.0138
i 1 j 1 Eij

6.  02 = 24.0138 > 1 ,( I 1)( J 1)   0.95, 2 = 5.9915 ® Cae en la región de


2 2

rechazo, por tanto se rechaza H0 y se acepta H1 con a = 0.05.


7. CONCLUSIÓN: El sexo y la preferencia de marca de café son variables
estadísticamente dependientes. Entonces, deben crearse diferentes anuncios
para revistas de hombres y de mujeres, con a = 0.05.

Ejemplo 7.- El director de la escuela de postgrado de una universidad desea


determinar si existe o no una relación entre la especialidad de pregrado de un
11
estudiante y su intención de asistir a cursos de postgrado. La tabla siguiente
muestra los resultados de una encuesta hecha a 110 estudiantes.

INTENCIÓN DE ASISTIR A CURSOS POSTGRADO


ESPECIALIDAD Si No Inseguro T OTAL
Matemáticas 3 4 4 11
Computación 12 10 15 37
Contabilidad 3 2 5 10
Economía 6 3 5 14
Educación 14 5 5 24
Electrónica 2 1 2 5
Otras 3 2 4 9
T OTAL 43 27 40 110

Con un nivel de significación de 5% ¿qué se puede inferir?


Oij
La siguiente tabla de contingencia muestra las frecuencias observadas y las
frecuencias esperadas Eij
INTENCIÓN DE ASISTIR A CURSOS POSTGRADO
ESPECIALIDAD Si No Inseguro T OTAL
Matemáticas 3 (4.3) 4 (2.7) 4 (4.0) 11
Computación 12 (14.46) 10 (9.08) 15 (13.45) 37
Contabilidad 3 (3.91) 2 (2.45) 5 (3.64) 10
Economía 6 (5.47) 3 (3.44) 5 (5.09) 14
Educación 14 (9.38) 5 (5.89) 5 (8.73) 24
Electrónica 2 (1.95) 1 (1.23) 2 (1.82) 5
Otras 3 (3.52) 2 (2.21) 4 (3.27) 9
T OTAL 43 27 40 n = 110

Dado que varias celdas en esta tabla de contingencia de 73 tienen frecuencias
esperadas menores que 5, las diversas especialidades se reducirán a 3 categorías.
Computación, Educación y Otras. Luego la tabla de contingencia rectificada es:

INTENCIÓN DE ASISTIR A CURSOS POSTGRADO


ESPECIALIDAD Si No Inseguro T OTAL
Computación 12 (14.46) 10 (9.08) 15 (13.45) 37
Educación 14 (9.38) 5 (5.89) 5 (8.73) 24
Otras 17 (19.15) 12 (12.03) 20 (17.82) 49
T OTAL 43 27 40 n = 110

1. H0: La especialidad de pregrado y la intención de asistencia a cursos de


postgrado son variables independientes, es decir no existe relación entre
ellas
12
H1: La especialidad de pregrado y la intención de asistencia a cursos de
postgrado son variables dependientes, es decir existe relación entre ellas
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y gl = (31)  (31) = 4
®  0.95 ,4 = 9.4877
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 9.4877 ( 1 ,( I 1)( J 1)   0.95, 4 = 9.4877)
2 2

(b) Rechazar H0 si  02 > 9.4877 ( 1 ,( I 1)( J 1)   0.95, 4 = 9.4877)


2 2

5. Muestra aleatoria: n = 110.


CELDA ( Oij  Eij )2
Oij Eij
ij Eij
11 12 14.46 0.4185
12 10 9.08 0.0932
13 15 13.45 0.1786
21 14 9.38 2.2755
22 5 5.89 0.1345
23 5 8.73 1.5937
31 17 19.16 0.2435
32 12 12.03 0.0001
33 20 17.82 0.2667
TOTAL 110 110  0 = 5.2043
2

I J ( Oij  Eij )2
  
2
0  5.2043
i 1 j 1 Eij

6.  02 = 5.2043 < 1 ,( I 1)( J 1)   0.95, 4 = 9.4877 ® Cae en la región de


2 2

aceptación, por tanto se acepta H0 con a = 0.05.


7. CONCLUSIÓN: La especialidad de pregrado y la intención de asistir a cursos
de postgrado son variables independientes, es decir, no existe relación entre
ellas, con a = 0.05.

6.4. Prueba de homogeneidad


La prueba ji-cuadrado se utiliza también para contrastar la homogeneidad de
varias muestras, es decir, si varias muestras pueden ser consideradas como
seleccionadas de una misma población.

13
Entonces, con la prueba de homogeneidad de muestras se busca determinar si
dos o más muestras independientes provienen de una misma población.

Como en el caso anterior, para esta prueba los datos muestrales se registran las
celdas de una tabla de contingencias de orden I  J.

Para la pruebas de homogeneidad, las hipótesis son:


H0: Las muestras aleatorias provienen de una misma población (o las muestras
son homogéneas)
H1: Las muestras aleatorias no provienen de una misma población (o las
muestras no son homogéneas)

Ejemplo 8.- El departamento médico de una universidad estudia el nivel de


efectividad de tres remedios para la alergia: R 1, R2 y R3. Cada remedio se
suministró a 60 alumnos. Los resultados del experimento se dan en la tabla
siguiente:

EFECTIVIDA REMEDIOS PARA LA ALERGIA


D R1 R2 R3
Sin alivio 10 20 15
Cierto alivio 40 30 20
Alivio total 10 10 25

¿Podemos concluir al nivel de significación 0.01, que los tres remedios para la
alergia son igualmente efectivos?

Oij
La siguiente tabla de contingencia muestra las frecuencias observadas y las
frecuencias esperadas Eij

REMEDIOS PARA LA ALERGIA


EFECTIVIDAD
R1 R2 R3 TOTAL
Sin alivio 10 (15) 20 (15) 15 (15) 45
Cierto alivio 40 (30) 30 (30) 20 (30) 90
Alivio total 10 (15) 10 (15) 25 (15) 45
TOTAL 60 60 60 180

1. H0: Los tres remedios para la alergia, R1, R2 y R3 son igualmente efectivos
H1: Los tres remedios para la alergia, R1, R2 y R3 no son igualmente efectivos
2. Nivel de significación a = 0.01 (1%)
3. Distribución muestral c2 y estadístico de prueba  02
14
4. Para a = 0.01, prueba de cola derecha y gl = (31)  (31) = 4
®  0.99 ,4 = 13.2767
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 13.2767 ( 1 ,( I 1)( J 1)   0.99, 4 = 13.2767)
2 2

(b) Rechazar H0 si  02 > 13.2767 ( 1 ,( I 1)( J 1)   0.99, 4 = 13.2767)


2 2

5. Muestra aleatoria: n = 180.


CELDA ( Oij  Eij )2
Oij Eij
ij Eij
11 10 15 1.6667
12 20 15 1.6667
13 15 15 0.0000
21 40 30 3.3333
22 30 30 0.0000
23 20 30 3.3333
31 10 15 1.6667
32 10 15 1.6667
33 25 15 6.6667
TOTAL 180 180  0 = 20.0001
2

I J ( Oij  Eij )2
 02     20.0001
i 1 j 1 Eij

6.  02 = 20.0001 > 1 ,( I 1)( J 1)   0.99, 4 = 13.2767 ® Cae en la región de


2 2

rechazo, por tanto se rechaza H0 y se acepta H1 con a = 0.01.


7. CONCLUSIÓN: Los tres remedios para la alergia, R1, R2 y R3 no son
igualmente efectivos, con a = 0.01.

6.5. Prueba para más de dos proporciones


Un caso particular de la prueba de homogeneidad de muestras, es la prueba de la
hipótesis nula que establece que los k (k > 2) parámetros binomiales (o
porcentajes de éxitos poblacionales) tienen el mismo valor.

En esta parte nos interesa poner a prueba la hipótesis nula de la forma

H0: 1 = 2 = 3 =...... = k
15
donde k > 2 y j representa la proporción de éxitos en la j-ésima población
binomial. Para cada hipótesis nula, la hipótesis alternativa es

H1: Al menos dos proporciones poblacionales son distintas

Las dos variables de clasificación para problemas de este tipo son la categoría
del resultado, éxito o fracaso, y el número de la muestra (con k niveles). La tabla
de contingencia 2  J toma la siguiente forma:

MUESTRA MUESTRA MUESTRA ............ MUESTRA


1 2 3 k
ÉXITO
FRACASO

Ejemplo 9.- En una fábrica de confecciones textiles que opera en tres turnos;
mañana, tarde y noche, el jefe de control de calidad, quiere saber si hay
diferencias en la calidad de las confecciones en los tres turnos. Para esto tomó
una muestra aleatoria de 100 confecciones de cada turno del día anterior y las
clasificó según el turno de su producción y según su calidad en defectuoso o no
defectuoso. Los resultados se dan en la siguiente tabla:

TURNOS
EFECTIVIDAD
Mañana Tarde Noche TOTAL
Defectuoso 3 (10) 12 (10) 15 (10) 30
No defectuoso 97 (90) 88 (90) 85 (90) 270
TOTAL 100 100 100 300

¿Podemos concluir al nivel de significación del 5%, que la proporción de todas


las confecciones defectuosas es la misma para todos los turnos?

1. H0: 1 = 2 = 3
H1: Al menos dos proporciones poblacionales son distintas
2. Nivel de significación a = 0.05 (5%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.05, prueba de cola derecha y gl = (21)  (31) = 2
®  0.95 ,2 = 5.9915
2

REGLA DE DECISIÓN:
(a) Aceptar H0 si  02 < 5.9915 ( 1 ,( I 1)( J 1)   0.95, 2 = 5.9915)
2 2

(b) Rechazar H0 si  02 > 5.9915 ( 1 ,( I 1)( J 1)   0.95, 2 = 5.9915)


2 2

5. Muestra aleatoria: n = 300.

16
CELDA ( Oij  Eij )2
Oij Eij
ij Eij
11 3 10 4.9000
12 12 10 0.4000
13 15 10 2.5000
21 97 90 0.5444
22 88 90 0.0444
23 85 90 0.2778
TOTAL 300 300  0 = 8.6667
2

2 J ( Oij  Eij )2
 02     8.6667
i 1 j 1 Eij

6.  02 = 8.6667 > 1 ,( I 1)( J 1)   0.95, 2 = 5.9915® Cae en la región de rechazo,
2 2

por tanto se rechaza H0 y se acepta H1 con a = 0.05.


7. CONCLUSIÓN: La proporción de todas las confecciones defectuosas no es la
misma para todos los turnos, con a = 0.05.

Ejemplo 10.- La gerencia de una empresa ensambladora de televisores está


interesada en probar la hipótesis de que la proporción de unidades defectuosas
producidas (que ha sido 0.05 en el pasado) sería la misma para cada una de las
seis posibles velocidades de la línea de producción. Realizar una prueba en el
nivel de significación del 1%, tomando seis muestras de 100 televisores, cada
una, en tanto que se mantienen velocidades diferentes en las líneas de
producción. Los datos registrados fueron los siguientes:

VELOCIDAD EN LA LÍNEA DE PRODUCCIÓN (unidades/hora)


CALIDAD DEL
A = 60 B = 70 C = 80 D = 90 E = 100 F = 110 T OT A L
P RO DU C T O
Defectuoso 6 (5) 4 (5) 5 (5) 5 (5) 6 (5) 4 (5) 30
Aceptable 94 (95) 96 (95) 95 (95) 95 (95) 94 (95) 96 (95) 570
T OT AL 100 100 100 100 100 100 600

1. H0: 1 = 2 = 3= 4 = 5 = 6
H1: Al menos dos de las pj son s
2. Nivel de significación  = 0.01 (1%)
3. Distribución muestral c2 y estadístico de prueba  02
4. Para a = 0.01, prueba de cola derecha y gl = (21)  (61) = 5
®  0.99 ,5 = 15.0863
2

REGLA DE DESICIÓN:
17
(a) Aceptar H0 si  02 < 15.0863 ( 1 ,( I 1)( J 1)   0.99,5 = 15.0863)
2 2

(b) Rechazar H0 si  02 > 15.0863 ( 1 ,( I 1)( J 1)   0.99,5 = 15.0863)


2 2

5. Muestra aleatoria. n = 600

CELDA ( Oij  Eij )2


Oij Eij
ij Eij
11 6 5 0.2000
12 4 5 0.2000
13 5 5 0.0000
14 5 5 0.0000
15 6 5 0.2000
16 4 5 0.2000
21 94 95 0.0105
22 96 95 0.0105
23 95 95 0.0000
24 95 95 0.0000
25 94 95 0.0105
26 96 95 0.0105
TOTAL 600 600  0 = 0.8200
2

2 J ( Oij  Eij )2
 02     0.82
i 1 j 1 Eij

6.  02 = 0.82 < 1 ,( I 1)( J 1)   0.99 ,5 = 15.0863 ® Cae en la región de


2 2

aceptación, por tanto se acepta H1 con a = 0.01.


7. CONCLUSIÓN: La proporción de la población de aparatos defectuosos es la
misma para cada una de las velocidades probadas en la línea de producción,
con a = 0.01.

18

S-ar putea să vă placă și