Sunteți pe pagina 1din 24

1

Unidad I
Inferencias acerca de los parámetros de dos poblaciones
1. INTRODUCCIÓN
Con frecuencia un analista buscará obtener conclusiones acerca de los parámetros de dos
poblaciones.
Por ejemplo, un investigador de mercados puede estar interesado en comparar los ingresos
medios de las familias de dos ciudades para determinar en cuál de ellas se instalará una nueva
sucursal de un supermercado.
En otro caso, el administrador de una gran cadena de cines puede estar interesado en comparar
la proporción del ingreso gastada en esparcimiento por las familias de dos ciudades para saber
en cuál de ellas instalará un nuevo cine de la cadena.
Finalmente, el gerente de producción de una fábrica puede estar interesado en comparar, a
partir de sus respectivas varianzas, la variabilidad de dos procesos de producción para quedarse
con aquel que presenta menos variabilidad respecto de cierta variable crítica.
Se podría seguir dando muchos más ejemplos en los cuales el objetivo sea comparar parámetros
de dos poblaciones.
En esta unidad nos ocuparemos de comparar las medias, las proporciones y las varianzas de dos
poblaciones analizando los distintos casos que puedan presentarse.
En unidades posteriores estudiaremos técnicas para comparar las medias, las proporciones y las
varianzas de más de dos poblaciones.
2. INFERENCIAS ACERCA DE LAS MEDIAS DE DOS POBLACIONES
Como se ha dicho más arriba, en ocasiones el interés de un investigador puede estar dirigido a
comparar las medias de dos poblaciones.
Tal comparación se puede hacer a partir de la diferencia 𝜇1 − 𝜇2 donde 𝜇1 es la media de una
de las poblaciones y 𝜇2 es la media de la otra población.
Pueden presentarse los siguientes casos:
 Que la diferencia sea mayor a cero. En este caso, la media de la primera población es
mayor que la media de la segunda.
 Que la diferencia sea igual a cero. En este caso las medias de las dos poblaciones son
iguales.
 Que la diferencia sea negativa. En este caso la media de la segunda población será mayor
que la de la primera.
Cuando buscábamos obtener conclusiones acerca de la media de una sola población, y dado que
en general este parámetro es desconocido, lo hicimos a partir de la media muestral 𝑋̅. Para ello
fue necesario estudiar las propiedades estadísticas de dicha variable. Cuando se trata de obtener
conclusiones acerca de la diferencia 𝜇1 − 𝜇2 , como estos parámetros son en general
desconocidos, lo haremos a partir de una nueva variable aleatoria 𝑋̅1 − 𝑋̅2 , diferencia de medias
muestrales cuyas propiedades estadísticas damos a continuación.
Teorema 1. Suponga que de una población 𝑋1 con media 𝜇1 y varianza 𝜎12 conocida se toman
muestras de tamaño 𝑛1 , y que de otra población 𝑋2 con media 𝜇2 y varianza 𝜎22 también
conocida se toman muestras de tamaño 𝑛2 , si las poblaciones son independientes (no
relacionadas) entonces la variable aleatoria 𝑋̅1 − 𝑋̅2 tiene las siguientes propiedades:
2

𝐸(𝑋̅1 − 𝑋̅2 ) = 𝜇1 − 𝜇2
𝜎12 𝜎22
𝜎(𝑋̅1 −𝑋̅2 ) = √ +
𝑛1 𝑛2

Además, si las poblaciones de las cuales se toman las muestras tienen distribución normal
entonces 𝑋̅1 − 𝑋̅2 también tiene distribución normal de probabilidades.
Por lo tanto, la variable aleatoria
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝑍= ~𝑁(0, 1)
𝜎 2
𝜎 2
√ 1+ 2
𝑛1 𝑛2

Es decir, tiene distribución normal estándar.


Ejemplo 1. De una población con distribución normal 𝑋1 con media 𝜇1 = 106 y varianza 𝜎12 =
204 se toman muestras de tamaño 𝑛1 = 40. De otra población también con distribución normal
𝑋2 con media 𝜇2 = 95 y varianza 𝜎22 = 350 se toman muestras de tamaño 𝑛2 = 35. Suponga
que las poblaciones son independientes calcule
a) Pr[(𝑋̅1 − 𝑋̅2 ) > 18]
b) Pr[8 < (𝑋̅1 − 𝑋̅2 ) < 20]
Solución
a) Se busca calcular Pr[(𝑋̅1 − 𝑋̅2 ) > 18] = 1 − Pr[(𝑋̅1 − 𝑋̅2 ) ≤ 18] .
Para poder hallar esta probabilidad hay que estandarizar el valor 18.
18−(106−95)
Este proceso se realiza de la siguiente manera: 𝑧 = 204 350
= 1,80
√ +
40 35

Por lo tanto
1 − Pr[(𝑋̅1 − 𝑋̅2 ) ≤ 18] = 1 − Pr(𝑍 ≤ 1,80) = 1 − 0,96407 = 0,03593
El punto b) queda como tarea para el estudiante.
Observación. El teorema anterior sigue siendo válido aún si las poblaciones no tienen
distribución normal paro los tamaños de las muestras son grandes, mayores o iguales a 30. Esto
es una consecuencia del Teorema del Límite Central.
Además, también es posible demostrar que cuando no se conocen las varianzas poblacionales y
son reemplazadas por las varianzas muestrales calculadas para muestras mayores o iguales a 30,
la variable aleatoria
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )

𝑆 2
𝑆 2
√ 1+ 2
𝑛1 𝑛2

tiene distribución aproximadamente normal estándar.


Eso se debe a que, para estos tamaños de muestras, las varianzas muestrales son una buena
aproximación de las poblacionales.
Hemos dicho que para que sea posible el cálculo de probabilidades de acuerdo con el teorema
anterior es necesario que las varianzas poblacionales sean conocidas, o si no lo son, que los
tamaños muestrales sean mayores o iguales a 30 con el fin de reemplazar las varianzas
poblacionales por las muestrales.
¿Qué sucede cuando no se conocen las varianzas de las poblaciones y no es posible la toma de
muestras grandes?
3

Cuando se da esta situación y las poblaciones tienen distribución normal, la diferencia de medias
muestrales se analiza utilizando la distribución t se Student. Damos a continuación una
propiedad que ilustra este caso.
Teorema 2. Suponga que de una población con distribución normal 𝑋1 , media 𝜇1 y varianza 𝜎12
desconocida se toman muestras de tamaño 𝑛1 y que de otra población 𝑋2 también con
distribución normal, media 𝜇2 y varianza 𝜎22 desconocida se toman muestras de tamaño 𝑛2 . Si
las poblaciones son independientes y las varianzas, aunque desconocidas son iguales, es decir
𝜎12 = 𝜎22 = 𝜎, la variable aleatoria
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝑇= 1 1
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

tiene distribución t de Student con 𝑛1 + 𝑛2 − 2 grados de libertad. En esta última expresión, 𝑆12
(𝑛1 −1)𝑆12 +(𝑛2 −1)𝑆22
y 𝑆22 son las varianzas muestrales y 𝑆𝑝2 = 𝑛1 +𝑛2 −2
.

La variable aleatoria 𝑆𝑝2 recibe el nombre de varianza ponderada y es una estimación de la


varianza poblacional común desconocida.
Ejemplo 2. Dos grupos de trabajadores realizan un test consistente en la medición de tiempo
que necesitó cada uno de los grupos en llevar adelante una tarea específica. Los tiempos, en
minutos, que tardaron los trabajadores en realizarla se muestran en la tabla 1.
a) Halle la diferencia de tiempos promedios de los dos grupos.
b) Suponga que los tiempos promedios poblacionales de los dos grupos son iguales. Halle
la probabilidad de obtener una diferencia mayor o
igual a 𝑥̅2 − 𝑥̅1 .
c) ¿Qué suposiciones hay que realizar para poder responder el punto b)?
Solución
A partir de los datos suministrados por la tabla 1 calculamos las medias y las varianzas
muestrales para cada grupo. Estos valores se dan a continuación.
Grupo 1 Grupo 2
15,3 21,2
18,7 22,4
22,3 18,3
17,6 19,3
19,1 17,1
14,8 27,7
Tabla 1
𝑥̅1 = 17,96 𝑥̅2 = 21
Grupo 1 { 2 Grupo 2 { 2
𝑠1 = 7,56 𝑠2 = 14,46
Se debe suponer que 𝜎12 = 𝜎22 = 𝜎 y que las poblaciones tienen distribución normal para poder
contestar lo solicitado.
La diferencia de medias muestrales es 𝑥̅2 − 𝑥̅1 = 21 − 17,96 = 3,04.
Se supone además que las medias poblacionales son iguales, es decir 𝜇1 = 𝜇2 . Se pide calcular
Pr[(𝑋̅2 − 𝑋̅1 ) ≥ 3,04] = 1 − Pr[(𝑋̅2 − 𝑋̅1 ) < 3,04].
Para ello hay que transformar a la distribución t de Student el valor de la diferencia 3,04
5×7,56+5×14,46
La estimación de la varianza común es 𝑠𝑝2 = 12−2
= 11,01 luego, el error estándar vale
4

1 1
𝑠(𝑋̅2 −𝑋̅1 ) = √11,01 (6 + 6) = 1,91
3,04
Por lo tanto 𝑡 = 1,91 = 1,59. Por lo tanto

1 − Pr[(𝑋̅2 − 𝑋̅1 ) < 3,04] = 1 − Pr(𝑇 < 1,59) = 1 − 0,925 = 0,075


Observación. Cuando no puede sostenerse la hipótesis de igualdad de varianzas, las poblaciones
tienen distribución normal y las muestras son menores a 30, es posible demostrar que la variable
aleatoria
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝑇=
√𝑠12 ⁄𝑛1 +𝑠22 ⁄𝑛2

2
𝑆2 𝑆2
(𝑛1 +𝑛2 )
1 2
tiene distribución t con 𝜐 = 2 2 − 2 grados de libertad.
𝑆2 𝑆2
( 1) ( 2)
𝑛1 𝑛2
+
𝑛1 +1 𝑛2 +1

Es importante aclarar que 𝑇 → 𝑁(0, 1) a medida que los tamaños de las muestras aumentan tal
como lo hemos dicho anteriormente.
Intervalos de confianza para la diferencia 𝝁𝟏 − 𝝁𝟐
Hemos dicho en la introducción que en muchas situaciones prácticas es de interés obtener
estimaciones de la diferencia de las medias de dos poblacionales 𝜇1 − 𝜇2 .
Como se sabe, la estimación puede ser puntual o bien mediante la construcción de un intervalo
de confianza.
A continuación, veremos cómo construir un intervalo de confianza para esta diferencia. Ante
esta situación hay que distinguir por lo menos dos casos:
 Cuando las varianzas de las poblaciones son conocidas.
 Cuando las varianzas de las poblaciones son desconocidas.
Habrá también que analizar en cada caso la distribución de probabilidad de las poblaciones.
Hemos dicho que cuando tenemos dos poblaciones con distribución normal y varianzas
conocidas, la variable aleatoria
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝑍=
𝜎 2𝜎 2
√ 1+ 2
𝑛1 𝑛2

tiene distribución normal estándar.


Esto nos permite escribir e interpretar el siguiente enunciado de probabilidad:

(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )


Pr −𝑧 ≤ ≤ 𝑧 =1−𝛼
𝜎2 𝜎2
√ 1+ 2
[ 𝑛1 𝑛2
]
Donde z y –z quedan definidos por 1 − 𝛼.
Trabajando algebraicamente esta última expresión, y por un razonamiento similar al empleado
para una sola media, llegamos a la siguiente expresión para un intervalo de confianza del
(1 − 𝛼)100% para la diferencia entre las medias de dos poblaciones.
5

𝜎2 𝜎2 𝜎2 𝜎2
𝐶 [(𝑥̅1 − 𝑥̅2 ) − 𝑧√𝑛1 + 𝑛2 ≤ (𝜇1 − 𝜇2 ) ≤ (𝑥̅1 − 𝑥̅2 ) + 𝑧√𝑛1 + 𝑛2 ] = 1 − 𝛼
1 2 1 2

O de forma abreviada
𝜎12 𝜎2
(𝑥̅1 − 𝑥̅2 ) ± 𝑧√
𝑛1
+ 𝑛2
2

Usualmente la diferencia de los parámetros se toma en el orden tal que la misma sea positiva.
Observación. Es importante destacar que las dos expresiones anteriores siguen siendo válidas
para estimar la diferencia de medias aun cuando las poblaciones no tengan distribución normal
paro los tamaños de las muestras sean mayores o iguales a 30.
Además, se pueden utilizar las varianzas muestrales para estimar las varianzas poblacionales
cuando se desconocen estos parámetros siempre y cuando las muestras sean grandes. Bajo
estas condiciones, la expresión general para un intervalo de confianza para la diferencia de dos
medias poblacionales es la siguiente:
𝑠2 𝑠2
(𝑥̅1 − 𝑥̅2 ) ± 𝑧√𝑛1 + 𝑛2
1 2

Ejemplo 3. Suponga que se quiera medir la diferencia entre el rendimiento de dos categorías de
empleados en la actividad de seguros. Una categoría está formada por productores con título
superior y otra por productores con título secundario. Se toma una muestra de 45 productores
entre los primeros y la media de las ventas, en miles de pesos fueron de 𝑥̅1 = 32. La media de
una muestra de 60 productores con estudios secundarios fue 𝑥̅2 = 25. Suponga además que las
varianzas poblacionales valen 𝜎12 = 48 para los productores con título superior y 𝜎22 = 56 para
los productores con título secundario.
a) Calcule e interprete un intervalo del 90% para la diferencia entre las medias
poblacionales.
b) De acuerdo con el intervalo hallado, ¿hay evidencias de que las ventas medias de los dos
grupos son iguales?
Solución
Los datos para este ejemplo son los siguientes
Para los productores con título superior 𝑥̅1 = 32 y 𝜎12 = 48. La muestra con la que se calculó la
media muestral es de tamaño 45, es decir 𝑛1 = 45.
Para los productores con título secundario se tomó una muestra de tamaño 𝑛2 = 60 y se obtuvo
a partir de ella 𝑥̅2 = 25 y se sabe que 𝜎22 = 56.
Comenzamos con el punto a)
𝜎2 𝜎2
La expresión general para el intervalo buscado es (𝑥̅1 − 𝑥̅2 ) ± 𝑧√𝑛1 + 𝑛2 .
1 2

Dado que 1 − 𝛼 = 0,90 se tiene que 𝑧 = ±1,645.


48 56
Por otro lado, el error estándar de la variable diferencia de medias muestrales vale √45 + 60 =
√2 = 1,4142, además 𝑥̅1 − 𝑥̅2 = 32 − 25 = 7.
Por lo tanto, el intervalo buscado es 7 ± 1,645(1,4142) cuya expresión explícita es
𝐶(4,67 ≤ 𝑥̅1 − 𝑥̅2 ≤ 9,32) = 0,90
Ahora continuamos con b)
6

De acuerdo con los valores de los límites inferior y superior del intervalo no existen evidencias
para considera 𝜇1 = 𝜇2 pues el intervalo hallado no contiene al caro.
¿Qué forma tiene el intervalo de confianza para la diferencia de medias poblacionales cuando
no se conocen las varianzas poblacionales y las poblaciones tienen distribución normal?
Cuando se da esta situación, las poblaciones de las cuales se toman las muestras tienen
distribución normal y las varianzas poblacionales desconocidas son iguales, hemos dicho que la
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
variable aleatoria 𝑇 = 1 1
tiene distribución 𝑡 con 𝑛1 + 𝑛2 − 2 grados de libertad.
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

Esto permite plantear el siguiente enunciado de probabilidad

(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )


Pr [−𝑡 ≤ 1 1
≤ 𝑡] = 1 − 𝛼
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

Luego de trabajar algebraicamente la expresión entre paréntesis se llega a la siguiente fórmula


para el intervalo de confianza buscado
1 1 1 1
𝐶 ⌈(𝑥̅1 − 𝑥̅2 ) − 𝑡√𝑠𝑝2 ( + ) ≤ (𝜇1 − 𝜇2 ) ≤ (𝑥̅1 − 𝑥̅2 ) + 𝑡√𝑠𝑝2 ( + )⌉ =1−𝛼
𝑛1 𝑛2 𝑛1 𝑛2

O, de manera abreviada
1 1
(𝑥̅1 − 𝑥̅2 ) ± 𝑡√𝑠𝑝2 ( + )
𝑛1 𝑛2

En estas fórmulas ±𝑡 es el valor de la variable correspondiente a la distribución t de Student


para 𝑛1 + 𝑛2 − 2 grados de libertad. Por otro lado 𝑠𝑝2 ya fue definido con anterioridad.
Ejemplo 4. Se registraron los tiempos, en minutos, que tardaron una muestra aleatoria de
hombres y mujeres en realizar cierta actividad en una empresa. Los resultados se muestran en
la tabla 2. Suponga que los tiempos para los dos grupos se distribuyen normalmente y que las
varianzas desconocidas son iguales.
a) Calcule e interprete un intervalo de confianza del 99% para la diferencia de medias
poblacionales.
b) De acuerdo con el intervalo hallado, ¿hay evidencias de que los tiempos promedios son
iguales?
Hombres Mujeres
𝑛1 = 14 𝑛2 = 25
𝑥̅1 = 17 𝑥̅2 = 19
𝑠12 = 1,5 𝑠22 = 1,8
Tabla 2
Solución
Respondemos en primer lugar el punto a)
La expresión que deberemos utilizar para la construcción del intervalo pedido es la siguiente:
1 1
(𝑥̅1 − 𝑥̅2 ) ± 𝑡√𝑠𝑝2 (𝑚 + 𝑛 )
1 2

Los grados de libertad correspondientes son 𝑔𝑙 = 25 + 14 − 2 = 37. Por otro lado


(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22 13×1,5+24×1,8
𝑠𝑝2 = 𝑛1 +𝑛2 −2
= 37
= 1,69
7

1 1 1 1
Por lo tanto 𝑠(𝑋̅1 −𝑋̅2 ) = √𝑠𝑝2 (𝑛 + 𝑛 ) = √1,69 (14 + 25) = 0,4339.
1 2

Como 1 − 𝛼 = 0,99 y los grados de libertad son 37, entonces 𝑡 = ±2,7142.


Luego, el intervalo buscado es (19 − 17) ± 2,7142(0,4339), o bien
𝐶[0,822 ≤ (𝑥̅1 − 𝑥̅2 ) ≤ 3,177] = 0,99
Respuesta ítem b). No hay evidencias estadísticas de que los tiempos promedios sean iguales
dado que los extremos del intervalo tienen el mismo signo.
Pruebas de hipótesis para la diferencia 𝝁𝟏 − 𝝁𝟐
Hemos estudiado hasta el momento como construir intervalos de confianza para la diferencia
de dos medias poblaciones.
Ahora vamos a plantearnos el problema de la verificación de hipótesis para la diferencia de estos
dos parámetros.
Como en las pruebas de hipótesis para una sola media, se pueden considerar pruebas bilaterales
y unilaterales. Además, se pueden presentar los siguientes casos:
 Cuando las muestras se toman de dos poblaciones con distribución normal y varianzas
conocidas.
 Cuando las muestras se toman de dos distribuciones normales y no se conocen las
varianzas.
 Cuando las muestras se toman de dos poblaciones sin distribución normal y las varianzas
poblacionales son desconocidas.
En cualquier caso, se pueden presentar las siguientes hipótesis
𝐻0 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
En este caso se trata de una prueba bilateral con regiones de rechazo en la cola superior e
inferior de la distribución de probabilidad del estadístico de prueba.
Otro caso que se puede presentar es el siguiente
𝐻0 : 𝜇1 − 𝜇2 ≥ 0
𝐻𝑎 : 𝜇1 − 𝜇2 < 0
Se trata de una prueba unilateral izquierda con región de rechazo en la cola inferior de la
distribución de probabilidad del estadístico de prueba.
Finalmente podemos considerar
𝐻0 : 𝜇1 − 𝜇2 ≤ 0
𝐻𝑎 : 𝜇1 − 𝜇2 > 0
En este caso se trata de una prueba unilateral derecha con región de rechazo en la cola superior
de la distribución del estadístico de prueba.
Poblaciones normales varianzas conocidas
En este caso, cualesquiera sean las hipótesis que probar, el estadístico de prueba es
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝐸𝑝 =
𝜎 2
𝜎 2
√ 1+ 2
𝑛1 𝑛2

que, como sabemos, tiene distribución normal estándar.


8

Para el primer test se rechaza la hipótesis nula si 𝐸𝑝 < −𝑧𝑐 o 𝐸𝑝 > 𝑧𝑐 siendo ±𝑧𝑐 los valores
críticos del estadístico de prueba determinados por el nivel de significación del test.
Si el test es unilateral izquierdo, rechazamos la hipótesis nula si 𝐸𝑝 < −𝑧𝑐 siendo – 𝑧𝑐 el valor
crítico del estadístico de prueba definido por 𝛼.
Por último, si la prueba es unilateral derecha, rechazamos la hipótesis nula cuando 𝐸𝑝 > 𝑧𝑐 .
Observación. Se puede utilizar el mismo procedimiento si no se conocen las distribuciones de
las poblaciones y las varianzas poblaciones son desconocidas pero las muestras son mayores a
iguales a 30. En este caso se utilizan las varianzas muestrales como aproximaciones de las
poblacionales. El estadístico de prueba es
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝐸𝑝 =
𝑆 2𝑆 2
√ 1+ 2
𝑛1 𝑛2

Como sabemos 𝐸𝑝 → 𝑁(0, 1). Además, esta aproximación será mejor a medida que aumente el
tamaño de la muestra.
Por último, para que las pruebas tengan validez, las poblaciones deben ser independientes.
Ejemplo 5. El gerente de operaciones de una fábrica de focos desea determinar si existen
diferencias entre la vida promedio de los focos fabricados en dos tipos de máquinas. La
desviación estándar de la máquina I es 110 horas y la de la máquina II es 250 horas. Una muestra
aleatoria de 25 focos obtenidos de la máquina I indica una media muestral de 375 horas y una
muestra similar de 25 focos de la máquina II indica una media muestral de 362 horas. Suponga
que las poblaciones de los tiempos de duración tienen distribución normal. Tome 𝛼 = 0,05.
Solución
Las variables a analizar son las siguientes:
𝑋1 = Duración de los focos producidos por la máquina I.
𝑋2 = Duración de los focos producidos por la máquina II.
Ambas variables tienen distribución normal y además se conocen sus respectivas desviaciones
estándar. En este caso tenemos 𝜎1 = 110 horas y 𝜎2 = 250 horas.
Por otro lado, para una muestra de tamaño 𝑛1 = 25 se tiene que 𝑥̅1 = 375 horas y, para otra
muestra de tamaño 𝑛2 = 25 se calcula 𝑥̅ = 362 horas.
Se busca probar si existen diferencias entre las vidas promedios de los focos producidos por las
dos máquinas.
Luego, las hipótesis a contrastar serán
𝐻0 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
(𝑋̅1 −𝑋̅2 )−0
Dadas las condiciones del problema el estadístico de prueba es 𝐸𝑝 = que, como
𝜎 2
𝜎 2
√ 1+ 2
𝑛1 𝑛2

sabemos, dadas los datos disponibles, tendrá distribución normal estándar.


Como 𝛼 = 0,05 los valores críticos del estadístico de prueba son 𝑧𝑐 = ±1,96. El valor calculado
del estadístico de este es
(375−362)−0
𝐸𝑝 = 2 2
= 0,237
√110 +250
25 25
9

Como resulta que −1,96 < 0,237 < 1,96 no rechazamos la hipótesis nula. En consecuencia, hay
evidencias estadísticas como para afirmar que las vidas medias de los focos producidos por las
dos máquinas son iguales con un nivel de significación de 0,05.
Poblaciones normales, varianzas desconocidas pero iguales
En el punto anterior vimos como probar hipótesis para la diferencia de medias poblacionales en
el caso de que las poblaciones de las cuales se toman las muestras tienen distribución normal y
las varianzas de estas son conocidas.
En realidad, resulta que en la mayoría de los casos estos parámetros no se conocen y hay que
estimarlas.
Cuando esto sucede, siendo las poblaciones normales y las varianzas, aunque desconocidas se
pueden considerar como iguales, el estadístico de prueba para llevar adelante cualquiera de las
pruebas listadas más arriba es
(𝑋̅1 −𝑋̅2 )−(𝜇1 −𝜇2 )
𝐸𝑝 = 1 1
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

Este estadístico, bajo estas condiciones, tiene distribución 𝑡 de Student con 𝑛1 + 𝑛2 − 2 grados
de libertad.
Ejemplo 6. Se llevó a cabo un estudio para evaluar los efectos de hacinamiento sobre el
aprendizaje entre alumnos universitarios. A una muestra aleatoria de 50 alumnos se les enseñó
determinada materia en condiciones de hacinamiento y a otra muestra de 40 alumnos se les
enseñó la misma materia, con los mismos profesores, pero sin hacinamiento. Al terminar el
experimento se suministró a cada alumno una evaluación para determinar el nivel de
conocimientos alcanzado. Se obtuvieron los resultados que se muestran en la tabla 3.
Condiciones Media muestral Varianza muestral
Hacinamiento 70 100
Sin hacinamiento 80 90
Tabla 3
¿Proporcionan los datos evidencia suficiente como para concluir que la enseñanza es más
efectiva sin hacinamiento?
Tome 𝛼 = 0,05. Suponga además que las varianzas de las poblaciones, aunque desconocidas
son iguales.
Solución
Consideremos al primer grupo como el de los estudiantes que aprenden sin hacinamiento y al
segundo grupo de los que aprenden bajo condiciones de hacinamiento. Las hipótesis que
contrastar son las siguientes
𝐻0 : 𝜇1 − 𝜇2 ≤ 0
𝐻𝑎 : 𝜇1 − 𝜇2 > 0
Los cálculos necesarios para la solución son
39×90+49×100
𝑠𝑝 = 50+40−2
= 95,56
Como el nivel de significación de la prueba es de 0,05 y se trata de un test unilateral derecho, el
valor crítico del estadístico de prueba es 𝑡 = 1,6630.
(80−70)−0
El valor calculado del estadístico de prueba es 𝐸𝑝 = 1 1
= 4,83
√95,56( + )
40 50
10

Como el valor calculado del estadístico de prueba es mayor que su valor crítico rechazamos la
hipótesis nula y concluimos que existen evidencias estadísticas como para considerar que los
alumnos que aprenden en condiciones bajo hacinamientos tienen una nota promedio menor
que aquellos que lo hacen son esta condición.
3. COMPARACIONES PAREADAS
Con frecuencia, los datos disponibles para el análisis se obtienen a partir de dos poblaciones que
no son independientes. Un procedimiento comúnmente utilizado que da como resultado dos
muestras que no son independientes es la denominada prueba antes y después. En este caso,
las mediciones se hacen sobre una muestra de los mismos sujetos tanto antes como después de
la introducción de algún fenómeno.
Por ejemplo, se mide la producción de un mismo grupo de operarios antes y después de
adiestrarlos en el uso de una nueva tecnología de producción.
En otro ejemplo, se puede hacer una prueba de aprendizaje de ciertos temas de matemática a
el mismo grupo de estudiantes utilizando dos métodos distintos de enseñanza y comparando
posteriormente las puntuaciones obtenidas.
Claramente los dos grupos de observaciones que resultan de estas clases de experimentos están
relacionados.
Este tipo de experimentos se realizan cuando se quiere controlar por medio de este las
diferencias que pudiese haber entre los individuos a los cuales se aplican el tratamiento.
Los métodos de inferencia que hemos desarrollados con anterioridad no se pueden aplicar
cuando las dos muestras de observaciones están relacionadas. Esto se debe a que aquellos
métodos exigen que las observaciones sean independientes.
Como se recordará, en esa oportunidad el acento estuvo puesto en a diferencia de medias
𝜇1 − 𝜇2 . Las conclusiones se obtuvieron a partir de las propiedades estadísticas de la diferencia
de medias muestrales 𝑋̅1 − 𝑋̅2 .
Cuando las observaciones están relacionadas, es decir, cuando no son independientes, la
atención se centra en la media de las diferencias de las observaciones más que en la diferencia
de las medias.
El modelo teórico que describe este caso pude ser pensado de la siguiente manera. Sea 𝑋1 la
variable aleatoria que representa la primera observación. Suponga que 𝑋1 ~𝑁(𝜇1 , 𝜎 2 ) y sea 𝑋2
la variable aleatoria que representa la segunda observación. Suponga adicionalmente que
𝑋2 ~𝑁(𝜇2 , 𝜎 2 ).
A partir de 𝑋1 y 𝑋2 definimos la variable aleatoria diferencia definida como 𝐷𝑖 = 𝑋𝑖1 − 𝑋𝑖2 con
𝑖 = 1, 2, … , 𝑁 donde 𝑁 es el tamaño de las dos poblaciones de observaciones. Esto se muestra
en la tabla 4.
𝑋1 𝑋2 𝐷𝑖
𝑋11 𝑋12 𝐷1 = 𝑋11 − 𝑋12
𝑋21 𝑋22 𝐷2 = 𝑋21 − 𝑋12
𝑋31 𝑋32 𝐷3 = 𝑋31 − 𝑋32
… … …
𝑋𝑁1 𝑋𝑁2 𝐷𝑁 = 𝑋𝑁1 − 𝑋𝑁2
Tabla 4
La media de las diferencias es
1
𝜇𝐷 = 𝑁 ∑𝑁
𝑖=1 𝐷𝑖
11

Por otro lado, la varianza de la variable aleatoria diferencia 𝐷 se define de la siguiente manera
1
𝜎𝐷2 = 𝑁 ∑𝑁
𝑖=1(𝐷𝑖 − 𝜇𝐷 )
2

Puede demostrarse que si 𝑋1 y 𝑋2 tienen distribución normal, entonces la variable aleatoria D


también tiene distribución normal, es decir 𝐷~𝑁(𝜇𝐷 , 𝜎𝐷2 ).
Como en general se trabajan con muestras de observaciones, una estimación de 𝜇𝐷 se define de
la siguiente manera
̅ = 1 ∑𝑛𝑖=1 𝐷𝑖
𝐷 𝑛

donde 𝑛 es el tamaño de la muestra que se utiliza para estimar 𝜇𝐷 .


̅ ?.
¿Cuáles son las propiedades estadísticas de la variable aleatoria 𝐷
Puede demostrarse que 𝐸(𝐷 ̅ ) = 𝜇𝐷 y que 𝜎𝐷̅ = 𝜎𝐷 . Además, si D tiene distribución normal de
√𝑛
̅ también la tendrá. Por lo tanto, la variable aleatoria
probabilidades, 𝐷
̅ −𝜇𝐷 )√𝑛
(𝐷
𝑍= 𝜎𝐷
~𝑁(0, 1)

Es decir, tiene distribución normal estándar.


̅
Note el lector la semejanza de las propiedades de esta variable con las de 𝑋.
Cierto es que, en la mayoría de los casos 𝜇𝐷 es desconocía. Por lo tanto, 𝜎𝐷 también lo será. En
consecuencia 𝜎𝐷̅ deberá ser estimada.
̅ se estima de la siguiente manera. Primero se calcula
El error estándar de la variable 𝐷
1
̅ )2 = 1 [𝑛 ∑𝑛𝑖=1 𝐷𝑖2 − (∑𝑛𝑖=1 𝐷𝑖 )2 ]
𝑠𝐷2 = 𝑛−1 ∑𝑛𝑖=1(𝐷𝑖 − 𝐷 𝑛−1

que resulta ser la mejor estimación de 𝜎𝐷2 . Por lo tanto, el error estándar estimado de la variable
̅ está dado por 𝑠𝐷̅ = 𝑠𝐷 .
𝐷
√𝑛

Luego, la variable aleatoria


̅ −𝜇𝐷 )√𝑛
(𝐷
𝑇= 𝑆𝐷
~𝑡(𝑛 − 1)

Es decir, tiene distribución t con 𝑛 − 1 grados de libertad.


Intervalos de confianza para 𝝁𝑫
El razonamiento que subyace para la construcción de intervalos de confianza para 𝜇𝐷 es similar
al que utilizamos para la construcción de intervalos de confianza para 𝜇.
̅ −𝜇𝐷 )√𝑛
(𝐷
Sabemos que, bajo ciertas condiciones, la variable aleatoria 𝑇 = 𝑆𝐷
tiene distribución t
de Student con 𝑛 − 1 grados de libertad. Podemos entonces escribir e interpretar el siguiente
enunciado de probabilidad:
̅ −𝜇𝐷 )√𝑛
(𝐷
Pr [−𝑡 ≤ 𝑆𝐷
≤ 𝑡] = 1 − 𝛼

donde los valores de ±𝑡 se encuentran a partir de 1 − 𝛼 y de los grados de libertad


correspondientes.
Trabajando algebraicamente esta última expresión obtenemos la siguiente fórmula para el
cálculo de intervalos de confianza para 𝜇𝐷 :
𝑆 𝑆
𝐶 (𝑑̅ − 𝑡 𝐷𝑛 ≤ 𝜇𝐷 ≤ 𝑑̅ + 𝑡 𝐷𝑛) = 1 − 𝛼
√ √
12

donde 𝑑̅ es un valor particular de D.


Observación. Cuando el número de observaciones es grande, digamos 𝑛 ≥ 30 se puede utilizar
z en lugar de t en la expresión anterior. Esto es una consecuencia del Teorema del Límite Central
̅ −𝜇𝐷 )√𝑛
(𝐷
que afirma que 𝑆𝐷
→ 𝑍 cuando 𝑛 → ∞.

Ejemplo 7. Con el fin de medir el efecto de una campaña de ventas, el director de investigaciones
de una cadena de supermercados tomó una muestra de 13 sucursales de la cadena y midió el
volumen de ventas con la campaña de ventas y sin la campaña de ventas. Los datos en la tabla
5 muestran los resultados para un período de una semana.
a) Construya con estos datos un intervalo de confianza del 95%
b) ¿Qué suposiciones hay que hacer para poder construir el intervalo solicitado?
Supermercado Con campaña Sin campaña Diferencia
1 67,2 65,3 1,9
2 59,4 54,7 4,7
3 80,1 81,3 -1,2
4 47,6 39,8 7,8
5 97,8 92,5 5,3
6 38,4 37,9 0,5
7 57,3 52,4 4,9
8 75,8 69,9 5,9
9 94,7 89,0 5,7
10 64,5 58,4 5,9
11 31,7 33,0 -1,3
12 49,3 41,7 7,6
13 54,0 53,6 0,4
Total ... ... 48,1
Tabla 5
Solución
Comenzamos con el punto a)
Algunos datos son los siguientes, 𝑛 = 13 y 1 − 𝛼 = 0,95. Puede verificarse a partir de los datos
que ∑13 2 13
𝑖=1 𝑑𝑖 = 302,05 y que (∑𝑖=1 𝑑𝑖 ) = 2.313,61. Por lo tanto
13 2 𝑛 2
1 1 𝑛 ∑𝑖=1 𝑑𝑖 −(∑𝑖=1 𝑑𝑖 ) 13(302,05)−2.313,61
𝑑̅ = 𝑛 ∑13 2
𝑖=1 𝑑𝑖 = 13 48,1 = 3,7 además 𝑠𝐷 = 𝑛(𝑛−1)
= 13(12)
= 10,34.
Por lo tanto, 𝑠𝐷 = 3,21.
𝑠𝐷 3,21
De acuerdo con los cálculos precedentes 𝑠𝐷̅ = = . Además, dado que el nivel de confianza
√𝑛 √13
para el intervalo es del 95% tendremos que 𝑡 = ±2,1788. Tendremos así el siguiente intervalo
de confianza para 𝜇𝐷 .
𝑆 𝑆
𝐶 (𝑑̅ − 𝑡 𝐷𝑛 ≤ 𝜇𝐷 ≤ 𝑑̅ − 𝑡 𝐷𝑛) = 1 − 𝛼
√ √
3,21 3,21
𝐶 [3,7 − 2,1788 ( ) ≤ 𝜇𝐷 ≤ 3,7 − 2,1788 ( )] = 0,95
√13 √13

𝐶(1,76 ≤ 𝜇𝐷 ≤ 5,63) = 0,95


Solución punto b)
Para poder construir el intervalo de confianza precedente la variable aleatoria diferencia 𝐷 debe
tener distribución normal de probabilidades.
13

Pruebas de hipótesis para 𝝁𝑫


Hemos visto en el punto anterior como construir e interpretar intervalos de confianza para la
media de las diferencias de observaciones pareadas o relacionadas.
Partiendo de la misma teoría que sirve de sustento para la construcción de estos intervalos,
veremos cómo probar hipótesis acerca de la media de las diferencias de observaciones que no
son independientes.
Como siempre tenderemos pruebas bilaterales y unilaterales. Resultará conveniente una prueba
bilateral cuando la hipótesis nula establezca que la media de las diferencias de dos conjuntos de
observaciones relacionadas es igual a cero, es decir, cuando quiere investigase si hay razones
estadísticas para rechazar la afirmación 𝜇𝐷 = 0.
Si la hipótesis alterna establece que 𝜇𝐷 > 0 o bien 𝜇𝐷 < 0 será necesario considerar una prueba
de hipótesis unilateral, derecha en el primer caso e izquierda en el segundo.
Resumiendo, las posibilidades para una prueba de hipótesis acerca de la media de la diferencia
de observaciones pareadas son:
𝐻0 : 𝜇𝐷 = 0
𝐻𝑎 : 𝜇𝐷 ≠ 0
En este caso tendremos una prueba bilateral con regiones de rechazo en la cola superior e
inferior de la distribución de probabilidad del estadístico de prueba.
Otra posibilidad es la siguiente:
𝐻0 : 𝜇𝐷 ≥ 0
𝐻𝑎 : 𝜇𝐷 < 0
En este caso tendremos una prueba unilateral izquierda con región de rechazo en la cola inferior
de la distribución de probabilidad del estadístico de prueba.
Por último, puede darse la siguiente posibilidad:
𝐻0 : 𝜇𝐷 ≤ 0
𝐻𝑎 : 𝜇𝐷 > 0
Aquí tendremos una prueba unilateral derecha con región de rechazo en la cola superior de la
distribución de probabilidad del estadístico de prueba.
En todos los casos utilizaremos la variable aleatoria
̅ −𝜇𝐷 )√𝑛
(𝐷
𝐸𝑝 = 𝑆𝐷

como estadístico de prueba.


Hemos dicho que, si se cumple la condición de que las muestras de diferencias se toman de una
población de diferencias con distribución normal, es decir 𝐷~𝑁, se puede demostrar que el
estadístico de prueba tendrá distribución t de Student con 𝑛 − 1 grados de libertad.
Las decisiones estadísticas que deben tomarse en cada caso son las siguientes:
 Para el primer par de hipótesis se rechazará la hipótesis nula si 𝐸𝑝 < −𝑡𝑐 o bien 𝐸𝑝 > 𝑡𝑐
donde ±𝑡𝑐 se determinan de acuerdo con el nivel de significación elegido para la prueba
y los grados de libertad correspondientes.
 En el segundo caso, como se trata de una prueba unilateral izquierda, rechazaremos la
hipótesis nula cuando 𝐸𝑝 < −𝑡𝑐 donde el valor de – 𝑡𝑐 queda determinado por el valor
de 𝛼 y los grados de libertad correspondientes.
14

 Por último, en el tercer caso, por tratarse de una prueba unilateral derecha, rechazamos
la hipótesis nula si 𝐸𝑝 > 𝑡𝑐 donde el valor de 𝑡𝑐 se determina de acuerdo con el nivel de
significancia de la prueba y los grados de libertad correspondientes.
Ejemplo 8. Diez personas realizaron a un test antes y después de recibir cierta instrucción para
realzar cierta tarea específica. Los resultados obtenidos se muestran en la tabla 6. ¿Proporcionan
estos datos evidencia suficiente para decidir que la instrucción fue efectiva? Tome 𝛼 = 0,05.
Solución
De acuerdo con los datos de la tabla precedente tenemos los siguientes cálculos.
La suma de todas las diferencias es ∑10
𝑖=1 𝑑𝑖 = 704 por lo que la media de las diferencias vale
̅
𝑑 = 70,4.
2
Por otro lado, es posible verificar que ∑𝑛𝑖=1 𝑑𝑖2 = 51.174 y que (∑10
𝑖=1 𝑑𝑖 ) = 495.616.

Individuo Antes Después Diferencia


1 70 115 45
2 84 148 64
3 88 176 88
4 110 191 81
5 105 158 53
6 100 178 78
7 110 179 69
8 67 140 73
9 79 161 82
10 86 157 71
Tabla 6
Por lo tanto
2
𝑛 ∑𝑛 2 10
𝑖=1 𝑑𝑖 −(∑𝑖=1 𝑑𝑖 ) 10(51.174)−495.616
𝑠𝐷2 = 𝑛(𝑛−1)
= 10(9)
= 179,15
𝑆𝐷 13,38
̅ vale 𝑆𝐷̅ =
O sea 𝑠𝐷 = √179,15 = 13,38. Luego, el error estándar de la variable 𝐷 = =
√𝑛 √10
4,23.
Las hipótesis que contrastar son las siguientes
𝐻0 : 𝜇𝐷 ≤ 0
𝐻𝑎 : 𝜇𝐷 > 0
De acuerdo con lo solicitado, el nivel de significación para esta prueba es 0,05.
̅ −𝜇𝐷 )√𝑛
(𝐷
El estadístico de prueba es 𝐸𝑝 = que sabemos tiene distribución t con 9 grados de
𝑆𝐷
libertad.
Por tratarse de una prueba unilateral derecha el valor crítico del estadístico de prueba es 𝑡𝑐 =
1,8331. El valor calculado del estadístico de prueba es
(70,4−0)√10
𝐸𝑝 = 13,38
= 16,63

Conclusión
como el valor calculado del estadístico de prueba supera al valor crítico rechazamos la hipótesis
nula. Hay evidencias estadísticas de que la instrucción ha sido efectiva.
15

4. DISTRIBUCIÓN DE LA DIFERENCIA DE DOS PROPORCIONES MUESTRALES


Como hemos dicho al principio de esta unidad, en muchas situaciones prácticas un analista
puede estar interesado en comparar las proporciones de dos poblaciones.
La variable aleatoria que utilizaremos para realizar inferencias acerca de las proporciones de dos
poblaciones es la diferencia de proporciones muestrales 𝑃̅1 − 𝑃̅2 cuya definición y propiedades
estadísticas damos a continuación. Veremos que el análisis que se realiza es muy parecido al de
las diferencias de media.
Teorema 3. La variable aleatoria diferencia de proporciones muestrales 𝑃̅1 − 𝑃̅2 , donde 𝑃̅1 se
calcula a partir de todas las muestras aleatorias simples de tamaño 𝑛1 que se pueden tomar de
una población de parámetros 𝑝1 y 𝑞1 = 1 − 𝑝1 y 𝑃̅2 se calcula a partir de todas las muestras
aleatorias simples de tamaño 𝑛2 que se puedan tomar de una población de parámetros 𝑝2 y
𝑞2 = 1 − 𝑝2 tiene valor esperado y error estándar dados por las siguientes expresiones
𝐸(𝑃̅1 − 𝑃̅2 ) = 𝑝1 − 𝑝2
𝑝1 𝑞1 𝑝2 𝑞2
𝜎(𝑃̅1 −𝑃̅2 ) = √ 𝑛1
+ 𝑛2

Además, si los tamaños de las muestras son lo suficientemente grandes, 𝑃̅1 − 𝑃̅2 tiene
distribución aproximadamente normal.
Como consecuencia, la variable aleatoria
(𝑃̅1 −𝑃̅2 )−(𝑝1 −𝑝2 )
𝑍= 𝑝 1 𝑞 1 𝑝2 𝑞 2
~𝑁(0, 1)
√ 𝑛 +
1 𝑛 2

Es decir, tendrá distribución aproximadamente normal estándar de probabilidades.


Observación. Consideramos muestras grandes aquellas que cumplan simultáneamente las
siguientes condiciones 𝑛1 𝑝1 > 5 𝑛1 𝑞1 > 5 𝑛2 𝑝2 > 5 𝑛2 𝑞2 > 5.
Ejemplo 9. Un analista de mercados opina que el 15% de las amas de casa de la comunidad A y
el 10% de las de la comunidad B comparan determinada marca de detergente. En una muestra
aleatoria simple de 150 amas de casa de la comunidad A, el analista encontró que 30 amas de
casa compran el producto. En otra muestra aleatoria independiente de 100 amas de casa de la
comunidad B se encontró que 7 comparan el producto. Suponga que la opinión que tiene el
analista sobre los porcentajes de estas comunidades es correcta, ¿cuál es la probabilidad de
observar una diferencia entre las proporciones muestrales mayor o igual a la que realmente se
observa?
Solución
Los datos para este ejemplo son los siguientes. Para las amas de casa de la comunidad A 𝑝1 =
0,15 y 𝑞1 = 0,85. Para las amas de casa de la comunidad B 𝑝2 = 0,10 y 𝑞2 = 0,90.
Se toma una muestra de 𝑛1 = 150 amas de casa de la comunidad A y se encuentra que el
30
número de éxitos es 𝑥1 = 30 por lo que 𝑝̅1 = 150 = 0,20 ⇒ 𝑞̅1 = 0,80.
Para una muestra de 𝑛2 = 100 amas de casa de la comunidad B resultan 𝑥2 = 7 éxitos por lo
1
que 𝑝̅2 = 100 = 0,07 ⇒ 𝑞̅2 = 0,93.

De acuerdo a estos resultados tenemos que 𝑝̅1 − 𝑝̅2 = 0,20 − 0,07 = 0,13. Se pide calcular
Pr[(𝑃̅1 − 𝑃̅2 ) ≥ 0,13].
Tenemos entonces Pr[(𝑃̅1 − 𝑃̅2 ) ≥ 0,13] = 1 − Pr[(𝑃̅1 − 𝑃̅2 ) < 0,13].
Para realizar el cálculo de esta probabilidad hay que estandarizar el valor 13. Para ello
procedemos de la siguiente manera:
16

(𝑝̅1 −𝑝̅2 )−(𝑝1 −𝑝2 ) 0,13−(0,15−0,10) 0,08


𝑧= = = = 1,95
𝑝1 𝑞 1 𝑝2 𝑞 2
+ 0,15×0,85 0,10×0,90 0,041
√ 𝑛 𝑛2
√ +
1 150 100

Por lo tanto, 1 − Pr[(𝑃̅1 − 𝑃̅2 ) < 0,13] = 1 − Pr(𝑍 < 1,95) = 0,0255 como resultado de la
probabilidad buscada.
Inferencias acerca de la diferencia de proporciones de dos poblaciones
Con los conceptos anteriores hemos preparado el camino para realizar inferencias acerca de la
diferencia entre dos proporciones poblacionales 𝑝1 − 𝑝2 .
Como en el caso de la diferencia de medias poblacionales 𝜇1 − 𝜇2 , las inferencias para la
diferencia de dos proporciones poblacionales pueden realizarse a partir de una estimación
puntual, la construcción de intervalos de confianza o de pruebas de hipótesis.
En los dos últimos casos las bases teóricas son las mismas. En primer lugar, veremos cómo
construir intervalos de confianza para la diferencia 𝑝1 − 𝑝2 dejando para más adelante las
pruebas de hipótesis para esta diferencia.
Intervalo de confianza para la diferencia 𝒑𝟏 − 𝒑𝟐
Cuando se trata de realizar inferencias acerca de la diferencia de dos proporciones poblacionales
𝑝1 − 𝑝2 , una estimación puntual para esta diferencia puede hacerse a partir del cálculo de un
valor de la variable 𝑃̅1 − 𝑃̅2 para dos muestras de tamaño 𝑛1 y 𝑛2 tomadas de las poblaciones
estudiadas. Cabe destacar que, si se trata de una estimación puntual, las muestras no necesitan
ser grandes siempre que sean aleatorias e independientes.
Un intervalo de confianza del (1 − 𝛼)100% para la diferencia 𝑝1 − 𝑝2 se construye a partir de
la propiedad que dice que la variable aleatoria
(𝑃̅1 −𝑃̅2 )−(𝑝1 −𝑝2 )
𝑍= 𝑝 1 𝑞 1 𝑝2 𝑞 2
~𝑁(0, 1)
√ 𝑛 +
1 𝑛 2

Es decir, tiene distribución normal estándar para muestras grandes.


A partir de este resultado podemos escribir e interpretar el siguiente enunciado de probabilidad

(𝑃̅1 −𝑃̅2 )−(𝑝1 −𝑝2 )


Pr [−𝑧 ≤ 𝑝 1 𝑞 1 𝑝2 𝑞 2
≤ 𝑧] = 1 − 𝛼
√ 𝑛 +
1 𝑛 2

Donde los valores de Z quedan fijados por el nivel de confianza que se elija.
A partir de esta última expresión, y por un razonamiento semejante al utilizado para una sola
proporción llegamos a la siguiente expresión para el cálculo del intervalo de confianza
𝑝̅1 𝑞̅1 𝑝̅2 𝑞̅2 𝑝̅1 𝑞̅1 𝑝̅2 𝑞̅2
𝐶 [(𝑝̅1 − 𝑝̅2 ) − 𝑧√ 𝑛1
+ 𝑛2
≤ (𝑝1 − 𝑝2 ) ≤ (𝑝̅1 − 𝑝̅2 ) + 𝑧√ 𝑛1
+ 𝑛2
] =1−𝛼

De manera abreviada se puede considerar la siguiente expresión


𝑝̅1 𝑞̅1 𝑝̅2 𝑞̅2
(𝑝̅1 − 𝑝̅2 ) ± 𝑧√ 𝑛1
+ 𝑛2

En estas fórmulas utilizamos las proporciones muestrales calculadas a partir de muestras


independientes dado que las poblacionales son desconocidas.
Ejemplo 10. Una muestra de 300 familias de la ciudad A reveló que el 75% ve regularmente
cierto programa de televisión. Otra nuestra aleatoria de 200 familias de la ciudad B reveló que
el 66% ve el mismo programa.
17

a) Realizar una estimación puntual de la diferencia de las proporciones poblacionales.


b) Construir un intervalo de confianza del 95% para la diferencia de las proporciones
poblacionales.
Solución
Para una muestra de tamaño 𝑛1 = 300 familias de la ciudad A tenemos que 𝑝̅1 = 0,75 por lo
tanto 𝑞̅2 = 0,25.
Para otra muestra independiente de tamaño 𝑛2 = 200 de familias de la ciudad B se encontró
que 𝑝̅2 = 0,66 y 𝑞̅2 = 0,34.
Resolvemos el punto a)
𝑝̅1 − 𝑝̅2 = 0,75 − 0,66 = 0,09
A continuación, resolvemos el punto b)
La expresión simplificada para el intervalo buscado es
𝑝̅1 𝑞̅1 𝑝̅2 𝑞̅2 0,75×0,25 0,66×0,34
(𝑝̅1 − 𝑝̅2 ) ± 𝑧√ + = 0,09 ± 1,96√ + 200
𝑛1 𝑛2 300

0,09 ± 1,96 × 0,04179


Finalmente obtenemos la siguiente expresión para el intervalo buscado
𝐶[0,0081 ≤ (𝑝1 − 𝑝2 ) ≤ 0,171] = 0,95
Pruebas de hipótesis para la diferencia 𝒑𝟏 − 𝒑𝟐
En la práctica pueden surgir situaciones en las que se desee verificar la hipótesis nula de que las
proporciones de dos poblaciones son iguales o difieren en una cantidad específica.
Por ejemplo, puede ser que se quiera verificar la hipótesis de que dos grupos de individuos no
difieren respecto de la proporción de ellos que favorecen la aprobación de alguna ordenanza
municipal de la ciudad en donde viven.
En lo referente a las pruebas de hipótesis para la diferencia de proporciones poblacionales
pueden presentarse los siguientes casos:
𝐻0 : 𝑝1 − 𝑝2 = 𝐷0
𝐻𝑎 : 𝑝1 − 𝑝2 ≠ 𝐷0
Tratándose en este caso de una prueba bilateral.
Otra posibilidad que puede presentarse es la siguiente:
𝐻0 : 𝑝1 − 𝑝2 ≥ 𝐷0
𝐻𝑎 : 𝑝1 − 𝑝2 < 𝐷0
En este caso tendremos una prueba unilateral izquierda.
Finalmente, puede presentarse la siguiente situación
𝐻0 : 𝑝1 − 𝑝2 ≤ 𝐷0
𝐻𝑎 : 𝑝1 − 𝑝2 > 𝐷0
Aquí tendremos una prueba unilateral derecha.
Cabe aclarar que 𝐷0 puede ser un número real comprendido en el intervalo [0, 1].
En todos los casos, y siempre que las muestras sean grandes, el estadístico de prueba tendrá
distribución normal estándar pero su expresión dependerá de las hipótesis que se contrasten.
18

Primer caso: 𝒑𝟏 − 𝒑𝟐 = 𝟎
Cuando analizamos las propiedades estadísticas de la diferencia de la variable aleatoria 𝑃̅1 − 𝑃̅2
vimos que su media o valor esperado es igual a 𝑝1 − 𝑝2 y su error estándar está dado por
𝑝1 𝑞1 𝑝2 𝑞2
√ 𝑛1
+ 𝑛2
. Además, si es posible contar con muestras grandes, la variable 𝑃̅1 − 𝑃̅2 tiene
distribución aproximadamente normal de probabilidad.
En la práctica, las proporciones poblacionales en general son desconocidas (por ello es necesario
realizar inferencias) y por lo tanto deben ser estimadas.
En consecuencia, el error estándar de 𝑃̅1 − 𝑃̅2 también debe ser estimado. La estimación
dependerá del tipo de hipótesis que se quiera probar.
Cuando se supone que 𝑝1 y 𝑝2 son iguales, se combinan los datos de las dos muestras para
obtener una estimación combinada de 𝑝1 = 𝑝2 = 𝑝 o proporción común de las dos poblaciones.
Tenemos así que si 𝑥1 es el número de elementos que presentan la característica que interesa
en la muestra tomada de una de las poblaciones, y si 𝑥2 es el número de elementos que
presentan la misma característica, pero en la segunda muestra tomada de la segunda población,
podemos realizar una estimación combinada de la proporción 𝑝 por medio de
𝑥1 +𝑥2
𝑝̂ =
𝑛1 +𝑛2

Donde 𝑛1 y 𝑛2 son los tamaños de las muestras.


Por lo tanto, y bajo estas condiciones, una estimación del error estándar del estadístico 𝑃̅1 − 𝑃̅2
viene dado por
𝑝̂𝑞̂ 𝑝̂𝑞̂ 1 1
𝑆(𝑃̅1 −𝑃̅2 ) = √ 𝑛 + 𝑛 = √𝑝̂ 𝑞̂ (𝑛 + 𝑛 )
1 2 1 2

Donde 𝑞̂ = 1 − 𝑝̂ .
Lego, para probar la hipótesis nula de que las proporciones poblacionales son iguales el
estadístico de prueba es
(𝑃̅1 −𝑃̅2 )−0 𝑃̅1 −𝑃̅2
𝐸𝑝 = ̂𝑞
𝑝 ̂ 𝑝
̂𝑞̂
= 1 1
√𝑛 +𝑛 √𝑝̂𝑞̂(𝑛 +𝑛 )
1 2 1 2

Este estadístico tiene distribución normal estándar para muestras grandes.


Ejemplo 11. Un analista cree que la proporción de individuos de dos poblaciones que aprueban
una ordenanza municipal es la misma. Con el fin de ver si hay alguna razón para dudar de esta
hipótesis, el analista toma muestras aleatorias independientes de cada una de las dos
poblaciones y determina el número de individuos de cada muestra que aprueba la ordenanza.
Los resultados se muestran en la tabla 7. ¿Proporcionan estos datos evidencia suficiente para
apoyar la afirmación del analista? Tome 𝛼 = 0,05.
Población 𝑛 Número de éxitos 𝑥
1 100 23
2 120 32
Tabla 7
Solución
Las hipótesis que contrastar son las siguientes
19

𝐻0 : 𝑝1 − 𝑝2 = 0
𝐻𝑎 : 𝑝1 − 𝑝2 ≠ 0
El nivel de significación para la prueba es 0,05.
Como se supone que las proporciones poblacionales son iguales hay que calcular una estimación
de la proporción común 𝑝. Como ya se ha dicho, se la estima de la siguiente manera
𝑥 +𝑥 23+32
𝑝̂ = 𝑛1 +𝑛2 = 100+120 = 0,25
1 2

𝑃̅1 −𝑃̅2
Por lo tanto 𝑞̂ = 0,75. El estadístico de prueba tiene la forma 𝐸𝑝 = 1 1
.
√𝑝̂𝑞̂(𝑛 +𝑛 )
1 2

23 32
De acuerdo con los datos del problema, 𝑝̅1 = = 0,23 y por otro lado 𝑝̅2 = = 0,27.
100 120

Por lo tanto, el valor del estadístico de prueba es


0,27−0,23
𝐸𝑝 = 1 1
= 0,68
√0,25×0,75( + )
100 120

Como 𝛼 = 0,05 los valores críticos del estadístico de prueba son 𝑧 = ±1,96.
Además, como −1,96 < 0,68 < 1,96 no se rechaza la hipótesis nula. Es decir, los datos
suministran evidencia estadística como para no rechazar la afirmación de que las proporciones
son iguales.
Segundo caso: 𝒑𝟏 − 𝒑𝟐 ≠ 𝟎
En este caso no se combinan los datos de la muestra para realizar una estimación del error
estándar de la variable 𝑃̅1 − 𝑃̅2 . Para probar la hipótesis acerca de la diferencia de las
proporciones poblacionales 𝑝1 − 𝑝2 el estadístico de prueba que se utiliza es
(𝑃̅1 −𝑃̅2 )−𝐷0
𝐸𝑝 = ̅1𝑞
𝑝 ̅1 𝑝
̅ 𝑞̅
~𝑁(0, 1)
√ 𝑛 + 2 2
1 𝑛 2

Es decir, este estadístico tiene distribución normal estándar de manera aproximada para
muestras grandes.
Ejemplo 12. Un especialista en política cree que la proporción de votantes del área A que van a
votar en las próximas elecciones excede en más de 0,05 a la proporción de votantes del área B
que votará en las mismas elecciones. Con el fin de ver si los hechos corroboran esta hipótesis el
analista realiza una encuesta entre los votantes del área A y del área B con los resultados que se
muestran en la tabla 8. Utilice una prueba de hipótesis apropiada para verificar la suposición del
analista.
Área Tamaño de la muestra Nº de personas que votarán
A 150 113
B 160 104
Tabla 8
Solución
113
De acuerdo con la tabla precedente se tiene que 𝑝̅1 = = 0,75 por lo tanto 𝑞̅1 = 0,25.
150
104
Por otro lado 𝑝̅2 = 160 = 0,65 por lo tanto, 𝑞̅2 = 0,35 aproximadamente.
Las hipótesis que contrastar son las siguientes
𝐻0 : 𝑝1 − 𝑝2 ≤ 0,05
𝐻0 : 𝑝1 − 𝑝2 > 0,05
20

(𝑃̅1 −𝑃̅2 )−𝐷0


La expresión que define el estadístico de prueba es 𝐸𝑝 = ̅ 1𝑞
𝑝 ̅1 𝑝
̅ 𝑞̅
. Algunos cálculos previos se
√ 𝑛 + 2 2
1 𝑛 2
muestran a continuación:
0,75×0,25 0,65×0,35
√ + 160 = 0,051 , por otro lado 𝑝̅1 − 𝑝̅2 = 0,75 − 0,65 = 0,10. Por lo tanto, el
150
valor del estadístico de prueba es
0,10−0,05
𝐸𝑝 = 0,051
= 0,968

Como 𝛼 = 0,05 los valores críticos del estadístico de son 𝑧 = 1,645. Teniendo en cuenta que
0,968 < 1,96 no se rechaza la hipótesis nula.
5. DISTRIBUCIÓN 𝑭 DE FISHER
Hemos analizado hasta aquí como construir intervalos de confianza y llevar delante pruebas de
hipótesis para la diferencia de medias y de proporciones poblacionales.
Es frecuente que un analista se encuentre en la situación en la que se requiera la comparación
de dos varianzas poblacionales, es decir, determinar si la variabilidad de una población de
observaciones difiere de la variabilidad de otra.
Para comparar las varianzas de dos poblaciones y para otros test que analizaremos más
adelante, necesitaremos un nuevo modelo de densidad de probabilidad, la distribución 𝐹 de
Fisher en honor al estadístico que la definió y desarrolló por primera vez.
Como veremos, esta distribución de probabilidad está relacionada con el estadístico 𝑆12 ⁄𝑆22 o
cociente de varianzas muestrales donde 𝑆12 y 𝑆22 son las varianzas muestrales calculadas a partir
de muestras aleatorias tomadas de las dos poblaciones.
Analizaremos cuales son las principales propiedades de la distribución 𝐹, luego veremos cómo
utilizarla para comparar varianzas poblacionales.
Como todo modelo de distribución de probabilidad, la distribución 𝐹 está definida por medio de
una fórmula.
La complejidad matemática de la expresión que define este modelo de distribución de
probabilidad no permite apreciar con claridad las propiedades de esta. Además, nosotros no le
daremos utilidad a la fórmula que define dicha distribución. Lo que si analizaremos son algunas
de sus características o propiedades más utilizadas.
Damos a continuación algunas de las características más importantes de este modelo y
posteriormente veremos cómo se las usa para realizar inferencias.
 Si una variable aleatoria continua 𝑋 tiene distribución 𝐹 entonces 𝑥 ≥ 0. Es decir, si una
variable aleatoria tiene distribución 𝐹 de Fisher solo podrá tomar valores no negativos
(cero o positivos).
+∞
 Como cualquier función de densidad de probabilidad ∫0 𝑓(𝑥)𝑑𝑥 = 1.
 El gráfico de densidad de probabilidad de una variable aleatoria con distribución 𝐹 es
por lo general sesgado a derecha. En la figura 1 se muestra el gráfico de la densidad de
probabilidad de una variable con esta distribución de probabilidad.
𝑏
 Pr(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥 donde 𝑓(𝑥) es la función de densidad de Fisher.
 Interpretamos el área bajo la curva de una distribución 𝐹 como la probabilidad asociada
con el intervalo comprendido entre dos valores específicos de la variable aleatoria.
 Se disponen de tablas específicas para el cálculo de estas probabilidades.
21

 Como una variable aleatoria con distribución 𝐹 se define a partir de un cociente, esta
distribución tiene asociados grados de libertad para el numerador y para el
denominador que además son sus parámetros.

Figura 1
Vemos a continuación un ejemplo que nos muestre como calcular probabilidades de una
variable que tiene esta densidad de probabilidad.
Ejemplo 13. Suponga una variable aleatoria 𝑋 con distribución 𝐹 de Fisher de 𝜈1 = 15 grados
de libertad para el numerador y 𝜈2 = 20 grados de libertad para el denominador. Hallar el valor
de 𝑋 tal que Pr(𝑋 ≤ 𝑥) = 0,95.
Ahora bien, ¿cómo se relaciona esta distribución de probabilidad con el cociente de varianzas
muestrales? La respuesta la damos en el siguiente teorema que enunciamos sin demostración.
Teorema 4. Sean 𝑆12 y 𝑆22 las varianzas muestrales calculadas a partir de muestras aleatorias
independientes de tamaños 𝑛1 y 𝑛2 tomadas de dos poblaciones distribuidas normalmente con
varianzas 𝜎12 y 𝜎22 respectivamente. Entonces, bajo estas condiciones, la variable aleatoria
𝑆 2 ⁄𝜎 2
𝑋 = 𝑆12 ⁄𝜎12
2 2

tiene distribución 𝐹 de Fisher con 𝜈1 = 𝑛1 − 1 grados de libertad para el numerador y 𝜈2 =


𝑛2 − 1 grados de libertad para el denominador.
A partir de esta propiedad se puede demostrar otra relacionada y que enunciamos a
continuación.
Teorema 5. Supongamos que se toman muestras aleatorias independientes de tamaño 𝑛1 y 𝑛2
de dos poblaciones con distribución normal con varianzas iguales, es decir 𝜎12 = 𝜎22 , entonces,
𝑆2
la variable aleatoria 𝑋 = 𝑆12 tiene distribución 𝐹 de Fisher con 𝜈1 = 𝑛1 − 1 y 𝜈2 = 𝑛2 − 1 grados
2
de libertad para el numerador y el denominador respectivamente.
Ejemplo 14. Suponga que la varianza de los puntajes de una prueba de aptitud es la misma para
un grupo de hombres y mujeres. Una muestra de 21 hombres y una muestra independiente de
19 mujeres dan varianzas de 876 y 400 respectivamente. Si los puntajes para hombres y mujeres
están normalmente distribuidos, ¿cuál es la probabilidad de obtener de esas muestras
resultados tan o más extremos que éstos?
6. INFERENCIA ACERCA DEL COCIENTE DE DOS VARIANZAS POBLACIONALES
Ahora que hemos definido la distribución 𝐹 y analizado cuáles son sus principales características
estamos en condiciones de abordar el tema de la inferencia acerca de las varianzas de dos
poblaciones.
22

Como veremos, en esta situación se procede de una manera diferente a los casos anteriores.
𝑆2
El razonamiento es como sigue. Es posible demostrar que la razón de varianzas muestrales 𝑆12
2
𝜎12
proporciona la mejor estimación puntual del 𝜎22
entre las varianzas de dos poblaciones. Estos
parámetros en general son desconocidos y por ello hay que estimarlos.
Por otro lado, hay muchas situaciones prácticas en las cuales se quiere investigar si las varianzas
de dos poblaciones son iguales o no lo son.
𝜎2 𝑆2
Si son iguales, entonces la razón 𝜎12 será igual a 1. Por lo tanto, la razón 𝑆12 debería tener un valor
2 2
cercano a 1 para no desechar la hipótesis de que 𝜎12 = 𝜎22 .
𝑆12
Por otro lado, si es muy diferente de 1, nos inclinaríamos a poner en tela de juicio la igualdad
𝑆22
de las varianzas poblacionales.
𝑆2
En una situación práctica es muy difícil que el cociente 𝑆12 sea exactamente igual a 1. ¿Qué tan
2
diferente de 1 debe ser este cociente para dudar de la igualdad de las varianzas poblacionales?
Hay dos maneras de responder esta pregunta, mediante la construcción de intervalos de
confianza y mediante las pruebas de hipótesis para la razón de dos varianzas poblacionales,
temas que pasamos a desarrollar a continuación.
Intervalos de confianza para la razón 𝝈𝟐𝟏 ⁄𝝈𝟐𝟐
Podemos construir intervalos de confianza para la razón de varianzas 𝜎12 /𝜎22 de dos poblaciones
con distribución normal utilizando la distribución 𝐹 de Fisher.
Recordemos que si 𝑆12 y 𝑆22 son las varianzas muestrales calculadas a partir de muestras
aleatorias simples de tamaño 𝑛1 y 𝑛2 tomadas de dos poblaciones con distribución normal de
varianzas 𝜎12 y 𝜎22 respectivamente, entonces la razón (𝑆12 ⁄𝜎12 )⁄(𝑆22 ⁄𝜎22 ) tiene distribución F de
Fisher con 𝜐1 = 𝑛1 − 1 y 𝜐2 = 𝑛2 − 1 grados de libertad para el numerador y denominador
respectivamente.
Para construir un intervalo de confianza para la razón 𝜎12 /𝜎22 comenzamos planteando la
siguiente afirmación de probabilidad
𝑆 2 ⁄𝜎 2
Pr (𝐹1 ≤ 𝑆12 ⁄𝜎12 ≤ 𝐹2 ) = 1 − 𝛼
2 2

donde 𝐹1 y 𝐹2 son los valores de la distribución 𝐹 adecuada que tiene a la izquierda y a la derecha
respectivamente 𝛼 ⁄2 porciento del área total bajo la curva de la distribución.
Luego de un trabajo algebraico sencillo dentro del paréntesis podemos escribir la expresión
anterior de la siguiente manera
𝑆12 ⁄𝑆22 𝜎2 𝑆12 ⁄𝑆22
Pr ( 𝐹2
≤ 𝜎12 ≤ 𝐹1
) = 1−𝛼
2

Cuando sustituimos las varianzas muestrales por valores numéricos específicos en la expresión
anterior tendremos construido un intervalo del (1 − 𝛼)100% para la razón de varianzas
poblacionales. Tal expresión es
𝑠12 ⁄𝑠22 𝜎2 𝑠12 ⁄𝑠22
𝐶( 𝐹2
≤ 𝜎12 ≤ 𝐹1
) =1−𝛼
2

Como la tabla de probabilidades que utilizamos para la distribución F contiene solamente


percentiles de la cola superior de la distribución, hay que calcular 𝐹1 dado que no está tabulado.
Se utiliza la siguiente expresión para calcularlo:
23

1
𝐹1 (𝜐 = 𝐹 (𝜐
1 ,𝜐2 ) 2 2 ,𝜐1 )

donde 𝜐1 y 𝜐2 son los grados de libertad del numerador y denominador respectivamente.


Ejemplo 15. Entre 29 aspirantes a una posición en una empresa, 13 acaban de completar un
curso de secretariado de seis meses y 16 acaban de terminar estudios de bachillerato donde
habían tomado clases de comercio. A cada aspirante se les aplicó la misma prueba de eficiencia.
La varianza de los puntajes para el primer grupo fue de 525 y para el segundo de 350.
a) ¿En qué condiciones es posible construir un intervalo de confianza para la razón de
varianzas poblacionales?
b) Construir un intervalo de confianza del 90% para la razón entre las dos varianzas
poblacionales bajo las suposiciones hechas en el punto anterior.
c) ¿Podemos concluir a partir del intervalo hallado que las varianzas poblacionales son
iguales? Explique.
Solución
Definimos las siguientes poblaciones
𝑋1 = Puntajes en la prueba de eficiencia de los aspirantes que acaban de completar un curso de
secretariado.
𝑋2 = Puntaje en la prueba de eficiencia de los aspirantes que terminaron estudios de
bachillerato.
Los tamaños de las muestras son respectivamente 𝑛1 = 13 y 𝑛2 = 19. Las varianzas calculadas
con estas muestras son 𝑠12 = 525 y 𝑠22 = 350.
Contestamos el punto a)
Se podrá construir un intervalo de confianza para la razón de variancias siempre que las
poblaciones tengan distribución normal de probabilidades.
Ahora el punto b)
De acuerdo con los datos del problema, los grados de libertad a considerar son los siguientes,
𝜐1 = 12 para el numerador y 𝜐2 = 15 para el denominador. De acuerdo con estos valores los
valores críticos en la distribución F son 𝐹2 = 2,48 y 𝐹1 = 0,38. En consecuencia, el intervalo
pedido es el siguiente
525⁄350 𝜎12 525⁄350 𝜎12
𝐶( ≤ ≤ ) = 𝐶 (0,625 ≤ ≤ 3,947) = 0,90
2,48 𝜎22 0,38 𝜎22

Finalmente contestamos el punto c)


De acuerdo con los valores del límite inferior y el límite superior de confianza las varianzas
pueden ser iguales pues el valor 1 está en el intervalo.
Pruebas de hipótesis para la razón 𝝈𝟐𝟏 ⁄𝝈𝟐𝟐
Hemos visto en el punto anterior como construir intervalos de confianza para la razón de
varianzas 𝜎12 ⁄𝜎22 y a partir de estos intervalos decidir si las varianzas de dos poblaciones son
iguales o no lo son.
Hay otra forma de determinar si las varianzas de dos poblacionales son iguales. Es mediante una
prueba de hipótesis para el cociente de estos parámetros.
La base teórica para estas pruebas es la misma que para la construcción de intervalos de
confianza.
¿Cuál es el estadístico de prueba que utilizaremos en estos test de hipótesis?
24

Hemos visto que si de dos poblaciones independientes, cada una con distribución normal,
𝑆12
tomamos muestras aleatorias de tamaño 𝑛1 y 𝑛2 , entonces la variable aleatoria 𝑆22
tiene
distribución de probabilidad 𝐹 con 𝜐1 = 𝑛1 − 1 y 𝜐2 = 𝑛2 − 1 grados de libertad para el
numerador y denominador respectivamente.
Este cociente de varianzas muestrales recibe el nombre de razón de varianzas y se simboliza de
la siguiente manera
𝑆2
𝑅𝑉 = 𝑆12
2

La razón de varianzas será utilizada como estadístico de prueba para los test de hipótesis para
el cociente de dos varianzas poblacionales.
Las hipótesis que pueden probarse son las siguientes:
𝐻0 : 𝜎12 ⁄𝜎22 = 1
𝐻𝑎 : 𝜎12 ⁄𝜎22 ≠ 1
En este caso se busca probar si las varianzas poblacionales son iguales. Se trata de una prueba
bilateral con regiones de rechazo en la cola superior e inferior de la distribución de probabilidad
del estadístico de prueba.
Otra posibilidad que pude darse es la siguiente:
𝐻0 : 𝜎12 ⁄𝜎22 ≤ 1
𝐻𝑎 : 𝜎12 ⁄𝜎22 > 1
Esta situación se presenta cuando queremos ver si hay elementos como para concluir que la
varianza de la primera población es mayor que la varianza de la segunda. Se trata de una prueba
unilateral derecha con región de rechazo en la cola superior de la distribución del estadístico de
prueba.
Finalmente puede presentarse la siguiente situación:
𝐻0 : 𝜎12 ⁄𝜎22 ≥ 1
𝐻𝑎 : 𝜎12 ⁄𝜎22 < 1
En este caso se trata de ver si hay elementos suficientes como para concluir que la varianza de
la primera población es menor que la varianza de la segunda población. Se trata de una prueba
unilateral izquierda con región de rechazo en la cola inferior de la distribución de probabilidad
del estadístico de prueba.
Como siempre, los tamaños de la región de rechazo están determinados por el nivel de
significación de la prueba.
Ejemplo 16. Un equipo de profesores administró una evaluación a una muestra aleatoria de
𝑛1 = 25 estudiantes del último año de una facultad y a otra muestra aleatoria independiente
de 𝑛2 = 21 estudiantes del último año de otra facultad. El equipo de profesores quiere saber,
entre otras cosas, si se podría obtener como conclusión que los dos grupos eran diferentes en
cuanto a la variabilidad de los puntajes. Los investigadores encontraron que las varianzas
muestrales eran 𝑠12 = 64 y 𝑠22 = 190. Eligieron llevar adelante una prueba de hipótesis. ¿A qué
conclusión llegarán los profesores a la luz de la información recolectada? Tome 𝛼 = 0,05.
Indique en qué condiciones es confiable la prueba realizada.

S-ar putea să vă placă și