Documente Academic
Documente Profesional
Documente Cultură
SEMANA 7
ÍNDICE
2
ESTE DOCUMENTO CONTIENE LA SEMANA 7
TEST DE HIPÓTESIS II
APRENDIZAJES ESPERADOS
Distinguir métodos para contrastar las diferencias o proposiciones de dos poblaciones y para
contrastar varianzas.
INTRODUCCIÓN
Esta semana se tratarán los métodos para construir pruebas de hipótesis entre las medias,
varianzas o proporciones de éxitos de dos poblaciones. El proceso para comparar dos poblaciones
comienza con la formulación de una hipótesis sobre la naturaleza de las dos poblaciones. La
formulación de la hipótesis implica la elección entre dos opciones sobre la diferencia de medias o
de proporciones. A continuación se toma la decisión basándose en los resultados de un estadístico
calculado a partir de muestras aleatorias de datos de las dos poblaciones. Las pruebas de hipótesis
relativas a las varianzas son cada vez más importantes, ya que las empresas tratan de reducir la
variabilidad de los procesos con el fin de garantizar que todas las unidades producidas son de alta
calidad.
3
ESTE DOCUMENTO CONTIENE LA SEMANA 7
4
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Cuando se quiere contrastar la hipótesis nula en que las dos medias poblacionales son iguales, se
iguala D0 a 0 en las fórmulas.
Los valores P de estas pruebas son la probabilidad de obtener un valor al menos tan extremo con
el obtenido, dada la hipótesis nula.
EJEMPLO: Unos investigadores realizaron un estudio para estimar la relación entre la actividad
cerebral de un sujeto mientras veía un anuncio de televisión y su capacidad posterior para
recordar su contenido. Se mostró a los sujetos dos anuncios comerciales de 10 productos. Se
midió la capacidad para recordar cada anuncio 24 horas después y se llamó a cada miembro de un
par de anuncios comerciales vistos por un sujeto específico “bien recordado” o “mal recordado”.
La tabla muestra un índice de la cantidad total de actividad cerebral de la muestra aleatoria de
sujetos mientras veían estos anuncios. Los investigadores querían saber si la actividad de las ondas
cerebrales era mayor en el caso de los anuncios bien recordados que en el de los anuncios mal
recordados. Construya una prueba de hipótesis con un nivel de significación del 5% y calcule el
valor P.
5
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Solución:
Sea x la media poblacional de los anuncios bien recordados y Y la media poblacional de los
anuncios mal recordados. Entonces, las diferencias di i 1, 2,3,...,10 son una muestra aleatoria
de 10 observaciones procedentes de una población que tiene una media X Y . Partiendo de
estos supuestos, se puede contrastar la hipótesis nula de que no existe ninguna diferencia entre los
niveles de actividad del cerebro.
H 0 : X Y 0
Frente a la alternativa de que la actividad cerebral es, en promedio, mayor en el caso de los
anuncios bien recordados, es decir:
H1 : X Y 0
Se calculan las diferencias para cada observación y sobre esas diferencias se calcula el promedio y
la desviación estándar.
6
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Observación X bien Y mal
di xi yi
del producto recordado recordado
1 141 55 86
2 139 116 23
3 87 83 4
4 129 88 41
5 51 36 15
6 50 68 -18
7 118 91 27
8 161 115 46
9 61 90 -29
10 148 113 35
Promedio = 23
Desviación estándar = 33
Observación: no olvide que Excel calcula el valor de t , asumiendo dos colas. Por ello el valor de
significancia se debe multiplicar por 2 en la fórmula:
7
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Como la afirmación es verdadera (la desigualdad se cumple), se rechaza H 0 . Por lo tanto, se llega a
la conclusión de que existen considerables pruebas para concluir que la actividad cerebral es mayor
en el caso de los anuncios bien recordados que en el de los mal recordados.
Para calcular el valor P en este caso, se usa la fórmula entregada en la semana 6 para una prueba
de la cola superior.
P t0 2, 21 0,027
Interpretación: por lo tanto, para niveles de significación inferiores a 2,7%, esto es 2,7% ,
H 0 no se rechazará. Recuerde que si el valor P es inferior al nivel de significación, entonces la
hipótesis nula es rechazada.
Observación: con la herramienta análisis de datos de Excel usted puede determinar el valor t
calculado para una y dos colas y el valor P para una y dos colas.
En el comando datos ubique la función de análisis de datos y seleccione “Prueba t para medias de
dos muestras emparejadas”. El cuadro de diálogo que aparece lo completa como se indica.
8
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Y obtiene en una hoja nueva del libro de Excel:
Si las medias muestrales observadas son x e y , entonces los siguientes contrastes tienen un nivel
de significación α (Newbold, Carlson & Thorne, 2008, p. 399).
9
ESTE DOCUMENTO CONTIENE LA SEMANA 7
10
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Si los tamaños de muestra son grandes ( n 100 ), puede obtenerse una buena aproximación al
nivel de significación α. Si se sustituyen las varianzas poblacionales por las varianzas muéstrales.
Además, el teorema del límite central permite obtener buenas aproximaciones aunque las
poblaciones no sigan una distribución normal.
Los valores P de todas estas pruebas son la probabilidad de obtener un valor al menos tan
extremo como el obtenido, dada la hipótesis nula.
EJEMPLO: Una economista agraria quiere comparar el uso de estiércol de vaca con el de pavo
como fertilizantes. Históricamente, los agricultores han utilizado estiércol de vaca en los maizales.
Hace poco, un importante criador de pavos vende el estiércol a un precio favorable. Los
agricultores han decidido que solo usarán este nuevo fertilizante si existen pruebas contundentes
de que la productividad es mayor que cuando se utiliza estiércol de pavo. Le han pedido que
realice el estudio y el análisis estadístico para hacerles una recomendación.
Construya un test de hipótesis que concluya qué tipo de fertilizante les conviene a los agricultores.
Use un nivel de significación 5% y calcule el valor P.
Solución:
11
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Como la hipótesis nula tiene la característica de ser la más conservadora, se dirá en este caso que
debe reflejar que el fertilizante actualmente usado es el más conveniente.
Hipótesis nula: H 0 : X Y 0
Hipótesis alternativa: H1 : X Y 0
Utilizando este diseño, se realiza un experimento para contrastar la hipótesis. Se utiliza estiércol
de vaca en un conjunto de n y = 25 explotaciones agrícolas seleccionadas aleatoriamente. La
x y D0
La regla de decisión es rechazar H 0 es si z
2
y2
x
nx ny
Como se trata de una prueba de la cola derecha, se calcula el valor de Z Z0 ,95 1,645
12
ESTE DOCUMENTO CONTIENE LA SEMANA 7
115 100 0
Rechazar H 0 si 1,645
625 400
25 25
15
1,645
1.025
25
2,34 1,645
Interpretación: esto significa que se rechaza la hipótesis nula, es decir, que existen pruebas
contundentes que la productividad es mayor con el estiércol de pavo que con el de vaca.
En este caso se debe utilizar un estimador agrupado común de la varianza poblacional igual. Este
estimador es:
nx 1 sx2 ny 1 s y2
sp
nx ny 2
13
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Suponga que se tiene muestras aleatorias independientes de nx y ny observaciones procedentes de
distribuciones normales que tienen las medias X y Y y una varianza común. Si las medias
14
ESTE DOCUMENTO CONTIENE LA SEMANA 7
EJEMPLO: En forma reciente se ha incrementado el interés por evaluar el efecto del ruido sobre la
habilidad de las personas para realizar una determinada tarea. Un investigador diseña un
experimento en el que se pedirá a un determinado número de sujetos que lleven a cabo una tarea
específica en un medio contralado y bajo dos niveles diferentes de ruido de fondo. El investigador
selecciona 32 personas que son capaces de realizar la misma tarea en el mismo tiempo. Del total
de personas, 16 seleccionadas al azar realizarán esta tarea bajo un nivel modesto de ruido de
fondo, llamado nivel 1. Los restantes 16 llevarán a cabo la misma tarea, bajo un ruido de nivel 2, el
cual es más severo que el ruido de nivel 1. Los siguientes datos representan los tiempos en
minutos que fueron necesarios para completar la tarea para cada una de las 16 personas de cada
nivel.
Nivel 1 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11
Nivel 2 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16
Asumiendo que estos datos constituyen muestras aleatorias de dos distribuciones normales e
independientes con varianzas iguales, pero no conocidas, ¿existe alguna razón para creer que el
tiempo promedio para el nivel 2 es mayor por más de dos minutos que para el nivel 1, con
0,01?
Solución:
x : es el tiempo medio que tardan en realizar una tarea la población de las personas sometidas al
ruido nivel 1.
15
ESTE DOCUMENTO CONTIENE LA SEMANA 7
y : es el tiempo medio que tardan en realizar una tarea la población de las personas sometidas al
ruido nivel 2.
Como la hipótesis nula tiene la característica de ser la más conservadora, se dirá en este caso que
debe reflejar que el tiempo medio que tardan en realizar una tarea las personas sometidas al ruido
nivel 2 es mayor en 2 minutos al tiempo medio que tardan las personas sometidas al ruido nivel 1.
Hipótesis nula: H 0 : y x 2
Hipótesis alternativa: H1 : y x 2
H1 indica que el tiempo promedio para el nivel 2 es mayor por más de 2 minutos que para el nivel
1.
14 12 15 ... 11
x 14,375
16
20 22 18 ... 16
y 18,5
16
x x
2
14 14,375 12 14,375 15 14,375 ... 11 14,375
2 2 2 2
i 77 ,75
s 2
5,1833
n 1 16 1
x
15
y y
2
20 18,5 22 18,5 18 18,5 ... 16 18,5
2 2 2 2
i 90
s 2
6
n 1 16 1
y
15
n y = 16; y = 18,5; s y2 = 6
16
ESTE DOCUMENTO CONTIENE LA SEMANA 7
D0 2 y tnx ny 2; t1616 2;0,01 t30;0,01 2, 46 (que se calcula en Excel multiplicando por 2 la
probabilidad, ya que por defecto el porcentaje se halla repartido en dos colas):
=DISTR.T.INV(2*0,01;30) =2,46. (Opcionalmente también se puede buscar en la tabla)
y x D0
Rechazar H 0 si tnx ny 2;
1 1
sp
nx ny
18,5 14,375 2
2, 46
1 1
2,3646
16 16
2,125
2, 46
2
2,3646
16
2,5417 2,46
P t0 2,5417 0,00822
Interpretación: por lo tanto, para niveles de significación inferiores a 0,8%, esto es 0,8% ,
H 0 no se rechazará. Recuerde que si el valor P es inferior al nivel de significación, entonces la
hipótesis nula es rechazada.
Observación: con la herramienta análisis de datos de Excel seleccione “Prueba t para dos muestras
suponiendo varianzas iguales”. El cuadro de diálogo que aparece lo completa como se indica. Debe
tener precaución de ingresar como variable 1 aquella que tenga mayor media muestral, que en
este caso es el nivel 2.
17
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Y obtiene en una hoja nueva del libro de Excel:
18
ESTE DOCUMENTO CONTIENE LA SEMANA 7
significación α. En este caso se debe calcular los grados de libertad del estadístico t que se llamará
(Newbold, Carlson & Thorne, 2008, pp. 404 y 405).
2
sx2 s y2
nx n y
2
sx2 s y
2 2
n
nx y
nx 1 n y 1
19
ESTE DOCUMENTO CONTIENE LA SEMANA 7
EJEMPLO: Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si
producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los
siguientes datos:
x 24, 2 sx 10
2
Diseño 1 n1 = 15
y 23,9 s y 20
2
Diseño 2 n2 = 10
20
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Determine si existe alguna diferencia significativa en el flujo de corriente promedio entre los dos
diseños a un nivel de significación 10% . Suponga que las poblaciones son normales y las
varianzas poblacionales son desconocidas y distintas.
Solución:
Como la hipótesis nula tiene la característica de ser la más conservadora, en este caso debe
reflejar que no existe diferencia en el flujo de corriente promedio entre los dos diseños.
Se calculan los grados de libertad del estadístico t que se llamará . Se reemplazan los datos que
se disponen:
2
sx2 s y2 2
10 20 64
15 10
nx ny 224
2
2 2
9 14,93 15
2
2
10 15
sx
2 sy 10 20
n 21
15 10
nx y
15 1 10 1
nx 1 ny 1
x y D0 x y D0
Rechazar H 0 si t ; / 2 o si t ; / 2
s 2
s y2 s2
s y2
x x
nx n y nx n y
Se calcula el valor t15;0 ,1/ 2 DISTR.T.INV(0,1;15) 1,75 . Recordar que por defecto Excel
entrega la probabilidad del 10% en dos colas, así que no es necesario dividir por 2.
21
ESTE DOCUMENTO CONTIENE LA SEMANA 7
0 ,3 0 ,3
1,75 o 1,75
8 8
3 3
de éxitos Px y Py . Cuando se supone que las proporciones poblacionales son iguales, una
estimación de la proporción común es:
nx Px ny Py
P0
nx ny
n P0 1 P0 9
22
ESTE DOCUMENTO CONTIENE LA SEMANA 7
23
ESTE DOCUMENTO CONTIENE LA SEMANA 7
En todas estas pruebas, el valor P es el nivel de significación más bajo al que puede rechazarse la
hipótesis nula.
Solución:
Primero se calcula Px y Py
190 19
Px
400 40
24
ESTE DOCUMENTO CONTIENE LA SEMANA 7
300 3
Py
800 8
1 190 1 300
400 800
nx Px ny Py 400
1
800
1
190 300 490
P0 0, 4083
nx ny 400 800 1.200 1.200
Px Py
Se rechaza H0 si z / 2 o bien si
P0 1 P0
P0 1 P0
nx ny
Px Py
z / 2
P0 1 P0 P 1 P
0 0
nx ny
19 3
40 8 2,33
0, 4083 1 0, 4083 0, 4083 1 0, 4083
400 800
0,1 0,1
2,33 o 2,33
0,0301 0,0301
25
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Interpretación: como la primera desigualdad es verdadera, se rechaza H 0 , es decir, las
proporciones poblacionales reales entre zurdos y diestros que fuman son distintas.
Suponga que se quiere probar la hipótesis que la varianza de una población normal 2 es igual a
un valor específico 02 . Si se toma una muestra aleatoria de tamaño n , se pueden realizar los
siguientes test con una significación (Montgomery & Runger, 1996, pp. 427 y 428):
26
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Donde s 2 es la varianza muestral y el estadístico de prueba 0 sigue una distribución ji-cuadrado
2
EJEMPLO: El director de control de calidad de una industria química le ha pedido que averigüe si la
varianza de las impurezas de sus envíos de fertilizante está dentro de la norma establecida. Esta
norma establece que la varianza de los kilos de impurezas de los sacos de 100 kilos no puede ser
superior a 4. Se obtiene una muestra aleatoria de 20 sacos y se miden los kilos de impureza de
cada saco. Se calcula que la varianza muestral es 6,62 kilos2. Construya una prueba de hipótesis
con un 5% de significación.
27
ESTE DOCUMENTO CONTIENE LA SEMANA 7
Solución:
Rechazar H 0 si
2 n 1 s 2
n21,
0 2
0
02
20 1 6,62 2
20 1;0 ,05
4
Ahora se busca en la tabla ji-cuadrado con 19 grados de libertad el percentil 95 (esto es 0,95), ya
que se trata de la cola derecha. Se obtiene 192 ;0 ,05 30,14 .
Interpretación: por lo tanto, se rechaza la hipótesis nula y se concluye que la variabilidad de las
impurezas es superior a la que establece la norma. Se recomienda que se estudie el proceso de
producción y se hagan mejoras para disminuir la variabilidad de los componentes.
Para esta prueba, el valor P se calcula como la probabilidad de una ji-cuadrado igual a 31,445 con
19 grados de libertad.
20 1 6,67
Valor P P 192 31, 445
4
28
ESTE DOCUMENTO CONTIENE LA SEMANA 7
igualdad de las varianzas con un nivel de significación . Se toman muestras de tamaño nx y n y
sx2
con varianzas muestrales s x2 y s y2 respectivamente. Aquí se usará el estadístico F0 .
s y2
EJEMPLO: El jefe de un laboratorio se encuentra con una técnica de medición fuera del control
estadístico. Para investigar las causas decide investigar si el factor humano tiene incidencia y toma
una muestra de suero cualquiera, dividiéndola en 20 alícuotas. Luego, elige 10 de ellas al azar y se
las entrega al laboratorista 1 para que haga las determinaciones; las restantes las encomienda al
laboratorista 2 para que las mida. Los resultados obtenidos son: s12 =2,4 es la varianza obtenida
por el laborista, 1 y s22 =0,8 para el otro. Decidir si hay diferencia en dispersión entre ambos.
29
ESTE DOCUMENTO CONTIENE LA SEMANA 7
(Fuente: Aprende en línea, programa de integración de tecnologías de la información y la
comunicación a la docencia, Universidad de Antioquía, Medellín).
H0: 12 22
H1: 1 2
2 2
Como se trata de un ensayo de dos colas, para un nivel del 95% de confianza, se busca en las
tablas para: n1 1 = 9 grados de libertad para cada muestra, mientras que α = 0,025 para el límite
inferior y α = 0,975 para el superior. Estos valores son F0,975;9;9 = 4,03.
Luego, para calcular el valor no tabulado α = 0,025 se aprovecha una propiedad que tiene la
función F usando la inversa:
Como el valor hallado F = 3 cae dentro de la zona de aceptación, no hay evidencia significativa
como para decir que el factor humano tiene incidencia en la dispersión de las mediciones.
30
ESTE DOCUMENTO CONTIENE LA SEMANA 7
COMENTARIO FINAL
Esta semana se continuó estudiando los métodos para realizar un test de hipótesis. Se analizaron
los métodos para comparar las medias poblacionales y proporciones poblacionales, además de
los métodos para probar hipótesis de varianzas poblacionales, usando varianzas muestrales. Es
importante destacar el papel de los supuestos, ya que la dependencia/independencia de las
muestras, así como el conocimiento o desconocimiento de las varianzas poblacionales indican el
tipo de test que debe aplicar.
En la investigación de cualquier problema se puede hacer uso de alguna de estas pruebas como
una forma sólida de respaldar las conclusiones. Por lo tanto, las pruebas de hipótesis pasan a ser
herramientas prácticas para la toma de decisiones.
31
ESTE DOCUMENTO CONTIENE LA SEMANA 7
REFERENCIAS
Biosca, A.; Espinet, M. J.; Fandos, M. J.; Jimeno, J.; Villagrá, B. J. & Escolano, L. E. (2003).
McGraw-Hill.
Lincoln Chao, L. (1982). Estadística para las ciencias administrativas. 2ª edición. Estados Unidos:
McGraw-Hill.
Newbold, P.; Carlson, W. & Thorne, B. (2008). Estadística para la administración y economía. 6ª
32
ESTE DOCUMENTO CONTIENE LA SEMANA 7