Sunteți pe pagina 1din 70

INFERENCIA ESTADÍSTICA

Pruebas de Hipótesis

1
Problemas de Pruebas de Hipótesis:
• Conocer si después de capacitar a un grupo de empleados
sobre el manejo de un equipo, el nivel de destreza se ha
incrementado.
• Determinar si la disminución de impuestos reduce el fraude
fiscal.
• Verificar si la variabilidad de los tiempos de atención es
menos de una desviación estándar.
• Invertir si la aceptabilidad de un producto en la población está
por encima del nivel deseado.

En general

• Contrastar si la información supuesta sobre el valor de una


característica poblacional (parámetro) concuerda con la
información empírica.

2
Hipótesis Estadística
Una Hipótesis Estadística es una afirmación que se hace acerca de un
parámetro poblacional.

Por ejemplo: el tiempo de vida promedio de un dispositivo electrónico es


mayor a 1000 horas.

Hipótesis nula: Afirmación establecida a priori como verdadera y que se


espera sea rechazada después de aplicar una prueba estadística, se
representa por Ho.

Hipótesis alterna: Afirmación que se espera sea aceptada después de


aplicar una prueba estadística, se representa por Ha o H1.

Una prueba estadística es una fórmula, basada en la distribución del


estimador del parámetro que aparece en la hipótesis y que va a permitir
tomar una decisión acerca de aceptar o rechazar una hipótesis nula.

3
Errores tipo I y tipo II

Hay dos tipos de errores que pueden ocurrir:

El error tipo I: se comete cuando se rechaza una hipótesis nula que realmente es
cierta.
El error tipo II: se comete cuando se acepta una hipótesis nula que realmente es
falsa.

El nivel de significación (α ), es la probabilidad de cometer error tipo I, y por lo


general se asume que tiene un valor de 0.05 ó 0.01. También puede ser
interpretado como el área de la región que contiene todos los valores posibles de la
prueba estadística para los cuales la hipótesis nula es rechazada.

La probabilidad de cometer error tipo II, es representado por β y al valor 1-β se le


llama la potencia de la prueba. Una buena prueba estadística es aquella que tiene
una potencia de prueba alta.

4
5
Conclusiones Fuerte y Débil

Como uno puede elegir los valores críticos del intervalo de aceptación
uno controla el valor de α. Uno puede entonces controlar la
probabilidad de rechazar de manera errónea H0.

Es por eso que el rechazo de H0 siempre se considera como una


Conclusión Fuerte. (los datos aportan fuerte evidencia de que H0 es
falsa)

La decisión de aceptar H0 se considera una Conclusión Débil, a menos


que se sepa que β es considerablemente pequeño.

Por esto en lugar de decir “se acepta H0” se prefiere decir “incapaz de
rechazar H0”, es decir, no se ha encontrado evidencia suficiente
para rechazar H0. O sea, no quiere decir que exista gran evidencia de
que H0 sea cierta sino que no hay gran evidencia de que sea falsa.

6
Ejemplo

7
Ejemplo

8
Ejemplo

9
Etapas de un Contraste de Hipótesis
1. Formulación de las hipótesis.
2. Se fija el nivel α de significación, o máximo error tipo I dispuestos a
admitir.
3. Estadístico de prueba. Se basa al conocimiento de la distribución
poblacional, los parámetros y el tamaño muestral.
4. Regla de decisión. Decidiremos cual es el valor crítico que limita la zona
de aceptación y de rechazo.
5. Decisión. Comparación de los datos experimentales con el valor crítico.

De llegarse a un test significativo (los que rechazan Ho), proceder a dar


un intervalo de confianza para el parámetro de estudio.

10
Dócima para una media poblacional
(σ conocida)
Caso I Caso II Caso III
Ho : μ=μ0 Ho : μ=μ0 Ho : μ =μ0
Ha : μ<μ0 H a : μ ≠ μ0 Ha : μ >μ0

Prueba Estadística:
x − μo
Población ⇒ Z = ~ N(0, 1)
σ
Normal
n
Decisión:
Si Zcal < -Zα entonces Si |Zcal |>Zα/2 entonces Si Zcal >Zα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
11
Prueba de hipótesis usando “P-values”

El “P-value” llamado el nivel de significación observado, es el valor


de α al cual se rechazaría la hipótesis nula si se usa el valor calculado
de la prueba estadística.

Fórmulas para calcular “P-value”: Depende de la forma de la


hipótesis alterna y del estadístico de prueba.

Ejemplo
Si Ha: μ >μo, entonces P-value = Prob (Z>Zcalc).
Si Ha: μ <μo, entonces P-value = Prob (Z<Zcalc).
Si Ha: μ ≠ μo, entonces P-value = 2Prob (Z>|Zcalc||).

Cuanto más pequeño sea el P-valor mayor es la evidencia en contra de


Ho.
La PROBABILIDAD permite calibrar el poder de nuestras conclusiones

12
Ejemplo
La cantidad promedio que se coloca en un recipiente en un proceso
de llenado se supone que es de 20 onzas. En forma periódica, se
escogen al azar 25 recipientes y el contenido de cada uno de éstos
se pesa. Se juzga al proceso como fuera de control cuando la media
muestral X es menor o igual a 19.8 o mayor o igual a 20.2 onzas. Se
supone que la cantidad que se vacía en cada recipiente se
encuentra aproximada, en forma adecuada, por una distribución
normal con una desviación estándar de 0.5 onzas.
a) Enúnciense las hipótesis nula y alternativa que son propias para
esta situación.
b) Obtener la probabilidad del error de tipo I. ¿Qué conclusiones
puede obtener?

13
Solución
Sea X = la cantidad de onzas que se coloca en un recipiente en un
proceso de llenado. Se supone que X ∼ N (μ, 0,52)

a) El peor error que se puede cometer es, en este caso, suponer que el
proceso está fuera de control cuando en realidad no lo está, por los
costos de recalibramiento de la máquina. Además, observemos que se
juzga fuera de control cuando hay diferencia por defecto o exceso
respecto a las 20 onzas y por lo tanto el test debe ser bilateral:

b) Como X ∼ N (μ, 0,52) y el tamaño de muestra es n = 25 ⇒

14
estandarizando

Como el riesgo tipo I es menor a α = 0.05, la acción a tomar es:


rechazar Ho.
Por tanto, el proceso está fuera de control.

15
Ejemplo
En estudios previos se ha determinado que el nivel promedio de cantidad
demandada de cierto servicio es 220 mensualmente. Un empresario piensa
que en realidad el nivel es más alto de lo que se indica y para probar su
afirmación se asume que la demanda es normal con desviación estándar de
13 (σ = 13). Para una muestra de 20 meses, ¿habrá suficiente evidencia
estadística para apoyar la afirmación del empresario?.

217 223 225 245 238 216 217 226 202


233 235 242 219 221 234 199 236 248
218 224

16
Los resultados son los siguientes:

One-Sample Z: Demanda

Test of mu = 220 vs > 220


The assumed standard deviation = 13

95%
Lower
Variable N Mean StDev SE Mean Bound Z P
Demanda 20 225.900 13.094 2.907 221.119 2.03 0.021

Interpretación:
El valor del “P-value” (el área a la derecha de 2.03) es .021 menor que el
nivel de significación α =0.05, por lo tanto; se rechaza la hipótesis nula y se
concluye de que sí hay evidencia estadística de que el nivel promedio de
demanda es mayor de 220. O sea los resultados apoyan lo que afirma el
empresario.

El extremo inferior del intervalo confianza de un solo lado empieza en


221.119 que es mayor que 220.

17
Dócima para una media poblacional
(varianza desconocida)
Caso I Caso II Caso III
Ho : μ =μo Ho : μ =μo Ho :μ =μo
Ha : μ<μ0 Ha : μ ≠ μo Ha :μ >μo

Prueba Estadística:

x − μ
Una muestra pequeña t = o
t se distribuye como una
(n < 30) tomada de la s t-student con n-1 g.l.
población normal
n

Si tcal < -tα entonces Si |tcal |>tα/2 entonces Si tcal >tα entonces
se rechaza Ho se rechaza Ho se rechaza Ho

18
Ejemplo

Los tiempos de atención (en minutos) de 12 clientes para un servicio


dado son los siguientes:

3.1 0.9 2.8 4.3 0.6 1.4 5.8 9.9 6.3 10.4 5 11.5

Hallar un intervalo de confianza del 99 por ciento para el tiempo


promedio de atención y probar la hipótesis que el tiempo promedio de
atención es menor de 9 minutos.

19
One-Sample T: tiempo

Test of mu = 9 vs not = 9

Variable N Mean StDev SE Mean 99% CI T P


tiempo 12 5.16667 3.75967 1.08532 (1.79586, 8.53747) -3.53 0.005

One-Sample T: tiempo

Test of mu = 9 vs < 9

99%
Upper
Variable N Mean StDev SE Mean Bound T P
tiempo 12 5.16667 3.75967 1.08532 8.11666 -3.53 0.002

Interpretación:
El valor del “P-value” es .002 menor que el nivel de significación α=0.01,
por lo tanto; se rechaza la hipótesis nula y se concluye de que sí hay
evidencia estadística de que el tiempo promedio de atención es menor de 9.
El extremo superior del intervalo confianza de un solo lado empieza en
8.11666 que es menor que 9.
20
Potencia de un test.
Sea el contraste Ho:θ=θo H1:θ∈Ω. El contraste se realiza eligiendo una medida de
discrepancia y un nivel de significación α, con estos elementos el problema queda
totalmente establecido. Llamaremos potencia de un contraste a la función:

Potencia (θ)=π(θ)=P(Rechazar Ho / θ).

Se dan dos situaciones:

θ=θo ⇒ π(θ)=P(Rechazar Ho / θ=θo) = α.


θ≠θo⇒ π(θ)=P(Rechazar Ho / θ≠θo) = 1- P(Aceptar Ho / θ≠θo) = 1-β(θ).

Al desconocerse el verdadero valor de θ, la potencia de un test (excepto en el caso


de que ambas hipótesis sean simples) no puede calcularse exactamente, pero si
podemos representar esta función para los distintos y posibles valores del
parámetro θ.

21
Ejemplo

22
Ejemplo
Con los datos del ejemplo de recipientes:

c) Obtener y graficar la función de potencia para los siguientes valores


medios de llenado: 19.5, 19.6, 19.7, 19.8, 19.9, 20.0, 20.1, 20.2, 20.3,
20.4 y 20.5.
d) Como una prueba alternativa, considérese el rechazo de H0 cuando X
Es menor o igual a 19.5 o cuando X es mayor o igual 20.5. . Si el
tamaño máximo del error de tipo I es de 0.05, ¿cuál de las dos pruebas
es la mejor?

23
Solución
c) La potencia de una prueba es:

π = P (Rechazar H0 / H0 falsa) = 1 – P (Aceptar H0 / H0 falsa) = 1 – β.

Ahora bien, si H0 es falsa, en este tipo de test μ puede tomar cualquier


valor distinto de μ0 (= 20 en este caso) y por ello quedará definida una
potencia para cada μ ≠ μ0, es decir una función π (μ). Calculemos la
función de potencia evaluada en μ = 19,5:

24
El razonamiento es el mismo para los otros casos y los resultados son los
siguientes:

25
Observaciones

Nótese que la función de potencia está definida para todo μ ≠ 20 (esto,


por su propia definición). Sin embargo y para completar esta función se
puede definir en dicho punto y puede interpretarse como el límite de la
función de potencia cuando μ está cerca de 20.

Obsérvese también que π (20) = α.

Como último comentario diremos que los resultados son los esperados
dado que la función de potencia es mayor cuando μ está más lejos de 20.
Si está muy cerca de dicho valor el test no discrimina bien, aunque el
error en ese caso no es tan grave.

d) Con esta prueba la región crítica es:

26
Y por lo tanto el error de tipo I queda:

< α = 0.05

Similarmente, los demás puntos son hallados.

La función de potencia es:

27
La segunda prueba, sin bien tiene un error de tipo I mucho más bajo, su
función de potencia es mucho menor y por ello tiende a aceptar la hipótesis
nula salvo de que haya mucha evidencia estadística en su contra. Entonces,
como el nivel de la primera es aceptable nos quedamos con ella.

28
Inferencia para Proporciones

Cuando estamos interesados en estimar la proporción P (o el porcentaje) de


ocurrencia de un evento. Se necesita definir una variable aleatoria X que
indique el número de veces que ocurre el evento en una muestra de tamaño n
y con probabilidad de éxito, π. Se puede mostrar que cuando el tamaño de
muestra es grande, tal que nπ > 5, entonces el estadístico

P − π
Z =
π (1 − π )
n

se distribuye aproximadamente como una normal estándar. Aquí π


representa la proporción poblacional que se desea estimar, la proporción
muestral es:
x
P=
n

29
Dócima para una proporción
Caso I Caso II Caso III
Ho : π=π0 Ho :π=π0 Ho : π=π0
Ha : π <π0 Ha :π ≠π0 Ha : π >π0

Prueba Estadística (Aproximada)


(P − π 0 )
Población ⇒ Z=
π 0 (1 − π 0 ) ~ N(0, 1)
Bernoulli
n

Decisión
Si Zcal <-Zα entonces Si |Zcal |>Zα / 2 entonces Si Zcal >Zα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
30
Ejemplo
En 1995 en una zona metropolitana, se reportó que dos de cada 5 personas
reunían el perfil del consumidor de cierto bien. En una encuesta reciente
hecha en 2005 a 1225 personas se encontró que 478 de ellos coincidían con
dicho perfil. ¿Piensa usted que existe evidencia para afirmar de que el perfil
del consumidor ha cambiado con respecto a 1995? Utilice γ = 0.90

Solución:
Hay que hallar un intervalo de confianza del 90% para la proporción p,
y probar la siguiente hipótesis:

H 0 : π = 0.4 (la proporción no cambió de 1995 a 2005).


H a : π ≠ 0.4 (la proporción cambió de 1995 a 2005).

31
Test and CI for One Proportion
Test of p = 0.4 vs p not = 0.4
Sample X N Sample p 90% CI Z-Value P-Value
1 478 1225 0.390204 (0.367280, 0.413128) -0.70 0.484

Interpretación: Viendo que el “P-value” es 0.484 mucho mayor que 0.10


se llega a la conclusión de que no hay suficiente evidencia de que la
proporción de personas con el perfil deseado haya cambiado de 1995 a
2005.

32
Ejemplo
En una prueba se da un cuestionario con 15 preguntas de respuesta
VERDADERO o FALSO. Se quiere probar que un estudiante contesta al
azar. Para ello se adopta la siguiente regla de decisión:

- Si 12 o más respuestas son correctas el estudiante no está contestando


al azar;
- Si menos de 12 son correctas el estudiante está contestando al azar.

33
Solución
Sea X = cantidad de respuestas correctas en 15. El peor error es decir
que estudió (decir que H1 es cierta) cuando en realidad está adivinando
(H0 es cierta). Por lo tanto:

1) H0) el alumno adivina


H1) el alumno estudió

Si un estudiante contesta al azar, entonces X ∼ Bin (0,5; 15)

La regla de decisión es rechazar

34
Dócima para la Varianza Poblacional
Asumiendo que la población de donde se extrae la muestra se distribuye
normalmente se pueden hacer las siguientes hipótesis acerca de la varianza
poblacional:

Caso I Caso II Caso III


Ho : σ2 = σ Ho : σ2 = σ Ho : σ2 = σ
2 2
2 0 0
0

Ha : σ2 < σ 2
0 Ha : σ2 ≠ σ 2
0 Ha : σ2 > σ 2
0

Prueba Estadística: Ha : σ2 > σ 2


0

2
(n − 1) s
χ2 = con n-1 g.l. α
σ 2
0
χ2α, (n-1)
Decisión:
Si χ < χ entonces Si χ < χ ó χ > χ 12−α / 2 Si χ > χ
2 2 2 2 2 2 2
cal α cal α /2 cal cal 1−α

se rechaza Ho se rechaza Ho se rechaza Ho

35
Ejemplo
Los siguientes datos representan utilidades netas mensuales (miles de nuevos
soles) por exportaciones de una empresa durante 20 meses:

80 90 85 82 75 58 70 84
87 81 87 61 73 84 85 70
78 95 77 52

Probar si hay suficiente evidencia para concluir que la desviación estándar


poblacional sea mayor que 10,000 nuevos soles. Usar un nivel de significación
del 5 por ciento.

36
Solución:
Se desea probar:
Ho : σ2 = 100
Ha : σ2 > 100

El valor de la prueba estadística es:


χ2 = (19)(122.116)/100 = 23.2020
Que comparado con χ2tab = 30.1435 (con 19 g.l.) resulta ser menor.

Equivalentemente a:

p-value = P(χ2 > 23.2020) =0.228562 > 0.05

Luego, no hay evidencia suficiente para rechazar la hipótesis nula.


Al 5 % de significación, la varianza poblacional no parece ser mayor que
100.

37
Ejemplo
Una empresa está estudiando comprar los derechos de distribución de cierto tipo de
tradicional de camisetas. Las utilidades mensuales provenientes de esta concesión
están aproximadamente modeladas por una distribución normal con media y varianza
ambos desconocidos. El problema que se presenta es la variabilidad mensual de las
utilidades, dado que dicha variabilidad es una medida del riesgo que se asume en el
negocio. La empresa, asesorada por un especialista en inversiones, decide no
comprar si la desviación típica de las utilidades es de U$S 800 o más.
Para decidir se toma una MAS de 12 meses, en los cuales se investigan las utilidades
en cada uno de ellos y se obtiene

Se pide: (Fundamentando sus respuestas)


1. Explicar sucintamente, por qué la desviación típica es una medida del riesgo que
se asume.
2. Defina el peor error que la empresa puede cometer y en base a éste realice una
prueba de hipótesis, con el fin de determinar si la empresa compra o no, los derechos
de distribución. Utilice un nivel de significación del 5%.

38
3. Con los resultados utilizados en 2, construir un intervalo de confianza para la
varianza de las utilidades.
4. Marketing, técnico en comercialización de productos, en un informe elevado a la
gerencia, indica que la marca de camisetas ya no es tan popular como antes y
sugiere como alternativa sacar un nuevo modelo de camiseta. La distribución de las
utilidades mensuales se puede modelar adecuadamente por una normal de media y
varianza desconocida. Para tratar de resolver el problema se toma una muestra al
azar de 20 meses donde se encuentra que:

Construir un intervalo de confianza para la varianza de las utilidades al 95%.


5. Observe que la estimación del valor de la varianza del nuevo modelo de camiseta
es mayor que la del modelo tradicional; ¿por qué, para un 95% de confianza, el
riesgo que se asume, en la peor situación, es menor?

39
Solución:
Sea X = las utilidades mensuales provenientes de los derechos de distribución de
las camisetas modelo tradicional. Se supone que X ∼ N (μ, σ2), con μ y σ
desconocidas.

1) Si bien la media de utilidades mide el volumen de las ganancias, podría suceder


que si, la variabilidad es muy grande, aquellas disminuyan sustancialmente
durante algún período de tiempo de tal modo que origine dificultades económicas
dados los gastos fijos que cualquier negocio tiene.

2) El peor error sería suponer que la variabilidad no es grande cuando sí lo es,


pues implicaría una inversión errónea. Por ello y a un nivel del 5% podemos
plantear la siguiente prueba:
H0) σ2 ≥ 8002
H1) σ2 < 8002
Para la región crítica utilizaremos el estimador S2, cuya forma será {S2 < K}
donde K será convenientemente elegido para que el nivel de la prueba sea α =
0,05:

40
Como S2 = 6002 = 360000 en la muestra tomada, el resultado no cae en la R.C. por
lo que no rechazamos la H0 a un nivel del 5% y entonces no se hace el negocio.

41
3) Por la parte anterior:

Nota: Obsérvese que, fuera del intervalo aleatorio y a la izquierda, no se acumula


ninguna probabilidad y por ello el extremo izquierda del intervalo de confianza es cero.

42
4) Suponemos que las condiciones son las mismas y por lo tanto buscamos un
intervalo de confianza en extremo izquierdo igual a cero. La variable de interés
es, en este caso:

Y = las utilidades mensuales provenientes del nuevo modelo de camiseta.

El procedimiento es el mismo que en 3):

43
5) La estimación del valor de la varianza del modelo tradicional es S2 = 600 =
360000 menor que la del valor de la varianza del nuevo modelo de camiseta que es
450000 = 670822. Sin embargo, para los intervalos de confianza, al utilizarse la
fórmula:

para su extremo derecho (el izquierdo en este caso es siempre cero) influye a favor
de su crecimiento n y S2, y en su decrecimiento

De ellos, en este ejercicio, el decisivo es el valor que asume el percentil χ2n−1, 0,05 , y
por esto resulta que el riesgo que se asume en la peor situación para el caso del
nuevo modelo (= 889.591,234) es menor que para el modelo tradicional (=
944301,711).

44
Comparando la varianza de dos poblaciones

Supongamos que se tienen dos poblaciones normales con varianzas


desconocidas σ 2 y σ 22
1

Si de la primera población se toma una muestra de tamaño m que tiene


2
una varianza muestral s 1 y de la segunda población se toma una muestra,
independiente de la primera, de tamaño n que tiene una varianza muestral
s 22
Se puede mostrar que la razón
s12 σ12
s22 σ 22
se distribuye como una F con m-1 grados de libertad en el numerador y
n-1 en el denominador.

45
Caso I Caso II Caso III
Ho : σ 12 = σ 22 Ho : σ12 = σ 22 Ho : σ 1 = σ 2
2 2

Ha : σ 12 < σ 22 Ha : σ 12 ≠ σ 22 Ha : σ 12 > σ 22

Prueba Estadística:

s12 Ha: σ21>σ22


F= 2
s2 α

Fm-1, n-1:α
con m-1 g.l. en el numerador y n-1 g.l en el denominador
Decisión:
Si Fcal<Fα entonces Si Fcal<Fα/2 o Fcal >F1-α/2 Si Fcal>F1-α entonces
se rechaza Ho se rechaza Ho se rechaza Ho

46
Ejemplo
Se espera que dos operadores produzcan, en promedio, el mismo número de
unidades terminadas en el mismo tiempo. Los siguientes datos son los números de
unidades terminadas para ambos trabajadores en una semana de trabajo:

Operador 1: 12; 11; 18; 16; 13


Operador 2: 14; 18; 18; 17; 16

Si se supone que el número de unidades terminadas diariamente por los dos


trabajadores son variables aleatorias independientes distribuidas normales con
varianzas desconocidas, ¿se puede discernir alguna diferencia entre las
variabilidades de ambas muestras, a un nivel α = 0.05?

47
Solución:
Según lo solicitado por el ejercicio las hipótesis adecuadas para este caso

Recordando la distribución de las varianzas muestrales, podemos utilizar como


estadístico una F (ésta es el cociente de dos chi-cuadrado sobre sus grados de
libertad) y la región crítica conveniente para una hipótesis alternativa unilateral y a
un nivel α = 0,05, resulta:

Con los datos de la muestra obtenemos que

y como f4, 4, 0,95 = 6,38823, entonces 3,03571 < 6,38823, con lo que no rechazamos
H0 a un nivel de α = 0,05. Por lo tanto no existe evidencia estadística suficiente
para asumir que las varianzas son distintas al nivel mencionado.

48
49
Ejemplo item ingresos empresa
Se trata de comparar la 1 58.0 A
variabilidad de ingresos por
2 63.8 A
concepto de ventas en dos
3 64.2 B
empresas, los datos son:
4 70.4 A
5 76.7 B

6 64.1 B
7 72.1 B
8 62.5 B
9 69.4 A
10 61.5 A
11 61.7 A
12 62.3 A
13 68.9 B
14 68.9 A

50
Test for Equal Variances: ingresos versus empresa

95% Bonferroni confidence intervals for standard deviations

empresa N Lower StDev Upper


A 8 2.82368 4.51347 10.3380
B 6 3.24522 5.53477 15.8347

F-Test (normal distribution)


Test statistic = 0.67, p-value = 0.601

Levene's Test (any continuous distribution)


Test statistic = 0.30, p-value = 0.594

51
Test for Equal Variances for ingresos
F-Test
Test Statistic 0.67
A P-Value 0.601

empresa
Lev ene's Test
Test Statistic 0.30
P-Value 0.594
B

2 4 6 8 10 12 14 16
95% Bonferroni Confidence Intervals for StDevs

A
empresa

60 64 68 72 76
ingresos

Interpretación: El “p-value” de la prueba F es 0.601 mucho mayor que 0.05,


luego se acepta la hipótesis nula y se concluye que la variabilidad de ingresos en
las dos empresas tienen igual varianza.

52
Comparación entre dos medias poblacionales
usando muestras independientes

Supongamos que se tienen dos poblaciones distribuidas normalmente con


medias desconocidas μ1 y μ2, respectivamente. Se puede aplicar una prueba t
de Student para comparar las medias de dichas poblaciones basándonos en
dos muestras independientes tomadas de ellas.
Si m < 30 y n < 30 con varianzas desconocidas se tiene:

a) Varianzas de las poblaciones iguales: ( σ 12 = σ 22 = σ 2 )


entonces se puede mostrar que:

( x − y ) − ( μ1 − μ 2 )
t=
1 1
sp +
m n

se distribuye como una t con m + n - 2 grados de libertad.

53
la varianza poblacional es estimada por una varianza combinada de las
varianzas de las dos muestras tomadas.

( m − 1) s 2
+ ( n − 1) s 2
s 2p = 1 2

m+n−2

54
b) Varianzas de las poblaciones no son iguales: ( σ 12 ≠ σ 22 )
entonces se usa una prueba aproximada de t, donde el número de grados de
libertad es calculado aproximadamente. La prueba de t aproximada está
dada por:

x − y − (μ1 − μ 2 )
t=
s12 s22
+
m n

donde los grados de libertad (gl) son aproximados por la siguiente fórmula:

(c1 + c 2 ) 2
gl = 2
c1 c 22
+
m −1 n −1

s12 s 22
Con c1 = y c2 =
m n
55
Las pruebas de hipótesis son:
Caso I Caso II Caso III
Ho : μ1 = μ 2 Ho : μ1 = μ 2 Ho : μ1 = μ 2
Ha : μ1 < μ 2 Ha : μ1 ≠ μ 2 Ha : μ1 > μ 2

Prueba Estadística:
x−y x−y
t= t=
1 1 o s12 s 22
sp + +
m n m n
Decisión:
Si t cal < − tα entonces Si t cal < tα / 2 o t cal > t1−α / 2 Si t cal > t1−α
se rechaza Ho se rechaza Ho se rechaza Ho
56
Ejemplo
Se realizó un experimento para comparar el tiempo promedio requerido por
el cuerpo humano para absorber dos medicamentos, A y B. Suponga que el
tiempo necesario para que cada medicamento alcance un nivel específico
en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a
doce personas para ensayar cada fármaco registrándose el tiempo en
minutos que tardó en alcanzar un nivel específico en la sangre. Calcule con
α = 0.05 si existe diferencia entre los tiempos promedio y obtenga el valor
de P. Suponga varianzas iguales.

57
Solución
Primero se pondrá a prueba el supuesto de varianzas iguales mediante una
prueba de hipótesis con α = 0.10.

58
59
60
61
Ejemplo

62
Solución

63
64
65
66
Dócima para muestras relacionadas
Caso I Caso II Caso III
Ho : μd = 0 Ho : μd = 0 Ho : μ d = 0
Ha : μd < 0 Ha : μd ≠ 0 Ha : μd > 0

(Si n < 30 y desviación estándar desconocida)

Prueba Estadística:
d
t= se distribuye como una t de Student con n-1 gl.
sd
n
Decisión:
Si t<-tα entonces Si | t |>tα/2 entonces Si tcal >tα entonces
se rechaza Ho se rechaza Ho se rechaza Ho

67
Ejemplo
Se ha evaluado el nivel de Estudiante Test 1 Test 2
conocimientos a un grupo de 1 13.2 14
estudiantes sobre un tema en 2 8.2 8.8
particular antes de una 3 10.9 11.2
capacitación. Las puntuaciones
4 14.3 14.2
varían entre un mínimo de 0 y un
5 10.7 11.8
máximo de 15. Pasados tres
6 6.6 6.4
meses después de la
capacitación, los mismos 10 7 9.5 9.8
estudiantes repiten el proceso de 8 10.8 11.3
evaluación. Según los resultados 9 8.8 9.3
obtenidos que se muestran en la 10 13.3 13.6
tabla, ¿hay razones para afirmar
que los estudiantes después de
estos tres meses aumentaron su
nivel de conocimientos? .

68
Paired T-Test and CI: Test 1, Test 2

Paired T for test 1 – test 2

N Mean StDev SE Mean


Test 1 10 10.6300 2.4513 0.7752
Test 2 10 11.0400 2.5185 0.7964
Difference: 10 -0.410000 0.387155 0.122429

95% upper bound for mean difference: -0.185574


T-Test of mean difference = 0 (vs < 0): T-Value = -3.35 P-Value = 0.004

Interpretación: El “p-value” de la prueba t es 0.004 menor que 0.05, luego se


rechaza la hipótesis nula y se concluye que los estudiantes han incrementado su
nivel de conocimientos.

69
Esquema de selección de pruebas estadísticas cuando
la variable dependiente es continua u ordinal

Si
Prueba Z para la media

1 Grupo
n > = 30 Si Prueba T para la media
Distribución
No normal
Prueba del signo para la mediana
No
Si
Prueba Z para la diferencia de medias

Si Prueba T para
Si Varianzas diferencia de medias
Si n > = 30 iguales
Prueba T con ajuste
Distribució No de grados de libertad
Número No n normal
2 Grupos Prueba de Mann-Whitney para
de Independientes
No comparación de poblaciones
grupos
Si Prueba Z para la media de la diferencia
en datos apareados

n > = 30 Si Prueba T para la media de la


No diferencia en datos apareados
Distribución
No normal
Prueba del signo o de Wilcoxon
No para datos apareados
Si
Distribución ANVA - Comparación de tratamientos
Si
normal c/varian-
3 a más Grupos zas semejantes Prueba de Kruskal-Wallis - Comparac. de Trat.
Independientes No

Distribución Si ANVA en Bloque - Comparac. de Tratam.


normal c/varian-
No
zas semejantes Prueba de Friedman - Comparac. de Tratam.
No
70

S-ar putea să vă placă și