Sunteți pe pagina 1din 64

Prueba de

Hipótesis

Maestría de Sistema de Información


Prueba de Hipótesis
Estadística Inferencial

La Estadística Inferencial proporciona las técnicas para formular proposiciones


acerca de la población, incluyendo una medida para determinar el riesgo de la
afirmación.

Una inferencia estadística es una afirmación que se hace acerca de la población


en base a la información contenida en una muestra aleatoria tomada de esta
población.

Un estimador es una variable aleatoria cuyas propiedades permiten estimar el


valor del parámetro poblacional de interés. La muestra aleatoria proporciona
únicamente un valor de esta variable y se denomina estimación puntual.

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Ejemplo: Estimador
Para estimar al parámetro de la media poblacional 𝜇 pueden elegirse la
mediana muestral 𝑥 $ o la media muestral 𝑥̅ .

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Métodos de inferencia estadística

• Valor del estadístico


Estimación Puntual • Se trata de determinar la distancia o error máximo
entre la estimación puntual y el valor del parámetro.

• Consiste en obtener un intervalo que contenga al


Estimación por intervalo parámetro poblacional con cierta probabilidad.
• 𝑳𝒊 ≤ 𝝁 ≤ 𝑳𝒔

• Se formula un hipótesis acerca del parámetro


Prueba de hipótesis poblacional asignándole un valor supuesto, y con el
valor del estimador se realiza la prueba para aceptar o
rechazar.
Prueba de Hipótesis

Propiedades de los estimadores


Estimador insesgado: Estimador eficiente:
Se dice que estimador Θ es insesgado Se dice que estimador Θ1 es más eficiente que Θ2 ,
del parámetro 𝜃 si E(Θ )= 𝜃 si ambos son insesgado y además V(Θ1 )<V(Θ2)
Prueba de Hipótesis

Propiedades de los estimadores


Sesgo de un estimador:

Error cuadrático medio:

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Intervalos de confianza
Prueba de Hipótesis
Intervalo de confianza
Prueba de Hipótesis

Ejemplo:
Prueba de Hipótesis

Intervalo de confianza
Prueba de Hipótesis
Ejemplo:
Prueba de Hipótesis

Prueba de Hipótesis
• Una hipótesis estadística es una afirmación respecto a alguna
característica desconocida de una población (generalmente
parámetros como la media o la proporción) Ejemplo:
1. Un asambleísta afirma que el ingreso medio de la población es de al
menos $450 mensuales.
2. La proporción de ciudadanos dispuestos a seguir apoyando al
gobierno de turno en las próximas elecciones es del 65%.
Entonces se persigue evaluar la hipótesis para decidir si la afirmación se
encuentra apoyada por la evidencia que se obtiene a través de una
muestra.
Prueba de Hipótesis

Prueba de Hipótesis
• Consiste en suponer algún valor para el parámetro de interés y usar
datos de la muestra para aceptar o rechazar esta información.
• La hipótesis formulada con intención de rechazarla se llama hipótesis
nula “Ho”. Rechazar “Ho” implica aceptar una hipótesis alternativa
H1.

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Prueba de Hipótesis

Decisión respecto a la Ho
Rechazar No rechazar
Verdadera Error Tipo I Decisión correcta
∝ : Significancia 1 −∝: Nivel de
confianza
Falsa Decisión correcta Error Tipo II
Potencia: 1 − 𝛽 𝛽
Prueba de Hipótesis
Prueba de Hipótesis

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Ejemplo: Prueba Hipótesis


Prueba de Hipótesis

Tipos de prueba

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Regiones Críticas
• Si ∝ =5%, es decir una significancia de 0.05, las regiones de rechazo
en cada caso estarán dada por:
Prueba de Hipótesis
Procedimiento para realizar una prueba de
hipótesis
1. Formular la hipótesis nula Ho: 𝜃 = 𝜃o
2. Formular una hipótesis alterna, la cual es de interés probar:

3. Especificar el nivel de significancia de la prueba ∝


4. Seleccionar el estadístico de prueba y definir la región de rechazo
de Ho.
5. Calcular el valor del estadístico de prueba con los datos de la
muestra (se puede usar el valor p).
6. Tomar un decisión.
Prueba de Hipótesis

Estadístico
Cuando se conoce la desviación Cuando no se conoce la
estándar de la población desviación estándar de la
población
El tamaño de la Distribución normal tabla z Distribución normal tabla z
muestra n>30

El tamaño de la Distribución normal tabla z Distribución T de Student


muesstra ≤30 y Tabla T
suponemos que la
población es normal
o aprox normal
Prueba de Hipótesis

Calcular el estadístico de prueba


¿Cómo determinamos si se puede rechazar o no la hipótesis
nula?
Existen dos formas alternativas:
1. Calcular el valor del estadístico de contraste (Z o T) y
compáralos contra el valor crítico (se obtiene de la tabla
normal estándar o la T de Student).
2. Calcular el p-valor y compararlo contra el valor se
significancia ∝
Prueba de Hipótesis

Prueba de Hipótesis relacionada con la media


• Caso muestras grandes n≥ 30:
Una muestra aleatoria de 100 paquetes mostró un peso promedio de 71.8 gr, con una
desviación estándar de 8.9 gr. Pruebe con un nivel de significancia de 5% que el peso
promedio de todos los paquetes es mayor a 70gr.
Procedimiento: Procedimiento:
Paso 1 y 2: Paso5: Calcular el estadístico
Ho: u=70
H1: u>70
Paso 3: ∝=0.05 Procedimiento:
Paso 4: Como es una muestra grande se Paso6: Decisión
puede 𝛿 K ≈ 𝑆 K el estadístico de prueba es Z Como el Z cae en la región de rechazo,
La región de rechazo es decir Z> 𝑍∝ (2.02>1.645), entonces
se rechaza que la media poblacional es
de 70. Se concluye con un nivel de
significancia 5% que el peso promedio
es mayor a 70 gr.
Prueba de Hipótesis
Valor p
• El valor-p de una prueba de hipótesis, o probabilidad de cola, es el valor de
probabilidad correspondiente al área de la cola(o colas), a partir del valor
observado y representa el nivel de significancia obtenido de la muestra.
• Interpretaciones:
1. Si esta probabilidad es pequeña, es un indicativo que los datos de la muestra no apoyan a
la Ho, pues el valor del estadístico de prueba se ubica lejos del valor propuesto del
parámetro. (valor-p< ∝ ,es decir se rechaza Ho )
2. Si esta probabilidad es grande, significa que los datos de la muestra favorecen a la hipótesis
nula pues el valor del estadístico se ubica cera al valor especificado para el parámetro.
(valor-p> ∝, es decir no se rechaza Ho)
Prueba de Hipótesis

Ejemplo: Aplicación del valor_p


• Conociendo los datos del ejemplo anterior

Como el valor_p es 0.0217(2.17%) es menor a 0.05 (5%) cae en la región


de rechazo, por lo tanto se rechazo Ho, y se puede concluir con un 5%
significancia que promedio población es mayor a 70 gr.
Prueba de Hipótesis

Ejemplo: Aplicación del p_valor


Supongamos que tenemos:

Un estadístico de Z

Nivel significancia 5%, ∝=0.05

En la tabla de la distribución normal, P(Z>1.52)=0.0643, es decir 6.43%


Como valor_p es mayor a nivel de significancia (valor_p> ∝), no se puede
rechazar Ho, por lo tanto no existe evidencia suficiente para rechazar Ho.
Prueba de Hipótesis
Prueba de hipótesis media en R para
estadístico Z
En R:
Zcalculado=(Xn-u)/(sigma/sqrt(n))

En R:
pnorm=(Zcalculado, lower.tail=False)

Si disponemos los datos de la muestra, entonces: Cola izquierda: less


z.test(datos, mu=valor, sd=valor, aleternative=“cola”) Cola derecha: greater
Ambas colas: two.sided
Prueba de Hipótesis

Prueba de hipótesis para la media


Caso: Muestras pequeñas n<30 y no se conoce la varianza poblacional.
Prueba de Hipótesis
Prueba de Hipótesis
Prueba de Hipótesis de media en R para
estadístico T
En R estadístico T:
tcalculado=(Xn-u)/(sigma/sqrt(n))

En R valor p:
pt(tcalculado, df=n-1)

Con los datos: Cola izquierda: less


Cola derecha: greater
t.test(datos, mu=valor, conf.level=valor, alternative=”cola”) Ambas colas: two.sided
Prueba de Hipótesis

Ejemplo en R:

Ho: u=0.5
Ha: u>=0.5

P-valor:
0.1627>0.05, entonces se no se puede
rechazar Ho

Contrastando el estadístico T con 5


grados libertad
𝑡P.PR =2.015
1.092<2.015, no cae en la región de
rechazo.
Prueba de Hipótesis

Ejemplo: Prueba hipótesis para media


Una muestra aleatoria de 100 muertes registradas en Estados Unidos el
año pasado muestra una vida promedio de 71.8 años. Suponga una
desviación estándar poblacional de 8.9 años. Queremos probar si la
vida media hoy en día es mayor a 70 años con base en la muestra. La
muestra parecería indicar que es así pero ¿Cuál es la probabilidad de
que la media de la muestra no refleje la verdadera media de la
población?.
Utilizar un nivel de significancia de 0.05
Prueba de Hipótesis

Ejemplo: Prueba de Hipótesis para media


Una empresa eléctrica fabrica baterías de celular que tienen una
duración que se distribuye de forma aproximadamente normal con una
media de 800 horas y desviación estándar de 40 horas. Si una muestra
aleatoria de 30 baterías tiene una duración promedio de 788 horas.
¿Muestran los datos suficiente evidencia para decir que la duración
media no es 800?. Utilice un nivel de significancia de 4%.
Prueba de Hipótesis

Actividad: Prueba de Hipótesis para media


CNEL ha publicado las cifras del número anual de Kwh que gastan
varios aparatos electrodomésticos. Se afirma que una aspiradora gasta
un promedio de 46 Kwh al año. Si una muestra aleatoria de 12 hogares
que se incluye en un estudio indica que las aspiradores gastan un
promedio de 42 Kwh al año con una desviación estándar de 11.9 Kwh.
¿esto sugiere con un nivel de significancia de 5% que las aspiradoras
gastan en promedio, menos de 46 Kwh anualmente?.
Prueba de Hipótesis

Actividad: Prueba de Hipótesis para media


Prueba de Hipótesis

Inferencias relacionadas a la proporción


• Cuando es de interés conocer la proporción de datos considerados favorables del
total de datos en la población, entonces se requiere calcular la proporción.
• El modelo requiere conocer el valor de la probabilidad de “exitos” p en cada
ensayo.
• Siendo así, si la variable aleatorio X con distribución binomial, con media u=np y
varianza 𝛿 K =npq.
• En donde n es el tamaño de la muestra, x son los casos favorables, entonces la
relación x/n es la proporción muestral 𝑝̅ y es un estimador insesgado del
parámetro poblacional p.
Prueba de Hipótesis
Estimación puntual de la proporción

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis
Inferencia de la proporción
Prueba de hipótesis relacionada Prueba de Hipótesis

proporción(caso n>=30)
Prueba de Hipótesis

Ejemplo
Un artículo reciente de una Universidad informó que sólo hay un
trabajo disponible por cada tres nuevos graduados. Las principales
razones fueron una sobrepoblación de graduados universitarios y una
economía débil. Una encuesta de 200 recién graduados reveló que 80
estudiantes tenían trabajo. Con un nivel de significancia de 2%. ¿Puede
concluir que una proporción mayor de estudiantes tienen empleo?
Prueba de Hipótesis

Prueba Hipótesis de la proporción en R


Proporción:
Prop.test (datos, tamaño, conf.level=valor, alternative=”cola”)
Los argumentos que podemos pasar a las funciones expuestas en la
anterior tabla, son:
datos: Vector o dato numérico que recoge la muestra a estudio.
Tamaño: Valor numérico que indica el valor real de la muestra total.
conf.level: Nivel de confianza para el estudio, por defecto 95%.
alternative: Indica el tipo de la hipótesis alternativa. Existen tres modos:
Hipótesis alternativa distinta: "two.sided" (por defecto seleccionada),
Hipótesis alternativa mayor: "greater" o Hipótesis alternativa menor: "less".
Prueba de Hipótesis

Actividad: Prueba de Hipótesis


Una investigación de la Universidad Toledo indica que el 50% de los
estudiantes cambia de área de estudios después del primer año de
carrera. Una muestra aleatoria de 100 estudiantes de la Facultad de
Administración reveló que 48 cambian de área de estudio después del
primer año de carrea. ¿Hubo una reducción significativa en la
proporción de estudiantes que cambian de área de estudio en el primer
año?. Considere un nivel de significancia del 5%.
Prueba de Hipótesis

Prueba de hipótesis diferencias entre dos medias

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Prueba de Hipótesis para diferencias de medias(caso n>=30)


Prueba de Hipótesis

Ejemplo
Un diseñador de productos está interesado en reducir el tiempo de secado de una
pintura. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido
químico estándar y la fórmula 2 tiene un nuevo ingrediente secante que tiende a
reducir el tiempo de secado. De la experiencia se sabe que la desviación estándar
del tiempo de secado es 8 minutos y esta variabilidad inherente no debe verse
afectada por la adición del nuevo ingrediente.
Se pintan 35 placas con la fórmula 1 y otras con la fórmula 2. Los dos tiempos
promedio de secado muestrales son 116 para la fórmula 1 y 112 minutos para la
fórmula 2. ¿A que conclusión puede llegar el diseñador del producto sobre la
eficacia del nuevo ingrediente, al nivel de significancia de 1%?
Prueba de Hipótesis
Prueba hipótesis diferencia entre dos proporciones
Prueba de Hipótesis

Ejemplo
Los hombres y mujeres adultos radicados en una ciudad grande del
norte difieren en sus opiniones sobre la promulgación de la pena de
muerte para personas culpables de asesinato. Se preguntó a dos
muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la
promulgación de la pena de muerte, y el 12% de los hombres adultos
están a favor de la pena de muerte, mientras que sólo el 10% de las
mujeres adultas lo están. Con un nivel de significancia del 5% ¿Se
puede afirmar que hay evidencia estadística de que las opiniones
difieren entre hombres y mujeres?
Prueba de Hipótesis

Prueba de Bondad de ajuste


Datos de una distribución empírica
Prueba Ji-Cuadrado
X1,X2,X3….Xn
Para muestras grandes
Variables aleatorias discretas o
Prueba de bondad de ajuste continua(clases)
Los datos siguen alguna distribución
de probabilidad Prueba de Kolmogorov-Smirnov

Prueba de K-S corrección Lillifors


Para muestras grandes n>50
Análisis de normalidad

Prueba Shapiro-Wilk
Para muestras pequeñas
Análisis de normalidad
Prueba de Hipótesis
Prueba Kolmogorov Smirnov

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Prueba Kolmogorov Smirnov

Fuente: Luis Rodriguez,2007


Prueba de Hipótesis

Ejemplo:
Las puntuaciones obtenidas por una muestra de sujetos en una prueba
de conocimiento han sido: 48.1, 47.8, 45.1, 46.3, 45.4, 47.2, 46.6 y 46.
Sabiendo que la media de dicha muestra es de 40 y su desviación típica
es 3. ¿podemos afirmar que la distribución de las puntuaciones sigue
una normal?. Utilice un nivel significancia del 1%.

Solución:
Xi Zi
Ho: f(x) = N(u, 𝛿) 48,1 2,7
H1: No sigue una distribución N(u, 𝛿) 47,8 2,6
45,1 1,7
46,3 2,1
45,4 1,8
47,2 2,4
46,6 2,2
46 2
Prueba de Hipótesis
0, 𝑥 < 45.1

Ejemplo 1
8
2
, 45.1 ≤ 𝑥 < 45.4

, 45.4 ≤ 𝑥 < 46
8
3
Zi Fs(X) S(X) |Fs(X) - S(X)| , 46 ≤ 𝑥 < 46.3
8
1,7 0,955 0,125 0,830 4
1,8 0,964 0,25 0,714 , 46.3 ≤ 𝑥 < 46.6
8
2 0,977 0,375 0,602 5
, 46.6 ≤ 𝑥 < 47.2
2,1 0,982 0,5 0,482 8
2,2 0,986 0,625 0,361 6
, 47.2 ≤ 𝑥 < 47.8
2,4 0,992 0,75 0,242 8
7
2,6 0,995 0,875 0,120 , 47.8 ≤ 𝑥 < 48.1
8
2,7 0,997 1 0,003 1, 𝑥 ≥ 48.1


Fs(X)=P(Z<=Zi)

Como 𝛼 = 0.01 y n = 8, entonces D𝛼=0.543, con lo cual contrastando el criterio de rechazo tenemos que
Dn=0.83 > D𝛼=0.543, por lo tanto cae en la región de rechazo, con lo cual se rechaza Ho.
Prueba de Hipótesis

Prueba KS en R
Comando:
ks.test(datos, distribución, parámetros)
datos: conjunto de observaciones
distribución: pnorm, ppois, pgamma
parámteros: acordes a la distribución Ej: pnorm requiere:media y
desviación.
Prueba de Hipótesis

Pruebas de normalidad en R
Shapiro-Wilk:
Muestras pequeñas
Comando:
shapiro.test(datos)

LillieFors:
Muestras grandes
Comando:
library(“nortest”)
lillie.test(datos)
Prueba de Hipótesis

Actividad:
Prueba de Hipótesis
Prueba Chi-Cuadrado
Prueba de Hipótesis

Región de rechazo
Ejemplo: Prueba Chi-Cuadrado Prueba de Hipótesis
Prueba de Hipótesis

Actividad: Ejercicio Chi-Cuadrado


Estamos interesados en comprobar la perfección de un dado de 6
caras. Para esto realizamos 100 lanzamientos del dado anotando los
puntos obtenidos en cada lanzamiento. Se puede concluir que el dado
sigue una distribución uniforme. Nivel de significación 5%.
Cara del dado Número de veces que se obtiene la cara
1 14
2 22
3 18
4 17
5 20
6 9
Prueba de Hipótesis
Tabla de Contigencia
• Es una prueba que se aplica para analizar la independencia entre dos variables.
• Supongamos que de n elementos de una población se han observado dos
características X e Y, obteniéndose una muestra aleatoria simple bidimensional
(X1,Y1), (X2,Y2,)…(Xn,Yn). Sobre las bases de dichas observaciones se desea
contrastar si las características poblacionales X e Y son independientes o no.
X: Dividido en un subconjunto de valores posibles A

Y: Dividido en
un subconjunto
de valores B
Prueba de Hipótesis
Prueba de Hipótesis Tabla de Contingencia
Prueba de Hipótesis

Ejemplo: Tabla Contingencia


Prueba de Hipótesis

Ejemplo: Tabla de Contingencia


Prueba de Hipótesis

Tabla de contingencia en R
Comandos:
Crear tabla de frecuencias: T=table (variable1, variable2)
Añadir marginales a T: Tcompleta=addmargins(T)
Prueba de independencia:
chisq.test(T)
Prueba de Hipótesis

Actividad:

S-ar putea să vă placă și