Documente Academic
Documente Profesional
Documente Cultură
23 de agosto de 2019
Definición: Inferencia estadística
• El objetivo de la inferencia estadística es hacer afirmaciones válidas acerca de
la población o proceso con base en la información contenida en una muestra.
• Estas afirmaciones tienen por objetivo coadyuvar en la toma de decisiones.
• La inferencia estadística por lo general se divide en estimación y prueba de
hipótesis, y se apoya en cantidades o datos estadísticos calculados a partir de
las observaciones en la muestra.
• Un estadístico se define como cualquier función de los datos muestrales que
no contiene parámetros desconocidos.
• Un ejemplo de estadístico es la media muestral 𝑋ത con la cual se tratan de hacer
afirmaciones sobre la media, µ, que es un parámetro poblacional.
• Un aspecto clave en la interpretación y utilización de cualquier estadístico es que
se trata de una variable aleatoria, ya que su valor depende de los elementos que
son seleccionados en la muestra y, por lo tanto, varía de una muestra a otra.
• La forma de tomar en cuenta este hecho es conocer la distribución de probabilidad
de cada estadístico.
Distribuciones de probabilidad e inferencia
• La distribución de probabilidad o distribución de una variable aleatoria X
relaciona el conjunto de valores posibles de X (rango de X), con la
probabilidad asociada a cada uno de estos valores y los representa a través
de una tabla o por medio de una función planteada como una fórmula.
• la distribución de probabilidad de la media muestral 𝑋ത señala qué valores
se espera que tome X, de acuerdo con los supuestos asumidos.
• Las distribuciones de probabilidad que más se usan en intervalos de
confianza y pruebas de hipótesis son las distribuciones: normal, T de
Student, ji-cuadrada y F.
Distribuciones de probabilidad e inferencia
La distribución normal estándar como la T de Student son
simétricas y centradas en cero
Las cuatro distribuciones están relacionadas entre sí, ya que las distribuciones T de Student, ji-cuadrada y F se definen en
términos de la distribución normal estándar.
Los parámetros que definen por completo las distribuciones T de Student, ji-cuadrada y F, reciben el nombre de grados
de libertad, que tienen que ver con los tamaños muestrales involucrados
Distribución Uniforme continua
• Esta distribución se caracteriza por una función de densidad que es “plana”, por lo cual la
probabilidad es uniforme en un intervalo cerrado, digamos [A, B].
• Aunque las aplicaciones de la distribución uniforme continua no son tan abundantes como
las de otras distribuciones, es apropiado para el principiante que comience esta introducción
a las distribuciones continuas con la distribución uniforme,
Distribución Normal
• La distribución de probabilidad continua más importante en todo el campo de la
estadística es la distribución normal,
• describe de manera aproximada muchos fenómenos que ocurren en la naturaleza,
la industria y la investigación. Por ejemplo, las mediciones físicas en áreas como los
experimentos meteorológicos, estudios de la precipitación pluvial y mediciones de
partes fabricadas a menudo se explican más que adecuadamente con una
distribución normal.
• Además, los errores en las mediciones científicas se aproximan muy bien mediante
una distribución normal. En 1733, Abraham DeMoivre desarrolló la ecuación
matemática de la curva normal, la cual sentó las bases sobre las que descansa gran
parte de la teoría de la estadística inductiva. La distribución normal a menudo se
denomina distribución gaussiana en honor de Karl Friedrich Gauss (1777-1855),
quien también derivó su ecuación a partir de un estudio de errores en mediciones
repetidas de la misma cantidad.
Distribución Normal
Es por esto la distribución F es la de mayor relevancia (importancia) en diseño de experimentos, dado que el análisis de la
variabilidad que se observó en un experimento se hace comparando varianzas.
Estimación puntual y por intervalo
Las distribuciones de probabilidad que tienen una variable que representa cierta característica de una población se
definen completamente cuando se conocen sus parámetros, pero cuando éstos no se conocen, será necesario estimarlos
con base en los datos muestrales para hacer inferencias sobre la población.
Los parámetros de una distribución normal son la media, µ, y la desviación estándar, , que en caso de desconocerse
será necesario estimarlos a partir de los datos en la muestra. Hay dos tipos de estimación:
• puntual
• y por intervalo
• Estimación puntual
Un estimador puntual de un parámetro desconocido es un estadístico que genera un valor numérico simple, que
se utiliza para hacer una estimación del valor del parámetro desconocido; por ejemplo, tres parámetros sobre los
que con frecuencia se desea hacer inferencia son:
• La media 𝑥ҧ del proceso (población).
• La varianza 2 o la desviación estándar del proceso.
• La proporción p de artículos defectuosos.
Estimación puntual
• Los estimadores puntuales (estadísticos) más recomendados para estimar estos
parámetros son, respectivamente:
• La media muestral 𝝁
ෝ =𝑿ഥ.
• La varianza muestral
ෝ2 = S2.
• La proporción de defectuosos en la muestra, 𝒑
ෝ = x/n, donde x es el número de artículos defectuosos
en una muestra de tamaño n.
Estimación por intervalo
• la estimación puntual dirá poco sobre el parámetro analizado, cuando la variación entre una estimación y
otra es muy grande. Una forma de saber qué tan variable es el estimador, consiste en calcular la
desviación estándar o error estándar del estadístico, visto como una variable aleatoria.
• Consideremos la desviación estándar S 𝝈 y la media 𝐗 ഥ de una muestra de tamaño n. Puesto que 𝑿
ഥ es una variable aleatoria,
ésta tiene su propia desviación o error estándar, que se puede estimar mediante
𝑺
ෝ 𝑿ഥ =
𝝈
𝒏
• Para saber qué tan precisa es la estimación consiste en calcular un intervalo de confianza que indique un rango “donde puede
estar el parámetro” con cierto nivel de seguridad o confianza. Donde L y U forman el intervalo de confianza buscado [L, U].
𝑃 𝐿 ≤𝜃 ≤𝑈 =1−𝛼
Donde L y U dependen del valor estadístico, puntos extremos del intervalo son valores de las variables
aleatorias correspondientes. Son los limites de confianza
Construir un intervalo al 100(1– )% de confianza para un parámetro desconocido , consiste en estimar dos números
(estadísticos) L y U, de manera que la probabilidad de que se encuentre entre ellos sea 1– .
Intervalo de confianza para una media 𝑥ҧ
El procedimiento general para deducir el intervalo consiste en partir de un estadístico que involucra al parámetro de
interés y que tiene una distribución conocida. Tal estadístico, sigue una distribución T de Student con n–1 grados de
libertad.
La tabla de esta distribución o en su gráfica se pueden ubicar dos valores críticos t/2 y – t/2, tales que
Son los números buscados que definen un intervalo 100 1 − 𝛼 % para una media µ desconocida.
Intervalo de confianza para una media 𝑥ҧ
Intervalo para la varianza 2
La distribución de referencia es una ji-cuadrada con n–1 grados de libertad
𝑆2
El estadístico 𝑛 − 1 𝜎2
Intervalo para la proporción
Bajo el supuesto de que el número de artículos defectuosos en una muestra sigue una distribución binomial, y
suponiendo que se inspecciona una cantidad grande de n artículos y se encuentra una proporción 𝑝Ƹ de defectuosos,
se puede construir un intervalo de confianza para la proporción poblacional p, apoyándose en la aproximación de la
distribución binomial por la normal.
En estas condiciones se puede afirmar que la proporción muestral 𝑝Ƹ sigue una distribución normal con media p y
varianza
Ahora, 12 artículos defectuosos de cada 100 no refutan p=0.10, por lo que la conclusión
es “no rechazar H0”. Sin embargo, si los datos revelan 20 artículos defectuosos de cada
100, la conclusión sería “rechazar H0” a favor de H1: p > 0.10
Hipótesis nula y la hipótesis alternativa
• El mejor ejemplo para un principiante sea el dilema que enfrenta el jurado
en un juicio. Las hipótesis nula y alternativa son
Se trata de una probabilidad elevada que indica un procedimiento de prueba en el cual es muy probable que se
rechace la nueva vacuna cuando, de hecho, es mejor a la que está actualmente en uso.
La probabilidad de error tipo II
• Es posible que el director del programa de prueba esté dispuesto a
cometer un error tipo II si la vacuna más costosa no es
significativamente mejor. De hecho, la única ocasión en la que desea
evitar un error tipo II es cuando el verdadero valor de p es de al
menos 0.7. Si p = 0.7, este procedimiento de prueba da.
Con una probabilidad tan pequeña de cometer un error tipo II es muy improbable que se rechace la nueva vacuna
cuando tiene una efectividad de 70% después de un periodo de 2 años. A medida que la hipótesis alternativa se
aproxima a la unidad, el valor de β tiende a disminuir hasta cero
El papel que desempeñan α, β y el tamaño de la
muestra
• Supongamos que el director del programa de prueba no está dispuesto a come ter un
error tipo II cuando la hipótesis alternativa p = 1/2 es verdadera, aun cuando se
encuentre que la probabilidad de tal error es β = 0.2517.
• Siempre es posible reducir β aumentando el tamaño de la región crítica.
• Por ejemplo, considere lo que les sucede a los valores de α y β cuando cambiamos nuestro
valor crítico a 7, de manera que todos los valores mayores que 7 caigan en la región crítica y
aquellos menores o iguales que 7 caigan en la región de no rechazo.
• Así, al probar p = 1/4 contra la hipótesis alternativa p = 1/2, encontramos que
El papel que desempeñan α, β y el tamaño de la
muestra
• la probabilidad de cometer ambos tipos de errores se puede reducir
aumentando el tamaño de la muestra
n = 100 individuos
Si mas de 36 individuos superan el periodo de 2 años
Hipotesis:
1 Todos los valores posibles mayores de 36 constituyen la
Hipotesis nula p = , rechazo
4 región crítica y todos los valores posibles menores o
1 iguales que 36 caen en la región de aceptación.
Hipotesis nula p , aceptacion
4
Valor critico 36
El papel que desempeñan α, β y el tamaño de
la muestra
• Para determinar la probabilidad de cometer un error tipo I debemos utilizar
la aproximación a la curva normal con
La probabilidad de que un valor caiga en la región de no rechazo cuando H0 es verdadera es dada por el área de la región
sombreada a la izquierda de x = 36.5 en la figura . El valor z que corresponde a x = 36.5 es
El papel que desempeñan α, β y el tamaño de
la muestra
Con esto queremos decir que debería determinarse un valor razonable a una α fija para la probabilidad de aceptar
de manera errónea H0, es decir, el valor de β, cuando la verdadera situación representa alguna desviación
importante de H0. Por lo general, es posible determinar un valor para el tamaño de la muestra, para el que existe un
equilibrio razonable entre los valores de α y β que se calcula de esta manera
Metodo de cálculo
Resumen: Elección del tamaño de la muestra para la prueba de medias