Documente Academic
Documente Profesional
Documente Cultură
Inferencia estadstica
Sabemos que una poblacin puede ser caracterizada por los valores de algunos parmetros
poblacionales, por ello es lgico que en muchos problemas estadsticos se centre la atencin sobre
esos parmetros poblacionales. En muchos casos no ser posible determinar el valor de un
parmetro poblacional analizando todos los valores poblacionales, pues el proceso a seguir para
determinar el valor del parmetro puede ser destructivo, por ejemplo para medir la duracin de
un foco, o nos puede costar mucho tiempo o mucho dinero el analizar cada unidad poblacional. En
estas situaciones la nica salida que tenemos es utilizar, la inferencia estadstica para obtener
informacin sobre los valores de los parmetros poblacionales, basndonos en la informacin
contenida en una muestra aleatoria.
En la estimacin, basta seleccionar un estadstico muestral cuyo valor se utilizar como estimador
del valor del parmetro poblacional.
En la contrastacin de hiptesis, se hace una hiptesis sobre el valor del parmetro y se utiliza la
informacin proporcionada por la muestra para decidir si la hiptesis se acepta o no. Por ejemplo,
supongamos que estamos interesados en el parmetro proporcin poblacional, es decir la
proporcin de personas que no piensan votar en las prximas Elecciones Generales. Hacemos una
1
Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin de muestreo
siempre que el tamao de la muestra sea al menos de 30
Notas preliminares
1
Notas de clase Estadstica R. Urbn R.
hiptesis previa que podra ser: que el valor de la proporcin poblacional p ser 0,40 o mayor, p >
0,40. Se toma una muestra aleatoria de votantes de la poblacin total, y la proporcin muestral de
aquellos electores que no piensan votar se utilizan para decidir si la hiptesis formulada era
razonable o no.
Ambos mtodos de inferencia estadstica utilizan las mismas relaciones tericas entre resultados
muestrales y valores poblacionales. As pues, una muestra es sacada de la poblacin y un
estadstico muestral es utilizado para hacer inferencias sobre el parmetro poblacional. En
estimacin, la informacin muestral es utilizada para estimar el valor del parmetro. En el
contraste de hiptesis, primero se formula la hiptesis sobre el valor del parmetro y la
informacin muestral se utiliza para decidir si la hiptesis formulada debera ser o no rechazada.
No sera adecuado hablar de los objetivos y de los tipos de inferencia estadstica sin establecer una
medida de su bondad. Para ello ser necesario contar con una medida para poder comparar la
bondad de un estimador con la de otro. En el contraste de hiptesis la bondad de la inferencia se
mide por la probabilidad de que la decisin de rechazar o no rechazar el valor dado en la hiptesis
sobre parmetro poblacional sean correctos.
Cul de los mtodos de inferencia debe usarse, es decir, se requiere estimar el parmetro? O
debe probarse una hiptesis acerca de su valor? La respuesta esta determinada por la situacin
prctica a considerar y en ocasiones es cuestin de preferencia personal.
Tipos de estimadores.
=1
=
Es un estimador de la media de la poblacin .
En la estimacin por intervalo (o intervalo de confianza), se obtienen dos puntos (un extremo
inferior y un extremo superior) que definen un intervalo, el cual contendr con cierta seguridad el
valor del parmetro. El nmero superior del intervalo se denomina lmite superior de confianza
(LSC), y el menor se denomina Lmite inferior de confianza (LIC).
Notas preliminares
2
Notas de clase Estadstica R. Urbn R.
Estimador y estimacin.
Utilizaremos el trmino estimador cuando nos referimos a la funcin de las variables aleatorias
muestrales , , , , y los valores que toma la funcin estimador para las diferentes
realizaciones o muestras concretas sern las estimaciones. El estimador es un estadstico y, por
tanto, una variable aleatoria y el valor de esta variable aleatoria para una muestra concreta
( , , , . . . , ) ser la estimacin puntual.
Bondad de un estimador.
Supongamos que nos interesa medir el comportamiento del consumidor en una determinada
comunidad, interrogamos a una muestra de personas y obtenemos que el 20% de los
entrevistados adquieran un cierto producto preferentemente. Estara usted satisfecho con esta
afirmacin. En otras palabras, qu tanta fe tendra usted en esta estimacin? Cul es la precisin
de este estimador de la media ?
Supongamos que tomamos una muestra de los gastos diarios de 4 estudiantes que son $100,
$200, $300 y $400. El gasto promedio es de = $250. Para fines prcticos suponemos una
poblacin pequea de 4 estudiantes, bien podramos suponer un nmero mayor y entonces se
complicaran los clculos. Con fines ilustrativos vamos a suponer que calcular la media de 4
observaciones es complicado. Para esto vamos a seleccionar muestras de 2 observaciones para
Notas preliminares
3
Notas de clase Estadstica R. Urbn R.
Cuatro de las seis muestras resultarn con algn error en el proceso de seleccin.
Podemos enumerar cada media muestral posible junto con su respectiva probabilidad. A la
distribucin de probabilidad de un estimador se le denomina distribucin muestral del estimador.
2
Ntese que si tenemos una poblacin de 500 estudiantes y tomamos muestras por ejemplo de 20
500 500!
tendramos 20 = = 2.66721035 muestras diferentes.
480!20!
Notas preliminares
4
Notas de clase Estadstica R. Urbn R.
Cuatro de las seis muestras son diferentes al parmetro, es decir, resultan con algn error en el
proceso de estimacin. Este error de estimacin es la diferencia entre el parmetro poblacional y
el estadstico la muestra utilizado para estimar el parmetro. En nuestro ejercicio es la diferencia
entre y la media muestral que se utiliza para estimarlo (x ).
De hecho el error de estimacin debe ser menor que dos desviaciones estndar de la distribucin
muestral, con una probabilidad del 75%, por el teorema de Tchebysheff, y en una gran cantidad de
casos por la regla emprica, probabilidad de .95.
a) La mediana muestral.
b) Promedio entre la mxima y la mnima observacin en la muestra y,
c) La media muestral.
Cada uno tiene asociada una distribucin muestral generada por muestreo repetitivo. En
particular la mediana muestral y el promedio de las observaciones extremas son fciles de
calcular; sin embargo, la media muestral es mejor debido a que para algunas poblaciones la
desviacin estndar de su distribucin muestral es mnima y siempre es insesgada
independientemente de la poblacin.
(X y )2 (X )2
2y = =
k k
Donde K es el nmero de medias muestrales. Para las seis medias muestrales anteriores,
(150 250)2 + (200 250)2 + (250 250)2 + (250 250)2 + (300 250)2 + (350 250)2
2y = = 4,167
6
Notas preliminares
5
Notas de clase Estadstica R. Urbn R.
En el caso de que no podamos encontrar la desviacin estndar de esta forma, podremos utilizar
una aproximacin cercana,
2
2y = y y =
n n
Esto es posible si la varianza poblacional 2 es conocida. Esta forma de clculo es apropiada si el
muestreo se realiza con remplazo, o si la muestra se toma de una poblacin muy grande. Si el
muestreo se realiza sin remplazo y el tamao de la muestra es ms del 5% de la poblacin debe
aplicarse el factor de correccin para poblaciones finitas y la formula para el error estndar es
entonces,
Nn
y =
n N 1
Finalmente la cota de error para dos desviaciones estndar, como se explico anteriormente.
2
cota de error =
n
Supongamos, en nuestro ejercicio, que deseamos obtener el gasto promedio diario de los
estudiantes; si durante 30 das se obtiene una media de y = 117.5 pesos y una desviacin
estndar de s = 21 pesos.
2
La cota del error de estimacin es y = = , el valor de puede ser aproximado por s, el
n 30
estimador de . La cota del error de estimacin es entonces.
2s 2(21) 42
= = = 7.67
n 30 5.477
Se puede confiar en que la estimacin de 117.5 pesos se encuentra a menos de 7.67 pesos del
verdadero gasto promedio diario
Este tipo de estimador especifica el rango dentro del cual est el parmetro desconocido. La
probabilidad de que un intervalo contenga el parmetro que se estima se denomina coeficiente
de confianza.
Notas preliminares
6
Notas de clase Estadstica R. Urbn R.
Ya mencionamos antes la razn de utilizar 2y. La regla emprica nos dice que el 95.5% de todas
las medias muestrales caen a 2 desviaciones estndar de la media poblacional. Entonces la media
poblacional esta a lo mas a dos desviaciones estndar del 95.5% de todas las medias muestrales.
Si se desea construir un intervalo diferente al 95.5%, por ejemplo para el 95%, se debe dividir este
valor entre 2 como se muestra en la grfica siguiente.
Los valores de z al 95% dividido entre 2 para repartir el porcentaje alrededor de la media es de
0.4750. Si buscamos en tablas este valor obtenemos una = 1.96. As, para establecer un
intervalo de confianza del 95%, simplemente se especifica un intervalo de 1.96 errores estndar
por encima y por debajo de la media.
LIC = y 1.645y = y 1.645
n
LSC = y + 1.645y = y + 1.645
n
Notas preliminares
7
Notas de clase Estadstica R. Urbn R.
Para encontrar los valores en tablas de z2 procedemos como sigue. Por ejemplo para el 90% del
rea indica que en las colas tendremos el 10%, es decir 5% en cada cola (0.05), restamos uno y
buscamos el resultado en tablas 1 0.05 = 0.95. Este valor en tablas nos da 1.645 para cada lado
de la grfica.
Continuando con nuestro ejercicio anterior, recordemos que el gasto promedio diario de los
estudiantes por 30 das con una media de y = 117.5 pesos y una desviacin estndar de
s = 21 pesos. Un intervalo de confianza al 90% para la media de la poblacin. Utilizaremos para
estimar
21
y 1.645 = 117.5 (1.645) = 117.5 3.83
n 30
El gasto promedio diario cae en el intervalo de 113.67 a 121.33. el 90% de confianza implica que
en muestreo sucesivo si se determinan los intervalos de confianza para cada muestra, 90% de los
intervalos contendrn a .
Ejemplo.
Para determinar el rendimiento anual de ciertos valores, un grupo de inversionistas tom una
muestra de n = 50 de esta clase de valores. La media y desviacin estndar resultaron y = 8.71%
y s = 2.1%. Estime el verdadero rendimiento anual promedio para esta clase de valores usando
un intervalo de confianza del 90%.
2.1
y 1.645 = 8.71 (1.645) = 8.71 0.4885
n 50
El rendimiento promedio anual se encuentra en el intervalo de 8.2214 a 9.1985.
Notas preliminares
8
Notas de clase Estadstica R. Urbn R.
Bibliografa
Notas preliminares
9