Sunteți pe pagina 1din 8

ESTIMACIN ESTADSTICA

BREVE RESUMEN.

Lo que hemos estudiado hasta ahora son herramientas para desarrollar la estadstica
inferencial que permite conocer caractersticas de la poblacin a partir de la informacin
contenida en una muestra.
Se vieron las formas en que pueden describirse un conjunto de datos. Los mtodos
grficos, bsicamente la tabla de frecuencias relativas y el histograma, y las medidas
descriptivas numricas: media, varianza, desviacin estndar. La estadstica inferencial busca
describir la poblacin con estos grficos y medidas descriptivas numricas a partir de conocer
como son para la muestra.
Se estudi el concepto de probabilidad que provee de un mtodo para medir que tan
buena es la inferencia. Adems permite razonar de la poblacin a la muestra, pues si se conoce
la distribucin de probabilidad (terica) de una variable aleatoria es posible saber como va a ser
aproximadamente la distribucin de frecuencias relativas si se obtiene una muestra de los
valores de esta variable, o la probabilidad de obtener un resultado particular. Se estudiaron dos
tipos de distribucin de probabilidad, las discretas y las continuas.
Por ltimo se vieron las distribuciones muestrales que nos dicen como se distribuyen los
valores de las estadsticas (que son las medidas descriptivas numricas obtenidas de una
muestra) al tomar diferentes muestras del mismo tamao. En este tema vimos parte de la
importancia que tiene la distribucin normal ya que muchas estadsticas tienen distribucin de
muestreo aproximadamente normal cuando el tamao de la muestra es grande. Las estadsticas
se usan para aproximar los parmetros y conocer las distribuciones muestrales de las estadsticas
permite evaluar que tan confiable o buena es la aproximacin.
Hay dos formas de realizar inferencias acerca de un parmetro poblacional: podemos
estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hiptesis acerca de su
valor (esto lo vamos a estudiar la prxima clase).

TIPOS DE ESTIMADORES

Los procedimientos de estimacin pueden dividirse en dos tipos:

Estimacin puntual: la estimacin se representa mediante un solo nmero.

Estimacin por intervalo: la estimacin se representa mediante dos nmeros que determinan
un intervalo sobre la recta.

Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se puede
dar la estimacin diciendo que la altura media es de 1.65 m (estimacin puntual) o bien decir
que la altura media estar entre 1.6 m y 1.7 m (estimacin por intervalo).

Un estimador es una regla que expresa cmo calcular la estimacin, basndose en la


informacin de la muestra y se enuncia, en general, mediante una frmula.

Un estimador puntual utiliza los datos de la muestra para obtener un nmero que estima
el valor del parmetro.
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores
numricos entre los cuales se supone que est el valor del parmetro estimado.
ESTIMACIN PUNTUAL CON MUESTRAS GRANDES

Se pueden usar distintos estimadores para estimar un mismo parmetro. Por ejemplo
para estimar la media poblacional se puede usar la media muestral, la mediana, la moda, el
promedio entre el valor ms chico y ms grande de la muestra, etc..
Cada estimador obtenido de muestras de tamao fijo n, vara con cada muestra que se
toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse sus
distribuciones muestrales (similar a los estadsticos que se estudiaron la clase pasada).
La distribuciones de muestreo de los estimadores se usan para compararlos y decidir
cual de todos es el mejor. Se prefiere un estimador que tenga una distribucin muestral cuya
media coincida con el parmetro que se desea estimar y cuya extensin o dispersin (medida
con la variancia) sea lo menor posible.

Notacin. Si denota un parmetro entonces denotar la estadstica correspondiente.

Como dijimos anteriormente, se prefiere una estadstica que tenga una distribucin
muestral cuya media coincida con el parmetro que se desea estimar. Un estimador de este tipo
se llama insesgado.

Si es un estimador de un parmetro y si la media de la distribucin de es , es decir,

E( ) = ,

entonces se dice que es un estimador insesgado. De otra manera, se llama sesgado.

En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos estimadores ,

el primero insesgado, E( ) = y el segundo sesgado, E( ) > . Si se calcula una vez lo

ms probable es que se encuentre cerca de la media E( ). Entonces en el primer caso lo ms
probable es que se encuentre cerca de y en el segundo que sea ms grande que .

Se prefiere una estadstica que adems tenga una distribucin muestral cuya extensin o
dispersin (medida con la variancia) sea lo menor posible. Nota: Para simplificar se habla de
variancia del estimador para referirnos a la variancia de la distribucin muestral del estimador.
En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores

insesgados , E( ) = . Si se calcula una vez , en ambos casos, lo ms probable es que se

encuentre cerca de la media E( ). Pero como la desviacin estndar del primero es menor que
la del segundo, es ms probable que en el primer caso se encuentre ms cerca de la media que
en el segundo caso.

En base a lo anterior se elige de todas las estadsticas disponibles aquella con el menor
sesgo y variancia posible. Ms an, el mejor estimador posible es aquel que es insesgado y que
de todos los insesgados tiene la menor variancia, a este estimador se lo llama estimador
insesgado de menor variancia (EIMV).
En este curso definiremos poblaciones y los parmetros de inters y se dir en cada caso
cual es el estimador adecuado, su media y su desviacin estndar.

Ejemplos de estimadores insesgados.

Media muestral x (estimador insesgado de la media poblacional )


Si se seleccionan muestras aleatorias de n mediciones de una poblacin con media y
desviacin estndar , la distribucin de muestreo de x tendr media
E( x ) = .
y desviacin estndar
x =/ n.

Proporcin muestral p (estimador insesgado del parmetro p).


Si se seleccionan muestras aleatorias de n observaciones de una poblacin binomial, con
x
parmetro p, la distribucin de muestreo de la proporcin muestral p = tendr media
n
E( p ) = p
y desviacin estndar
p = pq
n

Diferencia de medias x 1 x 2 (estimador insesgado del parmetro 1 2).


Se tienen dos poblaciones I y II con medias y desviaciones estndar (1, 1) y (2, 2),
respectivamente.
Se seleccionan en forma independiente muestras de tamao n 1 para I y de tamao n2 para II.
Si x 1 y x 2 son las medias muestrales para tales muestras, entonces la distribucin de
muestreo de x 1 x 2 tendr media
E( x 1 x 2) = 1 2
y desviacin estndar

x 12 22
1 x2
=
n1 n2

Proporcin muestral p 1 p 2 (estimador insesgado del parmetro p1 p2)


Se tienen dos poblaciones binomiales I y II con parmetros p 1 y p2, respectivamente.
Se seleccionan en forma independiente muestras de tamao n 1 para I y de tamao n2 para II.
Si p 1 y p 2 son las proporciones muestrales de tales muestras, entonces la distribucin de
muestreo de p 1 p 2 tendr media
E( p 1 p 2) = p1 p2
y desviacin estndar
p1 q1 p 2 q 2
p1 p 2 =
n1 n2

Observar que en cada caso, se toma como estimador la estadstica que corresponde al
parmetro que se quiere estimar.
La media muestral, la proporcin muestral, la diferencia de medias muestrales y la
diferencia de proporciones muestrales tienen una distribucin de muestreo que se aproxima a
una normal cuando el tamao de la/s muestra/s es grande. Como regla prctica se supone que
esto se cumple cuando n 30.
Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante

supondremos que n 30, y que trabajamos con un estimador insesgado de que tiene una
distribucin normal.

Una manera de evaluar la bondad de una estimacin puntual es a travs de la distancia


entre el estimador y el parmetro. Esta cantidad se denomina

Error de estimacin. | |.
Como se desea que este error sea lo menor posible, interesa saber si es menor que una
cierta cota que se suele expresar en trminos de la desviacin estndar del estimador:
Cota para el error de estimacin. c .

Ahora bien, no se puede saber si | | < c pues desconocemos . Sin embargo,

conociendo las caractersticas de la distribucin de , se puede calcular la probabilidad de que

| | < c , es decir,

P(| | < c )

Por ejemplo, si c = 1.96 y suponiendo que la distribucin de es normal,

P(| | < 1.96 ) = 0.95
En la siguiente figura aparece el rea correspondiente.

Ejemplo. Se quiere estimar la media de una poblacin. Se toma una muestra de tamao n = 50
y se obtiene x = 9.1, s = 0.24. Dar una estimacin para y evaluar la exactitud de la
estimacin con c = 1.96.

Parmetro
Estimador x (insesgado E( x ) = y tiene una distribucin de muestreo normal si el tamao de
la muestra es grande).
Estimacin para : 9.1.
Cota para el error de estimacin (usando s para aproximar ):
1.96 x = 1.96 / n 1.96 s / n = 1.96 0.24 / 50 0.07.
Como
P(| x | < 1.96 x ) = 0.95 P(| x | < 0.07) = 0.95
podemos decir que
la probabilidad de que el error de estimacin sea menor que 0.07 es de 95%.
En la siguiente figura aparece el rea correspondiente.

INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES

Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numricos
entre los cuales se dice que est el valor del parmetro estimado.
Supongamos que queremos estimar la media de una poblacin.
Se toma una muestra de tamao n y se determina con los datos de la muestra un
intervalo [a1, b1]. Se espera que [a1, b1] contenga a , pero puede suceder que esto no ocurra.
Se toma otra muestra de tamao n y se determina con los datos de la muestra un
intervalo [a2, b2]. Se tambin en este caso que [a2, b2] contenga a , pero igual que antes puede
suceder que esto no ocurra.
Se puede repetir este procedimiento varias veces, digamos m, obtenindose un conjunto
de intervalos [a1, b1], [a2, b2], ..., [am, bm].
Se espera que el estimador por intervalo, es decir, el procedimiento que se est usando
para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos contenga a .
El razonamiento anterior se puede hacer con cualquier otro parmetro .

Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el


intervalo contenga a se llama coeficiente de confianza.

Ahora veremos como se determinan los intervalos de confianza y el coeficiente de


confianza.

Sea un estimador insesgado de que tiene una distribucin muestral normal o
aproximadamente normal. Se tiene

Error de estimacin. | |
Cota para el error de estimacin. 1.96 (se expresa en trminos de la desviacin
estndar).

P(| | < 1.96 ) = 0.95 (para obtener este valor de P se tiene en cuenta que la

distribucin de es normal y se usa la tabla 4)

Como P(| | < 1.96 ) = 0.95 puede escribirse como

P( [ 1.96 , + 1.96 ]) = 0.95,
podemos decir que la probabilidad de que

[ 1.96 , + 1.96 ] contenga a es 0.95 = 95%.

De este modo, si es una estimacin particular de , entonces

[ 1.96 , + 1.96 ]
es un intervalo de confianza para con un coeficiente de confianza de 95%, ms brevemente
intervalo de confianza de 95%. Adems

lmite inferior de confianza: LIC = 1.96

lmite superior de confianza: LSC = + 1.96

Ms general, para establecer el intervalo de confianza con nivel de confianza (1 )%,




sea z la normal estandarizada correspondiente a : z = .


P(| | < c ) = 1 P(| z | < c ) = 1
P(c < z < c) = 1 2 P(0 < z < c) = 1 P(0 < z < c) = (1 ) / 2
1/2 P( c < z ) = (1 ) / 2 P( c < z ) = /2.

Por esta razn, si se escribe c = z/2 se tiene



Intervalo de confianza de (1 )% para , usando un estimador insesgado que tiene
una distribucin muestral normal.

[ z/2 , + z/2 ] es un intervalo de confianza de 1,

lmite inferior de confianza: LIC = z/2

lmite superior de confianza: LSC = + z/2
donde z/2 es tal que P(z/2 < z ) = /2, o equivalentemente, P(0 < z < z/2) = (1 (ver
figura 6.8, p. 204)

Nota: Intervalos de confianza para parmetros particulares aparecen en los recuadros de las
secciones:
6.5 (p. 207) para la media poblacional,
6.6 (p. 211) para la diferencia de dos medias poblacionales,
6.7 (p. 215) para el parmetro de una poblacin binomial,
6.8 (p. 219) para la diferencia entre dos parmetros binomiales.

Estos casos particulares se obtienen reemplazando en cada caso por el estimador que

corresponda a y con la desviacin estndar de . (En Ejemplos de estimadores

insesgados en p. 2 de este apunte aparecen en cada caso las expresiones de y , y que
condiciones se deben cumplir. En particular, el tamao de la/s muestra/s es n 30 para que el
estimador tenga una distribucin aproximadamente normal).

Usando la tabla 4 se puede calcular


Coeficiente de confianza (1 z/2 LIC LSC

1 c + c

0.90 0.45 1.645 1.645 + 1.645

0.95 0.475 1.96 1.96 + 1.96

0.99 0.495 2.575 2.575 + 2.575

Veamos como se obtienen los valores de z /2 para distintos valores de . Por ejemplo, se
quiere determinar el valor de z /2 para obtener un intervalo de confianza que tenga coeficiente de
confianza 1 = 90%= 0.9. Como
(1 0.45,
se debe ubicar en la tabla 4 de la normal, un valor de z /2 tal que
P(0 < z < z/2) = (1
En la tabla 4, no hay ningn valor de probabilidad igual a 0.45, sin embargo los valores ms
cercanos a 0.45 son
0.4495 que corresponde a P(0 < z < 1.64) ( P(0 < z < 1.64) = 0.4495 )
0.4505 que corresponde a P(0 < z < 1.65) ( P(0 < z < 1.65) = 0.4505 )
cumplindose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z/2 = (1.64 + 1.65) / 2 = 1.645.
Nota: Se elige el valor de z/2 que d la probabilidad que est ms cerca de (1 , o bien, si
(1 est a la mitad de dos valores de probabilidad se procede como en el caso anterior.

Ejemplo. Se quiere estimar la media de una poblacin. Se toma una muestra de tamao n = 50
y se obtiene
x = 9.1 s = 0.24.
Encontrar un intervalo de confianza de 90% para .

Parmetro
Estimador x (insesgado E( x ) = y tiene una distribucin de muestreo normal si el tamao de
la muestra es grande).
Debemos encontrar z/2 tal que P(| x | < z/2 x ) = 0.90
Segn la tabla anterior, z/2 = 1.645. As P(| x | < 1.645 x ) = 0.90.
Como
x = 9.1
x = / n s / n = 0.24 / 50 0.034
1.645 x 1.645 0.034 0.056
entonces
P(|9.1 | < 0.056) = 0.90

Conclusin: El intervalo
[9.1 0.056, 9.1 + 0.056] = [9.044, 9.156]
contiene a con una probabilidad de 90%.

Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar
intervalos de confianza bilaterales. Se pueden determinar tambin los

Intervalos de confianza unilaterales de (1 )% para , usando un estimador insesgado



que tiene una distribucin muestral normal o aproximadamente normal.

[ z , ) es un intervalo de confianza unilateral inferior de 1,

lmite inferior de confianza: LIC = z

(, + z ] es un intervalo de confianza unilateral superior de 1,

lmite superior de confianza: LSC = + z
donde z es tal que P(z < z ) = , o equivalentemente, P(z < z) = 1 (ver figura 6.9. p.
206)

TAMAO DE LA MUESTRA

Tal como dijimos la clase anterior, se supone que se trabaja con muestras aleatorias.
Ahora veremos como se determina el tamao de la muestra de modo tal que el error de
estimacin sea menor que una cierta constante B con una probabilidad de 1 , es decir,

P(| | < B) = 1

Como la cota para el error de estimacin se expresa como z/2 , se busca un tamao
de muestra n tal que
z/2 = B.
Para la mayora de los estimadores depende de n. En particular, esto se cumple para
todos los estimadores que vemos en este curso (recordar expresiones para para cada
estadstica).

Ejemplo. Determinar el tamao de la muestra para que el error al estimar la media de una
poblacin sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tom una muestra
de tamao n = 50 y se obtuvo x = 9.1 y s = 0.24.

Se busca un tamao de muestra n tal que


P(| x | < 0.06) = 0.95
O equivalentemente, se busca un tamao de muestra n tal que
z/2 = 0.06 con 1 = 0.95.
Como (1 )/2 = 0.475, segn la tabla 4, P(0 < z < z/2) = (1 )/2 para
z/2 = 1.96
Se busca entonces un tamao de muestra n tal que
z/2 x = 1.96 x = 1.96 / n = 0.06
de donde
2
1.96 2
n= .
0.06
se desconoce pero se puede aproximar con el valor s que corresponde a la muestra de n = 50.
2
1.96
n= 2 = 61.5
0.06
es decir, n = 62.

Nota. Si no hubiramos tenido la estimacin s dada por una muestra anterior, podramos haber
recurrido a la regla emprica para dar un valor aproximado de , siempre y cuando
conociramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor valor
posible para las mediciones.
Esta regla nos dice que el intervalo ( 2) contendr aproximadamente 95% de las
mediciones. Este intervalo tiene longitud 4. Adems supongamos que sabemos que las
mediciones caen en un intervalo de longitud 1. Luego
4 1 1 / 4 = 0.25.

______________________________________________________________________

S-ar putea să vă placă și