Documente Academic
Documente Profesional
Documente Cultură
Introduccin a la inferencia
estadstica. Estimacin
3. Estimacin y estimadores.
1. Los elementos de la muestra son independientes entre s. Por tanto, el valor que tome uno de
ellos no condicionar al de los dems. Esta independencia se puede conseguir seleccionando
los elementos al azar.
Sea X nuestra variable aleatoria de inters, y sean X1 ; X2 ; :::; Xn los elementos de una muestra
de tamao n de dicha variable aleatoria X: Entonces, antes de ver los valores concretos que tomar
la muestra formada por X1 ; X2 ; :::; Xn , tendremos que la muesta X1 ; X2 ; :::; Xn ser un conjunto
de variables aleatorias independientes e idnticas a X:
6.2. DISTRIBUCIN MUESTRAL DE UN ESTADSTICO 3
Conclusin 1: Los valores de las medidas caractersticas que se obtienen de una mues-
tra sern slo una aproximacin de los valores de las medidas caractersticas de
la poblacin.
Otra segunda limitacin de intentar averiguar cmo es una poblacin a partir de la informa-
cin de una muestra, es que nuestras conclusiones dependen de la muestra concreta que hayamos
obtenido. Con otras muestras tendramos otros valores en nuestras medidas caractersticas y po-
dramos sacar conclusiones diferentes sobre la poblacin. Supongamos que tomamos una muestra
de n = 100 artculos y medimos esas 100 longitudes obteniendo una longitud media de X = 23;5
cm Quiere esto decir que cada vez que tomemos una muestra al azar de 100 de dichos artculos
y los midamos, su media muestral ser siempre X = 23;5 cm? Pues obviamente no. Ser mucha
casualidad que dos muestras distintas nos den exctamente la misma media. Como son muestras
de una misma poblacin, las medias ser ms o menos similares, pero no tienen por qu coincidir.
Por tanto, se puede concluir los siguiente:
Conclusin 2: Los valores de las medidas caractersticas que se obtienen de una mues-
tra dependen de los elementos que la constituyen. Muestras diferentes darn por
tanto valores diferentes.
Como los elementos han sido seleccionados al azar, se dice que los valores de las medidas
caractersticas de una muestra dependen del azar del muestreo. En lugar de hablar de me-
didas caractersticas de una muestra, hablaremos de forma ms general de operaciones matemticas
realizadas con la muestra. Vamos a introducir entonces un nuevo concepto: llamaremos estadstico
a cualquier operacin realizada con una muestra. Por ejemplo, la media muestral es un estads-
tico, as como la varianza, el rango, o cualquier otra medida caracterstica. El estadstico es
la operacin matemtica, no el resultado obtenido. El estadstico tomar, de acuerdo a
4 CAPTULO 6. INTRODUCCIN A LA INFERENCIA ESTADSTICA. ESTIMACIN
la conclusin 2 anterior, un valor diferente en cada muestra. Un estadstico ser, por tanto,
una variable aleatoria pues el valor concreto que obtengamos depender del azar del muestreo.
El resultado obtenido con una muestra concreta ser una realizacin de dicha variable aleatoria.
Cada vez que realicemos el experimento de computar el valor de un estadstico en una
muestra diferente, obtendremos una realizacin diferente del estadstico. En la prctica,
tendremos una sola muestra, y por tanto una sola realizacin del estadstico.
Si queremos dar alguna interpretacin al valor de la realizacin de un estadstico en una muestra
concreta, necesitamos conocer cmo vara el valor que puede tomar el estadstico de unas muestras a
otras (ese ser uno de los objetivos de este tema). Por ejemplo, supongamos el caso de las longitudes
de los artculos antes mencionados. Supongamos tambin que sabemos por informacin histrica
que si el proceso productivo funciona adecuadamente, la longitud media ( ) de los artculos que
produce debe ser de =25 cm. Cmo podemos entonces interpretar que en una muestra de
tamao n = 100 se haya obtenido que X = 23;5 cm? Es esa diferencia (25-23.5) evidencia de
que la media se ha reducido y por eso la muestra tiene una media menor? O la media no ha
cambiado y esa discrepancia (25-23.5) puede atribuirse a la variabilidad debida al muestreo? Si no
conocemos la funcin de densidad de X no podremos valorar si 23.5 es un nmero muy alejado de
25, y por tanto sospechoso de que algo ha ocurrido en el proceso; o por el contrario que sea muy
frecuente que muestras de una poblacin de media = 25 den alejamientos tan grandes como 23.5.
Supongamos ahora que extraemos una segunda muestra de tamao n = 100 tras haber realizado
algunos ajustes a la mquina y que obtenemos que la nueva media muestral es X(2) = 24: Quiere
decir que los ajustes han provocado un aumento en la media (de 23.5 a 24)?o ese cambio (23.5-24)
puede explicarse simplemente por ser muestras diferentes de una misma poblacin de media 25?.
El tipo de preguntas que se plantean en el prrafo anterior son muy importantes en la prctica,
y sern las que querremos resolver con la estadstica. Para responder a este tipo de preguntas,
es necesario conocer las caractersticas del estadstico que nos interese (en el caso del ejemplo, la
media muestral). A la distribucin de un estadstico debido a la variabilidad de la muestra se le
denomina, distribucin del estadstico en el muestreo. Esta distribucin depender de cada
caso concreto.
Es importante darse cuenta de que estamos manejando dos niveles de variables aleatorias.
En un primer nivel, ms supercial, estara nuestra variable aleatoria de inters X. En nuestro
ejemplo sera X = longitud de un artculo genrico de nuestro proceso productivo. Para conocer
las propiedades de dicha variable aleatoria extraemos una muestra aleatoria simple de tamao n.
Las longitudes de esos n elementos sern X1 ; X2 ; :::; Xn : Como hemos dicho anteriormente, antes de
extraer la muestra, no sabremos qu valores tomarn X1 ; X2 ; :::; Xn : Y al tratarse de una muestra
aleatoria simple, estos n elementos pueden interpretarse como un conjunto de n variables aleatorias
independientes, e idnticas a nuestra variable de inters X: Nuestro objetivo es utilizar la muestra
para saber cmo es X: Para ello, computamos el valor de un conjunto de estadsticos de inters
con los datos de la muestra: X; Sx2 ; etc. Esos estadsticos constituirn, debido a la variabilidad del
muestreo, un segundo nivel de variables aleatorias con caractersticas diferentes a X: Para jar
6.3. ESTIMACIN Y ESTIMADORES 5
X1 + X2 + + Xn
^=X= :
n
Mm = E(X m ); (6.1)
^m
M = mm ; (6.5)
^m
M c
= mcm : (6.6)
SOLUCIN:
Como en una exponencial se tiene que
1 1
E(T ) = ) = ;
E(T )
Entonces, utilizando el mtodo de los momentos estimaremos el primer momento poblacional E(T )
con el primer momento muestral, que es la media muestral, es decir:
Pn
ti
T = i=1 ;
n
y por tanto el estimador de por el mtodo de los momentos ser:
^= 1 1
=
[)
E(T T
Ejemplo 2 Se desea estimar la proporcin de artculos defectuosos que produce una mquina.
Para ello se analizan n artculos, resultando que d son defectuosos. Estima p por el mtodo de los
momentos. Supondremos que la aparicin de artculos defectuosos sigue un proceso de Bernoulli.
SOLUCIN:
Si llamamos X a la variable de Bernoulli que vale 1 si el artculo es defectuoso y 0 si es
aceptable, entonces
E(X) = p
sesgo(^) = E(^) :
Por ejemplo, vimos en (6.8) que la media muestral es una variable aleatoria de media : Por lo
tanto la media mestral es un estimador insesgado de la media poblacional. En lo que
respecta a la varianza de la variable aleatoria ^; diremos que, en general sern preferibles aquellos
estimadores que tengan menor varianza, pues ser, ms precisos en el sentido de que variarn poco
de unas muestras a otras.
A la desviacin tpica de un estimador se le suele denominar error estndar del estimador.
Por ejemplo, en el caso de la media muestral como estimador de la media poblacional, veamos en
p
la seccin anterior que Var(^ ) = 2 =n. Por tanto, el error estndar de ^ es = n:
Vemos entonces que es preferible un estimador insesgado a otro sesgado, y un estimador con
poco error estndar a otro con mayor error estndar. Y si dos estimador tiene menos sesgo que otro,
pero ms varianza?Cmo elegimos el mejor? Para estos casos, deniremos un criterio que tenga
en cuenta tanto el sesgo como la varianza. Deniremos error cuadrtico medio de un estimador
ECM(^) a
h i2
ECM(^) = sesgo(^) + Var ^ :
1 1 1
^1 = X1 + X2 + X3 ;
3 3 3
1 1 1
^ 2 = X1 + X2 + X3 ;
4 2 4
1 3 1
^ 3 = X1 + X2 + X3 ;
8 8 2
donde X1 ; X2 ; X3 son las observaciones. Comprobar que son estimadores insesgados y estudiar su
error cuadrtico medio.
SOLUCIN:
6.6. LA DISTRIBUCIN DE LA MEDIA MUESTRAL 9
1 1 1 1
E(^ 1 ) = E(X1 ) + E(X2 ) + E(X3 ) = 3 =
3 3 3 3
1 1 1 1 1 1
E(^ 2 ) = E(X1 ) + E(X2 ) + E(X3 ) = + + =
4 2 4 4 2 4
1 3 1 1 3 1
E(^ 3 ) = E(X1 ) + E(X2 ) + E(X3 ) = + + =
8 8 2 8 8 2
Al ser centrados, el ECM es la varianza.
1 1 1 1 1 1 1 2 1
V ar(^ 1 ) = V ar( X1 + X2 + X3 ) = V ar(X1 ) + V ar(X2 ) + V ar(X3 ) = = = 0;333
3 3 3 9 9 9 3 3
1 1 1 1 1 1 3 2 3
V ar(^ 2 ) = V ar( X1 + X2 + X3 ) = V ar(X1 ) + V ar(X2 ) + V ar(X3 ) = = = 0;375
4 2 4 16 4 16 8 8
1 3 1 1 9 1 26 2 13
V ar(^ 3 ) = V ar( X1 + X2 + X3 ) = V ar(X1 ) + V ar(X2 ) + V ar(X3 ) = = = 0;406
8 8 2 64 64 4 64 32
luego el ms eciente es ^ 1 :
Por tanto, aunque X pueda variar de unas muestras a otras, por trmino medio proporciona el
valor de la media poblacional, que es al n y al cabo nuestro objetivo. Este resultado es muy
importante, pues nos dice que de los posibles valores que podamos obtener al cambiar la muestra,
el centro de gravedad de ellos es la media poblacional.
Para ver la dispersin de los distintos valores de medias muestrales alrededor de ; calcularemos
la varianza de X: Llamaremos Var(X) = 2 : Por tanto Var(Xi ) = 2 ; i = 1; 2; :::; n: Entonces,
X1 + X2 + + Xn Var (X1 + X2 + + Xn )
Var(X) = Var = :
n n2
10 CAPTULO 6. INTRODUCCIN A LA INFERENCIA ESTADSTICA. ESTIMACIN
Al ser una muestra aleatoria simple, los Xi sern variables aleatorias independientes, y por tanto
tendremos que
1. La varianza disminuye con el tamao muestral. Por tanto cuantos ms datos se tengan ser
ms probable que la media muestral sea un valor prximoa .
Finalmente, vemos que la media muestral puede escribirse como suma de variables aleatorias.
Reescribiendo (6.7) tenemos que
X1 X2 Xn
X= + + + ;
n n n
y por tanto, por el Teorema Central del Lmite (ver tema anterior) tenemos que, indepen-
dientemente de cmo sea X; si el tamao muestral n es sucientemente grande X ser
aproximadamente una distribucin normal. Se tiene, por tanto, que si n es grande (en la
prctica, con ms de 30 datos)
2
X N ; : (6.10)
n
Por consiguiente, la media muestral realizada con un nmero suciente de datos es una variable
aleatoria simtrica y muy concentrada alrededor de la media poblacional, independientemente de
cmo sea la naturaleza de X. De esta forma, la media muestral con un tamao muestral sucien-
temente grande proporciona una forma bastante precisa de aproximar la media poblacional : No
olvidemos que en la prctica tendremos una sola muestra, y por tanto una sola realizacin de X:
Por esta razn, es muy til disponer de resultados tericos tan interesantes como (6.10), que nos
ayuden a valorar la abilidad de la media muestral. Ntese que el resultado (6.10) es independiente
de la distribucin que siga X si n es grande. En los prximos temas obtendremos ms conclusiones
y construiremos procedimientos estadsticos basados en este resultado.