Sunteți pe pagina 1din 13

Modulo 13

LECCIÓN 25. MUESTREO Y ESTIMACIÓN


Ejercicio, Se muestran los niveles de confianza usados en la práctica. Para niveles de confianza
que no aparecen en la tabla, los valores Zc se pueden encontrar gracias a las tablas de áreas bajo
la curva Normal.

Nivel de
confianza % 99.70 99.00 98.00 96.00 95.45 95.00 90.00 80.00 68.27 50.00
Zc
3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00
0.6745

Ejemplo. Halar los límites de confianza de 98% y 90%. Lo anterior tiene la solución, sea Z =Z  tal
que, al área bajo la curva Normal a la derecha sea 1%, entonces, por simetría el área del lado
izquierdo de Z=-Z. como el área total bajo la curva es 1, Z =0.49 por tanto, Z=2.33, luego el limite

de confianza para el 98% es,  2.33
n
Ejemplo, Una población a encuestar tiene 10000 personas y una varianza de 9.648. Trabajando
con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo del 10%, ¿cuál
debe ser el tamaño muestral para trabajar?
En las tablas de la curva Normal el valor de Z α / 2 que corresponde con el nivel de confianza
elegido, Z  / 2  1.96
n   1.96 2  9.648 / 0.12  3.706

Comprobamos que no se cumple, pues en este caso 10.000 < 3.706 (3.706 - 1); 10.000 <
13.730.730, por tanto, usamos
n   3.706 /(1  (3.706 / 10.000))  2.704

Ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que considerar la proporción
correspondiente, que es 0.95. Lo que se buscaría en seguida es el valor z para la variable aleatoria z tal que el
área simétrica bajo la curva normal desde -z hasta z sea igual a 0.95, es decir, P(-z<Z<z)=0.95.

Utilizando las tablas de la función de distribución Normal se puede calcular el valor de z, que sería 1.96 (con
una aproximación a dos decimales). Esto quiere decir que
P(-1.96<Z<1.96)=0.95.

Ejemplo: Un Colegio desea realizar una investigación sobre los alumnos inscritos en primer y segundo años,
para lo cual se aplicará un cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el
tiempo para procesar la información resultaría insuficiente en el caso de aplicársele a la población estudiantil
completa. En primera instancia, suponiendo que no se conoce el tamaño exacto de la población, pero con la
seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la primera fórmula.

Se considerará una confianza del 95%, un porcentaje de error del 5% y la máxima variabilidad por no existir
antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa. Primero
habrá que obtener el valor de Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal
que P(-z<Z<z)=0.95. Entonces, z=1.96. Resultando, n=384.16

Por ejemplo, hay que tomar una muestra de tamaño 25 de un archivo que contiene 488 fichas;
luego, el cociente entre población y muestra es 488 /25, aproximadamente 19. Notar que si se elige
20 el tamaño muestral no llega a 25. Entonces, se cuentan las fichas y a llegar a la décimo novena
se la extrae, se sigue hasta la número 38 que será la segunda escogida, y así sucesivamente
hasta tener las 25 fichas necesarias. Es también el caso de los soldados que se numeran de 1 en
adelante y cada 5 (u otro número cualquiera) dan un paso al frente. Es un método sencillo y rápido
de selección.

Si hemos de elegir 40 elementos de un grupo de 600, se comienza por calcular el cociente 600/40 que nos dice
que existen 40 grupos de 15 elementos entre los 600. Se elige un elemento de salida entre los 15 primeros, y
suponiendo que sea el k-ésimo, el resto de los elementos serán los k-ésimos de cada grupo. En concreto, si el
elemento de partida es el número 6, los restantes serán los que tengan los números: 15+6
,2x15+6,......,39x15+6

TÉCNICAS DE MUESTREO SOBRE UNA POBLACIÓN

Ejercicio, Calcule el tamaño muestral de una encuesta realizada. El error teórico era de + 2, con un intervalo
de confianza de 95,5% y P=Q en el supuesto de un muestreo aleatorio simple.

Utilizamos la fórmula para muestras infinitas en la que intervienen los tres factores determinantes
del tamaño muestral: la probabilidad con la que queremos trabajar (z), el grado de concentración,
dispersión de la población (pq) y el error que estamos dispuestos a asumir.
z 2 pq 2 2  0,5  0,5
n   2.500
e2 0,02 2

Ejemplo, Si queremos extraer n=10 muestras de una distribución N(0,1) podemos recurrir a una tabla de
números aleatorios de k=5cifras, en las que observamos las cantidades, por ejemplo, 76.293, 31.776, 50.803,
71.153, 20.271, 33.717, 17.979, 52.125, 41.330, 95.141
A partir de ellas podemos obtener una muestra de X~N(0,1) usando una tabla de la distribución normal:

Números aleatorios Muestra U(0,1) Muestra N(0,1)


ti ui=ti/105 xi = F-1(ui)
76.293 0.76 0.71
31.776 0.32 (=1-0'68) -0.47
50.803 0.51 0.03
71.153 0.71 0.55
20.271 0.20(=1-0'80) -0.84
33.717 0.34(=1-0'66) -0.41
17.979 0.18(=1-0'82) -0.92
52.125 0.52 0.05
41.330 0.41(=1-0'59) -0.23
95.141 0.95 1.65

Ejemplo, Supongamos que realizamos un estudio sobre la población de estudiantes de una Universidad, en el
que a través de una muestra de 10 de ellos queremos obtener información sobre el uso de barras de labios. En
primera aproximación lo que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos
reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es
homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos:
- Estudiantes masculinos (60% del total);
- Estudiantes femeninos (40% restante).
de modo que se repartan proporcionalmente ambos grupos el número total de muestras, en función
de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación
proporcional.

Ejemplo, Consideremos una variable aleatoria de la que sólo conocemos que su ley de distribución es
gaussiana, X~N(), con 1= y 2=2 desconocidos

Para muestras aleatorias de tamaño n=3, X1,X2,X3~N() un posible estimador del parámetro  es
(X1  X 2  X 3 )   
1 (X1 , X 2 , X 3 )  X   N , 
3  3

LECCIÓN 26. CURVA CARACTERÍSTICA Y FUNCIÓN DE POTENCIA


Considérese la hipótesis alternativa de la siguiente manera:
Ho:  = 0 = 10 H1:  > 0 n = 9,  = 0.05

La región crítica de esta prueba está en c = 10.548, es decir, se rechaza H 0  = 10 si la media de la muestra es
mayor de 10.548. Para construir la curva OC se presentan en la tabla siguiente diferentes valores de la
hipótesis alternativa con sus respectivas probabilidades de aceptación.
 9.6 9.8 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6
 0.998 0.988 0.950 0.852 0.672 0.438 0.225 0.088 0.025 0.005 0.001

La siguiente es la Curva Característica Operativa ( vs ) de la prueba de hipótesis planteada.

Si se tiene la hipótesis nula Ho: = 0 contra la hipótesis alternativa H1: = 1 el valor del error tipo II se
obtiene como una función de los valores alternativos de  bajo H1, es decir, para cada valor de 1 se calcula 
, valor que a veces denotamos por (). La gráfica  vs () recibe, como ya se dijo, el nombre de Curva
Característica Operativa, Curva OC, o curva CO.

Recordemos que ( es la probabilidad de aceptar la hipótesis nula H0 cuando la verdadera es la hipótesis
alternativa H1. Por lo tanto, 1-() representa la probabilidad de rechazar la hipótesis nula cuando la
verdadera es la hipótesis alternativa, es decir, representa la probabilidad de rechazar hipótesis falsas. Sin
embargo, en la mayoría de estudios diferentes a los de control de calidad, en vez de la curva característica
operativa se emplea la gráfica denominada "Función de Potencia", donde se grafica  vs 1-( ).

Considere la siguiente prueba de hipótesis:


Ho:  = 0 = 10 H1:  > 0  = 0.05, ² = 1.
Considere también las siguientes regiones críticas:
A: Rechazar Ho si > 10.65 B: Rechazar Ho si > 10.45

Para calcular () es necesario darle valores a  , y de ahí calcular la potencia 1-().P() = P( >c/ = 1) =
1-()
Las tablas siguientes presentan los valores de los errores tipo II y de la potencia para las pruebas planteadas.

Potencia de la prueba P()


 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6 11.8
Prueba A 0.026 0.089 0.227 0.440 0.674 0.853 0.951 0.988 0.998 1.000
Prueba B 0.089 0.227 0.440 0.674 0.853 0.951 0.988 0.998 1.000 1.000
Error tipo II ()
 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6 11.8
Prueba A 0.974 0.911 0.773 0.560 0.326 0.147 0.049 0.012 0.002 0.000
Prueba B 0.911 0.773 0.560 0.326 0.147 0.049 0.012 0.002 0.000 0.000

PROPIEDADES DE LOS ESTIMADORES


Ejemplo. La media muestral es un estimador insesgado de la media poblacional  ya que E( )=.

Ejemplo. T=X1 es un estimador insesgado de  ya que E(X1)=

Ejemplo. Si X es Binomial (n,), demostrar que X/n es un estimador insesgado del parámetro .
X X 1 1
Solución. Sea P E(P)     E(X)  n   por lo tanto es insesgado
n n n n


N
Ejemplo. Sea X1, X2,..., Xn una muestra aleatoria con E(Xi)=. Demostrar que si
i 1
a i  1 entonces T =
a1X1 + a2X2 +...+anXn es un estimador insesgado de .

Ejemplo: Si S² es la varianza de una muestra tomada al azar de una población infinita, entonces S² es un
estimador insesgado de ². Previamente habíamos demostrado que E(S²) = ².

1 n
 X i  X  , será un estimador insesgado de ²?. Se puede demostrar que
2
Ejemplo. Si V 
2
i 1
n
n 1 2
E(V 2 )  
n

1 n
  
2
Ejemplo. Sea W   
2
X , será un estimador insesgado de ² si  es un parámetro conocido?.
n i 1
i

1
 X i  X  , un estimador insesgado de la varianza ² de una población
n 2
Ejemplo. Será S 
2

n 1 i 1

finita?. No, si la población es finita de tamaño N, se puede demostrar que el estimador insesgado de ²
Aunque S² es un estimador insesgado de la varianza de una población infinita, no es un estimador insesgado
de la varianza de una población finita. En ningún caso S es un estimador insesgado de 
Ejemplo. Suponga que X, el tiempo de reacción a cierto estímulo, tiene una distribución uniforme en el
intervalo de 0 a un límite superior  (desconocido). Es decir,

 con base en una muestra aleatoria X1, X2, ..., Xn de tiempos de reacción.
Como  es el tiempo máximo de reacción, para toda la población, se cumple que  (X1, X2, ..., Xn), por lo
cual podemos considerar como un primer estimador el siguiente estadístico:
T1 = Máximo(X1, X2, ..., Xn).

Por ejemplo, si n = 5, y X = (12.4, 13.2, 15,7, 6.4, 10.7)  θ̂ = X3 = 15.7.


Es T1 un estimador insesgado de ?. S puede demostrar que
n
E (T1 )  
n 1
 n 1
El sesgo b está dado por  . Considere T2  Max ( X 1 ,  , X n ) . Es T2 un estimador insesgado
n 1 n
de? Si se tienen varios estimadores insesgados de un parámetro por lo general se escoge el que tenga la
menor varianza.

Ejemplo. Al calcular la media de una población normal sobre la base de una muestra de tamaño 2n+1, ¿cuál
es la eficiencia de la mediana con relación a la media?
Se sabe que la varianza de la media X está dada por ²/(2n+1). Para una muestra aleatoria de tamaño 2n+1
de una población normal se sabe que el valor esperado y la varianza de la mediana están dados por:
~ ~ ~  2
E ( X)    V( X) 
4n
La eficiencia relativa está dada por:

La eficiencia asintótica de la mediana con respecto a la media está dada por:

la media muestral es un estimador más eficiente de la media poblacional que la mediana muestral.

La media requiere sólo el 64% de las observaciones que requiere la mediana para estimar la media
poblacional  con la misma confiabilidad. Estimador insesgado de mínima varianza. Para saber si un
estimador insesgado es de mínima varianza o con sesgo mínimo, se usa la desigualdad de Crámer-Rao, dada
en el siguiente teorema.

Ejemplo. Demuestre que X es el estimador insesgado de mínima varianza de la media  de una población
normal.
Por lo tanto se tiene que

Como sabemos que X es un estimador insesgado y su varianza es igual ²/n entonces X es el estimador
insesgado de mínima varianza de .

Ejemplo. Si la duración de un servicio se distribuye normalmente, entonces  ˆ X  = 2.5 minutos, y


se usan muestras de tamaño 16, entonces T= 2.5/4 = 0.625 minutos. Si  es desconocido y usamos como
estimador una desviación estándar muestral de 2.8, entonces el error estándar estimado estará dado por 2.8/4 =
0.70 minutos.

Si estamos estimando una proporción , entonces su mejor estimativo será la proporción muestral, es decir

y el error estándar será

 = 0.5, y será

Si n = 50 el error máximo será

Ejemplo. La media muestral es un estimador consistente de , y la proporción muestral P = X/n es a su


vez un estimador consistente de la proporción poblacional . (Ver Ley de los grandes números).
La consistencia es una propiedad asintótica (propiedad límite).

Ejemplo. Es T = X1 un estimador consistente de la media poblacional ?


Solución. Tenemos que E(T) =E( X1) = , es decir es insesgado, y V(T) = V(X1) = 2. Como la varianza del
estimador no tiende a cero, entonces no es consistente, lo cual se puede verificar al aplicar la desigualdad de
Chebyshev, que expresa lo siguiente:
la cual no tiende a cero cuando n , es decir, que X1 no tiende a  cuando n es grande.
Problema. Demostrar que la proporción muestral P = X/n es un estimador consistente de la proporción
.

Ejemplo. Demostrar que S² es un estimador consistente de ² cuando se toman muestras de una población
normal.
Solución: Sabemos que:

E(S²) = ²
Se observa que V(S²)  0 cuando n .

Ejemplo. Demuestre que es un estimador consistente de ².

Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución gama, cuya función de
densidad está dada por,
(t ) k 1
f ( t )   e  t , t≥0
(k )

La función de verosimilitud está dada por:


n n
nk e   t i  t i
L(X, )  i 1 i 1

( k )

Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución de Poisson con parámetro
 cuya función de densidad está dada por,
x e 
f (t) 
x!
 es a su vez un estimador suficiente. La función de verosimilitud
está dada por:

, donde

ESTIMACIÓN PUNTUAL
Ejemplo, para el valor medio de la distribución normal con varianza conocida y un nivel de
confianza del 95%, tenemos, con   0,95, c  1,96 y calculamos el valor medio de la muestra
c
x1,...,xn de tamaño n, y luego, k , quedando el nivel de confianza Conf {x  k    x  k}
n
Si  es grande, una observación de X será útil para reducir la incertidumbre en la predicción de Y

EL TAMAÑO DE LA MUESTRA
El teorema del limite central, sustenta la aproximación a la normalidad para muchas distribuciones
discretas. Cuando el tamaño de la muestra es grande, y dicha muestra es tomada de cualquier
distribución con media μ, finita y varianza σ2 finita, entonces la media aritmética muestral tiene una
distribución normal con media y varianza

Podemos entonces establecer intervalos de confianza para


,
α : es denominado el nivel de significancia , si la significancia es por ejemplo, α=0.05 entonces la
confiabilidad es del 0.95.

Si entonces el 95% de las muestras se encontrarán en el intervalo

,
ahora bien , como los parámetros poblacional μ y σ son desconocidos, para muestras grandes
(n>30) la varianza muestral S2 es un buen estimador de la varianza poblacional σ 2 , podemos
afirmar con una confiabilidad predeterminada que la media aritmética poblacional μ se halla en el
intervalo

estamos admitiendo que la diferencia máxima entre μ y es de:


esto es:

entonces el tamaño de muestra mínimo es

donde :
:
Valor crítico obtenido de la tabla normal, para una confiabilidad de
S2:Varianza muestral
e: Error máximo admitido
Sin embargo, n está en función de la varianza, la cual en la práctica es desconocida, ante lo cual
debemos hacer un muestreo piloto para estimar la varianza y proceder a reajustar el tamaño de la
muestra mínimo.
Ejemplo:

Se desea realizar una investigación para analizar, cual es la resistencia promedio de una
producción de baldosas. Si admitimos un error máximo 25 Kg/cm2, cual debe ser el tamaño de
muestra mínimo si exigimos una confiabilidad del 95%, y en una muestra piloto obtuvimos una
desviación típica de 140 Kg/cm2?

Con una confiabilidad del 90% se quiere estimar la proporción de ciudadanos que votará en las
próximas elecciones. Cual debe ser el tamaño de la muestra, si admitimos un error del 3% y se
sabe que en las pasadas elecciones hubo una abstención del 70%?

Dado que X es una distribución binomial con μx= np y

Entonces

por consiguiente
Para obtener la fórmula m se deben hacer los siguientes supuestos:
1. El mínimo de datos que amerita clasificación en intervalos es 16.
2. El número de intervalos no debe ser inferior a (5).
3. Cada vez que se duplique la información se incrementa en uno (1) el número de intervalos.
Así las cosas, se obtiene la siguiente correspondencia:

Se llega a la siguiente igualdad:


n = 2m –1
Tomando logaritmo a ambos lados de la ecuación

S-ar putea să vă placă și