Sunteți pe pagina 1din 12

MUESTREO Y DISTRIBUCIONES DE MUESTREO:

1. Introduccin.
2. Muestreo Aleatorio.
3. Diseo de Muestras.
4. Muestreo sistemtico.
5. Muestreo Estratificado.
6. Muestreo por conglomerados.
7. Distribuciones muestrales.
8. El error estndar de la media
9. El teorema Central del lmite.

Muestreo y Distribuciones en el Muestreo


1.- Introduccin:
El principal objetivo de la mayora de los estudios, anlisis o investigaciones, es hacer
generalizaciones acertadas con base en muestras de poblaciones de las que se derivan
tales muestras. Obsrvese la palabra acertadas porque no es fcil responder cundo y en
que condiciones las muestras permiten tales generalizaciones.
Por ejemplo si queremos calcular la cantidad de dinero que se gasta una persona en
vacaciones, tomaramos como muestra lo que gastan los viajeros que lo hacen en primera
clase? es obvio que no, pero saber a que tipo de personas debemos incluir en nuestra
muestra no es algo intuitivo ni evidente.
En la mayor parte de los mtodos de muestreo que estudiaremos, supondremos que estamos
manejando las llamadas muestras aleatorias . Hacemos nfasis en las muestra aleatorias
porque son las que nos van a permitir generalizaciones vlidas o lgicas.

2.- Muestreo Aleatorio:


Para comenzar, empezaremos distinguiendo entre las dos clases de poblaciones,
Poblaciones finitas y poblaciones infinitas.
Una poblacin es finita si consta de un nmero finito o fijo de elementos, medidas u
observaciones. Por ejemplo los pesos netos de 2000 latas de atn, las calificaciones de
todos los estudiantes del instituto...
A diferencia de las poblaciones finitas, las poblaciones infinitas contienen una infinidad de
elementos. Este es el caso de cuando observamos una variable continua y hay una infinidad
de resultados distintos. Tambin es el caso del lanzamiento indefinido de dos dados,...
Para ver la idea de muestreo aleatorio en una poblacin finita de tamao N, primero veamos
cuantas muestras distintas se pueden tomar de tamao n. El nmero de muestras distintas es
N

n Por ejemplo si N=12 y n= 2

12 12 11
66

2!
2
muestras distintas.
N

Con base en el resultado de que hay n muestras distintas de tamao n de una poblacin

finita de tamao N, podemos definir como muestra aleatoria o muestra aleatoria simple de
una poblacin finita:
Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria
N

si se selecciona de manera tal que cada una de las n muestras posibles tienen la misma
1
N

probabilidad n de ser seleccionada.

pgina nmero 2

Muestreo y Distribuciones en el Muestreo


Por ejemplo si una poblacin consistente en lo N= 5 elementos a,e,i, o, u (que podran ser

5
10
los ingresos anuales de cinco personas, los pesos de 5 vacas,.....) hay 3
muestras

posibles de tamao n = 3 . estas constan de los elementos:


aei
aeo
aeu
aio
aiu
aou
eio
eiu
eou
iou
si seleccionamos una de esas muestras de forma que esta muestra tenga probabilidad 1/10
de ser elegida, decimos que dicha muestra es aleatoria.
En la prctica el describir todas las posibles muestras seria complicado si N y n son
grandes. Por ejemplo si n = 4 y N = 200 tendramos 64,684,950 muestras distintas.
Por suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas todas.
Basta con numerar los N elementos de la poblacin y retirar una a una hasta completar los

n- elementos de la muestra. Este procedimiento tambin da una probabilidad de


seleccionada la muestra por los que sera aleatoria.

1
N

n de ser

Ahora bien si la poblacin es infinita: diremos que:


Una muestra de tamao n de una poblacin infinita es aleatoria si consta de valores de
variables aleatorias independientes que tienen la misma distribucin.
Por ejemplo si lanzamos un dado 12 veces y obtenemos 2, 5, 5, 3, 3, 3, 5, 1, 6, 1,4, 1. Estos
nmeros constituyen una variable aleatoria si son valores aleatoria independientes que
tienen la misma distribucin de probabilidad f(x) = 1/6 para x= 1,2,3,4,5,6

3- Diseos de muestras:
La nica clase de muestras estudiadas hasta ahora son las aleatorias, y no hemos
considerado siquiera la necesidad de que en ciertas condiciones pueda haber muestras que
sean mejores (digamos ms fciles de obtener, ms econmicas o mas formativas) que las
aleatorias, y no hemos entrado en detalles sobre la pregunta de cuando un muestreo
aleatorio es imposible.
En estadstica un diseo de una muestra es un plan definitivo, determinado por completo
antes de recopilar cualquier dato, para tomar una muestra de una poblacin de referencia.
Vamos a estudiar las mas comunes:

pgina nmero 3

Muestreo y Distribuciones en el Muestreo


4.- Muestreo Sistemtico:
En algunos casos la manera ms prctica de realizar un muestreo consiste en seleccionar, un
primer elemento al azar y luego ir cogiendo cada x-trmino de una lista, o dejar pasar a xindividuos y preguntar al que sigue y as sucesivamente. Aunque un muestreo sistemtico
puede no ser aleatorio de acuerdo con la definicin, a menudos es razonable tratar las
muestras sistemticas como si fueran aleatorias.
El riesgo de los muestreos sistemticos es el de las periodicidades ocultas. Supongamos que
queremos testar el funcionamiento de una mquina, para lo cul vamos a seleccionar una de
cada 15 piezas producidas. Si ocurriera la desgracia de que justamente 1 de cada 15 piezas
fuese defectuosa y el error de la mquina fuera defectuoso peridicamente, tendramos dos
posibles resultados muestrales:
- Que falla siempre
- Que no falla nunca.

5.- Muestreo Estratificado:


Si tenemos informacin a cerca de una poblacin (es decir de su composicin) y esta es
importante para nuestra investigacin, podemos mejorar el muestreo aleatorio por medio de
la estratificacin. Este es un procedimiento que consiste en estratificar o dividir la
poblacin en un numero de subpoblaciones o estratos. Y seleccionamos de cada estrato
una muestra aleatoria.
Este procedimiento se conoce como muestreo aleatorio (simple) estratificado.
Supongamos una poblacin de tamao N que se divide en k estratos cuyos tamaos son:
N1, N2, .....,Nk (N1 +N2 +.....+Nk =N) Para obtener una distribucin proporcional hemos de
tener en cuenta que :

n
N

n
N

.......

n
N

n
N

de donde se obtiene que


donde n= tamao de la muestra.
1

N
N n
i

para y=1,2,3,4,.... k

Esta seria una distribucin proporcional, pero hay otras formas de distribuir porciones de
una muestra entre los distintos estratos, que seran:
- Distribucin ptima.
- Estratificacin cruzada.
- Muestreo por cuotas.
Distribucin ptima:
En la Distribucin optima, no slo se maneja el tamao del estrato, como en la distribucin
proporcional, sino que tambin se maneja la variabilidad (o cualquier otra caracterstica
pertinente) del estrato.
pgina nmero 4

Muestreo y Distribuciones en el Muestreo


La idea de la Distribucin ptima, trata de jugar no slo con el tamao del estrato, sino que
tambin pretende jugar con la variabilidad del mismo, de forma que parece lgico que los
estratos de mayor variabilidad le correspondan muestras mayores. Si 1, 2, 3, ...., k son las
desviaciones tpicas de los k-estratos podemos explicar tanto los tamaos de los estratos, as
como su variabilidad.

N 1 1

N 2 2

N 3 3

........

N k 1k

de donde se obtienen los tamaos muestrales de la distribucin ptima o Distribucin de


Neyman (su inventor) que se obtienen por la frmula:

n N
n N N ....... N
i

para y=1,2,...., k

n= n1+n2+.......+nk
Estratificacin cruzada:
La estratificacin no se limita a una variable nica de clasificacin o una caracterstica y
las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenacin o
clasificacin. As por ejemplo si queremos realizar un estudio entre los alumnos de
distintos centros de EE. MM. podramos estratificar la muestra atendiendo al nivel de
estudios, al sexo, a la especialidad,.... As parte de la muestra se dedicara a los alumnos
de sexo femenino del 1 de Bachillerato tcnico, otra parte a los alumnos de sexo masculino
de 1 Bachillerato artstico, y as sucesivamente. As y hasta cierto punto una estratificacin
de este tipo, llamada estratificacin cruzada, incrementar la precisin de las estimaciones
y otras generalizaciones que se usan comnmente en el muestreo de opinin y las
investigaciones de mercado.
Muestreo por cuotas:
En el muestreo estratificado, el costo de la toma de muestras aleatorias de los estratos
individuales es tan alto, que a los encuestadores slo se les dan cuotas que deben cubrir de
los diferentes estratos, con alguna restricciones (si no es que ninguna) Por ejemplo si se
quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que
encueste a 10 mujeres de entre 35 y 45 aos que sean asalariadas, 20 hombres de entre 30 y
45 aos que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 aos que estn
jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente
econmico, lo nico es que las muestras resultantes no cumplen las caractersticas
esenciales de las muestras aleatorias. Por tanto estos muestreos, por cuotas en esencia son
muestras de opinin, pero no son vlidos para realizar un estudio estadstico formal.

6- Muestreo Por Conglomerados:


pgina nmero 5

Muestreo y Distribuciones en el Muestreo


Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere estudiar los
patrones variables de los gastos familiares de una ciudad como Sevilla. Al intentar elaborar
los programas de gastos de una muestra de 1200 familias, nos encontramos con la
dificultad de realizar un muestreo aleatorio simple, (es complicado tener una lista
actualizada de todos los habitantes de una ciudad). Una manera de tomar una muestra en
esta situacin es dividir el rea total (Sevilla en este caso) en reas ms pequeas que no se
solapen (Por ejemplo Distritos postales, manzanas etc..) En este caso seleccionaramos
algunas reas al azar y todas las familias (o muestras de stas) que residen en estos distritos
postales o manzanas, constituiran la muestra definitiva.
En este tipo de muestreo, llamado muestreo por conglomerados, se divide la poblacin
total en un nmero determinado de subdivisiones relativamente pequeas y se seleccionan
al azar algunas de estas subdivisiones o conglomerados, para incluirlos en la muestra total.
Si estos conglomerados coinciden con reas geogrficas, este muestreo se llama tambin
muestreo por reas.
Aunque las estimaciones basadas en el muestreo por conglomerados, por lo general no son
tan fiables como las obtenidas por muestreos aleatorios simples del mismo tamao, son ms
baratas. Volviendo al ejemplo anterior, es mucho ms econmico visitar a familias que
viven en el mismo vecindario, que ir visitando a familias que viven en un rea muy extensa.
En la prctica se pueden combinar el uso de varios de los mtodos de muestreo que hemos
analizados para un mismo estudio.

7.- Distribuciones Muestrales:


Veamos ahora el concepto de distribucin muestral de una estadstica, que quiz es el
concepto mas importante de la inferencia estadstica.
Para introducir el concepto de distribucin muestral, elaboraremos la de la media de una
muestra aleatoria de tamao n=2 tomada sin remplazo de la poblacin finita de tamao
N=5, cuyos elementos son: 3,5,7,9,11.
La media de esta poblacin es:

3 5 7 9 11
7
5
y su desviacin tpica es:

(3 7) (5 7) (7 7) (9 7) (11 7)
5
2

5
10
Ahora si tomamos una muestra aleatoria de tamao n = 2 de esta poblacin hay 2

posibilidades:

n nuestra
1
2

Muestras
3
5
3
7

4
5

pgina nmero 6

Muestreo y Distribuciones en el Muestreo


3
4
5
6
7
8
9
10

Media
4
5
6
7
8
9
10

3
3
5
5
5
7
7
9

9
11
7
9
11
9
11
11

6
7
6
7
8
8
9
10

Probabilidad
1/10
1/10
2/10
2/10
2/10
1/10
1/10

Un anlisis de esta distribucin muestral revela cierta informacin relacionada con el


problema de la estimacin de la media de la poblacin de referencia con una muestra
aleatoria de tamao n=2. Por ejemplo para x = 6,7 u 8 la probabilidad de que la media
poblacin ( 7) no difiera por ms de 1 de la muestral es de 6/10. Sin embargo para x =
5,6,7,8 0 9 la media de una muestra no difiera en mas de 2 unidades es 8/10. Por
consiguiente si no conociramos la media de la poblacin de referencia y quisiramos
estimarla con la media de una muestra aleatoria de tamao n=2, el procedimiento anterior
nos da alguna idea del posible tamao del error.
Si calculamos la media y la desviacin tpica de la distribucin de las medias obtenemos
que:
y x = 3 , luego la media x coincide con la media de la poblacin y la
x = 7
desviacin tpica ha disminuido.

pgina nmero 7

Muestreo y Distribuciones en el Muestreo


Evidentemente este proceso realizado con una muestra pequea no es lo suficientemente
explicativo. si tomsemos para n=10 y N=100 sera necesario una lista de mas de 17
billones de muestras.. por lo que para realizar el proceso sera necesario hacer una
simulacin por computadora.

8.- El error Estndar de la media:


En la mayora de las situaciones reales, no podremos numerar todas las muestras posibles, o
simular una distribucin del muestreo para determinar cunto puede aproximarse la media a
la media de la poblacin de la muestra. No obstante normalmente podemos obtener la
informacin que necesitamos a partir de dos teoremas que expresan hechos esenciales sobre
las distribuciones en el muestreo de la media:
El primero nos expresa formalmente lo que descubrimos en el ejemplo anterior . La media
de la distribucin del muestreo es igual a la media de la poblacin y la desviacin tpica de
la distribucin del muestreo es menor que la desviacin tpica de la poblacin.
Esto se puede expresar de la siguiente forma:
En el caso de variables aleatorias de tamao n tomadas de una poblacin con la media y
desviacin tpica la distribucin del muestreo de x tiene la media:

x
Media de la distribucin muestral de x
Error estndar de la media (desviacin tpica
x
de la muestra)

dependiendo de que la poblacin de infinita o de tamao N

N n
N 1

Es comn referirse a x como el error estndar de la media donde se utiliza estndar en el


sentido de desviacin tpica de la distribucin muestral. Su funcin es fundamental en la
estadstica pues mide el grado en el que se puede esperar que flucten o varen las medias
de una muestra como consecuencia del azar. si x es baja, hay buenas posibilidades de que la
media de una muestra se aproxime a la media de la poblacin si x alta, es ms probable que
obtengamos una muestra que difiera considerablemente de la media de la poblacin.
A partir de las dos frmula anteriores se puede apreciar lo que determina el tamao de x .
Ambas frmulas demuestran (para poblaciones finitas e infinitas) x se incrementa conforme
aumenta la variabilidad de la poblacin y que se reduce conforme el tamao de la muestra
es mayor. De hecho es directamente proporcional a e inversamente proporcional a n ( en
las poblaciones finitas se reduce an ms rpido ya que aparece el factor

N n
N 1 )

N n
N 1 de la segunda frmula de

El factor
x se conoce como factor de correccin de la
poblacin finita. En la prctica, este se omite a menos de que la muestra constituya al
pgina nmero 8

Muestreo y Distribuciones en el Muestreo


menos un 5% de la poblacin, pues en otro caso se aproxima tanto a 1 que es despreciable
(es decir si la muestra no llega al 5% del tamao de la poblacin, no es necesario usar el
factor de correccin)

9- El Teorema Central del Lmite:


Antes de introducir este teorema, sin duda de los mas importantes dentro de la estadstica
moderna, vamos a estudiar un teorema previo. El Teorema de Chebyshev.
El Teorema de Chebyshev.
Para cualquier conjunto de datos (de una poblacin o una muestra) y cualquier constante k
mayor que 1, el porcentaje de los datos que debe caer dentro de k-veces la desviacin

tpica de cualquier lado de la media es de por lo menos:

1
k

El teorema de Chebyshev se aplica a cualquier tipo de datos, pero slo nos indica por lo
menos que porcentaje debe caer entre ciertos lmites. Pero para casi todos los datos, el
porcentaje real de datos que cae entre esos limites es bastante mayor que el que especifica
el teorema de Chebyshev.
Para las distribuciones que tienen forma de campana puede hacerse una aseveracin ms
fuerte:
(1) alrededor del 68% de los valores caern dentro de una desviacin tpica de la
media esto es: entre X , X ;
(2) aproximadamente el 95% de los valores caern dentro de dos desviaciones tpicas
de la media, esto es : X 2, X 2 ;
(3) aproximadamente el 99,7% de los valores caern dentro de dos desviaciones
tpicas de la media, esto es : X 3, X 3 ;
Basndonos en el teorema de Chebyshev con k=2 Qu podemos decir del tamao de
nuestro error, si vamos a usar la media de una muestra aleatoria de tamao n=64 para
estimar la media de una poblacin infinita con =20?
Sustituyendo n=64 y =20 en la frmula apropiada para el error estndar de la media,

20
2,5
64
y por el teorema de Chebyshev podemos afirmar que

obtenemos que :
como mnimo 1 - 1/22 = 0,75 que el error ser menor que kx = 22,5= 5.
Es decir que tenemos una garanta de que en el 75% de los casos la media de la
poblacin estar entre la media calculada 5 .
Pero esto no es suficiente, cuando la probabilidad real de este caso puede estar entre
0,98 y el 0,999

pgina nmero 9

Muestreo y Distribuciones en el Muestreo


Teorema Central del Lmite.
Para muestras grandes, se puede obtener una aproximacin cercana de la
distribucin muestral de la media con una distribucin normal.
Teniendo en cuenta que ya sabemos la media y desviacin tpica de la distribucin
muestral, podemos decir que:

=y
para muestras aleatorias infinitas con media y desviacin tpica y n
grande, entonces:
x

/ n

es un valor de una variable N(0,1)

Este teorema es muy importante, puesto que justifica el uso de los mtodos de la
curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas
y para poblaciones finitas cuando n a pesar de ser grande representa una porcin muy
pequea de la poblacin.
Es difcil sealar con precisin qu tan grande debe ser n de modo que podamos
aplicar el Teorema Central del lmite, pero a no ser que la distribucin sea muy
Inusual, por lo general se considera que n =30 es lo suficientemente alto.
Veamos el mismo ejemplo anterior aplicando el Teorema Central del Lmite.

pgina nmero 10

Muestreo y Distribuciones en el Muestreo


La probabilidad se obtiene por medio del rea marcada de la zona gris,
especficamente por medio del rea de la N(0,1) entre:
5
5
2 y z
2
20 / 64
20 / 64

lo que consultando en las tablas da una probabilidad de 0,9544. As sustituimos la


afirmacin de que la probabilidad es como mnimo 0,75 por una aseveracin ms
firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra
aleatoria de tamao n=64 de la poblacin de referencia difiera de la de la poblacin
menos de 5 unidades)
Tambin se puede usar el teorema Central del lmite para poblaciones finitas, pero
una descripcin precisa de las situaciones en que se puede hacer esto, sera ms bien
complicada. El uso apropiado ms comn es en el caso en que n es grande y n/N es
pequea. Este es el caso de la mayora de las encuestas polticas.
Veamos a continuacin un ejemplo de la importancia de la seleccin adecuada de la
muestra.
Para ello vamos a suponer una poblacin de tamao 60 elementos en el que se ha medido
una determinada caracterstica. De esta poblacin vamos a realizar 25 muestras aleatorias y
vamos a comprobar las diferencias existentes entre los valores estimados y los valores
poblacionales.
111
406
279
295
244
335

539
257
393
402
116
707
Media

216
290
450
183
127
266

128
213
92
310
348
91

462
325
241
257
418
703

283
306
302
257
232
380

413
184
319
302
400
618

237
168
193
315
166
79

193
310
281
353
451
588

177
266
313
128
315
199

298,87

Desviacin Tpica 139,4278

A continuacin observemos, las muestras obtenidas:

Nmero de muestras:
1
3
3

1
402
177
707

2
380
257
257

3
266
462
128

4
451
116
127

5
588
290
306

6
128
128
283

7
193
310
335

8
306
310
319

9
400
302
279

10
237
281
266

11
335
335
588

12
402
241
244

13
302
91
266

14
283
111
707

15
216
315
79

16
306
400
257

17
79
91
335

18
237
91
406

pgina nmero 11

19
40
18
38

Muestreo y Distribuciones en el Muestreo


4
5
6
7
8
9
10

295
290
193
588
184
451
116

Media 340,3
Desv 184,3
Tpi:

92
266
166
295
313
183
413

281
402
380
183
295
266
257

450
315
193
319
310
116
315

92
183
257
177
306
177
166

91
393
193
79
283
183
232

462
127
193
406
128
295
257

266
310
295
335
128
306
539

92
283
335
281
315
279
184

707
313
281
400
295
183
266

116
244
184
213
116
257
380

116
166
462
232
290
400
418

193
588
335
279
451
295
588

618
707
232
257
413
462
315

127
184
92
319
116
237
539

618
315
418
232
306
450
283

283
257
281
618
400
257
450

232
257
79
310
402
168
325

23
35
30
79
18
32
23

262,2
92,11

292
94,99

271,2
121,2

254,2
130,1

199,3
94,48

270,6
107

311,4
94,04

275
79,66

322,9
138,3

276,8
134,2

297,1
111,2

338,8
152,2

410,5
198

222,4
133,4

358,5
109,7

305,1
152,1

250,7
108,8

268
97,6

Media de todas las muestras

291,7

Como se puede observar las diferencias con respecto a los valores poblacionales son
importantes.

pgina nmero 12

S-ar putea să vă placă și