Sunteți pe pagina 1din 15

Tcnicas de Muestreo

Clase 2: Introduccin (segunda parte)


Tipos de Variables Aleatorias:
En general la informacin total obtenida de la muestra debe resumirse
mediante:
- Tablas,
- Grficos,
- Medidas (estimadores, estadsticos).
Tanto los estimadores como los estadsticos son variables aleatorias, por lo
cual tienen una distribucin (llamada distribucin muestral, ya que su
variabilidad se debe a que la muestra es aleatoria).
Las variables aleatorias corresponden a caractersticas numricas de los
individuos.
Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto
de valores posibles, valores que puede asumir esta caracterstica.
Cada uno de los valores que pueden asumir estas variables aleatorias, es
decir, cada elemento del recorrido, tiene asociada una funcin de probabilidad,
es decir una funcin matemtica que indica cun posible es que se obtenga tal
valor. Esta funcin matemtica se conoce como Distribucin de Probabilidad.
Las variables aleatorias (v.a.) y pueden ser de dos tipos:
- Discretas,
- Continuas.
Un conjunto es contable si es finito, es decir, se puede contar sus elementos.
Un conjunto es numerable si se puede numerar sus elementos en algn orden,
es decir, asignarle un nmero a cada elemento. Un conjunto numerable no
necesariamente es finito, hipotticamente uno podra numerar infinitamente sus
elementos, ya que tienen un orden especfico.
Las v.a. discretas son aquellas cuyo recorrido es numerable o contable.
Ejemplos: Nmero de hijos de una mujer, Nmero de aos de servicio de un
empleado, Edad (aos cumplidos), Aos de estudio, etc.
Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable,
sino que entre cada par de valores posibles existen infinitos valores ms.
Ejemplos: Estatura, peso de una persona.
En ocasiones una variable continua puede medirse mediante una escala de
medicin discreta.
Ejemplos:
Edad real (25 aos, dos meses, 13 das, 5 horas, 3 minutos, 5 segundos, etc.)
Edad en aos cumplidos (25 aos)
Sueldo lquido real ($354.211,6666) Sueldo lquido en pesos ($354.212).
En otras ocasiones una variable continua o discreta se puede medir en
intervalos.

Ejemplos:
Marque a qu categora de sueldo pertenece usted:
a. Menos de $300.000
b. $300.001 a $800.000
c. Ms de $800.000.
En qu grupo etreo se ubica el jefe de hogar:
a. Menos de 30 aos
b. Entre 30 y 45 aos
c. Entre 46 y 60 aos
d. Ms de 60 aos
Finalmente hay variables que se categorizan, es decir, los nmeros se
transforman en una clasificacin no numrica. Si se trata slo de dos
categoras, se dice que la variable se ha dicotomizado.
Grupo etreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto
mayor (ms de 60).
Grupo de nivel socioeconmico: A, B, C. D. E.
Viven menores de edad en el domicilio? S (1 ms menores de edad),
No (0 menores de edad).
El sueldo per cpita es superior a $200.000? Si ($200.000 ms), No
(menos de $200.000).
Distribuciones de Probabilidad importantes:
Variable Aleatoria Discreta Importante:
Binomial:
Un experimento es cualquier situacin que genera diversos resultados.
Un experimento Bernoulli es un experimento dicotmico a cuyos resultados se
denomina xito y fracaso, para el cual las realizaciones son independientes (si
la muestra es aleatoria se asegura la independencia) y la probabilidad de xito
es constante (si la muestra es extraa de una poblacin o subpoblacin
homognea se asegura que la probabilidad de xito es igual para todos los
individuos). La probabilidad de xito se denota por p.
Una v.a. Binomial se puede definir como: nmero de xitos en n realizaciones
de un experimento Bernoulli. Se denota por X ~ b(n, p). El n de realizaciones
n es fijo.
Ejemplo:
Se encuesta a 100 personas extradas al azar (independientes) de la fuerza de
trabajo femenina de la ciudad de Concepcin (ser homogneo este grupo?),
para consultarles respecto una modificacin en la ley laboral (experimento),
que les afecta.
Poblacin: fuerza laboral femenina de la ciudad.
X: N de personas (de un total de 100 encuestadas) que estn a favor (xito)
de la modificacin. X ~ b(n=100, p), donde p es la proporcin real en la
poblacin de personas a favor de la modificacin.
Histograma: Grfico de barras verticales, que ubica en el eje horizontal los
valores de la variable en intervalos de tamao constante, y en el eje vertical la
frecuencia o el nmero de ocurrencias en cada intervalo (se puede reemplazar
la frecuencia por el porcentaje).

% de individuos

Ejemplo:

Edad

Probabilidad

Variables aleatorias Continuas Importantes:


Uniforme:
Todos los valores son igualmente probables. Si se construye un histograma la
figura es semejante a la siguiente:

Probabilidad

Exponencial:
Los valores bajos son altamente probables y las probabilidades decrecen
rpidamente para valores altos. Si se construye un histograma la figura es
semejante a la siguiente:

Probabilidad

Normal:
El histograma resulta simtrico (un lado corresponde al reflejo del otro, como
visto en un espejo) y unimodal (un solo valor mximo). Los valores centrales
son ms probables y las probabilidades decrecen rpidamente para valores
alejados del centro. Si se construye un histograma la figura es semejante a la
siguiente:

Verificacin de Modelos:
Para verificar si un modelo es binomial, se debe realizar un anlisis intelectual
del problema. Para verificar los modelos continuos en cambio, es conveniente
realizar la grfica del histograma.
Parmetros y Estimadores
Binomial:
El parmetro de inters es la proporcin poblacional p y el estimador es la
proporcin muestral p . El clculo de p requiere un clculo sobre toda la
poblacin, cuyo tamao es N: p =
homogneas, p = X
n

N xitos en la muestra
N realizacio nes

N xitos en la poblacin
N

. En poblaciones

Normal:
El parmetro de inters es la media poblacional o esperanza y el estimador
es la media muestral o promedio .
N

El clculo de se realiza sobre toda la poblacin, de tamao N: =

X
i =1

N
n

En poblaciones homogneas, para una muestra de tamao n,

= X = i=1

La distribucin normal adems tiene otro parmetro, es la varianza poblacional


2. Su estimador es la varianza muestral 2 = S2. La raz cuadrada de la
varianza poblacional es la desviacin estndar , medida de la variabilidad o
dispersin de los valores poblacionales.
La raz cuadrada de la varianza muestral es la desviacin estndar S, medida
de la variabilidad o dispersin de los valores muestrales.
El clculo de 2 se realiza sobre toda la poblacin, cuyo tamao es N:
N

(X
i =1

X) 2

. En poblaciones homogneas, si el tamao de muestra es n, se


n

tiene que = S =
2

(X
i =1

X) 2

n -1

Medidas:
Proporcin, media y varianza no son las nicas medidas que existen. Las
medidas, en general, se dividen en medidas de localizacin y variabilidad, y se
pueden clasificar del modo siguiente:

Caractersticas de las Distribuciones:


Muestra Aleatoria: Conjunto de variables aleatorias (valores medidos en los
individuos) independientes (los individuos fueron extrados al azar) y con igual
distribucin (provienen de la misma Poblacin homognea). Esto se denota
como m.a. i.i.d.
Notacin: Parmetro; Estimador.
Distribucin normal:
Parmetro Estimador =X.
Parmetro 2 Estimador 2 = S2.
Distribucin binomial:
Parmetro p Estimador p = X .
n

Media Poblacional o Esperanza:


N

E(X) =

X
i =1

es el promedio de la variable en la Poblacin.

El estadstico anlogo es la media muestral X.


Propiedades:
Sea a, b constantes y X, X1, , Xn variables.
E(a) = a,
E(a X) = a E(X),
E(a X + b) = a E(X) + b,

E( X i ) =
i=1

E(X )
i=1

n E(X).

Igual Distribucin
Varianza Poblacional:
N

V(X) =

(X
i =1

X) 2

es el promedio de las desviaciones cuadradas respecto de la

media en la Poblacin.
El estadstico anlogo es la varianza muestral S2.
Propiedades:
Sea a, b constantes y X, X1, , Xn variables.
V(a) = 0,
V(a X) = a2 V(X),
V(a X + b) = a2 V(X),

V( X i )
i=1

V(X )
i=1

Independencia

n V(X).

Igual Distribucin

Propiedades de Bondad de los Estimadores:


Insesgamiento: E( ) = La distribucin muestral de
alrededor de centrada en .
Varianza pequea: V( ) La distribucin muestral de
dispersa, est concentrada alrededor de .

se ubica
es poco

Resultados Importantes:
Normal:
X N(, 2) E(X) = ; V(X) = 2.
n

E(X ) = E(

X
i=1

) = 1 E( X ) = 1 E(X ) =
n
n
i

n
i=1
i =1
X es estimador insesgado de E(X) = .

1
n E(X i ) = E(X) = .
n

n
1
1 n
V(X) 2
1
=
V
(
X
)
=
V(X
)
=

V(X
)
=
.

i
i
i
n
n
n
n2
n 2 i=1
n2
i =1
la varianza deX decrece a medida que el tamao de muestra crece.
E(S2) = V(X) = 2 S2 es estimador insesgado de V(X) = 2.
Binomial:
X b(n, p) E(X) = n p;
V(X) = n p (1- p).
1
X
1
E( p ) = E( ) = E(X) = n p = p.
n
n
n
p es estimador insesgado de p.
X
p (1 p)
1
1
V( p ) = V ( ) = 2 V (X) = 2 n p (1 p) =
.
n
n
n
n
la varianza de p decrece a medida que el tamao de muestra crece.

V(X ) =

V(

i=1

)=

Caractersticas de la Distribucin Normal:

Teorema del Lmite Central TLC:


Para muestras grandes (n 30 n 50), se tiene que, independiente de la
V(X)
).
distribucin original de las observaciones: X N(E(X),
n
Algunas consecuencias y observaciones importantes son las siguientes:
2
Si la distribucin de origen es normal: X N(,
).
n
V(X)
Si la distribucin de origen es continua no normal: X N(E(X),
).
n
p (1 - p)
Si la distribucin de origen es binomial: p N(p,
).
n

Teorema de Chebyshev:
Para muestras de cualquier tamao (en particular pequeas), se tiene que,
V( )
.
independiente de la distribucin original: P(| - | B) 1
B2
Algunas consecuencias y observaciones importantes son las siguientes:
V(X)
Distrib. normal u otra continua: P(|X | 2 n ) 1
=.
4 V(X)
2 V(X)
V(p )
Distrib. binomial: P(|p p| 2 p (1 p) n ) 1
=.
4 V(p )
2 V(p )
Error de Estimacin e Intervalo de Confianza:
El error de estimacin es la diferencia absoluta entre el valor real y el valor
estimado de un parmetro E = | - |.
En el caso normal, corresponde a E = | - |.
En el caso binomial, corresponde a E = | p - p|.
Se denota por B al error mximo permitido y por (1 ) al nivel de confianza en
la estimacin. Esto se resume en la siguiente expresin:
P(| - | B) = 1 .
Esta expresin tambin es anloga a decir que, con un nivel de confianza (1- )
se tiene que el verdadero valor pertenece al Intervalo de Confianza
[ - B, + B].
El nivel de confianza quiere decir que, si se construyeran un gran nmero de
intervalos, cada uno basado en una muestra extrada al azar, el verdadero
valor del parmetro estara contenido en el porcentaje dado por 1 de ellos.

Intervalos de Confianza y TLC


Para tamaos de muestra grande, podemos decir que:
Con 95% de confianza, est en el intervalo [X - 2 n ;X + 2 n ]
Con 95% de confianza, p est en el intervalo [ p -2 p (1 p) ; p +2 p (1 p) ]
n

Como es un valor desconocido, se puede aproximar por S, especialmente si


la muestra es grande. De igual forma, p se puede aproximar por p .

Intervalos de Confianza y Teorema de Tchebyshev


Para tamaos de muestra cualquiera (pequeo), podemos decir que:
Con 75% de confianza, est en el intervalo [X - 2 n ;X + 2 n ]
Con 75% de confianza, p est en el intervalo [ p -2 p (1 p) ; p +2 p (1 p) ]
n

Tambin en este caso se pueden aproximar y p. Si la muestra es pequea,


existen alternativas para S (se vern ms adelante)y p se puede aproximar por
el valor medio 0,5.

Ejercicios:
1) Considere el conjunto dado a continuacin y correspondiente a los sueldos
de los 50 empleados de una reparticin.
a. Calcule los valores poblacionales = E(X) y = V(X) .
b. Realice el histograma de los datos.
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.
2) Considere el conjunto dado a continuacin y correspondiente a la postura
de los 50 empleados de una reparticin respecto de las nuevas polticas de
la empresa.
a. Calcule el valor poblacional p.
b. Realice el histograma de los datos (codifique como 1: a favor y
0: en contra).
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule p y el intervalo de confianza para p.
ii. Vea a cuntos intervalos pertenece el valor real de p.
iii. Realice el histograma de valores de p .
iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule p y el intervalo de confianza para p.
ii. Vea a cuntos intervalos pertenece el valor real de p.
iii. Realice el histograma de valores de p .
iv. Comente.

Ayuda para trabajo en Excell


Datos Problema 1 (sueldos de los 50 empleados de una reparticin, ordenados):
156.000
173.000
178.000
215.000
218.000
235.000
240.000
250.000
269.000
278.000

279.000
279.000
287.000
290.000
297.000
298.000
319.000
320.000
323.000
332.000

340.000
343.000
346.000
352.000
353.000
356.000
367.000
386.000
391.000
412.000

414.000
423.000
430.000
440.000
451.000
459.000
477.000
490.000
510.000
530.000

546.000
557.000
570.000
580.000
605.000
649.000
684.000
699.000
716.000
740.000

a) Ubique los datos en una columna de Excell, con el ttulo Sueldos


(columna A).
A
Sueldos
156.000
173.000
178.000
Etc.

b) Utilice los siguientes intervalos para los datos: 151.000-200.000,


201.000-250.000, 251.000, 300.000, etc. Escrbalos en una columna de
Excell con el ttulo Intervalos (columna B).
B
Intervalos
151-200
201-250
251-300
Etc.

Para utilizar estos intervalos, se debe ubicar en una columna de Excell los
lmites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a
esa columna Clases (columna C).
C
Clases
200.000
250.000
300.000
Etc.

c) Debajo de la Columna Sueldos calcule promedio y desviacin estndar


(poblacional), con las frmulas en el ejemplo:
716.000
50
740.000
51
52
Promedio
53 =promedio(A2:A51)
54
Varianza Poblacional
55 =varp(A2:A51)
56 Desv. Est. Poblacional
57 =raiz(A55)

d) Para el histograma de los datos, se utiliza la columna Clases. Presione


los Men Herramientas Complementos marque Herramientas para
Anlisis Aceptar (esto se hace una sola vez, despus quedan
activadas las opciones estadsticas). Luego para acceder a las
herramientas estadsticas, presione los Men Herramientas Anlisis
de Datos Histograma. Se abre un cuadro de dilogo donde se debe
completar la informacin como en el siguiente ejemplo:

e) La imagen obtenida ser la que se muestra en el siguiente ejemplo:

Haciendo clic sobre las barras se marcarn las columnas fuente del grfico,
la idea es ubicarse con el Mouse sobre la columna destacada en morado,
presionar botn izquierdo del Mouse, y mover el cuadr morado a la columna
de los Intervalos:

f) Obtenga las frecuencias relativas o porcentajes, calculando, al lado de


las Frecuencias, con la frmula en el ejemplo:
D
E
F
Clases
Frecuencia Porcentaje
200000
3 =E2/50
250000
5

Arrastre la frmula de la celda F2 hacia abajo, desde la esquina inferior


derecha hasta F13 y presione el Men de porcentaje:

g) Ahora presione otra vez las barras del grfico y mueva la columna azul a
la de porcentajes. Finalmente reduzca con el Mouse el largo de las
columnas de fuente de los datos:

h) Finalmente el grfico se puede mejorar eliminando la Leyenda (el cuadro


que dice Frecuencia), ensanchando las columnas (botn derecho sobre
las barras, Formato de Serie de Datos Opciones Ancho del Rango: 0
Aceptar), cambiando direccin o tamao de las letras (botn derecho
sobre eje horizontal, Formato de Ejes Fuente Tamao 7
Alineacin: 0 grados Aceptar) y cambiando los ttulos.
Distribucin de Sueldos de Empleados de una Reparticin
18%
16%

Porcentaje

14%
12%
10%
8%
6%
4%
2%
0%
151-200

201-250

251-300

301-350

351-400

401-450

451-500

501-550

551-600

601-650

651-700

701-750

Intervalos de Sueldos

i) Para generar las muestras, en la Hoja 2 copie la columna A de la Hoja 1.


Luego cree una columna de Probabilidades (columna C). Como todos
los datos deben tener la misma probabilidad de salir elegidos y son 50,
la probabilidad es 1/50=0,02:
1
2
3
4

A
B
Sueldos
Probabilidades
156.000
0,02
173.000
0,02
178.000
0,02

Luego presione los Men: Herramientas Anlisis de Datos Generacin


de Nmeros Aleatorios y rellene los datos del cuadro de dilogo como en la
figura:

j) Luego ponga ttulo a cada columna en que se presenta una muestra


extrada del conjunto:
1
2
3
4
5
6

A
B
Sueldos Probabilidades
156.000
0,02
173.000
0,02
178.000
0,02
215.000
0,02
218.000
0,02

C
Muestra 1
477000
414000
716000
386000
546000

D
Muestra 2
352000
279000
451000
319000
740000

k) En las filas inferiores calcule los estimadores para cada muestra:


promedio (=promedio()), desviacin estndar muestral (=desvest()),
y construya las frmulas del lmite inferior y superior de cada intervalo,
recordando que n=5.

Datos Problema 2 (postura de los 50 empleados de una reparticin, respecto de una


nueva poltica de la empresa):
En contra
En contra
En contra
En contra
En contra
A favor
En contra
En contra
En contra
En contra

En contra
A favor
En contra
A favor
A favor
En contra
En contra
A favor
En contra
En contra

En contra
En contra
En contra
A favor
A favor
En contra
A favor
A favor
En contra
En contra

En contra
En contra
En contra
A favor
En contra
En contra
En contra
En contra
En contra
En contra

A favor
En contra
A favor
En contra
En contra
En contra
En contra
A favor
En contra
En contra

Los desarrollos en este caso son muy semejantes a los del problema 1, pero
presentan algunas diferencias, en primer lugar, que es factible definir la
distribucin de probabilidad poblacional a ojo o con la funcin Contar.si (vea el
ejemplo) y luego dividiendo por 50 para calcular la probabilidad:
1
2
3
4
5
6
7

A
Postura
En contra
En contra
En contra
En contra
En contra
A favor

B
Resultados
A favor
En contra
Codificacin
1
0

C
Frecuencia
=CONTAR.SI(A2:A51;"A Favor")
Probabilidad
=C1/50

Entonces, en la generacin de muestras (nmeros aleatorios) slo se usarn


como fuente de los datos Codificacin y Probabilidad:
.

Tcnicas de Muestreo
Clase 3: Elementos del Problema de Muestreo
Tamao de la Muestra:
Cada elemento de la poblacin contiene una cierta cantidad de informacin
relativa a ella, a las variables en juego, a sus distribuciones y a sus parmetros;
sin embargo cada unidad muestreada implica un costo, lo que motiva la
determinacin del mnimo tamao muestral que permita el logro de los
objetivos de la estimacin (precisin y confianza deseadas), dada la
variabilidad (desviacin estndar del estimador) existente y el tamao de la
Poblacin.
De estos cuatro factores, dos son propios del problema y no se pueden alterar
(variabilidad, tamao de la poblacin), mientras que los otros dos son definidos
por el investigador (precisin y confianza).
El ideal es que se pueda contar con que las mediciones hayan sido realizadas
en forma exacta. En caso contrario, se habla de error de medicin. Este tipo
de error debe minimizarse.
Definiciones importantes:
Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las
mediciones.
Poblacin: Coleccin de elementos acerca de los cuales se desea realizar
inferencias.
Unidades de muestreo: Colecciones no traslapadas de elementos que cubren
la poblacin completa.
Marco muestral: Lista de unidades de muestreo.
Muestra: Una coleccin de unidades seleccionadas de uno o de varios marcos
muestrales.
Diseo del Muestreo:
El objetivo del muestreo es la estimacin de parmetros de la poblacin.
La estimacin se basa en la informacin muestral. La precisin de esta
estimacin es determinada por el investigador como el error mximo de
estimacin B.
E = | | B.
La probabilidad 1 de que la estimacin tenga un error que no supere a esta
cota se denomina nivel de confianza.
P( E B) = P(| | B) = 1 .
Como se vio anteriormente, si consideramos B = 2( ) y:

el tamao de muestra n es grande, o la distribucin es normal, se tiene


que la probabilidad es 1 = 0,95 (95%);

el tamao de muestra n es pequeo, se tiene que la probabilidad es


1 = 0,75 (75%).

S-ar putea să vă placă și