Sunteți pe pagina 1din 26

MUESTREO

Población: Media poblacional = µ = Parámetro = Valor fijo, desconocido

Muestra: Media muestral = x barra = Estadístico = variable aleatoria conocida (Función de


probabildiad)

X barra = f(x1, x2, x3, x4, … xn)

En un ejercicio se pueden tomar varias muestras, y no necesariamente deben quedar iguales ni


similares.

X1 barra = f(x1, x2, x3, x4, … xn)

X2 barra = f(x1, x2, x3, x4, … xn)

X3 barra = f(x1, x2, x3, x4, … xn)

DISEÑO MUESTRAL POLIETÁPICO: Es una muestra representativa diseñada para obtener datos y
generalizarlos a una cierta población, que requiere distintas etapas o procedimientos. Recoge
datos en encuesta de opinión, dividido en etapas de planificación y ejecución.

FICHA TÉCNICA DE ENCUESTAS: Es la estructura o la información técnica de la encuesta, sirve para


generar confianza en quien la realizó.

TIPO DE MUESTREO:

- Aleatorio
- Estratificado
- Sistemático
- Conglomerado

POTENCIA DE LA MUESTRA: Está relacionado con Beta. Porcentaje de población necesario para
garantizar cierta respuesta. El límite de potencia es el 80%. Una muestra que no alcance el 80% de
potencia, no sirve.

NIVEL DE CONFIANZA: Está relacionado con el error tipo 1 (alfa). (1 – alfa = Nivel de confianza).

SELECCIÓN DE LA MUESTRA:

Theta (Parámetro). Medida estadística que describe la característica numérica poblacional,


constante y desconocida.

Theta gorrito (Estimador). Magnitud variable de una muestra a otra. Función de los valores.
29 Marzo 2019:

Ho = Hipótesis

Las hipótesis se rechazan o no se rechazan, no se debe decir aceptar o no aceptar.

Potencia de prueba: Es la probabilidad de rechazar Ho cuando es falsa y debería ser rechazada. Es


el complemento de la probabilidad de cometer el error de tipo II. Una prueba es potente cuando
nuestro estudio tiene validez interna y externa. Se calcula (1 – β). Una manera de controlar β
(Probabilidad de E_II) es incrementar el tamaño de la muestra. Tamaños más grandes de muestra
permiten detectar diferencias incluso muy pequeñas de los estadísticos muestrales y los
parámetros muestrales.

Coeficiente de confianza: (1 – α) Donde α = probabilidad de cometer error de tipo I (Tipo 1) … α


= Nivel de significación. α = P(E_I) = NS (Nivel de significación)

Error de tipo I: Cuando rechazamos la hipótesis nula (Ho) y ésta es verdadera. Siempre
desearemos que α sea lo más pequeña posible.

Error de tipo II: β = P(E_II). Cuando no rechazamos la Ho y ésta es falsa.

Si yo quiero coeficientes de confianza muy altos, entonces α debe ser muy pequeño y viceversa.

Si yo quiero potencia de prueba muy alta, entonces β debe ser muy pequeño y viceversa.

En ese sentido, α es el complemento del coeficiente de confianza, y β es el complemento de la


potencia de prueba.

Para un “n” fijo, reducir α implica incrementar β

Ambos (α y β) son probabilidades.

Se espera que en dos muestras, una de control y otra experimental, las diferencias observadas en
las muestras permitan afirmar que esas diferencias son significativas. La probabilidad de que esto
ocurra es lo que llamamos “Potencia de la prueba (1 – β)”. No debe ser inferior al 80%, es decir,
que el β debe ser menor al 20%.

OBTENER MAS (Muestreo aleatorio simple) EN EXCEL:

Me voy a EscuelaMuestreo.xls

Doy =aleatorio.entre(1;500)
Saco 10 muestras de aleatorio

Vamos a Infostat, abrimos el archivo Escuela_muestreo

Saquemos Medidas de resumen

D.E = S2 = Sumatoria (x i - 𝑀𝑒𝑑𝑖𝑎)2 / n

E.E = Error estándar = S/ Raiz (n)

Aplicaciones  Didácticas  Intervalos de confianza

Vamos a muestrear con una media como la de la población 11,14 con una varianza 1,38 … elijamos
un tamaño muestral de 20 niños, un tamaño muestral de 10 y vamos a generar 100 intervalos con
una confianza del 95%

Esto significa que 7 muestras de toda la población (rojos) no logran estimar la media poblacional
Vamos a hacer un muestreo aleatorio simple sobre hemoglobina:

Estadistica  estimación de caracterisica poblacional  muestreo aleatorio simple ---


Variable = Hemoglobina  Tamaño de muestra = 500  desactivar opción varianza relativa

Observemos que el error estándar es “O” ya que la población y la muestra ambas son 500, no hay
posibilidad de error.

Ensayemos otras:

Estadisticas  Estimacion de características poblacionales  Muestreo aleaotrio simple

Estadisticas  Calculo de tamaño muestral

El MAS no me garantiza que hayan muestras de todos los estratos, el muestreo estratificado SI me
garantiza que salgan muestras de todos los estratos.
Vamos con R:

Abrir Escuela.r

Corregir dirección

En esa línea colocar indistintamente: tabla=read.table( … o … tabla=read.csv(

Comando Boxplot es diagrama de caja, en nuestro caso pusimos Hemog~parasito, eso significa
que graficará que saca un gráfico de la hemoglobina de los que tienen parásito y elgráfico de los
que no tienen parásito.

boxplot(Hemog~Sexo+Parasito,notch = TRUE, col = "blue") …. Jugar con este commando

Este comando significa que me va a explicar la variable Hemoglobina en function de Sexo y en


funcion de parasito

head(tabla) … me da los primeros seis valores

n<-30

m30<- sample(1:nrow(tabla),n,replace=FALSE)

View(m30)

toma una muestra de tamaño 30 sin remplazo (es decir qu euna muestra no puede aparecer
nuevamente en la siguiente) .. esto es lo mismo que hicimos con Excel
Defina una matriz que va a estar generada por la población que tenga todas las filas (30) por 4
columnas:

m30ind<- tabla[m30, ]

dim(m30ind)

head(m30ind)

View(m30ind)

SI quiero cambiar la muestra de tamaño, por ejemplo a 100 datos…

n<-100

m100<- sample(1:nrow(tabla),n,replace=FALSE)

View(m100)

Si quiero guardar mi muestra para usarla luego, toca escribir la tabla:

write.table(m30ind, "C:/Users/ORLANDO MARIN/Documents/MAESTRÍA EN ESTADÍSTICA


APLICADA/1er SEMESTRE - 2019-A/MUESTREO ESTADÍSTICO (GP ORLANDONI)/TALLER
1/MAS30.csv")

… y la he llamado “MAS30.csv”

RESUMEN DE LA CLASE:

#Clear memory

rm(list=ls())

#Split Screen

par(mfrow=c(1,2),new=T, font=2,cex=1)
#Lectura Data

tabla=read.csv("C:/Users/ORLANDO MARIN/Documents/MAESTRÍA EN ESTADÍSTICA


APLICADA/1er SEMESTRE - 2019-A/MUESTREO ESTADÍSTICO (GP ORLANDONI)/TALLER
1/EscuelaMuestreo.csv",header = TRUE, sep=";", dec=",")

names(tabla)

#Subir la data a memoria

attach(tabla)

head(tabla, n = 4)

#Resumen datos

summary(tabla)

dim(tabla)

tabla

#Histogramas

hist(Hemog)

table(Escuela)

table(Sexo)

table(Parasito)

table(Sexo,Parasito)

class(tabla)

table(Sexo,Escuela)

names(tabla)

attach(tabla)

hist(Hemog)

hist(Hemog, xlim = c(8, 16), main="Distribución de Hemoglobina")

boxplot(Hemog~Parasito)
boxplot(Hemog)

boxplot(Hemog~Sexo+Parasito,notch = TRUE, col = "blue")

head(tabla)

tail(tabla)

View(tabla)

table(Parasito,Sexo)

ftable(Parasito,Sexo)

#Seleccion de la muestra

#Tamaño de la muestra

n<-30

m30<- sample(1:nrow(tabla),n,replace=FALSE)

View(m30)

#Asignar los elementos de la muestra al data frame de datos

m30ind<- tabla[m30, ]

dim(m30ind)

head(m30ind)

View(m30ind)

write.table(m30ind, "C:/Users/ORLANDO MARIN/Documents/MAESTRÍA EN ESTADÍSTICA


APLICADA/1er SEMESTRE - 2019-A/MUESTREO ESTADÍSTICO (GP ORLANDONI)/TALLER
1/MAS30.csv")

n<-100

m100<- sample(1:nrow(tabla),n,replace=FALSE)

View(m100)

TAREA. Hacer completo el taller 1 (Muestreo taller 1.ppt) para IMC, generar una muestra de 30 o
de 50 y hacer todo lo que se pide ahí.
12 de abril de 2019

SCRIPT:

# Generar una muestra de tamaño 300 de una poblaciòn de 1 a 30.000, sin reposición

s = sample(1:30000, 500, replace = F)

#Muestre la tabla que acaba de generar. Esta es una tabla de 500 números elegidos al azar de
una muestra de tamaño 30.000

#Grafique el histograma de esa tabla. Este histograma tenderá a ser parejo, ya que el tamaño de
la muestra es relativamente grande

hist(s)

#Crear un conjunto de datos (otro nuevo) a partir de una población normal que tenga una media
= 100 y una DE = 20

pop_data= rnorm(10000, 100, 20)

#grafique

hist(pop_data, xlim = c(0, 200), main="Distribución Población")

#La muestra de 10.000 tiene m ayor potencia que una muestra pequeña,por ejeplo de 100

pop_data= rnorm(100, 100, 20)

hist(pop_data, xlim = c(0, 200), main="Distribución Población")


#Ensayemos ahora una muestra mucho màs grande, por ejemplo de 100.000, veremos que tiene
màs potencia, es decir, el histograma serà casi perfecto.

pop_data= rnorm(100000, 100, 20)

hist(pop_data, xlim = c(0, 200), main="Distribución Población")

Los estimadores muestrales se calculan, mientras que los parámetros poblacionales se estiman a
partir de los estimadores muestrales.

Se infiere desde la muestra a la población. Cuando se hacen las inferencias se quiere que los
errores tipo 1 sean lo más pequeños posibles (1 – 2%), lo mismo sucede con el error tipo 2. La
estadística privilegia minimizar el error 1 al error 2.

Es casi imposible que Beta y Alfa se eliminen a la vez (Ver gráfico), porque mientras una crece la
otra decrece. La única manera de eliminar a las dos es hacer que n sea igual a N (Si se tiene el
presupuesto suficiente).

El Muestreo Probabilístico garantiza que toda unidad de muestreo (y en consecuencia toda unidad
de la población) tiene una probabilidad positiva y conocida de pertenecer a la muestra que se usa
para realizar el estudio de las características de la población. Dicha probabilidad puede ser igual
para todos los elementos o distinta para cada uno.

MASI: Muestreo aleatorio simple irrestricto (Irrestricto significa “sin reposición”). En el MASI todos
los elementos tienen la misma probabilidad de ser elegidos.

El estimador (Thetha gorrito) es función de la muestra, puede ser una media estimada (miu
gorrito), puede ser una proporción estimada (p gorrito), puede ser un total estimado (tau gorrito).

El estimador siempre debe venir acompañado de la varianza del estimador (V función de theta)

Cómo sabemos si el estimador es bueno? Mediante la varianza del estimador.


El histograma es el estimador no paramétrico más elemental que existe.

La media geométrica son tasas como la velocidad

Para entender la varianza de la media muestral:

X1 X2 X3
0 3 1
3 3 5
4 3 5
3 3 4
5 3 5
X trazo 3 3 4

X trazo tiene frecuencias así: fr=2 cuando es igual a 3, y fr = 1 cuando es igual a 4

Margen de Error de Estimación: Es el margen de error que estamos dispuestos a aceptar cuando
muestreamos =

estos son mis intervalos de confianza


entre los cuales tendré una media de medias con cierta confianza.
Ver ejercicio en pagina 23 de “Muestreo_MAS_MediaTotal.pdf”

La media muestral es 12,5 y la varianza de la muestra es de 1252

Estimar Mu poblacional y el error de estimación tipo B.


SCRIPT:

rm(list=ls())

#Los datos del caribú pueden ser entrados y almacenados como un vector “y”

N=286

y= c(1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5, 4)

n=15

#Media muestral de y

mediay = mean(y); mediay

#Varianza muestral de y

vary = var(y); vary

#Estimado de la varianza de la media muestral

varmeany = (1-n/N) * (var(y)/n); varmeany

#Ahora calculemos la varianza pero sin el factor de correcciòn y entendamos cual es el efecto de
quitarle ese factor en un tamaño muestral pequeño

varmeany = (var(y)/n); varmeany

#En muestras más grandes el efecto es más pequeño

#Error estandar:

se_meany = sqrt(varmeany); se_meany


Para estimar TOTALES:
4 MAYO 2019:

Cómo diseñar una investigación por muestreo.

1. OBJETIVO: Estimar la cantidad de estudiantes cuya estatura sea mayor que 1,9 m (Nótese
que al utilizarse la expresión “Estimar” nos estamos refiriendo a tomar una muestra, hallar
los estadísticos y luego estimar los parámetros en la población). Otro ejemplo podría ser
indagar la cantidad de personas que viajan a Europa.
2. DISEÑO DE INSTRUMENTO: En este caso sería medir mediante un metro o solicitar el
documento de identidad. En otros casos tendría que ser un cuestionario.
3. OBTENCIÓN DE LA MUESTRA: Para conocer la población mediante la estimación de los
parámetros poblacionales. Hay distintos tipos de muestreo (Aleatorio, Estratificado,
Sistemático, o Conglomerado, etc). Implica determinar el tamaño de la muestra. Luego
implica la recolección de los datos.
4. ANÁLISIS DE RESULTADOS: Sistematización de los resultados.

Exponer individualmente un trabajo de muestreo que hayamos hecho, cómo obtuvimos la


muestra, el cuestionario, el tratamiento de los resultados, la estimación de los parámetros. Es
decir, idear un trabajo (IMC, género, cantidad de medio de transporte, rendimiento académico,
etc.), utilizar un tipo de muestreo, hallar los estimadores. Exponer durante 10 minutos con una
presentación de 4 o 5 diapositivas y entregar también en respectivo documento, el último día (21
de junio).
1 JUNIO 2019: MUESTREO ESTRATIFICADO

JUNIO 14 CLASE

JUNIO 15 EXPONER EL TRABAJO. NOS VEMOS A LAS 8:00 AM

Clase de hoy, diapositiva 1_Muestreo EstratificadoCaracterisitas.ppt

Esto es Y trazo
Implícitamente el cálculo del tamaño de la muestra me lo da la potencia. Eso lo vamos a ver
cuando veamos diseño de experimento.

Obsérvese en la fórmula de “n” que a mayor sea la varianza (datos muy heterogéneos), la muestra
va a resultar muy grande.
Si se trata de proporciones:

Cuando se trata de elegir el mayor tamaño de muestra, entonces se elige p= 0,5 Es la exprtesión
de lamáxima ignorancia, no sabemos nada, nos da igual a la izquierda que a la derecha de la
curva, se elige cuando no tenemos conocimiento de nada, en cambio otrs proporciones como 0,1
se eligen cuando tenemos mucha confianza de que vamos a acertar.

Cómo se asignan (afijación) los tamaños de las submiestras?


Existe una cuarta clase de afijación llamada igual, que consiste en repartir igualitariamente pro
estratos, pero no tiene sentido dentro de la estratificación.

La asiognación Optim, sale con programación no lineal

ASIGNACIÓN PROPORCIONAL:
ASIGNACIÓN NEYMAN (Léase Noiman) (Teóricamente es superior a la afijación porporcional,
pero es cuestión de gustos): Pondera cada estrato con su variabilidad (Desviacion estándar)
ASIGNACIÓN ÓPTIMA:

El resultado incorpora el costo variable “c” (nunca el fijo)


En general el procedimiento para seleccionar una muestra aleatoria estratificada, es:

El estrato debe ser homogéneo estadísticamente de acuerdo a una variable. Si no es homogéneo,


entonces no es un estrato, es un conglomerado.

Dentro de cada estrato se puede hacer muestreo aleatorio simple o sistematico u otra forma, para
ubicar en cada estrato el respectivo ni.
Vran = varianza aleatoria, de muestreo aleaotrio.
Vamos al Excel “MuestraEstratificada Ejercicio_Junio1.xlsx”

Vamos a “R” con el Script “3_strat_moose”

Vamos al ppt “2_Muestreo Estratificado R.pptx” página 3, ver el script y abrirlo en “R”.

… abruiendo un nuevo script y le copiamos:

library(SDaA)

library(sampling)

library(TeachingSampling)

Instalar paquetes:

SDaA

sampling

TeachingSampling

Rcmdr pluggin sampling


Copiar paginas 4 hasta la 7

LAS TAREAS QUE HACEN FALTA TIENEN PLAZO DE ENTREGA EL MIÉRCOLES 26 DE JUNIO

14 junio 2019

MUESTREO POR CONGLOMERADOS: Tenemos 10 fincas productoras de Cacao en todo Santander,


representados en la siguiente área:

m1 m2 m3
m4 m5 m6
m7 m8 m9 m10

mi = Cantidad de plantas de cacao en la finca i (i = 1 … 10)

Calcule el promedio de producción de Cacao en Santander.

El criterio debe ser claramente definido, ya que este ejemplo podría ser bietápico o multietápico, o
más, es decir, cada finca tiene distinta cantidad de plantas, cada planta tiene distinta cantidad de
mazorcas, cada mazorca tiene distinta cantidad de granos, cada planta es de distinta especie.
Entonces cada finca termina siendo un Cluster (Internamente dicho estrato es heterogéneo), lo
cual me genera varianzas relativamente grandes en cada estrato inicial (fincas) lo cual hace
ineficiente la estratificación, y el MASI termina siendo más eficiente.

En este caso se considera el Muestreo por Conglomerados, el muestreo Bietápico funciona así,
suponga que m5 tiene sub estratos así: m51, m52 y m53, entonces se trabaja como si ese Cluster
(m5) fuera una población, se estratifica internamente y se sacan los respectivos datos ni y el resto.

Los métodos estudiados hasta ahora (MAS; ME) están pensados para seleccionar directamente los
elementos de la población: las unidades muestrales son los elementos de la población.

En el muestreo por conglomerados, la unidad muestral es un grupo de elementos de la población


que forman una unidad, denominada conglomerado o clúster.
Cómo seleccionar una Muestra
por Conglomerados
Especificar los conglomerados apropiados; si los elementos dentro de un conglomerado son

muy similares, entonces tomar muchas observaciones dentro de un conglomerado no es


eficiente.

diferentes entre sí, una muestra con pocos conglomerados recoge gran cantidad de información
sobre un parámetro poblacional.

Estratos: deben ser homogéneos internamente, pero diferentes entre ellos, con respecto a la
característica que se está midiendo.

Conglomerados: heterogéneos internamente, pero similares entre ellos para que el muestreo
por conglomerados sea eficiente.

Luego de definir los conglomerados, se selecciona una muestra aleatoria simple de


conglomerados. Dentro de cada conglomerado seleccionado, se puede:

a)Muestrear todos los elementos del conglomerado seleccionado

b)Seleccionar una muestra aleatoria de los elementos

S-ar putea să vă placă și