Sunteți pe pagina 1din 6

Estadística II

Parte 1
Selección de muestra (Semana 3)
1. Escoja un tipo de muestreo y argumente la viabilidad de esta técnica para la base de
datos dada. Para seleccionar una muestra debe tenerse en cuenta el cómo seleccionar
los elementos que formarán parte de la muestra (tipo de muestreo) y cuántos
elementos debemos seleccionar (Tamaño de muestra).
Dada la existencia de: i) Muestreo aleatorio o probabilístico y ii) Muestreo no aleatorio
o no probabilístico. Es más acertado elegir un muestreo aleatorio o probabilístico,
puesto que este tipo de muestreo permite que todos los individuos de la población de
interés de análisis posean la misma probabilidad de ser elegidos, además de que este
tipo de muestreo es el más utilizado en las investigaciones y ejecuciones investigativas
del DANE (Departamento administrativo nacional de estadística).
A su vez, el muestreo aleatorio o probabilístico se divide en:
- Muestreo Aleatorio Simple: Este método se basa en tener presente desde el inicio de
la investigación cuántos individuos de la población a analizar son necesarios para una
análisis insesgado, para posteriormente a través del azar se analizan o encuestan solo
a los necesarios.
- Muestreo Sistemático: Sigue el mismo patrón de selección que el muestreo aleatorio
simple, puesto que se dividen según la población de estudio vs la muestra necesaria
para la investigación
- Muestreo Estratificado: Se basa en la división de grupos o estratos con características
similares, posteriormente se selecciona aleatoriamente algunas personas por cada uno
de los grupos.
- Muestreo por Conglomerados: Toda la misma metodología que el muestreo por
estratificación, pero este es más fácil, puesto que los grupos o conglomerados ya
existen.
Dado el análisis de la base de datos GEIH se descarta un muestreo estratificado o por
conglomerados, dado que se necesita un análisis de toda la población colombiana, no
solo de un estrato. Por otro lado, se aboga por el muestreo aleatorio simple, por su
implementación en investigaciones científicas y por su base en azar para seleccionar a
la muestra que extrapolara información de la población.
2. Utilizando la variable género P(6020) determine el tamaño de la muestra
seleccionando adecuadamente y justificando:
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
Según la base de datos, se tienen 60356 datos de género, divididos en 31969 mujeres y
28387 hombres.
Si poseemos un tamaño de la población de n=60356, buscamos un nivel de confianza
de 95% con un margen de error del 5% y una estimación de la proporción de mujeres
m=31969.

P = 31969/60356 = 0.529673
Nivel del alfa: 5%
5% / 2 = 2.5%
50% - 2.5% = 47.5% = 0.475
Por la tabla Z encontramos: 1.96

Hallando el intervalo de confianza:


0.529673 - 1.96 √ (0.529673(1-0.529673)) / 60356 = 0.529673 - 1.96* 0.00000826957 =
0.529673 - 0.00001620837 = 0.52965679
0.529673 + 1.96 √ (0.529673(1-0.529673)) / 60356 = 0.529673 + 1.96* 0.00000826957
= 0.529673 + 0.00001620837 = 0.5296892083
0.52965679 < P < 0.52968920
Así podemos ver que con un margen de error del 5% y un nivel de confianza del 95%, la
proporción poblacional de mujeres se encuentra 52,9656% y 52,9689%
Si n: Tamaño de la población, e: margen de error (en decimales) y z: tabla z
Lastimosamente para desarrollar la inquietud del número óptimo de la muestra con la
variable género P(6020) es imposible a traves del metodo (Tamaño de la muestra para
estimar la media poblacional con distribución normal y varianza conocida), pues la
variable género es una variable cualitativa-nominal y a este tipo de variables no se les
puede sacar varianza y por ende no se puede reemplazar o utilizar la formular
previamente mostrada.

Siendo n=Tamaño de la muestra, e=margen de error (en decimales), z= tabla Z


Si nos basamos en la anterior fórmula, con un tamaño de la población de 60356, un
nivel de confianza de 99% (Z=2.58))y un margen de error del 1% es necesaria una
muestra de 13045
En conclusión para mayor precisión en el análisis se necesita una muestra mayor.
Intervalos de Confianza (Semana 4)
1. Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para
los hombres y mujeres. Según los resultados, ¿Existen diferencias?

Con una muestra de 13045 encontramos la escolaridad de los individuos dividida como
se muestra en la imagen anterior

Según la segmentación anterior las mujeres de la muestra son las que tienen mayores
niveles de escolaridad
2. Asumiendo que los datos son normales, calcule un intervalo de confianza del 95%
para estimar, la escolaridad promedio de los hombres y de las mujeres de forma
individual, en los niveles de estudio de Bachiller, Tecnólogo y Universitario.

Con excel y sus funciones podemos hacer el ejercicio de dos maneras, de forma
manual con la fórmula X +- z*ds / raíz(n), donde x es la media, z es el número en la
tabla z, ds es la desviación estándar y raíz de n es la raíz cuadrada del número de la
muestra, que en este caso es de 6134 hombres.
Otra forma de hacerlo es ejecutando la función
=INTERVALO.CONFIANZA.NORM(H8;H3;H5)
Dándonos como límites:

Lim Inferior 7,36305984

Lim Superior 7,61574681

con un intervalo de confianza del 95% en la escolaridad de los hombres


Escolaridad

Bachiller 1.773

Técnico o 476
tecnológico

Universitario 428

2.677

En una muestra de 6907 mujeres de la muestra principal (sacada de la semana 3),


podemos concluir que el 25,66% de las mujeres son bachilleres, el 6,89% realizó un
tecnico o tecnologico y un 6,19% tiene un grado de profesional universitario.
3. Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para estimar la diferencia promedio de escolaridad para los hombres y mujeres, en los
niveles de estudio de Bachiller, Tecnólogo y Universitario.

S-ar putea să vă placă și