Sunteți pe pagina 1din 25

DESARROLLO DEL TRABAJO COLABORATIVO

SEMANA 3-5 - SUBGRUPO 35

Presentado por:
María Fernanda Gómez Layton COD: 1320650981
………. COD:
………. COD:

TUTORA
PATRICIA CASTILLO

POLITECNICO GRANCOLOMBIANO
Facultad de Ciencias Administrativas, Económicas y Contables
Estadistica II
Noviembre 26 de 2018
Bogotá D.C.
A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares
(GEIH), realizada por el DANE. Esta encuesta se hace en las 13 ciudades principales del
Colombia (Bogotá, Medellín, Cali, Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué,
Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades intermedias (Tunja, Florencia, Popayán,
Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta
encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en
qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo),
además de las características generales de la población como sexo, edad, estado civil y nivel
educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información a
nivel nacional, cabecera -resto, regional, departamental, y para cada una de las capitales de los
departamentos.

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos
de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la
población. En ese sentido, escoja un tipo de muestreo y argumente la viabilidad de esta técnica
para la base de datos dada. Para seleccionar una muestra debe tenerse en cuenta el cómo
seleccionar los elementos que formarán parte de la muestra (tipo de muestreo) y cuántos
elementos debemos seleccionar (Tamaño de muestra).Base de datos: en el archivo de Excel
(https://goo.gl/zB3Ntf) se tiene información sobre las características generales de las personas que
respondieron en un mes en particular. Para este trabajo colaborativo, realice lo siguiente:

DESARROLLO DE LA ACTIVIDAD

PARTE 1 (SEMANA 3-5)


SEMANA 3 SELECCIÓN DE MUESTRA

Utilizando la variable género P(6020) determine el tamaño de la muestra seleccionando


adecuadamente y justificando:

A. Fórmula a desarrollar
B. Estimación de la proporción de mujeres
C. Nivel de confiabilidadd. Error de estimación

El tipo de muestreo escogido es el muestreo SISTEMATICO porqué la viabilidad de


esta técnica es sencilla y puede ser utilizada con bastante grado de confiabilidad
en la práctica y también porque la población de la base de datos dada es
numerosa y este tipo de muestreo es recomendado en estos casos.

El muestreo sistemático, es aquel que se realiza en un lugar donde pasan las


unidades muéstrales y se selecciona una unidad cada k elementos que pasan,
hasta cumplir los n necesarios.
POBLACION

Se realizó una encuesta en las 13 ciudades principales de colombia (Bogotá,


Medellín, Cali, Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué,
Cúcuta, Villavicencio, Montería, Cartagena) y 11 Ciudades Intermedias (Tunja,
Florencia, Popayán, Valledupar, Quibdó, Neiva, Riohacha, santa Marta, Armenia,
Sincelejo, San Andrés).

Esta encuesta, se solicita información sobre las condiciones de empleo de


las personas (si trabajan, en qué trabajan, cuánto ganan, si tienen seguridad
social en salud o si están buscando empleo), además de las características generales
de la población como sexo, edad, estado civil y nivel educativo, se pregunta sobre
sus fuentes de ingresos. La GEIH proporciona al país información a nivel nacional,
cabecera - resto, regional, departamental, y para cada una de las capitales de los
departamentos.

MUESTRA

Se tomaron los datos de una encuesta realizada

N
F
n

N= 60356 y n= 100 entonces la fracción de muestreo es:

60356
F= = 603, 5660
100 604

3. CLASIFICACION DE VARIABLES
Utilizando la variable género P(6020) determine el tamaño de la muestra
seleccionando adecuadamente y justificando:

a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación

a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.

Utilizando la variable género P(6020) determine el tamaño de la muestra


seleccionando adecuadamente y justificando:

a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación

a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de
éxito, o proporción esperada Q = probabilidad de fracaso D = precisión (Error
máximo admisible en términos de proporción).

b. Estimación de la proporción de mujeres


numero de mujeres 31969
c. P= x

= = 0,529673934 0,53
total de la muestra 60356

d. Nivel de confiabilidad

2
60356 x 1.96 x 0.53 10.53 57.757,225
n = = 1,044.906 1,045
603561 x 0.032 1.962 x0.5310.53 5 4,3190,956

a Error de estimación
EZ a pq 1.96 0.530.47 1.960.0154 0 , 030184
2 n 1045
1.960.0154
1045
SEMANA 4
INTERVALO DE CONFIANZA PARA DOS VARIABLES NUMÉRICAS
Un investigador, cree determinar que existen diferencias entre los niveles de estudio
de los hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere
utilizar la base de la hoja “muestra” encontrada en la semana 3:

1. Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un


histograma para los hombres y mujeres. Según los resultados, ¿Existen
diferencias?

30
0
25 1
2
20
3
4
15
5
10 6
7
5
8
0 9
Hombre Mujer

(Gráfico de Frecuencia)

Del gráfico anterior se tiene existen mucha diferencia en cuanto a la comparación


entre las variables escolaridad (ESC) y sexo (P6020) hombres y mujeres, es decir el
nivel de escolaridad en mujeres se encuentra entre 0 a 19 mientras que en los
hombres de 0 a 20, también se puede ver que 30 mujeres se encuentran en un nivel
de escolaridad 10, y 17 mujeres tienen nivel de escolaridad 0 del total que
son 157. Por otro lado se puede ver que hay 27 hombres con un nivel de
escolaridad 5 y 24 hombres con nivel de escolaridad 1, del total que son 207 mujeres.

En cuanto a la escolaridad (ESC) para el sexo masculino estas variables consta de


157 hombres la consta un niveles de escolaridad de (0 a 20) puede observarse que
en esa columna hay unas casillas en NA
En cuanto a la escolaridad (ESC) para el sexo femenino estas variables constan de
207 mujeres con niveles de escolaridad de (0 a 19) puede observarse que en esa
columna hay unas casillas en NA
1. Asumiendo que los datos son normales, calcule un intervalo de confianza del
95% para estimar, la escolaridad promedio de los hombres y de las mujeres de
forma individual,en los niveles de estudio de Bachiller,Tecnologo y Universitario.

Hombres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por


𝑥̅- 𝑡 ( 𝛼/2 ,𝑛−1) 𝑆/√𝑛 ≤µ ≤ 𝑥̅+ 𝑡 ( 𝛼 /2 ,𝑛−1) 𝑆/√

Donde 𝑡(𝛼 ,−1) es el punto de la distribución t, con (n -1) grados de libertad, que
2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:


n =148

𝑋̅= 7.42568
S= 4.80234
Para α=0.05 entonces 𝑡(𝛼 ,−1) = 𝑡( 0 . 05,148−1) = 1.976233
2 2

Reemplazando en la ecuación anterior se tiene:

4. 80234 4. 80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148

6.64556≤ µ ≤ 8.2058

Por lo que el intervalo pedido para la escolaridad de los hombres es


[6.64556,
8.2058], es decir la media verdadera se encuentra en algún lugar entre 6.64556 y
8.2058

Mujeres
Intervalo de confianza para la media. Varianza Desconocida
𝑆 𝑆
𝑥 - 𝛼𝑡( ≤ µ ≤ 𝑥+𝑡 𝛼
,−1) √ ( ,−1) √
2 2

Donde 𝑡(𝛼 ,−1) es el punto de la distribución t, con (n -1) grados de libertad, que
2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:

n =158
𝑋̅= 7.72785
S= 5.07855
Para α=0.05 entonces 𝑡(𝛼 ,−1) = 𝑡( 0 . 05,158−1) = 1.975189
2 2

Reemplazando en la ecuación anterior se tiene:

5. 078553 5 . 078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158

6.92981≤ µ ≤ 8.52588

Por lo que el intervalo pedido para la escolaridad de las mujeres es


[6.92981,
8.52588], es decir la media verdadera se encuentra en algún lugar entre 6.92981
y 8.52588.
2. Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para estimar la diferencia de los niveles de escolaridad para los
hombres y mujeres, en los niveles de estudio de Bachiller,Tecnologo y
Universitario.

En este caso calculemos un intervalo de confianza para µ1 − µ2 Dos distribuciones


normales varianzas desconocida.
Un intervalo de confianza del (1 - α) 100% para µ1 − µ2 está dado por:

𝜎12 𝜎22 𝜎12 𝜎22


(𝑥1 − 𝑥2) -𝑍𝛼/2 √ 1
+ ≤ µ1 − µ2 ≤ (𝑥1 − 𝑥2) +𝑍𝛼/2 √ 1
+
2

Donde 𝑍α/2. es el punto crítico de la distribución z que deja a su derecha un área


de α/2.

Luego del resumen de los datos anteriores se tiene

𝑥1 =7.42568

𝑥2 =7.72785

𝜎12 =20.0913

𝜎22 =25.7916

𝑛1 =148

𝑛2 =158

Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑍α/2. = 𝑍0.05/2.=1.96

Luego reemplazando los datos en la ecuación anterior se tiene:

( 20 . (25 . 7916
(7.42568-7.72785) – (1.96) √ + ≤ µ1 − µ2 ≤ (7.42568-7.72785)
0913) )
148 158

( 20 . (25 . 7916)
+ (1.96) √ + 158
0913)
148

-1.37389≤ µ1 − µ2 ≤ 0.769557
Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para los hombres y
mujeres es.

(-1.37389, 0.769557)
HISTOGRAMA HOMBRES
50
Intervalo de Marca
Frecuencia
40 clase de clase
Desde Hasta
FRECUENCIA

30 0 2 28 1,00
20
3 5 35 4,00
6 8 20 7,00
10 9 11 44 10,00
12 14 20 13,00
0
1 2 3 4 5 6 7
15 17 6 16,00
18 20 4 19,00
ESCOLARIDAD

70
60 HISTOGRAMA MUJERES
50
FRECUENCIAS

Intervalo de Marca de
40 Frecuencia
clase clase
30 Desde Hasta
0 2 38 1,00
20
3 5 40 4,00
10 6 8 22 7,00
0
9 11 58 10,00
1 2 3 4 5 6 7 8 9
12 14 26 13,00
15 17 18 16,00
ESCOLARIDAD 18 20 3 19,00
21 23 0 22,00
24 26 1 25,00

Comparando los histogramas tenemos que si existe diferencia entre las variables escolaridad para
hombres y para mujeres, en la primera clase tenemos que hay más mujeres que alcanzan un nivel
de escolaridad de 0-2, en la segunda clase hay más mujeres que alcanzan un nivel de escolaridad
de 3-5, en la tercera clase la diferencias es menor pero siguen habiendo más mujeres que hombres
con un nivel de escolaridad de 6-8, en la cuarta clase tenemos que hay más mujeres que hombres
con un nivel escolaridad de 9-11, en la quinta clase tenemos que hay más hombres que mujeres que
tienen un nivel de escolaridad de 12-14, en las siguientes clases siempre predominan la cantidad de
mujeres que la cantidad de hombres. Por lo tanto se podría inferir que las mujeres tienen mayor nivel
de escolaridad que los hombres.
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres
con nivel de escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientrás
que en los últimos niveles de escolaridad hay pocos hombres. La distribución del histograma también
se puede examinar por medio del coeficiente de asimetía que en este caso es de 0,087053218, es decir,
la distribución tiene una asimetría positiva y se alarga a valores mayores que la media. Por otra parte la
curtosis me indica que tan achatada está la curva, en este caso tenemos una curtosis pequeña -
0,841265202

 HOMBRES

MEDIAS CENTRALES HOMBRES


Media 7,719745223
Error típico 0,390754911
Mediana 8
Moda 11
Desviación estándar 4,896144997
Varianza de la
muestra 23,97223583
Curtosis -0,841265202
Coeficiente de
asimetría 0,087053218
Rango 20
Mínimo 0
Máximo 20
Suma 1212
Cuenta 157

El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres
con nivel de escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientrás
que en los últimos niveles de escolaridad hay pocos hombres. La distribución del histograma también
se puede examinar por medio del coeficiente de asimetía que en este caso es de 0,087053218, es decir,
la distribución tiene una asimetría positiva y se alarga a valores mayores que la media. Por otra parte la
curtosis me indica que tan achatada está la curva, en este caso tenemos una curtosis pequeña -
0,841265202.

 La media: La media es de 7,719745223, cuyo valor corresponde al promedio de los niveles de


escolaridad de los hombres.

 La mediana: La mediana es 8, y es el valor que se ubica en el centro de la distribución. El nivel de


escolaridad de 8 es el valor central de ordenar los niveles de escolaridad de los hombres
ascendentemente.
 La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido,
es decir con mayor número de hombres es 11.

 Desviación estándar: En este caso la desviación estándar es de 4,896144997, esto quiere decir
que en promedio se alejan 4,896144997 de la media de los niveles de escolaridad de los hombres.

 Rango: En este caso el rango de 20, por lo que encontramos que la nivel mínimo de escolaridad
es 0 y el nivel máximo de escolaridad es 20, el rango se contruye como la resta de el nivel de
escolaridad máximo menos el nivel de escolaridad mínimo.

 MUJERES

MEDIDAS CENTRALES MUJERES


Media 8,067961165
Error típico 0,358485268
Mediana 9
Moda 11
Desviación estándar 5,145231533
Varianza de la muestra 26,47340753
Curtosis -0,796918169
Coeficiente de asimetría 0,043810057
Rango 24
Mínimo 0
Máximo 24
Suma 1662
Cuenta 206

El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más
mujeres con nivel de escolaridad entre 9 y 11.

En los primeros niveles de escolaridad hay más mujeres mientrás que en los últimos niveles de
escolaridad hay pocas mujeres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetía que en este caso es de 0,043810057, es decir, la distribución tiene una
asimetría positiva y se alarga a valores mayores que la media. Por otra parte la curtosis me indica
que tan achatada está la curva, en este caso tenemos una curtosis pequeña -0,796918169.
Si comparamos los dos histogramas tenemos que el coeficiente de asimetría en el histograma de los
niveles de escolaridad de los hombres es mayor al coeficiente de asimetría de los niveles de
escolaridad de las mujeres, esto quiere decir que el histograma de los hombres tiene una cola más
pesada.

Por otro lado la curtosis del histograma de la variable en estudio de las mujeres es mayor que la
curtosis del histograma de la variable en estudio de los hombres.

Esto indica que el histograma de los hombres es más achatado que el histograma de las mujeres,
además en el histograma de las mujeres hay una mayor concentración de los datos alrededor de la
media.

 La media: La media es de 8,067961165, cuyo valor corresponde al promedio de los niveles de


escolaridad de las mujeres.

 La mediana: La mediana es 9, y es el valor que se ubica en el centro de la distribución. El nivel de


escolaridad de 9 es el valor central de ordenar los niveles de escolaridad de las mujeres
ascendentemente.

 La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido,
es decir con mayor número de mujeres es 11.

 Desviación estándar: En este caso la desviación estándar es de 5,145231533, esto quiere decir
que en promedio se alejan 5,145231533 de la media de los niveles de escolaridad de las mujeres.

 Rango: En este caso el rango de 24, por lo que encontramos que la nivel mínimo de escolaridad
es 0 y el nivel máximo de escolaridad es 24, el rango se contruye como la resta de el nivel de
escolaridad máximo menos el nivel de escolaridad mínimo.
SEMANA 5
PRUEBA DE HIPOTESIS PARA DOS VARIABLES NOMINALES

Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia
.Para determinar lo anterior, use la “muestra” encontrada en la semana 3:

1. Utilizando la variable si actualmente asiste a un establecimiento oficial (P6175) y sexo


( P6020), realice un diagrama de barras comparativo para los hombres y mujeres en un solo gráfico. Según los
resultados, ¿Existen diferencias?

 Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento
oficial.

𝑍 = 1,96
𝑛 = 45
𝑝 = 0,73

𝑝 (1 − 𝑝 ) 0,73(1 − 0,73)
𝑃 = 𝑝 ± 𝑍√ = 0,73 ± 1,96√
𝑛 45
𝑃1 = 0,8597
𝑃2 = 0,6002
El intervalo de confianza será
0,6002 < 𝑃 < 0,8497
(0.6002 , 0.8497)

 Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento
oficial.

𝑍 = 1,96
𝑛 = 54
𝑝 = 0,76

𝑝 (1 − 𝑝 ) 0,76(1 − 0,76)
𝑃 = 𝑝 ± 𝑍√ = 0,76 ± 1,96√
𝑛 54
𝑃1 = 0,8739
𝑃2 = 0,6460
El intervalo de confianza será:

0,6460 < 𝑃 < 0,8739


(0.6460, 0.8739)

 Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de
significancia del 5%. ¿Qué se puede decir de lo anterior?

Prueba de hipótesis de dos proporciones


𝐻𝑜: 𝑝1 > 𝑝2
𝐻𝑎: 𝑝1 ≤ 𝑝2

𝑛1 𝑝1 + 𝑛 2 45(0 , 73) + 54(0 ,


𝑃= 76 ) = 0,74
𝑝2 =
𝑛1 + 𝑛2 45 + 54

𝑝1 − 𝑝2
𝑍𝑜 =
1 1
√𝑃(1 − 𝑃) ( 𝑛 + 𝑛 )
1 2
0,76 − 0,73
𝑍0 = = 0,3388
√0,74(1 − 0,74) ( 1
54
𝑍𝑜 < 𝑍
0.33<1,96

La proporción de hombres que asisten al colegio oficial


es mayor > que la proporción de mujeres en Colombia
OBJETIVOS

En este trabajo se realizaron 3 casos teniendo en cuenta la temática de muestreo y


distribuciones muestrales así como la estimación de parámetros e intervalos de
confianza en dos muestras que nos permitieron probar una hipótesis y llegar a un
resultado concluyente,estamos poniendo en práctica estas tematicas con el fin de
dar solución a los casos planteados.
CONCLUSIONES

De acuerdo a la tématica de la semana 3 y 5 y a los ejercicios planteados en los tres


escenarios ,se identificaron conceptos,fundamentos y métodos del muestreo y las
distribuciones muestrales ,al analizar las muestras como parte representativa de la
población evidenciamos la aplicación que tiene en distintos campos así como los
tipos de muestreo y las diferentes técnicas empleadas para cada caso así como los
tipos de errores en el mismo.
REFERENCIAS

Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997, 3ª ed). Estadística Básica para
las Ciencias Sociales y del Comportamiento. Capítulo 9, pp. 143-170. México:
Prentice-Hall Hispanoamericana.

Azorín, F. y Sánchez-Crespo, J. L. (1994). Métodos y Aplicaciones del Muestreo.


Madrid: Alianza Universidad Textos.

http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S1815-
02762004000100012

Sharon L. Lohr. Muestreo. Diseño y análisis. Ed Thompson. 2000

Pérez L. César. Muestreo Estadístico. Ed. Pearson Prentice Hall.2005

Cochran, W. Técnicas de Muestreo . Ed. CECSA

Kish, L. Encuestas por Muestreo. Ed. Trillas.

Sheaffer R. , Mendehall W. y Lyman R. Elementos de Muestreo. Ed. Thomson.


2007

https://docs.google.com/spreadsheets/d/1TbCkhUFip0XRekCx4k75z7Gz-
Zf_8ZbDcBrfY-H7MTU/edit#gid=1933242889

https://www.dane.gov.co/files/investigaciones/fichas/Gran_encuesta_integrada_hog
ares.pdf

http://microdatos.dane.gov.co/index.php/catalog/547/sampling

http://microdatos.dane.gov.co/index.php/catalog/550/study-description

https://glosarios.servidor-alicante.com/terminos-estadistica/variable-cualitativa-
nominal

https://www.cuidatudinero.com/13181612/que-es-una-variable-nominal

http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf

Morales,Adriana (2010(Modulo Probabilidad.Bogotá D.C.Universidad Nacional


Abierta y a distancia – UNAD

Walpole,R (1999).Probabilidad y estadistica .Mexico.Hispanoamerica

S-ar putea să vă placă și