Documente Academic
Documente Profesional
Documente Cultură
Presentado por:
María Fernanda Gómez Layton COD: 1320650981
………. COD:
………. COD:
TUTORA
PATRICIA CASTILLO
POLITECNICO GRANCOLOMBIANO
Facultad de Ciencias Administrativas, Económicas y Contables
Estadistica II
Noviembre 26 de 2018
Bogotá D.C.
A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares
(GEIH), realizada por el DANE. Esta encuesta se hace en las 13 ciudades principales del
Colombia (Bogotá, Medellín, Cali, Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué,
Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades intermedias (Tunja, Florencia, Popayán,
Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta
encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en
qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo),
además de las características generales de la población como sexo, edad, estado civil y nivel
educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información a
nivel nacional, cabecera -resto, regional, departamental, y para cada una de las capitales de los
departamentos.
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos
de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la
población. En ese sentido, escoja un tipo de muestreo y argumente la viabilidad de esta técnica
para la base de datos dada. Para seleccionar una muestra debe tenerse en cuenta el cómo
seleccionar los elementos que formarán parte de la muestra (tipo de muestreo) y cuántos
elementos debemos seleccionar (Tamaño de muestra).Base de datos: en el archivo de Excel
(https://goo.gl/zB3Ntf) se tiene información sobre las características generales de las personas que
respondieron en un mes en particular. Para este trabajo colaborativo, realice lo siguiente:
DESARROLLO DE LA ACTIVIDAD
A. Fórmula a desarrollar
B. Estimación de la proporción de mujeres
C. Nivel de confiabilidadd. Error de estimación
MUESTRA
N
F
n
60356
F= = 603, 5660
100 604
3. CLASIFICACION DE VARIABLES
Utilizando la variable género P(6020) determine el tamaño de la muestra
seleccionando adecuadamente y justificando:
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de
éxito, o proporción esperada Q = probabilidad de fracaso D = precisión (Error
máximo admisible en términos de proporción).
= = 0,529673934 0,53
total de la muestra 60356
d. Nivel de confiabilidad
2
60356 x 1.96 x 0.53 10.53 57.757,225
n = = 1,044.906 1,045
603561 x 0.032 1.962 x0.5310.53 5 4,3190,956
a Error de estimación
EZ a pq 1.96 0.530.47 1.960.0154 0 , 030184
2 n 1045
1.960.0154
1045
SEMANA 4
INTERVALO DE CONFIANZA PARA DOS VARIABLES NUMÉRICAS
Un investigador, cree determinar que existen diferencias entre los niveles de estudio
de los hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere
utilizar la base de la hoja “muestra” encontrada en la semana 3:
30
0
25 1
2
20
3
4
15
5
10 6
7
5
8
0 9
Hombre Mujer
(Gráfico de Frecuencia)
Hombres
Intervalo de confianza para la media. Varianza Desconocida
Donde 𝑡(𝛼 ,−1) es el punto de la distribución t, con (n -1) grados de libertad, que
2
deja a su derecha un área de α/2.
𝑋̅= 7.42568
S= 4.80234
Para α=0.05 entonces 𝑡(𝛼 ,−1) = 𝑡( 0 . 05,148−1) = 1.976233
2 2
4. 80234 4. 80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148
6.64556≤ µ ≤ 8.2058
Mujeres
Intervalo de confianza para la media. Varianza Desconocida
𝑆 𝑆
𝑥 - 𝛼𝑡( ≤ µ ≤ 𝑥+𝑡 𝛼
,−1) √ ( ,−1) √
2 2
Donde 𝑡(𝛼 ,−1) es el punto de la distribución t, con (n -1) grados de libertad, que
2
deja a su derecha un área de α/2.
n =158
𝑋̅= 7.72785
S= 5.07855
Para α=0.05 entonces 𝑡(𝛼 ,−1) = 𝑡( 0 . 05,158−1) = 1.975189
2 2
5. 078553 5 . 078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158
6.92981≤ µ ≤ 8.52588
𝑥1 =7.42568
𝑥2 =7.72785
𝜎12 =20.0913
𝜎22 =25.7916
𝑛1 =148
𝑛2 =158
Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑍α/2. = 𝑍0.05/2.=1.96
( 20 . (25 . 7916
(7.42568-7.72785) – (1.96) √ + ≤ µ1 − µ2 ≤ (7.42568-7.72785)
0913) )
148 158
( 20 . (25 . 7916)
+ (1.96) √ + 158
0913)
148
-1.37389≤ µ1 − µ2 ≤ 0.769557
Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para los hombres y
mujeres es.
(-1.37389, 0.769557)
HISTOGRAMA HOMBRES
50
Intervalo de Marca
Frecuencia
40 clase de clase
Desde Hasta
FRECUENCIA
30 0 2 28 1,00
20
3 5 35 4,00
6 8 20 7,00
10 9 11 44 10,00
12 14 20 13,00
0
1 2 3 4 5 6 7
15 17 6 16,00
18 20 4 19,00
ESCOLARIDAD
70
60 HISTOGRAMA MUJERES
50
FRECUENCIAS
Intervalo de Marca de
40 Frecuencia
clase clase
30 Desde Hasta
0 2 38 1,00
20
3 5 40 4,00
10 6 8 22 7,00
0
9 11 58 10,00
1 2 3 4 5 6 7 8 9
12 14 26 13,00
15 17 18 16,00
ESCOLARIDAD 18 20 3 19,00
21 23 0 22,00
24 26 1 25,00
Comparando los histogramas tenemos que si existe diferencia entre las variables escolaridad para
hombres y para mujeres, en la primera clase tenemos que hay más mujeres que alcanzan un nivel
de escolaridad de 0-2, en la segunda clase hay más mujeres que alcanzan un nivel de escolaridad
de 3-5, en la tercera clase la diferencias es menor pero siguen habiendo más mujeres que hombres
con un nivel de escolaridad de 6-8, en la cuarta clase tenemos que hay más mujeres que hombres
con un nivel escolaridad de 9-11, en la quinta clase tenemos que hay más hombres que mujeres que
tienen un nivel de escolaridad de 12-14, en las siguientes clases siempre predominan la cantidad de
mujeres que la cantidad de hombres. Por lo tanto se podría inferir que las mujeres tienen mayor nivel
de escolaridad que los hombres.
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres
con nivel de escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientrás
que en los últimos niveles de escolaridad hay pocos hombres. La distribución del histograma también
se puede examinar por medio del coeficiente de asimetía que en este caso es de 0,087053218, es decir,
la distribución tiene una asimetría positiva y se alarga a valores mayores que la media. Por otra parte la
curtosis me indica que tan achatada está la curva, en este caso tenemos una curtosis pequeña -
0,841265202
HOMBRES
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres
con nivel de escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientrás
que en los últimos niveles de escolaridad hay pocos hombres. La distribución del histograma también
se puede examinar por medio del coeficiente de asimetía que en este caso es de 0,087053218, es decir,
la distribución tiene una asimetría positiva y se alarga a valores mayores que la media. Por otra parte la
curtosis me indica que tan achatada está la curva, en este caso tenemos una curtosis pequeña -
0,841265202.
Desviación estándar: En este caso la desviación estándar es de 4,896144997, esto quiere decir
que en promedio se alejan 4,896144997 de la media de los niveles de escolaridad de los hombres.
Rango: En este caso el rango de 20, por lo que encontramos que la nivel mínimo de escolaridad
es 0 y el nivel máximo de escolaridad es 20, el rango se contruye como la resta de el nivel de
escolaridad máximo menos el nivel de escolaridad mínimo.
MUJERES
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo
positivo. Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más
mujeres con nivel de escolaridad entre 9 y 11.
En los primeros niveles de escolaridad hay más mujeres mientrás que en los últimos niveles de
escolaridad hay pocas mujeres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetía que en este caso es de 0,043810057, es decir, la distribución tiene una
asimetría positiva y se alarga a valores mayores que la media. Por otra parte la curtosis me indica
que tan achatada está la curva, en este caso tenemos una curtosis pequeña -0,796918169.
Si comparamos los dos histogramas tenemos que el coeficiente de asimetría en el histograma de los
niveles de escolaridad de los hombres es mayor al coeficiente de asimetría de los niveles de
escolaridad de las mujeres, esto quiere decir que el histograma de los hombres tiene una cola más
pesada.
Por otro lado la curtosis del histograma de la variable en estudio de las mujeres es mayor que la
curtosis del histograma de la variable en estudio de los hombres.
Esto indica que el histograma de los hombres es más achatado que el histograma de las mujeres,
además en el histograma de las mujeres hay una mayor concentración de los datos alrededor de la
media.
La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido,
es decir con mayor número de mujeres es 11.
Desviación estándar: En este caso la desviación estándar es de 5,145231533, esto quiere decir
que en promedio se alejan 5,145231533 de la media de los niveles de escolaridad de las mujeres.
Rango: En este caso el rango de 24, por lo que encontramos que la nivel mínimo de escolaridad
es 0 y el nivel máximo de escolaridad es 24, el rango se contruye como la resta de el nivel de
escolaridad máximo menos el nivel de escolaridad mínimo.
SEMANA 5
PRUEBA DE HIPOTESIS PARA DOS VARIABLES NOMINALES
Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia
.Para determinar lo anterior, use la “muestra” encontrada en la semana 3:
Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento
oficial.
𝑍 = 1,96
𝑛 = 45
𝑝 = 0,73
𝑝 (1 − 𝑝 ) 0,73(1 − 0,73)
𝑃 = 𝑝 ± 𝑍√ = 0,73 ± 1,96√
𝑛 45
𝑃1 = 0,8597
𝑃2 = 0,6002
El intervalo de confianza será
0,6002 < 𝑃 < 0,8497
(0.6002 , 0.8497)
Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento
oficial.
𝑍 = 1,96
𝑛 = 54
𝑝 = 0,76
𝑝 (1 − 𝑝 ) 0,76(1 − 0,76)
𝑃 = 𝑝 ± 𝑍√ = 0,76 ± 1,96√
𝑛 54
𝑃1 = 0,8739
𝑃2 = 0,6460
El intervalo de confianza será:
Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de
significancia del 5%. ¿Qué se puede decir de lo anterior?
𝑝1 − 𝑝2
𝑍𝑜 =
1 1
√𝑃(1 − 𝑃) ( 𝑛 + 𝑛 )
1 2
0,76 − 0,73
𝑍0 = = 0,3388
√0,74(1 − 0,74) ( 1
54
𝑍𝑜 < 𝑍
0.33<1,96
Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997, 3ª ed). Estadística Básica para
las Ciencias Sociales y del Comportamiento. Capítulo 9, pp. 143-170. México:
Prentice-Hall Hispanoamericana.
http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S1815-
02762004000100012
https://docs.google.com/spreadsheets/d/1TbCkhUFip0XRekCx4k75z7Gz-
Zf_8ZbDcBrfY-H7MTU/edit#gid=1933242889
https://www.dane.gov.co/files/investigaciones/fichas/Gran_encuesta_integrada_hog
ares.pdf
http://microdatos.dane.gov.co/index.php/catalog/547/sampling
http://microdatos.dane.gov.co/index.php/catalog/550/study-description
https://glosarios.servidor-alicante.com/terminos-estadistica/variable-cualitativa-
nominal
https://www.cuidatudinero.com/13181612/que-es-una-variable-nominal
http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf