Sunteți pe pagina 1din 16

Estadística Descriptiva

Actividad Paso 3

Estudiante

Yenira Rosa Jassan Campuzano

Grupo del curso

100105- 27

Presentado a

Jhanna Patrick Brieva

2018

Actividades a desarrollar
1. Medidas de Tendencia Central.

Actividad individual

Elegir una variable cuantitativa discreta que sea representativa y elaborar una
tabla de frecuencias para datos NO agrupados, representarla gráficamente,
calcular las medidas de tendencia central: media, mediana, moda, los
cuartiles, deciles 5 y 7; percentiles 30, 50 e interpretar sus resultados.

Se elige como variable discreta la El número de personas desempleadas por lo


que tratarse de una variable discreta no es posible agrupar los datos en tablas no
analizarlos en gráficos representativos como frecuencia ya que se trata de personas
sin empleo por lo que se procede a calcular las medidas de tendencia central:

Análisis Personas sin Empleo

Media 4945286,176
Moda Conjunto Amodal
Mediana 4946357
Rango 5591251
Mínimo 2282953
Máximo 7874204
Suma 786300502
Cuenta 159
Mayor (1) 7874204
Menor (1) 2282953
Tabla 1
Calculo de cuartiles:

Cuartil 1

𝐾 𝑥 𝑁 1 𝑥 159 159
𝑄1 = = = 39,75 ≅ 40
4 4 4

Corresponde al dato: 4.221.136

Cuartil 2

𝐾 𝑥 𝑁 2 𝑥 159 318
𝑄2 = = = 79,5 ≅ 80
4 4 4

Corresponde al dato: 4.946.357

Cuartil 3

𝐾 𝑥 𝑁 3 𝑥 159 477
𝑄3 = = = 119,25 ≅ 120
4 4 4

Corresponde al dato: 5.708.950


Calculo de Deciles:

Calculo de decil 5 y 7:

De acuerdo con la figura siguiente:

Figura 1

El decil 5 corresponde al cuartil 2 por lo que tenemos que: Q2 = D5 y ya conocemos


el valor de Q2 por lo que el D5 corresponde al valor dato de la posición 80 que es
4.946.357

Decil 7

𝐾 𝑥 𝑁 7 𝑥 159 1113
𝐷7 = = = 111,3 ≅ 112
10 10 10

Corresponde al dato: 5.552.705


Calculo de Percentiles.

Percentil 30:

𝐾 𝑥 𝑁 30 𝑥 159 4770
𝑃30 = = = 47,7 ≅ 48
100 100 100

Corresponde al dato: 4.007.249

Percentil 50:

De acuerdo con la figura 1 se evidencia que el percentil 50 corresponde al valor del


decil 5 y del cuartil 2 por lo que tenemos que corresponde al valor de la posición 80
que corresponde al valor de 4.946.357

Conclusiones.

- El mayor número de personas desempleadas son 7.874.204 y el menor


número de desempleados es de 2.282.953, según lo anterior se deduce que
las personas desempleadas no superan los 5.591.251 de personas
desempleadas en el periodo de enero de 2004 y marzo de 2017.
- 4.946.357 es el valor medio (mediana) según el análisis de datos por lo que
las personas desempleadas y corresponde al 50% de los datos analizados,
así mismo se demostró mediante los cálculos realizados que la mediana es
igual al cuartil 2, decil 5 y percentil 50.
- El 25% (Cuartil 1) de los datos analizados demuestran que las personas
desempleadas no superan los 4.221.136 y tal solo supera al percentil 30 que
corresponde a 4.007.249 de habitantes desempleados.
 Elegir una variable Continua que sea representativa y siguiendo los
lineamientos, diseñar una tabla de frecuencia para datos agrupados a
partir del (rango, número de Intervalos, amplitud), representarla
gráficamente por medio de un histograma de frecuencias, un polígono
de frecuencias, calcular las medidas de tendencia central, determinar el
tipo de asimetría, los cuartiles, deciles 5 y 7; percentiles 25, 50
(Interpretar sus resultados).

Se elige como variable continua La tasa de desempleo para lo cual se procede a


determina de la tabla frecuencia:

Como primera instancia se procede al cálculo de la amplitud de la tabla de


frecuencia por medio de la regla de Sturges:

𝐴 = 1 + 3.3 log 𝑛

𝐴 = 1 + 3.3 log 159 = 8.26 ≅ 8

A=8

Se determina la longitud del intervalo con la fórmula:

𝑅𝑎𝑛𝑔𝑜 9,732101729
𝐿𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = = = 1,216512716
𝐴 8
Luego se procede a diseñar la tabla:

Numero Frecuencia
Límite Limite Marca de Frecuencia
de Absoluta f*X
Inferior Superior Clase (X) Absoluta
Clases Acumulada
1 7,27 8,49 7,88 11 11 86,67
2 8,49 9,71 9,10 30 41 272,95
3 9,71 10,93 10,32 39 80 402,41
4 10,93 12,15 11,54 46 126 530,76
5 12,15 13,37 12,76 21 147 267,92
6 13,37 14,59 13,98 8 155 111,83
7 14,59 15,81 15,20 3 158 45,59
8 15,81 17,03 16,42 1 159 16,42
Total 159
Tabla 2

Histograma de frecuencia:

50
45
40
35
FRECUENCIA

30
25
20
15
10
5
0
7,27 - 8,49 8,49 - 9,71 9,71 - 10,93 10,93 - 12,15 - 13,37 - 14,59 - 15,81 -
12,15 13,37 14,59 15,81 17,03
TASA DE DESEMPLEO

Grafica 1
Polígono de Frecuencia:

50
45
40
35
Frecuencia

30
25
20
15
10
5
0
7,27 - 8,49 8,49 - 9,71 9,71 - 10,93 - 12,15 - 13,37 - 14,59 - 15,81 -
10,93 12,15 13,37 14,59 15,81 17,03
Tasa de Desempleo

Grafica 2

Calculo de las medidas de tendencia central.

Se realizo cálculo de las medidas de tendencia central por medio de la herramienta


análisis de datos en Excel y se calculó la moda por medio de la expresión:

𝑓𝑘−1
𝑀𝑂 = ∗ 𝐴 + 𝐿𝐾
𝑓𝑘−1 + 𝑓𝑘+1

Donde:

𝑓𝑘−1 , es la frecuencia absoluta de la clase anterior donde se encuentra el dato más


frecuente.

𝑓𝑘+1 , es la frecuencia absoluta de la clase posterior donde se encuentra el dato más


frecuente.

A, es el valor de la amplitud de los intervalos.

Lk, es el limite real inferior de la clase en donde se encuentra el dato más frecuente.
Media 10,91
Mediana 10,91
Moda 11,72
Coeficiente de asimetría 0,37
Coeficiente de Variación 0,2692
Rango 9,73
Mínimo 7,27
Máximo 17,00
Suma 1734,454482
Cuenta 159
Mayor (1) 17,00
Menor (1) 7,27

Tabla 3

El tipo de asimetría que se evidencia en la gráfica del polígono de frecuencia es


asimetría hacia la derecha ya que la mayoría de los datos están ubicados después
de la moda.

Calculo de cuartiles:

A partir de la expresión:

𝑵∗𝒌
− 𝑭𝒌
𝑸𝒌 = 𝑳𝒌 + 𝟒 ∗𝑨
𝒇𝒌

Lk, es el límite inferior de la clase donde se encuentra el cuartil.

Fk, es la frecuencia acumulada anterior a la clase del cuartil.

A, es la amplitud de la clase.
Fk, Es la frecuencia absoluta de la clase del cuartil k

N, Es el número de datos.

Notamos que Q1 se encuentra en la clase 2 por lo que tenemos:

Primer cuartil:

𝟏𝟓𝟗 ∗ 𝟏
− 𝟏𝟏
𝑸𝟏 = 𝟖, 𝟒𝟗 + 𝟒 ∗ 𝟏, 𝟐𝟏
𝟑𝟎

Q1=9,65

Segundo cuartil:

Se nota que está en la clase 3 ya que en ella es donde prácticamente se parte en 2


la cantidad de datos tal como se muestra en la frecuencia acumulada

𝟏𝟓𝟗 ∗ 𝟐
− 𝟖𝟎
𝑸𝟐 = 𝟏𝟎, 𝟗𝟑 + 𝟒 ∗ 𝟏, 𝟐𝟏
𝟒𝟔

Q2=10,91

Tercer cuartil:

Como notamos el cuartil 3 está en la clase 4 por lo que tenemos:

𝟏𝟓𝟗 ∗ 𝟑
− 𝟖𝟎
𝑸𝟑 = 𝟏𝟎, 𝟗𝟑 + 𝟒 ∗ 𝟏, 𝟐𝟏
𝟒𝟔

Q3=11,97
Calculo de deciles:

𝑵∗𝒌
− 𝑭𝒌
𝑫𝒌 = 𝑳𝒌 + 𝟏𝟎 ∗𝑨
𝒇𝒌

Lk, es el límite inferior de la clase donde se encuentra el decil.

Fk, es la frecuencia acumulada anterior a la clase del decil.

A, es la amplitud de la clase.

Fk, Es la frecuencia absoluta de la clase del decil k

N, Es el número de datos.

Decil:5

Tal como se demostró en la gráfica 1 el decil 5 corresponde al valor del cuartil 2 por
lo que tenemos que:

D5=10,91

Decil 7:

Para calcular el decil 7 tomamos como referencia el cuartil 3 ya que este se ubica el
75% de los datos por lo que determinamos que el Decil 7 está en la clase 4

𝟏𝟓𝟗 ∗ 𝟕
− 𝟖𝟎
𝑫𝟕 = 𝟏𝟎, 𝟗𝟑 + 𝟏𝟎 ∗ 𝟏, 𝟐𝟏
𝟒𝟔

D7=11,75

Calculo de percentiles

Percentil 25: Aplicamos el concepto de la gráfica 1 por lo que el tenemos que el


percentil 25 es igual al cuartil 1 por lo que tenemos:
P25=9,65

Percentil 50: Aplicamos el concepto de la gráfica 1 por lo que el tenemos que el


percentil 25 es igual al cuartil 2 y decil 5 por lo que tenemos:

P50=10,91

Conclusiones.

- La tasa de desempleo que corresponde al 50% (Mediana) de los datos


analizados es 10,91 de igual forma corresponde al mismo valor el decil 5 y
percentil 50 de acuerdo con los cálculos realizados y es superado por el decil
7 que corresponde a una tasa de desempleo de 11,75.
- El 25% de los datos analizados muestra una tasa de desempleo no superior
a 9,55 que corresponde al primer cuartil y percentil 25.
- La mayor tasa de desempleo en el periodo de enero de 2004 y marzo de
2017 se encuentra en el rango de 10,93 y 12,15.
2. MEDIDAS UNIVARIANTES DE DISPERSION.

A partir de la base de datos suministrada, cada estudiante o cada par de estudiantes


debe elegir como mínimo, una variable cuantitativa discreta (puede ser la misma
que utilizó con las medidas de tendencia central) y calcular las medidas univariantes
de dispersión más adecuadas, a aquellas que consideren sean relevantes para el
problema de estudio.

2.1. Con la variable Discreta elegida calcular: rango, varianza, desviación


típica y coeficiente de variación. Interpretar los resultados obtenidos y
asociarlos con el problema objeto de estudio.
- Se calcula el rango:

Rango = LMax - LMin = 7.874.204 - 2.282.953

Rango= 5591251

- Se calcula Varianza:

2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆 =
𝑁

Ya anteriormente habíamos calculado la media de los valores, por lo que solo hay
que calcular la diferencia entre el dato y la media y esto elevarlo al cuadrado,
posteriormente calcular el resultado de dicha operación y dividirla entre el número
de datos:

178.691.164.466.997
𝑆2 =
159

𝑆 2 = 1.123.843.801.679

- Calculo De Desviación Típica:


Para calcular la desviación estándar basta con hallar la raíz cuadrada de la
varianza, por lo tanto, su ecuación sería

𝑆 = √𝑆 2

𝑆 = √1.123.843.801.678

𝑆 =1.060.114,995

- Calculo de coeficiente de variación.

𝑆
𝐶𝑉 =
𝑥̅

1.060.114,995
𝐶𝑉 =
4.945.286,176

CV= 0,214368786

Conclusión

No existe diferencia significativa entre el coeficiente de variación y el mayor de los


datos analizados, se entiende entonces que la agrupación de los datos es
homogénea

2.2. Con la variable cuantitativa Continua elegida calcular: rango, varianza,


desviación típica y coeficiente de variación. Interpretar los resultados
obtenidos y asociarlos con el problema objeto de estudio.
- Se calcula el rango:

Rango = LMax - LMin = 17 – 7,27

Rango= 10,91
- Se calcula Varianza:
𝑛
2
𝑥𝑖 2 ∗ 𝑓𝑖
𝑆 =∑ − 𝑥̅ 2
𝑁
𝑖=1

Ya anteriormente habíamos calculado la media de los valores anteriormente para lo


cual tenemos lo siguiente:

19387,31
𝑆2 = − 10,912
159

𝑆 2 = 2,94

- Calculo De Desviación Típica:


Para calcular la desviación estándar basta con hallar la raíz cuadrada de la
varianza, por lo tanto, su ecuación sería:

𝑆 = √𝑆 2

𝑆 = √2,94

𝑆 =1,71

- Calculo de coeficiente de variación.

𝑆
𝐶𝑉 =
𝑥̅

1,71
𝐶𝑉 =
10,91

CV= 0,2692
Conclusión

No existe diferencia significativa entre el coeficiente de variación y el mayor de


los datos analizados, se entiende entonces que la agrupación de los datos es
homogénea

S-ar putea să vă placă și