Sunteți pe pagina 1din 32

HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Vamos a seguir con el caso práctico.


Ahora que nos hemos situado, hemos entendido la tabla de datos y las
variables.
Es momento de pasar a una fase extremadamente importante, la descripción
de los datos o la exploración.
Y es precisamente lo que has hecho sin darte cuenta en el primer
ejercicio. Has creado gráficos y los has interpretado. Es precisamente la
exploración de datos.

Vamos a describir dos situaciones:


1- Una comparación de medias con SPSS
2- Una exploración de la correlación con Excel

Aviso: el ejercicio lo vamos a hacer en Excel y SPSS. Pero puedes


utilizar RStudio, RCommander o cualquier otro software. No hay ningún
problema.
El ejercicio trata de entender conceptos estadísticos de forma práctica y
entender un método de trabajo 
Puedes conseguir una copia de prueba SPSS durante un mes en esta página:
https://www.ibm.com/analytics/es/es/technology/spss/spss-trials.html
O utilizar PSPP que es el software libre y gratuito casi igual que SPSS:
https://www.gnu.org/software/pspp/

Excel supongo que lo tendrás instalado 

¡A por ello!

1. Explorando la comparación de medias


con SPSS
En el primer ejercicio creaste unos boxplots que nos permiten comparar
distribuciones de forma sencilla y fácil.
Te recuerdo el gráfico que creaste.
Fíjate que es de gran ayuda este gráfico. Nos situar muy bien las
distribuciones y las podemos comparar.
Aun así, podemos ir un paso más allá. Calculando características de la
centralidad y la dispersión.

1
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

El objetivo del ejercicio era poder comparar los grupos según la


fertilidad, la mortalidad infantil la esperanza de vida.
Ahora quiero que completes estos boxplots con resultados descriptivos (de
centralidad y de dispersión). Más info aquí:
https://conceptosclaros.com/pro-statistics-leccion-5/
https://conceptosclaros.com/pro-statistics-leccion-6/

Rellena la tabla siguiente con los resultados que obtengas. Sigue los
tutoriales tech zen para poderlo hacer:

Descriptivos

Error
group Estadístico estándar
africa fertility Media
95% de Límite
intervalo de inferior
confianza Límite
para la superior
media
Media recortada al 5%
Mediana
Varianza
Desviación estándar
Mínimo
Máximo
Rango
Rango intercuartil
Asimetría
Curtosis

2
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

oecd fertility Media


95% de Límite
intervalo de inferior
confianza Límite
para la superior
media
Media recortada al 5%
Mediana
Varianza
Desviación estándar
Mínimo
Máximo
Rango
Rango intercuartil
Asimetría
Curtosis
other fertility Media
95% de Límite
intervalo de inferior
confianza
Límite
para la
superior
media
Media recortada al 5%
Mediana
Varianza
Desviación estándar
Mínimo
Máximo
Rango
Rango intercuartil
Asimetría
Curtosis

Crea un diagrama de error o diagrama de medias para poder comparar el


valor central y la dispersión por grupos. Más abajo un ejemplo:

3
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Sigue los tutoriales Tech Zen de la página del ejercicio

Copia las tablas de comparación de descriptivos y los diagramas de error


que has obtenido de la variable PIB per cápita ppgdp

4
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

5
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

6
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

7
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

¿Qué conclusiones puedes obtener?

PIB PER CÁPITA EN DÓLARES

Grupo Media Desviación estándar


OCDE $37,761.139 $22,092.07
AFRICA $2,336.792 $3,423.781
OTHER $9,818.937 $12,502.384

OCDE
La mediana es mayor a la media, hablaríamos de un sesgo ligeramente negativo ya
que su diferencia no es muy amplia. Sin embargo, la asimetría nos da un valor >0, es
decir hablamos de un sesgo ligeramente positivo (a la derecha)
En cuanto a la curtosis, también arroja un valor >0, es decir tenemos una distribución
leptocurtica, es decir comparado con la curva normal es más apuntada.

AFRICA
Aquí la mediana es menor a la media y coincide con su asimetría >0, por lo que
claramente hablamos de un sesgo positivo y su curtosis es >0, al igual que antes es más
apuntada que la curva normal, por lo que es una distribución leptocurtica
Tanto el rango, rango intercuartil y su desviación estándar son menores que el grupo de
OCDE, esto refleja una mayor dispersión.

8
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

OTHER
La mediana es mucho menor a la media, pero su asimetría es 2.357, hablamos de un
sesgo positivo y la curtosis es 6.477, más apuntada que la normal, su distribución también
es leptocurtica.

Tanto el rango, rango intercuartil y su desviación estándar son menores que el grupo de
OCDE, pero mayores que AFRICA, por lo que es mejor mirar su mediana que su media
como medida de central.

Como resumen, veo que la dispersión en la OCDE es claramente superior que los otros
grupos. Mientras que en AFRICA su diferencia es mucho menor, y seria nula a no ser por
5 países que se encuentran por encima del punto máximo.

A simple vista se habla de una evidente diferencia en el ingreso medio entre los grupos y
dentro de ellos.

Repite el ejercicio para las otras variables: lifeExpF, pctUrban,


infantMortality en función del grupo de OECD o no.
Copia las tablas de comparación de descriptivos y los diagramas de error
para el resto de variables.
FERTILIDAD

9
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

10
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

11
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

12
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

ES

ESPERANZA DE VIDA

13
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

14
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

15
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

16
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

PORCENTAJE DE POBLACION URBANIZADA

17
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

18
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

19
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

20
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

MORTALIDAD INFANTIL

21
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

22
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

23
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

24
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

¿Qué conclusiones puedes obtener?

FERTILIDAD

Grupo Media Desviación estándar


OCDE 1.765 0.340
AFRICA 4.273 1.289
OTHER 2.361 0.941

OCDE
La mediana es un poco superior a la media, pero la asimetría >0, por lo que tiene sesgo
positivo.
La curtosis es 2.72, por lo que es más apuntada que la curva normal, tiene una
distribución leptocurtica

AFRICA
La mediana es mayor a la media, pero su diferencia no es tan marcada y lo mismo
indica la asimetría, la cual es muy cercana a 0 (-0.228). Aun así, se considerará sesgo
ligeramente negativo (a la izquierda). La curtosis nos arroja un valor negativo, aunque
en este caso es más cercano a -1 que a 0, por lo que la distribución es más aplanada
que la curva normal, es decir, es una distribución platicúrtica.

Sus medidas de dispersión (rango, rango intercuartil, desviación estándar e intervalos de


confianza) es mayor que el grupo de la OCDE. En este caso la mediana es la mejor
medida de centralidad.

OTHER

25
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Al contrario de los demás grupos, la mediana es menor a la media por lo que en primera
instancia pensaría que tiene sesgo positivo, pero después al ver la asimetría compruebo
que efectivamente su sesgo es positivo. La curtosis también es >0, por lo que tiene una
distribución leptocurtica.

Con respecto a las medidas de dispersión es menor que el grupo africano pero mayor
que el grupo de la OCDE.

En resumen, las mujeres del grupo de la OCDE tienen en promedio 2 hijos, sin mucha
variación dentro del grupo. Mientras que en AFRICA las mujeres tienen en promedio 4
hijos, el doble que la OCDE, con una variación de 1 hijo más /menos por mujer. Lo
anterior me hace pensar que como es un grupo con menores ingresos (nivel de
desarrollo bajo), los servicios básicos son escasos, incluida la educación, por lo que
tienden a estar menos informados sobre métodos anticonceptivos.

ESPERANZA DE VIDA
Grupo Media Desviación estándar
OCDE 82.446 2.095
AFRICA 59.422 8.387
OTHER 75.142 5.660

OCDE
La mediana es ligeramente mayor a la media, y su asimetría es -0.697, cerca de -1, por
lo que tiene sesgo ligeramente negativo, es decir el 75% de los países se encuentran en
un rango entre 82 a 84 años, es decir los datos se concentran un poco más del lado
derecho donde la esperanza de vida es mayor.
La curtosis es positiva, por lo que la consideramos una distribución leptocurtica

AFRICA
La media es mayor a la mediana y la asimetría lo comprueba (>0), por lo que tiene
sesgo positivo. La concentración de los datos es hacia donde la esperanza de vida es
menor.
Por otro lado la curtosis es -0.035, muy cercana a 0, aun así, la consideramos una
distribución platicurtica. El 75% de los países tienen un rango de edad entre 53 a 63 años.
Sus medidas de dispersión son mayores que la OCDE

OTHER
La mediana es mayor que la media y su asimetría lo comprueba (<0), por lo que tiene
sesgo negativo. Al igual que la OCDE, sus datos se concentran hacia esperanza de vida
más alta. Su curtosis es positiva por lo que tiene una distribución leptocurtica

Tiene menor dispersión que AFRICA, pero mayor que la OCDE

En resumen, el grupo de OCDE tiene una distribución más simétrica y menos dispersa
que los otros grupos, por lo que dentro del grupo no existe gran diferencia. La esperanza
de vida en AFRICA va de 53 a 63 años en el 75% de los países, como era de esperare es
la más baja de todos.
En el caso de los países no miembros de la OCDE, su rango de edad es menor que la
OCDE, pero esta sesgada negativamente, es decir sus datos se concentran en edades
mayores.
PORCENTAJE DE POBLACION URBANIZADA

26
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Grupo Media Desviación


OCDE 75.81% 11.706%
AFRICA 42.37% 17.710%
OTHER 58.80% 23.447%

OCDE
La mediana es mayor a la media y su asimetría lo comprueba (-0.381), aunque es muy
cercana a 0 se considera sesgo negativo y tiene una distribución más aplanada que la
normal (curtosis -0.534), por lo que se considera distribución platicurtica
El 75% de los datos se encuentran entre 70% a 87% de población en el área urbana, con
mayor concentración hacia valores más altos

AFRICA
Su mediana es menor a la media, indica sesgo positivo, concentración hacia valores
pequeños de % población urbana y su curtosis es negativa por lo que la distribución es
platicurtica.
El 75% de los datos se encuentra entre 24% al 55%. Tiene mayor dispersión que el gpo de
la OCDE

OTHER
La mediana es ligeramente menor que la media y la asimetría es muy cercana a o (-
0.065), la consideramos sesgo negativo. La curtosis también es negativa por lo que la
distribución es platicurtica.
El 75% de los datos se concentran entre 42% a 76% de la población. La dispersión es mayor
en este grupo que en los anteriores, eso explica el amplio rango en donde se distribuye el
75% de la población.

En resumen, nuevamente la OCDE tiene menor variación que el resto del grupo.

La diferencia es mayor entre el gpo de la OCDE y los gpos de AFRICA y los otros, mientras
que entre AFRICA y los OTROS países no se ve gran diferencia.

MORTALIDAD INFANTIL
Grupo Media Desviación estándar
OCDE 4.890 3.500
AFRICA 65.320 27.511
OTHER 21.676 17.477

OCDE
La mediana es menor que la media, indica sesgo positivo, por lo que los países están
concentrados hacia niveles bajos de mortalidad infantil. La curtosis es positiva, lo que
indica una distribución más apuntada que la normal
El 75% de los datos se encuentran entre 3.11 a 4.7 niños fallecidos por cada mil nacidos.

AFRICA
Su mediana es mayor a la media, lo que indica sesgo negativo, es decir concentración
hacia valores altos de mortalidad infantil. La curtosis indica que su distribución es más
aplanada que la normal
El 75% de los datos se encuentran entre 47.17 a 86.90 niños fallecidos por cada mil nacidos.
Esta en el otro extremo comparado con la OCDE. Sus medidas de dispersión son mayores

27
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

OTHER
La mediana es menor a la media, lo que indica sesgo positivo, por lo que los países están
concentrados hacia niveles bajos de mortalidad infantil. La curtosis es positiva, lo que
indica una distribución más apuntada que la normal
El 75% de los datos se encuentran de10.092 a 26.44 niños fallecidos por cada mil nacidos.
Aun así, presenta mayor dispersión que la OCDE

En resumen, existe una marcada diferencia entre todos los grupos y dentro de AFRICA y
OTHERS. Lo que parece coincidir con diferencias en el ingreso y servicios básicos entre los
países.

2. Explorando la correlación con Excel


La correlación entre medidas es la relación o asociación de distintas
variables. Aquí tienes más información:
https://conceptosclaros.com/importancia-correlacion-estadistica/

Dibuja los diagramas de dispersión con una línea de tendencia. Aquí un


ejemplo:

28
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Mortalidad Infatil vs Esperanza de Vida


90
85
80
75
Mortalidad Infantil

70
65
60
55
50
45
y = -0.3249x + 82.067
40
0 20 40 60 80 100 120 140
Esperanza de Vida

Fíjate aquí que la línea de tendencia nos da información de la tendencia


lineal de la relación.
Con Excel es sencillo calcularlo. Mira el vídeo Tech Zen.

Copia los diagramas de dispersión con la línea de tendencia de la


mortalidad infantil en función también del resto de variables: ppgdp,
pctUrban, fertilidad.

Son tres diagramas de dispersión con la línea de tendencia:


 Mortalidad infantil vs ppgdp
 Mortalidad infantil vs pctUrban
 Mortalidad infantil vs fertilidad

29
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

30
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Y calcula la correlación entre las medidas. Rellena esta tabla de


coeficientes de correlación. Recuerda que es una matriz simétrica y la
correlación es por parejas.

Al parecer la mayoría de las variables no tienen una distribución normal, por lo que utilizaré el estadístico
de spearman para comprar la correlación entre las variables.

En el caso del %de población urbana usaremos pearson ya que claramente existe normalidad en los datos.
Ahora realizamos las pruebas de correlación

Coeficiente Rho de Spearman

Como se puede observar existe evidencia estadísticamente significativa de que hay correlación entre todas
las variables. Me llama la atención el alto coeficiente de correlación entre la esperanza de vida y mortalidad
infantil (En países con alta esperanza de vida tienen menor mortalidad infantil). Cabría pensar en un
problema de colinealidad si se incluyen ambas variables en un modelo.

Coeficiente de Pearson

31
HOJA DE TRABAJO TU PRIMER PROYECTO CON DATOS

Ejercicio 2 – EXPLORA LA TABLA DE DATOS

Sigue los tutoriales tech Zen para poder rellenar esta hoja de trabajo.

¡Enhorabuena!
Has terminado la exploración de dos objetivos que nos hemos planteado al
inicio.
Ahora solo, queda un pasito más
Aplicar la estadística inferencial. Lo verás en los siguientes
ejercicios.

¡Ciao ciao!

32

S-ar putea să vă placă și