Sunteți pe pagina 1din 2

UNALM – Departamento de Estadística e Informática

Introducción a la ciencia de datos

EJERCICIOS
Resuelva las preguntas de los siguientes casos. Recuerde que NO DEBE MODIFICAR
los archivos de datos: No borre ni añada manualmente ningún dato, columna o
fila. Estos ejercicios no tienen calificación o peso alguno en el curso, sin embargo, le
servirán para estar mejor preparado(a) para la Práctica Calificada 2:
1. Kaggle es una comunidad en línea de científicos de datos y estudiantes de machine
learning, propiedad de Google LLC. En su sitio web (https://www.kaggle.com/), se
pueden encontrar distintos conjuntos de datos. El archivo de datos diabetes.csv ha sido
extraído de este sitio web https://www.kaggle.com/rahulsah06/machine-learning-for-
diabetes-with-python. Contiene datos acerca de las siguientes variables:
Pregnancies: Número de embarazos
Glucose: Nivel de glucosa, en mg/dl
BloodPresure: Presión arterial, en mmHg
SkinThickness: Espesor de la piel, en mm
Insulin: Insulina, en mg/dl
BMI: Índice de massa muscular
DiabetesPedigreeFunction: Medida que puntúa la probabilidad de padecer diabetes
según el historial familiar
Age: Edad, en años
Outcome: 0 = No tiene diabetes, 1 = Sí tiene diabetes
Este conjunto de datos es utilizado con el objetivo de aprender algoritmos de Machine
Learning para el diagnóstico de diabetes. Utilice código en lenguaje Python para resolver
las siguientes preguntas:
 Lea este archivo y almacénelo en un objeto llamado DIAB.
 Muestre (imprima) los valores correspondientes a la Glucosa, Índice de masa
muscular y Edad del tercer y octavo paciente.
 ¿Cuántos años tiene el quinto paciente?
 ¿Es cierto que el Índice de Masa Muscular del noveno paciente es superior a 30?

2. El archivo de datos diabetes.xlsx ha sido extraído del sitio web de Kaggle:


https://www.kaggle.com/rahulsah06/machine-learning-for-diabetes-with-python. Utilice
código en lenguaje Python para resolver las siguientes preguntas:
 Lea el archivo completo: ¿Qué diferencias presenta respecto al archivo de la
pregunta anterior? ¿Cuáles son las dificultades que surgen al intentar leer los
datos? Almacene estos datos en un objeto de nombre DIAB2.
 Lea solo los datos correspondientes a las columnas Glucose e Insulina y
almacénelos en un objeto de nombre DIAB3. Luego, muestre las 12 primeras filas
de este objeto.

3. El archivo de datos LGTB.txt contiene datos recopilados por la FRA (Agencia de


Derechos Fundamentales), quien realizó una encuesta en línea para identificar cómo
las personas lesbianas, gays, bisexuales y transgénero (LGBT) que viven en la Unión
Europea y Croacia experimentan el cumplimiento de sus derechos fundamentales. El
conjunto de datos puede ser consultado en el sitio web de Kaggle:
https://www.kaggle.com/ruslankl/european-union-lgbt-survey-
2012/downloads/european-union-lgbt-survey-2012.zip/5
 Lea el archivo y almacénelo con el nombre FRALGBT
 Imprima los 7 primeros registros
 Imprima los 3 últimos registros de la primera columna
UNALM – Departamento de Estadística e Informática
Introducción a la ciencia de datos

4. El archivo de datos BCRP.xlsx contiene datos mensuales acerca de la producción


agropecuaria (en miles de toneladas) de cebolla, mandarina y arroz cáscara a partir de
enero del 2007. Puede consultar los datos en el sitio web del Banco Central de Reserva
del Perú: https://estadisticas.bcrp.gob.pe/estadisticas/series/mensuales
 Lea el archivo y almacénelo con el nombre BCRP_agro
 Muestre (imprima) los volúmenes de producción agropecuaria de mandarina
durante los años 2008 y 2012.

PRÁCTICA CALIFICADA 2
Viernes 04 de octubre – 11 a.m.
Temas de evaluación:
- Unidad 3: Teoría y práctica (en Python)
Durante el examen no podrá usar materiales de clase ni códigos, sin embargo si
puede consultar la ayuda oficial, usando al función help(…)
- Lecturas 4 y 5

S-ar putea să vă placă și