Documente Academic
Documente Profesional
Documente Cultură
Preanálisis y
pretratamiento de datos
– Atributo
●
Entero
●
Nominal
●
Real
●
Cadena de caracteres
2. Datos estructurados en Weka
●
Formato ARFF
– @RELATION: Nombre del conjunto de
datos
– @ATTRIBUTE: Define nombre y tipo de
atributo
– @DATA: Fin de metadatos y comienzo de
datos
– @%: comentario
– ?: valor missing
●
¿Diferencia entre clasificación y regresión?
3. Weka Vs. CSV
Conjuntos de datos
1. Colección datos numéricos
●
Descargar de:
– https://www.cs.waikato.ac.nz/ml/weka/datasets.html
Clasificación binaria
1. Pima Indians Onset of Diabetes
●
Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el paciente
va a tener diabetes en los próximos cinco
años.
●
En este conjunto de datos podemos
observar 8 atributos de tipo numéricos que
tienen diferentes escalas.
●
Fichero: /data/diabetes.arff.
●
https://archive.ics.uci.edu/ml/datasets/Pima
+Indians+Diabetes
●
Métrica: el accuracy se encuentra en el 77
%.
2. Breast Cancer
●
Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el
paciente va a tener diabetes en los
próximos cinco años.
●
En este conjunto de datos podemos
observar 8 atributos de tipo numéricos
que tienen diferentes escalas.
●
Fichero: /data/diabetes.arff.
●
https://archive.ics.uci.edu/ml/datasets/
Pima+Indians+Diabetes.
●
Métrica: el accuracy se encuentra en el
77%.
3. Ionosphere
●
Cada instancia describe las
propiedades de los retornos de
radar de la atmósfera y la tarea es
predecir si hay o no estructura en la
ionosfera.
●
Hay 34 atributos de tipo numéricos
en una escala muy similar.
●
Fichero: data/ionosphere.arff.
●
https://archive.ics.uci.edu/ml/
datasets/Ionosphere.
●
Métricas: el accuracy se encuentra
en el 98%.
Clasificación multiclase
1. Iris Flowers Classification
●
Cada atributo describe las
medidas de las flores del iris.
●
El objetivo es predecir a qué
especie de 3 flores pertenece.
●
Hay 4 atributos de entrada
numéricos con las mismas
unidades y escala.
●
Fichero: data/iris.arff.
● https://archive.ics.uci.edu/ml/d
atasets/Iris
2. Large Soybean
●
Cada instancia describe las
propiedades de un cultivo de soja.
●
La tarea es predecir cuál de las
19 enfermedades sufre el cultivo.
●
Hay 35 atributos de entrada de
tipo nominales.
●
Fichero: data/soybean.arff.
●
https://archive.ics.uci.edu/ml/
datasets/Soybean+(Large).
3. Glass Identification
●
cada instancia describe la
composición química de las
muestras de vidrio.
●
La tarea es predecir el tipo o uso de
las 7 posibles clases que tiene de
salida.
●
Hay 10 atributos numéricos que
describen las propiedades químicas
del vidrio y su índice de refracción.
●
Fichero: data/glass.arff.
●
https://archive.ics.uci.edu/ml/
datasets/Glass+Identification.
Regresión
1. Longley Economic
●
Se tienen 7 variables
económicas observadas desde
1947 a 1962 para datos
macroeconómicos.
●
Tenemos 6 variables de entrada
de tipo numérico.
●
El objetivo principal es tener
que predecir el número de
personas empleadas en un año
específico.
●
Fichero: numeric/longley.arff.
2. Boston House Price
●
Cada instancia describe las
propiedades de un suburbio
de Boston.
●
El objetivo es predecir los
precios de la vivienda en
miles de dólares.
●
Hay 13 atributos de entrada
de tipo numérico.
●
Fichero:
numeric/housing.arff.
3. Sleep in mammals
●
Cada instancia describe las
propiedades de diferentes
mamíferos.
●
El objetivo poder predecir el
promedio de horas de sueño
total que requieren.
●
Hay 7 atributos de entrada
de tipo numérico a diferentes
escalas y medidas.
●
Fichero: data/sleep.arff.
Preanálisis de datos
2.1. Estadística descriptiva (I)
1. Weka Explorer
2. diabetes.arff
3.Entender los paneles
2.1. Estadística descriptiva (II)