Sunteți pe pagina 1din 29

Tema 3.

Preanálisis y
pretratamiento de datos

Dr. Manuel Castillo-Cara


Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org
Índice

Tipos de aprendizaje.

Clasificación de datos.

Conjuntos de datos.

Clasificación binaria.

Clasificación multiclase.

Regresión.

Preanálisis de datos.
Tipos de aprendizaje
1. Tipos de aprendizaje
2. Aprendizaje Supervisado

Los algoritmos trabajan con datos
“etiquetados” (labeled data).

Objetivo: encontrar una función que,
dadas las variables de entrada (input
data), les asigne la etiqueta de salida
adecuada.

Entrenamiento con un “histórico” de
datos para “aprender” a asignar la
etiqueta de salida.

Función final: predecir el valor de
salida.
3. Aprendizaje No Supervisado

No se dispone de datos “etiquetados” para
el entrenamiento.

Sólo se conocen los datos de entrada, pero
no tienen atributo clase (dato de salida).

Sólo pueden describirse la estructura de
los datos.

Objetivo: Encontrar algún tipo de
organización que simplifique el análisis.

Por ello, tienen un carácter exploratorio.
– (Ejemplo de un txt de Weka el atributo
clase).
4. Pipeline
Clasificación de datos
1. Datos estructurados

Estructurados en matrices (filas/columnas) de números, por
ejemplo, hojas de cálculo.

Abrir dataset e identificar:
– Instancia

– Atributo


Entero

Nominal

Real

Cadena de caracteres
2. Datos estructurados en Weka

Formato ARFF
– @RELATION: Nombre del conjunto de
datos
– @ATTRIBUTE: Define nombre y tipo de
atributo
– @DATA: Fin de metadatos y comienzo de
datos
– @%: comentario
– ?: valor missing

¿Diferencia entre clasificación y regresión?
3. Weka Vs. CSV
Conjuntos de datos
1. Colección datos numéricos

Descargar de:
– https://www.cs.waikato.ac.nz/ml/weka/datasets.html
Clasificación binaria
1. Pima Indians Onset of Diabetes

Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el paciente
va a tener diabetes en los próximos cinco
años.

En este conjunto de datos podemos
observar 8 atributos de tipo numéricos que
tienen diferentes escalas.

Fichero: /data/diabetes.arff.

https://archive.ics.uci.edu/ml/datasets/Pima
+Indians+Diabetes

Métrica: el accuracy se encuentra en el 77
%.
2. Breast Cancer

Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el
paciente va a tener diabetes en los
próximos cinco años.

En este conjunto de datos podemos
observar 8 atributos de tipo numéricos
que tienen diferentes escalas.

Fichero: /data/diabetes.arff.

https://archive.ics.uci.edu/ml/datasets/
Pima+Indians+Diabetes.

Métrica: el accuracy se encuentra en el
77%.
3. Ionosphere

Cada instancia describe las
propiedades de los retornos de
radar de la atmósfera y la tarea es
predecir si hay o no estructura en la
ionosfera.

Hay 34 atributos de tipo numéricos
en una escala muy similar.

Fichero: data/ionosphere.arff.

https://archive.ics.uci.edu/ml/
datasets/Ionosphere.

Métricas: el accuracy se encuentra
en el 98%.
Clasificación multiclase
1. Iris Flowers Classification

Cada atributo describe las
medidas de las flores del iris.

El objetivo es predecir a qué
especie de 3 flores pertenece.

Hay 4 atributos de entrada
numéricos con las mismas
unidades y escala.

Fichero: data/iris.arff.
● https://archive.ics.uci.edu/ml/d
atasets/Iris
2. Large Soybean

Cada instancia describe las
propiedades de un cultivo de soja.

La tarea es predecir cuál de las
19 enfermedades sufre el cultivo.

Hay 35 atributos de entrada de
tipo nominales.

Fichero: data/soybean.arff.

https://archive.ics.uci.edu/ml/
datasets/Soybean+(Large).
3. Glass Identification

cada instancia describe la
composición química de las
muestras de vidrio.

La tarea es predecir el tipo o uso de
las 7 posibles clases que tiene de
salida.

Hay 10 atributos numéricos que
describen las propiedades químicas
del vidrio y su índice de refracción.

Fichero: data/glass.arff.

https://archive.ics.uci.edu/ml/
datasets/Glass+Identification.
Regresión
1. Longley Economic

Se tienen 7 variables
económicas observadas desde
1947 a 1962 para datos
macroeconómicos.

Tenemos 6 variables de entrada
de tipo numérico.

El objetivo principal es tener
que predecir el número de
personas empleadas en un año
específico.

Fichero: numeric/longley.arff.
2. Boston House Price

Cada instancia describe las
propiedades de un suburbio
de Boston.

El objetivo es predecir los
precios de la vivienda en
miles de dólares.

Hay 13 atributos de entrada
de tipo numérico.

Fichero:
numeric/housing.arff.
3. Sleep in mammals

Cada instancia describe las
propiedades de diferentes
mamíferos.

El objetivo poder predecir el
promedio de horas de sueño
total que requieren.

Hay 7 atributos de entrada
de tipo numérico a diferentes
escalas y medidas.

Fichero: data/sleep.arff.
Preanálisis de datos
2.1. Estadística descriptiva (I)
1. Weka Explorer
2. diabetes.arff
3.Entender los paneles
2.1. Estadística descriptiva (II)

¿Que vemos aquí?


¡GRACIAS!

Dr. Manuel Castillo-Cara


Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org

S-ar putea să vă placă și