Preanpálisis y Pretratamiento de Datos

Tema 3.
Preanálisis y
pretratamiento de datos
Dr. Manuel Castillo-Cara

Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org
Índice
●
Tipos de aprendizaje.
●
Clasificación de datos.
●
Conjuntos de datos.
●
Clasificación binaria.
●
Clasificación multiclase.
●
Regresión.
●
Preanálisis de datos.
Tipos de aprendizaje
1. Tipos de aprendizaje
2. Aprendizaje Supervisado
●
Los algoritmos trabajan con datos
“etiquetados” (labeled data).
●
Objetivo: encontrar una función que,
dadas las variables de entrada (input
data), les asigne la etiqueta de salida
adecuada.
●
Entrenamiento con un “histórico” de
datos para “aprender” a asignar la
etiqueta de salida.
●
Función final: predecir el valor de
salida.
3. Aprendizaje No Supervisado
●
No se dispone de datos “etiquetados” para
el entrenamiento.
●
Sólo se conocen los datos de entrada, pero
no tienen atributo clase (dato de salida).
●
Sólo pueden describirse la estructura de
los datos.
●
Objetivo: Encontrar algún tipo de
organización que simplifique el análisis.
●
Por ello, tienen un carácter exploratorio.
– (Ejemplo de un txt de Weka el atributo
clase).
4. Pipeline
Clasificación de datos
1. Datos estructurados
●
Estructurados en matrices (filas/columnas) de números, por
ejemplo, hojas de cálculo.
●
Abrir dataset e identificar:
– Instancia
– Atributo
●
Entero
●
Nominal
●
Real
●
Cadena de caracteres
2. Datos estructurados en Weka
●
Formato ARFF
– @RELATION: Nombre del conjunto de
datos
– @ATTRIBUTE: Define nombre y tipo de
atributo
– @DATA: Fin de metadatos y comienzo de
datos
– @%: comentario
– ?: valor missing
●
¿Diferencia entre clasificación y regresión?
3. Weka Vs. CSV
Conjuntos de datos
1. Colección datos numéricos
●
Descargar de:
– https://www.cs.waikato.ac.nz/ml/weka/datasets.html
Clasificación binaria
1. Pima Indians Onset of Diabetes
●
Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el paciente
va a tener diabetes en los próximos cinco
años.
●
En este conjunto de datos podemos
observar 8 atributos de tipo numéricos que
tienen diferentes escalas.
●
Fichero: /data/diabetes.arff.
●
https://archive.ics.uci.edu/ml/datasets/Pima
+Indians+Diabetes
●
Métrica: el accuracy se encuentra en el 77
%.
2. Breast Cancer
●
Cada instancia representa los detalles
médicos extraídos de los pacientes y el
principal objetivo es predecir si el
paciente va a tener diabetes en los
próximos cinco años.
●
En este conjunto de datos podemos
observar 8 atributos de tipo numéricos
que tienen diferentes escalas.
●
Fichero: /data/diabetes.arff.
●
https://archive.ics.uci.edu/ml/datasets/
Pima+Indians+Diabetes.
●
Métrica: el accuracy se encuentra en el
77%.
3. Ionosphere
●
Cada instancia describe las
propiedades de los retornos de
radar de la atmósfera y la tarea es
predecir si hay o no estructura en la
ionosfera.
●
Hay 34 atributos de tipo numéricos
en una escala muy similar.
●
Fichero: data/ionosphere.arff.
●
https://archive.ics.uci.edu/ml/
datasets/Ionosphere.
●
Métricas: el accuracy se encuentra
en el 98%.
Clasificación multiclase
1. Iris Flowers Classification
●
Cada atributo describe las
medidas de las flores del iris.
●
El objetivo es predecir a qué
especie de 3 flores pertenece.
●
Hay 4 atributos de entrada
numéricos con las mismas
unidades y escala.
●
Fichero: data/iris.arff.
● https://archive.ics.uci.edu/ml/d
atasets/Iris
2. Large Soybean
●
propiedades de un cultivo de soja.
●
La tarea es predecir cuál de las
19 enfermedades sufre el cultivo.
●
Hay 35 atributos de entrada de
tipo nominales.
●
Fichero: data/soybean.arff.
●
datasets/Soybean+(Large).
3. Glass Identification
●
cada instancia describe la
composición química de las
muestras de vidrio.
●
La tarea es predecir el tipo o uso de
las 7 posibles clases que tiene de
salida.
●
Hay 10 atributos numéricos que
describen las propiedades químicas
del vidrio y su índice de refracción.
●
Fichero: data/glass.arff.
●
datasets/Glass+Identification.
Regresión
1. Longley Economic
●
Se tienen 7 variables
económicas observadas desde
1947 a 1962 para datos
macroeconómicos.
●
Tenemos 6 variables de entrada
de tipo numérico.
●
El objetivo principal es tener
que predecir el número de
personas empleadas en un año
específico.
●
Fichero: numeric/longley.arff.
2. Boston House Price
●
propiedades de un suburbio
de Boston.
●
El objetivo es predecir los
precios de la vivienda en
miles de dólares.
●
de tipo numérico.
●
Fichero:
numeric/housing.arff.
3. Sleep in mammals
●
propiedades de diferentes
mamíferos.
●
El objetivo poder predecir el
promedio de horas de sueño
total que requieren.
●
de tipo numérico a diferentes
escalas y medidas.
●
Fichero: data/sleep.arff.
Preanálisis de datos
2.1. Estadística descriptiva (I)
1. Weka Explorer
2. diabetes.arff
3.Entender los paneles
2.1. Estadística descriptiva (II)
¿Que vemos aquí?

¡GRACIAS!
Dr. Manuel Castillo-Cara

Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org

Preanpálisis y Pretratamiento de Datos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Preanpálisis y Pretratamiento de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

Tema 3.

Dr. Manuel Castillo-Cara

¿Que vemos aquí?

Dr. Manuel Castillo-Cara

S-ar putea să vă placă și