2 - Analisis y Tratamiento de Datos

Bloque 1.
Análisis de datos –
Análisis y tratamiento de datos
Dr. Manuel Castillo-Cara

Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org
Índice
●
Preanálisis de datos.
●
Filtro de datos.
●
Valores nulos.
●
Feature selection.
Preanálisis de datos
2.1. Estadística descriptiva (I)
1. Weka Explorer
2. diabetes.arff
3.Entender los paneles
2.1. Estadística descriptiva (II)
¿Que vemos aquí?

Filtros de datos
1. Filtros de datos
●
Dos tipos de filtros:
– Filtros supervisados:
●
Requieren el control del usuario.
●
Usan los valores del atributo de referencia para analizar su efecto
sobre los demás.
– Filtros no supervisados:
●
No dirigida por el usuario.
●
Por ejemplo, cambiar la escala de todos los valores al rango 0 a 1.
●
Son los más utilizados habitualmente.
●
Dentro de estos dos grupos, las técnicas se puede dividir en dos:
– Filtros de atributos: aplica una operación a uno o a todos los
atributos.
– Filtros de instancia: aplica una operación a una o a todas las
instancias.
2. Normalización
●
Proceso de reescalar uno o más atributos al rango de 0 a 1, es decir:
– Para cada atributo el valor más grande es 1 y el más pequeño es 0.
●
Cuando usar normalización:
– Cuando no conocemos la distribución de nuestro conjunto de datos.
– Cuando conocemos que no tenemos una distribución gaussiana en nuestros datos (una curva de
campana).
– Cuando tenemos unos datos muy variantes, es decir, pueden tener un valor de decimales a miles.
●
Algoritmos: (i) Escalas de 1 a 1 para algoritmos SVM y AdaBoost; y (ii) Útil para algoritmos que no
tienen en cuenta la distribución de los datos, como k-NN y Perceptron.
●
Filtro en Weka: unsupervised.attribute.Normalize
3. Estandarización
●
Proceso de reescalar uno o más atributos para que tengan una media de 0
y una desviación estándar de 1.
●
La técnica es más efectiva si la distribución de sus atributos es gaussiana.
– Aunque no es estrictamente cierto.
●
Útil para algoritmos taxonomía lineal: LoR, LiR y LDA.
●
Filtro en Weka: unsupervised.attribute.Standarize
Valores nulos
1. Valores “missing”
●
Normalmente los datos no se encuentren totalmente
limpios.
●
Valores “corruptos” / “missing”.
●
Deberemos:
– Marcar los valores “missing” en un conjunto de datos.
– Eliminar datos con valores “missing”.
– Reemplazar valores faltantes.
2. Marcar valores “missing”
●
Del archivo diabetes.arf:
●
Ver que atributos presión arterial (‘pres’) y índice de masa corporal (‘mass’) tienen valores a 0.
– Es imposible → hay que marcarlos.
●
Filtro: unsupervised.attribute.NumericCleaner.
3. Eliminar valores “missing”
●
Una vez identificados los valores ”missing” procedemos a eliminarlos.
●
Filtro: unsupervised.instance.RemoveWithValues.
4. Sustituir valores missing
●
Los valores “missing” pueden ser reemplazados → Si eliminamos valores perdemos instancias (datos).
●
Lo más común es utilizar la media de distribución numérica.
●
Filtro: unsupervised.instance.ReplaceMissingValues.
Feature Selection
1. Definición
●
Es el proceso de seleccionar un subconjunto de características pertinentes
(variables, predictores) para su uso en construcción de modelos.
●
Cuatro razones:
– Simplificación de modelos.
– Menor tiempo de entrenamiento.
– Reducir el overfitting.
– Maldición de dimensionalidad (course of dimensionality).
●
¿“Contra más datos mejor”?
1.1. Overfitting Vs Underfitting
1.2. Course of dimensionality
Antes de aplicar reducción de la Después de aplicar reducción de la

dimensionalidad dimensionalidad
1.3. Funcionamiento
2.1. Función basada en correlación
●
El coeficiente de correlación (Person) mide el grado de relación de dos
variables.
– Determinar cuánto cambian dos variables juntas.
●
Varía en el intervalo [−1, 1], indicando el signo el sentido de la relación:
– Si r = 1 → correlación positiva perfecta.
– Si 0 < r < 1 → correlación positiva.
– Si r = 0 → No existe relación lineal ¿Cuales son
– Si -1 < r < 0 → correlación negativa.
– Si
los óptimos?
r = -1 → correlación negativa perfecta.
●
El coeficiente de correlación (Person) mide el grado de relación
de dos variables.
– Determinar cuánto cambian dos variables juntas.
●
Varía en el intervalo [−1, 1], indicando el signo el sentido de la
relación:
– Si r = 1 → correlación positiva perfecta.
– Si 0 < r < 1 → correlación positiva.
– Si r = 0 → No existe relación lineal ¿Cuales son
– Si -1 < r < 0 → correlación negativa. los óptimos?
– Si r = -1 → correlación negativa perfecta.
3.1. Basada en aprendizaje
●
Es la técnica más utilizada.
●
Escoge un algoritmo basado en aprendizaje como
estimador evaluando como afectan los atributos al
modelado.
– Escoge los atributos más influyentes en el modelo.
●
Recomendable utilizar algoritmos rápidos y con buen
rendimiento como árboles de decisión.
3.2. Ejemplo
●
Estimador: J48 (árbol de decisión)
●
Búsqueda: BestFirst (más rápido)
4. Selección de atributos
●
¿Han coincidido todos los atributos?
– ML es un proceso empírico
●
Atributo ‘plas’ aparece en todos,
parece ser un atributo predominante.
●
Tomamos la última técnica, por tanto
seleccionamos: ‘plas’, ‘pres’, ‘mass’ y
‘age’.
●
Guardar el nuevo conjunto de datos.
¡GRACIAS!
Dr. Manuel Castillo-Cara

Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org

2 - Analisis y Tratamiento de Datos

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2 - Analisis y Tratamiento de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

Bloque 1.

Dr. Manuel Castillo-Cara

¿Que vemos aquí?

Antes de aplicar reducción de la Después de aplicar reducción de la

Dr. Manuel Castillo-Cara

S-ar putea să vă placă și