Sunteți pe pagina 1din 26

Bloque 1.

Análisis de datos –
Análisis y tratamiento de datos

Dr. Manuel Castillo-Cara


Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org
Índice

Preanálisis de datos.

Filtro de datos.

Valores nulos.

Feature selection.
Preanálisis de datos
2.1. Estadística descriptiva (I)
1. Weka Explorer
2. diabetes.arff
3.Entender los paneles
2.1. Estadística descriptiva (II)

¿Que vemos aquí?


Filtros de datos
1. Filtros de datos

Dos tipos de filtros:
– Filtros supervisados:

Requieren el control del usuario.

Usan los valores del atributo de referencia para analizar su efecto
sobre los demás.
– Filtros no supervisados:

No dirigida por el usuario.

Por ejemplo, cambiar la escala de todos los valores al rango 0 a 1.

Son los más utilizados habitualmente.

Dentro de estos dos grupos, las técnicas se puede dividir en dos:
– Filtros de atributos: aplica una operación a uno o a todos los
atributos.
– Filtros de instancia: aplica una operación a una o a todas las
instancias.
2. Normalización

Proceso de reescalar uno o más atributos al rango de 0 a 1, es decir:
– Para cada atributo el valor más grande es 1 y el más pequeño es 0.

Cuando usar normalización:
– Cuando no conocemos la distribución de nuestro conjunto de datos.
– Cuando conocemos que no tenemos una distribución gaussiana en nuestros datos (una curva de
campana).
– Cuando tenemos unos datos muy variantes, es decir, pueden tener un valor de decimales a miles.

Algoritmos: (i) Escalas de 1 a 1 para algoritmos SVM y AdaBoost; y (ii) Útil para algoritmos que no
tienen en cuenta la distribución de los datos, como k-NN y Perceptron.

Filtro en Weka: unsupervised.attribute.Normalize
3. Estandarización

Proceso de reescalar uno o más atributos para que tengan una media de 0
y una desviación estándar de 1.

La técnica es más efectiva si la distribución de sus atributos es gaussiana.
– Aunque no es estrictamente cierto.

Útil para algoritmos taxonomía lineal: LoR, LiR y LDA.

Filtro en Weka: unsupervised.attribute.Standarize
Valores nulos
1. Valores “missing”

Normalmente los datos no se encuentren totalmente
limpios.

Valores “corruptos” / “missing”.

Deberemos:
– Marcar los valores “missing” en un conjunto de datos.
– Eliminar datos con valores “missing”.
– Reemplazar valores faltantes.
2. Marcar valores “missing”

Del archivo diabetes.arf:

Ver que atributos presión arterial (‘pres’) y índice de masa corporal (‘mass’) tienen valores a 0.
– Es imposible → hay que marcarlos.

Filtro: unsupervised.attribute.NumericCleaner.
3. Eliminar valores “missing”

Una vez identificados los valores ”missing” procedemos a eliminarlos.

Filtro: unsupervised.instance.RemoveWithValues.
4. Sustituir valores missing

Los valores “missing” pueden ser reemplazados → Si eliminamos valores perdemos instancias (datos).

Lo más común es utilizar la media de distribución numérica.

Filtro: unsupervised.instance.ReplaceMissingValues.
Feature Selection
1. Definición

Es el proceso de seleccionar un subconjunto de características pertinentes
(variables, predictores) para su uso en construcción de modelos.

Cuatro razones:
– Simplificación de modelos.
– Menor tiempo de entrenamiento.
– Reducir el overfitting.
– Maldición de dimensionalidad (course of dimensionality).

¿“Contra más datos mejor”?
1.1. Overfitting Vs Underfitting
1.2. Course of dimensionality

Antes de aplicar reducción de la Después de aplicar reducción de la


dimensionalidad dimensionalidad
1.3. Funcionamiento
2.1. Función basada en correlación

El coeficiente de correlación (Person) mide el grado de relación de dos
variables.
– Determinar cuánto cambian dos variables juntas.

Varía en el intervalo [−1, 1], indicando el signo el sentido de la relación:
– Si r = 1 → correlación positiva perfecta.
– Si 0 < r < 1 → correlación positiva.
– Si r = 0 → No existe relación lineal ¿Cuales son
– Si -1 < r < 0 → correlación negativa.
– Si
los óptimos?
r = -1 → correlación negativa perfecta.
2.1. Función basada en correlación

El coeficiente de correlación (Person) mide el grado de relación
de dos variables.
– Determinar cuánto cambian dos variables juntas.

Varía en el intervalo [−1, 1], indicando el signo el sentido de la
relación:
– Si r = 1 → correlación positiva perfecta.
– Si 0 < r < 1 → correlación positiva.
– Si r = 0 → No existe relación lineal ¿Cuales son
– Si -1 < r < 0 → correlación negativa. los óptimos?
– Si r = -1 → correlación negativa perfecta.
2.2. Función basada en correlación
3.1. Basada en aprendizaje

Es la técnica más utilizada.

Escoge un algoritmo basado en aprendizaje como
estimador evaluando como afectan los atributos al
modelado.
– Escoge los atributos más influyentes en el modelo.

Recomendable utilizar algoritmos rápidos y con buen
rendimiento como árboles de decisión.
3.2. Ejemplo

Estimador: J48 (árbol de decisión)

Búsqueda: BestFirst (más rápido)
4. Selección de atributos

¿Han coincidido todos los atributos?
– ML es un proceso empírico

Atributo ‘plas’ aparece en todos,
parece ser un atributo predominante.

Tomamos la última técnica, por tanto
seleccionamos: ‘plas’, ‘pres’, ‘mass’ y
‘age’.

Guardar el nuevo conjunto de datos.
¡GRACIAS!

Dr. Manuel Castillo-Cara


Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi)
Mail: mcastillo@uni.edu.pe
Web: www.smartcityperu.org

S-ar putea să vă placă și