Análisis de datos – Análisis y tratamiento de datos
Dr. Manuel Castillo-Cara
Intelligent Ubiquitous Technologies – Smart Cities (IUT-SCi) Mail: mcastillo@uni.edu.pe Web: www.smartcityperu.org Índice ● Preanálisis de datos. ● Filtro de datos. ● Valores nulos. ● Feature selection. Preanálisis de datos 2.1. Estadística descriptiva (I) 1. Weka Explorer 2. diabetes.arff 3.Entender los paneles 2.1. Estadística descriptiva (II)
¿Que vemos aquí?
Filtros de datos 1. Filtros de datos ● Dos tipos de filtros: – Filtros supervisados: ● Requieren el control del usuario. ● Usan los valores del atributo de referencia para analizar su efecto sobre los demás. – Filtros no supervisados: ● No dirigida por el usuario. ● Por ejemplo, cambiar la escala de todos los valores al rango 0 a 1. ● Son los más utilizados habitualmente. ● Dentro de estos dos grupos, las técnicas se puede dividir en dos: – Filtros de atributos: aplica una operación a uno o a todos los atributos. – Filtros de instancia: aplica una operación a una o a todas las instancias. 2. Normalización ● Proceso de reescalar uno o más atributos al rango de 0 a 1, es decir: – Para cada atributo el valor más grande es 1 y el más pequeño es 0. ● Cuando usar normalización: – Cuando no conocemos la distribución de nuestro conjunto de datos. – Cuando conocemos que no tenemos una distribución gaussiana en nuestros datos (una curva de campana). – Cuando tenemos unos datos muy variantes, es decir, pueden tener un valor de decimales a miles. ● Algoritmos: (i) Escalas de 1 a 1 para algoritmos SVM y AdaBoost; y (ii) Útil para algoritmos que no tienen en cuenta la distribución de los datos, como k-NN y Perceptron. ● Filtro en Weka: unsupervised.attribute.Normalize 3. Estandarización ● Proceso de reescalar uno o más atributos para que tengan una media de 0 y una desviación estándar de 1. ● La técnica es más efectiva si la distribución de sus atributos es gaussiana. – Aunque no es estrictamente cierto. ● Útil para algoritmos taxonomía lineal: LoR, LiR y LDA. ● Filtro en Weka: unsupervised.attribute.Standarize Valores nulos 1. Valores “missing” ● Normalmente los datos no se encuentren totalmente limpios. ● Valores “corruptos” / “missing”. ● Deberemos: – Marcar los valores “missing” en un conjunto de datos. – Eliminar datos con valores “missing”. – Reemplazar valores faltantes. 2. Marcar valores “missing” ● Del archivo diabetes.arf: ● Ver que atributos presión arterial (‘pres’) y índice de masa corporal (‘mass’) tienen valores a 0. – Es imposible → hay que marcarlos. ● Filtro: unsupervised.attribute.NumericCleaner. 3. Eliminar valores “missing” ● Una vez identificados los valores ”missing” procedemos a eliminarlos. ● Filtro: unsupervised.instance.RemoveWithValues. 4. Sustituir valores missing ● Los valores “missing” pueden ser reemplazados → Si eliminamos valores perdemos instancias (datos). ● Lo más común es utilizar la media de distribución numérica. ● Filtro: unsupervised.instance.ReplaceMissingValues. Feature Selection 1. Definición ● Es el proceso de seleccionar un subconjunto de características pertinentes (variables, predictores) para su uso en construcción de modelos. ● Cuatro razones: – Simplificación de modelos. – Menor tiempo de entrenamiento. – Reducir el overfitting. – Maldición de dimensionalidad (course of dimensionality). ● ¿“Contra más datos mejor”? 1.1. Overfitting Vs Underfitting 1.2. Course of dimensionality
Antes de aplicar reducción de la Después de aplicar reducción de la
dimensionalidad dimensionalidad 1.3. Funcionamiento 2.1. Función basada en correlación ● El coeficiente de correlación (Person) mide el grado de relación de dos variables. – Determinar cuánto cambian dos variables juntas. ● Varía en el intervalo [−1, 1], indicando el signo el sentido de la relación: – Si r = 1 → correlación positiva perfecta. – Si 0 < r < 1 → correlación positiva. – Si r = 0 → No existe relación lineal ¿Cuales son – Si -1 < r < 0 → correlación negativa. – Si los óptimos? r = -1 → correlación negativa perfecta. 2.1. Función basada en correlación ● El coeficiente de correlación (Person) mide el grado de relación de dos variables. – Determinar cuánto cambian dos variables juntas. ● Varía en el intervalo [−1, 1], indicando el signo el sentido de la relación: – Si r = 1 → correlación positiva perfecta. – Si 0 < r < 1 → correlación positiva. – Si r = 0 → No existe relación lineal ¿Cuales son – Si -1 < r < 0 → correlación negativa. los óptimos? – Si r = -1 → correlación negativa perfecta. 2.2. Función basada en correlación 3.1. Basada en aprendizaje ● Es la técnica más utilizada. ● Escoge un algoritmo basado en aprendizaje como estimador evaluando como afectan los atributos al modelado. – Escoge los atributos más influyentes en el modelo. ● Recomendable utilizar algoritmos rápidos y con buen rendimiento como árboles de decisión. 3.2. Ejemplo ● Estimador: J48 (árbol de decisión) ● Búsqueda: BestFirst (más rápido) 4. Selección de atributos ● ¿Han coincidido todos los atributos? – ML es un proceso empírico ● Atributo ‘plas’ aparece en todos, parece ser un atributo predominante. ● Tomamos la última técnica, por tanto seleccionamos: ‘plas’, ‘pres’, ‘mass’ y ‘age’. ● Guardar el nuevo conjunto de datos. ¡GRACIAS!