Documente Academic
Documente Profesional
Documente Cultură
Evaluación Reducida
Presencial NO Hasta 2 puntos
Aprobada con nota ≥ 5
Convencional NO NO NO
webunlp.unlp.edu.ar
Quienes aún no tengan acceso y se encuentren
inscriptos en Guaraní deberán solicitar inscripción
en el curso.
Página de la cátedra
weblidi.info.unlp.edu.ar/catedras/md_si
EXTRACCIÓN DE
CONOCIMIENTO EN BBDD
Introducción
Los avances tecnológicos hacen que las
capacidades para generar y almacenar datos se
incrementen día a día.
Automatización de todo tipo de transacciones
Comerciales, negocios, gubernamentales,
científicas.
Avances en la recopilación de datos
Lectores de código de barra.
PATRONES
y MODELOS
Relación con otras disciplinas
9
Text Mining
Programa ProSanE
Asignación de
móviles en EM SIFT
(MOPSO) paralelo
Detección de Fraudes
Otras Aplicaciones
Minería de Texto
Descriptivo
Muestran nuevas relaciones entre las variables.
Pueden ser utilizadas para mejorar el modelo.
Ej: Reglas de asociación, correlaciones, etc.
Predictivo
En base al modelo que gobierna el sistema es posible
predecir hechos futuros.
Soluciones basadas en Redes Neuronales y Algoritmos
Genéticos ofrecen mejores resultados que los enfoques
estadísticos.
Ej: Clasificación, Agrupamiento (clustering), etc.
Ej.1 : Análisis de créditos bancarios
IDC D-créditos C-créditos Salario Casa Cuentas … Devuelve
(años) (pesos) (pesos) propia Morosas crédito
101 15 60000 2200 Si 2 … no
102 2 30000 3500 Si 0 … Si
103 9 9000 1700 Si 1 … No
104 15 18000 1900 No 0 … Si
105 10 24000 2100 no 0 … No
… … … … … … … …
Reglas obtenidas
Si cuentas-Morosas > 0 entonces Devuelve-credito = no
Si Cuentas-Morosas=0 Y
[(Salario>2500) O (D-credito>10)] entonces
Devuelve-credito= si
13
Ejemplo 2
Se busca predecir si el tipo de fármaco que se
debe administrar a un paciente afectado de rinitis
alérgica es el habitual o no.
16
Ej.2. Arbol de Clasificación
Ej.2. Arbol simplificado
Fases del proceso de KDD
19
Fases del proceso de KDD
Cualitativas o categóricas
NOMINALES: nombran al objeto al que se refieren sin
poder establecer un orden (estado civil, raza, idioma,
etc.)
ORDINALES: se puede establecer un orden entre sus
valores (alto, medio, bajo, etc)
Analizando los datos disponibles
Se busca determinar una primera medida de
calidad de los datos
Variables Categóricas
Análisisde frecuencia mediante histogramas o gráficos de
sectores permitirán detectar valores nulos o fuera de rango.
Variables Cuantitativas
Utilizarmedidas tales como: mínimo, máximo, media,
varianza, moda, mediana, etc.
También pueden usarse gráficos como los diagramas de
cajas o los histogramas.
Ejercicio Whisky.xls
Se ha relevado la siguiente información de 35
marcas de whisky
PRECIO: es el precio de una botella de whisky en
francos.
MALTA : es la graduación de malta en porcentaje
Calidad Frecuencia
0 5
1 2
2 13
3 10
4 5
Ejemplo Whisky.xls
Diagrama de cajas del atributo PRECIO
Minimo 55
1er.Cuartil 73
2do.Cuartil 83
3er.Cuartil 91,5
Maximo 160
RIC 18,5
min 45,25
max 119,25 Hay valores fuera
de rango?
¿Qué es un diagrama de cajas?
Es un gráfico que permite visualizar un conjunto
de valores.
Brinda información sobre los valores mínimo y
máximo y los cuartiles.
Permite determinar la existencia de valores
atípicos y la simetría de la distribución.
¿Cómo se obtiene el diagrama de cajas?
MEDIANA
MEDIANA
2 7 12 14 14 15 18 20 40
1er.cuartil
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Calcular el primer cuartil
2 7 12 14 14 15 18 20 40
3er.cuartil
Ejemplo 2
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 18, 2, 20, 12
Antes calculamos la mediana
Lista de valores ordenados
2 7 12 14 15 18 20 40
MEDIANA = 14.5
2 7 12 14 15 18 20 40
2 7 12 14 15 18 20 40
3er.cuartil = (18+20)/2 = 19
3er cuartil 18.00
1er.cuartil 3er.cuartil
Mediana = 2do.cuartil
Cómo se calculan los bigotes?
Calcular el Rango Intercuartil (RI)
RI = 3er.cuartil – 1er.cuartil
1er.cuartil 3er.cuartil
Mediana = 2do.cuartil
3er cuartil 18.00
Fuera de Fuera de
rango rango
1er.cuartil 3er.cuartil
Mediana = 2do.cuartil
Ejemplo 2
Calcule el diagrama de caja de la muestra
15, 14, 40, 7, 18, 2, 20, 12
Antes vimos que
http://boxplot.tyerslab.com/
BoxPlotR http://boxplot.tyerslab.com/
BoxPlotR http://boxplot.tyerslab.com/
BoxPlotR http://boxplot.tyerslab.com/
Fases del proceso de KDD
Valores extremos
Inconsistencias
Ruido
Tareas a realizar
Limpieza (ej: resolver outliers e inconsistencias)
Transformación (ej:discretización)
Limpieza de los datos
En primer lugar, debe tenerse en cuenta que hay
distintos tipos de variables o atributos.
Para cada tipo se deberá realizar un análisis de
sus valores.
Luego, se procederá a limpiarlos
Eliminando los valores con ruido
Determinando que hacer con los valores nulos.
Eliminando inconsistencias
Limpieza - Variables con ruido
Las variables con ruido tendrán valores que caen
fuera del rango de sus valores esperados llamados
outliers.
Por qué se originan?
Error humano en la carga de datos (ej: una persona
puede aparecer con una altura de 5 metros).
Determinados cambios operacionales no han sido
registrados en el proceso.
HTTP://RAPID-I.COM
RAPID MINER
weblidi.info.unlp.edu.ar/catedras/md_si
Read Excel
Arrastrar y soltar
sobre el área Main
Process
whiskyConFaltantes.xls
El paso 2 permite elegir la hoja con
los datos cargar dentro del archivo
Excel.
Como es la correcta, no es
necesario indiciar nada aquí
Seleccione Name
Verifique que aquí
aparecen los nombres de
los atributos Cada variable tiene
su tipo identificado.
Quite el tilde
Conectar y ejecutar
Limpieza - Valores faltantes
Qué hacer con los valores nulos?
Ignorar la tupla.
Rellenar la tupla manualmente.
Usar una constante global para rellenar el valor nulo.
Utilizar el valor de la media u otra medida de
centralidad para rellenar el valor.
Utilizar el valor de la media u otra medida de
centralidad de los objetos que pertenecen la misma
clase.
Utilizar alguna herramienta de Minería de Datos
para calcular el valor más probable.
Reemplazando los valores faltantes
Reemplazando los valores faltantes
Falta configurarlo
Reemplazando los valores faltantes
Operación a realizar
Reemplazando los valores faltantes
Verifique que no hay datos faltantes
Diagrama de Cajas (Quartile Color)
¿Puede afirmarse
que la Calidad 3
tiene más
ejemplos que la
Calidad 2?
Atributo CATEGORIA
Utilice el operador
MAP
Atributo CATEGORIA
Falta configurar
Atributo CATEGORIA
Atributo CATEGORIA
«Mes» : 9
«Fecha»
«DiaSem» : lunes
03/09/2012
«DiaHabil» : TRUE
Transformación de atributos
Aumento de la dimensionalidad a través de la
creación de características
Atributos nominales:
Se utilizan las operaciones lógicas, igualdad o
desigualdad, condiciones M-de-N (TRUE si al menos M
de las N condiciones son verdaderas).
Se puede generar un valor numérico a partir de
valores nominales, por ejemplo, las variables X-de-N
(retorna el entero X de las N condiciones que son
ciertas)
Ejemplo de creación de atributos
Atributo derivado Fórmula
Indice de obesidad Altura2 / peso
Hombre familiar Casado, varón e (hijos > 0)
Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de
cabeza)
Riesgo de póliza X-de-N (edad<25, varón, años que conduce<2, vehículo
deportivo)
Beneficios Brutos Ingresos – Gastos
Beneficios netos Ingresos – Gastos – Impuestos
Desplazamiento Pasajeros * kilómetro
Duración media Segundos de llamada / número de llamadas
Densidad Población / Area
Retardo compra Fecha compra – Fecha campaña
Generando un nuevo atributo
Antes de
ejecutarlo haga
click aquí para
configurarlo
Generación de un nuevo atributo
if (Precio<=100,"NO","SI")
Histograma del atributo generado
Ejercicio
El atributo Precio presenta valores fuera de rango
extremos.
Genere un nuevo atributo VALOR que contenga los
mismos valores que el atributo Precio salvo que en
caso de ser un valor extremo cambiará su valor por
el más cercano dentro de la muestra que no se
encuentre fuera de rango.
Transformación de atributos
Discretización
Convierte un valor numérico en un nominal ordenado
(que representa un intervalo o "bin")
Ejemplo: Podemos transformar
laedad de la persona en categorías: [0,12] niño,
(12-21) joven, [21,65] adulto y >65 anciano.
La calificación de un alumno en: [4,10] aprobado o
[0,4) desaprobado
Transformación de atributos
Discretización
Puede discretizarse en un número fijo de intervalos. El
ancho del intervalo se calcula
Dividiendo el rango en partes iguales
Dividiendo la cantidad de ejemplos en partes iguales
(igual frecuencia)
También puede definirse la cantidad de elementos por
intervalo
Discretización en Rapid Miner
Pruebe discretizar
los atributos
numéricos con este.
Discretización en 4 intervalos
Discretize by binning (number of bins = 4)
Discretización en 4 intervalos
Discretize by frequency (number of bins = 4)
Transformación de atributos
Numerización
En ocasiones los atributos nominales u ordinales deben
convertirse en números.
Para los nominales suele utilizarse una representación
binaria y para los ordinales suele utilizarse una
representación entera.
Es importante considerar que si se numeran en forma
correlativa los valores de un atributo nominal se
agrega un orden que originalmente no está presente
en la información disponible.
Conversión de tipos con RM
Nominal de Numérico
Indica el tipo de
codificación a utilizar
Transformación de atributos
Normalización
Se aplica según el modelo que se va a construir.
La más común es la normalización lineal uniforme
Indica el método a
aplicar
Fases del proceso de KDD
Problemas de Clustering
K – Medias
Redes Neuronales SOM (self-organizing maps)
Problemas de asociación
Reglas de Asociación
Arboles de decisión
Técnicas para problemas predictivos
Problemas de clasificación
Arboles de clasificación
Reglas de clasificación
Redes Neuronales
Analizaremos
Arboles de decisión
Redes Neuronales
Técnicas de clustering
Fases del proceso de KDD