Documente Academic
Documente Profesional
Documente Cultură
Evaluación de resultados
Revisar el proceso
Establecimiento de los siguientes pasos o acciones
Despliegue
En esta fase utilizan los resultados de la minería exportando los resultados a
tablas de bases de datos o a otras aplicaciones, por ejemplo, hojas de cálculo.
Los productos Intelligent Miner ayudan a completar este proceso. Las funciones
de los productos de Intelligent Miner se pueden aplicar de forma independiente,
iterativa o en combinación.
Explotar la utilidad de los modelos, integrándolos en las tareas de toma de
decisiones de la organización:
Planificación de despliegue
Planificación de la monitorización y del mantenimiento
Generación de informe final
Revisión del proyecto
CRISP-DM (del inglés Cross Industry Standard Process for Data Mining) se trata
de un modelo estándar abierto del proceso que describe los enfoques comunes que
utilizan los expertos en minería de datos. Es el modelo analítico más usado.
CRISP-DM divide el proceso de minería de datos en seis fases principales. Las
flechas en el diagrama indican las dependencias más importantes y frecuentes entre
fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de
datos en sí.
Un proceso de minería de datos continúa después del despliegue de una
solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas
preguntas de negocio, a menudo más centradas y posteriores procesos de minería de
datos se beneficiarán de la experiencia de los anteriores. La siguiente figura muestra
las fases de dicho proceso.
Algunas de estas fases son bidireccionales, lo que significa que algunas fases
permitirán revisar parcial o totalmente las fases anteriores.
Selección de Datos
La selección de datos es el proceso donde los datos relevantes para la tarea de
análisis se recuperan de la base de datos. A veces, la transformación y consolidación de
datos se realiza antes del proceso de selección de datos.
Pre-procesamiento de Datos
Los datos disponibles para la minería son datos sin procesar. Los datos pueden
estar en diferentes formatos, ya que provienen de distintas fuentes, los datos pueden
ser ruidosos, también pueden tener atributos irrelevantes, datos faltantes, etc.
Los datos deben procesarse previamente antes de aplicar cualquier tipo de
algoritmo de minería de datos que se realiza mediante los siguientes pasos:
Integración de Datos
Si los datos que se deben minar provienen de diferentes fuentes estos
necesitan ser integrados, este proceso implica eliminar las inconsistencias en los
atributos.
Limpieza de Datos
Este paso puede involucrar la detección y corrección de errores en los datos,
completar los valores faltantes, etc.
Discretización
La Discretización se aplica cuando el algoritmo para minar no puede con los
atributos continuos. Este paso consiste en transformar un atributo continuo en un
atributo categórico, tomando solo unos pocos valores discretos. La discreción a
menudo mejora la comprensibilidad del conocimiento descubierto.
Selección de Atributos
No todos los atributos son relevantes, por lo que para seleccionar un
subconjunto de atributos relevantes para la minería, entre todos los atributos
originales, se requiere la selección de atributos.
Selección de Atributos
Muchos atributos irrelevantes pueden estar presentes en los datos a ser
minados. Por lo que necesitan ser eliminados. Además, muchos algoritmos de minería
de datos no funcionan bien con grandes cantidades de características o atributos. Por
lo tanto, las técnicas de selección deben aplicarse antes de que se aplique cualquier
tipo de algoritmo.
Los métodos de selección de atributos pueden dividirse ampliamente en
enfoques de Filtro y Wrapper (en minería de datos, Wrapper se refiere a un programa
que extrae el contenido de una fuente de información particular y lo traduce a una
forma relacional).
En el enfoque de Filtro, el método de selección de atributos es independiente
del algoritmo de extracción de datos que se aplicará a los atributos seleccionados y
evalúa la relevancia de los atributos al observar solo las propiedades intrínsecas de los
datos.
En la mayoría de los casos, se calcula una puntuación de relevancia del atributo
y se eliminan las características de puntuación baja. El subconjunto de características
que quedan después de la eliminación de atributos se presenta como entrada al
algoritmo de clasificación.
Las Ventajas de las técnicas de Filtro son que las escalas a los conjuntos de
datos de alta dimensión son computacionalmente simples y rápidas, y como el
enfoque del filtro es independiente del algoritmo de minería, la selección de atributos
solo debe realizarse una vez, y luego se pueden evaluar diferentes clasificadores.
Las Desventajas de los métodos de Filtro son que ignoran la interacción con el
clasificador y que la mayoría de las técnicas propuestas son univariadas, lo que
significa que cada atributo se considera por separado, ignorando así las dependencias
de los atributos. Lo que puede llevar a un peor rendimiento de clasificación en
comparación con otros tipos de técnicas de selección de atributos.
En el enfoque Wrapper, el método de selección de atributos usa el resultado
del algoritmo de extracción de datos para determinar qué tan bueno es un
subconjunto de atributos dado. En esta configuración, se define un procedimiento de
búsqueda en el espacio de posibles subconjuntos de atributos.
La característica principal de este enfoque es que la calidad de un subconjunto
de atributos se mide directamente por el rendimiento del algoritmo de extracción de
datos aplicado a ese subconjunto de atributos. Este método tiende a ser mucho más
lento que el enfoque de Filtro, ya que el algoritmo de minería de datos se aplica a cada
subconjunto de atributos considerado por la búsqueda.
Las Ventajas de estos enfoques incluyen la interacción entre la búsqueda de
subconjuntos de atributos, la selección de modelos, y la capacidad de tener en cuenta
las dependencias de características. Un inconveniente común de estas técnicas es que
tienen un mayor riesgo de sobrealimentación que las técnicas de Filtro y son muy
computacionales.
También se introdujo otra categoría de técnica de selección de características,
denominada Técnica Integrada, en la que la búsqueda de un subconjunto óptimo de
atributos está incorporada en la construcción del clasificador, y puede verse como una
búsqueda en el espacio combinado de subconjuntos de atributos e hipótesis.
Al igual que el enfoque Wrapper, los enfoques Integrados son específicos para
un determinado algoritmo de aprendizaje. Los métodos Integrados tienen la ventaja de
que incluyen la interacción con el modelo de clasificación, mientras que al mismo
tiempo son mucho menos intensivos computacionalmente que los Wrapper.
Clasificación
Los algoritmos de minería de datos pueden seguir tres enfoques de
aprendizaje diferentes: supervisado, sin supervisión, o semi-supervisado.
En el Aprendizaje Supervisado, el algoritmo funciona con un conjunto de
ejemplos cuyas etiquetas son conocidas. Las etiquetas pueden ser valores nominales
en el caso de la tarea de clasificación, o valores numéricos en el caso de la tarea de
regresión.
En el Aprendizaje no Supervisado, en contraste, las etiquetas de los ejemplos
en el conjunto de datos son desconocidas, y el algoritmo generalmente apunta a
agrupar los ejemplos de acuerdo con la similitud de sus valores de atributos,
caracterizando una tarea de agrupamiento.
Finalmente, el Aprendizaje Semi-supervisado se usa generalmente cuando está
disponible un pequeño subconjunto de ejemplos etiquetados, junto con un gran
número de ejemplos sin etiquetar.
La tarea de clasificación puede verse como una técnica supervisada en la que
cada instancia pertenece a una clase, lo que se indica mediante el valor de un atributo
de objetivo especial o simplemente el atributo de clase.
Técnicas de Clasificación
Clasificadores Basados en Reglas
Los clasificadores basados en reglas se ocupan del descubrimiento de reglas de
clasificación de alto nivel y fáciles de interpretar.
Redes Bayesianas
Una red bayesiana (BN) consiste en un gráfico a-cíclico dirigido y una
distribución de probabilidad para cada nodo en ese gráfico dados sus antecesores
inmediatos.
Árbol de Decisión
Un clasificador de árbol de decisión consiste en un árbol de decisión generado
en base a las instancias. El árbol de decisión tiene dos tipos de nodos: