Tarea 3

El Proceso Genérico de Minería de Datos
La minería de datos es un proceso iterativo que típicamente involucra las

siguientes fases:
Definición del Problema
Un proyecto de minería de datos comienza con la comprensión del problema
del negocio. Los expertos en minería de datos, expertos en negocios y expertos en
dominios trabajan en estrecha colaboración para definir los objetivos del proyecto y
los requisitos desde una perspectiva empresarial. El objetivo del proyecto se traduce
luego en una definición de problema de minería de datos.
En la fase de definición del problema, las herramientas de minería de datos aún
no son necesarias.
Objetivos y requerimientos desde una perspectiva no técnica:
 Establecimiento de los objetivos del negocio (Contexto inicial, objetivos,

criterios de éxito)
 Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,
terminologías propias del negocio,…)
 Establecimiento de los objetivos de la minería de datos (objetivos y criterios de
éxito)
 Generación del plan del proyecto (plan, herramientas, equipo y técnicas)
Exploración de datos
Los expertos en dominios entienden el significado de los metadatos. Recopilan,
describen y exploran los datos. También identifican problemas de calidad de los datos.
Un intercambio frecuente con los expertos en minería de datos y los expertos en
negocios de la fase de definición del problema es vital.
En la fase de exploración de datos, las herramientas tradicionales de análisis de
datos, por ejemplo, estadísticas, se utilizan para explorar los datos.
La exploración de los datos facilita la familiarización de los mismos para así
tener en cuenta los objetivos del negocio.
La familiarización con los datos consta en las siguientes fases:
 Recopilación inicial de datos

 Descripción de los datos
 Exploración de los datos
 Verificación de calidad de datos
Preparación de datos
Los expertos en dominios construyen el modelo de datos para el proceso de
modelado. Recopilan, limpian y formatean los datos porque algunas de las funciones
de minería de datos solo aceptan datos en un formato determinado. También crean
nuevos atributos derivados, por ejemplo, un valor promedio.
En la fase de preparación de datos, los datos se ajustan varias veces sin ningún
orden prescrito. La preparación de los datos para la herramienta de modelado
seleccionando tablas, registros y atributos, son tareas típicas en esta fase. El significado
de los datos no se cambia.
Proceso enumerado para obtener la vista minable o dataset:
1. Selección de los datos
2. Limpieza de datos
3. Construcción de datos
4. Integración de datos
5. Formateo de datos
Modelado
Se seleccionan y aplican varias funciones de minería porque puede usar
diferentes funciones de minería para el mismo tipo de problema de minería de datos.
Algunas de las funciones de minería requieren tipos de datos específicos. Los expertos
en minería de datos deben evaluar cada modelo.
En la fase de modelado, se requiere un intercambio frecuente con los expertos
en el dominio de la fase de preparación de datos.
La fase de modelado y la fase de evaluación están acopladas. Se pueden repetir
varias veces para cambiar los parámetros hasta lograr los valores óptimos. Cuando se
completa la fase final de modelado, se ha construido un modelo de alta calidad.
Aplicar las técnicas de minería de datos a los dataset:
 Selección de la técnica de modelado

 Diseño de la evaluación
 Construcción del modelo
 Evaluación del modelo
Evaluación
Expertos en minería de datos evalúan el modelo. Si el modelo no satisface sus
expectativas, regresan a la fase de modelado y reconstruyen el modelo cambiando sus
parámetros hasta lograr los valores óptimos. Cuando finalmente estén satisfechos con
el modelo, pueden extraer explicaciones de negocios y evaluar las siguientes
preguntas:
 ¿El modelo logra el objetivo de negocio?
 ¿Se han considerado todos los problemas de negocios?
Al final de la fase de evaluación, se decide cómo usar los resultados de la
minería de datos.
Para determinar si los modelos de la fase anterior son útiles a las necesidades
del negocio se llevan a cabo las siguientes etapas:
 Evaluación de resultados
 Revisar el proceso
 Establecimiento de los siguientes pasos o acciones
Despliegue
En esta fase utilizan los resultados de la minería exportando los resultados a
tablas de bases de datos o a otras aplicaciones, por ejemplo, hojas de cálculo.
Los productos Intelligent Miner ayudan a completar este proceso. Las funciones
de los productos de Intelligent Miner se pueden aplicar de forma independiente,
iterativa o en combinación.
Explotar la utilidad de los modelos, integrándolos en las tareas de toma de
decisiones de la organización:
 Planificación de despliegue
 Planificación de la monitorización y del mantenimiento
 Generación de informe final
 Revisión del proyecto
CRISP-DM (del inglés Cross Industry Standard Process for Data Mining) se trata
de un modelo estándar abierto del proceso que describe los enfoques comunes que
utilizan los expertos en minería de datos. Es el modelo analítico más usado.
CRISP-DM divide el proceso de minería de datos en seis fases principales. Las
flechas en el diagrama indican las dependencias más importantes y frecuentes entre
fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de
datos en sí.
Un proceso de minería de datos continúa después del despliegue de una
solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas
preguntas de negocio, a menudo más centradas y posteriores procesos de minería de
datos se beneficiarán de la experiencia de los anteriores. La siguiente figura muestra
las fases de dicho proceso.
Algunas de estas fases son bidireccionales, lo que significa que algunas fases
permitirán revisar parcial o totalmente las fases anteriores.
Selección de Datos
La selección de datos es el proceso donde los datos relevantes para la tarea de
análisis se recuperan de la base de datos. A veces, la transformación y consolidación de
datos se realiza antes del proceso de selección de datos.
Pre-procesamiento de Datos
Los datos disponibles para la minería son datos sin procesar. Los datos pueden
estar en diferentes formatos, ya que provienen de distintas fuentes, los datos pueden
ser ruidosos, también pueden tener atributos irrelevantes, datos faltantes, etc.
Los datos deben procesarse previamente antes de aplicar cualquier tipo de
algoritmo de minería de datos que se realiza mediante los siguientes pasos:
Integración de Datos
Si los datos que se deben minar provienen de diferentes fuentes estos
necesitan ser integrados, este proceso implica eliminar las inconsistencias en los
atributos.
Limpieza de Datos
Este paso puede involucrar la detección y corrección de errores en los datos,
completar los valores faltantes, etc.
Discretización
La Discretización se aplica cuando el algoritmo para minar no puede con los
atributos continuos. Este paso consiste en transformar un atributo continuo en un
atributo categórico, tomando solo unos pocos valores discretos. La discreción a
menudo mejora la comprensibilidad del conocimiento descubierto.
Selección de Atributos
No todos los atributos son relevantes, por lo que para seleccionar un
subconjunto de atributos relevantes para la minería, entre todos los atributos
originales, se requiere la selección de atributos.
Selección de Atributos
Muchos atributos irrelevantes pueden estar presentes en los datos a ser
minados. Por lo que necesitan ser eliminados. Además, muchos algoritmos de minería
de datos no funcionan bien con grandes cantidades de características o atributos. Por
lo tanto, las técnicas de selección deben aplicarse antes de que se aplique cualquier
tipo de algoritmo.
Los métodos de selección de atributos pueden dividirse ampliamente en
enfoques de Filtro y Wrapper (en minería de datos, Wrapper se refiere a un programa
que extrae el contenido de una fuente de información particular y lo traduce a una
forma relacional).
En el enfoque de Filtro, el método de selección de atributos es independiente
del algoritmo de extracción de datos que se aplicará a los atributos seleccionados y
evalúa la relevancia de los atributos al observar solo las propiedades intrínsecas de los
datos.
En la mayoría de los casos, se calcula una puntuación de relevancia del atributo
y se eliminan las características de puntuación baja. El subconjunto de características
que quedan después de la eliminación de atributos se presenta como entrada al
algoritmo de clasificación.
Las Ventajas de las técnicas de Filtro son que las escalas a los conjuntos de
datos de alta dimensión son computacionalmente simples y rápidas, y como el
enfoque del filtro es independiente del algoritmo de minería, la selección de atributos
solo debe realizarse una vez, y luego se pueden evaluar diferentes clasificadores.
Las Desventajas de los métodos de Filtro son que ignoran la interacción con el
clasificador y que la mayoría de las técnicas propuestas son univariadas, lo que
significa que cada atributo se considera por separado, ignorando así las dependencias
de los atributos. Lo que puede llevar a un peor rendimiento de clasificación en
comparación con otros tipos de técnicas de selección de atributos.
En el enfoque Wrapper, el método de selección de atributos usa el resultado
del algoritmo de extracción de datos para determinar qué tan bueno es un
subconjunto de atributos dado. En esta configuración, se define un procedimiento de
búsqueda en el espacio de posibles subconjuntos de atributos.
La característica principal de este enfoque es que la calidad de un subconjunto
de atributos se mide directamente por el rendimiento del algoritmo de extracción de
datos aplicado a ese subconjunto de atributos. Este método tiende a ser mucho más
lento que el enfoque de Filtro, ya que el algoritmo de minería de datos se aplica a cada
subconjunto de atributos considerado por la búsqueda.
Las Ventajas de estos enfoques incluyen la interacción entre la búsqueda de
subconjuntos de atributos, la selección de modelos, y la capacidad de tener en cuenta
las dependencias de características. Un inconveniente común de estas técnicas es que
tienen un mayor riesgo de sobrealimentación que las técnicas de Filtro y son muy
computacionales.
También se introdujo otra categoría de técnica de selección de características,
denominada Técnica Integrada, en la que la búsqueda de un subconjunto óptimo de
atributos está incorporada en la construcción del clasificador, y puede verse como una
búsqueda en el espacio combinado de subconjuntos de atributos e hipótesis.
Al igual que el enfoque Wrapper, los enfoques Integrados son específicos para
un determinado algoritmo de aprendizaje. Los métodos Integrados tienen la ventaja de
que incluyen la interacción con el modelo de clasificación, mientras que al mismo
tiempo son mucho menos intensivos computacionalmente que los Wrapper.
Clasificación
Los algoritmos de minería de datos pueden seguir tres enfoques de
aprendizaje diferentes: supervisado, sin supervisión, o semi-supervisado.
En el Aprendizaje Supervisado, el algoritmo funciona con un conjunto de
ejemplos cuyas etiquetas son conocidas. Las etiquetas pueden ser valores nominales
en el caso de la tarea de clasificación, o valores numéricos en el caso de la tarea de
regresión.
En el Aprendizaje no Supervisado, en contraste, las etiquetas de los ejemplos
en el conjunto de datos son desconocidas, y el algoritmo generalmente apunta a
agrupar los ejemplos de acuerdo con la similitud de sus valores de atributos,
caracterizando una tarea de agrupamiento.
Finalmente, el Aprendizaje Semi-supervisado se usa generalmente cuando está
disponible un pequeño subconjunto de ejemplos etiquetados, junto con un gran
número de ejemplos sin etiquetar.
La tarea de clasificación puede verse como una técnica supervisada en la que
cada instancia pertenece a una clase, lo que se indica mediante el valor de un atributo
de objetivo especial o simplemente el atributo de clase.
Técnicas de Clasificación
Clasificadores Basados en Reglas
Los clasificadores basados en reglas se ocupan del descubrimiento de reglas de
clasificación de alto nivel y fáciles de interpretar.
Redes Bayesianas
Una red bayesiana (BN) consiste en un gráfico a-cíclico dirigido y una
distribución de probabilidad para cada nodo en ese gráfico dados sus antecesores
inmediatos.
Árbol de Decisión
Un clasificador de árbol de decisión consiste en un árbol de decisión generado
en base a las instancias. El árbol de decisión tiene dos tipos de nodos:
 La raíz y los nodos internos

 Los nodos de hoja.
El Vecino más Cercano
Un clasificador de vecino más cercano asume que todas las instancias
corresponden a puntos en el espacio n-dimensional.
Red Neuronal Artificial
Una red neuronal artificial, a menudo llamada red neuronal, es un modelo
matemático o un modelo computacional basado en redes neuronales biológicas; en
otras palabras, es una emulación del sistema neuronal biológico.
Máquinas de Vectores de Apoyo
Las máquinas de vectores de soporte son básicamente algoritmos de
clasificación binaria. SVM (por sus siglas en inglés Support Vector Machines) es un
sistema de clasificación derivado de la teoría del aprendizaje estadístico.
Conjuntos en Bruto
Cualquier conjunto de todos los objetos indiscernibles (similares) se llama un
conjunto elemental. Cualquier unión de algunos conjuntos elementales se denomina
conjunto nítido o preciso, de lo contrario, el conjunto es aproximado (impreciso, vago).
Algoritmos Genéticos
Los algoritmos genéticos (GA) son algoritmos de búsqueda basados en genética
natural que proporcionan capacidades de búsqueda sólidas en espacios complejos,
ofreciendo así un enfoque válido para problemas que requieren procesos de búsqueda
eficientes y efectivos.
Lógica Difusa
La lógica difusa es una lógica multi-valuada diferente de la "lógica nítida",
donde los conjuntos binarios tienen dos lógicas valiosas. Las variables lógicas difusas
tienen un valor de verdad en el rango entre 0 y 1.
Transformación de Datos
La transformación de datos forma parte del procesamiento previo. Esto ayuda a
transformar o consolidar los datos para que el proceso de minería resultante sea más
eficiente y los patrones encontrados sean más fáciles de entender. En el proceso de
transformación de datos, los datos se transforman de un formato a otro que sea más
apropiado para la minería de datos.
Las estrategias populares para la transformación de datos incluyen:
Suavizado
Funciona para eliminar el ruido de los datos. Las técnicas incluyen agrupación,
regresión y agrupamiento. Tal técnica incluye agrupamiento y regresión.
Construcción de Atributos
Esto implica un nuevo atributo construido y agregado a partir de una lista dada
de atributos para ayudar al proceso de minería.
Agregación
Esto implica procedimientos de resumen o agregación que se aplican a los
datos. Los datos diarios de las transacciones de stock se pueden agregar para calcular
el monto de la transacción mensual y anual.
Normalización
La normalización implica escalar todos los valores para un atributo dado para
que caigan dentro de un rango específico pequeño. La normalización se usa cuando, en
el paso de aprendizaje, se usan las redes neuronales o los métodos que involucran
mediciones.
Discretización
Donde el valor sin procesar del atributo numérico se sustituye por variables de
intervalo.
Descripción de la Jerarquía de Conceptos
Donde los atributos como el precio de la opción, la liquidez y la volatilidad se
asignan al indicador de capital.
Generalización
Los datos también pueden transformarse generalizándolos al concepto
superior. Para ello podemos utilizar las jerarquías de conceptos.
Minería de Datos
Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases
de datos, de manera automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los
datos en un determinado contexto.
Intuitivamente, se podría pensar que la "minería" de datos se refiere a la
extracción de datos nuevos, pero este no es el caso; en su lugar, la extracción de datos
consiste en extrapolar patrones y nuevos conocimientos a partir de los datos que ya ha
recopilado.
Básicamente, el Data Mining surge para intentar ayudar a comprender el
contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y,
en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las
redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el
usuario les atribuye algún significado especial pasan a convertirse en información.
Cuando los especialistas elaboran o encuentran un modelo, haciendo que la
interpretación que surge entre la información y ese modelo represente un valor
agregado, entonces nos referimos al conocimiento.
Aunque en Data Mining cada caso concreto puede ser radicalmente distinto al
anterior, el proceso común a todos ellos se suele componer de cuatro etapas
principales:
 Determinación de los objetivos: Trata de la delimitación de los objetivos que el

cliente desea bajo la orientación del especialista en Data Mining.
 Pre-procesamiento de los datos: Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total
de un proyecto de Data Mining.
 Determinación del modelo: Se comienza realizando unos análisis estadísticos
de los datos, y después se lleva a cabo una visualización gráfica de los mismos
para tener una primera aproximación. Según los objetivos planteados y la tarea
que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes áreas de la Inteligencia Artificial.
 Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y
los coteja con los obtenidos por los análisis estadísticos y de visualización
gráfica. El cliente determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.
En resumen, el Data Mining se presenta como una tecnología emergente, con
varias ventajas: por un lado, resulta un buen punto de encuentro entre los
investigadores y las personas de negocios; por otro, ahorra grandes cantidades de
dinero a una empresa y abre nuevas oportunidades de negocios.
Además, no hay duda de que trabajar con esta tecnología implica cuidar un
sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".
En términos básicos la toma de decisiones es el proceso de definiciones de
problemas, recopilaciones de datos, generaciones de alternativas y selecciones de un
curso de acción y se define como “el proceso para identificar y solucionar un curso de
acción para resolver un problema específico”.
La toma de decisiones se refiere a la elección correcta entre diversas opciones
para concretar un proyecto.
La toma de decisiones a nivel individual se caracteriza por el hecho de que una
persona razone para así elegir una solución frente a un problema determinado; es
decir, si una persona enfrenta algún problema, deberá ser capaz de resolverlo
individualmente tomando decisiones.
En la toma de decisiones importa la elección de un camino a seguir, por lo que
en un estado anterior deben evaluarse alternativas de acción. Si estas últimas no están
presentes, no existirá decisión.
Interpretación de Resultados
Los resultados del modelo de minería de datos deben interpretarse en el
contexto del problema comercial que se está intentando resolver. Cualquier
transformación realizada a las medidas de entrada debe ajustarse de forma apropiada
al intentar interpretar los resultados.
El resultado siempre será analizado por el usuario de negocio. Los datos
faltantes o incorrectos, las entradas duplicadas, la información mal identificada y las
relaciones sin documentar entre elementos de datos son solo algunos de los
problemas que empañan los datos cada día en empresas alrededor del mundo, muy a
menudo debido a errores de los usuarios de negocio.
Al sumarlos, todos estos pequeños problemas en la calidad de los datos pueden
causar grandes problemas en los procesos de negocio y resultar en pérdidas
importantes tanto de dinero como de productividad laboral.
Operaciones y técnicas de minería de datos
Operaciones:
Clasificación
Esta función de minería de datos se utiliza para clasificar los datos en diferentes
grupos / clases según las restricciones. La técnica se utiliza en grandes conjuntos de
datos para predecir la categoría de etiquetas de clase en función de los conjuntos de
datos de entrenamiento.
Algunos de los casos comerciales que utilizan estas técnicas son el diagnóstico
de la condición médica del paciente para seleccionar el tratamiento médico, clasificar a
las personas en diferentes grupos de crédito según sus datos financieros y separar a los
solicitantes de préstamos individuales en diferentes parámetros de riesgo de crédito.
Los algoritmos de clasificación más utilizados son Naive Bayes, SVM (Support
Vector Machines), el clasificador de vecino más cercano y ANN (Artificial Neural
Network). Determinar el algoritmo de clasificación es crucial y confuso a veces; se
requiere que los expertos evalúen lo mejor para un proyecto dado.
Por ejemplo, el algoritmo de Naive Bayes, aunque simple de implementar,
requería un gran conjunto de datos para la capacitación. ANN se puede utilizar con
menos parámetros, pero requiere un alto tiempo de procesamiento.
Regresión
Esta operación se utiliza para predecir la variable de valor real. Los modelos de
datos tradicionales se desarrollan utilizando métodos estadísticos como regresión
lineal y logística.
Cuando se compara con la clasificación, ambos se utilizan para la predicción. Sin
embargo, la salida está categorizada en clasificación y es una salida numérica en
regresión.
Algunos ejemplos destacados de operaciones de regresión son la
determinación de la tasa de criminalidad de una ciudad según diferentes parámetros,
la valoración de la propiedad basada en factores como la ubicación, el área del piso,
etc., los sistemas de puntuación asegurados (como en el seguro de automóviles) para
predecir la probabilidad de una reunión asegurada con un accidente, etc.
Algunos algoritmos de regresión populares son los modelos lineales
generalizados (GLM) para máquinas lineales y de vectores de soporte (SVM) para
regresión lineal y no lineal.
Segmentación
El objetivo principal aquí es identificar grupos de registros, que pueden ser
mutuamente excluyentes y exhaustivos y pueden tener categorías jerárquicas, con los
mismos comportamientos. Es ampliamente utilizado en marketing para descubrir
grupos homogéneos de clientes y segmentarlos según su estilo de vida, geografía, etc.
Análisis de enlaces
El análisis de enlaces se utiliza para evaluar conexiones o relaciones entre
nodos / registros. Se utiliza en la comercialización de afinidad de productos, donde el
vendedor podría estar interesado en saber qué artículos se pueden vender juntos.
En seguros, esta técnica se usa para la detección de fraudes al identificar los
patrones de reclamaciones a través de la visualización de la red. Esta operación se
utiliza principalmente en conjunto con el análisis de segmentación.
Desviación
Esta operación se utiliza para determinar cualquier desviación en los datos
debido a anomalías o excepciones. Se utiliza principalmente para determinar patrones
inusuales, cambios de datos en una serie de tiempo fija, discrepancias de datos
anteriores y puntos de datos en un conjunto de datos que no pertenecen a ningún
grupo.
Seguir un enfoque sistemático para la implementación de la extracción de
datos puede reducir en gran medida los riesgos de fracaso del proyecto. Además,
puede ayudar a las personas de negocios y técnicas a determinar la necesidad de
análisis de datos y las mejores herramientas y técnicas para elegir.
Técnicas:
La minería de datos es altamente efectiva, siempre y cuando se base en una o
más de estas técnicas:
Patrones de seguimiento
Una de las técnicas más básicas en la minería de datos es aprender a reconocer
patrones en sus conjuntos de datos. Esto suele ser un reconocimiento de alguna
anomalía en sus datos que ocurren a intervalos regulares, o un flujo y reflujo de una
determinada variable a lo largo del tiempo. Por ejemplo, puede ver que sus ventas de
un determinado producto parecen aumentar justo antes de las vacaciones, o notar que
el clima más cálido lleva a más personas a su sitio web.
Asociación
La asociación está relacionada con los patrones de seguimiento, pero es más
específica para las variables vinculadas de forma dependiente. En este caso, buscará
eventos o atributos específicos que estén altamente correlacionados con otro evento o
atributo; por ejemplo, puede notar que cuando sus clientes compran un artículo
específico, a menudo también compran un segundo artículo relacionado. Esto suele
ser lo que se usa para rellenar las secciones de "tiendas que también compraron" de
las tiendas en línea.
Detección de valores atípicos.
En muchos casos, el simple hecho de reconocer el patrón general no puede
brindarle una comprensión clara de su conjunto de datos. También debe poder
identificar anomalías o valores atípicos en sus datos. Por ejemplo, si sus compradores
son casi exclusivamente hombres, pero durante una semana extraña en julio, hay un
gran aumento en los compradores femeninos, querrá investigar el pico y ver qué lo
impulsó, por lo que puede replicarlo o entenderlo mejor. Tu audiencia en el proceso.
Agrupamiento
La agrupación es muy similar a la clasificación, pero implica agrupar fragmentos
de datos en función de sus similitudes. Por ejemplo, puede elegir agrupar los
diferentes grupos demográficos de su audiencia en diferentes paquetes según la
cantidad de ingresos disponibles que tengan o la frecuencia con la que compren en su
tienda.
Predicción
La predicción es una de las técnicas de extracción de datos más valiosas, ya que
se utiliza para proyectar los tipos de datos que verá en el futuro. En muchos casos, solo
reconocer y comprender las tendencias históricas es suficiente para trazar una
predicción algo precisa de lo que sucederá en el futuro. Por ejemplo, puede revisar el
historial crediticio de los consumidores y las compras pasadas para predecir si serán un
riesgo crediticio en el futuro.
Herramientas de minería de datos

Entonces, ¿necesita la última y mejor tecnología de aprendizaje automático
para poder aplicar estas técnicas? No necesariamente.
De hecho, es probable que pueda lograr una extracción de datos de vanguardia
con sistemas de bases de datos relativamente modestos y herramientas simples que
casi cualquier empresa tendrá. Y si no tiene las herramientas adecuadas para el
trabajo, siempre puede crear las suyas propias.
No importa cómo se haga, la minería de datos es la mejor colección de técnicas
que tiene para aprovechar al máximo los datos que ya ha recopilado. Mientras aplique
la lógica correcta y haga las preguntas correctas, puede salir con conclusiones que
tienen el potencial de revolucionar su empresa.

Tarea 3

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tarea 3

Încărcat de

Drepturi de autor:

Formate disponibile

El Proceso Genérico de Minería de Datos

La minería de datos es un proceso iterativo que típicamente involucra las

 Establecimiento de los objetivos del negocio (Contexto inicial, objetivos,

 Recopilación inicial de datos

 Selección de la técnica de modelado

 La raíz y los nodos internos

 Determinación de los objetivos: Trata de la delimitación de los objetivos que el

Herramientas de minería de datos

S-ar putea să vă placă și