Mineria de Datos

La miner�a de datos o exploraci�n de datos (es la etapa de an�lisis de "Knowledge
Discovery in Databases" o KDD) es un campo de la estad�stica y las ciencias de la

computaci�n referido al proceso que intenta descubrir patrones en grandes vol�menes
de conjuntos de datos.1?2? Utiliza los m�todos de la inteligencia artificial,
aprendizaje autom�tico, estad�stica y sistemas de bases de datos. El objetivo
general del proceso de miner�a de datos consiste en extraer informaci�n de un
conjunto de datos y transformarla en una estructura comprensible para su uso
posterior. Adem�s de la etapa de an�lisis en bruto, supone aspectos de gesti�n de
datos y de bases de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de m�tricas de Intereses, de consideraciones de la
teor�a de la complejidad computacional, de post-procesamiento de las estructuras
descubiertas, de la visualizaci�n y de la actualizaci�n en l�nea.
El t�rmino es un concepto de moda, y es frecuentemente mal utilizado para referirse

a cualquier forma de datos a gran escala o procesamiento de la informaci�n
(recolecci�n, extracci�n, almacenamiento, an�lisis y estad�sticas), pero tambi�n se
ha generalizado a cualquier tipo de sistema de apoyo inform�tico decisi�n,
incluyendo la inteligencia artificial, aprendizaje autom�tico y la inteligencia
empresarial. En el uso de la palabra, el t�rmino clave es el descubrimiento,
com�nmente se define como "la detecci�n de algo nuevo". Incluso el popular libro
"La miner�a de datos: sistema de pr�cticas herramientas de aprendizaje y t�cnicas
con Java" (que cubre todo el material de aprendizaje autom�tico) originalmente iba
a ser llamado simplemente "la m�quina de aprendizaje pr�ctico", y el t�rmino
"miner�a de datos" se a�adi� por razones de marketing. A menudo, los t�rminos m�s
generales "(gran escala) el an�lisis de datos", o "an�lisis" -. o cuando se refiere
a los m�todos actuales, la inteligencia artificial y aprendizaje autom�tico, son
m�s apropiados.
La tarea de miner�a de datos real es el an�lisis autom�tico o semi-autom�tico de

grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (an�lisis cl�ster), registros
poco usuales (la detecci�n de anomal�as) y dependencias (miner�a por reglas de
asociaci�n). Esto generalmente implica el uso de t�cnicas de bases de datos como
los �ndices espaciales. Estos patrones pueden entonces ser vistos como una especie
de resumen de los datos de entrada, y pueden ser utilizados en el an�lisis
adicional o, por ejemplo, en el aprendizaje autom�tico y an�lisis predictivo. Por
ejemplo, el paso de miner�a de datos podr�a identificar varios grupos en los datos,
que luego pueden ser utilizados para obtener resultados m�s precisos de predicci�n
por un sistema de soporte de decisiones. Ni la recolecci�n de datos, preparaci�n de
datos, ni la interpretaci�n de los resultados y la informaci�n son parte de la
etapa de miner�a de datos, pero que pertenecen a todo el proceso KDD como pasos
adicionales.
Los t�rminos relacionados con la obtenci�n de datos, la pesca de datos y espionaje

de los datos se refieren a la utilizaci�n de m�todos de miner�a de datos a las
partes de la muestra de un conjunto de datos de poblaci�n m�s grandes establecidas
que son (o pueden ser) demasiado peque�as para las inferencias estad�sticas fiables
que se hizo acerca de la validez de cualquier patr�n descubierto. Estos m�todos
pueden, sin embargo, ser utilizados en la creaci�n de nuevas hip�tesis que se
prueban contra poblaciones de datos m�s grandes.
�ndice
1 Proceso
2 Protocolo de un proyecto de miner�a de datos
3 T�cnicas de miner�a de datos
4 Ejemplos de uso de la miner�a de datos
4.1 Negocios
4.1.1 An�lisis de la cesta de la compra
4.1.2 Patrones de fuga
4.1.3 Fraudes
4.1.4 Recursos humanos
4.2 Comportamiento en Internet
4.3 Terrorismo
4.4 Juegos
4.5 Videojuegos
4.6 Ciencia e Ingenier�a
4.6.1 Gen�tica
4.6.2 Ingenier�a el�ctrica
4.6.3 An�lisis de gases
5 Miner�a de datos y otras disciplinas an�logas
5.1 De la estad�stica
5.2 De la inform�tica
6 Miner�a de datos basada en teor�a de la informaci�n
7 Tendencias
8 Herramientas de software
9 V�ase tambi�n
10 Referencias
11 Enlaces externos
Proceso
Un proceso t�pico de miner�a de datos consta de los siguientes pasos generales:
Selecci�n del conjunto de datos, tanto en lo que se refiere a las variables

objetivo (aquellas que se quiere predecir, calcular o inferir), como a las
variables independientes (las que sirven para hacer el c�lculo o proceso), como
posiblemente al muestreo de los registros disponibles.
An�lisis de las propiedades de los datos, en especial los histogramas, diagramas de
dispersi�n, presencia de valores at�picos y ausencia de datos (valores nulos).
Transformaci�n del conjunto de datos de entrada, se realizar� de diversas formas en
funci�n del an�lisis previo, con el objetivo de prepararlo para aplicar la t�cnica
de miner�a de datos que mejor se adapte a los datos y al problema, a este paso
tambi�n se le conoce como preprocesamiento de los datos.
Selecci�n y aplicaci�n de la t�cnica de miner�a de datos, se construye el modelo
predictivo, de clasificaci�n o segmentaci�n.
Extracci�n de conocimiento, mediante una t�cnica de miner�a de datos, se obtiene un
modelo de conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociaci�n entre dichas
variables. Tambi�n pueden usarse varias t�cnicas a la vez para generar distintos
modelos, aunque generalmente cada t�cnica obliga a un preprocesado diferente de los
datos.
Interpretaci�n y evaluaci�n de datos, una vez obtenido el modelo, se debe proceder
a su validaci�n comprobando que las conclusiones que arroja son v�lidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos
mediante el uso de distintas t�cnicas, se deben comparar los modelos en busca de
aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar
nuevos modelos.
Si el modelo final no superara esta evaluaci�n el proceso se podr�a repetir desde
el principio o, si el experto lo considera oportuno, a partir de cualquiera de los
pasos anteriores. Esta retroalimentaci�n se podr� repetir cuantas veces se
considere necesario hasta obtener un modelo v�lido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas
y/o con m�rgenes de error admisibles) �ste ya est� listo para su explotaci�n. Los
modelos obtenidos por t�cnicas de miner�a de datos se aplican incorpor�ndolos en
los sistemas de an�lisis de informaci�n de las organizaciones, e incluso, en los
sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data
Mining Group, que est� estandarizando el lenguaje PMML (Predictive Model Markup
Language), de manera que los modelos de miner�a de datos sean interoperables en
distintas plataformas, con independencia del sistema con el que han sido
construidos. Los principales fabricantes de sistemas de bases de datos y programas
de an�lisis de la informaci�n hacen uso de este est�ndar.
Tradicionalmente, las t�cnicas de miner�a de datos se aplicaban sobre informaci�n

contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones
han creado y alimentan bases de datos especialmente dise�adas para proyectos de
miner�a de datos en las que centralizan informaci�n potencialmente �til de todas
sus �reas de negocio. No obstante, actualmente est� cobrando una importancia cada
vez mayor la miner�a de datos desestructurados como informaci�n contenida en
ficheros de texto, en Internet, etc.
Protocolo de un proyecto de miner�a de datos

Un proyecto de miner�a de datos tiene varias fases necesarias que son,
esencialmente:
Comprensi�n: del negocio y del problema que se quiere resolver.

Determinaci�n, obtenci�n y limpieza: de los datos necesarios.
Creaci�n de modelos matem�ticos.
Validaci�n, comunicaci�n: de los resultados obtenidos.
Integraci�n: si procede, de los resultados en un sistema transaccional o similar.
La relaci�n entre todas estas fases s�lo es lineal sobre el papel. En realidad, es
mucho m�s compleja y esconde toda una jerarqu�a de subfases. A trav�s de la
experiencia acumulada en proyectos de miner�a de datos se han ido desarrollando
metodolog�as que permiten gestionar esta complejidad de una manera m�s o menos
uniforme.
T�cnicas de miner�a de datos

Como ya se ha comentado, las t�cnicas de la miner�a de datos provienen de la
inteligencia artificial y de la estad�stica, dichas t�cnicas, no son m�s que
algoritmos, m�s o menos sofisticados que se aplican sobre un conjunto de datos para
obtener unos resultados.
Las t�cnicas m�s representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento autom�tico

inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexi�n de neuronas en una red que colabora para producir un
est�mulo de salida. Algunos ejemplos de red neuronal son:
El perceptr�n.
El perceptr�n multicapa.
Los mapas autoorganizados, tambi�n conocidos como redes de Kohonen.
Regresi�n lineal.- Es la m�s utilizada para formar relaciones entre datos. R�pida y
eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse
m�s de 2 variables.
�rboles de decisi�n.- Un �rbol de decisi�n es un modelo de predicci�n utilizado en
el �mbito de la inteligencia artificial y el an�lisis predictivo, dada una base de
datos se construyen estos diagramas de construcciones l�gicas, muy similares a los
sistemas de predicci�n basados en reglas, que sirven para representar y categorizar
una serie de condiciones que suceden de forma sucesiva, para la resoluci�n de un
problema. Ejemplos:
Algoritmo ID3.
Algoritmo C4.5
Modelos estad�sticos.- Es una expresi�n simb�lica en forma de igualdad o ecuaci�n
que se emplea en todos los dise�os experimentales y en la regresi�n para indicar
los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupaci�n de una serie de
vectores seg�n criterios habitualmente de distancia; se tratar� de disponer los
vectores de entrada de forma que est�n m�s cercanos aquellos que tengan
caracter�sticas comunes. Ejemplos:
Algoritmo K-means
Algoritmo K-medoids
Reglas de asociaci�n.- Se utilizan para descubrir hechos que ocurren en com�n
dentro de un determinado conjunto de datos.
Seg�n el objetivo del an�lisis de los datos, los algoritmos utilizados se
clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.
Ejemplos de uso de la miner�a de datos
Negocios
La miner�a de datos puede contribuir significativamente en las aplicaciones de
administraci�n empresarial basada en la relaci�n con el cliente. En lugar de
contactar con el cliente de forma indiscriminada a trav�s de un centro de llamadas
o enviando e-mails, s�lo se contactar� con aquellos que se perciba que tienen una
mayor probabilidad de responder positivamente a una determinada oferta o promoci�n.
Las empresas que emplean miner�a de datos ven habitualmente el retorno de la

inversi�n, pero tambi�n reconocen que el n�mero de modelos predictivos
desarrollados puede crecer muy r�pidamente. En lugar de crear modelos para predecir
qu� clientes pueden cambiar, la empresa podr�a construir modelos separados para
cada regi�n y/o para cada tipo de cliente. Tambi�n puede querer determinar qu�
clientes van a ser rentables durante una ventana de tiempo (una quincena, un
mes, ...) y s�lo enviar las ofertas a las personas que es probable que sean
rentables. Para mantener esta cantidad de modelos, es necesario gestionar las
versiones de cada modelo y pasar a una miner�a de datos lo m�s automatizada
posible.
En un entorno tan cambiante donde los vol�menes de datos medibles crece

exponencialmente gracias al marketing digital,3? "las esperas producidas por
dependencias de departamentos t�cnicos y los expertos estadistas consiguen que
finalmente los resultados de los an�lisis sean inservibles" a los usuarios de
negocio y decisores.4? Esto explica que los proveedores de herramientas de miner�a
de datos est�n trabajando en aplicaciones m�s f�ciles de utilizar en lo que se
conoce como miner�a de datos visual5? y la demanda de empleo de este tipo de
usuario analista de negocio se est� disparando en los �ltimos a�os. Seg�n Gartner
es previsible que durante 2016-2017 s�lo haya "profesionales cualificados para
cubrir una tercera parte de los puestos".6?
An�lisis de la cesta de la compra

El ejemplo cl�sico de aplicaci�n de la miner�a de datos tiene que ver con la
detecci�n de h�bitos de compra en supermercados. Un estudio muy citado detect� que
los viernes hab�a una cantidad inusualmente elevada de clientes que adquir�an a la
vez pa�ales y cerveza. Se detect� que se deb�a a que dicho d�a sol�an acudir al
supermercado padres j�venes cuya perspectiva para el fin de semana consist�a en
quedarse en casa cuidando de su hijo y viendo la televisi�n con una cerveza en la
mano. El supermercado pudo incrementar sus ventas de cerveza coloc�ndolas pr�ximas
a los pa�ales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo m�s habitual es el de la detecci�n de patrones de fuga. En muchas
industrias �como la banca, las telecomunicaciones, etc.� existe un comprensible
inter�s en detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos
clientes �y en funci�n de su valor� se les podr�an hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo �ltimo de retenerlos. La
miner�a de datos ayuda a determinar qu� clientes son los m�s proclives a darse de
baja estudiando sus patrones de comportamiento y compar�ndolos con muestras de
clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso an�logo es el de la detecci�n de transacciones de lavado de dinero o de
fraude en el uso de tarjetas de cr�dito o de servicios de telefon�a m�vil e,
incluso, en la relaci�n de los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones caracter�sticos que
permiten, con cierto grado de probabilidad, distinguirlas de las leg�timas y
desarrollar as� mecanismos para tomar medidas r�pidas frente a ellas.
Recursos humanos
La miner�a de datos tambi�n puede ser �til para los departamentos de recursos
humanos en la identificaci�n de las caracter�sticas de sus empleados de mayor
�xito. La informaci�n obtenida puede ayudar a la contrataci�n de personal,
centr�ndose en los esfuerzos de sus empleados y los resultados obtenidos por estos.
Adem�s, la ayuda ofrecida por las aplicaciones para Direcci�n estrat�gica en una
empresa se traducen en la obtenci�n de ventajas a nivel corporativo, tales como
mejorar el margen de beneficios o compartir objetivos; y en la mejora de las
decisiones operativas, tales como desarrollo de planes de producci�n o gesti�n de
mano de obra.
Comportamiento en Internet
Tambi�n es un �rea en boga el del an�lisis del comportamiento de los visitantes
�sobre todo, cuando son clientes potenciales� en una p�gina de Internet. O la
utilizaci�n de la informaci�n �obtenida por medios m�s o menos leg�timos� sobre
ellos para ofrecerles propaganda adaptada espec�ficamente a su perfil. O para, una
vez que adquieren un determinado producto, saber inmediatamente qu� otro ofrecerle
teniendo en cuenta la informaci�n hist�rica disponible acerca de los clientes que
han comprado el primero.
Terrorismo
La miner�a de datos ha sido citada como el m�todo por el cual la unidad Able Danger
del Ej�rcito de los EE.UU. hab�a identificado al l�der de los atentados del 11 de
septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como
posibles miembros de una c�lula de Al Qaeda que operan en los EE. UU. m�s de un a�o
antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y su
hom�loga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambi�n han
empleado este m�todo.7?
Juegos
Desde comienzos de la d�cada de 1960, con la disponibilidad de or�culos para
determinados juegos combinacionales, tambi�n llamados finales de juego de tablero
(por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier
configuraci�n de inicio, se ha abierto una nueva �rea en la miner�a de datos que
consiste en la extracci�n de estrategias utilizadas por personas para estos
or�culos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen
poder aplicarse con �xito al funcionamiento de estos or�culos. En su lugar, la
producci�n de patrones perspicaces se basa en una amplia experimentaci�n con bases
de datos sobre esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien dise�ados y con conocimiento de la
t�cnica (datos previos sobre el final del juego). Ejemplos notables de
investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-
cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Videojuegos
En el transcurrir de los a�os las tecnolog�as y los avances con relaci�n a la
miner�a de datos se vieron involucrados en diferentes procesos de negocios y la
industria de los videojuegos no se qued� atr�s en este campo, la necesidad por
conocer a sus consumidores y el gusto de estos es parte fundamental para sobrevivir
en un ambiente tan competitivo como lo es este, se necesitan de diferentes datos
para antes de siquiera comenzar la idea de proyecto en un nuevo videojuego. Grandes
compa��as desarrolladoras han ca�do bajo el manto de cancelaciones, p�rdidas,
fracasos y en casos hasta la misma quiebra por el mal manejo de la informaci�n. En
los �ltimos a�os estas empresas desarrolladoras de videojuegos entendieron la gran
importancia del contenido que se maneja y como lo ve el consumidor por eso se
enfocaron en la contrataci�n de servicios de empresas especializadas en este sector
de miner�a de datos para poder presentar productos de calidad y que realmente
gusten al p�blico bas�ndose en el an�lisis de la informaci�n obtenida en el
transcurrir de los a�os �videojugabilisticos� de su p�blico objetivo.
Ciencia e Ingenier�a
En los �ltimos a�os la miner�a de datos se est� utilizando ampliamente en diversas
�reas relacionadas con la ciencia y la ingenier�a. Algunos ejemplos de aplicaci�n
en estos campos son:
Gen�tica
En el estudio de la gen�tica humana, el objetivo principal es entender la relaci�n
cartogr�fica entre las partes y la variaci�n individual en las secuencias del ADN
humano y la variabilidad en la susceptibilidad a las enfermedades. En t�rminos m�s
llanos, se trata de saber c�mo los cambios en la secuencia de ADN de un individuo
afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el c�ncer).
Esto es muy importante para ayudar a mejorar el diagn�stico, prevenci�n y
tratamiento de las enfermedades. La t�cnica de miner�a de datos que se utiliza para
realizar esta tarea se conoce como "reducci�n de dimensionalidad multifactorial".8?
Ingenier�a el�ctrica
En el �mbito de la ingenier�a el�ctrica, las t�cnicas de miner�a de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de
alta tensi�n. La finalidad de esta monitorizaci�n es obtener informaci�n valiosa
sobre el estado del aislamiento de los equipos. Para la vigilancia de las
vibraciones o el an�lisis de los cambios de carga en transformadores se utilizan
ciertas t�cnicas para agrupaci�n de datos (clustering) tales como los mapas auto-
organizativos (SOM: Self-organizing map). Estos mapas sirven para detectar
condiciones anormales y para estimar la naturaleza de dichas anomal�as.9?
An�lisis de gases
Tambi�n se han aplicado t�cnicas de miner�a de datos para el an�lisis de gases
disueltos (DGA: Dissolved gas analysis) en transformadores el�ctricos. El an�lisis
de gases disueltos se conoce desde hace mucho tiempo como la herramienta para
diagnosticar transformadores. Los mapas auto-organizativos (SOM) se utilizan para
analizar datos y determinar tendencias que podr�an pasarse por alto utilizando las
t�cnicas cl�sicas (DGA).
Miner�a de datos y otras disciplinas an�logas

Suscita cierta pol�mica el definir las fronteras existentes entre la miner�a de
datos y las disciplinas an�logas, como pueden serlo la estad�stica, la inteligencia
artificial, etc. Hay quienes sostienen que la miner�a de datos no es sino
estad�stica envuelta en una jerga de negocios que la conviertan en un producto
vendible. Otros, en cambio, encuentran en ella una serie de problemas y m�todos
espec�ficos que la hacen distinta de otras disciplinas.
El hecho es que, en la pr�ctica la totalidad de los modelos y algoritmos de uso

general en miner�a de datos �redes neuronales, �rboles de regresi�n y
clasificaci�n, modelos log�sticos, an�lisis de componentes principales, etc.� gozan
de una tradici�n relativamente larga en otros campos.
De la estad�stica
Ciertamente, la miner�a de datos bebe de la estad�stica, de la que toma las
siguientes t�cnicas:
An�lisis de varianza, mediante el cual se eval�a la existencia de diferencias

significativas entre las medias de una o m�s variables continuas en poblaciones
distintas.
Regresi�n: define la relaci�n entre una o m�s variables y un conjunto de variables
predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste de la hip�tesis
de dependencia entre variables.
An�lisis de agrupamiento o clustering: permite la clasificaci�n de una poblaci�n de
individuos caracterizados por m�ltiples atributos (binarios, cualitativos o
cuantitativos) en un n�mero determinado de grupos, con base en las semejanzas o
diferencias de los individuos.
An�lisis discriminante: permite la clasificaci�n de individuos en grupos que
previamente se han establecido, permite encontrar la regla de clasificaci�n de los
elementos de estos grupos, y por tanto una mejor identificaci�n de cu�les son las
variables que definan la pertenencia al grupo.
Series de tiempo: permite el estudio de la evoluci�n de una variable a trav�s del
tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.
De la inform�tica
De la inform�tica toma las siguientes t�cnicas:
Algoritmos gen�ticos: Son m�todos num�ricos de optimizaci�n, en los que aquella

variable o variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de informaci�n. Aquellas configuraciones de las variables
de an�lisis que obtengan mejores valores para la variable de respuesta,
corresponder�n a segmentos con mayor capacidad reproductiva. A trav�s de la
reproducci�n, los mejores segmentos perduran y su proporci�n crece de generaci�n en
generaci�n. Se puede adem�s introducir elementos aleatorios para la modificaci�n de
las variables (mutaciones). Al cabo de cierto n�mero de iteraciones, la poblaci�n
estar� constituida por buenas soluciones al problema de optimizaci�n, pues las
malas soluciones han ido descart�ndose, iteraci�n tras iteraci�n.
Inteligencia Artificial: Mediante un sistema inform�tico que simula un sistema
inteligente, se procede al an�lisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadrar�an los Sistemas Expertos y las Redes
Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas pr�cticas
extra�das del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor
ventaja ante nuevas situaciones desconocidas para el experto.
Redes neuronales: Gen�ricamente, son m�todos de proceso num�rico en paralelo, en el
que las variables interact�an mediante transformaciones lineales o no lineales,
hasta obtener unas salidas. Estas salidas se contrastan con los que ten�an que
haber salido, bas�ndose en unos datos de prueba, dando lugar a un proceso de
retroalimentaci�n mediante el cual la red se reconfigura, hasta obtener un modelo
adecuado.
Miner�a de datos basada en teor�a de la informaci�n
Todas las herramientas tradicionales de miner�a de datos asumen que los datos que
usar�n para construir los modelos contienen la informaci�n necesaria para lograr el
prop�sito buscado: obtener suficiente conocimiento que pueda ser aplicado al
negocio (o problema) para obtener un beneficio (o soluci�n).
El inconveniente es que esto no es necesariamente cierto. Adem�s, existe otro

problema mayor a�n. Una vez construido el modelo no es posible conocer si el mismo
ha capturado toda la informaci�n disponible en los datos. Por esta raz�n la
pr�ctica com�n es realizar varios modelos con distintos par�metros para ver si
alguno logra mejores resultados.
Un enfoque relativamente nuevo al an�lisis de datos soluciona estos problemas

haciendo que la pr�ctica de la miner�a de datos se parezca m�s a una ciencia que a
un arte.
En 1948 Claude Shannon public� un trabajo llamado �Una teor�a matem�tica de la

comunicaci�n�. Posteriormente �sta pas� a llamarse Teor�a de la informaci�n y sent�
las bases de la comunicaci�n y la codificaci�n de la informaci�n. Shannon propuso
una manera de medir la cantidad de informaci�n a ser expresada en bits.
En 1999 Dorian Pyle public� un libro llamado �Data Preparation for Data Mining� en
el que propone una manera de usar la Teor�a de la Informaci�n para analizar datos.
En este nuevo enfoque, una base de datos es un canal que transmite informaci�n. Por
un lado est� el mundo real que captura datos generados por el negocio. Por el otro
est�n todas las situaciones y problemas importantes del negocio. Y la informaci�n
fluye desde el mundo real y a trav�s de los datos, hasta la problem�tica del
negocio.
Con esta perspectiva y usando la Teor�a de la informaci�n, es posible medir la

cantidad de informaci�n disponible en los datos y qu� porci�n de la misma podr�
utilizarse para resolver la problem�tica del negocio. Como un ejemplo pr�ctico,
podr�a encontrarse que los datos contienen un 65% de la informaci�n necesaria para
predecir qu� cliente rescindir�n sus contratos. De esta manera, si el modelo final
es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la
herramienta que gener� el modelo hizo un buen trabajo capturando la informaci�n
disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de s�lo el
10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas
podr�a valer la pena.
La capacidad de medir informaci�n contenida en los datos tiene otras ventajas

importantes.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de informaci�n
que hace innecesario la preparaci�n previa de los datos, una tarea absolutamente
imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de
tiempo.
Es posible seleccionar un grupo de variables �ptimo que contenga la informaci�n

necesaria para realizar un modelo de predicci�n.
Una vez que las variables son procesadas con el fin de crear el mapa de informaci�n
y luego seleccionadas aquellas que aportan la mayor informaci�n, la elecci�n de la
herramienta que se usar� para crear el modelo deja de tener importancia, ya que el
mayor trabajo fue realizado en los pasos previos.
Tendencias
La Miner�a de Datos ha sufrido transformaciones en los �ltimos a�os de acuerdo con
cambios tecnol�gicos, de estrategias de marketing, la extensi�n de los modelos de
compra en l�nea, etc. Los m�s importantes de ellos son:
La importancia que han cobrado los datos no estructurados (texto, p�ginas de

Internet, etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas
operacionales, portales de Internet, etc.
La exigencia de que los procesos funcionen pr�cticamente en l�nea (por ejemplo, en
casos de fraude con una tarjeta de cr�dito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos
casos para obtener un modelo v�lido es un inconveniente; esto implica grandes
cantidades de tiempo de proceso y hay problemas que requieren una respuesta en
tiempo real.
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de miner�a de
datos tanto libres como comerciales como, por ejemplo:
RapidMiner
KXEN
KNIME
Neural Designer
OpenNN
Orange
Powerhouse
Quiterian
R
XLMiner
SPSS Modeler
SAS Enterprise Miner
STATISTICA Data Miner
Weka
KEEL
[1]

Mineria de Datos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Mineria de Datos

Încărcat de

Drepturi de autor:

Formate disponibile

La miner�a de datos o exploraci�n de datos (es la etapa de an�lisis de "Knowledge

Discovery in Databases" o KDD) es un campo de la estad�stica y las ciencias de la

El t�rmino es un concepto de moda, y es frecuentemente mal utilizado para referirse

La tarea de miner�a de datos real es el an�lisis autom�tico o semi-autom�tico de

Los t�rminos relacionados con la obtenci�n de datos, la pesca de datos y espionaje

Selecci�n del conjunto de datos, tanto en lo que se refiere a las variables

Tradicionalmente, las t�cnicas de miner�a de datos se aplicaban sobre informaci�n

Protocolo de un proyecto de miner�a de datos

Comprensi�n: del negocio y del problema que se quiere resolver.

T�cnicas de miner�a de datos

Las t�cnicas m�s representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento autom�tico

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)

Las empresas que emplean miner�a de datos ven habitualmente el retorno de la

En un entorno tan cambiante donde los vol�menes de datos medibles crece

An�lisis de la cesta de la compra

Miner�a de datos y otras disciplinas an�logas

El hecho es que, en la pr�ctica la totalidad de los modelos y algoritmos de uso

An�lisis de varianza, mediante el cual se eval�a la existencia de diferencias

Algoritmos gen�ticos: Son m�todos num�ricos de optimizaci�n, en los que aquella

El inconveniente es que esto no es necesariamente cierto. Adem�s, existe otro

Un enfoque relativamente nuevo al an�lisis de datos soluciona estos problemas

En 1948 Claude Shannon public� un trabajo llamado �Una teor�a matem�tica de la

Con esta perspectiva y usando la Teor�a de la informaci�n, es posible medir la

La capacidad de medir informaci�n contenida en los datos tiene otras ventajas

Es posible seleccionar un grupo de variables �ptimo que contenga la informaci�n

La importancia que han cobrado los datos no estructurados (texto, p�ginas de

S-ar putea să vă placă și