La minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimientos procesables implcitos en las bases de datos.
Edison Romero V. 30/07/2010 MINERIA DE DATOS
La minera de dat os (Dat a Mining) consiste en la extraccin no tri vi al de inform acin que reside de manera implcita en los datos. En ot ras palabras, la mi nera de datos prepara, sondea y expl ora los datos para sacar informaci n oculta en ellos.
Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encami nadas a la extraccin de conocimient os procesabl es impl citos en l as bases de datos. Esta fuert ement e ligado c on l a supervisin de procesos industrial es ya que resulta muy til para aprovechar los datos almacenados en las bases de datos.
Las bas es de l a minera de datos se encuentran en l a inteligencia arti ficial y en el anlisis estadstico. Medi ante los model os extrados utilizando tcnicas de mi neras de datos que aborda l a solucin a problem as de prediccin, clasificacin y segmentacin.
Minera de datos o de scubrimiento de informacin o descubrimiento de conocimiento?
Minera de datos o descubrimiento de conocimi ento son l os nombres ms utilizados y ms apropiados para este tipo de anlisis, ya que lo que se busca es la obtencin de modelos de conocimientos.
Nota: En adelante llam aremos Minera de Datos MD por efecto de simpli fic acin.
De dnde naci la MD?
Nace de la necesidad de explicar el porqu de unos sucesos, de unos com port amient os, los cual es estn ocultos en datos histric os.
Ahora, la MD no sol o tiene un enfoque descri pti vo o explicati vo, sino tam bin un enfoque predicti vo, que suele ser muy importante en algunos casos de negocio.
Para que la MD?
La mi nera de datos es el proceso sistemtico que tiene como objeti vo la expl oracin y la explotacin de datos para la generacin de patrones y model os de conocimientos . Est encaminada haci a el anlisis de aquellas bases de datos y conjuntos de datos cuya funcin est relacionada con otros intereses.
Por ejem plo, anlisis a bases de datos transaccional es que alm acenan inform acin relevante a l a operacin de la empresa:
Bases de datos bancari as. De registro acadmico. De ventas. De inventari os. De bi bliotecas. De crditos, entre ot ras.
Es precisament e, un estudi o y mani pulacin secuencial y organizada de las estructuras y relaciones que presentan los datos, para la obtencin de resultados que desde el punto de vista funcional de la empresa o institucin, puedan apoyar la toma de decisiones.
Cmo se lleva a cabo las MD?
Se puede afi rmar que es una confluencia de las reas estadstica, inteli gencia artificial y bases de datos pues en cada una de sus etapas, vari os conceptos pertenecient es a estas reas, son invol ucrados. Com o se ha mencionado, es un proceso claro en el sentido de que se encuentran defi nidas cada una de las etapas a seguir desde la i denti ficacin del probl ema hasta la obtencin de los resultados. Y adem s es un proceso flexible en el sentido de que no existe una nica receta con la cual pueda ll evarse a cabo dicho estudio. As, la expl oracin es uno de los as pectos ms rel evantes en dicho proces o, ya pe rmite l a com binacin de di versas estrat egias y tcnicas a fin de consolidar un m odelo fi nal que intente resol ver el probl ema inicial ment e plant eado.
Procesos de la MD.
Un proceso tpico de mi nera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos
Variables Objetivos: Aquellas que se qui ere predecir, calcular o inferir. Variables dependientes: Las que sirven para hacer el clculo o procesos. Muestreo: De los registros disponi bles. 2. Anlisi s de las propiedades de los da tos
En especial de los histogramas, diagram as de dispersin y ausencia de datos (valores nul os).
3. Transformacin del conjunto de datos de entrada
Se realizara de di versas formas en funcin del anlisis previ o, con el objeti vo de prepararlo para aplicar la tcnica de minera de datos que mej or se adapte a los datos y al probl ema, a este pas o tam bin se l e conoce como pre procesamiento de los datos.
4. Seleccionar y aplicar las tcnicas de mineras de datos
Se construye el modelo predicti vo, de clasi ficacin o segmentaci n.
5. Extraccin de conocimientos
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representan patrones de com portamiento observado en l os valores de l as vari ables del probl ema o rel acin de asociaci n de dichas variabl es.
6. Interpretacin y evaluacin de datos
Una vez obtenido el model o se debe proceder a su validacin comprobando que las conclusiones que arroj an son vali das y suficientem ente satisfactorias. En el caso de haber obtenido varios modelos medi ante el uso de distintas tcnicas, se deben compara l os model os en busca de aquel que se ajuste mej or al problem a.
Las tcnica s de minera de datos se pueden clasificar en dos tipos:
Tcnicas De scriptiva s Segmentacin Anlisis de asociaciones
Tcnicas Predictiva s
Clasificacin/prediccin Anlisis de secuencias/similitud de series temporal es La segm entacin es muy importante, ya que sirve para detectar agrupamientos o estructuras intrnsecas en el conjunto de datos. Puede llegar a identi ficar grupos homogneos, propi edades que l os caracteriz an y prototipos representati vos de cada grupo. La idea bsica es agrupar en un mismo grupo a todos los obj etos muy parecidos entre si y muy diferente a los dem s. En cuanto a la clasificacin y a la prediccin que es lo que a nosotros ms nos interesa, se basa en que partiendo de un conjunto de datos, tenem os que conseguir un modelo que clasi fique objet os en funcin de sus caractersticas y un modelo que permit a calcular valores desconocidos de variables de sali da.
Sistema s y herramientas de mineras de datos
Lo que se pretende conseguir es proporcionar informacin det allada sobre algunos ejem plos de software diseados para impl ementar la Mi nera de Datos.
Libreras: Las libreras de mineras de datos son un conjunto de m todos que impl ementan funcionali dades y utilidades bsicas com o el acceso a datos, modelos de redes neuronales, m todos bayesi anos, ex port acin de resultados. Las libreras se encargan princi palmente de facilitar el desarroll o de las tareas de mi neras de datos que son ms complejas, como el diseo de experim entos. El problem a de l as libreras, es que es precisa la comprensin de conocimi entos de programacin.
Alguna s de las libreras ms importante s son:
XELOPES (extended library for prudys embedded solution) Es una librera con licencia pblica GNU para el desarroll o de aplicaciones de mineras de datos. Principal es caractersticas de las Mineras de Dat os: Acceso a datos Model os de redes neuronales Mtodos de agrupacin Mtodos de reglas de as ociacin Arbol es lineal es Arbol es no lineales Exportacin de datos
MLC++ (Mac hine learning li brary in c++) Es un conjunto de libreras que fueron desarroll adas por la Uni versidad de Standford. Principal es caractersticas: Acceso a datos (archi vos con formato pl ano) Trans formaciones de datos Mtodos de aprendizaje m ediante objetos
SUITES Las suites se destacan porque existe una i nterfaz que facilita la interaccin entre el usuario y las herrami entas.
SPSS CLEMENTINE Es uno de los sistemas de Mi nera de Datos ms conocidos, posee una herrami enta visual desarrollada por ISL que tiene una arquitectura cliente/servi dor. Este sistema se caracteriza por: Acceso a datos (fuentes de datos archi vos ASCII) Procesamiento de datos Tcnicas de aprendizaj e (redes neuronales, reglas de asociacin) Tcnicas de eval uacin de modelos Visualizacin de resultados (histogram as, diagramas de dispersin)
WEKA (Waikato environm ent for knowledge analysis) Es una herrami enta visual de libre distribucin des arrollada por los investigadores de la Uni versidad de waikato en Nueva Zel anda. Sus principal es caracterstica son: Acceso de los datos desde un archi vo en formato A RFF (es un archi vo de t exto plano organizado en filas y columnas) Preprocesador de datos (seleccin, transformacin de at ribut os) Visualizacin del entorno
STA TIS TICA DA TA M INER Es una potente herramienta con un sistema visual des arrollado y comercializado, en las que se destacas. Base de datos: Permite t rabajar con un gran volum en de informacin, as com o importar los dat os en formatos Excel, Oracle, SQL. Preprocesado de datos: A travs de la cual sel eccionam os las caracterstica, el muestreo de datos, realizam os operaciones de filtrado. Etc.
Ejemplo de uso de las Minera de Datos
Negocio._ Las empresas que emplean Mi neras de Datos ven rpidament e el retorno de la i nversin, pero tambin reconoce que el nmero de model os predicti vos desarroll ados pueden crecer rpidamente. En lugar de crear m odelos para predecir qu clientes pueden cambi ar, la empresa podra construi r model os separados para cada regin y/o para cada tipo de cliente.
Hbit os de compra en supermercado:
Un estudio muy citado detect que l os viernes haba una cantidad inusualm ente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al superm ercado padres jvenes cuya perspecti va para el fin de sem ana consista en quedarse en casa cui dando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fom entar las ventas compulsi vas.
Patrones de fuga
Un ejem plo ms habit ual es el de la deteccin de patrone s de fuga. En m uchas i ndustrias como la banca, las telecomunicaciones, etc. Existe un comprensibl e inters en detectar cuanto antes aquell os clientes que puedan estar pensando en rescindi r sus contratos para, posiblem ente, pasarse a la com petencia. La minera de datos ayuda a determinar qu clientes son los ms procli ves a darse de baja estudiando sus pat rones de comport amiento y comparndolos con muestras de client es que, efecti vament e, s e dieron de baja en el pasado.
Fraudes
Un caso anlogo es el de la det eccin de transacciones de blanqueo de di nero o de fraude en el uso de tarjetas de crdito o de servicios de telefona m vil e, incluso, en l a relacin de los contri buyentes con el fisco. General ment e, estas operaciones fraudulent as o ilegales suel en seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distingui rlas de las legtim as y desarrollar as mecanismos para tom ar medidas rpi das frent e a ellas.
Recursos Humanos
La minera de datos tambi n puede ser til para l os depart amentos de recurs os hum anos en la i denti ficacin de las caractersticas de sus empl eados de m ayor xito. La informaci n obteni da puede ay udar a l a contratacin de personal, centrndose en los es fuerzos de s us em pleados y l os resultados obteni dos por stos. Adems, la ayuda ofrecida por l as aplicaciones para Direccin estratgica en una em pres a se traducen en l a obtencin de ventajas a ni vel corporati vo, tales como mejorar el margen de beneficios o compartir obj eti vos; y en la mejora de las decisiones operati vas, tales como desarrollo de planes de produccin o gestin de mano de obra. ANEXOS