Sunteți pe pagina 1din 7

MINERIA DE DATOS

[Escribir el subttulo del documento]




La minera de datos se engloba todo un conjunto de tcnicas
encaminadas a la extraccin de conocimientos procesables
implcitos en las bases de datos.

Edison Romero V.
30/07/2010
MINERIA DE DATOS

La minera de dat os (Dat a Mining) consiste en la extraccin no tri vi al de inform acin que reside de manera
implcita en los datos. En ot ras palabras, la mi nera de datos prepara, sondea y expl ora los datos para sacar
informaci n oculta en ellos.

Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encami nadas a la extraccin de
conocimient os procesabl es impl citos en l as bases de datos. Esta fuert ement e ligado c on l a supervisin de
procesos industrial es ya que resulta muy til para aprovechar los datos almacenados en las bases de datos.

Las bas es de l a minera de datos se encuentran en l a inteligencia arti ficial y en el anlisis estadstico. Medi ante
los model os extrados utilizando tcnicas de mi neras de datos que aborda l a solucin a problem as de
prediccin, clasificacin y segmentacin.

Minera de datos o de scubrimiento de informacin o descubrimiento de conocimiento?

Minera de datos o descubrimiento de conocimi ento son l os nombres ms utilizados y ms apropiados para este
tipo de anlisis, ya que lo que se busca es la obtencin de modelos de conocimientos.

Nota: En adelante llam aremos Minera de Datos MD por efecto de simpli fic acin.

De dnde naci la MD?

Nace de la necesidad de explicar el porqu de unos sucesos, de unos com port amient os, los cual es estn
ocultos en datos histric os.

Ahora, la MD no sol o tiene un enfoque descri pti vo o explicati vo, sino tam bin un enfoque predicti vo, que suele
ser muy importante en algunos casos de negocio.

Para que la MD?

La mi nera de datos es el proceso sistemtico que tiene como objeti vo la expl oracin y la explotacin de datos
para la generacin de patrones y model os de conocimientos . Est encaminada haci a el anlisis de aquellas
bases de datos y conjuntos de datos cuya funcin est relacionada con otros intereses.

Por ejem plo, anlisis a bases de datos transaccional es que alm acenan inform acin relevante a l a operacin de
la empresa:

Bases de datos bancari as.
De registro acadmico.
De ventas.
De inventari os.
De bi bliotecas.
De crditos, entre ot ras.

Es precisament e, un estudi o y mani pulacin secuencial y organizada de las estructuras y relaciones que
presentan los datos, para la obtencin de resultados que desde el punto de vista funcional de la empresa o
institucin, puedan apoyar la toma de decisiones.

Cmo se lleva a cabo las MD?

Se puede afi rmar que es una confluencia de las reas estadstica, inteli gencia artificial y bases de datos pues
en cada una de sus etapas, vari os conceptos pertenecient es a estas reas, son invol ucrados. Com o se ha
mencionado, es un proceso claro en el sentido de que se encuentran defi nidas cada una de las etapas a seguir
desde la i denti ficacin del probl ema hasta la obtencin de los resultados. Y adem s es un proceso flexible en el
sentido de que no existe una nica receta con la cual pueda ll evarse a cabo dicho estudio. As, la expl oracin
es uno de los as pectos ms rel evantes en dicho proces o, ya pe rmite l a com binacin de di versas estrat egias y
tcnicas a fin de consolidar un m odelo fi nal que intente resol ver el probl ema inicial ment e plant eado.

Procesos de la MD.

Un proceso tpico de mi nera de datos consta de los siguientes pasos generales:

1. Seleccin del conjunto de datos

Variables Objetivos: Aquellas que se qui ere predecir, calcular o inferir.
Variables dependientes: Las que sirven para hacer el clculo o procesos.
Muestreo: De los registros disponi bles.
2. Anlisi s de las propiedades de los da tos

En especial de los histogramas, diagram as de dispersin y ausencia de datos (valores nul os).

3. Transformacin del conjunto de datos de entrada

Se realizara de di versas formas en funcin del anlisis previ o, con el objeti vo de prepararlo para aplicar la
tcnica de minera de datos que mej or se adapte a los datos y al probl ema, a este pas o tam bin se l e conoce
como pre procesamiento de los datos.

4. Seleccionar y aplicar las tcnicas de mineras de datos

Se construye el modelo predicti vo, de clasi ficacin o segmentaci n.

5. Extraccin de conocimientos

Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representan patrones
de com portamiento observado en l os valores de l as vari ables del probl ema o rel acin de asociaci n de dichas
variabl es.

6. Interpretacin y evaluacin de datos

Una vez obtenido el model o se debe proceder a su validacin comprobando que las conclusiones que arroj an
son vali das y suficientem ente satisfactorias. En el caso de haber obtenido varios modelos medi ante el uso de
distintas tcnicas, se deben compara l os model os en busca de aquel que se ajuste mej or al problem a.



Las tcnica s de minera de datos se pueden clasificar en dos tipos:

Tcnicas De scriptiva s
Segmentacin
Anlisis de asociaciones

Tcnicas Predictiva s

Clasificacin/prediccin
Anlisis de secuencias/similitud de series temporal es
La segm entacin es muy importante, ya que sirve para detectar agrupamientos o estructuras intrnsecas en el
conjunto de datos. Puede llegar a identi ficar grupos homogneos, propi edades que l os caracteriz an y prototipos
representati vos de cada grupo. La idea bsica es agrupar en un mismo grupo a todos los obj etos muy parecidos
entre si y muy diferente a los dem s.
En cuanto a la clasificacin y a la prediccin que es lo que a nosotros ms nos interesa, se basa en que
partiendo de un conjunto de datos, tenem os que conseguir un modelo que clasi fique objet os en funcin de sus
caractersticas y un modelo que permit a calcular valores desconocidos de variables de sali da.

Sistema s y herramientas de mineras de datos


Lo que se pretende conseguir es proporcionar informacin det allada sobre algunos ejem plos de software
diseados para impl ementar la Mi nera de Datos.

Libreras: Las libreras de mineras de datos son un conjunto de m todos que impl ementan funcionali dades y
utilidades bsicas com o el acceso a datos, modelos de redes neuronales, m todos bayesi anos, ex port acin de
resultados.
Las libreras se encargan princi palmente de facilitar el desarroll o de las tareas de mi neras de datos que son
ms complejas, como el diseo de experim entos. El problem a de l as libreras, es que es precisa la comprensin
de conocimi entos de programacin.

Alguna s de las libreras ms importante s son:

XELOPES (extended library for prudys embedded solution)
Es una librera con licencia pblica GNU para el desarroll o de aplicaciones de mineras de datos.
Principal es caractersticas de las Mineras de Dat os:
Acceso a datos
Model os de redes neuronales
Mtodos de agrupacin
Mtodos de reglas de as ociacin
Arbol es lineal es
Arbol es no lineales
Exportacin de datos





MLC++ (Mac hine learning li brary in c++)
Es un conjunto de libreras que fueron desarroll adas por la Uni versidad de Standford.
Principal es caractersticas:
Acceso a datos (archi vos con formato pl ano)
Trans formaciones de datos
Mtodos de aprendizaje m ediante objetos

SUITES
Las suites se destacan porque existe una i nterfaz que facilita la interaccin entre el usuario y las herrami entas.

SPSS CLEMENTINE
Es uno de los sistemas de Mi nera de Datos ms conocidos, posee una herrami enta visual desarrollada por ISL
que tiene una arquitectura cliente/servi dor.
Este sistema se caracteriza por:
Acceso a datos (fuentes de datos archi vos ASCII)
Procesamiento de datos
Tcnicas de aprendizaj e (redes neuronales, reglas de asociacin)
Tcnicas de eval uacin de modelos
Visualizacin de resultados (histogram as, diagramas de dispersin)

WEKA (Waikato environm ent for knowledge analysis)
Es una herrami enta visual de libre distribucin des arrollada por los investigadores de la Uni versidad de waikato
en Nueva Zel anda.
Sus principal es caracterstica son:
Acceso de los datos desde un archi vo en formato A RFF (es un archi vo de t exto plano organizado en
filas y columnas)
Preprocesador de datos (seleccin, transformacin de at ribut os)
Visualizacin del entorno

STA TIS TICA DA TA M INER
Es una potente herramienta con un sistema visual des arrollado y comercializado, en las que se destacas.
Base de datos: Permite t rabajar con un gran volum en de informacin, as com o importar los dat os en
formatos Excel, Oracle, SQL.
Preprocesado de datos: A travs de la cual sel eccionam os las caracterstica, el muestreo de datos,
realizam os operaciones de filtrado. Etc.

Ejemplo de uso de las Minera de Datos

Negocio._ Las empresas que emplean Mi neras de Datos ven rpidament e el retorno de la i nversin, pero
tambin reconoce que el nmero de model os predicti vos desarroll ados pueden crecer rpidamente. En lugar de
crear m odelos para predecir qu clientes pueden cambi ar, la empresa podra construi r model os separados para
cada regin y/o para cada tipo de cliente.

Hbit os de compra en supermercado:

Un estudio muy citado detect que l os viernes haba una cantidad inusualm ente elevada de clientes que
adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al superm ercado
padres jvenes cuya perspecti va para el fin de sem ana consista en quedarse en casa cui dando de su hijo y
viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza
colocndolas prximas a los paales para fom entar las ventas compulsi vas.

Patrones de fuga


Un ejem plo ms habit ual es el de la deteccin de patrone s de fuga. En m uchas i ndustrias como la banca, las
telecomunicaciones, etc. Existe un comprensibl e inters en detectar cuanto antes aquell os clientes que puedan
estar pensando en rescindi r sus contratos para, posiblem ente, pasarse a la com petencia. La minera de datos
ayuda a determinar qu clientes son los ms procli ves a darse de baja estudiando sus pat rones de
comport amiento y comparndolos con muestras de client es que, efecti vament e, s e dieron de baja en el pasado.

Fraudes


Un caso anlogo es el de la det eccin de transacciones de blanqueo de di nero o de fraude en el uso de tarjetas
de crdito o de servicios de telefona m vil e, incluso, en l a relacin de los contri buyentes con el fisco.
General ment e, estas operaciones fraudulent as o ilegales suel en seguir patrones caractersticos que permiten,
con cierto grado de probabilidad, distingui rlas de las legtim as y desarrollar as mecanismos para tom ar medidas
rpi das frent e a ellas.

Recursos Humanos


La minera de datos tambi n puede ser til para l os depart amentos de recurs os hum anos en la i denti ficacin de
las caractersticas de sus empl eados de m ayor xito. La informaci n obteni da puede ay udar a l a contratacin
de personal, centrndose en los es fuerzos de s us em pleados y l os resultados obteni dos por stos. Adems, la
ayuda ofrecida por l as aplicaciones para Direccin estratgica en una em pres a se traducen en l a obtencin de
ventajas a ni vel corporati vo, tales como mejorar el margen de beneficios o compartir obj eti vos; y en la mejora de
las decisiones operati vas, tales como desarrollo de planes de produccin o gestin de mano de obra.
ANEXOS





































































BIBLIOGRAFIA
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

http://www.sinnexus.com/business_intelligence/datamining.aspx

http://www.sinnexus.com/business_intelligence/datamining.aspx /

http://www.daedalus.es/mineria-de-datos/

S-ar putea să vă placă și