Documente Academic
Documente Profesional
Documente Cultură
En qu se diferencia el conocimiento de los datos y de la informacin? En una conversacin informal, los tres trminos suelen utilizarse indistintamente y esto puede llevar a una interpretacin libre del concepto de conocimiento. Quizs la forma ms sencilla de diferenciar los trminos sea pensar que los datos estn localizados en el mundo y el conocimiento est localizado en agentes de cualquier tipo (personas, empresas, mquinas...), mientras que la informacin adopta un papel mediador entre ambos. Los conceptos que se muestran a continuacin se basan en las definiciones de Davenport y Prusak (1999).
Datos
Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qu de las cosas y no son orientativos para la accin. Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisin. Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico como un papel, un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una persona. En este sentido las tecnologas de la informacin han aportado mucho a recopilacin de datos. Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organizacin, pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.
Informacin
La informacin se puede definir como un conjunto de datos procesados y que tienen un significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en informacin aadindoles valor: Contextualizando: se sabe en qu contexto y para qu propsito se generaron. Categorizando: se conocen las unidades de medida que ayudan a interpretarlos. Calculando: los datos pueden haber sido procesados matemtica o estadsticamente. Corrigiendo: se han eliminado errores e inconsistencias de los datos. Condensando: los datos se han podido resumir de forma ms concisa (agregacin). Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor y sus comportamientos.
Conocimiento
El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve como marco para la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que tambin esta en rutinas organizativas, procesos, prcticas, y normas. El conocimiento se deriva de la informacin, as como la informacin se deriva de los datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones como: Comparacin con otros elementos. Prediccin de consecuencias. Bsqueda de conexiones. Conversacin con otros portadores de conocimiento.
Qu es Business Intelligence?
Business Intelligence es la habilidad para transformar los datos en informacin, y la informacin en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios. Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas de la informacin, podemos definir Business Intelligence como el conjunto de metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su anlisis y conversin en conocimiento, dando as soporte a la toma de decisiones sobre el negocio. La inteligencia de negocio acta como un factor estratgico para una empresa u organizacin, generando una potencial ventaja competitiva, que no es otra que proporcionar informacin privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones u ofertas de productos, eliminacin de islas de informacin, control financiero, optimizacin de costes, planificacin de la produccin, anlisis de perfiles de clientes, rentabilidad de un producto concreto,
etc...
Los principales productos de Business Intelligence que existen hoy en da son: Cuadros de Mando Integrales (CMI) Sistemas de Soporte a la Decisin (DSS) Sistemas de Informacin Ejecutiva (EIS) Por otro lado, los principales componentes de orgenes de datos en el Business Intelligence que existen en la actualidad son: Datamart Datawarehouse Los sistemas y componentes del BI se diferencian de los sistemas operacionales en que estn optimizados para preguntar y divulgar sobre datos. Esto significa tpicamente que, en un datawarehouse, los datos estn desnormalizados para apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar
operaciones continuas de insercin, modificacin y borrado de datos. En este sentido, los procesos ETL (extraccin, transformacin y carga), que nutren los sistemas BI, tienen que traducir de uno o varios sistemas operacionales normalizados e independientes a un nico sistema desnormalizado, cuyos datos estn completamente integrados. En definitiva, una solucin BI completa permite: Observar qu est ocurriendo? Comprender por qu ocurre? Predecir qu ocurrira? Colaborar qu debera hacer el equipo? Decidir qu camino se debe seguir?
DATA WAREHOUSE
En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.
Orientado a temas.- Los datos en la base de datos estn organizados de manera que
todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Inmon defiende una metodologa descendente (top-down) a la hora de disear un almacn de datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin.
consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa ascendente (bottom-up) a la hora de disear un almacn de datos.
Integracin de los datos provenientes de bases de datos distribuidas por las diferentes
unidades de la organizacin y que con frecuencia tendrn diferentes estructuras (fuentes heterogneas). Se debe facilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el almacn.
Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.
DATA MART
Un Data mart es una versin especial de almacn de datos (data warehouse). Son subconjuntos de datos con el propsito de ayudar a que un rea especfica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples formas para que diversos grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades. El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la informacin. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se conoce comoData Mining al proceso no trivial de anlisis de grandes cantidades de datos con el objetivo de extraer informacin til, por ejemplo para realizar clasificaciones o predicciones. En sntesis, se puede decir que los data marts son pequeos data warehouse centrados en un tema o un rea de negocio especfico dentro de una organizacin.
Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los
datos para alguna herramienta OLAP). Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado. Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso. Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicacin en el Data Warehouse principal de la Empresa. Demostracin sobre el terreno: para demostrar la viabilidad y el potencial de una aplicacin antes de migrarla al Data Warehouse de la Empresa. Poltica: Cuando se decide una estrategia para las TI (Tecnologas de la informacin) en situaciones en las que un grupo de usuarios tiene ms influencia, para determinar si se financia dicha estrategia o descubrir si sta no sera buena para el almacn de datos centralizado. Poltica: Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacn de datos no est en condiciones de crear un almacn de datos utilizable. Segn la escuela Inmon de data warehouse, entre las prdidas inherentes al uso de data marts estn la escalabilidad limitada, la duplicacin de datos, la inconsistencia de los datos con respecto a otros almacenes de informacin y la incapacidad para aprovechar las fuentes de datos de la empresa. As y todo estas herramientas son de gran importancia.
Cubos de informacin
Artculo principal: cubo OLAP
Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.
Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...
Ejemplos
Ejemplos de variables podran ser: Beneficios Gastos Ventas etc. Ejemplos de dimensiones podran ser:
producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del productovendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.
Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy diferente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la informacin concerniente a: Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones
Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones:
Middleware
Artculo principal: Middleware
Middleware es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). Elmiddleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. De esta manera se ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos.
Inconvenientes
Utilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.
Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea yexplora los datos para sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. Las bases de la minera de datos se encuentran en lainteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.
de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, et
proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme
Negocios
La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible.
Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.
Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de produccin o gestin de mano de obra.
Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero.
Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y sus homloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este mtodo.1
Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para determinados juegos combinacionales, tambin llamadosfinales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuracin de inicio, se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de patrones perspicaces se basa en una amplia experimentacin con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseados y con conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos campos son:
Gentica
En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica entre las partes y la variacin individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial".2
Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en transformadores se utilizan ciertas tcnicas paraagrupacin de datos (clustering) tales como los Mapas AutoOrganizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalas.3
Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. LosMapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas clsicas DGA.
De la estadstica
Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:
en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
De la informtica
De la informtica toma las siguientes tcnicas:
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables
que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales. Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto. Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin. Posteriormente esta pas a llamarseTeora de la informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits. En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta la problemtica del negocio. Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podra valer la pena. La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes. Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de prediccin. Una vez que las variables son procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por ejemplo:
Dynamic Data Web KXEN KNIME Orange RapidMiner R SPSS Clementine SAS Enterprise Miner STATISTICA Data Miner Weka
[editar]
Paales y Cerveza
En muchos cursos sobre minera de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realiz a finales de los aos 90 un anlisis de los hbitos de compra de sus clientes. Despus de un anlisis detallado, este resultado se explica de forma bastante curiosa. Como los paales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jvenes entre 25 y 35 aos (rango medio de edad para tener nios tan pequeos), solan ir a la compra los viernes, algo reticentes, en el ltimo momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban paales para sus bebs, aprovechaban para comprar cerveza, ya que no podran salir a tomarlas. Tambin se cuenta que Wal-Mart utiliz este resultado para reubicar estos productos en lugares estratgicamente dispuestos: pusieron la cerveza cerca de los paales. El resultado fue que los padres que habitualmente compraban cerveza despus compraron todava ms, al estar tan cmodamente situada. Adems, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los paales. As, las ventas de cerveza tuvieron un aumento espectacular. Este es un buen ejemplo de los beneficios que puede aportar la Minera de Datos y, en particular, el anlisis de la cesta de la compra (market basket analysis) (*ver abajo). El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de WalMart, otras veces se adorna con datos especficos de porcentajes de incremento de ventas Adems no se conoce quines pudieron realizar esos estudios y, de hecho, no existe documentacin especfica de ningn proyecto en esta lnea en ninguna de las dos organizaciones. Por todo ello, no hay ms remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minera de datos.