Sunteți pe pagina 1din 19

Datos, informacin, conocimiento

En qu se diferencia el conocimiento de los datos y de la informacin? En una conversacin informal, los tres trminos suelen utilizarse indistintamente y esto puede llevar a una interpretacin libre del concepto de conocimiento. Quizs la forma ms sencilla de diferenciar los trminos sea pensar que los datos estn localizados en el mundo y el conocimiento est localizado en agentes de cualquier tipo (personas, empresas, mquinas...), mientras que la informacin adopta un papel mediador entre ambos. Los conceptos que se muestran a continuacin se basan en las definiciones de Davenport y Prusak (1999).

Datos
Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qu de las cosas y no son orientativos para la accin. Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisin. Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico como un papel, un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una persona. En este sentido las tecnologas de la informacin han aportado mucho a recopilacin de datos. Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organizacin, pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.

Informacin
La informacin se puede definir como un conjunto de datos procesados y que tienen un significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en informacin aadindoles valor: Contextualizando: se sabe en qu contexto y para qu propsito se generaron. Categorizando: se conocen las unidades de medida que ayudan a interpretarlos. Calculando: los datos pueden haber sido procesados matemtica o estadsticamente. Corrigiendo: se han eliminado errores e inconsistencias de los datos. Condensando: los datos se han podido resumir de forma ms concisa (agregacin). Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor y sus comportamientos.

Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)

Conocimiento
El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve como marco para la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que tambin esta en rutinas organizativas, procesos, prcticas, y normas. El conocimiento se deriva de la informacin, as como la informacin se deriva de los datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones como: Comparacin con otros elementos. Prediccin de consecuencias. Bsqueda de conexiones. Conversacin con otros portadores de conocimiento.

Qu es Business Intelligence?
Business Intelligence es la habilidad para transformar los datos en informacin, y la informacin en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios. Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas de la informacin, podemos definir Business Intelligence como el conjunto de metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su anlisis y conversin en conocimiento, dando as soporte a la toma de decisiones sobre el negocio. La inteligencia de negocio acta como un factor estratgico para una empresa u organizacin, generando una potencial ventaja competitiva, que no es otra que proporcionar informacin privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones u ofertas de productos, eliminacin de islas de informacin, control financiero, optimizacin de costes, planificacin de la produccin, anlisis de perfiles de clientes, rentabilidad de un producto concreto,

etc...

Los principales productos de Business Intelligence que existen hoy en da son: Cuadros de Mando Integrales (CMI) Sistemas de Soporte a la Decisin (DSS) Sistemas de Informacin Ejecutiva (EIS) Por otro lado, los principales componentes de orgenes de datos en el Business Intelligence que existen en la actualidad son: Datamart Datawarehouse Los sistemas y componentes del BI se diferencian de los sistemas operacionales en que estn optimizados para preguntar y divulgar sobre datos. Esto significa tpicamente que, en un datawarehouse, los datos estn desnormalizados para apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar

operaciones continuas de insercin, modificacin y borrado de datos. En este sentido, los procesos ETL (extraccin, transformacin y carga), que nutren los sistemas BI, tienen que traducir de uno o varios sistemas operacionales normalizados e independientes a un nico sistema desnormalizado, cuyos datos estn completamente integrados. En definitiva, una solucin BI completa permite: Observar qu est ocurriendo? Comprender por qu ocurre? Predecir qu ocurrira? Colaborar qu debera hacer el equipo? Decidir qu camino se debe seguir?

DATA WAREHOUSE
En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

DEFINICIONES DE ALMACEN DE DATOS

Definicin de Bill Inmon


Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacn de datos) en trminos de las caractersticas del repositorio de datos:

Orientado a temas.- Los datos en la base de datos estn organizados de manera que
todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Inmon defiende una metodologa descendente (top-down) a la hora de disear un almacn de datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin.

Definicin de Ralph Kimball


ste es otro conocido autor en el tema de los data warehouse, define un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la

consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa ascendente (bottom-up) a la hora de disear un almacn de datos.

Una definicin ms amplia de almacn de datos


Las definiciones anteriores se centran en los datos en s mismos. Sin embargo, los medios para obtener y analizar esos datos, para extraerlos, transformarlos y cargarlos, as como las diferentes formas para realizar la gestin de datos son componentes esenciales de un almacn de datos. Muchas referencias a un almacn de datos utilizan esta definicin ms amplia. Por lo tanto, en esta definicin se incluyen herramientas para la inteligencia empresarial, herramientas para extraer, transformar y cargar datos en el almacn de datos, y herramientas para gestionar y recuperar los metadatos.

Funcin de un almacn de datos


En un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario. Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento ptimo y en el formato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de informacin ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fcilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema. En el funcionamiento de un almacn de los datos son muy importantes las siguientes ideas:

Integracin de los datos provenientes de bases de datos distribuidas por las diferentes
unidades de la organizacin y que con frecuencia tendrn diferentes estructuras (fuentes heterogneas). Se debe facilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el almacn.

CARACTERISTICAS DE ALMACEN DE DATOS


El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

DATA MART
Un Data mart es una versin especial de almacn de datos (data warehouse). Son subconjuntos de datos con el propsito de ayudar a que un rea especfica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples formas para que diversos grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades. El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la informacin. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se conoce comoData Mining al proceso no trivial de anlisis de grandes cantidades de datos con el objetivo de extraer informacin til, por ejemplo para realizar clasificaciones o predicciones. En sntesis, se puede decir que los data marts son pequeos data warehouse centrados en un tema o un rea de negocio especfico dentro de una organizacin.

Razones para crear un data mart


Fcil acceso a los datos que se necesitan frecuentemente. Crea vista colectiva para grupo de usuarios. Mejora el tiempo de respuesta del usuario final. Facilidad de creacin. Costo inferior al de la aplicacin de un completo almacn de datos. Los usuarios potenciales son ms claramente identificables que en un almacn de datos completo...

Dependencia de un data mart


Segn la tendencia marcada por Inmon sobre los data warehouse, un data mart dependiente es un subconjunto lgico (vista) o un subconjunto fsico (extracto) de un almacn de datos ms grande, que se ha aislado por alguna de las siguientes razones:

Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los
datos para alguna herramienta OLAP). Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado. Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso. Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicacin en el Data Warehouse principal de la Empresa. Demostracin sobre el terreno: para demostrar la viabilidad y el potencial de una aplicacin antes de migrarla al Data Warehouse de la Empresa. Poltica: Cuando se decide una estrategia para las TI (Tecnologas de la informacin) en situaciones en las que un grupo de usuarios tiene ms influencia, para determinar si se financia dicha estrategia o descubrir si sta no sera buena para el almacn de datos centralizado. Poltica: Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacn de datos no est en condiciones de crear un almacn de datos utilizable. Segn la escuela Inmon de data warehouse, entre las prdidas inherentes al uso de data marts estn la escalabilidad limitada, la duplicacin de datos, la inconsistencia de los datos con respecto a otros almacenes de informacin y la incapacidad para aprovechar las fuentes de datos de la empresa. As y todo estas herramientas son de gran importancia.

Conceptos errneos de los Data Marts


Al hablar de los data marts, es inevitable la comparacin con los data warehouse y al final se acaba diciendo (o entendiendo) que son como estos, pero en pequeo, y en cierto modo esto es as, pero esta idea suele hacer caer en los siguientes errores sobre la implementacin y funcionamiento de los data marts:

Son ms simples de implementar que un Data Warehouse: FALSO, la implementacin es


muy similar, ya que debe proporcionar las mismas funcionalidades.

Son pequeos conjuntos de datos y, en consecuencia, tienen menor necesidad de


recursos: FALSO, una aplicacin corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse. Las consultas son ms rpidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero si se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse. En algunos casos aade tiempo al proceso de actualizacin: FALSO, actualizar el data mart desde el data warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idnticos) que actualizar el data warehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformacin (ver ETL).

Cubos de informacin
Artculo principal: cubo OLAP

Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.

Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...

Ejemplos
Ejemplos de variables podran ser: Beneficios Gastos Ventas etc. Ejemplos de dimensiones podran ser:

producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del productovendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

ELEMENTOS QUE INTEGRAN UN ALMACEN DE DATOS Metadatos


Artculo principal: metadato

Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy diferente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la informacin concerniente a: Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones

Funciones ETL (extraccin, transformacin y carga)


Artculo principal: Extract, transform and load

Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones:

Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados


en fuentes externas. Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal.

Middleware
Artculo principal: Middleware

Middleware es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). Elmiddleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. De esta manera se ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos.

Diseo de un almacn de datos


Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia el almacn. Una vez construido, se requieren medios para manejar grandes volmenes de informacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin: Situacin actual de partida.- Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de decisiones. Entorno tcnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) as como aplicaciones y herramientas. Se dar nfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cmo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que ser entregado a los usuarios. Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harn para llegar a la construccin del producto final deseado. Prueba del concepto tecnolgico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionar finalmente como se espera

Almacn de datos espacial


Almacn de datos espacial es una coleccin de datos orientados al tema, integrados, no voltiles, variantes en el tiempo y que aaden la geografa de los datos, para la toma de decisiones. Sin embargo la componente geogrfica no es un dato agregado, sino que es una dimensin o variable en la tecnologa de la informacin, de tal manera que permita modelar todo el negocio como un ente holstico, y que a travs de herramientas de procesamiento analtico en lnea (OLAP), no solamente se posea un alto desempeo en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados. El almacn de datos espacial forma el corazn de un extensivo Sistema de Informacin Geogrfica para la toma de decisiones, ste al igual que los SIG, permiten que un gran nmero de usuarios accedan a informacin integrada, a diferencia de un simple almacn de datos que est orientado al tema, el Data warehouse espacial adicionalmente es Geo-Relacional, es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos. Actualmente es geo-objetos, esto es que los elementos geogrficos se manifiestan como objetos con todas sus propiedades y comportamientos, y que adicionalmente estn almacenados en una nica base de datos Objeto-Relacional. Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeo de las bases de datos, que utilizanarquitecturas Cliente-Servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian ubicacin espacial, a pesar de poseerla intrnsecamente, y sabiendo que un 80% de los datos poseen representacin y ubicacin en el espacio, en los Data warehouse espaciales, la variable geogrfica desempea un papel importante en la base de informacin para la construccin del anlisis, y de igual manera que para un Data warehouse, la variable tiempo es imprescindible en los anlisis, para los Data warehouse espaciales la variable geogrfica debe ser almacenada directamente en ella.

VENTAJAS E INCONVENIENTES Ventajas


Hay muchas ventajas por las que es recomendable usar un almacn de datos. Algunas de ellas son: Los almacenes de datos hacen ms fcil el acceso a una gran variedad de datos a los usuarios finales Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisin tales como informes de tendencia', por ejemplo:obtener los items con la mayora de las ventas en un rea en particular dentro de los ltimos dos aos; informes de excepcin,informes que muestran los resultados reales frente a los objetivos planteados a priori. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes.

Inconvenientes

Utilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto.

Principales aportaciones de un datawarehouse

A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.

La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea yexplora los datos para sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. Las bases de la minera de datos se encuentran en lainteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.

Proceso de la mineria de datos


Un proceso tpico de minera de datos consta de los siguientes pasos generales: Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registrosdisponibles. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera

de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, et

Protocolo de un proyecto de minera de datos


Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar. La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en

proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme

Tcnicas de minera de datos


Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma


en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptrn. El Perceptrn multicapa. Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen. Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: Algoritmo ID3. Algoritmo C4.5. Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids. Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)


desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

EJEMPLOS DE MINERIA DE DATOS

Negocios
La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible.

Hbitos de compra en supermercados


El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.

Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Fraudes
Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.

Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de produccin o gestin de mano de obra.

Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero.

Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y sus homloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este mtodo.1

Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para determinados juegos combinacionales, tambin llamadosfinales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuracin de inicio, se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de patrones perspicaces se basa en una amplia experimentacin con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseados y con conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.

Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos campos son:

Gentica
En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica entre las partes y la variacin individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial".2

Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en transformadores se utilizan ciertas tcnicas paraagrupacin de datos (clustering) tales como los Mapas AutoOrganizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalas.3

Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. LosMapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas clsicas DGA.

Minera de datos y otras disciplinas anlogas


Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y disciplinas anlogas, como pueden serlo la estadstica, la inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no es sino estadstica envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y mtodos especficosque la hacen distinta de otras disciplinas. El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos redes neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, etc. gozan de una tradicin relativamente larga en otros campos.

De la estadstica
Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:

Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre


las medias de una o ms variables continuas en poblaciones distintos. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables. Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos(binarios, cualitativos o cuantitativos)

en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.

De la informtica
De la informtica toma las siguientes tcnicas:

Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables
que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales. Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto. Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.

Minera de datos basada en teora de la informacin


Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los modelos contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio (o problema) para obtener un beneficio (o solucin). El inconveniente es que esto no es necesariamente cierto. Adems, existe otro problema mayor an. Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores resultados. Un enfoque relativamente nuevo al anlisis de datos soluciona estos problemas haciendo que la prctica de la minera de datos se parezca ms a una ciencia que a un arte.

En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin. Posteriormente esta pas a llamarseTeora de la informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits. En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta la problemtica del negocio. Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podra valer la pena. La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes. Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de prediccin. Una vez que las variables son procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.

http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
Herramientas de software

Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por ejemplo:
Dynamic Data Web KXEN KNIME Orange RapidMiner R SPSS Clementine SAS Enterprise Miner STATISTICA Data Miner Weka

[editar]

Paales y Cerveza

En muchos cursos sobre minera de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realiz a finales de los aos 90 un anlisis de los hbitos de compra de sus clientes. Despus de un anlisis detallado, este resultado se explica de forma bastante curiosa. Como los paales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jvenes entre 25 y 35 aos (rango medio de edad para tener nios tan pequeos), solan ir a la compra los viernes, algo reticentes, en el ltimo momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban paales para sus bebs, aprovechaban para comprar cerveza, ya que no podran salir a tomarlas. Tambin se cuenta que Wal-Mart utiliz este resultado para reubicar estos productos en lugares estratgicamente dispuestos: pusieron la cerveza cerca de los paales. El resultado fue que los padres que habitualmente compraban cerveza despus compraron todava ms, al estar tan cmodamente situada. Adems, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los paales. As, las ventas de cerveza tuvieron un aumento espectacular. Este es un buen ejemplo de los beneficios que puede aportar la Minera de Datos y, en particular, el anlisis de la cesta de la compra (market basket analysis) (*ver abajo). El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de WalMart, otras veces se adorna con datos especficos de porcentajes de incremento de ventas Adems no se conoce quines pudieron realizar esos estudios y, de hecho, no existe documentacin especfica de ningn proyecto en esta lnea en ninguna de las dos organizaciones. Por todo ello, no hay ms remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minera de datos.

S-ar putea să vă placă și