Sunteți pe pagina 1din 108

1.

1 Fundamentos de Business Intelligence

1.1.1 Definición de Business Intelligence

Cuando se habla de Business Intelligence (BI), una de las definiciones globales


que se acostumbran a dar es: Business Intelligence significa emplear los datos
recopilados por una organización con el fin de soportar una mejor toma de
decisiones de negocio, accediendo, analizando y cubriendo nuevas oportunidades.

También se puede definir al Bussines Intelligence como:

"La combinación entre la recolección de información, su almacenamiento y el


manejo del conocimiento con herramientas de análisis con la finalidad de
proporcionar información compleja e importante para los encargados de la
planeación y los responsables de la toma de decisiones".
Solomon Negash, 2003.

Dentro de esta definición está presente la idea que los sistemas de Bussines
Intelligence se proveen de informacíon relevante para la toma de decisiones, al
momento adecuado y en la forma correcta de tal manera que los responsables de
la toma de decisiones puedan utilizarlo. La meta principal del Bussiness
Intelligence es la reducción del tiempo y mejoramiento de la calidad de la
información provista a los procesos de toma de decisiones facilitando el trabajo de
los reponsables de la toma de decisiones.

Muchos de los conceptos de Business Intelligence no son nuevos, pero han


evolucionado y han sido refinados basándose en la experiencia adquirida en los
primitivos sistemashost corporativos más recientemente en las aplicaciones
de Data Warehouse.

Dada la creciente competencia presente en todos los entornos de negocio es vital


que las empresas puedan disponer de un acceso rápido y efectivo a la información
de la que disponen para un amplio rango de usuarios. Esto es fundamental de
cara a asegurar la supervivencia en el nuevo milenio; la solución para este asunto
es un sistema de Business Intelligence, el cual proporciona una serie de
tecnologías y productos cuyo fin es proporcionar a los usuarios la información que
necesitan en cada momento, con el fin de que puedan responder a sus preguntas
de negocio y tomar decisiones tácticas y estratégicas.

1.1.2 ¿Pero qué hace el Business Intelligence?

Siendo el Business Intelligence parte fundamental en la toma de decisiones


estratégicas implica un marco muy extenso en lo que se refiere al entorno
corporativo. Es por esto que es muy importante poder clasificar o agrupar las
aplicaciones de Business Intelligence de acuerdo al entorno de las organizaciones
y el impacto que las decisiones estratégicas tienen en el desempeño global de las
organizaciones. Una encuesta realizada por el grupo Gartner agrupa y prioriza las
aplicaciones de Business Intelligence de la siguiente manera:

 Aquellas que están directamente involucradas en la administración del


desempeño corporativo.
 Las relacionadas con los clientes y monitoreo de las actividades del
negocio.
 También están las aplicaciones de Business Intelligence pre-fabricadas;
aquellas que están diseñadas para operaciones específicas o estrategias
puntuales.
 Y por último aquellas que están involucradas con la administración de los
reportes resultantes de un proceso de Business Intelligence.

El haber dado un ranking a las aplicaciones de Business Intelligence nos lleva a


pensar que estas no son simplemente herramientas que sirven para generar
informes de la situación actual de las organizaciones y sus competidores o peor
aún como una herramienta para la toma de decisiones; el concepto está mas allá
de ser tan simple.

Business Intelligence es el resultado de un crecimiento continúo; éste se alimenta


de diferentes fuentes que en cada momento lo robustecen, por ejemplo:

 Data Warehouses como repositorios de datos hace de esta una fuente de


información muy importante en donde se tiene información previamente
filtrada o precalculada de acuerdo a las necesidades de las organizaciones.
 Los mejores desempeños que se tienen en la actualidad en lo que se
refiere a Hardware y Software hacen que las consultas sean más rápidas y
confiables.
 Las tecnologías de Internet hacen que el entorno de las herramientas
de Business Intelligence sean mucho mejores que las que se tenían
anteriormente.

En la figura 1.1 se puede ver claramente la diversidad de fuentes que tiene un


sistema de Business Intelligence.

Figura 1.1: Business Intelligence y su relación con otros sistemas de información


(Negash, 2004).

1.2 Información, sistemas de información y Business Intelligence

1.2.1 La problemática actual del acceso a la información

Vemos que los modelos empresariales están sufriendo una profunda


transformación en los últimos años, los desafíos de los distintos sectores
económicos tienen en general como puntos comunes clientes cada vez más
exigentes, cambios cada vez más rápidos y una competencia cada vez más fuerte.
Para hacer frente a estos desafíos, más allá de planteamientos reactivos, es
preciso anticipar. Anticipar los cambios, las nuevas necesidades de los clientes,
anticipar respecto a la competencia, etc. Pero para que esta anticipación sea
eficaz hay que disponer de informaciones pertinentes. Todas las empresas
disponen datos que provienen de sus sistemas operacionales e incluso del
exterior; el problema de estas empresas es alcanzar los objetivos definidos por los
desafíos de su sector, sacando partido de los datos accesibles.

Casi literalmente, la empresa actual se hunde bajo el aluvión de datos. Esta sobre
abundancia tiene como consecuencia directa un rechazo por la saturación que
produce. Sin embargo, los datos representan una mina de informaciones. son una
ventaja de la que la empresa debe sacar partido. Para ello, resulta fundamental
implementar una nueva informática de decisión para obtener una mejor
comprensión del valor de las informaciones disponibles, definir indicadores de
negocio pertinentes para facilitar la toma de decisiones operativas y conservar el
caudal histórico de la empresa.

Figura 1.2: El problema del acceso a la información.

Figura 1.3: Visión general de un Datawarehouse.

Debido a la diversidad de fuentes que alimentan a una solución de Business


Intelligence hace que sea más complejo el análisis de las informaciones. Estas
poseen en algunos casos una estructura dada por el mismo entorno que las
contiene, por ejemplo, una base de datos en donde las informaciones se graban
en forma de filas y columnas (tablas de datos) o en otros casos las informaciones
que procesa un sistema de Business Intelligence proviene de fuentes que tienen
una estructura diferente por ejemplo: e-mail, faxes, cartas, etc. Para el primer caso
en donde las informaciones presentan una estructura se las conocen como
fuentes de datos estructuradas; caso contrario se los conocen como fuentes
de datos semi-estructuradas.

Blumberg & Atre (2003) indican que el 60 % de los CIO´s de las compañías
consideran a los datos semi-estructurados como críticos para mejorar las
operaciones de las organizaciones y clave vital para el desarrollo de nuevos
negocios.

Adicionalmente Blumberg y Atre (2003) indican que no es fácil indagar información


en las fuentes de datos semi-estructuradas utilizando la tecnología existente en las
bases de datos convencionales ya que la variedad es bastante amplia; entre las
que se pueden citar están:

 Procesos de negocio
 E-mails
 Gráficos
 Archivos con imágenes
 Cartas
 Memos, noticias, etc

Blumberg y Atre (2003) indica que Merryl Linch estima que el 85% de toda la
información de los negocios existe en forma de datos semi-estructurados
comúnmente capturados en formato de hojas de cálculo, es decir, no se
encuentran almacenados bajo la estructura de una base de datos.

La figura 1.4 muestra la variedad de informaciones de entrada disponibles para


ofrecer la inteligencia necesaria para la toma de decisiones.

Figura 1.4: Entradas a los sistemas de Business Intelligence (Negash, 2004).

1.2.2 La evolución de los sistemas de información

Inevitablemente, la primera pregunta que surge al describir los objetivos de los


sistemas de Business Intelligence es la relativa a su aportación a los sistemas de
información. Un sistema de información se define como un sistema que recoge,
almacena, procesa y distribuye información entre los diferentes elementos que
tenga el sistema y su entorno.

Los objetivos principales de un sistema de información son:

 Respuesta a eventos, énfasis en la transmisión, tratamiento sencillo.


 Proporcionar información de control.
 Intercambio de información con el entorno.
 Relaciones con el exterior, requerimientos comerciales y legales.
 Facilitar acceso y tratamiento de información para la toma de decisiones.
Figura 1.5: Funciones de un Sistema de Información.

1.2.2.1 Primera generación: Consultas e informes basados en host

Los primeros sistemas de información empleaban aplicaciones por lotes (batch)


para proporcionar a los usuarios de negocio la información que necesitaban. La
salida de estas aplicaciones necesitaba normalmente grandes volúmenes de
papel, sobre los que los usuarios tenían que buscar las respuestas concretas a
sus preguntas de negocio. La llegada de terminales de acceso más prácticos
facilitó mucho el acceso a la información pero, en general, estos sistemas eran
difíciles de manejar, requiriendo el acceso a bases de datos operacionales
complejas.

Esta primera generación de sistemas de información sólo podía ser aprovechada


por proveedores de información, como analista de información, que tenían un
conocimiento avanzado de acceso a datos, así como experiencia en el manejo de
ordenadores. A diferencia de los ejecutivos de negocio y los directores que
raramente eran capaces de usar estos primitivos sistemas.

Estos sistemas de información transaccionales eran aquellos sistemas que se


encargaban de manera especifica de procesar tanto las transacciones de
información provocadas por las interacciones formales entre el entorno y la
organización como las transacciones generadas en el seno de la organización.

1.2.2.2 Segunda generación: Data Warehousing

La segunda generación de los sistemas de información de negocio trajo consigo la


funcionalidad de los primitivos sistemas de Data Warehouse. Estos Data
Warehouse, o almacenes de información, tenían varias ventajas sobre los
sistemas de primera generación, tales como:

 Estaban diseñados para satisfacer las necesidades de los usuarios de


negocio, no las aplicaciones operacionales que registran el día a día de la
empresa.
 La información residente en un Data Warehouse está limpia y es
consistente, estando almacenada en un formato que los usuarios de
negocio pueden entender.
 Podían proporcionar información histórica y sumarizada a diferencia de los
sistemas operacionales que solo contenía el detalle de los datos actuales.
 Las arquitecturas cliente/servidor proporciona a los usuarios del Data
Warehouse interfaces de usuario mejoradas, así como herramientas de
soporte a la decisión más potentes.

1.2.2.3 Tercera generación: Business Intelligence

Un Data Warehouse no constituye todavía una solución completa para las


necesidades de los usuarios de negocio. Una de las debilidades de muchas
soluciones de Data Warehouse es que a menudo se centran en la tecnología en
lugar que en las soluciones de negocio. Está comprobada la capacidad
tecnológica de las soluciones pero normalmente se necesita un esfuerzo
importante en cuanto a su implementación.

El punto importante aquí es que los productos de Data Warehouse raramente


vienen preempaquetados para áreas de negocio o aplicaciones específicas. En
este sentido, esta situación es muy parecida a la de los primeros tiempos de la
arquitectura cliente/servidor; inicialmente servía para desarrollar aplicaciones
operacionales pero rápidamente se enrumbó a aplicaciones y soluciones de
negocio; no simplemente más tecnología. La misma evolución ha sucedido en los
sistemas de información de negocio; es por esto sistemas de Business
Intelligence están orientados a suministrar soluciones de negocio
preempaquetadas no simplemente mejoras tecnológicas.

Otra característica relacionada con el Data Warehouse es que hace excesivo


hincapié en el aspecto constructivo, en lugar de dar relevancia a las problemáticas
de acceso a la información que contienen. Parece que el objetivo de muchas
empresas es simplemente construir un Data Warehouse y proporcionar a los
usuarios alguna herramienta de acceso a la información que contiene.

Sin embargo, a no ser que la información en el Data Warehouse esté claramente


documentada, siendo su acceso fácil, la complejidad inherente al sistema limitará
el uso del Data Warehouse en los mismos niveles que los sistemas de primera
generación.

Los sistemas de Business Intelligence también son sistemas de decisorios pero


están en un grupo de sistemas decisorios más complejos. Se llaman sistemas de
información expertos que están diseñados para ayudar a resolver problemas de
decisión dentro de un dominio de aplicación muy limitado, simulando tareas
humanas de razonamiento y deducción, recomendando opciones y presentando
de explicaciones, procurando igualar y potenciar la eficacia de los expertos
humanos en el dominio de la aplicación.
1.2.3 Necesidad de los sistemas de Business Intelligence

Nos encontramos actualmente sumergidos en la era de la información. En todos


los sectores económicos, en todas las empresas, la información se convierte en un
elemento diferenciador, cuya correcta explotación aporta una tremenda ventaja
competitiva. Disponer de información útil, tenerla en mayor abundancia que los
competidores, tenerla preparada antes, disponer de ella en el momento en que el
usuario la necesite en un formato comprensible y utilizable, éstos son los objetivos
a lograr. Todas las técnicas y tácticas utilizadas por los grandes estrategas se
basan en la información de que disponen. En ciertos sectores, algunos hablan
incluso ya de la desinformación. El ejemplo más significativo de esto se da en
Internet, donde el contenido de las páginas está adaptado en ocasiones al usuario
conectado.

Las empresas recopilan enormes cantidades de datos en sus operaciones diarias:


datos sobre pedidos, inventario, cuentas, transacciones en los puntos de venta y
por supuesto datos relativos los clientes. Además, muchos negocios acostumbran
a adquirir datos a proveedores de información tales como características
sociodemográficas de los clientes, listas de buzón, etc. La consolidación y el
análisis efectivo de todos estos datos sin duda mejoran la toma de decisiones de
negocio, aportando una ventaja competitiva considerable. Para esto es necesario
considerar el contexto de la empresa según tres ejes principales:

- La información1

- La empresa

- El mercado

Esto junto con la capacidad funcional y la cada vez mejor potencia de las
tecnologías, tanto del hardware como del software hacen que los tratamientos
pesados de la información algo posible y accesible.

En el análisis de los principales factores de cambio es conveniente insistir


particularmente sobre el nuevo papel preponderante de la información, y sobre la
evolución del mercado y su impacto en la empresa.

1A lo largo del módulo, los términos dato e información se utilizan en muchas


ocasiones de forma intercambiable. Formalmente, la información se elabora a
partir de la integración y asimilación de varios datos. Sin embargo, en un sentido
más amplio, se consideran datos e información como el precedente de el
conocimiento, sin contabilizar el orden de una forma explícita.

1.2.4 Factores de cambio: La información

El ambiente del mundo de los negocios de hoy exige una aplicación cada vez más
eficiente de la información disponible. Business Intelligence genera un
conocimiento al negocio que se deriva de la correcta utilización de la información
generada dentro y fuera de la empresa. Business Intelligence es una herramienta
que pone a disposición de los usuarios la información correcta en el lugar correcto
generando una ventaja competitiva. Son ya muchas las empresas que han
implementado soluciones de Business Intelligence y se han visto enormemente
beneficiadas.

En una era donde la información es moneda de uso diario en toda actividad


humana, ella pasa a ser un commodity, pero para darle valor debe diferenciarse
para sacarle provecho competitivo. Ahora importa tenerla en formas adecuadas
para responder con agilidad al cambio incesante en que se vive y por ello es
necesario contar con técnicas, tácticas y estrategias adecuadas para enfrentar la
vasta cantidad de información que informa, pero también confunde.

En ciertos sectores, algunos hablan incluso ya de la desinformación. El ejemplo


más significativo de esto se da en Internet, donde el contenido de las páginas está
adaptado en ocasiones al usuario conectado.

En una empresa, la información está constituida por una fuente principal y fuentes
externas. La fuente principal proviene del llamado sistema transaccional que
registra y soporta la operativa diaria del negocio. Adicionalmente la información se
completa con datos externos de la empresa que en ocasiones un representan un
20% del total. Este número depende fundamentalmente del sector de actuación de
la empresa y del nivel de competencia existente; además, cuanta mayor jerarquía
tengan quienes toman decisiones, más compararán y analizarán estas cifras
externas respecto a las provenientes del sistema transaccional.

Tanto respecto a la información externa como a la interna, actualmente se


presentan tres problemas fundamentales:

- La sobre abundancia de la información

- El hecho de que sea difícilmente accesible

- El hecho de que no sea selectiva

El tema de la sobre abundancia se acostumbra a ilustrar mediante la siguiente


observación:
"Se han producido más informaciones nuevas en los últimos treinta años que en el
transcurso de los cinco milenios que nos han precedido"

En cuanto a la accesibilidad y la selectividad de los datos, ciertas estadísticas


hablan que el 27% del tiempo de un directivo, como promedio, lo pasó buscando
información, accediendo a ella y dándole un formato adecuado. Parece evidente
que ganar algunos puntos sobre este porcentaje tiene efectos directos sobre la
productividad de una empresa.

Al momento de recopilar información es posible encontrarse con cuatro tipos de


información que se detalla a continuación:

 Fatal, es la información que no sirve de nada usualmente siempre se la


desecha.
 Interesante, aquella información que no sirve pero se cola y nos hace
perder tiempo.
 Útil, es la información que es fácil conseguir y de mucha utilidad.
 Crítica, es difícil de conseguir y nos es muy útil.

Pero el problema mostrado aquí es doble; por una parte, seleccionar la


información justa y útil y, por otra, referenciar esta información y almacenarla
correctamente para ser capaz de recuperarla el día que se necesite. El beneficio
de un sistema de decisión sólo será notable si la información es creíble, integrada,
disponible en la forma deseada por el usuario, en el momento en que la necesite,
sea cual sea el lugar donde se encuentre.

Cuestiones de interés que puede ayudar un BI a las organizaciones

 ¿Quiénes son los clientes más rentables? ¿Cómo


retenerlos?
 ¿Cómo expandirse con nuevos productos, mercados
Algunas y canales de forma eficaz?
preguntas...  ¿Cuáles son las ventajas por región, producto y
época?
 ¿Cómo mejorar el nivel de servicio?
 ¿Cómo mejorar la eficiencia?

 Baja disponibilidad de la información necesaria


 Distintas fuentes de datos no consolidadas
Algunos  Acceso a la información en términos de negocio
problemas...  Identificación de los factores críticos que afectan a
los resultados futuros o pasados
 Mejorar la operativa del negocio
 Consolidar y homogeneizar las fuentes de
información disponibles
Algunos  Ganar cuota de mercado
Objetivos...  Mejorar el servicio al cliente y retener a aquellos que
son más rentables
 Mejorar la eficacia de las campañas promocionales

En este sentido el problema de Internet es el más representativo. Internet sin lugar


a dudas es la mayor biblioteca mundial existente; pero mas que una biblioteca,
Internet es un repositorio caótico de información. Es probable que lo que
buscamos se encuentre allí, pero el problema radica en la falta de organización de
los caminos de acceso y el filtrado inteligente de la información dificultando
enormemente las tareas de búsqueda y recuperación. Cabe decir que, dentro de
las recientes aplicaciones de business intelligence a este medio, se están
desarrollando nuevos mecanismos que agilizan enormemente la búsqueda y
asimilación de información.

1.2.5 Factores de cambio: La empresa y su mercado

La empresa construye un sistema de decisión con el fin de mejorar su rendimiento.


Los sistemas de business intelligence deben permitirle ser activa en su mercado,
es decir, decidir y anticipar en función de la información disponible y capitalizar
sobre sus experiencias. Cada empresa se sitúa en un mercado, en un sector
económico. De manera general todos los mercados están en plena evolución y
cada vez están más cerrados en cuanto a competencia y crecimiento de tal
manera que es necesario utilizar la mayor cantidad de estrategias para crecer o
para sobrevivir.

Los factores relacionados con estas evoluciones son la competencia, la


competitividad y la complejidad. Es aquí donde los sistemas de Business
Intelligence deben permitirle a las empresas ser activas en su mercado, es decir,
decidir y anticipar en función de la información disponible y capitalizar sobre sus
experiencias.

Por esto hay que tener considerar fuerzas externas dentro del Business
Intelligence, la competencia y el consumidor.

1.2.5.1 La competencia

La competencia, tal como se vive hoy en las empresas, necesita comparar sin
cesar el producto propio con el de los demás ofertantes. La sola visión del
producto a través de las informaciones internas disponibles ya no basta. Hemos
pasado de una orientación al producto a una orientación al mercado y está visión
de la competencia es fundamental en la actualidad.

El objetivo es simplemente hacerlo mejor que los competidores; los cuatro ejes
principales de mejora de la posición con respecto a la competencia son:

- Una mejor rentabilidad, que precisa a menudo inversiones más costosas.

- Una mayor rapidez en todas las etapas del ciclo de vida de un producto (diseño,
realización, cadena de producción, etc).

- Más innovación en los productos y los servicios asociados.

- Un acceso más fácil para los consumidores a los productos y a los servicios.

En el marco de los sistemas de Business Intelligence, el aspecto de la


competencia se trata mediante la integración en el sistema de decisión1 de datos
externos introducidos o adquiridos que caracterizan el mercado y la competencia.
Esta integración es, como puede intuirse, una fase muy compleja; el acercamiento
entre los datos externos y los datos internos a menudo presenta graves problemas
semánticos que normalmente son difíciles, o incluso imposibles, de resolver.

1Aunque todavía no se ha dado una definición precisa de lo que se entiende por


un sistema de decisión, la idea es presentarlo en este momento como un conjunto
de herramientas de soporte a la toma de decisiones, sin entrar de momento en
mayor detalle.

1.2.5.2 El consumidor

La personalización es la tendencia actual, que se añade a las cuatro tendencias


sucesivas que han ido apareciendo en el tiempo: los precios, la calidad, el tiempo
y los servicios.

En los años de postguerra, la economía estaba orientada al producto; tal es así


que las empresas no tenían problemas para vender lo que producían; se daba
más prioridad a la producción en masa para aumentar las ventas. La
preocupación siguiente, en los años setenta, era mejorar la calidad de los
productos; el consumidor quería el producto y la calidad. En aquellos años,
aparecieron las primeras ideas sobre normas y estándares. Luego en los 80'se
toma conciencia del factor tiempo trayendo consigo profundos cambios en las
organizaciones de las empresas y automatización de un cierto número de
procesos. Esta noción de tiempo se traduce a menudo en términos de reducción
de plazos: plazo de diseño, plazo de entrega, etc. Este objetivo de reducción de
los plazos es aún hoy fundamental en los servicios. La tendencia de los años
noventa es la mejora de los servicios asociados al producto; estos servicios se
incluyen en la fase de compra del producto (servicios a los clientes, garantía, etc.),
o bien en la fase de uso de dicho producto por la incorporación cada vez más
fuerte de inteligencia, a fin de hacer sus funciones más accesibles.

La personalización busca dar a cada cliente (usuario, consumidor, comprador,


etc.) la impresión de ser único. Este es el contexto de la gestión de las relaciones
con los clientes con las aplicaciones. Se ha llegado a una lógica de segmentación
llevada al extremo, donde todos los vendedores deben reaccionar como los
entrañables tenderos del barrio que, cada vez que alguien entra en sus
establecimientos es llamado por su nombre, preguntado por la familia,
ofreciéndole productos adaptados a su perfil. Hoy, este comportamiento se simula
por la información que el sistema asocia a un cliente.

Entre otras características, este marketing de precisión, o micromarketing, permite:

 Mayores ingresos por las captaciones eficaces de clientes, mejores


índices de respuesta directa de marketing, mejores ventas cruzadas, ventas
de actualizaciones y menores quejas de los clientes.
 Reducción de costes mediante la automatización de las interacciones,
aumento de la productividad del personal desplazado, reducción del
marketing directo y los gastos en medios de comunicación.
 Ventaja sobre la competencia gracias a una mayor fidelidad y retención
de los clientes, mayor comprensión del mercado y de los clientes y un
tiempo reducido de salida al mercado.
 Entender mejor el comportamiento de los clientes y personalizar sus
ofertas basándose en las necesidades de los mismos.
 Identificar tendencias, descubrir las necesidades emergentes de los
clientes y reasignar recursos de desarrollo de forma dinámica para diseñar
y ofrecer productos que cubran las demandas futuras.
 Utilizar y alinear recursos, integrar procesos y funciones y ofrecer
productos o servicios que cumplan las expectativas de los clientes.

Estas características pueden exponerse de otra manera:

 Aumentar el rendimiento de las acciones comerciales y de marketing.


Un marketing directo estándar da un rendimiento del 2 al 4%, mientras que
un marketing directo orientado al perfil y pautas de compra del cliente da
unos valores del 10 al 20%. A título de ejemplo, un banco francés ha
conseguido más de 2 millones de francos de ahorro anual, debido a la
reducción de costes de impresión y envío, trabajando básicamente sobre la
orientación de sus mailings.
 Aumentar los servicios proporcionados. Conocer los perfiles de
consumo de los clientes permite la realización de propuestas de servicios
completamente adaptados y personalizados. Aquí se incluye el diseño de
ofertas a medida, así como políticas de precios y descuentos adaptados a
cada situación.
 Mantener la fidelidad de los clientes. Esta fidelidad puede conseguirse
también por medio de los servicios que hacen más difícil el paso de un
proveedor a otro. El tema de la desvinculación y abandono de clientes es
uno de los que más preocupan a las empresas. El conocer las causas por
las cuales se produce este fenómeno ayudará enormemente a la
elaboración de estrategias de retención y fidelidad de los clientes,
especialmente de aquellos más rentables.

De esta manera, es fácil comprender la formidable proliferación de cuestionarios y


encuestas que la gente recibe regularmente, solicitando detalles sobre cada uno
de nosotros y sobre nuestro consumo. Debido a que toda empresa debe adaptar
hoy sus productos a los clientes, la palabra clave es el conocimiento del cliente.
Pero no todas las empresas están en contacto directo con el cliente, como les
ocurre a los proveedores de tecnologías y de productos básicos, a los fabricantes,
a los distribuidores al por mayor, etc. Estas empresas deben buscar en el exterior
la información sobre los clientes que usan directa o indirectamente sus productos.

1.3 Sistemas Business Intelligence y su impacto organizacional

1.3.1 Condiciones para adoptar un sistema de Business Intelligence

Muchas de las condiciones para adoptar un sistema de Business


Intelligence vienen por la necesidad de mejorar la facilidad de uso y reducir los
recursos requeridos para implementar y usar nuevas tecnologías de la
información. Aunque en el capítulo 2 se tratará con mayor detalle el trasfondo
tecnológico, es importante insistir en los detonantes desde el punto de vista de
negocio que provocan la adopción de las soluciones de Business Intelligence.

Básicamente, son tres:

 La necesidad de aumentar los beneficios, reducir los costes y competir de


forma más eficiente. Lejos quedan los días en que los que los usuarios
finales podían gestionar y planificar operaciones a través de informes
mensuales por lotes, y los departamentos de tecnologías de la información
disponían de meses para implantar nuevas aplicaciones. Hoy en día, las
empresas necesitan implementar las aplicaciones informacionales de forma
rápida, proporcionando a los usuarios la información de negocio latente de
forma fácil y flexible. Los sistemas de Business Intelligence están
orientados hacia el acceso y distribución de la información a los usuarios
finales.
 La necesidad de gestionar y modelar la complejidad del entorno
empresarial actual. El escenario de desregularizaciones y fusiones entre
compañías significa, entre otras cosas, que las empresas está ofreciendo y
soportando una amplia gama de productos y servicios, dirigidos hacia una
audiencia más amplia y diversa. Comprender y gestionar un entorno así de
complejo, optimizando las inversiones, es una tarea cada vez más
complicada. Los sistemas de Business Intelligence proporcionan mucho
más que simples aplicaciones de consulta y elaboración de informes.
También ofrecen mecanismos de análisis complejos de la información y
herramientas orientadas hacia el descubrimiento de patrones complejos.
 La necesidad de reducir los costes en tecnologías de la información.
Las inversiones en este campo constituyen hoy en día un porcentaje
significativo de los gastos corporativos. No sólo existe la necesidad de
reducir esta cuota, sino también obtener los máximos beneficios derivados
de la información gestionada por los sistemas informáticos. Las nuevas
tecnologías de la información, como las intranets corporativas o los clientes
ligeros, ayudan a reducir el coste derivado de la diseminación de los
sistemas de Business Intelligence a una audiencia más amplia.

Los sistemas de Business Intelligence abren también el alcance de la información


que puede ser procesada, incluyendo no sólo datos operacionales, sino también
información gestionada por los sistemas de oficina o los
servidores web corporativos.

1.3.2 Requerimientos básicos de un sistema de Business Intelligence

Los requerimientos principales de un sistema de este tipo básicamente son:

 Aplicaciones que ayuden a las organizaciones a maximizar su rendimiento


en los negocios, generando la eficiencia operativa. Así mismo, obtendrá
una mayor comprensión y entendimiento del entorno y de los procesos
desde la propia experiencia en las personas y organizaciones.
 Coste efectivo que proporcione un rápido retorno de la inversión para el
negocio y permita a la organización competir de forma más efectiva.
 Un acceso rápido y fácil a la información de negocio para un amplio rango
de usuarios finales, incluyendo tanto proveedores de información como
consumidores de ésta.
 Soporte para modernas tecnologías de la información, incluyendo técnicas
de análisis, verificación de hipótesis y descubrimiento de patrones y
tendencias.
 Un entorno operativo abierto y escalable; aunque básicamente tecnológico,
el último punto es de vital importancia, ya que condiciona totalmente el
volumen de datos que se podrán tratar y el tipo y funcionalidad de las
aplicaciones analíticas que se vayan a utilizar.

1.3.2.1 Marco de trabajo de los datos en las aplicaciones de Business Intelligence

Recordemos que un sistema de Business Intelligence se compone de varias


fuentes de datos: las estructuradas y las semi-estructuradas; ambas fuentes de
datos son igual de importantes. Esto se lo puede resumir en la figura 1.6 la misma
que muestra el marco de trabajo en donde se puede observar como se integran
las fuentes de datos estructuradas y semi-estructuradas las mismas que son
necesarias para la implementación de un sistema de Business Intelligence.

Figura 1.6: Marco de trabajo de los datos en las aplicaciones de Business


Intelligence (Negash, 2004).

Como se puede observar claramente las fuentes de datos estructuradas y semi-


estructuradas son de igual importancia. Adicionalmente se puede observar que el
proceso de búsqueda, integración y depuración (limpieza) se aplica a las dos
fuentes de datos la estructurada y la semi-estructurada.

Para crear un sistema de Business Intelligence los datos provistos por las fuentes
de datos son sometidos a un proceso de búsqueda, análisis y de envío a la
persona responsable de la toma de decisiones. Para el caso de los datos
provenientes de una fuente estructurada los analistas utilizan herramientas tales
como sistemas ERP's, ETL's, DW's, Data Mining y herramientas OLAP. Para el
caso de fuentes de datos semi-estructuradas el análisis es realizado con la ayuda
de otras herramientas menos sofisticadas.

Ahora bien, debido a que las aplicaciones de Business Intelligence deben de


interactuar con fuentes de datos estructuradas y semi-estructuradas la arquitectura
de datos de los sistemas de Business Intelligence no está diseñada de una forma
muy técnica a diferencia de la arquitectura propuesta por las fuentes de datos
estructuradas. La arquitectura para fuentes de datos semi-estructuradas está
enfocada en estándares, metadatos, reglas de negocio y políticas.

1.3.2.2 Arquitectura para fuentes de datos estructuradas

Una arquitectura típica de las aplicaciones de Business Intelligence está basada


en los Data Warehouses; los datos son extraídos de los sistemas operacionales
hacia el Data Warehouse y éste a su vez sirve de base para la creación de
los Data Marts que son utilizados por los ejecutivos y los responsables del análisis
de la información. Estos Data Marts son consultados ya sea a través del Internet o
por medio de consultas hechas por analistas utilizando OLAP. En la figura 1.7 se
encuentra una arquitectura típica para las fuentes de datos estructuradas.

Figura 1.7: Arquitectura típica de fuentes de datos estructuradas (Negash, 2004).


1.3.2.3 Arquitectura para fuentes de datos semi-estructuradas

La arquitectura para fuentes de datos semi-estructuradas incluyen:

- Modelo funcional del negocio

- Modelo de procesos del negocio

- Modelo de datos del negocio

- Aplicaciones de inventario

- Repositorio de metadatos

A continuación en la figura 1.8 se muestra los elementos que constituyen la


arquitectura de las fuentes de datos semi-estructuradas.

Figura 1.8: Arquitectura para fuentes de datos Semi- estructuradas (Negash,


2004).

Los 5 componentes que la constituyen están descritos a continuación:

 Bussines funtion model: es la descomposición jerárquica de los negocios


de la organización; es decir, muestra QUE HACE.
 Bussines process model: son los procesos implementados para las
diferentes funciones de la organización; es decir, muestra COMO LO
HACE.
 Bussiness Data Model: describe los tipos de datos que maneja la
organización, las relaciones que conectan estos tipos de datos con los
negocios actuales, los elementos que la conforman y las reglas a las que
están sometidas dentro de la organización; es decir QUE TIPO DATOS
maneja.
 Application Inventory: se refiere al inventario de todos los procesos,
funciones, componentes y datos de la organización; es decir DONDE se
encuentran implementados.
 Metadata repository: es una descripción detallada de los modelos de
negocio; permite el uso de los metadatos de la organización.

1.3.3 Costos y beneficios de implementar sistema de Bussiness Intelligence

Los proyectos de Business Intelligence no están exentos de la presión de las


organizaciones de justificar una inversión en tecnologías de la información. Existen
estudios que demuestran que el retorno de las inversiones ROI 1 para las
aplicaciones de Business Intelligence están por demás justificadas. Ahora bien los
costos básicos que deben ser considerados para la implementación de un sistema
de Business Intelligence se los puede resumir en:

 Costos de Hardware: este costo depende de la infraestructura que tenga


la organización en el momento de la implementación del sistema
de Business Intelligence; si esta tiene ya implementado un Data
Warehouse lo único que se deberá adquirir es un Data Mart de uso
específico para la aplicación de Business Intelligence; también es posible
que sea necesario actualizar el Data Warehouse. Adicionalmente se
pueden presentar las necesidades de actualizar otro tipo
de Hardware necesario para la implementación de la Intranet y la Extranet
con el fin de difundir la información a la comunidad.
 Costos de Software: el costo estimado de los paquetes de Business
Intelligence es de $60.000 (Negash, 2004). También es necesario tomar en
cuenta la necesidad de información externa. Por ejemplo, información
concerniente a los hábitos de compras de los consumidores de los tipos
productos que produce la empresa2.
 Costos de implementación: este es un costo que se tiene una sola vez
dentro de la implementación de un sistema de Business Intelligence, este
incluye el entrenamiento inicial. Ahora bien el entrenamiento es un costo
que está siempre presente ya que nueva gente es invitada a utilizar la
nueva aplicación y también debido a las actualizaciones del software.
Adicionalmente es importante acotar que los típicos contratos anuales de
mantenimiento del software estipulan un costo del 15% del valor de compra.
 Costos de personal: dentro de este costo se estipulan los valores de las
personas asignadas a las tareas de Business Intelligence y soporte de IT,
los costos que deben ser considerados son salarios, equipos de
computación y cualquier tipo de infraestructura. Si se desea tener un
análisis de costo bastante detallado es necesario considerar el tiempo que
se utiliza para leer e interpretar los reportes generados por los sistemas
de Business Intelligence junto con el Internet y las otras fuentes
de Business Intelligence.

Los beneficios de implementar un sistema de Business Intelligence son


intangibles. Un estudio empírico encontró que la mayoría de las compañías no
consideran la reducción de costos o el ahorro de tiempo como los principales
beneficios al invertir en los sistemas de Business Intelligence. El anhelo de estas
organizaciones es que un buen sistema de Business Intelligence lo llevará a un
fuerte retorno de su inversión en algún momento en el futuro.

Beneficios de un sistema de Business Intelligence

Organizacionales y - Ver los datos en forma gráfica para ayudarle a tomar


de procesos mejores decisiones de negocios.
- Usar los datos para establecer las metas y medir el
progreso en forma acertada.
- Combinar los datos de negocios con información
geográfica y demográfica.
- Obtener una vista precisa del rendimiento de la
corporación mediante el uso de métricas.
- Conocer el comportamiento y preferencias de los
clientes.
- Identificar los patrones y tendencias dentro de grandes
volúmenes de datos.
- Maximizar la Rentabilidad de su negocio, entre otras.

- Mejor seguimiento, análisis y control del negocio


- Realización de consultas libres por aparte de los
usuarios
- Detección temprana de tendencias y mejor adaptación
a las nuevas condiciones del mercado
- Alerta de forma temprana sobre nuevas necesidades
De negocio
en el negocio
- Disponer de una visión integrada de los clientes que
permita un servicio y atención más individualizados
- Mejora del ciclo de marketing, permitiendo una
selección más ajustada del publico objetivo y el análisis
de la efectividad de las campañas

- Incorporación de nuevas tecnologías den sistema de


información
- Mejora en la flexibilidad y respuesta a nuevas
necesidades de información con un mantenimiento
óptimo
Tecnológicos - Buena integración de la información de todas las áreas
de negocio a nivel de detalle, permitiendo desarrollar
aplicaciones y visiones de negocio con un mínimo
esfuerzo
- Reducción de la carga de trabajo del departamento de
informática

1 ROI: Return of Inversion, Retorno de la Inversión.


2 Conocido como Análisis de la Competencia o Competitive Intelligence (CI)

Capítulo 2.- Almacenes de información: fundamentos del Data Warehousing


OBJETIVOS

- Conocer el datawarehouse como repositorio único de información dentro de la


empresa.

- Reconocer las diferencias respecto a las bases de datos operacionales.

- Conocer los procesos de integración, validación y consolidación de la


información dentro de un datawarehouse.

- Conocer las fases de construcción.

- Reconocer tipos de documentación de la información contenida: catálogos y


metadatos.

- Conocer las soluciones departamentales: datamarts.

2.1 Definición de un Data Warehouse

Dentro del entorno empresarial actual existe un axioma prácticamente


incontrovertible: la información es la clave para determinar cómo obtener una
ventaja competitiva. El problema, está en el manejo de los volúmenes de datos en
bruto que los sistemas informáticos recopilan, procesan, derivan y diseminan.
Literalmente, se podría decir que las empresas se encuentran en el centro del
cráter de un volcán de datos en erupción; pero, en algún lugar de esta explosión
de datos se encuentran las claves que los responsables de la gestión empresarial
necesitan para definir el posicionamiento estratégico en el mercado, maximizando
así su ventaja competitiva.

Dentro de este cuadro, la tecnología ha ubicado el concepto de Data


Warehouse (DW)1como una alternativa para abordar el problema de la sobre
carga de información. Básicamente, un Data Warehouse se puede definir como:

"Colección de información corporativa, derivada de las fuentes de datos internas y


alguna externas, cuyo fin es soportar la toma de decisiones de la empresa y no las
operaciones de negocio".

Así, los objetivos del Data Warehouse son:


- Ayudar a los gestores y responsables encargados de la toma de decisiones a
transformar los datos en bruto en información;

- Ayudar a los gestores a identificar tendencias clave;

- Ayudar a las empresas a predecir determinados sucesos y actuar con


anticipación con respecto a ellos, y

- Ayudar a comprender lo que sucedió, permitiendo a la empresa reaccionar,


redefiniendo los procesos y sacando beneficio de la experiencia.

Un prerrequisito fundamental para todo esto es que los datos para soportar los
análisis tienen que ser accesibles, tienen que estar actualizados, y su acceso debe
poder hacerse de forma flexible y en un formato válido para los usuarios. Hasta la
fecha se ha realizado mucho hincapié en la tecnología de base que sustenta el
concepto de Data Warehouse, pero no demasiado en el trasfondo estratégico, la
planificación, los procesos de negocio y los servicios que desarrollan, mantienen y
usan la tecnología de Data Warehouse.

Un Data Warehouse es un repositorio único de información empresarial; es


importante resaltar que, una vez construido, debe ser la única fuente a la que los
usuarios de negocio deben ir a buscar información; aunque esto puede parecer
evidente, la experiencia demuestra que no siempre es así.

Para comprender la necesidad de hablar de Data Warehouse en el contexto


empresarial actual es necesario plantear las limitaciones de los sistemas
transaccionales de cara a la explotación de la información contenida en los datos
que procesan.

Los sistemas que contienen los datos operacionales, aquellos derivados de las
transacciones diarias del negocio, contienen información que es útil para el
analista de negocio. Por ejemplo, los analistas pueden usar información sobre que
productos fueron vendidos en determinadas regiones en un momento determinado
del año con el fin de buscar anomalías o diseñar futuros planes de venta. Sin
embargo, existen diversos problemas cuando los analistas acceden directamente
a los datos operacionales:

 Es necesario de un técnico para revisar los datos en tablas de datos del


sistema de información operativo, este muchas veces no entiende que es lo
que quiere hacer la persona que esta pidiendo esa información.
 La mayoría de estas bases de datos no dan soporte multiusuario a gran
escala lo que ocasiona su lentitud o inaccesibilidad.
 Los datos operacionales no están en el formato más adecuado para ser
explotados por los analistas de negocio. Por ejemplo, estos necesitan los
datos de ventas agregados por producto, región, época, etc, los sistemas
operacionales mantienen los datos en forma bruta y no sumarizada.
 Los analistas de negocio necesitan acceder a información histórica, para
analizar tendencias y modelar comportamientos, las bases de datos
operacionales mantienen los datos activos, sin una profundidad suficiente
como para soportar este tipo de análisis.

Los sistemas de Data Warehouse vienen a solucionar estos problemas. En


un Data Warehouse, se definen almacenes de datos informacionales, datos que
son extraídos de los datos operacionales y después transformados para su uso
por parte de los usuarios de negocio. Por ejemplo, mediante los procesos de
aprovisionamiento del Data Warehouse se podrían copiar los datos de venta del
sistema operacional, realizar cálculos con el fin de sumarizarlos e integrarlos de
forma consistente en el Data Warehouse. De esta forma, los analistas pueden
consultar la información en el formato que ellos necesitan, sin impactar en el
rendimiento de los sistemas operacionales.

Figura 2.1: Visión general de un Data Warehouse.

1 A lo largo de la literatura, este término puede encontrarse escrito de diversas


maneras: básicamente como data warehouse o datawarehouse. Su traducción al
castellano pocas veces se realiza, ya que se presta a confusión. En cualquier
caso, es preferible hacerlo como almacén de información, ya que la traducción
literal, almacén de datos, no hace referencia a su naturaleza informacional.

2.2 Los datos de un Data Warehouse

2.2.1 Características de los datos contenidos en un Data Warehouse

Los datos informacionales tienen una serie de características que los diferencian
de los operacionales.

2.2.1.1 Integración

Los datos en un Data Warehouse deben responder a todas las necesidades de la


empresa la forma de hacer que todos los datos sean únicos y para todos es uno
de las ventajas más llamativas del Data Warehouse. Aunque cuando se hable
de datamarts, o repositorios departamentales, hay información que debe ser
compartida a lo largo de todos los departamentos. Esta visión única y horizontal es
un punto clave en la concepción del datawarehouse, implicando una necesaria
integración y homogeneización de toda la información.
Una parte clave de los procesos de aprovisionamiento de un Data Warehouse es
el formateo y unificación de los datos. Cada uno de ellos debe tener una
descripción y una codificación únicas, perfectamente documentadas, tanto para el
usuario técnico como de negocio. Normalmente, las fases de integración y
consolidación de datos requieren la mayor parte de los esfuerzos de construcción
del Data Warehouse.

Figura 2.2: Carga de datos en un Data Warehouse.

2.2.1.2 Profundidad

A diferencia de un sistema operacional, el cual es actualizado; los Data


Warehouse raramente tiene actualizaciones debido a que tienen que mantener los
valores de los datos por largas fracciones de tiempo.

En un datawarehouse, las operaciones de actualización sobre la base de datos


son más bien escasas, por no decir nulas. Desde el punto de vista de las
consultas, es fundamental que los valores que han tomado los datos a lo largo del
tiempo se mantengan y, al mismo tiempo, el acceso a un valor temporal sea algo
fácil para los usuarios.

Esta falta de volatilidad de los datos del Data Warehouse condiciona


enormemente su ajuste de cara al rendimiento. En este sentido, el Data
Warehouse puede optimizarse de cara al uso que harán los usuarios,
fundamentalmente consultas, y el que harán los encargados de mantenimiento,
básicamente inserciones periódicas y planificadas de nuevos datos.
Evidentemente, la fase de carga inicial de los datos requerirá otros ajustes, pero
los requerimientos del sistema en fase de producción serán otros.

2.2.1.3 Detalle

La cantidad de datos que puede llegar a almacenar un Data Warehouse es muy


grande, principalmente por su carácter corporativo y por la profundidad histórica
requerida. En este sentido, el nivel de detalle de los datos no será necesariamente
igual al del sistema operacional.

Es frecuente que los datos insertados sean sometidos previamente a un proceso


de agregación pero, en cualquier caso, las características de este dependerán de
los análisis que realizarán los usuarios finales. Por ejemplo, una cadena de
supermercados puede tener almacenados los datos a nivel de transacción,
conservando sólo el código de cliente, la fecha, el importe y el número de artículos
comprados, o bien, por que está interesado en efectuar análisis de asociaciones
entre productos, conservar los diferentes artículos comprados.
Los niveles de agregación y los niveles de análisis y busquedas que realizaran los
usuarios serán los mas tomados en cuanto al desarrollar un Data Warehouse, ya
que si estos están mal o no están en su totalidad limitarían de gran manera la
eficiencia del Data Warehouse. En este sentido, es vital que el nivel de agregación
esté perfectamente documentado; de lo contrario, el acceso, la comprensión y la
navegación por la información será muy costosa para los usuarios.

Figura 2.3: Características principales de un Data Mart.

2.2.2 Data Marts

Un Data Mart es una base de datos separada del Data Warehouse; en ocasiones
consiste en un subconjunto del Data Warehouse en la misma base de datos.
Desde un punto de vista más funcional, el Data Mart es una vista del Data
Warehouse orientada a un aspecto concreto del negocio: marketing, compras,
dirección general, etc.

Los Data Mart contienen menos datos y solo están especificados para un objetivo
en la organización; esto hace que tenga menos usuarios, menos actualizaciones y
menos restricciones para su construcción; haciendo que sean más baratos que
un Data Warehouse.

Por las características de los datamarts de contener mucha menos cantidad de


datos que el datawarehouse es el objeto del procesamiento analítico por parte de
los usuarios finales. Por esto, en un entorno de datawarehouse corporativo,
habrá datamarts que se ajusten a distintos aspectos y usuarios de la organización,
pero lo que es fundamental es la integración de todos bajo una única estructura
corporativa.

A la hora de construir un datawarehouse existen distintas aproximaciones, pero


básicamente se puede hablar de dos:

 Construir inicialmente el núcleo del Data Warehouse para después utilizarlo


como base para realizar rápidamente muchos Data Mart. En este caso, la
construcción inicial dura más, ya que se debe analizar las necesidades de
datos de toda la empresa, identificando los elementos de información que
se usarán de forma global. La ventaja de esta aproximación radica en que
el esfuerzo inicial facilitará la implementación paulatina de los Data Marts.
 Construir primero un Data Mart específico para un grupo de trabajo. Esta
aproximación pone rápidamente los datos en manos de los usuarios; sin
embargo, el peligro puede surgir a la hora de intentar replicar el esfuerzo
para construir otros Data Marts en especial el Data Mart corporativo.
Sea cual sea la aproximación, es importante resaltar que un conjunto de Data
Marts no constituyen por si solos un Data Warehouse corporativo si no se realiza
un esfuerzo de consolidación e integración de la información que comparten.

2.2.3 El catálogo de un Data Warehouse

Una parte fundamental de un Data Warehouse es el catálogo de metadatos. Los


metadatos son datos sobre los datos, en el sentido que permiten tanto a los
usuarios de negocio como a los encargados del mantenimiento del Data
Warehouse saber en todo momento la definición, características, formato y ámbito
de los datos almacenados en el Data Warehouse. Estos datos que están dentro de
los datos se conocen como metadatos y son esenciales al momento de encontrar
información. En otras palabras, los metadatos agrupan todas las informaciones
respecto al datawarehouse y los procesos que lleva asociados. Estas
informaciones las pueden emplear:

Los que buscarán la información a través de metadatos serán:

 Los usuarios, que estarán interesados en la semántica sobre los datos y su


localización en el Data Warehouse.
 Los responsables de los procesos de transformación de datos del
entorno operacional al Data Warehouse. En este caso se habla
propiamente de metadatos técnicos, que contienen información sobre la
localización de los datos en los sistemas operacionales y la descripción de
las reglas y los procesos de transformación.
 Los responsables de los procesos de agregación de datos a partir de
datos detallados.
 Los responsables de la administración de la base de datos, en lo
referente a la modelización de las estructuras de datos.
 Los responsables de los sistemas operacionales, en cuanto pueden
contener información sobre los procedimientos de carga, el historial de
actualizaciones, etc.

Figura 2.4: Características de un catálogo de un Data Warehouse.

La importancia del catálogo de metadatos es vital de cara a facilitar a los usuarios


el acceso a la información que contiene el datawarehouse, así como para el
mantenimiento técnico del mismo.

2.3 Alineamiento de la tecnología con los objetos de negocio

Aunque la tecnología de datawarehouse madura de forma constante, no existen


muchas indicaciones teóricas sobre lo que mejor se adapta a cada caso. En este
sentido, la experiencia y la evolución de las situaciones son el mejor fundamento
sobre el que basar cualquier iniciativa de implementación. Existen diferentes
criterios que se deberían contemplar en la implementación de un Data Warehouse,
pero básicamente se pueden agrupar en cuatro categorías:

- Criterios de negocio.

- Criterios de proceso.

- Criterios tecnológicos.

- Criterios de la determinación de requerimientos de la información.

2.3.1 Criterios de negocio

El primer conjunto de criterios tiene que ver con el problema de negocio que se
debe abordar y los beneficios esperados de la solución que se implemente.

2.3.1.1 Factores críticos de éxito

Se entenderá por factor crítico de éxito aquella


característica necesaria a cumplir para garantizar que
no habrá un fracaso. Su cumplimiento acerca al éxito,
pero su incumplimiento no conduce al éxito.

Ningún proyecto tecnológico será satisfactorio si no está debidamente alineado


con la misión del negocio, su visión global, sus objetivos o en su estrategia, Por
ello, es de vital importancia comprender los puntos estratégicos que se deben
plantear:

 ¿Cuál es el problema que se quiere resolver? ¿Está relacionado con el ciclo


temporal de los procesos, la satisfacción de los clientes, la optimización de
la toma de decisiones, o con una falta generalizada de información sobre la
que basar la toma de decisiones?
 ¿Cuál son los objetivos departamentales o corporativos que están
directamente relacionados con el problema?
 ¿Cuáles son los factores críticos para el éxito de la solución, es decir, qué
cosas tienen que ser realizadas correctamente para resolver el problema?
 ¿Cuál de los componentes de la organización está mejor posicionado para
resolver el problema?
 ¿Quiénes usarán dentro de la organización de forma más efectiva la nueva
tecnología y cómo (ejecutivos, analistas financieros, ingenieros, usuarios
administrativos, etc.)? ¿Por qué la necesitan y qué beneficios obtendrán de
ella?
 ¿Cómo puede emplearse esta tecnología para resolver el problema? Éste
es el punto en que deben alinearse las necesidades de negocio y la
tecnología.

Ejemplo de factores en una implementación

Según Lindsey & Frolick (2002)1 aproximadamente 3000 proyectos de Data


Warehousing se realizan alrededor del mundo y aproximadamente un 70% de
estos fracasan aunque desde 1995 se tenga conocimiento documentado
únicamente de 17 fracasos. Una posible discrepancia de estas estadísticas es
según Lindsey & Frolick la definición de lo que es una fracaso en un proyecto
de Data Warehouse; ellos proponen una definición estándar la misma que pueda
ser utilizada, tal es así que proponen que un fracaso de un proyecto de Data
Warehouse es la cancelación formal o informal de un proyecto o también como
la condición ene donde el proyecto de Data Warehouse terminado no cumple
con las expectativas de la organización.

Emprender un proyecto de Data Warehousing lleva consigo un alto riesgo y


adicionalmente un costo bastante importante para las empresas. La razón más
común de fracaso de los proyectos de Data Warehouseradica en un pobre
apoyo por parte de los directivos de las empresas, insuficiencia de fondos, un
involucramiento inadecuado de los usuarios, y por último cambios en las
políticas organizacionales.

El éxito o fracaso en la implementación de un sistema de Business


Warehouse depende de factores tales como:

 Soporte de los directores, está considerado como uno de los más


importantes factores que inciden directamente en el éxito de la
implementación de un Data Warehouse. El efecto que produce dentro de
las organizaciones es el de motivar a la misma y apoyarla sin importar los
cambios que esta nueva herramienta traiga consigo dentro de la
organización.
 Champion, es el encargado de promover la nueva aplicación; entre sus
funciones están las de apoyar consiguiendo la información necesaria,
recursos y lo más importante es el nexo político entre el proyecto y la
organización.
 Recursos, esto se refiere a recursos monetarios, humanos y de tiempo
que son de suma importancia para completar exitosamente un proyecto
de Data Warehouse.
 Participación activa de los usuarios, se refiere a brindarles la oportunidad
de adquirir un rol más activo dentro de la implementación del proyecto;
esto es a través de la asignación de responsabilidades específicas dentro
de la ejecución del proyecto. Asegurar la participación de los usuarios en
un proyecto de Data Warehouse se asegura que estos a su vez tengan
una visión mas clara de los beneficios que les traerá la nueva
herramienta.
 Las habilidades del equipo, los integrantes del equipo encargado de la
implementación del nuevo Data Warehouse son la pieza más importante;
las habilidades del equipo incluyen las técnicas y las interpersonales.
 Los sistemas de donde se extraerá la información hacia el Data
Warehouse juegan un papel preponderante dentro de lo que es la
implementación de un Data Warehouse. A mayor heterogeneidad en las
fuentes de datos los esfuerzos para la extracción y transformación serán
considerablemente mayores.
 La tecnología existente, se refiere al software, hardware, métodos y
programas utilizados en el proyecto. Es necesario que el equipo este bien
familiarizado con las herramientas que está utilizando el proyecto; tener
herramientas complejas y difíciles de entender inciden en el desempeño
general del equipo, retrasos y muy posiblemente un Data Warehouse de
pobre calidad.

Implementar un Data Warehouse exige por parte de las empresas un


compromiso financiero y de recursos humanos; tener los recursos necesarios,
los miembros del equipo apropiados y la participación del usuario final tienen un
efecto muy positivo en el resultado final del proyecto.

1 Fuente: Lindsey, K. & Frolick, M.N. (2002). Critical factors of Data Warehousing
failures. Journal of Data Warehousing.

2.3.1.2 Cuantificación de los beneficios

Una vez que los beneficios tecnológicos han sido alineados con los objetivos de
negocio estos deben ser cuantificados. Según (Watson & Haley, 1997) 1 el costo
de este tipo de proyectos es de alrededor de $1 millón solo en el primer año. Por
esta razón los gestores deben ser capaces de responder a la pregunta: ¿Cómo
sabré si la adopción de una determinada solución será beneficiosa? La respuesta
debe tener la forma: "la solución será exitosa si permite a la organización
conseguir los siguientes objetivos...". Además debe tener números, cuando a
alguien se le propone una solución que necesita una inversión grande lo primero
que va a preguntar es: ¿Qué gano yo? ¿Cuánto gano yo?

En la mayoría de las organizaciones, la cuantificación de los beneficios adquiere


forma de análisis financiero, en forma de análisis del retorno de la inversión. Un
estudio de la International Data Corporation, copatrocinado por IBM, mostró que la
adopción de soluciones de Data Warehouse puede producir cifras de ROI
realmente importantes. El estudio, que incluía 62 participantes, demostró que el
ROI global en proyectos de Data Warehouse era del 401%, con periodos de
amortización de entre dos y tres años.

Lo que era especialmente interesante del estudio, sin embargo, era que las
implementaciones departamentales pequeñas, los Data Marts, tenían un ROI del
533%, mientras que la soluciones corporativas lo tenían del 322%.

Figura 2.5: Retorno de la inversión en soluciones de Data Warehouse.

Figura 2.6: Ejemplo de impacto del ROI en un negocio (Datawarehousecom,


2017).

El estudio del IDC identificó tres tipos de beneficios derivados del uso de un Data
Warehouse:

 Beneficios derivados de la reducción de costes.

Estos beneficios residían en la capacidad de no gastar dinero que


actualmente se dedica a la generación de informes para los usuarios
finales. Esto incluye los recursos dedicados por los departamentos de
tecnologías de la información para generar respuestas a consultas libres de
los usuarios. En muchos sentidos, el Data Warehouserepresenta una
liberación para estos departamentos, ya que proporciona a los usuarios las
herramientas que necesitan para generar sus propios informes.
 Ganancias en eficiencia.

Una de las cosas más evidentes es el aumento de la productividad en los


usuarios finales que acceden y analizan los datos. El analista que debe
interrumpir un análisis para obtener cierta información, solicitándosela a
alguien, pierde eficacia en dos sentidos. El primero está en el círculo
descrito anteriormente, donde habrá varias solicitudes y respuestas entre el
analista y los técnicos de informática antes de que el primero vea
satisfechas sus necesidades. El segundo reside en la interrupción del
análisis, y las ineficacias asociadas al proceso de recuperación y
terminación del mismo. Además que ahora la información que se obtiene
ahora es mucho mas precisa, permitiendo mejorar la toma de decisiones.
 Ahorros dependientes del propio Data Warehouse.

Hay un considerable número de decisiones basadas en análisis que sólo


podrían venir de datos residentes en un Data Warehouse. Esto viene
condicionado por la circunstancia de que en los sistemas operacionales
pudieran no existir ciertas relaciones entre los datos y, por lo tanto, no
estarían disponibles para el análisis. Construyendo las asociaciones y
relaciones requeridas en el Data Warehouse se llega a una situación en la
que el todo es más grande que la suma de las partes, de forma que los
análisis serán más efectivos.

Pero no todos los beneficios se pueden cuantificar en términos de ROI. Muchas


empresas rechazan los análisis formales de ROI por que consideran que un Data
Warehousees una inversión estratégica. En estos casos, las organizaciones están
previamente convencidas de que los beneficios serán superiores a los costes. Sin
embargo, es importante tener una comprensión previa de los costes asociados a
un proyecto de este tipo antes de embarcarse en él.

Para clarificar y entender mejor los beneficios de negocios esperados de la


implementación de un Data Warehouse es oportuno introducir aquí el concepto de
sistema de soporte a la decisión. Por si sólo, un Data Warehouse contiene
simplemente datos. Su aprovechamiento y acceso por parte de los usuarios se
consigue cuando se explotan estos datos mediante un entorno de aplicaciones
que se adapta a los requerimientos de los análisis (similar a como haría un DSS)2.

Cuestiones sobre la medición del ROI

La dirección de una empresa requiere conocer el valor de su DW con


instrumentos cuantificables como el ROI1, ver más abajo la fuente), no obstante
su cálculo requiere tener presente algunos temas:

- Justificación del costo. Muchos proyectos de DW son implementados sin hacer


estimaciones de los beneficios potenciales.
- Costos del DW. A menudo se incluyen costes técnicamente inportantes, pero
no de negocio, como hardware, software, consultores y contratistas, redes de
comunicaciones, capacitación de personas informáticos y usuarios, y
administración de los sistemas operativos y de gestión, dejando fuera otros,
como cambios por reingniería, despidos y contrataciones, etc.
- Total cost of ownership (TCO). El TCO vá más allá de la implantación. Por
ejemplo, el coste anual de mantener un DW va del 40% al 60% del coste inicial.
- Beneficios. Un DW ouede entregar beneficios sustanciales tanto tangibles
como intangibles. Pero medirlos son un reto, por ello se requieren personas
experimentadas y seguir buenas prácticas.
- Medición post-implementación. Costos y beneficios de la post implementación
son cruciales pues ayudan a determinar y fijar objetivos futuros, mejorar
estimaciones de coste y propuestas de expansión y mejora.
- Cálculo del ROI. El cálculo del ROI es sencillo y podría incluir el coste de
capital y de riesgo asociado con el proyecto. Por esto se sufiere usar otros
métodos.

1 Ver: Adelman, Sid. (2003). Measuring Dataware Measurement Return on


Investment.
http://www.teradata.com/t/pdf.aspx?a=83673&b=86833

Tabla 2.1. Cuestiones sobre la medición del ROI3.

1 Fuente: Bárbara, Wixom.; Paul, Gray.; Hugh, J, Watson. (2001). Data


Warehousing and Business Intelligence. Pág.18.
2 En los siguientes capítulos se plantearan las distintas herramientas que pueden

explotar de forma efectiva todo el entorno integrado de información, ya sea a nivel


de consultas y verificación de hipótesis, o bien mediante soluciones para el
descubrimiento de patrones y tendencias subyacentes en los datos.
3 Fuente: Adaptación de http://www.teradata.com/t/page/86896/index.html

2.3.2 Criterios de proceso

Un cierto número de los elementos de una estrategia de Data Warehouse tiene


que ver con los procesos; los procesos mediante los cuales la estrategia será
implementada, y los procesos que son soportados por la estrategia global.

2.3.2.1 Alcance del esfuerzo

Muchos grandes proyectos de Data Warehouse han fracasado debido a la


incapacidad de la organización para manejar el tamaño y el alcance del proyecto.
Es tentador pensar en un único repositorio donde todos los datos corporativos
estén integrados; si la organización puede realmente construir un modelo de datos
integrado y resolver todas las cuestiones asociadas con tal arquitectura, los
beneficios serán verdaderamente significativos.

Sin lugar a dudas, algunos problemas de negocio requieren la integración de datos


procedentes de muchos sistemas, requiriéndose una estrategia global pero, para
muchos otros una estrategia más sencillas, basada en Data Marts, será menos
arriesgada. Una aproximación basada en Data Marts es, por definición, más
pequeña en cuanto a su alcance, más centrada en sus objetivos, más rápida de
implementar y menos costosa. Sin embargo, el riesgo radica en la construcción
de islas de datos. Idealmente, existe la necesidad de pensar globalmente sobre
la futura integración con otras aplicaciones departamentales, no en soluciones
aisladas.

Los Data Marts constituyen una alternativa rápida y menos costosa para
implementar un sistema informacional. Sin embargo, si una organización
determina que un Data Warehouse corporativo es la estrategia apropiada, debería
comenzar por desarrollar una estrategia global.

2.3.2.2 Diversas aproximaciones de la implementación

Decidir si la opción apropiada para una empresa es un Data Warehouse o un Data


Mart es el punto de partida idóneo. Sin embargo, debe estar acompañada por la
decisión de si comprar un paquete integrado de un único proveedor de soluciones,
contratar a un integrador de sistemas para consolidar una colección de
herramientas específicas, o crear una solución a medida. La ventaja obvia de
contratar a una organización que pueda proporcionar una solución completa es,
por su puesto, una implementación más rápida, un cumplimiento de los objetivos
de negocio más ajustado, y una mayor certeza de que las cosas finalmente
funcionarán como se espera (un menor riesgo desde el punto de vista
tecnológico).

Evidentemente, estas ventajas tienen un coste asociado y, con toda probabilidad,


será este el que condicione el tipo de implementación que se realizará. El
problema de la integración de diversas herramientas radica, en ocasiones, en lo
dependencia y compatibilidad entre ellas, sobre todo cuando se lanzan al mercado
nuevas versiones que incorporan ventajas apetecibles. Sin embargo, de existir,
este es un problema genérico, no imputable exclusivamente a la implantación de
un Data Warehouse.

2.3.2.3 Diversas aproximaciones en el diseño

El diseño y la construcción de una solución de Data Warehouse se lo puede


enfocar hacia dos posibles aproximaciones:
 Top-down, en la cual se define una arquitectura corporativa y después se
construyen los Data Marts que la componen.
 Bottom-up, comenzando con proyectos específicos de Data Mart en
función de necesidades críticas de negocio, e ir creciendo hasta llegar a
una estructura informacional corporativa.

La implementación de una de las dos aproximaciones depende de la decisión de


prefereir dar respuesta a requerimientos tácticos de tamaño reducido, necesidades
departamentales concretas, o estrategias corporativas a largo plazo.
Probablemente, a largo plazo, la aproximación top-down dará los mejores
resultados, pero implica involucrar importantes recursos de la organización. Es
una aproximación complicada, cara, y que implica un importante replanteamiento a
la concepción del negocio.

Por el contrario, la aproximación bottom-up favorece el uso de Data Marts más


pequeños, en los cuales se pueden evitar los inconvenientes del diseño top-
down, limitando simplemente la extensión de la implementación. Aquí, cada
departamento es responsable del diseño de los datos que necesita, la definición
de sus propios metadatos, y el uso de su propio repositorio de información. Esta
aproximación funciona especialmente bien si la organización tiene un problema de
negocio con un único foco y los datos para solucionarlo existen en unas pocas
ubicaciones.

A modo ilustrativo, la figura 2.7 muestra el proceso genérico de implantación de


un Data Mart departamental.

Figura 2.7: Fases genéricas de implementación de un Data Warehouse.

2.3.3 Criterios tecnológicos

La dimensión tecnológica juegan un papel principal en la estrategia corporativa.


Diferentes estrategias requerirán diferentes características tecnológicas y
capacidades. En este sentido, además de la flexibilidad y la rapidez de la
implementación, hay otros puntos que se deben considerar.

2.3.3.1 Escalabilidad

La escalabilidad se refiere a la habilidad de un sistema para aumentar su


capacidad a medida que los usuarios demandan más información, el volumen de
datos almacenados crece, más usuarios explotan el sistema y más aplicaciones se
ejecutan contra el Data Warehouse.

Un punto a tener en cuenta es que, a medida que los usuarios se familiarizan con
el sistema, su propia habilidad para lanzar nuevas consultas y navegar por la
información provocará que pidan más de él. Es decir, la escalabilidad es un
requerimiento ligado al propio uso de la solución. Todos los factores que puedan
provocar un aumento en la carga de proceso del sistema deben ser considerados
a la hora de determinar la plataforma tecnológica adecuada. Las empresas que
adquieran tecnología de Data Warehousenecesitan asegurarse que ésta puede
crecer a medida que lo hacen las necesidades corporativas.

2.3.3.2 Gestión

Un Data Warehouse necesita el desarrollo y la implementación de nuevos


procesos y herramientas para gestionar la extracción y la transformación de los
datos operacionales, la administración de los usuarios, etc. En el curso del
desarrollo de un Data Warehouse, deben ser tomadas un número considerable de
decisiones ligadas a la gestión operativa del mismo. Por ejemplo:

 ¿Con qué frecuencia se efectuarán las cargas y transformaciones sobre los


datos: diariamente, semanalmente?
 ¿Cuántos datos compondrán cada carga y cuánto durará ésta? ¿Cuánto
tiempo tardará el sistema en recalcular los índices, la actualización de
metadatos y otras tareas administrativas?
 ¿Cómo se efectuarán las tareas de copia de seguridad?

2.3.3.3 Rendimiento

El último árbitro en el éxito o fracaso del proyecto será el rendimiento del sistema.
Un Data Warehouse tiene que ayudar a los usuarios a realizar su trabajo de forma
más efectiva y eficiente. Si los tiempos de respuesta no son los adecuados, los
usuarios no utilizarán el sistema, la empresa no sacará beneficio de la inversión, y
el proyecto podría tener un ROI negativo. Por estos motivos, la dimensión
tecnológica del rendimiento debe ser tenida muy en cuenta en el desarrollo de la
estrategia global.

La arquitectura de hardware y la arquitectura de la base de datos impactan


directamente en el rendimiento de un sistema. En ambos sentidos es importante
considerar opciones de paralelismo, ya que su impacto en el rendimiento
proporcionará con seguridad beneficios importantes.

2.3.4 Criterios de la determinación de los requerimientos de la información

La determinación de cuales son los requerimientos de información de la


organización ha sido siempre considerada como uno de los elementos críticos
dentro del proceso de diseño y desarrollo de aplicaciones de software; es en esta
fase en donde existe la mayor interacción entre el diseñador de la aplicación y el
usuario final.
Por otro lado recordemos que las aplicaciones de Data Warehouse son
plataformas tecnológicas en donde se integra toda la información histórica de una
empresa, la misma que en muchos casos proviene de diferentes fuentes
heterogéneas.

Ahora bien un Data Warehouse entre sus principales características aparte de la


integración y su no volatilidad es la de la variación en el tiempo, éste último hace
que tenga mucho más impacto, el cómo debe ser recolectada la información y
almacenada; es por esto, que la estructura de la información que se encuentra a
nivel de un sistema transaccional es completamente diferente al que encontramos
en un Data Warehouse.

Típicamente un Data Warehouse contiene información histórica de algunos años,


con esto estamos diciendo que la variable (tiempo) se encuentra presente en las
estructuras claves de un Data Warehouse ya se de forma implícita o explícita, por
ejemplo días, meses, años, trimestre, semestre, etc. Normalmente esta variable "el
tiempo" está presente en todas las consultas que se ejecutan contra el Data
Warehouse; es decir es la base de cualquier consulta que se realice al Data
Warehouse.

A los Data Warehouse se los puede comparar con "fotos instantáneas" de la


realidad de la organización en un período de tiempo determinado, estas "fotos
instantáneas" son el reflejo de lo que pasaba en ese preciso momento en el
negocio, las mismas son (o por lo menos deberían ser) únicas y no estar sujetas a
continuas actualizaciones ya que esto no permitirá tener un análisis de la realidad
de la empresa1.

Con todo esto lo que se puede deducir es que existen diferencias importantes en
cuales son los requerimientos de datos entre los sistemas transaccionales y
los Data Warehouse, las mismas que tienen un impacto importante en el diseño de
los Data Warehouse; entre las que podemos citar están las presentadas a
continuación.

 Tener una visión integral del negocio asegura que toda la información
necesaria este disponible, con esto el producto final (aplicación) cumplirá
los objetivos planteados obteniendo la información que se necesita y en el
formato adecuado; permitiendo ejecutar muchas consultas de diferentes
características. De ahí la importancia que en la fase inicial de determinación
de requerimientos de un Data Warehouse involucrar a personas con
un excelente conocimiento del negocio; esto complementado con una
metodología que permita evaluar diferentes escenarios del negocio
permitirá tener un buen diseño de la aplicación.

 Evitar cambiar constantemente el modelo de datos, esto es algo bastante


complejo en cualquier aplicación y mucho mas en un Data Warehouse y es
básicamente por dos razones: (1) el modelo de datos en un Data
Warehouse es mucho más complejo, y (2) el desempeño de las consultas
se deteriora considerablemente debido a que los Data Warehouse realizan
consultas a grandes cantidades de datos.

 Involucrar a los usuarios finales es muy importante durante la etapa de


definición de los requerimientos del sistema. Las actitudes de los usuarios a
los sistemas y su desempeño están muy influencias por la medida en la que
haya sido involucrado en el desarrollo del sistema. A diferencia de una
aplicación transaccional los Data Warehouse de una mayor participación de
los usuarios en la etapa de determinación de requerimientos; cuando se
habla de usuarios se refiere a los usuarios de todos los niveles tales como
usuarios de los datos hasta los responsables en la toma de decisiones.

 Asegurarse que toda la información que poseen los miembros del equipo
sea considerada, con esto se refiere a que en muchos casos los miembros
del equipo obvian mencionar algo que ellos piensa que es muy propio de su
unidad o departamento y que piensan que no agregará valor dentro de lo
que es el diseño de la aplicación; esta información no revelada puede ser
valiosa para validar el modelo ya que en muchos casos es usada en varias
áreas de la empresa sin saberlo.

 También es muy importante que los directores de la empresa y los usuarios


finales tengan bien clara la complejidad de construir un Data Warehouse y
el tiempo que conlleva hacerlo especialmente al obtener los datos. En
muchos casos esta es la parte más demorada debido a la heterogeneidad
de las fuentes de datos, el planear cuanto se demorará transformar estos
datos en el formato del Data Warehouse no es una ciencia exacta y es por
esto que los directores deben tener bien claro que esto puede afectar el
tiempo de implementación de la aplicación.

 Evitar que la información provista por el Data Warehouse este sujeta a


interpretaciones erróneas, esto es común a medida que la aplicación va
siendo introducida dentro de la empresa. Es recomendable que se provea
de ejemplos de tal manera que los mismos responsables del negocio la
validen.

 Es muy importante tener el apoyo de un ejecutivo de la organización, está


muy claro que los miembros del departamento de IT son claves en el
desarrollo del Data Warehouse ya que son ellos los que ayudarán a la
organización a plasmar todo dentro del Data Warehouse, pero también es
verdad que los de IT no son los que deberían diferenciar si al encontrar
algún inconveniente este proviene de un área en especial de la empresa, es
aquí donde entra en juego el ejecutivo de la organización, ellos son los
llamados a dar estas prioridades y a solventar las dificultades dando los
lineamientos necesarios para solucionar los inconvenientes. Otro aspecto
importante de la participación de un gerente de la empresa por ejemplo es
que ellos puedan proveer de datos o información que posiblemente en ese
momento no va a ser utilizada pero que en un futuro muy cercano pueda
ser de gran utilidad.

 El último y tal vez el mas complicado de aplicar es el de poder diferenciar


que es realmente útil para la empresa dentro de una aplicación de Data
Warehouse. El hecho de que se recomienda una mayor participación de los
usuarios de la aplicación en la definición de las necesidades de información
hace que en muchos casos se tenga una lista muy extensa de
"necesidades", hay que saber diferenciar entre estas necesidades lo que
realmente agrega valor a la organización y que es de utilidad para todos.

1En muchos casos el cambiar una información del Data Warehouse puede ser
considerado falto de ética o hasta ilegal.

Capítulo 3.- Data warehouse: herramientas de verificación y técnicas de


descubrimiento de información

OBJETIVOS

- Conocer las distintas aproximaciones para la explotación de un Data


Warehouse.

- Conocer los fundamentos de los procesos de verificación de hipótesis.

- Reconocer las características principales de las herramientas de consultas e


informes.

- Identificar los tipos de consultas y su planificación.

- Reconocer las herramientas de análisis multidimensional: introducción a la


tecnología OLAP.

- Identificar las características de las bases de datos multidimensionales.


- Descubrir las ventajas que aporta OLAP frente a otras técnicas.

- Descubrir la información referente a la verificación de hipótesis: objetivos de la


minería de datos.

- Reconocer las diferencias entre las técnicas estadísticas y la minería de datos.

- Conocer las técnicas, operaciones y aplicaciones de minería de datos, y tipos


de análisis por sectores.

3.1 Introducción

Un SIATD permite no solo construir, validar y refinar modelos aplicándolos a datos


extraídos a partir de la base de datos propia del sistema, de la base de datos
corporativa de la organización o de otros suministradores externos de datos.
También incluye las herramientas necesarias para representar estos datos o los
resultados de las aplicaciones de los modelos, según diferentes formas gráficas.
Esto lo podemos ver con más claridad en la figura 3.1 en donde se presenta la
arquitectura típica de un sistema de apoyo a la toma de decisiones.

Figura 3.1: Arquitectura típica de n SIATD.

La diversidad de fuentes de información de las que se alimentan los SIATD provee


una excelente oportunidad para explotar y dar un soporte efectivo a las decisiones
empresariales; para esto, se plantea el uso de dos tipos de herramientas:

 Herramientas de verificación de hipótesis, donde se busca, analiza y


presenta información resultante de un proceso de consulta, más o menos
complejo y extenso.

 Herramientas de descubrimiento de información, donde se pretende


extraer conocimiento sobre patrones, tendencias y características ocultas
dentro de los datos.
En el primer caso, el son básicamente de herramientas de consulta e informes
(query & reporting) y herramientas de análisis multidimensional. En el segundo
caso se refiere a herramientas de minería de datos (Data Mining).

3.2 Herramientas de verificación

3.2.1 Funcionalidades y beneficios

Las herramientas de verificación de hipótesis permiten consultar información de


interés la misma que se encuentra estructurada en un Data Warehouse, estas
consultas permiten:

 Dar soluciones analíticas para áreas funcionales del negocio

- Por medio de la exploración interactiva de los datos en términos de


negocio.

- A través del procesado de consultas multidimensionales que calculan,


consolidan y recuperan información cambiante en el tiempo.

 Explorar los datos según las necesidades

- Facilitando la comprensión del negocio mediante informes (¿Qué ha


pasado?), planificación (¿Qué pasaría si?) y predicción (¿Qué vendrá
después?)

- En el contexto del e-business, permiten mediar la efectividad de los sitios


Web, analizando la información generada de forma efectiva e integrándola
con aquella proveniente de otros canales de venta.

- Explotando y consolidando los resultados de los procesos de minería de


datos, incorporando nuevas métricas.

 Visualizaciones dinámicas a través de informes inteligentes

- Generando informes para la presentación y publicación de resultados


complementándose con otras soluciones analíticas.

3.2.2 Herramientas de consulta e informes

Dentro de las herramientas de verificación de hipótesis, las soluciones más


sencillas son las de consulta e informes. Como su propio nombre indica, la
funcionalidad de estas herramientas reside en dos características principales:

 Capacidad para realizar consultas de forma sencilla.


La idea de estas soluciones es enmascarar la dificultad de acceso a los
datos en términos de lenguajes de consulta (SQL) al usuario final. Este no
tiene que ser un especialista en bases de datos; uno de los principales
inconvenientes de la explotación de la información en los sistemas
operacionales es que los usuarios de negocio necesitan técnicos del
departamento de tecnologías de la información para que les hagan las
consultas. En este sentido, lo que hacen estas herramientas es crear una
especie de capa semántica entre los datos y el usuario de forma que este
puede interrogar al Data Warehouse en términos de negocio.
 Capacidad para generar informes.

Consiste en presentar los resultados de una consulta empleando distintos


tipos de plantillas, ya sean predefinidas o creadas por el usuario. Además,
permiten automatizar el proceso, pudiéndose predefinir la ejecución
periódica tanto de la consulta como del informe.

3.2.2.1 Fases del proceso de consulta

Con independencia de las características que presenten unas u otras


herramientas del mercado, un proceso de consulta está formado por cinco fases
fundamentales:

 Definición de la consulta. Aunque pueda parecer obvio decirlo,


necesitamos algún tipo de información que queremos recuperar del Data
Warehouse1. Esto es importante en cuanto marca la principal diferencia
entre las herramientas de verificación de hipótesis y las de descubrimiento
de información. Para el caso de las herramientas de verificación de
hipótesis es necesario disponer de una hipótesis que se quiere verificar. Por
ejemplo, si las ventas de determinados productos en la región A han sido
superiores a las de la región B en el primer semestre del año.
Normalmente, una respuesta sencilla un SI o un NO escueto no son de
mucha utilidad.
Lo que las empresas desean es resultados por región para cada familia de
productos. Pero éste tipo de consultas requieren en de conocimientos
técnicos profundos que los encargados de la toma de decisiones
difícilmente poseen. Plantear la consulta anterior en términos de SQL, por
ejemplo, requiere ciertos conocimientos técnicos. Sin embargo, las
soluciones de consulta incorporan una capa semántica, que debe ser
previamente definida en función del modelo de datos subyacente, que
permite, de forma gráfica e intuitiva, definir la consulta empleando lenguaje
natural.
 Acceso a los datos. Comprende la ejecución de la consulta contra el Data
Warehouse, así como la recuperación de los datos resultantes.
 Manipulación y cálculo. A la vista de los resultados, el usuario puede
estar interesado en realizar ciertos cálculos sobre los datos, extrayendo
promedios por región, o definiendo ratios.
 Elaboración del informe. La información recuperada y derivada se
formatea mediante tablas y gráficos.
 Liberación del informe. El informe construido se libera a los usuarios
finales. Es frecuente que se publique dentro de la Intranet corporativa.

En la figura 3.2 se puede observar el flujo del proceso de consulta con cada uno
de los elementos que lo constituyen.

Figura 3.2: Fases del proceso de consulta.

1Hay que decir que con una herramienta de query & reporting se puede atacar
cualquier tipo de base de datos relacional, en el sentido que tanto se pueden
efectuar consultas contra un sistema operacional como contra un datawarehouse.
Por los diferentes motivos expuestos a lo largo de este módulo, la segunda opción
es la preferible.

3.2.2.2 Tipos y planificación de las consultas

Es frecuente que existan cierto tipo de consultas que se haya que repetir con
frecuencia; la información que se está buscando es la misma, así como el formato
final que se le dará. Lo que cambia son los datos de origen sobre los que se
realizará la consulta.

En el día a día de las empresas se ejecutan una gran variedad de consultas a una
fuente de datos como por ejemplo un Data Warehouse, esto nos hace pensar que
en muchos casos estas consultas son muy similares unas de otras, o en otros
casos las consultas son esporádicas o simplemente generados para determinados
momentos dentro de la organización, por ejemplo un cierre de año de ventas. Es
por esto que es necesario categorizar los diferentes tipos de consultas que se
realizan con el fin de poder planear su ejecución, tiempos de procesamiento y
formatos de presentación.

Para este tipo de consultas, no es necesario que el usuario repita el mismo


proceso cada vez. Son consultas empaquetadas que, por decirlo de alguna
manera, se ejecutan solas. Es decir, se definen e introducen dentro de un
programador de tareas que se encarga de ejecutarlas cuando sea requerido: al
inicio de cada mes, para estudios de inventario, o al cierre del trimestre, para
obtener de forma automática cuales han sido los resultados de las ventas.

Es por esto que existen básicamente los siguientes tipos de consultas:


 Consultas empaquetadas.
Se ejecutan periódicamente, sin necesidad de intervención del usuario.
Desde el punto de vista del administrador del Data Warehouse la carga de
proceso que suponen es estable ya que siempre consumen lo mismo. Esto
es importante, ya que permite planificar su ejecución y ubicación en función
de los tiempos de proceso consumidos y de la carga del sistema.

Figura 3.3: Uso de las herramientas de consulta.

 Consultas ad-hoc.
Son consultas recurrentes y aleatorias, en el sentido en que responden a
necesidades de información concretas. La carga de proceso es variable e
impredecible, en este sentido, y cuando estas consultas provienen de los
usuarios finales, hay que tener cuidado con los tiempos de proceso que
requieren, ya que en función del número podría llegar a colapsar el sistema.

Cuando se diseña y dimensiona un Data Warehouse, es muy importante analizar


de antemano el uso que se hará de él. Ya no sólo en términos de número de
usuarios concurrentes que accederán a su información, sino del tipo de consultas
que estos quieran realizar. No es lo mismo efectuar un número considerable de
consultas empaquetas, cuya carga de proceso es conocida y puede ser
planificada dentro del uso del sistema, a realizar algunas consultas ad-hoc en
donde la carga del sistema no se la puede preestablecer debido a la diversidad de
posibilidades de consulta.

3.2.3 Herramientas de análisis multidimensional

Aunque facilitan enormemente el trabajo y la recuperación de los datos, las


herramientas de consulta y reporte no permiten un análisis exhaustivo de la
información ya que son herramientas de acceso estático y de consultas
relativamente sencillas. En el ambiente empresarial existen preguntas más
complejas de negocio a las cuales las herramientas de consulta no pueden dar
respuesta. Por ejemplo: ¿Cuál es margen obtenido para el tercer trimestre a lo
largo de la región sudeste para mis familias de productos? La complejidad no está
en la pregunta en sí, sino en las múltiples dimensiones de los datos requeridos,
como tiempo, región o productos. Además, cuando un analista está interesado en
este tipo de información, normalmente necesita cambiar la forma de ver de los
datos con frecuencia. Es decir, en un momento estará interesado en ver los
resultados por región y familia de productos, mientras que en otro, querrá
analizarlos por día y región.

En otras ocasiones es razonable que quiera ver toda la información a distintos


niveles de agregación: región, provincia o municipio, desde el punto de vista
geográfico, o mes, semana, día, etc. Con una herramienta de consulta, si se
quiere cambiar la forma de ver los datos no queda más remedio que replantear la
consulta y volver a lanzarla. Además, la agregación tampoco es uno de sus
fuertes. No hay que olvidar que, cuando se están planteando estas necesidades
de análisis, el analista necesita respuestas rápidas en tiempo real. Es decir, que la
herramienta que le de soporte sea altamente interactiva, permitiéndole efectuar
cambios en la forma de ver y agregar los datos y ver y analizar los resultados de
forma rápida.

Figura 3.4: Dimensiones y hechos en análisis multidimensional.

Una situación muy popular sucedió en una cadena de víveres en USA. Utilizando
una herramienta de análisis multidimensional para estudiar el comportamiento de
sus clientes, encontraron relaciones interesantes entre pañales, cervezas,
hombres, y día de la semana. Encontraron que los días jueves y sábado, los
hombres que compraban pañales también compraban cerveza. Información como
esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar
la mercancía en lugares más estratégicos, en este ejemplo, manteniendo a los
pañales y a las cervezas cercanas unos de otros.

Este tipo de análisis es posible a través de las herramientas de análisis


multidimensional, concretamente las herramientas OLAP (on line analytical
procesing).

Procesado OLAP

 OLAP (On Line Analystical Processing) es una forma de procesado


multidimensional de los datos:
- Vista multidimensional lógica de los datos
 Con independencia de cómo están almacenados
- Análisis multidimensional
 Slice & Dice, pivotado, drill-down, roll-up, etc.
- Motor de cálculo y transformaciones
 Cálculo de estadísticas y agregados a lo largo de distintas
dimensiones
- Soporte de funciones avanzadas
 Predicción, simulación, análisis de tendencias, análisis estadístico
- Herramientas de presentación e informes
 Distintas posibilidades de almacenamiento
- Relacional (ROLAP), multidimensional (MOLAP)

OLAP permite tener la información preempaquetada y estructurada permitiendo un


procesado multidimensional de los datos. Una de sus particularidades es que
previamente la información se agrega de forma sistemática, de forma que el
usuario tiene tiempos de respuesta muy bajos.

Por un lado las aplicaciones de Data Warehouse obtienen información de fuentes


de datos bastante heterogéneas como por ejemplo los sistemas de contabilidad,
producción, almacén; etc. Estos sistemas se los conoce como sistemas OLTP (on
line transaction processing).

OLAP por su parte forma parte de la familia de las aplicaciones de Business


Intelligence; estas permiten la navegación o consulta a través de estructuras de
datos multidimensionales bastante complejas sin llegar hasta la complejidad de
permitir simulaciones.

En la figura 3.5 se gráfica la naturaleza de las herramientas OLAP y su papel


protagónico dentro de los procesos de toma de decisiones en la organización.

Figura 3.5: Naturaleza de una herramienta OLAP (Schwarz, Seifried & Winter,
1998).

3.2.4 Dimensiones y hechos

Los datos relacionales, aquellos manejados por los gestores de bases de datos
convencionales, pueden ser considerados bidimensionales, ya que cada unidad de
dato, denominada hecho, está correlacionada con una fila y una columna, cada
una de las cuales puede ser considerada una dimensión. Una dimensión es una
clasificación de alguna actividad en una organización por la cual se puede medir
su éxito. Por ejemplo, puede monitorear sus ventas contra los productos o clientes
en un periodo de tiempo.

Una característica clave de las aplicaciones OLAP, es que estas dimensiones no


tienden a cambiar a lo largo del tiempo. Adicionalmente OLAP es análisis de
cubos multidimensionales es decir se puede ver un conjunto de datos del negocio
de muchas y diversas formas sin mucho esfuerzo.

Cada dimensión está integrada por componentes individuales,


denominados miembros. Por ejemplo, los trimestres del año pueden considerarse
miembros de la dimensión Tiempo, y los productos individuales pueden ser
miembros de la dimensión Productos. De esta forma, es posible tener jerarquías
de diferentes miembros en las dimensiones, como meses dentro de los trimestres
en la dimensión temporal. Al contrario que las dimensiones, los miembros tienden
a cambiar a lo largo del tiempo. Por ejemplo, a medida que un negocio va
creciendo, la gama de productos tiende a incrementarse e, idealmente, la lista de
clientes hará lo mismo.
Resumiendo, los hechos son los detalles del negocio que se pretenden medir
(ventas, presupuestos, etc.), mientras que las dimensiones representan los ejes a
través de los cuales se quieren medir los hechos (geografías, productos, tiempo,
etc).

Hecho es el dato en sí mismo, los miembros son el


conjunto de datos que describen una dimensión.

3.2.5 Navegación sobre los datos

La ventaja de las herramientas OLAP reside en sus características para navegar


por los datos. Esta facilidad de navegación nos permite:

- La posibilidad de cambiar los ejes de análisis (slice & dice).

- La posibilidad de cambiar de forma interactiva los niveles de agregación (drill


down & roll up).

 Rotar y Rebanar (slice & dice): Rotar es aventar el cubo como si fuera un
dado para obtener una nueva cara del cubo. Rebanar es cambiar el valor
de una dimensión por otro valor, por ejemplo, de las ventas de Enero a las
ventas de Febrero, "Ventas por producto" puede cambiarse fácilmente
a "Ventas por vendedor".
 Taladrar (drill down & roll up): Consiste en abrir los datos de las
dimensiones se con el fin de obtener más detalle; es decir una especie de
taladro que se hunde más en la información. Con esta facilidad es posible
ver información geográfica y luego fácilmente pasar de un continente a un
país y luego a una ciudad en particular.

Estas dos características son las que más claramente definen la tecnología OLAP,
sobre todo por que le confieren sus características de interactividad. Por ejemplo:

- En drill down, el usuario puede analizar sus ventas por continente, bajar a nivel
de región, país, etc.

- Mientras en slice & dice, además, puede cambiar los ejes de búsqueda para
analizar sus ventas mensuales respecto a las diferentes marcas de productos,
observando la cifra de negocio y examinando después los márgenes derivados.

Las herramientas OLAP permiten realizar estos cambios en la forma de analizar


los datos de forma intuitiva y gráfica. El usuario puede pasar de un análisis a otro
sin tener que definir nuevas consultas. Esta es la principal característica que
diferencia el OLAP respecto a las herramientas de consulta más convencionales.
Sin embargo, las soluciones OLAP presentan algunos problemas. El principal está
derivado de su aproximación propietaria, debido a que cada herramienta tiene su
propio modelo de almacenamiento de los datos. El segundo problema es que el
volumen de datos alcanza rápidamente un tamaño importante. Para garantizar una
interactividad total en todo el proceso, estas herramientas preempaquetan y
precalculan las informaciones en todas las intersecciones de la estructura
multidimensional, normalmente denominada cubo. Esta particularidad genera
grandes volúmenes de datos el mismo que aumenta de forma exponencial con el
número de usuarios, ya que cuando los puntos de vista sobre la información se
multiplican, deben crearse nuevos ejes de análisis para responder a las distintas
peticiones generando nuevos datos calculados y agregados.

En la figura 3.6 se presentan las características de las herramientas de análisis


multidimencional.

Figura 3.6: Características de las herramientas de análisis multidimencional.

3.2.6 Arquitecturas OLAP

Una vez decidido emplear un entorno de consulta OLAP, se debe de elegir


entre R-OLAP y M-OLAP. En ambos la interfaz de la capa analítica es
básicamente la misma siendo el almacenamiento físico su diferencia.

 R-OLAP (relational on line analytical processing) es la arquitectura de base


de datos multidimensional en la que los datos se encuentran almacenados
en una base de datos relacional, la cual tiene forma de estrella (también
llamada copo de nieve o araña). Se usan, por tanto, administradores o
gestores de base de datos relacionales (DBMS en su sigla en inglés). En R-
OLAP, en principio la base de datos sólo almacena información relativa a
los datos en detalle, evitando acumulados (evitando redundancia).
 M-OLAP (multidimensional on-line analytical processing), en cambio, los
datos se encuentran almacenados en ficheros con estructura
multidimensional (en ficheros en formato propietario), los cuales reservan
espacio para todas las combinaciones de todos los posibles valores de
todas las dimensiones de cada una de las variables, incluyendo los valores
de dimensión que representan acumulados. Es decir, un sistema M-OLAP
contiene precalculados (almacenados) los resultados de todas las posibles
consultas a la base de datos.

Las diferencias concretas entre ambos se pueden sitentizar de la siguiente


manera:

 En M-OLAP se consiguen consultas muy rápidas a costa de mayores


necesidades de almacenamiento, y retardos en las modificaciones (que no
deberían producirse salvo excepcionalmente), y largos procesos batch de
carga y cálculo de acumulados. Mientras, en R-OLAP, al contener sólo las
combinaciones de valores de dimensión que representan detalle, es decir,
al no haber redundancia, el fichero de base de datos es pequeño. En el
caso de procesos batch de carga, en R-OLAP son rápidos (ya que no se
requiere agregación), y sin embargo, las consultas pueden ser muy lentas,
por lo que se aplica la solución de tener al menos algunas consultas
precalculadas. En M-OLAP, el gran tamaño de las variables
multidimensionales o el retardo en los procesos batch puede ser un
inconveniente.
 Las bases de datos MOLAP tienen limitaciones en el tamaño físico del
conjunto de datos que pueden manejar. Existe, además, un límite en el
número de dimensiones que pueden manejar dando a la vez un rendimiento
razonable. La arquitectura MOLAP es muy buena en situaciones en que los
datos se puedan descomponer en grupos más pequeños. Cuanto más
pequeños sean los conjuntos de agregación, más rápido será el tiempo de
compilación. Por ejemplo, una aplicación de contabilidad es la candidata
ideal para MOLAP porque sus conjuntos de datos se pueden descomponer
habitualmente por departamentos. La arquitectura ROLAP tiene la ventaja
de permitir su ejecución contra grandes conjuntos de datos. Una vez que se
ha estabilizado el modelo que identifica dónde se deben encontrar los datos
origen, la herramienta OLAP ya está lista para hacer consultas en los datos
vivos. Como se está trabajando directamente contra estos, su "frescura"
está asegurada. Además, ROLAP no tiene, normalmente, las mismas
limitaciones referentes a las dimensiones, al contrario que MOLAP. Sin
embargo, en aplicaciones críticas, donde el tiempo de respuesta es
fundamental, la solución MOLAP es sin duda la preferida.

3.3 Herramientas de búsqueda de la información

3.3.1 Descubrimiento de información y minería de datos

Las empresas generan y recopilan enormes volúmenes de datos provenientes de


sus operaciones diarias (facturación, inventario, etc.); los que luego son
capturados y mantenidos en los correspondientes departamentos. El problema de
muchas empresas radica en su incapacidad para capitalizar el valor presente en
los datos que maneja debido, sobre todo, a que la información implícita en los
datos no es fácil de discernir. Sin embargo, para poder competir en el entorno
actual, las personas encargadas de la toma de decisiones deben ser capaces de
identificar y utilizar la información contenida en los datos recogidos por la
empresa. Por ejemplo, después de identificar a un grupo de clientes casados, con
dos sueldos por familia, y una renta elevada, el gestor de cuentas de un banco
puede enviarles información sobre los fondos de inversión ofrecidos por el banco,
en un intento de convencerles de que usen sus servicios en lugar de hacerlo en la
competencia.
Dentro de este enfoque de descubrir y extraer la información residente en los
datos, la minería de datos (Data Mining) juega un papel fundamental.
Básicamente, podemos dar la siguiente definición:

"La minería de datos es el proceso de extraer información comprensible, válida y


previamente desconocida, a partir de grandes volúmenes de datos, y dedicarla al
soporte de la toma de decisiones de negocio"

La información extraída puede ser empleada para construir un modelo de


predicción o clasificación, identificar relaciones entre registros de una base de
datos o proporcionar una idea resumida del contenido de una base de datos.

La minería de datos consiste en un número de operaciones cada una de las


cuales está soportada por una variedad de técnicas matemáticas, como redes
neuronales, algoritmos de segmentación conceptual, análisis de asociaciones o
sistemas de inducción de reglas1.

En muchos dominios de aplicación, como marketing analítico, análisis financiero,


detección de fraude, etc., la extracción de la información requiere el uso conjunto
de distintas operaciones y técnicas de minería de datos. Sin embargo, lo que se
obtiene como resultado del Data Mining no es nuevo, por años los estadísticos,
con sus limitaciones, lo han realizado manualmente.

Dentro del conjunto de soluciones de Business Intelligence, la minería de datos


juega un papel clave; ésta permite extraer información a unos niveles donde las
herramientas de consulta o análisis multidimensional no pueden llegar. Es
importante no perder de vista cual es la función de cada una de las piezas que
componen una solución de Business Intelligence y la minería de datos ya que esta
no es una solución de negocios, es una tecnología. En cualquier caso, y es otro de
los puntos que se abordarán más adelante, el aprovechamiento máximo de una
solución se consigue cuando se emplean las distintas herramientas de forma
conjunta.

En la figura 3.7 se puede observar que la línea que une la parte de Data
Warehouse con la de minería de datos tiene dos cabezas. Esto quiere decir que la
minería de datos no es un fin en si mismo, sino que los mejores resultados se
obtienen cuando la información generada por ésta se realimenta en el Data
Warehouse, pudiéndose explotar posteriormente mediante los sistemas de
verificación de hipótesis.

Figura 3.7: Posición de la minería de datos dentro de las soluciones de Business


Intelligence.
El objetivo de identificar y utilizar la información presente en los datos tiene tres
requerimientos básicos:

 Los datos capturados deben ser integrados dentro de una vista corporativa,
en lugar de diferentes vistas específicas departamentales. Estos, además,
pueden ser enriquecidos con datos externos a la organización.
 La información contenida en los datos integrados debe ser extraída,
mediante las operaciones y técnicas adecuadas de minería de datos.
 La información extraída debe ser organizada y presentada en un formato
que permita la toma de decisiones.

La organización de la información extraída está condicionada por el objetivo global


de la operación de toma de decisiones. Por ejemplo, mediante la definición de un
objetivo consistente como el de identificar clientes con alta propensión a comprar
fondos de inversión; con esto el gestor de cuentas del banco está indicando que
quiere segmentar la base de datos de clientes en grupos homogéneos (urbanos,
casados, nivel de ingresos, bajo riesgo, etc.) y establecer la vulnerabilidad de cada
grupo con respecto a los diferentes tipos de campañas promocionales.

Otro ejemplo sería el de una compañía de celulares, donde su gerente


de marketing desea renovar el contrato de sus potenciales clientes y solicita
categorizarlos por aportaciones a la empresa y necesidades particulares para
luego poder persuadirlos otorgándoles obsequios como un teléfono nuevo,
minutos gratis, descuentos, etc. Para lograr un buen sistema de minería de datos
éste debe cumplir con dos requerimientos esenciales:

 Debe interactuar con el Data Warehouse, el mismo que debe organizar


los datos operacionales en formas que facilitan el análisis.
 Debe relacionarse con los sistemas de soporte a la decisión que
utilizan los analistas de negocio, de tal manera que se planteen
correctamente las bases de lo que necesitan como información.

Si bien la interacción con el Data Warehouse no es un requisito obligatorio, ya que


la mayoría de los sistemas de minería de datos pueden trabajar también con datos
almacenados en ficheros o bases de datos operacionales, los procesos de minería
contra un Data Warehouse producen resultados de mayor calidad ya que permiten
una mayor integración y calidad de la información obtenida.

1 No es el objetivo de esta asignatura plantear los fundamentos matemáticos de


las técnicas de minería de datos. En la bibliografía se incluyen algunas referencias
que permiten profundizar en este tema.
3.3.2 El proceso de minería de datos
3.3.2.1 De los datos a las decisiones

es que tanto el conjunto de los datos de partida, como el objetivo de negocio

por ejemplo:


 de respuesta.
 de productos en los lineales, etc.
 en marcha de acciones de marketing con el fin de impedir la marcha de sus
clientes.

beneficios.

Sin importar la naturaleza del negocio las operaciones de Data


Mining necesitan de una fuente de datos. Esta fuente puede estar
estructurada en un de dinero. Por otro lado, las operaciones de Data
Mining pueden prescindir de un repositorio de datos tipo Data
Warehouse debido a la versatilidad bases de datos operacionales, o de
diferentes Data Marts.

objetivo de obtener diferentes vistas de los datos de un Data Warehouse.

3.3.2.1.2 Machine Learning y Data Mining

de conocimiento por medio de la experiencia. En otras palabras el Machine


constituyen una parte esencial en los procesos de Data Mining, sin excluir
los otros procesos importantes tales como: mantenimiento de la base de
datos, y poder evaluar los resultados obtenidos.

Entre los algoritmos que facilitan el Machine Learning tenemos:

 Redes humano. Al igual que el cerebro humano en donde las neuronas


se encuentran
Dichas redes neurales poseen igual funcionalidad que las cerebrales
debido del modelo inicial debido a que el ingreso de los datos iniciales
se torna gran variedad de vistas exigen por parte de los analistas una
importante cantidad de tiempo, esto hace que el entendimiento del
funcionamiento de las redes neurales no se obvio.
 Razonamiento a este nuevo problema planteado es almacenada para
futuras referencias. La desventaja de este algoritmo esta en que se
basa en experiencias pasadas y soluciones que fueron propuestas en
el pasado las mismas que no necesariamente sea nuevamente
cometido.
 Algoritmos
 o evaluaciones que se le realizan a un dato en particular. Una vez
realizada sensibles a la calidad de los datos.

 Reglas Su funcionalidad radica en determinar correlaciones entre los


atributos de un registro de datos o bien entre los datos en un grupo de
datos. Una desventaja que presenta este tipo de algoritmos es que asume
que los datos

Coincidencia en el fichero binario


/home/moodledata/filedir/0f/bb/0fbb2a3b30a85019166dbeeab303ba977be8fba
9

3.3.2.2 Verificación de hipótesis frente a descubrimiento de información

Tradicionalmente el objetivo de identificar y utilizar la información subyacente en


los datos ha sido satisfecho mediante la explotación de los Data Warehouse con
generadores de consultas, sistemas de interpretación de datos, paquetes
estadísticos, etc.

Bajo este esquema los analistas debían formular una hipótesis sobre la existencia
de una cierta información de interés, convertir la hipótesis en una consulta,
lanzarla contra el Data Warehouse e interpretar los resultados obtenidos. Por
ejemplo, el gestor bancario debería plantear la hipótesis de que los clientes
casados, con dos sueldos por familia y una renta elevada tienen una tendencia
elevada a la compra fondos de inversión. Es evidente que llegar a esta hipótesis
es un proceso en absoluto trivial; lo importante es que después de la formulación
de la hipótesis el analista plantee la consulta en términos informáticos, lanzarla e
interpretar si el grupo considerado constituye un conjunto de clientes adecuado
para sus fines.

Estos sistemas que soportan estas operaciones se los conoce como herramientas
de verificación de hipótesis, las que para lograr el objetivo de extracción de
información se enfrentan a dos problemas principales:

- Requieren la existencia previa de una hipótesis.

- La calidad de la información extraída está supeditada a la interpretación


subjetiva del usuario que lanza la consulta.

Esta complejidad hace que las herramientas de verificación de hipótesis no sean


suficientes para soportar la toma de decisiones; para esto, se hace necesario
complementarlas con otras herramientas que de forma automática sean capaces
de descubrir información importante que reside en los datos y presentarla en el
formato adecuado. Estos son los sistemas de minería de datos, por ejemplo, un
sistema de minería de datos aplicado a la base de datos de clientes del banco
podría descubrir varios grupos diferentes de clientes con características comunes:
parejas mayores dependientes de la pensión mensual, jóvenes estudiantes con
bajo pasivo en sus cuentas y dependientes de la asignación semanal de sus
padres, el grupo de los clientes con renta alta que se ha comentado anteriormente,
etc. Teniendo en cuenta el objetivo de seleccionar clientes con alta propensión de
compra de fondos, un sistema de minería de datos no sólo identifica cuál es el
segmento más idóneo, sino cuales de los integrantes del mismo son buenos
candidatos para cada tipo de campaña promocional que puede ser ejecutada por
el banco. La figura 3.9 ilustra las principales diferencias entre los sistemas de
verificación de hipótesis y los sistemas de minería de datos.

Figura 3.9: Verificación de hipótesis frente a descubrimiento de la información.

3.3.2.2.1 La minería de datos y los métodos estadísticos

Habiendo contextualizado la función de la minería de datos y de las herramientas


de verificación de hipótesis vemos que ambas aproximaciones son
complementarias y aportan información a distintos niveles.

Figura 3.10: Fases del soporte a la decisión sobre la explotación de un Data


Warehouse.

La figura 3.10 esquemática las distintas herramientas de explotación de un Data


Warehouse con respecto a dos ejes: su implementación secuencial en función de
las necesidades de la empresa y el grado de complejidad del análisis que se
puede obtener de cada una de ellas; es importante aclarar que la implementación
de una fase no implica que las anteriores dejen de tener validez.

Debido a que la minería de datos extrae información de una base datos que el
usuario ignora su existencia, éste en su área debe conocer bien lo que la
herramienta otorga como información, caso contrario su utilidad es nula. El
aprovechamiento al máximo de los modelos generados con un sistema de minería
de datos se consigue explorando sus resultados mediante herramientas de
análisis. Por ejemplo, es posible construir mediante técnicas de minería de datos
un modelo predictivo que asigne un nivel de propensión de respuesta a una
campaña promocional partiendo de una base de datos de clientes (scoring).
Además de otros resultados, uno de los resultados que se obtendrán será un
listado ordenado de los clientes, de mayor a menor índice de propensión de
respuesta. Con base en esto, y dado que el presupuesto para acciones
comerciales suele estar limitado, un analista de marketing se decidiría por
contactar con los primeros clientes de la lista. En este sentido, el modelo es un fin
en sí mismo, pues nos proporciona una información de alto valor de cara a la
selección de público objetivo para la campaña.

Sin embargo, mediante una herramienta de análisis multidimensional podemos


obtener mucha más información. Agrupando a los clientes por niveles de
propensión similares, es posible formular hipótesis sobre la distribución de ciertos
indicadores (sexo, estado civil, frecuencia de visitas, nivel de ingresos, etc.) por
grupo, lo que permite completar y enriquecer el análisis, obteniendo información
adicional sobre los perfiles de los clientes.

Volviendo a las distintas fases de implementación de sistemas de explotación de


un Data Warehouse, es importante hacer mención a la relación entre las técnicas
de minería de datos y los modelos estadísticos clásicos; este es un asunto que en
muchas a traído polémica con los analistas de formación estadística.

Los modelos de minería de datos tienen un fundamento derivado de las técnicas


de inteligencia artificial y del aprendizaje de máquinas (Machine Learning); esto las
hace especiales con respecto a los métodos estadísticos y de análisis
multivariante convencionales. Entre las principales diferencias entre los métodos
estadísticos convencionales y la minería de datos encontramos:

 Los métodos estadísticos están basados fundamentalmente en el contraste


de hipótesis (presuponen una cierta distribución de los datos) en cambio los
modelos de minería de datos no necesitan lanzar una hipótesis lo que los
hace más robustos en este sentido.
 La minería de datos permite trabajar con una estructura de datos no lineal,
tolerando la presencia de información incompleta e incluso errónea.
 Otra de las principales diferencias es que la técnica de minería de datos
puede trabajar al mismo tiempo con datos cualitativos y cuantitativos; en
cambio, los métodos estadísticos deben procesarlos por separado.

El muestreo en los métodos estadísticos es sobre muestras o nichos de mercado,


básicamente por dos motivos:

- La población global es inaccesible.

- Generalmente los sistemas informáticos no tienen la capacidad para procesar


grandes volúmenes de información.

Uno de los pilares fundamentales del método de minería de datos es la


explotación de grandes cantidades de datos; ello es posible debido a que tanto
el hardware como el software actual soportan el procesado de bases de datos de
enorme tamaño. Por otro lado el muestreo presenta de forma inherente una serie
de riesgos en cuanto a la representatividad de los datos; es por esto es
recomendable siempre construir los modelos contra el grueso de la población que
se esté considerando.

En cualquier caso, la incorporación o no de una fase inicial de muestreo no


debería venir nunca condicionada por una limitación de la herramienta de minería
de datos que se vaya a emplear, sino por otros criterios más metodológicos.

Ahora bien los modelos estadísticos tienen un rol muy importante en Data
Mining específicamente en las tareas de desarrollo y evaluación de modelos; tal es
así, que la gran mayoría de los algoritmos de Machine Learning utilizan técnicas
de evaluación estadística para la construcción de regla de decisión.

Entre los análisis estadísticos más comunes que se utilizan tenemos:

 Técnicas de visualización y descriptivas, tales como: promedios y


evaluación de variaciones, porcentajes y correlaciones simples. Son muy
útiles para entender la estructura de un grupo de datos; a través de las
técnicas de visualización es posible evaluar rápidamente la naturaleza de
los datos en especial cuando se trata de una gran cantidad; generalmente
se utilizan histogramas.
 Análisis de clusters, consiste en organizar la información en grupos de
datos que sean heterogéneos a los que se los conoce como clusters de
datos. Estos clusters que se crean con la utilización de estos métodos se
caracterizan porque sus miembros son muy similares entre sí dentro del
mismo grupo y a su vez completamente diferentes entre los datos de
otros clusters.
 Análisis de correlaciones, se encarga de medir las relaciones entre dos
variables. Es decir, se puede establecer que sucede cuando se cambia una
variable determinada y como afecta este cambio a la otra variable
dependiente.
 Análisis de factores, es útil para entender las correlaciones entre un grupo
de variables. Es muy utilizado para reducir el número de variables y para
determinar la estructura entre de las relaciones entre las diferentes
variables, es decir poder clasificar estas variables.
 Análisis de regresión, es una herramienta estadística que determina la
relación entre dos o más variables cuantitativas, es decir, se puede predecir
el valor la variable dependiente a través de los valores que tiene las
variables independientes.

Aunque las diferencias son bastante significativas, en ningún caso se trata de


plantear una barrera ni de renunciar al empleo de técnicas estadísticas. En
verdad, la gran mayoría de las herramientas de minería de datos que existen en el
mercado incorporan funciones estadísticas especialmente importantes para el
estudio de la distribución de los datos, el análisis de correlaciones entre variables
o la extracción y sumarización de características. Es por esto que la integración de
las técnicas estadísticas con las de minería de datos permite una mejor extracción
y análisis de la información oculta tras los datos.
En la figura 3.11 se ilustran las principales diferencias entre las técnicas
estadísticas tradicionales y la minería de datos.

Figura 3.11: Principales diferencias entre las técnicas estadísticas y las técnicas
de minería de datos.

3.3.2.3 El proceso genérico de minería de datos

La minería de datos es un proceso iterativo que implica generalmente la selección


y transformación de datos de entrada, la ejecución de una o varias técnicas de
análisis y la interpretación y visualización de los resultados. En la figura 3.12 se
ilustra gráficamente el proceso genérico que de la minería de datos.

Figura 3.12: El proceso genérico de minería de datos.

Uno de los aspectos más importantes del proceso es que es iterativo. Los
resultados de cada fase pueden hacer replantear los pasos anteriores; de esta
manera el ciclo se va depurando hasta obtener los resultados esperados. Al
momento de seleccionar una herramienta de minería de datos es importante entre
otros aspectos que se analizarán más adelante el soporte a todos los pasos del
proceso. Debe ser posible aplicar las funciones de modelización de forma
independiente, iterativamente o utilizando una combinación de ambas
modalidades.

Las funciones de minería de datos utilizan técnicas matemáticas complejas para


descubrir patrones ocultos en los datos. Una vez interpretados los resultados del
proceso, puede modificarse la selección de los datos, el proceso de los mismos y
las funciones de minería, así como los parámetros de minería para mejorar y
ampliar los resultados. A continuación se detallan cada uno de los pasos del
proceso de descubrimiento de patrones ocultos en los datos.

3.3.2.4 Selección de datos

El primer paso de la minería de datos consiste en especificar los datos de entrada


que se deseen explorar y analizar. Puede que una fuente de datos no contenga
todos los datos que se quieran utilizar para un objetivo concreto de minería de
datos, o bien puede que contenga datos irrelevantes. Esto implica que los datos
pueden estar en una o más tablas de la base de datos, vistas o archivos.

Es importante que el sistema de minería de datos ayude a seleccionar los datos


concretos entre los diversos tipos y fuentes para crear el conjunto de entrada al
proceso. Para ello es necesario que disponga de un conjunto de funciones de
selección, incluyendo filtrado de campos y registros, uniones de tablas, etc.

3.3.2.5 Transformación de datos

Cuando se han especificado los datos de entrada, deben poderse integrar y


transformar mediante técnicas de preproceso. El tipo de transformación está
dictado por el tipo de operación y técnica de minería de datos que se pretenda
emplear. Las transformaciones pueden ir desde la conversión entre distintos tipos
y formatos de datos (por ejemplo, la conversión de valores nominales a valores
numéricos), la definición de nuevos atributos o la codificación de valores omitidos
o no válidos.

3.3.2.6 Minería de datos

Los datos transformados son explotados a continuación mediante una o varias


técnicas de minería de datos con el fin de extraer la información deseada. Por
ejemplo, para desarrollar un modelo de clasificación que prediga si el lector de una
revista renovará su suscripción, primero habrá que emplear una técnica de
segmentación con el fin de generar grupos homogéneos de subscriptores, y
después aplicar un algoritmo de inducción de reglas para generar un modelo de
clasificación para cada segmento. Otro ejemplo, puede ser el desarrollo de un
modelo que otorgue la tasa de fallo de los materiales utilizados para la fabricación
de electrodomésticos con el fin de poder exigir o renegociar la garantía de los
materiales con los proveedores.

Aunque no de una forma exhaustiva, la tabla 3.1 muestra las principales


correspondencias entre técnicas, operaciones y aplicaciones en minería de datos.

Algunos ejemplos de aplicaciones y sus operaciones

Detección Búsqueda
de Predicción Perfilación de Análisis de
actividades de la de patrones actividades
Aplicacione fraudulenta demanda poblaciones de bursátiles
s s compra
Anticipació Detección Comparació
Clasificació n de de nichos Gestión n de
n según abandonos de mercado de patrones
síntomas alarmas
Modelos Análisis
Operacione Modelos de Clustering d Comparació
de de
s clasificación e datos n de
predicción relaciones
secuencias
en el tiempo

Medición de
Funciones asociacione
Inducción Clustering Análisis
de base s
en árbol relacional de series
Técnicas radial
temporale Medición de
Redes Redes s
Redes patrones
neuronales neuronales
neuronales secuenciale
s

Tabla 3.1. Principales técnicas, operaciones y aplicaciones en minería de datos.

Es importante resaltar que la elección de una u otra técnica vendrá condicionada


siempre a dos niveles. Por un lado, el objetivo de negocio que se pretenda
analizar y, por el otro, el formato y la distribución de los datos que alimenten al
modelo. A lo largo del capítulo se entrará más en detalle sobre las distintas
operaciones y técnicas de minería de datos.

3.3.2.7 Interpretación de resultados

La información extraída será siempre analizada al final por los usuarios de


negocio. Ellos son los que han de validar desde el punto de vista funcional la
calidad del modelo generado. Puede suceder que desde un punto de vista
matemático el modelo sea muy bueno pero, sin embargo, su aportación a los
objetivos de negocio no sean significativos, es por esto, que se debe realizar un
modelo adecuado a la situación que se quiere analizar de esta manera la
información resultante será útil; aunque existen casos en que esto no es posible
debido a su complejidad.

En este sentido, el propósito de la interpretación de los resultados no es sólo


visualizar (de forma gráfica o lógica) la salida de las operaciones de minería de
datos, el objetivo es filtrar la información relevante que se presentará a los
responsables de la toma de decisiones. Por ejemplo, si el objetivo es desarrollar
un modelo de clasificación, durante la fase de interpretación de los resultados se
verificará la robustez del modelo con respecto a distintos conjuntos de validación,
lo cual dará una indicación de la capacidad de generalización del mismo.

Si el resultado no es satisfactorio, será necesario repetir la fase de minería de


datos, o bien iterar sobre pasos anteriores. Para ilustrar todo el proceso se plantea
el siguiente ejemplo. Una empresa desea utilizar técnicas de marketing directo
para ofrecer nuevos servicios a sus clientes de tal manera que pueda enfocar
todos sus esfuerzos a aquellos clientes con una alta probabilidad de estar
interesados. Un primer paso consistiría en utilizar una herramienta de minería de
datos para descubrir segmentos en la base de datos de clientes.

A continuación se pueden buscar características en cada grupo generado por las


que los clientes acepten en mayor o menor grado los nuevos servicios. El proceso
de creación de los segmentos sobre la base de datos de clientes puede incluir los
pasos siguientes:

 Selección de los datos de clientes relevantes como datos de entrada.


 Transformación de los datos reorganizándolos, eliminando los registros
duplicados o convirtiéndolos de un formato a otro.
 Especificación de la ubicación de los datos de salida resultantes. Un
modelo de segmentación, con independencia de la técnica utilizada,
producirá un indicador de segmento para cada cliente. Este indicador debe
almacenarse en la base de datos con el fin de efectuar consultas
posteriores y poder acceder a los clientes de cada segmento de forma
individual.
 Elección y parametrización de la técnica de segmentación adecuada.
 Ejecución de la técnica contra los datos de entrada.
 Visualización de los datos resultantes.
 Análisis de los resultados y replanteamiento de las fases anteriores en
función de este.

3.3.3 Operaciones y técnicas de minería de datos


3.3.3.1 Operaciones de minería de datos

Durante el desarrollo de un proyecto de Data Mining se presentan diferentes

se obtienen.

(E) Algoritmos de Machine Learning Dependencia

(E) * * *

(E) *

(E) *

(E) *

(E) * *
(AML) Redes Neurales * * *

(AML) Razonamiento baso en casos *

(AML) * *

(AML) *

Tabla 3.2.

3.3.3.1.1

3.3.3.1.2 Modelos

y datos de clientes que se han quedado.

(abandono vs. a no abandono, riesgo bajo, medio o alto, etc.), mientras que

a los clientes en las correspondientes hojas.

generalizadas que caractericen el contenido de una base de datos, el


objetivo una base de datos.

datos.

datos que procesan.

de datos es necesario particionarla en colecciones de registros


relacionados. Con esto es posible obtener un resumen de su contenido, o
bien como tarea previa

Otro ejemplo con mayor detalle son los grandes almacenes que mantienen
una base durante una visita determinada.
identificar puntos espurios1 en un conjunto de datos determinado, y explicar
si son debidos a la presencia de ruido u otras impurezas presentes en los
datos, o bien a relaciones causales.

previamente conocida y esperada. Por ejemplo, un cliente que usualmente


efectuaba
1 Coincidencia en el fichero binario
/home/moodledata/filedir/c2/1a/c21a791200a6e3db65a66d8080c3bacd8dde9ff
2

3.3.3.2 Técnicas de minería de datos

Existen numerosas técnicas que soportan las cuatro operaciones básicas de la


minería de datos; a continuación en la tabla 3.3 se detalla de la correspondencia
entre cada uno de ellos.

Para las operaciones de minería


Se usa la Técnica de minería de datos
de datos

Modelos predictivos y clasificación Técnicas de inducción supervisada

Técnicas de descubrimiento y patrones


Análisis de asociaciones
secuenciales

Segmentación de base de datos Técnicas de clustering

Detección de desviaciones Técnicas estadísticas

Tabla 3.3. Técnicas utilizadas por las diferentes operaciones de minería de datos.

Con independencia de la técnica utilizada, es importante que el sistema de minería


de datos disponga de técnicas de visualización que permitan el análisis de la
información resultante. Aunque las herramientas de visualización no extraen la
información de forma automática estas facilitan su análisis y validación en
términos de negocio.

3.3.3.2.1 Inducción supervisada

La inducción supervisada es el proceso de creación automática de un modelo de


clasificación a partir de un conjunto de registros (ejemplos) denominado conjunto
de entrenamiento. Los registros del conjunto de entrenamiento deben pertenecer a
un reducido grupo de clases que han sido predefinidas por el analista. El modelo
inducido consiste en patrones, esencialmente generalizaciones sobre los registros,
que son eficientes para distinguir las clases. Una vez que el modelo es inducido
puede ser empleado para predecir de forma automática las clases a las que
pertenecen registros cuya asignación es desconocida.

INDUCCIÓN SUPERVISADA

Modelos de clasificación de datos-ejemplos de implementación

Clasificación basada en árboles de decisión

 Modelo de clasificación en forma de árbol de decisión binario.


 Emplea la tecnología SLIQ (Supervised Learning in Quest), procesando
tanto variables cuantitativas como cualitativas.
 Emplea una técnica de pre-ordenación en la fase de construcción del
árbol, integrada con una estrategia de crecimiento primero en anchura.
 Incorpora una técnica de podado basada en el principio de la mínima
longitud de descripción (MLD), que proporciona árboles de menor
tamaño.
 Es escalable, pudiendo procesar conjuntos con independencia del
número de clases, atributos y registros.

Clasificación neuronal
 Basada en redes neuronales de propagación hacia atrás.
 Detecta de forma automática la topología más adecuada para cada
problema, aunque permite especificar una concreta.
 Optimiza de forma interna los parámetros de la red durante el
entrenamiento.
 Realiza una análisis de sensibilidad para detectar las variables más
significativas para cada topología.

Tabla Ejemplos de implementación de las técnicas de inducción supervisada


3.4. para modelos de clasificación y sus características.

Los métodos de inducción supervisada pueden ser neuronales o simbólicos. Los


métodos neuronales tienen sus fundamentos en el procesamiento simplificado de
la información por parte del cerebro; estos a través de una arquitectura de nodos y
conexiones permiten que los datos se propagan entre una capa de nodos de
entrada hacia una capa de salida.
Ahora bien entre ambas capas existen nodos intermedios que se encargan del
procesado interno de la información. Una de las principales características de
estas redes neuronales es su capacidad de modelar comportamientos de alta
complejidad en especial cuando existe un gran número de puntos espurios y
valores omitidos; adicionalmente se caracteriza por ser métodos no lineales lo que
los hace capaces de aproximar cualquier tipo de función. Su gran inconveniente
radica en la determinación óptima de su arquitectura, es decir: número de capas
intermedias, número de unidades por capa, etc. Además, aunque pueden llegar a
obtenerse modelos de gran calidad y resolución, otro de sus inconvenientes es
que funcionan como cajas negras de tal manera que es difícil saber por que una
red de este tipo efectúa un tipo u otro de clasificación, independientemente de que
ésta sea buena o mala.

Los inconvenientes presentados por los métodos neuronales hacen que los
analistas de minería de datos prefieran a los métodos simbólicos. Su
característica más importante es un naturaleza auto explicativa, es decir, además
de proporcionar una clasificación de los registros son capaces de explicar los
criterios que utilizó para dicha clasificación. Los ejemplos más clásicos de
métodos simbólicos son los árboles de decisión en donde la población de registros
es distribuida en función del cumplimiento de determinados criterios de alta
capacidad discriminante.

Un ejemplo de aplicación de los métodos de inducción supervisada es el análisis


de tarjetas de crédito. Una compañía de tarjetas de crédito posee diferentes tipos
de registros sobre sus clientes, cada uno conteniendo un número determinado de
descriptores o atributos. Para aquellos clientes de los que se dispone de su
historial de crédito, el registro del cliente puede estar etiquetado como clase
buena, media o mala, indicando el riesgo crediticio del cliente. Una técnica de
inducción supervisada basada en métodos simbólicos puede generar la siguiente
regla: si los ingresos del cliente son superiores a $25,000, su margen de edad está
entre 45 y 55 años y vive en el barrio XYZ, entonces el cliente es bueno.

Una técnica de inducción de reglas es apta para aplicaciones de minería de datos


si cumple con las siguientes características:

 Puede producir modelos de alta calidad, incluso cuando los datos en el


conjunto de entrenamiento contienen ruido y son incompletos.
 Los modelos resultantes son comprensibles y explicables, de forma que los
usuarios pueden entender las decisiones efectuadas por el sistema.
 Puede ser influenciado de forma que adapte conocimiento sobre el entorno
en que se está construyendo el modelo. Esto implica, por ejemplo, que se
pueda prolongar el proceso de entrenamiento si el sistema está efectuando
ciertas clasificaciones incorrectas1.

Las técnicas de inducción supervisada ofrecen varias ventajas sobre los modelos
estadísticos convencionales, tales como:
 Los patrones inducidos por las técnicas de inducción supervisada pueden
estar basados en fenómenos locales, mientras que muchas métricas
estadísticas buscan condiciones que se puedan verificar a lo largo de toda
una población, suponiendo una cierta distribución subyacente.
 Adicional a los modelos de clasificación neuronal los métodos de inducción
supervisada cuentan con los modelos predictivos cuyo objetivo es estimar
una variable numérica y no una etiqueta nominal.2

INDUCCIÓN SUPERVISADA
Modelos de predicción- ejemplos de implementación

Funciones de base radial

 Pueden procesar variables cuantitativas y cualitativas a la vez.


 Detecta el número de centroides óptimo, predefiniendo el número máximo
de estos y el número mínimo de registros asignados a cada centro.
 Permite modelados no lineales en base a una aproximación gaussiana y
la optimización de la pendiente para la división de nuevos centroides.
 Funciona especialmente bien cuando la estructura de los datos tiende a
agruparse en conjuntos ya que implementa cierto tipo de segmentación.

Predicción neuronal
 Basada en redes neuronales de propagación hacia atrás.
 Detecta de forma automática la topología más adecuada para cada
problema, aunque permite especificar una concreta.
 Permite predecir datos en forma de series temporales.
 Permite implementar regresión logística.

Tabla Ejemplos de implementación de las técnicas de inducción supervisada


3.5. para modelos de predicción y sus características.

3.3.3.2.2 Descubrimiento de asociaciones y patrones secuenciales

Dada una colección de artículos y un conjunto de registros, cada uno de los cuales
contiene un número determinado de artículos de la colección dada, una función de
descubrimiento de asociaciones es una operación ejecutada contra el conjunto de
registros que detecta afinidades existentes a lo largo de la colección de artículos.
Estas afinidades pueden ser expresadas mediante reglas de la forma: el 72% de
todos los registros que contienen los artículos A, B y C también contienen los
artículos D y E. El porcentaje específico de ocurrencias se denomina factor de
confianza de la asociación. El descubrimiento de asociaciones puede implicar
cualquier número de artículos a ambos lados de la regla de asociación. Una
aplicación típica que puede implementarse mediante el descubrimiento de
asociaciones es el análisis de cestas de la compra de la canasta familiar. En
este caso, un analista ejecutará una función de descubrimiento de asociaciones
sobre el registro de transacciones de venta.

Entre otras informaciones el registro de transacciones contiene los identificadores


de transacciones y los identificadores de productos. La colección de artículos
mencionada anteriormente es en este caso el conjunto de productos. Típicamente,
este conjunto puede ser del orden de 100.000 o más artículos. El conjunto de
identificadores de productos listados bajo el mismo identificador de transacción
constituye un registro, tal y como se ha definido anteriormente. La salida de la
función de descubrimiento de asociaciones es, en este caso, una lista de
afinidades entre productos. Por ejemplo, que el 20% de una marca específica de
tostadora es vendida, los clientes también compran guantes para la cocina 3.

Otro ejemplo del uso del descubrimiento de asociaciones es en aplicaciones que


analizan los partes realizados por los pacientes en compañías médicas
aseguradoras. Cada parte contiene un detalle de los procedimientos médicos que
le fueron realizados al paciente durante una visita. Definiendo el conjunto de
artículos como la colección de todos los procedimientos médicos que se le pueden
realizar a un paciente y los registros como todos los formularios de parte, la
aplicación puede encontrar, empleando una función de descubrimiento de
asociaciones, relaciones entre aquellos procedimientos médicos que son
realizados conjuntamente con frecuencia.

En los registros de transacciones mencionados anteriormente, la identidad del


cliente que efectuó la compra puede conocerse o no. Si se conoce, puede
relacionarse los registros con la identidad del cliente que efectuó compras de
manera repetida. Esto introduce una componente de relación temporal en el
descubrimiento de asociaciones. Normalmente este tipo de técnicas se denominan
descubrimiento de patrones secuenciales; estos permiten, por ejemplo, analizar
secuencias de compras de clientes.

En la tabla 3.6 se ilustran las principales características del análisis de


asociaciones y de los patrones secuenciales.

DECUBRIMIENTO DE LAS ASOCIACIONES

Los análisis de asociaciones y patrones secuenciales permiten extraer


información desconocida de conjuntos de transacciones.

Análisis de asociaciones
 Detecta elementos en una transacción que implica la presencia de otros
elementos en ésta misma.
 Expresa las afinidades entre elementos en forma de asociación X FB
facilitando una serie de métricas como el soporte, cofianza, tipo de la
regla, etc.
 Permite especificar los niveles de soporte y confianza mínimas para las
reglas que deben ser detectadas así como los elementos que deben o no
incluir.
 Permite incorporar taxonomías de productos, habilitando la detección de
asociaciones a diferentes niveles.

Patrones secuenciales
 Detectan patrones entre transacciones, lo que permite optimizar las
ventas a lo largo tiempo.
 Permiten especificar el factor de soporte mínimo para las secuencias que
deben ser detectadas.

Tabla 3.6. Principales características del análisis de asociaciones.

1 Un ejemplo típico de esto se encuentra en los modelos de estimación de


enfermedades en función de determinados síntomas. Puede ser tolerable que el
modelo de clasificación se equivoque, en un número relativamente bajo de casos,
al decir que un individuo que no está enfermo si lo está. Sin embargo, la tolerancia
en el caso contrario tiene que ser necesariamente más baja.
2 Las técnicas empleadas en los modelos predictivos son similares a las de los de

clasificación. Además de los algoritmos basados en redes neuronales, las


funciones de base radial (RBF, radial basis functions) son otra de las técnicas más
empleadas.
3 Existe un ejemplo canónico para ilustrar el análisis de bolsa de la compra:

pañales implica cerveza.

3.3.4 Segmentación

Las técnicas de segmentación se emplean para dividir una base de datos en


subconjuntos, denominados segmentos (clusters), donde los miembros de cada
uno de ellos comparten características similares. Un ejemplo sencillo es el que
aplicamos al ir a una lavandería donde dividimos la ropa que vamos a lavar por
segmentos como: lavado en seco, ropa blanca, ropa de color, etc. Cada segmento
tiene similares características y reacciones, en este caso, al tipo de lavado. En
este ejemplo, a pesar de su simplicidad, también encontramos inconvenientes
como el no saber donde ubicar la camisa blanca con rayas rojas que contiene
características de dos segmentos. Data Mining ayuda en estos casos a clarificar el
segmento al que pertenece para direccionar de mejor manera la estrategia a
aplicar.

El resultado de una operación de segmentación puede emplearse en dos


sentidos. Primero, para sumarizar el contenido de una base de datos,
considerando las características de cada segmento en lugar de las de cada
registro individual. Segundo, como una entrada a otros métodos, como los de
inducción supervisada. Un segmento es un conjunto más pequeño y manejable
para un modelo de clasificación que el total de la población1.

Los segmentos pueden ser generados mediante técnicas estadísticas (métodos


jerárquicos, k-medias, etc.) o bien mediante métodos neuronales o algoritmos de
inducción simbólica no supervisados2.

Los distintos métodos estadísticos, simbólicos o neuronales se distinguen por:

- El tipo de los valores de atributos que pueden tomar los registros a segmentar
(numéricos, nominales, estructurados, etc).

- La forma en que construyen y representan cada segmento.

- La forma en que organizan y relacionan el conjunto de segmentos


(jerárquicamente, en listas planas, etc).

Los métodos estadísticos representan un segmento como una colección de


instancias. Es difícil decidir como asignar un nuevo ejemplo a los segmentos ya
existentes, ya que debe definirse una forma de medir la distancia entre una nueva
instancia y aquellas ya presentes en el segmento.

Por el contrario, los métodos basados en redes neuronales, distintos en este


caso a los empleados en las técnicas de inducción supervisada, representan un
segmento como un prototipo al que están asociados un subconjunto de las
diferentes instancias presentes en la base de datos. Los métodos simbólicos se
basan en comparaciones masivas entre registros, definiendo métricas de similitud,
no de distancia, entre ellos. Una de las principales diferencias entre ellos y los
métodos estadísticos es que no sólo intentan optimizar la similitud de los registros
pertenecientes a un mismo segmento, sino la separabilidad entre los distintos
segmentos generados.

Los métodos de segmentación difieren de las otras técnicas de minería de datos


en que su objetivo es generalmente menos preciso. Además, este tipo de técnicas
suelen ser sensibles a la presencia de variables redundantes e irrelevantes. Este
problema puede subsanarse permitiendo al usuario que seleccione las variables
que considere más significativas, o bien asignando distintos pesos de ponderación
a cada una de ellas (tabla 3.7).

Agrupación automática de registros que comparten características


similares

Ejemplos de implementación

Segmentación basada en el análisis relacional (particionado)

 El número de segmentos se determina durante la ejecución del algoritmo.


 Procesa tanto variables cualitativas como cuantitativas.
 De forma recursiva, modifica una solución inicial maximizando la similitud
entre los miembros y las diferencias entre miembros de segmentos
diferentes (Criterio de Condorcet).
 Es un algoritmo linealmente escalable respecto al número de registros, el
número de segmentos, el número de variables activas y el número de
intervalos empleados internamiento en las variables cuantitativas.
 Es especialmente eficiente para la detección de nichos de registro

Segmentación neuronal
 Basado en mapas auto-organizativos de Kohonen.
 Es necesario predefinir el número de segmentos que se desean obtener,
así como su distribución bidimensional.
 Procesa tanto variables cualitativas como cuantitativas, aunque funciona
mejor cuando dominan éstas últimas.
 Es especialmente eficiente cuando se desea particionar una población
imponiendo cierta relación entre los segmentos obtenidos.

Tabla 3.7. Principales técnicas de segmentación y sus características.

1En este caso, la idea es que, una vez particionada la base de datos, se
construye un modelo de clasificación para cada uno de los segmentos, en lugar de
desarrollar un único modelo para el total de la población. 2No supervisados en el
sentido en que, al contrario que en los modelos de clasificación o predicción, aquí
no existe una variable objetivo que permita mediar la calidad del proceso de
entrenamiento.
3.3.5 Proyecto de Data Mininng: consideraciones generales
3.3.5.1 Actores que intervienen en un proyecto Data Mining

Al igual que cualquier tipo de proyecto los proyectos de Data Mining

 del proyecto, tiene la responsabilidad completa del proyecta. Es el


encargado de planear, coordinar, ejecutar y difundir el proyecto de Data
Mining.
 Cliente, se refiere al experto del lado del negocio, el es el encargado de
consultar y utilizar los resultados provistos como resultado del proyecto.
Generalmente, modelamiento de los datos.
 Analista de Data Mining, es el que tiene un conocimiento profundo del
negocio. Su papel es muy importante ya que es el que se encarga de
traducir de los modelos futuros.
 Ingeniero de Data Mining, es el encargado de desarrollar, interpretar y
evaluar el modelo de Data Mining desde diferentes perspectivas
 Analista datos necesarios para completar exitosamente el proyecto
de Data Mining. fuente ya sea una base de datos, un sistema o un Data
Warehouse de

Los integrantes de un proyecto de Data Mining puede asumir diferentes roles


dentro del proyecto, esto depende mucho de la magnitud del proyecto tal
de Data Mining. Coincidencia en el fichero binario
/home/moodledata/filedir/c7/bc/c7bcba5e9c98dd659a10952f67528e883bb8a1f
7

3.3.5.2 Metodologías de desarrollo para los proyectos de Data Mining

Existen una gran variedad de metodologías que proponen un proceso estándar


para el desarrollo de proyectos de Data Mining. Entre los más conocidos tenemos:
SEMMA, las cinco "A" de SPSS y el CRISP-DM. Este último es considerado el
modelo estándar de la industria; fue desarrollado utilizando información de 200
usuarios de Data Mining junto con los proveedores de los servicios y herramientas
para la minería de datos. Su objetivo fue el de establecer un modelo genérico el
mismo que se pueda ajustar a las necesidades específicas cada negocio en
particular.

3.3.5.2.1 Modelo SEMMA

El nombre SEMMA es un acrónimo en inglés que identifica los cinco pasos que
son parte de un proyecto de Data Mining, estos son:

1. Sample

2. Explore
3. Modify

4. Model

5. Assess

La traducción en español es muestra, exploración, modificación, modelamiento y


evaluación. Este modelo propone al los analistas un proceso cíclico en donde se
parte de una muestra de los datos la misma que se la explora con la ayuda de las
técnicas de visualización y estadísticas, luego, estos datos son transformados con
la finalidad de descubrir patrones de variable más significativos, al final, se
procede a modelar los resultados que se esperan del modelo para que luego estos
puedan ser evaluados y retroalimentados al sistema. En la figura 3.16 se ilustra
detalladamente el modelo SEMMA con los elementos que lo constituyen.

Figura 3.16: Modelo de análisis SEMMA (Jackson, 2002).

SAMPLE (muestra), consiste en crear una o tablas de datos tomando muestras de


datos de una Data Warehouse. Hacer esto reduce notablemente el tiempo de
procesamiento y obtención de información ya que se procede a "minar" una
muestra representativa de datos en lugar de hacerlo al todo de los datos.

EXPLORE (explorar), luego de haber tomado una muestra significativa de los


datos se proceda a explorar estas muestras ya sea visualmente o numéricamente
con el objeto de encontrar tendencias o grupos significativos dentro de estos
datos. Este proceso de exploración permite refinar un poco más el proceso de
descubrimiento de información; entre las técnicas estadísticas más usadas están
las de análisis de factores, análisis de correlaciones y de cluster.

MODIFY (modificar), se refiere a la creación, transformación y selección de una o


más variables con el objetivo de enfocar el modelo en una meta específica o
simplemente para modificar los datos de tal manera que se le da claridad y
consistencia.

MODEL (modelar), consiste en crear un modelo de datos a través de la utilización


de software de minería de datos con la finalidad de encontrar la combinación de
datos que permitan obtener los resultados que se esperan.

ASSESS (evaluar), como su nombre lo indica evalúa el modelo para determinar


que tan bien funcionó. Generalmente lo que se hace es que en la fase de muestra
se separa un grupo de datos luego una vez terminado el modelo este es probado
con los datos que fueron separados al inicio así como con aquellos que sirvieron
para la construcción del modelo.
3.3.5.2.2 Modelo de las 5 "a" de SPSS

Fue desarrollado por SPSS y es muy similar a la propuesta SEMMA. Este modelo
fue patrocinado hasta finales del primer semestre del 2001 hasta que SPSS
decidió patrocinar la metodología CRISP-DM. A continuación en la figura 3.17 se
ilustra el modelo de las 5 "A" de SPPSS.

Figura 3.17: Modelo de análisis de las 5 "A" de SPSS (Jackson, 2002).

3.3.5.2.3 Modelo CRISP-DM

Es conocido como el modelo estándar de la industria. El modelo inició como un


proyecto a mediados de 1997 con el auspicio de la Comisión Europea. Entre los
patrocinadores más importante encontramos:

NCR, Daimler Chrysler, Integral Solutions Limited (ISL) (ahora parte de SPSS) y
OHRA una compañía independiente de seguros noruega.

El objetivo del proyecto fue el de diseñar una metodología estándar para el


modelamiento de proyectos de minería de datos o Data Mining; la misma que
debía ser completamente flexible e independiente del tipo de industria al que la
utilizaría haciendo el proceso de desarrollo más rápido, más barato, administrable
y confiable y sin importar el tamaño del proyecto.

A continuación en la figura 3.18 se ilustra el modelo CRISP-DM con todos sus


elementos y relaciones.

Figura 3.18: Modelo de análisis CRISP-DM (Jackson, 2002).

Business Understanding (conocer el negocio), la primera fase se concentra en


entender los objetivos del proyecto y los requerimientos desde el punto de vista
del negocio para luego convertir este conocimiento en una definición de un
problema de Data Mining junto con un plan inicial de implementación para poder
cumplir este objetivo planteado.

Data Understanding (conocer los datos), inicia con la recolección inicial de los
datos para luego proceder con actividades para que permitan familiarizarse con
los datos de tal manera que se puedan detectar problemas con la calidad de los
datos, descubrir primeros patrones en los datos que permitan formular hipótesis
para información que se encuentre oculta en los datos.
Data Preparation (preparación de los datos), esta fase consiste en todas las
actividades previas a la preparación de los datos iniciales que se alimentarán a la
herramienta de modelamiento. Esta fase de preparación de los datos contiene
pasos que deben ser realizados en múltiples ocasiones y sin un orden en
particular. Estas tareas incluyen: preparación de las tablas de datos,
almacenamiento, selección de atributos y la transformación y limpieza de los datos
que serán alimentados a las herramientas de modelamiento.

Modelling (modelamiento), en esta fase se utilizan y aplican diferentes


herramientas de modelamiento cuyos parámetros son ajustados para obtener
valores óptimos. Generalmente existen diferentes técnicas para el mismo tipo de
problema de Data Mining las mismas que exigen ciertos requerimientos por parte
de los datos de tal manera que se hace necesario regresar a la fase de
preparación de datos en repetidas ocasiones.

Evaluation (evaluación), en esta fase el modelo se presenta bastante depurado y


con una buena calidad desde la perspectiva del análisis de datos. Ahora bien
antes de seguir con el paso de divulgación del modelo es necesario evaluarlo
nuevamente tomando en consideración los diferente pasos que se ejecutaron para
la consecución del mismo. Con esto se asegura que el modelo realmente satisface
las necesidades y objetivos planteados por el negocio. Una forma de determinar
esto es verificando si existe algún requerimiento importante del negocio que no ha
sido cubierto completamente por el modelo. Luego de que se haya validado el
modelo se procede a la toma de la decisión del uso de los resultados obtenido por
el mismo.

Deployment (uso), la terminación de la creación de un modelo de minería de


datos no constituye el último esfuerzo y peor aun la culminación del proyecto en si.
Para cualquier caso el conocimiento adquirido con el modelo es necesario
presentarlo a la organización de alguna forma que sea entendible. Esto puede
estar dado por la implementación de un reporte sencillo o algo más complejo sería
la implementación de un proceso repetitivo de minería de datos con los resultados
obtenidos. Esta fase de uso del modelo está a cargo del cliente y no del analista
de los datos; es por esta razón, que es completamente necesario que el cliente
conozca a profundidad la forma en que se deben utilizar los modelos creados.

3.4 Aplicaciones de minería de datos

De un tiempo a esta parte, la minería de datos está siendo aplicada a una gran
variedad de dominios, desde gestión de inversiones hasta astronomía. Su
importancia y potencial de aplicación ha sido particularmente reconocido en
sectores como por ejemplo:

 Telecomunicaciones y compañías de tarjetas de crédito, las que más


utilizan Data Mining para poder detectar el uso fraudulento de los servicios
que ofrece.
 Medicina, para determinar la efectividad de un procedimiento quirúrgico,
evaluaciones médicas o medicaciones.
 Instituciones Financieras, para evaluar las características del mercado y
de la industria como también para evaluar el rendimiento de una compañía
en especial o de las acciones en la bolsa.
 Vendedores, para determinar los productos que deben almacenar en
determinados almacenes, como debe ser ubicado dentro del almacén, o
también para evaluar la efectividad de una promoción.
 Firmas farmacéuticas, para evaluar grandes bases de datos con
elementos químicos y materiales genéticos con el fin de descubrir
substancias que puedan ser de utilidad para el desarrollo de nuevas
medicinas para el tratamiento de enfermedades.

Con esto vemos que la minería de datos ofrece una amplia gama de aplicaciones
en diferentes industrias y puede ser usada como un medio para aumentar las
ganancias a través de la reducción de costos o ya sea por medio del aumento de
los ingresos.

En cada una de estas aplicaciones, es normalmente necesario realizar e


implementar varias operaciones de minería de datos, en adición a las operaciones
relativas al Data Warehouse y los sistemas genéricos de soporte a la decisión.

Otro ejemplo de minería de datos es el relacionada con el análisis de la


vulnerabilidad de clientes. Esta se refiere al proceso de analizar diferentes tipos de
datos sobre los clientes para extraer modelos, denominados modelos de
vulnerabilidad, que predicen niveles de fidelización del cliente a marcas
particulares de productos (por ejemplo, zumos de naranja), o clases de productos
(por ejemplo, zumos de frutas congelados). En función de las predicciones de los
modelos, las empresas determinan como presentar los productos a los
consumidores en las tiendas, así como identificar al público objetivo al que dirigir
los distintos tipos de campañas y estrategias de marketing disponibles.

Los modelos de predicción de vulnerabilidad se desarrollan empleando un proceso


de cinco etapas:

 Identificar los tipos de datos que se emplearan en el análisis, así como los
registros de la base de datos de interés. Por ejemplo, es posible considerar
por separado las características demográficas y el historial de compra, o
bien integrarlas conjuntamente para el mismo análisis.
 Definir el concepto de cliente leal, o de forma contraria, el de cliente
vulnerable, que será el objetivo a predecir en base a otros indicadores del
cliente. Por ejemplo, volviendo al ejemplo del zumo de naranja, un cliente
leal a la marca es aquel que compra el mismo tipo de zumo más del 80%
de las veces.
 Emplear métodos de segmentación con el fin de identificar subconjuntos
relevantes dentro de los datos. Estos subconjuntos pueden contener tanto
clientes leales como vulnerables.
 Crear un modelo predictivo tanto para el conjunto de la población como
para cada uno de los segmentos identificados en el paso anterior. De esta
forma, es posible detectar diferencias significativas respecto a los perfiles
detectados en el esquema de segmentación.
 Aplicar los modelos generados a la población que se quiera calificar (puesta
en producción de los modelos), clasificando a cada uno de los clientes. El
beneficio final radica en la posibilidad de dirigir diferentes estrategias y
campañas de marketing a las diferentes tipologías de clientes detectadas.

Los modelos de vulnerabilidad constituyen sólo un ejemplo más de las muchas


aplicaciones de las técnicas de minería de datos. Las figuras 3.19 a 3.24 dan una
idea de otro tipo de aplicaciones que pueden ser abordadas con estas técnicas.

Figura 3.19: Ejemplo de escenario de aplicación de distintas técnicas de minería


de datos.

Figura 3.20: Ejemplo de escenario de aplicación de distintas técnicas de minería


de datos.

Figura 3.21: Ejemplo de escenario de aplicación de distintas técnicas de minería


de datos.

Figura 3.22: Ejemplo de escenario de aplicación de distintas técnicas de minería


de datos.
Figura 3.23: Ejemplo de escenario de aplicación de distintas técnicas de minería
de datos.

Figura 3.24: Ejemplo de escenario de aplicación de distintas técnicas de minería


de datos.

Capítulo 4.- Acceso y recuperación de la información textual y gestión


documental

OBJETIVOS

- Reconocer los problemas que plantea Internet de cara al acceso a los datos.

- Conocer los motores de búsqueda y aplicaciones de acceso a la información.

- Aplicar la minería de datos a la explotación de datos no estructurados: minería


de textos.

- Conocer y comprender el sentido de la gestión documental.

4.1 Problema del acceso de la información

4.1.1 La problemática del acceso a la información en internet

Muchas veces se ha hablado de Internet como la biblioteca mundial de la era


digital. Sin embargo, bajo ningún concepto se puede mantener esta afirmación,
Internet, y particularmente la World Wide Web, no fue diseñada para soportar una
publicación ordenada ni los mecanismos de recuperación de la información. Por el
contrario, ha evolucionado en algo así como un repositorio caótico que aglutina la
producción de la comunidad digital. Este almacén de información no sólo contiene
libros y artículos digitales, sino datos científicos, publicidad, grabaciones de audio
y vídeo, así como transcripciones de conversaciones iterativas.

En resumen, en Internet encontramos una gran cantidad diversa de contenidos los


cuales se encuentran dispersos en toda la red. Para poder acceder a los mismos
sería necesario un sistema muy similar a los sistemas de archivo tradicionales los
mismos que estarían en la capacidad de organizar, acceder y preservar la
información en la red. Incluso así, la Red no se parecerá a una biblioteca
tradicional, ya que sus contenidos son mucho más dispersos que los de una
colección estándar. En consecuencia, las habilidades de clasificación y selección
deben ser complementadas con las capacidades de indexación y almacenamiento
de los ordenadores.

Por el momento la tecnología informática sustenta la responsabilidad de organizar


la información en Internet. En teoría, el software que de forma automática clasifica
e indexa las colecciones documentales digitales puede abordar el enorme
volumen de información con la misma de los indexadores y bibliógrafos humanos
para realizar esto. El acceso automático a la información tiene la ventaja de poder
explotar directamente la rápida disminución del precio de los ordenadores,
evitando el alto coste y los retrasos de la indexación humana.

Sin embargo, cualquiera que haya buscado información en la web sabe que estas
herramientas automáticas categorizan la información de forma diferente que las
personas. En cierto sentido, el trabajo realizado por las diferentes herramientas de
indexación y catalogación, conocidas como motores de búsqueda, es altamente
democrático al no ejercer prioridades por calidad de contenido. Esto es así por que
su aproximación está basada en un acceso uniforme e igualitario a toda la
información de la Red. En la práctica, este igualitarismo electrónico perjudica
enormemente la búsqueda de información relevante. Un usuario de un sistema de
este tipo, que introduce una petición de búsqueda en el sistema, se ve
normalmente bombardeado por miles de posibles respuestas donde en muchos
documentos sólo nombran esa petición y no la profundizan. El resultado de la
búsqueda contiene, con frecuencia, referencias a sitios web irrelevantes, dejando
fuera otros que contienen importante material.

4.1.2 Mecanismos de búsqueda en internet

La naturaleza de la indexación electrónica puede entenderse analizando la forma


en que los motores de búsqueda, como Lycos o Altavista, construyen los índices y
buscan la información solicitada por un usuario. Periódicamente, lanzan
programas, denominados web crawlers o robots de indexación, a cada sitio que
pueden identificar en la web. En este contexto, un sitio web debe ser considerado
como un conjunto de documentos (páginas) que son accesibles por toda la Red.
Los robots descargan estas páginas, las examinan, y extraen información que
puede ser usada para describirlas. Este proceso, cuyos detalles varían de unos
proveedores a otros, puede incluir, simplemente, la localización de la mayoría de
las palabras que aparecen en las páginas, o bien un análisis sofisticado para
identificar términos clave y frases. Estos datos son almacenados en la base de
datos del motor de búsqueda, conjuntamente con la dirección URL que representa
la ubicación en la que reside la página. Cuando un usuario realiza una consulta
contra la base de datos del motor de búsqueda, este genera una lista de
recursos web, las direcciones URL, a las que el usuario puede acceder mediante
su navegador.

Los servicios de búsqueda sirven en millones de consultas diarias, las


características que hacen que este sistema de recuperación no sea ideal están
bastante claras. En contraste con la indexación humana, los programas
automáticos tienen dificultad para identificar las características de un documento,
como su contenido global o el género al que pertenecen. Es decir, son las
personas quienes tienen que clasificar si se trata de una canción, un poema, o
incluso un anuncio.

Además, la web todavía no dispone de estándares que podrían facilitar la


indexación automática. Como resultado de esto, los documentos de la web no
están estructurados, de forma que los programas de acceso no pueden extraer la
información rutinaria que un indexador humano encontraría en una simple
inspección: autor, fecha de publicación, extensión, contenido principal, etc 1. Un
robot de búsqueda podría recuperar el artículo solicitado escrito por Francisco
Alejandro, pero probablemente devolverá también miles de otros artículos en los
que este nombre es mencionado, tanto en el texto como en el apartado de
bibliografía.

En este sentido, los publicadores abusan en ocasiones del carácter indiscriminado


de la indexación automática. Un sitio web puede sesgar el proceso de selección
con el fin de atraer la atención de estos robots hacia él, repitiendo dentro de sus
páginas una palabra, como por ejemplo "sexo", que se sabe que se consulta con
frecuencia. El motivo: un motor de búsqueda mostrará en primer lugar las
direcciones URL de aquellos sitios que mencionan con mayor frecuencia un
término de búsqueda. De forma contraría, una persona puede fácilmente darse
cuenta de estos trucos.

Otro inconveniente de la indexación automática es que la mayoría de los motores


de búsqueda reconocen sólo texto. Sin embargo, uno de los grandes atrayentes
de Internet es la capacidad para contener y mostrar imágenes, ya sean gráficos o
videos, y sonidos. El acceso a este tipo de formato no está resuelto todavía.

Al mismo tiempo, la forma en que la información es estructurada en Internet


cambia constantemente. Esto hace que no pueda ser examinada por los robots de
búsqueda. Muchas páginas web ya no son ficheros estáticos que pueden ser
analizados e indexados por estos programas. En muchos casos, la información
mostrada en una página se organiza como respuesta a la acción del usuario. Por
ejemplo, un periódico electrónico puede permitir al lector que especifique que
noticias quiere ver en su versión personalizada de la edición. La base de datos de
noticias a partir de la cual esta se construye no puede ser accedida por el robot
que visita el sitio web (la figura 4.1, resume los principales problemas planteados
hasta ahora).
Figura 4.1: Problemas que plantea el acceso a la información en Internet.
1 Es decir, los metadatos.

4.1.3 Posibles soluciones

Pese a esta situación, un número creciente de investigaciones han intentado dar


respuesta a algunos de los problemas relacionados con los métodos de
clasificación automática. Una aproximación consiste en añadir metadatos a los
ficheros, de forma que los sistemas de indexación pueden acceder a esta
información. En este sentido, se han realizado varias propuestas para definir un
conjunto de metadatos estándar.

Sin embargo, esta iniciativa requiere un grado de consenso que, hoy por hoy, no
parece factible a corto plazo. Por ello, y en un intento de aprovechar al máximo las
capacidades de los sistemas de información, una alternativa más factible consiste
en intentar aplicar las técnicas de Business Intelligence a la extracción de la
información a partir de datos.

La figura 4.2, plantea los distintos grados de complejidad asociados con el


proceso de extraer conocimiento a partir de datos. Si bien este proceso es común
al planteamiento global de Business Intelligence, en el caso de la recuperación de
información textual cobra mayor relevancia. Cuando se plantearon los objetivos y
características de la minería de datos, en todo momento se está hablando de
explotar datos estructurados. Es decir, datos que, aun estando en una tabla de
una base de datos o en un fichero, responden a un formato relacional: registros
ordenados con una serie de atributos que los definen. Sin embargo, en el caso de
la recuperación de información en Internet, lo que se plantea es la extracción de
información a partir de textos, es decir, datos no estructurados, con un formato
imposible de estandarizar. Si además se añaden los componentes lingüísticos y
semánticos, es fácil darse cuenta del problema que se intenta abordar. La tabla
4.1 resume los principales problemas de acceso a los datos textuales.

Figura 4.2: Problemática de extracción de conocimiento a partir de los datos.

LA PROBLEMÁTICA DE LA INFORMACIÓN TEXTUAL

Riqueza semántica

 Los datos textuales tiene un significado semántico. Los numéricos no.


 No es posible hablar de "acceso a los datos", sino de "recuperación de la
información"
 La falta de un formato tabular dificulta el procesado de los datos mediante
técnicas de computación.
 L la existencia de diferentes idiomas dificulta aún más todo el proceso.

Medida de la similitud

 La comparación de los dos textos debe hacerse en base a sus


características lingüísticas y semánticas.
 La apreciación éstas características está influenciada por el contexto y
por el analista que aborda el problema.

Sumarización automática

 Con datos se pueden hacer descriptivas que los resuman, con textos es
mucho más complicado.

Tabla Características de los datos textuales y los principales problemas de


4.1. acceso a los datos textuales.

Con el fin de dar respuesta al descubrimiento de información en datos no


estructurados, surge la minería de textos (text mining) que es el proceso de
analizar texto para extraer información de utilidad. Con respecto a la minería de
datos, los objetivos son prácticamente los mismos1, pero el punto de partida es
bien distinto. Sin embargo, tal y como veremos, las operaciones y las técnicas que
soportan las aplicaciones son fundamentalmente distintas.

Hay que matizar que la minería de textos no es algo ligado a Internet. En efecto,
se pueden plantear muchas situaciones en las que sea necesario disponer de
herramientas de extracción de información a partir de textos no ligadas a Internet
(las figuras 4.3, 4.4, y 4.5 plantean algunas de ellas). Sin embargo, ha sido
Internet el gran detonante de la necesidad de aplicaciones de este tipo. La
necesidad de dotar a los motores de búsqueda de cierta inteligencia a la hora de
almacenar, indexar y recuperar la información ha sido el principal impulsor en este
campo.

Muchas de las tecnologías y herramientas desarrolladas en minería de textos


están dedicadas a la tarea de descubrir y extraer información. Las piezas básicas
de la información en los textos, como el idioma en que está escrito o los nombres
de personas y las fechas, se denominan características. Estas características se
usan para asignar documentos a categorías dentro de un esquema predefinido,
agrupar documentos por temas, afinar búsquedas en partes específicas de los
documentos, o mejorar la calidad de los sistemas de recuperación de la
información.

Figura 4.3: Aplicación de las técnicas de minería de textos en los sistemas de


atención a los clientes.

Figura 4.4: La minería de textos como preproceso anterior a la minería de datos.

Figura 4.5: La minería de textos dentro de la gestión del conocimiento.


1Quizá pierde algo de sentido el decir aquí que la información extraída se emplee
para la toma de decisiones de negocio.

4.2 Minería de textos y las organizaciones

4.2.1 ¿Qué atrae a las empresas hacia la minería de textos?

La minería de textos es la extrapolación de las ideas de minería de datos a


archivos de textos poco o nada estructurados. La minería de datos permite extraer
de los datos características desconocidas mediante el empleo de métodos
avanzados, las cuales se escapan del alcance de las técnicas de consulta
tradicionales. Las técnicas de minería de textos permiten procesar y comparar
datos provenientes de múltiples y diversas fuentes, extrayendo información no
visible en muchos casos para el usuario, y que puede soportar la toma de
decisiones.

Las técnicas de minería de textos son, en sí mismas, potentes, permitiendo a los


usuarios convertir grandes volúmenes de documentos electrónicos en almacenes
de información y significado acerca de su negocio. Cuando se usan como
herramientas de soporte en proyectos de gestión del conocimiento, estas técnicas
pueden ayudar en multitud de aplicaciones.

Por ejemplo:

 Descubrir contenidos implícitos en colecciones de documentos, incluyendo


relaciones y vínculos de interés.
 Descubrir relaciones entre documentos pertenecientes a divisiones
distintas. Por ejemplo, pueden encontrar que los clientes asociados a la
cartera de un producto tienen justo las características que se están
buscando.
 Agrupar documentos por temas comunes. Por ejemplo, todos los clientes
que han formulado quejas y han cancelado sus pólizas. Esto puede
permitir:

- Identificar y solucionar problemas.

- Eliminar cuellos de botella mediante la identificación de patrones


repetitivos.

- Encontrar nuevas oportunidades de negocio, muchas de ellas con clientes


de alta rentabilidad.

APLICACIONES

 Análisis de opiniones de
 Estudios sobre la competencia.
clientes.
 Estudios de relaciones
 Análisis de encuestas.
documentales.
 Análisis de servicios de
 Servicios de búsqueda
noticias.
automatizados.
 Análisis de patentes.
 Descubrimiento de nuevos
 Clasificación documental.
competidores.
 Construcción de motores de
 Diseño de mapas de
búsquedas inteligentes.
conocimiento sobre problemas
 Construcción de servicios de
específicos.
atención a usuarios
 Sondeos sobre nuevos productos.
inteligentes.
 Pre-proceso para alimentación de
 Exploración de nuevos
sistemas informacionales.
mercados.

Tabla 4.2. Principales aplicaciones de minería de textos.

4.2.2 Escenarios de trabajo y principales operaciones de minería de textos

Las herramientas de minería de textos proporcionan a los integradores de


sistemas, proveedores de soluciones y desarrolladores de aplicaciones, un amplio
abanico de herramientas de análisis, componentes de búsqueda de datos
textuales y herramientas de acceso a la web. De esta forma, y dependiendo de las
características de cada herramienta, se convierten en una poderosa ayuda para el
desarrollo de soluciones de gestión del conocimiento.
Con la minería de textos se puede acceder a la información de negocio que está
implícita y encerrada en el correo electrónico, reclamaciones de seguros, canales
de noticias, permitiendo el análisis de carteras de patentes, cartas de quejas de
clientes, e incluso las páginas web de la competencia.

Los componentes típicos de una solución de minería de textos son:

 Módulos de análisis de textos, incluyen herramientas de identificación del


idioma en textos, segmentación y categorización de documentos, extracción
de características y elaboración automática de resúmenes.
 Motores de búsqueda avanzados; permiten buscar información textual,
descubrir conceptos relacionados y soportan diferentes tipos de indexación,
cada uno de los cuales está pensado para el tipo de uso que se quiera
efectuar.
 Robots de búsqueda, un conjunto de herramientas para diseñar y ejecutar y
programar robots de búsqueda, acostumbran a incluir funcionalidades para
el almacenamiento de metadatos e integración con motores de búsqueda.

Las distintas herramientas que componen los paquetes de minería de textos se


pueden utilizar individualmente o bien combinándolas de distintos modos para
crear soluciones de minería de textos a medida. Por ejemplo, se pueden combinar
los módulos de análisis de textos con los motores de búsqueda.

TÉCNICAS Y OPERACIONES

Herramientas de análisis de textos

 Extracción de características (nombres, relaciones, fechas, cantidades,


eventos...)
 Elaboración automática y configurable de sumarios.
 Segmentación automática de documentos en base a sus características
lingüísticas.
 Categorización de documentos en clases predefinidas. Detección
automática del idioma.

Motores de búsqueda inteligentes

 Capacidades de indexación avanzadas.


 Soporte de consultas complejas.
 Robots de búsqueda automática por internet.

Soluciones de búsqueda a medida para intranets


 Interfaces de usuario configurables, con limitación de acceso a las
colecciones de información según perfiles.

Tabla 4.3. Principales técnicas y operaciones de minería de textos.

En esta situación, es posible utilizar la capacidad de extracción de características


para crear índices inteligentes, que permiten efectuar consultas refinadas en base
al contenido específico de los documentos.

4.3 Herramientas de análisis de textos

Las herramientas de análisis de textos cubren una serie de funcionalidades


encaminadas a extraer información relevante de grandes colecciones textuales.
En la figura 4.6 se puede observar las distintas características principales de
estas herramientas.

Figura 4.6: Integración de las herramientas de análisis de textos.

4.3.1 Herramientas de extracción de características

Cada día se recibe una gran cantidad de documentos electrónicos. Se abre cada
uno de los documentos ellos, se lee, se imprime y, a continuación, se utiliza un
rotulador fluorescente resaltador para marcar los puntos o características más
significativas del texto. Con una herramienta de extracción de características, este
proceso puede ganar velocidad de manera espectacular, puesto que las
características principales del texto se reconocen automáticamente.

Los módulos de análisis de texto incluyen un componente de este tipo. Se trata de


una herramienta que puede reconocer términos significativos del texto. El proceso
es totalmente automático y el vocabulario no está predefinido.

Las funciones de extracción de nombres pueden proporcionar pistas útiles sobre el


tema de un texto. Puede localizar nombres en un texto y determinar si se trata de
nombres de personas, lugares o empresas, e incluso distingue, por ejemplo, en
qué casos "África" es un nombre propio o el nombre del continente. Puede
reconocer nombres incluso si aparecen con formas distintas, tales como "Ricardo
Arando" o "Sr. Arando", o bien "Asociación de Consumidores de Pontevedra" o
"ACP". Un recuento de las frecuencias de aparición de todas estas variantes
permite detectar los términos más significativos de un documento, es decir, los
que lo caracterizan. Esto puede constituir un método rápido par conocer el
contenido de un documento sin tener que leerlo. Estas estadísticas de frecuencias
de aparición también se pueden utilizar para encontrar términos que se puedan
emplear para buscar en documentos similares.

Las funciones de extracción de terminología encuentran automáticamente


términos compuestos con un significado propio, como "impresora láser". También
puede reconocer distintas formas del mismo término, como "cuenta de gastos" y
"cuentas de gastos".

Las funciones de análisis de abreviaturas detectan coronamos y siglas, y las


relaciona con sus formas completas, creando una estructura de relaciones. La
funciones de extracción de relaciones buscan información del tipo "Empresa_X
fabrica muebles", "J. Sanz consejero_delegado Empresa_X", "Jaén ubicación
Empresa_X". Existen otro tipo de funciones que detectan otros elementos
significativos, tales como fechas, números y cantidades de dinero.

La figura 4.7 muestra un ejemplo de extracción de características de un


documento. Por un lado figuran las palabras clave, y por otro los términos
extraídos en distintos colores. A continuación, se analizarán con mayor detalle los
procesos de extracción de información.

Figura 4.7: Ejemplo de extracción de características sobre un documento web.

4.3.1.1 Rasgos significativos de un texto

La extracción de conceptos lingüísticos que proporcionen información


representativa del contenido de un documento es una de las tareas más
habituales en el análisis textual. Una base de datos convencional consiste en
colecciones homogéneas (listas y tablas) de datos atomizados (números y
cadenas de caracteres) que representan de forma explícita la estructura
informacional que contienen. La información es extraída mediante consultas a la
base de datos empleando un lenguaje formal. Esta información parcial es recogida
en los tipos de datos y combinada a través de los enlaces que proporciona la
estructura explícita de la base de datos.

En principio, esta situación es la misma si el contenido de la base de datos es más


complejo (por ejemplo, gráficos y textos). Sin embargo, el proceso de extracción
es mucho más complicado, ya que la información implícita disponible en el
contenido de los datos complejos tiene que ser integrada en la estructura explícita
de toda la base de datos y, así, hacerla accesible de cara a su aprovechamiento.

La extracción de datos implícitos de textos puede ser interesante por varios


motivos. Los siguientes son sólo algunos ejemplos:
 Para resaltar información importante. Por ejemplo, para hacer más visibles
términos importantes en documentos que han sido devueltos por una
consulta en una Intranet o que han sido recibidos por correo electrónico.
Esto puede dar una impresión rápida sobre el interés del documento y la
urgencia de su procesado.
 Para encontrar nombres de la competencia. Cuando se efectúan estudios
de mercado resulta útil realizar una extracción de nombres de los
documentos que han sido recibidos por diferentes fuentes, con el fin de
ubicar a los posibles competidores.
 Para encontrar y almacenar conceptos clave. Esto podría reemplazar a un
sistema de recuperación de textos donde se emplean enormes índices no
siempre apropiados.
 Para usar tópicos relacionados con el fin de refinar consultas. Si se
almacenan los conceptos clave encontrados en los documentos de una
Intranet en una base de datos, es posible construir una aplicación para
refinar consultas contra ella. De esta manera, los tópicos relacionados con
las consultas iniciales pueden ser empleados para refinar búsquedas
posteriores.

4.3.1.2 Extracción de características

De cara al empleo de las técnicas de extracción de características en minería de


datos, se puede asumir el siguiente escenario de trabajo: la base de datos es una
colección de documentos dentro de la cual la única estructura explícita es un
conjunto desordenado de datos textuales complejos y arbitrarios. Un aspecto
importante de este escenario es llegar a saber con que criterio están relacionados
los documentos de dicha colección.

En general, la información sobre las propiedades comunes de los documentos


puede ser obtenida a través de las características de su vocabulario. De hecho,
este consiste en una relación de expresiones que tienen que ver con los
conceptos expresados en los documentos. Frecuentemente, los nombres o los
conceptos relativos a un determinado dominio son característicos del contenido de
un texto. Las herramientas de extracción de características pueden generar este
vocabulario de forma automática. No es necesario un vocabulario predefinido. En
este sentido, estas herramientas asignan diferentes categorías al vocabulario
encontrado, así como una medida de su importancia dentro del contenido del
texto. Esto último se mide a través de un cociente de información (IQ, Information
Quotient).

Es posible extraer los siguientes tipos de información:

 Nombres de personas, organizaciones y lugares, como Doña Isabel


Fernández, Instituto Nacional de Estadística o Avilés, Asturias.
 Términos compuestos, como unidad central de proceso.
 Acrónimos, como IVA, para el impuesto sobre el valor añadido / agregado.
 Relaciones, como Juan Sánchez preside Congelados Cántabros, SA.

Las herramientas de extracción de características pueden funcionar en dos


modalidades. En la primera analizan un único documento. En la segunda, siendo
el modo más empleado, localizan en un documento el vocabulario que se
encuentra en un diccionario que ha sido previamente construido, de forma
automática, a partir de una colección de documentos similares. La ventaja de esta
segunda modalidad radica en que, cuando se emplea una colección de
documentos, estas herramientas son capaces de agregar las instancias presentes
en ellos con el fin de definir un vocabulario óptimo. Por ejemplo, pueden detectar
que varias instancias diferentes son en realidad variaciones de un mismo término,
definiendo este último como la forma canónica. Además, pueden asignar una
medida de significación estadística, el IQ, a cada elemento del vocabulario.

4.3.1.3 Cociente de información

Esta medida de significación, el IQ, es un número que es asignado a cada


elemento del vocabulario encontrado en una colección de documentos. Para
calcular el IQ se emplea una combinación de métricas estadísticas que,
combinadamente, miden el nivel de significado de la palabra, frase o nombre
dentro de los documentos de la colección. Por ejemplo, a los elementos que
aparecen con más frecuencia dentro de un documento que en toda la colección se
les asigna una medida más alta. Aquellos con un IQ más alto son casi siempre
nombres o términos compuestos, ya que tienden a expresar un significado más
focalizado que los términos sencillos por sí solos.

4.3.1.4 Extracción de nombres

La tecnología de extracción de nombres emplea técnicas heurísticas robustas para


localizar nombres en el texto. Además, determinan a que tipo de entidad se refiere
cada nombre: persona, lugar, organización u otros, como publicaciones, premios,
eventos históricos, etc.

Todos los nombres que se refieren a la misma entidad, como por ejemplo el
expresidente de los Estados Unidos Clinton, Mr. Clinton y Bill Clinton, son
reconocidos de la misma forma, en el sentido que se refieren a la misma persona.
A cada grupo de variantes se les asigna una forma canónica, por ejemplo Bill
Clinton, para diferenciarlos de otros grupos que se refieren a otras entidades,
como Clinton, Nueva Jersey. La forma canónica es la más explícita y menos
ambigua de todas las variantes encontradas. Esta tecnología permite reconocer en
torno al 95% de los nombres existentes en un texto, sin necesidad de una base de
datos de estos preexistente. Tiene que quedar claro que este porcentaje se aplica
en ausencia de errores tipográficos y de escritura. Además, puede manejar las
ambigüedades estructurales inherentes al lenguaje. Un ejemplo es Francia y
España frente a la Fundación para la Ley y el Orden. En el primer caso une dos
nombres separados, mientras que en el segundo es parte del propio nombre.S
4.3.1.5 Extracción de términos

La tecnología de extracción de términos descubre términos en textos de forma


automática. Emplea un conjunto de heurísticos para identificar términos técnicos
compuestos. Estos heurísticos trabajan realizando emparejamiento de patrones
simples, con el fin de encontrar expresiones que tienen las características de las
estructuras de los términos técnicos.

La repetición de términos en un único documento es una señal de que estos están


relacionados con el contenido del mismo. Su medida permite asegurar la calidad
del proceso de extracción. También son reconocidas las variantes relacionadas
con un mismo concepto, asignándoles una misma forma canónica.

4.3.1.6 Acrónimos

Es posible encontrar también variantes de términos y nombres en forma de


abreviaturas y relacionarlas con las correspondientes formas desarrolladas.

4.3.1.7 Extracción de relaciones

La extracción de relaciones identifica posibles relaciones mediante el empleo de


heurísticos de tipo lingüístico para analizar la ocurrencia de patrones de cierto tipo.
Debido a esta naturaleza, no hay una lista cerrada de relaciones que pueden ser
descubiertas. Algunos ejemplos son Joaquín Fernández - Responsable General -
Gestión de datos o IBM Corp. - fabrica - ordenadores.

Además de relaciones tipo edad, profesión, "produce" pueden ser extraídas otras
como, por ejemplo, dependencia (tiene, posee,...), origen (creado, construido),
relaciones familiares (esposa, pariente), etc. El abanico de relaciones potenciales
está limitado sólo por la información contenida en los documentos que están
siendo analizados.

Las herramientas de extracción de características se usan en conjunción con las


de categorización, pero también pueden hacerlo con otras. Por ejemplo, pueden
emplearse en un paso de preproceso para las técnicas de segmentación. Aquí, es
posible orientar la segmentación con respecto a diferentes aspectos de los
documentos, como personas, organizaciones, etc.

4.3.2 Asignación de documentos a categorías predefinidas

Cada día se reciben muchos mensajes de correo electrónico de clientes que


hacen referencia a distintos productos. Estos mensajes se pueden clasificar según
el tipo de producto para enviarlos al representante indicado. Puesto que los
mensajes no tienen una estructura fija, la única forma de determinar el producto
relevante consistía en abrir el mensaje y leerlo.
Las herramientas de categorización pueden ayudar a enviar de forma automática
cada mensaje de correo electrónico al representante apropiado del producto.
Estas herramientas analizan documentos, en este caso mensajes de correo
electrónico, y determinan de forma automática la categoría o categorías a las que
pertenece un documento en función de un sistema de clases predefinido. El
resultado de una categorización es una lista de nombres de clases y niveles de
fiabilidad para cada documento. Esta herramienta consta de un módulo de
aprendizaje en el que se definen las categorías mediante ejemplos conocidos.

Otro ejemplo viene de la organización de la documentación. Los documentos en


una Intranet pueden estar divididos en categorías, tales como Política de personal,
Información de Lotus Notes o Información sobre sistemas. Puede resultar muy
poco práctico catalogar manualmente millones de documentos en una Intranet
grande. Mediante la categorización automática, los documentos se pueden asignar
a un esquema predefinido. De este modo es más simple encontrar los documentos
examinando o limitando el ámbito de búsqueda del texto.

En general, categorizar objetos significa asignarlos a categorías predefinidas o


clases derivadas de una taxonomía. Las categorías pueden sobreponerse o estar
incluidas unas dentro de otras.

En el contexto de la minería de textos, la categorización se aplica a la asignación


de documentos a categorías ya existentes, muchas veces llamadas tópicos o
temas. Las categorías se eligen para satisfacer un uso determinado de la
colección de textos, y tienen que ser entrenadas antes de su uso. Asignando
documentos a categorías, la minería de textos puede ser de gran ayuda para
organizarlos. Si bien la categorización no puede reemplazar el tipo de catalogación
que hacen los bibliotecarios, puede suponer una alternativa mucho menos
costosa. Además, puede ser muy útil en otras aplicaciones tales como:

- Organización de documentos en una Intranet. Por ejemplo, los documentos en


una Intranet pueden estar divididos en categorías, como Política de Personal,
Informaciones sobre Lotus Notes o Información sobre ordenadores personales. Se
ha estimado que el coste de catalogar un documento de forma manual ronda los
25 dólares. Claramente, ésta es una solución impracticable para los millones de
documentos que puede haber en una Intranet. La automatización de este proceso
es algo totalmente necesario.

- Asignación de documentos a carpetas. La categorización puede ayudar a


archivar documentos de una forma eficiente. Por ejemplo, puede ayudar a una
persona a asignar el correo electrónico a un conjunto de buzones, sugiriendo
aquellos más probables.

- Distribuir documentos. En direcciones comunes de correo electrónico o en


centros de atención telefónica, la categorización puede ser de gran ayuda.
Mediante ésta, los informes sobre problemas pueden ser directamente
direccionados a la persona más adecuada.
- Dirigir noticias a subscriptores. Un servicio de noticias puede usar la
categorización automática para asignar tópicos a cada noticia entrante. De esta
forma, es posible enviar a cada subscriptor las noticias que más le interesen.

4.3.2.1 Fase de entrenamiento

La herramienta de categorización asigna documentos a categorías predefinidas.


Para este fin, la herramienta debe ser entrenada primero con un conjunto de
aprendizaje, consistente en un conjunto de muestras de documentos para cada
categoría. Esta colección se usa para crear un esquema de categorías.

El entrenamiento emplea las herramientas de extracción de características para


almacenar sólo la información relevante en el diccionario. El esquema de
categorías es un diccionario que codifica de forma condensada las estadísticas del
vocabulario significativo de cada categoría. Estas estadísticas son usadas para
determinar la categoría o categorías cuyos documentos de muestra están más
cercanos a un documento que se desea clasificar.

4.3.2.2 Algoritmo de categorización

La función del algoritmo de categorización es construir una lista ordenada de


categorías para un trozo de texto determinado, denominado documento de
consulta.

El valor de rango es una suma sobre el número de ocurrencias de todos los


diferentes elementos de vocabulario (por ejemplo, las formas canónicas o sus
variantes) en el documento de consulta. Cada número de ocurrencias es
ponderado por un término que tiene en cuenta la frecuencia relativa del elemento
de vocabulario en la categoría con respecto a la frecuencia relativa en todo el
conjunto de entrenamiento. De esta forma, una palabra con una alta frecuencia en
una única categoría y, comparativamente, poca frecuencia en todo el conjunto de
entrenamiento, tendrá un valor de ponderación más alto que otra que aparece
mucho en el conjunto de entrenamiento o que es poco frecuente en la categoría.

Para cada categoría se calcula un valor de rango con respecto al vocabulario del
documento de consulta. La salida de la herramienta de categorización es un texto
que lista cada documento de consulta conjuntamente con su valor de rango para
cada categoría, ordenados de mayor a menor. El número de categorías
contabilizadas puede ser especificado por el usuario.

4.3.3 Detección del idioma

Los documentos que se reciben pueden estar en distintos idiomas, que luego se
deben traducir. El documento se abre manualmente mediante un sistema de
correo electrónico, se explora el texto para determinar en qué idioma se ha escrito
el documento y, a continuación, se envía a un traductor. Hasta ahora, éste ha sido
un procedimiento demasiado lento y costoso.

Las herramientas de identificación del idioma pueden detectar automáticamente el


idioma en que está escrito un documento. Su precisión suele aproximarse al
100%, incluso en el caso de textos breves. Actualmente soportan múltiples
idiomas, incluidos el castellano y el catalán, aunque es posible entrenar al sistema
para que reconozca más. Este proceso de entrenamiento también puede
emplearse para mejorar la calidad de detección en idiomas ya soportados. Estas
herramientas utilizan pistas tales como palabras con una frecuencia de aparición
elevada o estadísticas sobre las distribuciones de secuencias de caracteres
determinados.

Otras aplicaciones de estas herramientas son la organización automática de


conjuntos de datos indexables según el idioma, o la restricción de las búsquedas a
los documentos en un determinado idioma.

La funcionalidad de las técnicas de categorización y detección del idioma es casi


la misma. Ambas están dotadas de módulos de entrenamiento para aprender las
categorías a partir de ejemplos. Sin embargo, la función de similitud empleada es
diferente. En la herramienta de identificación del idioma se comparan pequeñas
agrupaciones de caracteres, mientras que la de categorización está basada en el
análisis del léxico, donde se intenta identificar y comparar ocurrencias en
elementos de vocabulario.

4.3.4 Segmentación de documentos en grupos

Cuando se obtiene un gran número de documentos a partir de una consulta de


búsqueda, es fundamental que se pueda tener una visión general del resultado.
Normalmente estos documentos aparecen en una lista clasificada, es decir, se
ordenan según su importancia en la consulta. No obstante, si la consulta en sí ya
no es muy precisa, esto no sirve de ayuda.

Los resultados se pueden presentar mejor si se agrupan en conjuntos de


documentos relacionados. De este modo, son mucho más fáciles de entender,
puesto que el análisis de un solo documento de un grupo puede mostrar si merece
la pena seguir analizando dicho grupo. Las técnicas de segmentación de
documentos, cuyo objetivo es similar al que se persigue en minería de datos, se
pueden utilizar para alcanzar este objetivo.

Las herramientas de segmentación facilitan el proceso de examen para buscar


informaciones parecidas o relacionadas entre sí. Estas herramientas encuentran
los conceptos fundamentales de un conjunto de documentos y los agrupan
automáticamente en conjuntos que contienen conceptos similares (clusters). Estos
conjuntos se crean dinámicamente sin que se necesiten clases predefinidas. Esta
es la diferencia fundamental con respecto a las técnicas de categorización (ver
figura 4.8).

Figura 4.8: Diferencias entre los procesos de segmentación y clasificación.

Dentro de una colección de objetos, un cluster puede definirse como una


agrupación de estos cuyos miembros son más similares entre sí que con respecto
a otros miembros en cualquier otro grupo.

En minería de textos, la segmentación se emplea para dividir una colección de


documentos en subconjuntos, los clusters, siendo los miembros de cada
subconjunto similares con respecto a ciertas características de interés. Para un
proceso de segmentación no se requieren taxonomías o esquemas de
clasificación previos.

Típicamente, el objetivo de la segmentación es determinar un conjunto


de clusters donde la similitud inter-cluster sea mínima y la similitud intra-
cluster sea máxima. En general no hay una solución única a este problema. Se
han propuesto un variado número de algoritmos que son más o menos adecuados
para distintas colecciones de datos e intereses.

En este sentido, muchas herramientas de minería de textos incluyen dos técnicas


de segmentación: jerárquica y binaria. En la segmentación jerárquica, los
segmentos son dispuestos en forma de árbol, donde aquellos relacionados están
dispuestos en la misma rama, mientras que en la binaria se genera una relación
plana de los segmentos.

En cualquier caso, los procesos de segmentación pueden emplearse para


diferentes fines:

 Proporcionar una idea del contenido de una colección de documentos


extensa. Por ejemplo, segmentos grandes en una colección de sugerencias
de los clientes podría indicar la necesidad de mejorar ciertos productos o
servicios.
 Identificar estructuras ocultas dentro de grupos de objetos. Cuando una
Intranet crece de forma rápida, la segmentación permite asegurar que los
documentos relacionados están correctamente enlazados.
 Facilitar el proceso de búsqueda de información similar o relacionada. Por
ejemplo, para obtener una visión general de documentos provenientes de
una encuesta de opinión.
 Encontrar los documentos más representativos dentro de un conjunto. En
documentos obtenidos de un servicio de noticias es interesante detectar
aquellos cuyo contenido es acerca de nuevas tendencias o tecnologías que
no han sido mencionadas previamente.
 Detectar documentos duplicados en un archivo.

4.3.4.1 Segmentación jerárquica

El algoritmo empleado en la segmentación jerárquica empieza con un conjunto de


segmentos simple, cada uno conteniendo un único documento. Estos segmentos
constituyen las ramas finales del árbol de segmentación. Partiendo de ellos, el
algoritmo identifica pares de segmentos que son muy similares y los agrupa en un
segmento superior. Este proceso iterativo continúa hasta llegar a un único
segmento, que constituye la raíz del árbol.

Al combinar dos segmentos, la similitud intra-cluster es calculada. En este


sentido, los segmentos simples de las ramas tienen una similitud del 100%, ya que
están formados por un único documento. El árbol binario construido durante este
proceso contiene toda la información de la segmentación, incluyendo todas las
similitudes inter e intra-cluster. La similitud inter-cluster entre dos segmentos
arbitrarios es similitud intra-cluster del primer segmento en común.

El árbol binario resultante podría ser excesivamente frondoso, conteniendo


muchos segmentos para unos pocos documentos. Debido a que, por lo general,
son difíciles de visualizar, es posible aplicar técnicas de podado de cara a
procesados posteriores. Los segmentos dentro de una misma rama que tienen
una similitud intra-cluster comparable pueden ser fusionados en un único
segmento. Esto reduce la profundidad del árbol y facilita su análisis. La técnica de
podado puede parametrizarse con el fin de tratar colecciones de documentos
homogéneas o heterogéneas. Para colecciones homogéneas la distribución de las
similitudes intra-cluster tiende a estar por encima del 50%, mientras que para
conjuntos heterogéneos el valor está por debajo. En este sentido, es posible
especificar un valor umbral mínimo que permita fusionar dentro de la raíz del árbol
aquellos segmentos cuya similitud intra-cluster esté por debajo de este umbral.
Seleccionando un valor umbral máximo puede especificarse que un segmento
cuya similitud intra-cluster sea superior a este no necesita una mayor
descomposición. Ajustando el número de ramas, el usuario puede fijar la
profundidad máxima del árbol.

Para medir la similitud de los documentos es necesario efectuar un paso previo de


análisis lingüístico del vocabulario de los documentos. Los términos identificados
se almacenan en forma de vector de términos, los cuales se comparan entre sí. El
vector de términos de un segmento es una fusión de los vectores de sus
subsegmentos.

Para la etapa de análisis lingüístico pueden emplearse las Herramientas de


extracción de características u otro medio que permita obtener afinidades léxicas.

Una afinidad léxica es la correlación existente en un grupo de palabras que


aparecen frecuentemente en una distancia corta a lo largo de los documentos
seleccionados. Ejemplos de afinidades léxicas son expresiones como biblioteca
electrónica o hardware informático. Estas afinidades se generan dinámicamente y
son específicas de cada colección de documentos.

La noción de similitud entre documentos y segmentos es clave para obtener


subconjuntos de información de gran calidad. El empleo del grado de
solapamiento entre palabras sencillas como medida de similitud es bastante
impreciso y susceptible de distorsión, debido sobre todo al alto grado de
ambigüedad léxica que aparece entre términos aislados.

Idealmente, un análisis semántico de los documentos es la mejor manera de


identificar los conceptos que aparecen en un texto de cara a un proceso de
segmentación. Sin embargo, este tipo de análisis es muy costoso y depende
excesivamente del dominio específico del texto. La extracción de afinidades
léxicas es más conveniente que un análisis semántico, ya que es una solución que
no depende del dominio en cuestión. De esta manera, es posible derivar un
conjunto valioso de términos semánticos sin ayuda de léxicos especializados o
diccionarios de sinónimos específicos.

Normalmente, las herramientas de segmentación jerárquica generan los títulos de


cada conjunto, así como listas breves de frases relevantes que sean
características de los documentos que contienen. El resultado acostumbra a
mostrarse en forma jerárquica o dendograma (figura 4.9).

Figura 4.9: Segmentación jerárquica de documentos.

4.3.4.2 Segmentación binaria

La segmentación binaria puede encontrar tópicos ocultos en una colección de


documentos y establecer relaciones entre ellos. El procesamiento y el resultado
obtenido difieren del de la segmentación jerárquica en lo siguiente:

 La estructura de segmentos es plana.


 Cada documento es ubicado en un solo segmento, aquel más
representativo.
 Cada segmento se corresponde con un tópico.
 Los tópicos se relacionan entre sí a través de sus características comunes.

La segmentación binaria es un proceso iterativo a través del cual los documentos


se organizan en segmentos. Los documentos en un segmento son lo más similar
posible entre sí, mientras que los segmentos son lo más diferente posible uno
entre otros. Normalmente, es posible obtener buenos resultados con unas cuantas
iteraciones.
Para medir el grado de similitud es necesario extraer las características
representativas de los documentos. Las herramientas de extracción de
características se emplean para obtener estos descriptores. El grado de similitud
está basado en la comparación de los descriptores de cada documento con las
características representativas extraídas de toda la colección. La similitud entre
pares de documentos se puede calcular de tres maneras:

 A los descriptores que aparecen con más frecuencia a lo largo de los


documentos de la colección se les asigna más peso que aquellos que
ocurren en solo un pequeño número de documentos; esto da prioridad a los
tópicos más extendidos.
 A los descriptores que son compartidos por sólo un pequeño número de
documentos se les asigna más peso que aquellos que ocurren con más
frecuencia en la colección. Esto da como resultado un mayor número de
segmentos representativos de tópicos específicos.
 A los descriptores que ocurren con más frecuencia a lo largo de la colección
se les asigna un peso ligeramente inferior al de aquellos más específicos.
Esto reduce el efecto de dar prioridad a los tópicos más extendidos y
normalmente conduce a resultados mejores cuando se desea que el
resultado de la segmentación sea independiente de la frecuencia de los
descriptores.

Las herramientas de segmentación pueden usarse como paso previo a un proceso


de categorización, sobre todo de cara a preparar los conjuntos de aprendizaje.

En la figura 4.9 se muestra la segmentación de una colección de opiniones


derivadas de una encuesta. Consiste en un conjunto de cartas de alumnos que
describen los proyectos de investigación que les gustaría mostrar en una
página web. La colección es muy heterogénea en cuanto a su contenido. Los
resultados se muestran de forma jerárquica. A la izquierda se puede observar el
árbol de segmentos y subsegmentos. A la derecha, los documentos para cada
categoría.

4.3.5 Elaboración automática de sumarios

La sumarización es el proceso de condensación de un texto, denominado fuente,


en una versión más reducida, conservando la información de su contenido. Las
herramientas de sumarización extraen de forma automática aquellas frases de un
documento que son más relevantes de cara a la definición de su contenido. A
partir de estas frases se crea un sumario del documento. Estas herramientas
emplean un conjunto de estrategias de ordenación a nivel de palabra y frase con
el fin de evaluar la relevancia de estas en el conjunto del contenido. La longitud del
sumario producido puede ser establecida por el usuario.

La generación automática de sumarios puede ser de gran utilidad para:


 Juzgar la relevancia de un texto. Leyendo un sumario generado de forma
automática, un usuario puede darse una idea de su contenido global y
decidir si merece la pena leerlo entero.
 Enriquecer los resultados de una búsqueda. Los resultados de una consulta
efectuada a un motor de búsqueda pueden ser enriquecidos añadiendo una
breve descripción de cada documento. Esto permite a la persona decidir si
merece la pena indagar más en el documento a través del enlace
correspondiente.
 Tener una visión general de una colección de documentos. De esta forma
es posible decidir que documentos son más importantes, dándoles una
mayor prioridad.

4.3.5.1 Algoritmo de sumarización

Los algoritmos de sumarización consisten en un paso de preprocesado y dos de


ordenación: uno de palabras y otro de frases. En la parte de preprocesado, se
identifican los límites y alcance de las palabras, frases y párrafos. Para ello se
emplean las herramientas de extracción de características. Este análisis se realiza
con respecto a un vocabulario de referencia extraído de unas colecciones de
ejemplo.

El resultado de esta fase de preprocesado es empleado durante la ordenación de


palabras con el fin de asignar una puntuación (scoring) a los términos
identificados. No todas las palabras son susceptibles de recibir esta puntuación.
Deben, al menos, cumplir los siguientes criterios:

 La palabra debe aparecer al menos dos veces en el documento.


 La palabra debe aparecer en ciertas partes del documento, como títulos o
encabezados.
 La palabra debe aparecer con más frecuencia en el documento en cuestión
que en la colección de documentos del vocabulario de referencia.

Dependiendo de su ubicación en el documento, a la palabra se le asigna un factor


de ponderación.

Su frecuencia dentro del vocabulario de referencia y el documento en sí mismo


son también empleados para calcular la puntuación.

El paso final de ordenación de frases asigna puntos a éstas. La puntuación para


las frases se calcula a partir de:

 La puntuación de las palabras individuales en la frase.


 La proximidad de la frase al inicio del párrafo.
 La proximidad de la frase al inicio del documento.
 Las frases finales de párrafos extensos o los párrafos finales en grandes
documentos reciben una puntuación extra.
Algunos de estos valores pueden ser además multiplicados con coeficientes
específicos determinados por el usuario.

Las frases con puntuación más alta son extraídas para crear el sumario del
documento. La longitud de este puede establecerse a través de un número
máximo de frases o como un porcentaje de la extensión del documento.

4.3.5.2 Calidad de los sumarios

La calidad de los sumarios puede mejorarse cuando se emplea un vocabulario de


referencia específico del dominio en cuestión, habiendo sido generado a partir de
una colección genérica de documentos.

Si se está interesado en un dominio en particular, como investigación médica, por


ejemplo, pueden emplearse las herramientas de extracción de características
sobre una colección de muestra con el fin de generar un fichero de referencia
particular. En este sentido, un vocabulario de referencia específico ofrece mejores
resultados.

4.4 Búsqueda de información

4.4.1 Motores de busqueda avanzados

La función de un motor de búsqueda textual es doble. Por un lado indexa


documentos en base a una serie de parámetros definidos por el administrador del
sistema y, por el otro, canaliza las solicitudes de los usuarios cuando quieren
recuperar información.

He aquí un ejemplo. En el departamento jurídico de una multinacional se está


creando una biblioteca digital de todos los casos en los que la empresa haya
intervenido. Esta biblioteca está almacenada en un servidor muy potente. La
mayoría de los documentos (por ejemplo, aquellos relacionados con la legislación
medio ambiental) están escritos en idiomas distintos. Los documentos contienen
terminología especializada del campo jurídico. Los empleados deben poder
realizar búsquedas en la biblioteca mediante consultas complejas y específicas en
distintos idiomas. También se les puede ofrecer la posibilidad de realizar
búsquedas imprecisas para que puedan localizar términos abreviados. En este
caso, un motor de búsqueda proporcionará distintos recursos de consulta, la
posibilidad de indexar y buscar en varios idiomas, utilizar diccionarios de
sinónimos de soporte y procesar consultas en lenguaje natural y de carácter
booleano. Mediante el soporte de secciones, es posible definir partes en los
documentos que se pueden indexar y buscar. Por ejemplo, para los historiales de
casos puede existir una sección denominada "Casos de referencia" en la que se
pueden realizar búsquedas de forma explícita.
El potencial de los motores de búsqueda radica en el análisis lingüístico en
profundidad del texto de un documento antes de indexarlo, y en el análisis de los
términos de una consulta antes de realizar la búsqueda. Como consecuencia de
ello, se obtiene un resultado de gran precisión, lo que ayudará en el objetivo de
obtener la cantidad exacta de información: ni más, ni menos. El número de
aplicaciones de los motores de búsqueda es enorme:

 Generalmente se usa como recurso de búsqueda integrado en sistemas de


grandes repositorios. Una aplicación frecuente es integrar su funcionalidad
dentro de los gestores de bases de datos relacionales. De esta forma, es
posible combinar funciones de recuperación textual con sentencias SQL.
 Un área típica en la que se pueden poner en práctica las posibilidades de
estas herramientas es como motor de búsqueda para aplicaciones de
gestión del conocimiento. Por ejemplo, sobre conjuntos infinitos de
documentos que tengan un índice fijo como, por ejemplo, un archivo de
aplicaciones de patentes o una recopilación de informes técnicos internos.
 También pueden utilizarse como parte de una solución de búsqueda en una
Intranet o Internet.

Normalmente, los motores de búsqueda avanzados permiten combinar varios


índices, de forma que en función del tipo de consulta que realiza el usuario, puede
emplearse uno u otro. Esto es especialmente útil para búsquedas complejas que
deban ser refinadas.

TIPOS DE INDEXACIONES

Indexación lingüística

 Durante la indexación se aplica un procesado lingüístico mientras se


analiza el texto de los documentos.

- Separación de palabras y frases.


- Conversión de términos a formas estándar.
- Lematización a formas canónicas.

 Para una consulta, el mismo procesado se aplica a los términos de


búsqueda.
 El resultado contiene los documentos en que cualquier forma de los
términos de búsqueda se relaciona con otras formas presentes en los
índices.
 Esta indexación amplía el número de documentos susceptibles de ser
encontrados.
 Los índices requieren de menos espacio en disco, pero la indexación y la
búsqueda puede ser más larga.
Indexación por características
 Soporta las mismas características que la indexación lingüística.
 Descubre y extrae características del texto durante la indexación.

- Nombres de personas, lugares, organizaciones.


- Términos compuestos específicos.
- Abreviaturas.

 La información extraída puede ser empleada para expandir los términos


de consulta, permitiendo un refinado en base a variantes reconocidas.
 Esta indexación amplía el número de documentos susceptibles de ser
encontrados.
 Los índices requieren de menos espacio en disco, pero la indexación y la
búsqueda puede ser más larga.

Indexación precisa
 El procesado lingüístico sólo se emplea para determinar los límites de las
palabras y frases.
 Los términos de los documentos son indexados exactamente en la misma
forma en que aparece en el texto.
 Esta indexación permite búsquedas más precisas, siendo la indexación y
las consultas más rápidas.
 Los índices requieren más espacio en disco.

Indexación precisa normalizada


 Permite indexación precisa no sensible al uso de mayúsculas o
minúsculas.
 Amplía los términos de búsqueda incluyendo formas.
 Los índices requieren de menos espacio en disco que la indexación
precisa, pero es menos correcta con idiomas diferentes del inglés.

Indexación n-gram
 La indexación y la búsqueda está basada en n-grams.
 Un n-gram es una secuencia de caracteres de longitud limitada (n)
 No implica ningún tipo de procesado lingüístico.
 El rendimiento de la indexación es muy alto, aunque puede ser muy lento.
 Permite búsquedas empleando tanto correspondencias exactas como
difusas.
 Búsquedas en varios sistemas.
 Búsquedas en áreas temáticas particulares.
¿Cuándo emplear
 Aceleración de la indexación mediante
varios índices?
colecciones (poca variación en contenido).

Tabla Características de la indexación lingüística, por características, precisa


4.4. y en n-gram.

4.4.2 Recopilación de la información en internet

Si se desea realizar una búsqueda rápida en una ubicación determinada de


la web y en cualquiera de las páginas con las que enlaza, la única forma de
hacerlo es creando un índice de los enlaces que se encuentren en cada una de
ellas.

Como se ha comentado anteriormente, los robots de búsqueda son herramientas


que examinan páginas web buscando enlaces con otras páginas, luego examina
estas páginas en busca de más enlaces y así sucesivamente. Se desplaza
"sigilosamente" por la web de página en página, siguiendo los enlaces HTML
seleccionados.

Estos robots se puede ejecutar en una sola máquina y diversas instancias pueden
ejecutarse en paralelo. También se puede ejecutar en varias máquinas,
configuradas para acceder independientemente a subconjuntos inconexos de
sitios web de gran tamaño. Los resultados individuales del acceso, compuestos
por objetos de datos y sus metadatos, se pueden compartir e integrar para el
procesado posterior.

Los robots de búsqueda son herramientas clave para construir


sitios web inteligentes, ya sea en Internet o en una Intranet. Estas herramientas
permiten a las empresas potenciar el uso de Internet y de las Intranet de cara al
acceso a la información.

Mediante robots de búsqueda es posible desarrollar los siguientes escenarios:

 Los proveedores de soluciones de Internet e Intranet pueden implementar


servicios de búsqueda escalables y de gran potencia.
 Los analistas de la información pueden recopilar información disponible en
Internet o en una Intranet. Así mismo, pueden examinar y analizar la
información recogida de cara a la toma de decisiones empresariales.

La figura 4.10 muestra una posible integración de todos los componentes para la
construcción de servicios de búsqueda en Internet.
Figura 4.10: Integración de componentes para servicios de búsqueda en Internet.

Es importante recordar una cosa respecto al empleo de motores de búsqueda.


Existe un protocolo de buenos modales con respecto a la recogida de información
de los sitios web. La mayoría de estos tienen en su dirección URL raíz un fichero
que regula las normas de acceso al contenido del sitio.

La mayoría de robots del mercado acceden al contenido de este fichero antes de


comenzar la recopilación de información. Si las normas del sitio impiden la entrada
a robots (así está explicitado en el fichero mediante unas claves), estos no podrán
recopilar información de este fichero.

4.5 Gestión documental

La gestión de documentos es un tema ligado a la Inteligencia de Negocios


mediante sus conceptos como DW o a través de las herramientas de acceso y
recuperación de información textual, a lo cual se suman conceptos y herramientas
de gestión de bases de datos.

El impacto de la gestión de documentos, también llamada Gestión Documental, ha


llevado a crear o definir nuevos cargos, como el de Responsable de Gestión.

Documental. Este Nuevo actor organizacional. El Responsable de Gestión


Documental tiene la responsabilidad en cada área o función organizacional del
ingreso, recepción, derivación y salida de toda la documentación que tramite y
para ello se apoya tanto en herramientas tecnológicas como en organizacionales
(esencialmente conceptuales).

El Responsable de la Gestión Documental no solo debe estar identificado como el


Responsable Primario de un área funcional, sino que debe tener un alcance a
nivel de toda una organización. Además tiene como función el controlar los plazos
durante los cuales la documentación permanece en un área, evitando demoras
injustificadas y verificar que no se produzca el vencimiento del plazo por causa
imputable a la gestión documental. También tiene como función manejar el
catálogo de documentos, así cómo seleccionar los algoritmos de búsqueda,
acceso, recuperación y análisis de información.

A continuación se revisará el concepto de gestión documental y sus implicaciones


contemporáneas para luego pasar a un apartado dedicado a la gestión de
contenidos pero en el ámbito de la gestión documental.
4.5.1 Conceptos y fundamentos
4.5.1.1 Concepto

La gestión documental alude a un conjunto de normas técnicas, procedimientos,


métodos y sistemas, y prácticas a emplear en:

- administrar el flujo de documentos de una organización cualquiera;

- permitir la recuperación de información de ellos;

- determinar el tiempo que los documentos deben guardarse en los procesos


administrativos (como parte de los procesos de negocio, por ejemplo, guardarlo
hasta recibir un OK de un agente determinado), el tiempo real (como parte del reloj
normal de 0 a 24 horas, por ejemplo, guardar un documento a las 23:00) y el
tiempo computacional (como parte de los relojes internos computacionales, por
ejemplo, almacenar documentos a las 17 y 18 horas cuando hay CPU liberada);

- eliminar documentos que ya no sirven; y,

- asegurar la conservación indefinida de los documentos más valiosos, aplicando


principios de racionalización, economía y valorización como activo intelectual.

Se considera una actividad muy antigua y de hecho puede situarse en las


primeras bibliotecas del mundo en términos formales, si bien la actividad de
mantener un registro de las cosas de manera segura, como las pinturas rupestres
puede considerarse el inicio de la gestión documental. Luego han venido las
tablillas de arcilla, los papiros, los pergaminos, el papel y hasta hoy día los CD,
DVD y lo online y sus registros ubicuos o móviles.

La necesidad de "documentar", "registrar", "grabar" o fijar actos humanos o actos


organizacionales como los procesos administrativos y las transacciones legales y
comerciales por escrito para dar fe de los hechos, son la esencia de la gestión
documental.

Su versión electrónica que alude a sistemas de gestión documental digitales,


electrónicos o computacionales interesan mucho en el siglo presente dada la
importancia, robustez y capacidad de sistemas tecnológicos como las bases de
datos, los procesadores, las memorias, las redes, entre otros medios de
almacenamiento y transmisión -en general - de datos y de documentos.

Cabe destacar que la Gestión Documental no puede asociarse a la Gestión de


Datos clásica vinculada a las bases de datos. Los fundamentos son homólogos,
pero la gestión de documentos resulta mucho más compleja dado que se precisa:
- una gestión informacional donde se indexan contenidos, keywords, ideas,
autores y muchos constituyentes de los datos de un texto; y,

- una gestión computacional donde se deben procesar grandes volúmenes de


datos a alta velocidad.

4.5.1.2 Fundamentos para una gestión y estrategia adecuada de documentos

4.5.1.2.1 Tecnologías organizacionales asociadas: Gestión del conocimiento


y Business Intelligence

Este documento presenta la gestión del conocimiento como una actividad humana
no mediatizada por computadores/ordenadores, pero desde esta base presenta
una serie de formalizaciones organizacionales y tecnológicas desde el cual
plantear un sistema de gestión del conocimiento formal.

 GRADILLAS, María. (2001). Propuesta para la formulación de una


estrategia de gestión del conocimiento.
Enlace web:
http://www.gestiondelconocimiento.com/documentos2/mgradillas/estrat.htm

Este documento brevemente expone aunque de manera clara  la relación


entre Business Intelligence y la Gestión del Conocimiento.

 CARRIÓN, Juan. Business Intelligence y Gestión del Conocimiento.


Enlace web:
http://www.gestiondelconocimiento.com/leer.php?colaborador=jcarrion&id=9
3

4.5.1.2.2 Elementos de apoyo conceptual y organizacional para una estrategia de


gestión documental

Este documento presenta los fundamentos teóricos acerca de cómo evoluciona


una idea en la forma de diagramas. Esta idea debe entenderse que es aplicable y
extensible a la gestión documental en cuanto muestra cómo evoluciona un
contenido.

 ESTAY, Christian. (2001). "No tengo palabras para decirlo" o el rol de los
diagramas en la resolución mental de sistemas artificiales en proyectos.
Tesis Doctoral Universidad Politécnica de Cataluña. Capítulo 1 Apartado
1.4 y Apartado 3.4. Enlace web: http://www.tesisenxarxa.net/TDX-0904101-
174856/

Este recurso ilustra cómo una empresa aborda estrategias de gestión documental.
 Azurian. (2011). Consultoría de Negocios y Tecnología que genera exitosas
soluciones para su empresa.
Enlace web:
http://www.azurian.com/EE0E03A8D1094A2B91A103ADAE32CEFB/95DA7
A1DF68E4FEE86D9608F468F8E22/E82C2F9B7E304CCC8C4EB9E3815C
3BAC/articulo/4518.asp

Este artículo presenta una metodología de trabajo basada en gestión de


documentos y sustentada en el uso de un entorno colaborativo de trabajo.

 ARAMBARRI, Jon; ESTAY, Christian; GRACIA, Santos. (2006). La gestión


del conocimiento en las organizaciones. La implantación de Entornos
Colaborativos de Trabajo. Revista TELOS.
Enlace web:
http://sociedadinformacion.fundacion.telefonica.com/telos/articuloperspectiv
a.asp@idarticulo=1&rev=72.htm

Este recurso de empresa ilustra beneficios de la gestión documental.

 ServicePoint. (2011). Servicios de Extrenalización/Outsorcing documental,


una ventaja competitiva. ServiPOINT.
Enlace web: http://www.qualityimpres.com/ES/Service-Point/ayuda/ayuda-
white-papers/w-servicios-externalizacion.htm

4.5.1.3 Impacto social y empresarial

Serie de aspectos diversos afectados por la gestión documental y sus avances.

Dimensión legal y normas ISO. Este artículo muestra cómo la importancia de la


gestión documental se ha traspasado al gobierno y a las normas. Claramente el
uso de normas regulará todos los sistemas informáticos asociados.

 CONDE, María. (2010). La gestión de documentos en el contexto de los


archivos diplomáticos iberoamericanos. En XII reunión de la RADI. Octubre
14.
Enlace Web:
http://portal-radi.org/wp-
content/Documentos/d_reun_anual/XII_reunion/La%20Gesti%C3%B3n%20
de%20Documentos%20RADI.ppt

Ciberespacio: Serie de recursos relacionados con buscadores de información y


almacenamiento de datos. Cabe destacar que los servicios gratuitos de
mensajería como Hotmail, Yahoo o Gmail, proveen servicios de almacenamiento
que han cambiado la forma de gestión documental a un nivel simple en su gestión
técnica, pero amplia en el sentido de masificar el poder de compartir documentos.

 GC. Buscadores de información y almacenamiento de datos.


Enlace web: http://www.gestiondelconocimiento.com/software_busca.htm

Bibliotecas. Si bien es un artículo sobre gestión del conocimiento en las


bibliotecas, se muestra y aparece la gestión documental como una potente base
de mejora y soporte de tareas nuevas y/o más complejas.

 GC. Acciones para gestionar el conocimiento en las bibliotecas


universitarias.
Enlace
web: http://www.gestiondelconocimiento.com/leer.php?id=326&colaborador
=salvasan

Comunidades virtuales. Este artículo revisa cómo impacta la gestión documental


como complemento a la existencia de comunidades virtuales.

 SÁNCHEZ, María; SAORÍN, Tomás. (2001). Las comunidades virtuales y


los portales como escenarios de la gestión documental y difusión de
información. Anales de documentación, N.º 4, 2001, págs. 215-227.
Enlace
web: http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php
?inpopup=true&id=8365

Sistemas de información. Info@area. Este artículo muestra el rol de la gestión


documental en las organizaciones.

 BUSTELO, Carlota. (2000). Gestión documental en las empresas: una


aproximación práctica.
Enlace
web: http://www.guiadelacalidadzt.com/calidad/temas/descargar.asp?pid=2
4&rid=126

Proyectos. Ejemplo de una licitación en el estado español sobre cómo pedir una
licitación de servicios documentales.

 BOE. (2005). Resolución Mesa de Contratación Organismo Autónomo


Consejo de la Juventud de España por el que se convoca concurso para la
licitación por sistema de concurso y por procedimiento abierto del contrato
de consultoría y servicios de Externalización servicio documental 2005.
BOE, Junio 28.
Enlace web: http://www.clud.es/boe.publiboe.2005.153016
Gestión organizacional. Este es un estudio que analiza un proyecto de gestión
documental y se analiza su impacto organizacional en términos de incremento en
la colaboración al compartir datos y documentos.

 CHARLES, Susan. (2002). Lessons from the Document Management


Trenches. Global Library and Information Services. Information Research
Analyst. HP Laboratories Fort Collins. HPL-2001-230. September 24.
Enlace web: http://www.hpl.hp.com/techreports/2001/HPL-2001-230.pdf

4.5.2 Gestión de contenidos: de la edición a los EMC

La gestión de contenidos incluye muchos aspectos organizacionales y


tecnológicos (de hardware y de software), que van desde estrategias EMC hasta
aplicaciones WCM (ambas siglas serán aclaradas más adelante) muy concretas.
Esto se ha debido a la propia evolución de los términos y las tecnologías en su
uso y en los resultados y proyección que se conseguía en su aplicación.

El espacio conceptual y de tecnologías se intenta abarcar en este apartado


teniendo claro que se mezclará por un lado un desarrollo conceptual básico sobre
la gestión de contenidos, que podemos dilucidar como el arte organizado de todo
lo necesario para administrar contenidos de datos y de información organizacional,
y por otro lado la evolución que las tecnologías sufren por su propio uso y que al
final permite combinar términos surgidos de los desarrollos de software con los
conceptuales.

No pretende ser un apartado terminal sino un apartado abierto a un campo que


evoluciona muy rápido.

4.5.2.1 Fundamentos en los CMS

4.5.2.1.1 Bases conceptuales y tecnológicas

Conceptualmente un CMS es una colección de procedimientos o prácticas de


trabajo usados para administrar los flujos de trabajo en un ambiente colaborativo o
a lo sumo compartido. Sus cualidades son:

 permite a un gran número de personas contribuir y compartir datos


almacenados;
 controla el acceso a datos, basados en roles de usuario (que define la
información que los usuarios o grupos de usuarios pueden visualizar, editar,
publicar, etc);
 ayuda a un fácil almacenamiento y recuperación de datos;
 reduce la duplicación de la entrada repetitiva; mejora la facilidad de
redacción de informes; y
 mejora la comunicación entre los usuarios.

Tecnológicamente los sistemas manejadores de contenidos (o sistemas gestores


de contenido, CMS por sus siglas en inglés de Content Management System) son
hoy en día una herramienta esencial para gestionar grandes volúmenes de
información online. En tiempos en que Internet es usada como extensión laboral y
social de organizaciones y personas laboralmente, se usa y emplea como
repositorio global de documentos que desean visualizarse como de documentos
internos o privados que interesa gestionar de manera propia. Hay software CMS
específico tanto propietario como OpenSource, tanto de pago como gratuito, tanto
empotrado como operativo en Internet, y tanto desarrollado internamente como
desarrollado externamente o provisto como servicio tercerizado. Pero, aparte, hay
muchos software cuya evolución y crecimiento les está convirtiendo en CMS, por
ejemplo el gestor de documentos de Google, accesible desde una cuenta Gmail, o
el software para gestión de blogs Wordpress.

4.5.2.1.2 Evolución organizacional

La gran ventaja, virtud y potencial de un CMS se basa en que separa la gestión


interna de los contenidos con la visualización o despliegue de la información. Esto
que puede parecer muy evidente y un criterio de seguridad muy natural, no lo es
tanto si se observa que muchos desarrollos siempre han "indistinguido" el
tratamiento del dato como información o fuente de valor interno que tiene un
procesamiento, preparación y filtro distinto a su despliegue visual. Ojo, no son
Sistemas de Información, sino que pueden situarse entre los Sistemas de
Información y las plataformas de visualización de datos. Un CMS permite
administrar a quién mostrar qué y cuándo determinada información o dato.
Asimismo un CMS, entre otras cosas, facilita gestionar el trabajo pues conforme
filtra el quién y el cuándo visualizar contenidos o documentos, se apoyan procesos
de gestión de flujos de trabajo, trabajo con diferentes niveles y tipos de usuarios, o
simplemente, categorizar información según los receptores de información, entre
otras propiedades y posibles usos. Aparte, reduce o permite reducir tiempos,
procesos y ciclos de programación, pues aporta herramientas que podemos llamar
de diagramación para preparar la presentación de la información (no se precisa
saber programar, por ejemplo, en HTML, salvo aspectos fundamentales) gracias a
que aporta herramientas de edición, de publicación, de manejo de imágenes, entre
otras.

Al día de hoy, los CMS son herramientas frecuentes en todo sistema web que
despliega información. Se consideran un 'commodity' para cualquier organización
que cuenta entre sus estrategias, el despliegue o gestión de diversa, variada y
gran cantidad de información tanto estructurada como no estructurada.
4.5.2.1.3 La CMS en la literatura

No es sencillo organizar la documentación sobre la gestión de contenidos, pero sí


se puede construir un abanico de ideas que permite comprender mejor el espacio
de los CMS lo cual en suma permite comprender mejor la operativa de los
productos vinculados hoy en día a la gestión de contenidos.

Historia y rasgos fundamentales. Estos artículos presentan y definen los CMS,


aportan datos históricos así como su forma de operación y los distintos tipos de
CMS.

 Aulati. Sistemas Manejadores de Contenido.


Enlace Web: http://aulaticujap.wordpress.com/unidad-i/sistemas-
manejadores-contenido/sistemas-manejadores-de-contenido/
 Kyrnin, Jennifer. Content Management. Why you need Content
Management.
Enlace web:
http://webdesign.about.com/od/contentmanagement/a/aa031300a.htm

Visión y valor empresarial de un CMS. Este artículo presenta un CMS como


instrumento útil a los procesos de negocio a partir de un análisis de procesos (que
aparece denominado como la anatomía de un CMS).

 ROBERTSON, James. (2003). So, What is a CMS?


Enlace web: http://www.steptwo.com.au/papers/kmc_what/index.html

Ejemplo de producto comercial. Este recurso describe un CMS comercial pero


desde el punto de vista de las necesidades empresariales.

 ProNet21. (2010). ¿Qué es un sistema manejador de contenido?


Enlace web: http://www.pronet21.com/sistema-manejador-de-contenido.php

TopTen de web CMS del 2011. Comparativa online de varios CMS (Preation
Eden Platform, Squarespace, Wix Premium, Weebly Pro, Intuit Web Builder, Go
Daddy Website Tonight, Publicsquare, y liveSTORYBOARD). Los ratings se basan
en criterios acumulados como Product Features, Search Engine
Optimization, Service Capacities, Secutiry, y Help Support, cada uno de los cuales
es analizado en detalle en base a sub-criterios. Cada producto conduce a
información detallada de sus características principales.

 TopTen. (2011). 2011 Best Web Content Management System


Comparisons and Reviews. En TopTenReviews.
Enlace web: http://web-content-management-review.toptenreviews.com/
TopTen de Software CMS del 2011. Comparativa online de varios CMS (Joomla,
Wordpress, Drupal, Expression Engine, Movanle Type, eZ Publish, Mambo, Vivvo
CMS, Squarespace, y Textpattern). Los ratings se basan en criterios acumulados
como Built-in-Features, Add-on-Features, Management, Security, Ease of Use,
y Help & Supportcada uno de los cuales es analizado en detalle en base a sub-
criterios. Cada producto conduce a información detallada de sus características
principales.

 TopTen. (2011). 2011 Best Content Management System Software


Comparisons and Reviews. En TopTenReviews.
Enlace web: http://cms-software-review.toptenreviews.com/

TopTen de CMS del 2007, 2008 y del 2009. Comparativas cualitativa de CMS o
productos que pueden ser considerados como tales. El aporte de estos documento
es la descripción de los productos. Lo curioso es que no aparecen los enumerados
en la del 2011 (presentada anteriormente), pero no quiere decir que los aquí
listados hayan desaparecido, sólo es otra lista.

 STANSBERRY, Glen. (2009). Top 10 Most Usable Content Management


Systems.
Enlace web: http://net.tutsplus.com/articles/web-roundups/top-10-most-
usable-content-management-systems/
 GUBE, Jacob. (2008). 10 Promising Content Management Systems.
Enlace web: http://sixrevisions.com/web-applications/10-promising-content-
management-systems/
 OpenJason. (2008). 50 Content Management Systems.
Enlace web:
http://www.openjason.com/2008/02/23/50-content-management-systems/

Seleccionar y comparar CMS. Este artículo nos introduce a criterios para


seleccionar y comparar un CMS. Si bien se basa en algunas herramientas
bastante estándares o poco populares, los criterios de caché avanzado,
replicación de base de datos, balance de carga y exportación de contenido
estático, son criterios válidos en un primer momento de una selección empresarial.
Este artículo se complementa con el anterior.

 MATOR, Teynier. (2010). Rendimiento entre Sistemas gestores de


Contenidos.
Enlace Web: http://www.maestrosdelweb.com/editorial/rendimiento-entre-
sistemas-gestores-de-contenido-cms/

Listado de CMS. Este recurso Wikipedia presenta y enumera varios CMS. Cabe
destacar que es un recurso actualizado de manera no muy frecuente, pero aporta
una visión muy importante de cuantos CMS se encuentran como propietarios u
OpenSource. Se presentan diversos productos en base a su relación con
plataformas, entornos y/o lenguajes de desarrollo con los cuales se integra o
permite mejoras de gestión, a saber: Java, ASPNET, Perl, PHP, Python, Ruby,
COldfusion, y otros.

 ListCMS. List of content Management Systems.


Enlace
web: http://en.wikipedia.org/wiki/List_of_content_management_systems

JOOMLA. Página web del software JOOMLA, CMS comercial.

 Joomla. JOOMLA Web Sit. Enlace web: http://www.joomla.org/

4.5.2.1.4 Tipos o derivaciones de CMS

La literatura distingue varios términos asociados a los CMS como resultado de la


evolución del mercado:

 Un web CMS (WCM) es un CMS que opera en Internet y provee servicios


de autorización, colaboración y administración de herramientas diseñadas
para permitir a usuarios con poco conocimiento de lenguajes de
programación crear y administrar sitios web. Permite asimismo capacidad
de gestionar documentos y dirigirlos a múltiples autores para su edición y
participación en la producción de sus contenidos. Un WCMS en suma
simplifica la publicación a usuarios o editores o autores de contenidos sin
mucho conocimiento de programación.
 Un CMS software es un software cuyos rasgos lo acercan a las cualidades
de un CMS o es un software creado para tal fin y no necesariamente opera
sobre Internet. Provee idénticas o similares funcionalidades de un web
CMS. Para muchos efectos, muchos de estos son WCMS.
 Un web Group CMS (GMS) es similar a un WCM con la diferencia de
satisfacer plenamente requerimientos concretos de grupos u
organizaciones pequeñas que tienen dificultad de administrar su imagen
(corporativa), comunicarse con sus miembros, planificar eventos, programar
o asignar tareas de proyectos internos, entre otros. Estas actividades se
distribuyen entre varias herramientas que un GMS unifica.

4.5.2.2 Enterprise Management Content (EMC)

4.5.2.2.1 Fundamentos

Los Enterprise CMS o EMC (Enterprise Management Content) se pueden


considerar una extensión de la visión sobre las prestaciones de un CMS en el
ámbito de la gestión documental. No obstante, son algo más.

Un EMC contiene documentos, detalles y registros relacionados con la empresas


y/o sus procesos organizacionales. El propósito es gestionar el contenido no-
estructura de información o datos de una organización, asimilando diversos
formatos y estructuras. El término EMC definido por la Association for Information
and Image Management (AIIM) y a lo largo de la historia su uso se ha asociado a
una estrategia, un método, y a herramientas. Cabe destacar que la AIIM definió el
término existiendo CMS, pero el tiempo les vinculó.

Hoy en día, EMC, es un área de las TIC por sí sola.

4.5.2.2.2 Los EMC en la literatura:

Definiciones y espectro conceptual y tecnológico. Este recurso presenta el


concepto de EMC desde la AIIM. Es interesante porque se presenta toda la
dimensión organizacional y tecnológica.

 AIIM. (2011). What is a Enterprise Management Content. (EMC)?


Enlace web: http://www.aiim.org/What-is-ECM-Enterprise-Content-
Management

Definiciones y espectro tecnológico. Este recurso presenta o intenta describir el


amplio espectro de intereses ligados al concepto de EMC.

 Wiki. Enterprise Content Management.


Enlace web: http://en.wikipedia.org/wiki/Enterprise_content_management

ECM en la empresa al 2011. Estos documentos muestran el porque ECM es


pertinente para las empresas. Por un lado, AIIM analiza el estado de uso del ECM
y expone los principales inductores para invertir en ECM, completado con datos
estadísticos muy útiles, si bien su aporte esencial está en la descripción de los
inductores ('drivers'). Por otro lado, se presentan las 5 razones para escoger un
ECM: incremento de la productividad, reducción de costes, protección de la
información, mejorar imagen corporativa y ROI rápido (retorno de inversión
rápido).

 AIIM. (2011). State of the ECM Industry 2011. How well is It meeting
business needs? 29 pp.
Enlace web: http://www.aiim.org/Research/Industry-Watch/State-of-the-
ECM-Industry-2011
 Envíen. (2011). Cinco razones para apostar por un proyecto ECm en 2011.
En Envíen. Febrero-Marzo. P. 18.
Enlace web: http://revistas.expoenvien.com/pdfs/EV15web.pdf

S-ar putea să vă placă și