Documente Academic
Documente Profesional
Documente Cultură
Dentro de esta definición está presente la idea que los sistemas de Bussines
Intelligence se proveen de informacíon relevante para la toma de decisiones, al
momento adecuado y en la forma correcta de tal manera que los responsables de
la toma de decisiones puedan utilizarlo. La meta principal del Bussiness
Intelligence es la reducción del tiempo y mejoramiento de la calidad de la
información provista a los procesos de toma de decisiones facilitando el trabajo de
los reponsables de la toma de decisiones.
Casi literalmente, la empresa actual se hunde bajo el aluvión de datos. Esta sobre
abundancia tiene como consecuencia directa un rechazo por la saturación que
produce. Sin embargo, los datos representan una mina de informaciones. son una
ventaja de la que la empresa debe sacar partido. Para ello, resulta fundamental
implementar una nueva informática de decisión para obtener una mejor
comprensión del valor de las informaciones disponibles, definir indicadores de
negocio pertinentes para facilitar la toma de decisiones operativas y conservar el
caudal histórico de la empresa.
Blumberg & Atre (2003) indican que el 60 % de los CIO´s de las compañías
consideran a los datos semi-estructurados como críticos para mejorar las
operaciones de las organizaciones y clave vital para el desarrollo de nuevos
negocios.
Procesos de negocio
E-mails
Gráficos
Archivos con imágenes
Cartas
Memos, noticias, etc
Blumberg y Atre (2003) indica que Merryl Linch estima que el 85% de toda la
información de los negocios existe en forma de datos semi-estructurados
comúnmente capturados en formato de hojas de cálculo, es decir, no se
encuentran almacenados bajo la estructura de una base de datos.
- La información1
- La empresa
- El mercado
Esto junto con la capacidad funcional y la cada vez mejor potencia de las
tecnologías, tanto del hardware como del software hacen que los tratamientos
pesados de la información algo posible y accesible.
El ambiente del mundo de los negocios de hoy exige una aplicación cada vez más
eficiente de la información disponible. Business Intelligence genera un
conocimiento al negocio que se deriva de la correcta utilización de la información
generada dentro y fuera de la empresa. Business Intelligence es una herramienta
que pone a disposición de los usuarios la información correcta en el lugar correcto
generando una ventaja competitiva. Son ya muchas las empresas que han
implementado soluciones de Business Intelligence y se han visto enormemente
beneficiadas.
En una empresa, la información está constituida por una fuente principal y fuentes
externas. La fuente principal proviene del llamado sistema transaccional que
registra y soporta la operativa diaria del negocio. Adicionalmente la información se
completa con datos externos de la empresa que en ocasiones un representan un
20% del total. Este número depende fundamentalmente del sector de actuación de
la empresa y del nivel de competencia existente; además, cuanta mayor jerarquía
tengan quienes toman decisiones, más compararán y analizarán estas cifras
externas respecto a las provenientes del sistema transaccional.
Por esto hay que tener considerar fuerzas externas dentro del Business
Intelligence, la competencia y el consumidor.
1.2.5.1 La competencia
La competencia, tal como se vive hoy en las empresas, necesita comparar sin
cesar el producto propio con el de los demás ofertantes. La sola visión del
producto a través de las informaciones internas disponibles ya no basta. Hemos
pasado de una orientación al producto a una orientación al mercado y está visión
de la competencia es fundamental en la actualidad.
El objetivo es simplemente hacerlo mejor que los competidores; los cuatro ejes
principales de mejora de la posición con respecto a la competencia son:
- Una mayor rapidez en todas las etapas del ciclo de vida de un producto (diseño,
realización, cadena de producción, etc).
- Un acceso más fácil para los consumidores a los productos y a los servicios.
1.2.5.2 El consumidor
Para crear un sistema de Business Intelligence los datos provistos por las fuentes
de datos son sometidos a un proceso de búsqueda, análisis y de envío a la
persona responsable de la toma de decisiones. Para el caso de los datos
provenientes de una fuente estructurada los analistas utilizan herramientas tales
como sistemas ERP's, ETL's, DW's, Data Mining y herramientas OLAP. Para el
caso de fuentes de datos semi-estructuradas el análisis es realizado con la ayuda
de otras herramientas menos sofisticadas.
- Aplicaciones de inventario
- Repositorio de metadatos
Un prerrequisito fundamental para todo esto es que los datos para soportar los
análisis tienen que ser accesibles, tienen que estar actualizados, y su acceso debe
poder hacerse de forma flexible y en un formato válido para los usuarios. Hasta la
fecha se ha realizado mucho hincapié en la tecnología de base que sustenta el
concepto de Data Warehouse, pero no demasiado en el trasfondo estratégico, la
planificación, los procesos de negocio y los servicios que desarrollan, mantienen y
usan la tecnología de Data Warehouse.
Los sistemas que contienen los datos operacionales, aquellos derivados de las
transacciones diarias del negocio, contienen información que es útil para el
analista de negocio. Por ejemplo, los analistas pueden usar información sobre que
productos fueron vendidos en determinadas regiones en un momento determinado
del año con el fin de buscar anomalías o diseñar futuros planes de venta. Sin
embargo, existen diversos problemas cuando los analistas acceden directamente
a los datos operacionales:
Los datos informacionales tienen una serie de características que los diferencian
de los operacionales.
2.2.1.1 Integración
2.2.1.2 Profundidad
2.2.1.3 Detalle
Un Data Mart es una base de datos separada del Data Warehouse; en ocasiones
consiste en un subconjunto del Data Warehouse en la misma base de datos.
Desde un punto de vista más funcional, el Data Mart es una vista del Data
Warehouse orientada a un aspecto concreto del negocio: marketing, compras,
dirección general, etc.
Los Data Mart contienen menos datos y solo están especificados para un objetivo
en la organización; esto hace que tenga menos usuarios, menos actualizaciones y
menos restricciones para su construcción; haciendo que sean más baratos que
un Data Warehouse.
- Criterios de negocio.
- Criterios de proceso.
- Criterios tecnológicos.
El primer conjunto de criterios tiene que ver con el problema de negocio que se
debe abordar y los beneficios esperados de la solución que se implemente.
1 Fuente: Lindsey, K. & Frolick, M.N. (2002). Critical factors of Data Warehousing
failures. Journal of Data Warehousing.
Una vez que los beneficios tecnológicos han sido alineados con los objetivos de
negocio estos deben ser cuantificados. Según (Watson & Haley, 1997) 1 el costo
de este tipo de proyectos es de alrededor de $1 millón solo en el primer año. Por
esta razón los gestores deben ser capaces de responder a la pregunta: ¿Cómo
sabré si la adopción de una determinada solución será beneficiosa? La respuesta
debe tener la forma: "la solución será exitosa si permite a la organización
conseguir los siguientes objetivos...". Además debe tener números, cuando a
alguien se le propone una solución que necesita una inversión grande lo primero
que va a preguntar es: ¿Qué gano yo? ¿Cuánto gano yo?
Lo que era especialmente interesante del estudio, sin embargo, era que las
implementaciones departamentales pequeñas, los Data Marts, tenían un ROI del
533%, mientras que la soluciones corporativas lo tenían del 322%.
El estudio del IDC identificó tres tipos de beneficios derivados del uso de un Data
Warehouse:
Los Data Marts constituyen una alternativa rápida y menos costosa para
implementar un sistema informacional. Sin embargo, si una organización
determina que un Data Warehouse corporativo es la estrategia apropiada, debería
comenzar por desarrollar una estrategia global.
2.3.3.1 Escalabilidad
Un punto a tener en cuenta es que, a medida que los usuarios se familiarizan con
el sistema, su propia habilidad para lanzar nuevas consultas y navegar por la
información provocará que pidan más de él. Es decir, la escalabilidad es un
requerimiento ligado al propio uso de la solución. Todos los factores que puedan
provocar un aumento en la carga de proceso del sistema deben ser considerados
a la hora de determinar la plataforma tecnológica adecuada. Las empresas que
adquieran tecnología de Data Warehousenecesitan asegurarse que ésta puede
crecer a medida que lo hacen las necesidades corporativas.
2.3.3.2 Gestión
2.3.3.3 Rendimiento
El último árbitro en el éxito o fracaso del proyecto será el rendimiento del sistema.
Un Data Warehouse tiene que ayudar a los usuarios a realizar su trabajo de forma
más efectiva y eficiente. Si los tiempos de respuesta no son los adecuados, los
usuarios no utilizarán el sistema, la empresa no sacará beneficio de la inversión, y
el proyecto podría tener un ROI negativo. Por estos motivos, la dimensión
tecnológica del rendimiento debe ser tenida muy en cuenta en el desarrollo de la
estrategia global.
Con todo esto lo que se puede deducir es que existen diferencias importantes en
cuales son los requerimientos de datos entre los sistemas transaccionales y
los Data Warehouse, las mismas que tienen un impacto importante en el diseño de
los Data Warehouse; entre las que podemos citar están las presentadas a
continuación.
Tener una visión integral del negocio asegura que toda la información
necesaria este disponible, con esto el producto final (aplicación) cumplirá
los objetivos planteados obteniendo la información que se necesita y en el
formato adecuado; permitiendo ejecutar muchas consultas de diferentes
características. De ahí la importancia que en la fase inicial de determinación
de requerimientos de un Data Warehouse involucrar a personas con
un excelente conocimiento del negocio; esto complementado con una
metodología que permita evaluar diferentes escenarios del negocio
permitirá tener un buen diseño de la aplicación.
Asegurarse que toda la información que poseen los miembros del equipo
sea considerada, con esto se refiere a que en muchos casos los miembros
del equipo obvian mencionar algo que ellos piensa que es muy propio de su
unidad o departamento y que piensan que no agregará valor dentro de lo
que es el diseño de la aplicación; esta información no revelada puede ser
valiosa para validar el modelo ya que en muchos casos es usada en varias
áreas de la empresa sin saberlo.
1En muchos casos el cambiar una información del Data Warehouse puede ser
considerado falto de ética o hasta ilegal.
OBJETIVOS
3.1 Introducción
En la figura 3.2 se puede observar el flujo del proceso de consulta con cada uno
de los elementos que lo constituyen.
1Hay que decir que con una herramienta de query & reporting se puede atacar
cualquier tipo de base de datos relacional, en el sentido que tanto se pueden
efectuar consultas contra un sistema operacional como contra un datawarehouse.
Por los diferentes motivos expuestos a lo largo de este módulo, la segunda opción
es la preferible.
Es frecuente que existan cierto tipo de consultas que se haya que repetir con
frecuencia; la información que se está buscando es la misma, así como el formato
final que se le dará. Lo que cambia son los datos de origen sobre los que se
realizará la consulta.
En el día a día de las empresas se ejecutan una gran variedad de consultas a una
fuente de datos como por ejemplo un Data Warehouse, esto nos hace pensar que
en muchos casos estas consultas son muy similares unas de otras, o en otros
casos las consultas son esporádicas o simplemente generados para determinados
momentos dentro de la organización, por ejemplo un cierre de año de ventas. Es
por esto que es necesario categorizar los diferentes tipos de consultas que se
realizan con el fin de poder planear su ejecución, tiempos de procesamiento y
formatos de presentación.
Consultas ad-hoc.
Son consultas recurrentes y aleatorias, en el sentido en que responden a
necesidades de información concretas. La carga de proceso es variable e
impredecible, en este sentido, y cuando estas consultas provienen de los
usuarios finales, hay que tener cuidado con los tiempos de proceso que
requieren, ya que en función del número podría llegar a colapsar el sistema.
Una situación muy popular sucedió en una cadena de víveres en USA. Utilizando
una herramienta de análisis multidimensional para estudiar el comportamiento de
sus clientes, encontraron relaciones interesantes entre pañales, cervezas,
hombres, y día de la semana. Encontraron que los días jueves y sábado, los
hombres que compraban pañales también compraban cerveza. Información como
esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar
la mercancía en lugares más estratégicos, en este ejemplo, manteniendo a los
pañales y a las cervezas cercanas unos de otros.
Procesado OLAP
Figura 3.5: Naturaleza de una herramienta OLAP (Schwarz, Seifried & Winter,
1998).
Los datos relacionales, aquellos manejados por los gestores de bases de datos
convencionales, pueden ser considerados bidimensionales, ya que cada unidad de
dato, denominada hecho, está correlacionada con una fila y una columna, cada
una de las cuales puede ser considerada una dimensión. Una dimensión es una
clasificación de alguna actividad en una organización por la cual se puede medir
su éxito. Por ejemplo, puede monitorear sus ventas contra los productos o clientes
en un periodo de tiempo.
Rotar y Rebanar (slice & dice): Rotar es aventar el cubo como si fuera un
dado para obtener una nueva cara del cubo. Rebanar es cambiar el valor
de una dimensión por otro valor, por ejemplo, de las ventas de Enero a las
ventas de Febrero, "Ventas por producto" puede cambiarse fácilmente
a "Ventas por vendedor".
Taladrar (drill down & roll up): Consiste en abrir los datos de las
dimensiones se con el fin de obtener más detalle; es decir una especie de
taladro que se hunde más en la información. Con esta facilidad es posible
ver información geográfica y luego fácilmente pasar de un continente a un
país y luego a una ciudad en particular.
Estas dos características son las que más claramente definen la tecnología OLAP,
sobre todo por que le confieren sus características de interactividad. Por ejemplo:
- En drill down, el usuario puede analizar sus ventas por continente, bajar a nivel
de región, país, etc.
- Mientras en slice & dice, además, puede cambiar los ejes de búsqueda para
analizar sus ventas mensuales respecto a las diferentes marcas de productos,
observando la cifra de negocio y examinando después los márgenes derivados.
En la figura 3.7 se puede observar que la línea que une la parte de Data
Warehouse con la de minería de datos tiene dos cabezas. Esto quiere decir que la
minería de datos no es un fin en si mismo, sino que los mejores resultados se
obtienen cuando la información generada por ésta se realimenta en el Data
Warehouse, pudiéndose explotar posteriormente mediante los sistemas de
verificación de hipótesis.
Los datos capturados deben ser integrados dentro de una vista corporativa,
en lugar de diferentes vistas específicas departamentales. Estos, además,
pueden ser enriquecidos con datos externos a la organización.
La información contenida en los datos integrados debe ser extraída,
mediante las operaciones y técnicas adecuadas de minería de datos.
La información extraída debe ser organizada y presentada en un formato
que permita la toma de decisiones.
por ejemplo:
de respuesta.
de productos en los lineales, etc.
en marcha de acciones de marketing con el fin de impedir la marcha de sus
clientes.
beneficios.
Bajo este esquema los analistas debían formular una hipótesis sobre la existencia
de una cierta información de interés, convertir la hipótesis en una consulta,
lanzarla contra el Data Warehouse e interpretar los resultados obtenidos. Por
ejemplo, el gestor bancario debería plantear la hipótesis de que los clientes
casados, con dos sueldos por familia y una renta elevada tienen una tendencia
elevada a la compra fondos de inversión. Es evidente que llegar a esta hipótesis
es un proceso en absoluto trivial; lo importante es que después de la formulación
de la hipótesis el analista plantee la consulta en términos informáticos, lanzarla e
interpretar si el grupo considerado constituye un conjunto de clientes adecuado
para sus fines.
Estos sistemas que soportan estas operaciones se los conoce como herramientas
de verificación de hipótesis, las que para lograr el objetivo de extracción de
información se enfrentan a dos problemas principales:
Debido a que la minería de datos extrae información de una base datos que el
usuario ignora su existencia, éste en su área debe conocer bien lo que la
herramienta otorga como información, caso contrario su utilidad es nula. El
aprovechamiento al máximo de los modelos generados con un sistema de minería
de datos se consigue explorando sus resultados mediante herramientas de
análisis. Por ejemplo, es posible construir mediante técnicas de minería de datos
un modelo predictivo que asigne un nivel de propensión de respuesta a una
campaña promocional partiendo de una base de datos de clientes (scoring).
Además de otros resultados, uno de los resultados que se obtendrán será un
listado ordenado de los clientes, de mayor a menor índice de propensión de
respuesta. Con base en esto, y dado que el presupuesto para acciones
comerciales suele estar limitado, un analista de marketing se decidiría por
contactar con los primeros clientes de la lista. En este sentido, el modelo es un fin
en sí mismo, pues nos proporciona una información de alto valor de cara a la
selección de público objetivo para la campaña.
Ahora bien los modelos estadísticos tienen un rol muy importante en Data
Mining específicamente en las tareas de desarrollo y evaluación de modelos; tal es
así, que la gran mayoría de los algoritmos de Machine Learning utilizan técnicas
de evaluación estadística para la construcción de regla de decisión.
Figura 3.11: Principales diferencias entre las técnicas estadísticas y las técnicas
de minería de datos.
Uno de los aspectos más importantes del proceso es que es iterativo. Los
resultados de cada fase pueden hacer replantear los pasos anteriores; de esta
manera el ciclo se va depurando hasta obtener los resultados esperados. Al
momento de seleccionar una herramienta de minería de datos es importante entre
otros aspectos que se analizarán más adelante el soporte a todos los pasos del
proceso. Debe ser posible aplicar las funciones de modelización de forma
independiente, iterativamente o utilizando una combinación de ambas
modalidades.
Detección Búsqueda
de Predicción Perfilación de Análisis de
actividades de la de patrones actividades
Aplicacione fraudulenta demanda poblaciones de bursátiles
s s compra
Anticipació Detección Comparació
Clasificació n de de nichos Gestión n de
n según abandonos de mercado de patrones
síntomas alarmas
Modelos Análisis
Operacione Modelos de Clustering d Comparació
de de
s clasificación e datos n de
predicción relaciones
secuencias
en el tiempo
Medición de
Funciones asociacione
Inducción Clustering Análisis
de base s
en árbol relacional de series
Técnicas radial
temporale Medición de
Redes Redes s
Redes patrones
neuronales neuronales
neuronales secuenciale
s
se obtienen.
(E) * * *
(E) *
(E) *
(E) *
(E) * *
(AML) Redes Neurales * * *
(AML) * *
(AML) *
Tabla 3.2.
3.3.3.1.1
3.3.3.1.2 Modelos
(abandono vs. a no abandono, riesgo bajo, medio o alto, etc.), mientras que
datos.
Otro ejemplo con mayor detalle son los grandes almacenes que mantienen
una base durante una visita determinada.
identificar puntos espurios1 en un conjunto de datos determinado, y explicar
si son debidos a la presencia de ruido u otras impurezas presentes en los
datos, o bien a relaciones causales.
Tabla 3.3. Técnicas utilizadas por las diferentes operaciones de minería de datos.
INDUCCIÓN SUPERVISADA
Clasificación neuronal
Basada en redes neuronales de propagación hacia atrás.
Detecta de forma automática la topología más adecuada para cada
problema, aunque permite especificar una concreta.
Optimiza de forma interna los parámetros de la red durante el
entrenamiento.
Realiza una análisis de sensibilidad para detectar las variables más
significativas para cada topología.
Los inconvenientes presentados por los métodos neuronales hacen que los
analistas de minería de datos prefieran a los métodos simbólicos. Su
característica más importante es un naturaleza auto explicativa, es decir, además
de proporcionar una clasificación de los registros son capaces de explicar los
criterios que utilizó para dicha clasificación. Los ejemplos más clásicos de
métodos simbólicos son los árboles de decisión en donde la población de registros
es distribuida en función del cumplimiento de determinados criterios de alta
capacidad discriminante.
Las técnicas de inducción supervisada ofrecen varias ventajas sobre los modelos
estadísticos convencionales, tales como:
Los patrones inducidos por las técnicas de inducción supervisada pueden
estar basados en fenómenos locales, mientras que muchas métricas
estadísticas buscan condiciones que se puedan verificar a lo largo de toda
una población, suponiendo una cierta distribución subyacente.
Adicional a los modelos de clasificación neuronal los métodos de inducción
supervisada cuentan con los modelos predictivos cuyo objetivo es estimar
una variable numérica y no una etiqueta nominal.2
INDUCCIÓN SUPERVISADA
Modelos de predicción- ejemplos de implementación
Predicción neuronal
Basada en redes neuronales de propagación hacia atrás.
Detecta de forma automática la topología más adecuada para cada
problema, aunque permite especificar una concreta.
Permite predecir datos en forma de series temporales.
Permite implementar regresión logística.
Dada una colección de artículos y un conjunto de registros, cada uno de los cuales
contiene un número determinado de artículos de la colección dada, una función de
descubrimiento de asociaciones es una operación ejecutada contra el conjunto de
registros que detecta afinidades existentes a lo largo de la colección de artículos.
Estas afinidades pueden ser expresadas mediante reglas de la forma: el 72% de
todos los registros que contienen los artículos A, B y C también contienen los
artículos D y E. El porcentaje específico de ocurrencias se denomina factor de
confianza de la asociación. El descubrimiento de asociaciones puede implicar
cualquier número de artículos a ambos lados de la regla de asociación. Una
aplicación típica que puede implementarse mediante el descubrimiento de
asociaciones es el análisis de cestas de la compra de la canasta familiar. En
este caso, un analista ejecutará una función de descubrimiento de asociaciones
sobre el registro de transacciones de venta.
Análisis de asociaciones
Detecta elementos en una transacción que implica la presencia de otros
elementos en ésta misma.
Expresa las afinidades entre elementos en forma de asociación X FB
facilitando una serie de métricas como el soporte, cofianza, tipo de la
regla, etc.
Permite especificar los niveles de soporte y confianza mínimas para las
reglas que deben ser detectadas así como los elementos que deben o no
incluir.
Permite incorporar taxonomías de productos, habilitando la detección de
asociaciones a diferentes niveles.
Patrones secuenciales
Detectan patrones entre transacciones, lo que permite optimizar las
ventas a lo largo tiempo.
Permiten especificar el factor de soporte mínimo para las secuencias que
deben ser detectadas.
3.3.4 Segmentación
- El tipo de los valores de atributos que pueden tomar los registros a segmentar
(numéricos, nominales, estructurados, etc).
Ejemplos de implementación
Segmentación neuronal
Basado en mapas auto-organizativos de Kohonen.
Es necesario predefinir el número de segmentos que se desean obtener,
así como su distribución bidimensional.
Procesa tanto variables cualitativas como cuantitativas, aunque funciona
mejor cuando dominan éstas últimas.
Es especialmente eficiente cuando se desea particionar una población
imponiendo cierta relación entre los segmentos obtenidos.
1En este caso, la idea es que, una vez particionada la base de datos, se
construye un modelo de clasificación para cada uno de los segmentos, en lugar de
desarrollar un único modelo para el total de la población. 2No supervisados en el
sentido en que, al contrario que en los modelos de clasificación o predicción, aquí
no existe una variable objetivo que permita mediar la calidad del proceso de
entrenamiento.
3.3.5 Proyecto de Data Mininng: consideraciones generales
3.3.5.1 Actores que intervienen en un proyecto Data Mining
El nombre SEMMA es un acrónimo en inglés que identifica los cinco pasos que
son parte de un proyecto de Data Mining, estos son:
1. Sample
2. Explore
3. Modify
4. Model
5. Assess
Fue desarrollado por SPSS y es muy similar a la propuesta SEMMA. Este modelo
fue patrocinado hasta finales del primer semestre del 2001 hasta que SPSS
decidió patrocinar la metodología CRISP-DM. A continuación en la figura 3.17 se
ilustra el modelo de las 5 "A" de SPPSS.
NCR, Daimler Chrysler, Integral Solutions Limited (ISL) (ahora parte de SPSS) y
OHRA una compañía independiente de seguros noruega.
Data Understanding (conocer los datos), inicia con la recolección inicial de los
datos para luego proceder con actividades para que permitan familiarizarse con
los datos de tal manera que se puedan detectar problemas con la calidad de los
datos, descubrir primeros patrones en los datos que permitan formular hipótesis
para información que se encuentre oculta en los datos.
Data Preparation (preparación de los datos), esta fase consiste en todas las
actividades previas a la preparación de los datos iniciales que se alimentarán a la
herramienta de modelamiento. Esta fase de preparación de los datos contiene
pasos que deben ser realizados en múltiples ocasiones y sin un orden en
particular. Estas tareas incluyen: preparación de las tablas de datos,
almacenamiento, selección de atributos y la transformación y limpieza de los datos
que serán alimentados a las herramientas de modelamiento.
De un tiempo a esta parte, la minería de datos está siendo aplicada a una gran
variedad de dominios, desde gestión de inversiones hasta astronomía. Su
importancia y potencial de aplicación ha sido particularmente reconocido en
sectores como por ejemplo:
Con esto vemos que la minería de datos ofrece una amplia gama de aplicaciones
en diferentes industrias y puede ser usada como un medio para aumentar las
ganancias a través de la reducción de costos o ya sea por medio del aumento de
los ingresos.
Identificar los tipos de datos que se emplearan en el análisis, así como los
registros de la base de datos de interés. Por ejemplo, es posible considerar
por separado las características demográficas y el historial de compra, o
bien integrarlas conjuntamente para el mismo análisis.
Definir el concepto de cliente leal, o de forma contraria, el de cliente
vulnerable, que será el objetivo a predecir en base a otros indicadores del
cliente. Por ejemplo, volviendo al ejemplo del zumo de naranja, un cliente
leal a la marca es aquel que compra el mismo tipo de zumo más del 80%
de las veces.
Emplear métodos de segmentación con el fin de identificar subconjuntos
relevantes dentro de los datos. Estos subconjuntos pueden contener tanto
clientes leales como vulnerables.
Crear un modelo predictivo tanto para el conjunto de la población como
para cada uno de los segmentos identificados en el paso anterior. De esta
forma, es posible detectar diferencias significativas respecto a los perfiles
detectados en el esquema de segmentación.
Aplicar los modelos generados a la población que se quiera calificar (puesta
en producción de los modelos), clasificando a cada uno de los clientes. El
beneficio final radica en la posibilidad de dirigir diferentes estrategias y
campañas de marketing a las diferentes tipologías de clientes detectadas.
OBJETIVOS
- Reconocer los problemas que plantea Internet de cara al acceso a los datos.
Sin embargo, cualquiera que haya buscado información en la web sabe que estas
herramientas automáticas categorizan la información de forma diferente que las
personas. En cierto sentido, el trabajo realizado por las diferentes herramientas de
indexación y catalogación, conocidas como motores de búsqueda, es altamente
democrático al no ejercer prioridades por calidad de contenido. Esto es así por que
su aproximación está basada en un acceso uniforme e igualitario a toda la
información de la Red. En la práctica, este igualitarismo electrónico perjudica
enormemente la búsqueda de información relevante. Un usuario de un sistema de
este tipo, que introduce una petición de búsqueda en el sistema, se ve
normalmente bombardeado por miles de posibles respuestas donde en muchos
documentos sólo nombran esa petición y no la profundizan. El resultado de la
búsqueda contiene, con frecuencia, referencias a sitios web irrelevantes, dejando
fuera otros que contienen importante material.
Sin embargo, esta iniciativa requiere un grado de consenso que, hoy por hoy, no
parece factible a corto plazo. Por ello, y en un intento de aprovechar al máximo las
capacidades de los sistemas de información, una alternativa más factible consiste
en intentar aplicar las técnicas de Business Intelligence a la extracción de la
información a partir de datos.
Riqueza semántica
Medida de la similitud
Sumarización automática
Con datos se pueden hacer descriptivas que los resuman, con textos es
mucho más complicado.
Hay que matizar que la minería de textos no es algo ligado a Internet. En efecto,
se pueden plantear muchas situaciones en las que sea necesario disponer de
herramientas de extracción de información a partir de textos no ligadas a Internet
(las figuras 4.3, 4.4, y 4.5 plantean algunas de ellas). Sin embargo, ha sido
Internet el gran detonante de la necesidad de aplicaciones de este tipo. La
necesidad de dotar a los motores de búsqueda de cierta inteligencia a la hora de
almacenar, indexar y recuperar la información ha sido el principal impulsor en este
campo.
Por ejemplo:
APLICACIONES
Análisis de opiniones de
Estudios sobre la competencia.
clientes.
Estudios de relaciones
Análisis de encuestas.
documentales.
Análisis de servicios de
Servicios de búsqueda
noticias.
automatizados.
Análisis de patentes.
Descubrimiento de nuevos
Clasificación documental.
competidores.
Construcción de motores de
Diseño de mapas de
búsquedas inteligentes.
conocimiento sobre problemas
Construcción de servicios de
específicos.
atención a usuarios
Sondeos sobre nuevos productos.
inteligentes.
Pre-proceso para alimentación de
Exploración de nuevos
sistemas informacionales.
mercados.
TÉCNICAS Y OPERACIONES
Cada día se recibe una gran cantidad de documentos electrónicos. Se abre cada
uno de los documentos ellos, se lee, se imprime y, a continuación, se utiliza un
rotulador fluorescente resaltador para marcar los puntos o características más
significativas del texto. Con una herramienta de extracción de características, este
proceso puede ganar velocidad de manera espectacular, puesto que las
características principales del texto se reconocen automáticamente.
Todos los nombres que se refieren a la misma entidad, como por ejemplo el
expresidente de los Estados Unidos Clinton, Mr. Clinton y Bill Clinton, son
reconocidos de la misma forma, en el sentido que se refieren a la misma persona.
A cada grupo de variantes se les asigna una forma canónica, por ejemplo Bill
Clinton, para diferenciarlos de otros grupos que se refieren a otras entidades,
como Clinton, Nueva Jersey. La forma canónica es la más explícita y menos
ambigua de todas las variantes encontradas. Esta tecnología permite reconocer en
torno al 95% de los nombres existentes en un texto, sin necesidad de una base de
datos de estos preexistente. Tiene que quedar claro que este porcentaje se aplica
en ausencia de errores tipográficos y de escritura. Además, puede manejar las
ambigüedades estructurales inherentes al lenguaje. Un ejemplo es Francia y
España frente a la Fundación para la Ley y el Orden. En el primer caso une dos
nombres separados, mientras que en el segundo es parte del propio nombre.S
4.3.1.5 Extracción de términos
4.3.1.6 Acrónimos
Además de relaciones tipo edad, profesión, "produce" pueden ser extraídas otras
como, por ejemplo, dependencia (tiene, posee,...), origen (creado, construido),
relaciones familiares (esposa, pariente), etc. El abanico de relaciones potenciales
está limitado sólo por la información contenida en los documentos que están
siendo analizados.
Para cada categoría se calcula un valor de rango con respecto al vocabulario del
documento de consulta. La salida de la herramienta de categorización es un texto
que lista cada documento de consulta conjuntamente con su valor de rango para
cada categoría, ordenados de mayor a menor. El número de categorías
contabilizadas puede ser especificado por el usuario.
Los documentos que se reciben pueden estar en distintos idiomas, que luego se
deben traducir. El documento se abre manualmente mediante un sistema de
correo electrónico, se explora el texto para determinar en qué idioma se ha escrito
el documento y, a continuación, se envía a un traductor. Hasta ahora, éste ha sido
un procedimiento demasiado lento y costoso.
Las frases con puntuación más alta son extraídas para crear el sumario del
documento. La longitud de este puede establecerse a través de un número
máximo de frases o como un porcentaje de la extensión del documento.
TIPOS DE INDEXACIONES
Indexación lingüística
Indexación precisa
El procesado lingüístico sólo se emplea para determinar los límites de las
palabras y frases.
Los términos de los documentos son indexados exactamente en la misma
forma en que aparece en el texto.
Esta indexación permite búsquedas más precisas, siendo la indexación y
las consultas más rápidas.
Los índices requieren más espacio en disco.
Indexación n-gram
La indexación y la búsqueda está basada en n-grams.
Un n-gram es una secuencia de caracteres de longitud limitada (n)
No implica ningún tipo de procesado lingüístico.
El rendimiento de la indexación es muy alto, aunque puede ser muy lento.
Permite búsquedas empleando tanto correspondencias exactas como
difusas.
Búsquedas en varios sistemas.
Búsquedas en áreas temáticas particulares.
¿Cuándo emplear
Aceleración de la indexación mediante
varios índices?
colecciones (poca variación en contenido).
Estos robots se puede ejecutar en una sola máquina y diversas instancias pueden
ejecutarse en paralelo. También se puede ejecutar en varias máquinas,
configuradas para acceder independientemente a subconjuntos inconexos de
sitios web de gran tamaño. Los resultados individuales del acceso, compuestos
por objetos de datos y sus metadatos, se pueden compartir e integrar para el
procesado posterior.
La figura 4.10 muestra una posible integración de todos los componentes para la
construcción de servicios de búsqueda en Internet.
Figura 4.10: Integración de componentes para servicios de búsqueda en Internet.
Este documento presenta la gestión del conocimiento como una actividad humana
no mediatizada por computadores/ordenadores, pero desde esta base presenta
una serie de formalizaciones organizacionales y tecnológicas desde el cual
plantear un sistema de gestión del conocimiento formal.
ESTAY, Christian. (2001). "No tengo palabras para decirlo" o el rol de los
diagramas en la resolución mental de sistemas artificiales en proyectos.
Tesis Doctoral Universidad Politécnica de Cataluña. Capítulo 1 Apartado
1.4 y Apartado 3.4. Enlace web: http://www.tesisenxarxa.net/TDX-0904101-
174856/
Este recurso ilustra cómo una empresa aborda estrategias de gestión documental.
Azurian. (2011). Consultoría de Negocios y Tecnología que genera exitosas
soluciones para su empresa.
Enlace web:
http://www.azurian.com/EE0E03A8D1094A2B91A103ADAE32CEFB/95DA7
A1DF68E4FEE86D9608F468F8E22/E82C2F9B7E304CCC8C4EB9E3815C
3BAC/articulo/4518.asp
Proyectos. Ejemplo de una licitación en el estado español sobre cómo pedir una
licitación de servicios documentales.
Al día de hoy, los CMS son herramientas frecuentes en todo sistema web que
despliega información. Se consideran un 'commodity' para cualquier organización
que cuenta entre sus estrategias, el despliegue o gestión de diversa, variada y
gran cantidad de información tanto estructurada como no estructurada.
4.5.2.1.3 La CMS en la literatura
TopTen de web CMS del 2011. Comparativa online de varios CMS (Preation
Eden Platform, Squarespace, Wix Premium, Weebly Pro, Intuit Web Builder, Go
Daddy Website Tonight, Publicsquare, y liveSTORYBOARD). Los ratings se basan
en criterios acumulados como Product Features, Search Engine
Optimization, Service Capacities, Secutiry, y Help Support, cada uno de los cuales
es analizado en detalle en base a sub-criterios. Cada producto conduce a
información detallada de sus características principales.
TopTen de CMS del 2007, 2008 y del 2009. Comparativas cualitativa de CMS o
productos que pueden ser considerados como tales. El aporte de estos documento
es la descripción de los productos. Lo curioso es que no aparecen los enumerados
en la del 2011 (presentada anteriormente), pero no quiere decir que los aquí
listados hayan desaparecido, sólo es otra lista.
Listado de CMS. Este recurso Wikipedia presenta y enumera varios CMS. Cabe
destacar que es un recurso actualizado de manera no muy frecuente, pero aporta
una visión muy importante de cuantos CMS se encuentran como propietarios u
OpenSource. Se presentan diversos productos en base a su relación con
plataformas, entornos y/o lenguajes de desarrollo con los cuales se integra o
permite mejoras de gestión, a saber: Java, ASPNET, Perl, PHP, Python, Ruby,
COldfusion, y otros.
4.5.2.2.1 Fundamentos
AIIM. (2011). State of the ECM Industry 2011. How well is It meeting
business needs? 29 pp.
Enlace web: http://www.aiim.org/Research/Industry-Watch/State-of-the-
ECM-Industry-2011
Envíen. (2011). Cinco razones para apostar por un proyecto ECm en 2011.
En Envíen. Febrero-Marzo. P. 18.
Enlace web: http://revistas.expoenvien.com/pdfs/EV15web.pdf