Documente Academic
Documente Profesional
Documente Cultură
MÉXICO
Licenciatura En Informática
Bases de
Datos
Autor: L.I. María de Lourdes Isabel
Ponce Vásquez
Objetivos Específicos
Conocer la tecnología de Dataware Housing (almacén de datos)
Aprender las diferencias entre una BD operacional y un almacén de datos
Describir la arquitectura básica de un almacén de datos
Mostrar los modelos de datos para almacenes de datos
Conocer la tecnología de minería de datos
Describir los métodos empleados para el desarrollo de reglas de minería de datos
Comprender las aplicaciones de la minería de datos
7.1. Introducción
Muchas organizaciones que usan tecnología estándar de BD para recolectar y procesar cantidades
masivas de sus datos operacionales han empezado a ver sus datos actuales e históricos como
fuente de información que les ayude a tomar mejores decisiones, por ejemplo, decisiones sobre
dónde abrir una nueva tienda, la audiencia para una campaña de publicidad, qué créditos aprobar y
cuándo solicitar más artículos, pueden realizarse con mayor confianza cuando se basan en el
análisis cuidadoso de patrones encontrados en los datos existentes. En ocasiones, estos datos
proceden de varias BD y en vista de que muchos de los análisis de datos realizados son recurrentes
y predecibles, los proveedores de DBMS y el personal de sistemas han comenzado a diseñar
sistemas para realizar estas funciones. Los almacenes de datos (dataware house), el procesamiento
analítico en línea (OLAP – On Line Analytical Processing) y la minería de datos (data minning)
ofrecen esta funcionalidad y son el origen de esta última unidad.
El mercado para estos sistemas ha tenido gran crecimiento desde mediados de los noventa, y los
proveedores han sacado partido de la popularidad del estos términos para impulsar un mercado de
diversos productos relacionados y los consultores han ofrecido una gran variedad de servicios
relacionados con los almacenes de datos. Sin embargo, los almacenes de datos difieren bastante de
las BD tradicionales en su estructura, funcionamiento, rendimiento y propósito.
Extraer
Data Marts
SSD
Formatear
Modelo DBMS Almacén Soporte
Limpiar de Datos
OLAP
Refrescar
Fuentes Catálogo
de Datos Minería de
Datos
Cada celda del cubo contiene datos agregados que relacionan elementos de las dimensiones. Los
usuarios pueden ver los datos por cualquier dimensión que les interese, acercando el contenido de
los datos al modelo mental del analista del negocio y facilitando su navegación.
De hecho, las dimensiones actúan como índices para identificar valores dentro del cubo. El
componente de acceso de los almacenes de datos soporta funcionalidad de hoja de cálculo
extendida, un procesamiento de consultas eficiente, consultas estructuradas, consultas ad hoc,
Drill-down (exploración descendente), el usuario navega entre los niveles de los datos desde
los más resumidos a los más detallados, ofreciendo una visión más concreta y disgregando
los datos. Por ejemplo, al hacer drill-down en una dimensión geográfica con el objetivo de ver
las ventas producidas en un periodo, se pueden ver las ventas de un mes particular y
después esas ventas por tipos de productos.
Roll-up (exploración ascendente ó agregación), desplaza jerarquías hacia arriba, agrupando
en unidades mayores a través de una dimensión y que puede ser simple (los totales por
producto se agregan por mes y estos por años) o expresiones complejas que afectan a la
consolidación de datos de varias dimensiones.
Slicing y Dicing (rebanar y cortar), con estos nombres se le conoce a la capacidad de ver la
BD desde diferentes puntos de vista, haciendo proyecciones sobre alguna dimensión. Así, por
ejemplo una rebanada de la BD de ventas puede corresponder a las ventas de los productos
en un año. El corte en rebanadas suele hacerse frecuentemente a lo largo del eje de tiempo
para analizar las tendencias y encontrar patrones.
Pivoting (pivotar, pivotación o rotación), consiste en reorientar la visión multidimensional de
los datos rotando el cubo de daos para mostrar una orientación diferente, por ejemplo, en dos
dimensiones se pueden cambiar las filas por columnas, en vez de tener productos, por región,
en cada mes, se puede pivotear a regiones por mes, de cada producto.
Nesting (anidamiento o sub-cubo), es una técnica de visualización utilizada para mostrar el
resultado de una consulta multidimensional que devuelve un sub-cubo, nuevamente haciendo
algún tipo de proyección de los datos.
Reach through (derivación), es un modelo de extender los datos accesibles al usuario final
más allá de lo que se encuentra almacenado en el servidor OLAP, consultando y recuperando
de forma automática datos de un almacén o sistema OLTP, generalmente obteniendo
atributos que se calculan mediante operaciones con valores almacenados y derivados.
No hay razones para limitar los datos en un cubo de datos a dos o tres dimensiones. Los
diseñadores pueden almacenar fechas usando tantas dimensiones como deseen (en hipercubos), si
estas dimensiones son de interés para ellos. Sin embargo, más allá de la tercera dimensión, no se
puede dibujar una representación física de los cubos de datos. Aún así, es posible aplicar el proceso
de pivoteo, rollup, y drilling down a hipercubos.
Los primeros almacenes de datos usaban arreglos multidimensionales, creando sistemas OLAP
multidimensionales (MOLAP). Si se usa un modelo relacional, se describe el sistema como un
sistema OLAP relacional (ROLAP). Un almacén de datos relacional consiste de múltiples tablas
relacionales.
Las tablas dimensionales Producto, Cliente, Vendedor y Fecha se muestran relacionándose con sus
atributos dimensionales correspondientes de la tabla factual. Normalmente estos atributos son llaves
foráneas en la tabla factual. Las tablas dimensionales proporcionan información adicional acerca de
cada dimensión.
Por ejemplo, la tabla dimensional vendedor proporciona más detalles del vendedor que toma la
orden. Los atributos restantes de la tabla factual, noOrden, precioUnitario y cantidadOrdenada, son
atributos dependientes. Una variación del esquema de estrella es el esquema copo (snowflake), en
el cual las tablas dimensionales tienen dimensiones, porque están normalizadas. Algunos almacenes
de datos normalizan hasta tercera forma normal para poder acceder a los datos con mayor detalle
Por ejemplo, la dimensión Producto puede tener una tabla dimensional Proveedor, que contiene los
datos de los proveedores y se relaciona mediante el numProveedor, si hay otras tablas no
normalizadas se normalizan formando un copo con la tabla factual en el centro.
Una constelación de hechos es un conjunto de tablas factuales que comparten algunas tablas de
dimensiones, limitando las consultas que pueden hacerse al almacén de datos. Así, se puede tener
una tabla de hechos que incluye predicciones económicas y que comparte la tabla de dimensiones
de producto con la tabla de hechos de resultados económicos.
Producto
idProducto Vendedor
nombre idVendedor
numProveedor nombre
nombreProveedor apellido
teléfonoProveedor Órden dirección
costo noOrden teléfono
idProducto zona
idCliente ventasAnuales
idVendedor
fecha
precioUnitario
Cliente cantidadOrdenada
idCliente
nombre Fecha
dirección día
teléfono mes
límiteCrédito año
Esquema de Estrella
Vendedor
Proveedor idVendedor
numProveedor Producto
. nombre
nombre idProducto apellido
dirección nombre Órden dirección
teléfono numProveedor noOrden teléfono
estado costo idProducto zona
idCliente ventasanuales
idVendedor
Cliente fecha Fecha
idCliente precioUnitario
día
nombre cantidadOrdenada
mes
dirección
año
teléfono
límiteCrédito
Esquema de Copo
Se puede escribir:
Lo que muestra una lista de productos surtidos por el proveedor 101 y la cantidad total de cada uno.
Nótese que se ha obtenido una rebanada sobre Producto y se ha cortado sobre el numProveedor
para esta consulta.
Típicamente las consultas para almacenes de datos requieren funciones de agregado adicionales.
SQL99 incluye las funciones stddev (desviación estándar), y variance (varianza) para atributos
simples. Estas son medidas estadísticas estándar que indican cómo divulgar un conjunto de valores
de datos significativos. Por ejemplo, una desviación estándar alta del total de las ventas mensuales
podría indicar que la cantidad de ventas varía ampliamente de un mes a otro, mientras que una
desviación estándar baja podría indicar que las ventas permanecen constantes en el período. Otras
funciones estadísticas son correlación, covarianza y regresión, que aplican a pares de atributos.
SQL99 también tiene funciones para calcular el rank (rango ordinal) para valores de datos. Por
ejemplo, si el esquema de la tabla Vendedor es:
La cláusula GROUP BY también se ha extendido en SQL99 con las opciones CUBE y ROLLUP
para datos cúbicos. Por ejemplo, si la tabla factual Ventas es:
Y las tablas dimensionales para tienda, departamento y mes para los datos de un supermercado se
representan el cubo de datos, la consulta:
Produce las ocho posibles combinaciones GROUP BY para los tres atributos, departamento, tienda y
mes. La agrupación será hecha sólo por departamento, sólo por tienda, sólo por mes, por la
combinación de tienda y mes, la combinación tienda y departamento, la combinación de mes y
departamento, la combinación de los tres y de ninguno. En contraste al cubo, que agrupa sobre
todas las posibles combinaciones de los atributos nombrados, el ROLLUP permite a los usuarios
especificar qué atributos se usan para la agregación. Si se escribe:
Los índices de mapas de bits se construyen para cualquier atributo que tenga un número limitado
de distintos posibles valores. Estos son especialmente apropiados si el dominio es pequeño. Para
cada valor en el dominio, se construye un vector de bits para representar esos valores, colocando un
1 en la posición para ese valor. Por ejemplo, la siguiente figura muestra la tabla Profesores con un
índice de mapa de bits para nivel y otro para departamento. Ya que el primer registro de Profesor
tiene un nivel de Profesor, el primer renglón del índice de nivel tiene un 1 en la columna Profesor. Ya
que el departamento del primer registro de Profesor es Arte, existe un 1 en la columna Arte del
SELECT COUNT()
FROM Profesor
WHERE nivel = ‘Profesor’ AND departamento = ‘Arte’;
Los dos índices pueden ser comparados construyendo un nuevo vector de bits para usar el operador
AND, comparando el cuarto bit del vector de bits con el primer bit del vector de departamento. El
número de 1s en el nuevo vector de bits es el número de Profesores en el departamento Arte.
Procedimientos similares pueden usarse para acelerar otras operaciones, incluyendo la reunión.
Profesor
idProf nombre depto nivel
P101 Adams Arte Profesor
P105 Tanaka Informática Instructor
P110 Byrne Matemáticas Asistente
P115 Smith Historia Asociado
P221 Smith Informática Profesor
Índice de mapa de bits para nivel Índice de mapa de bits para Departamento
Instructor Asistente Asociado Profesor
0 0 0 1
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Arte Informática Historia Matemáticas
1 0 0 0
0 1 0 0
0 0 0 1
0 0 1 0
0 1 0 0
Ya que la reunión es difícil cuando las tablas son grandes, el almacén de datos puede usar
indexación de reunión para acelerar las consultas con reunión. La mayoría de las operaciones de
reunión son hechas sobre llaves foráneas. En un almacén de datos usando un esquema de estrella,
la operación de reunión generalmente involucra comparación de tablas factuales con tablas
dimensionales. Un índice de reunión relaciona los valores de una tabla dimensional a los renglones
de la tabla factual. Para cada valor del atributo índice en la tabla dimensional, el índice almacena el
ID de las tuplas en la tabla factual teniendo ese valor. Por ejemplo, para la tabla de órdenes que
contiene el cliente, si se tiene un índice de reunión sobre la tabla de dimensión de cliente, para cada
cliente este índice mantiene los identificadores de las órdenes que correspondan a cada cliente. Los
índices de reunió pueden tener varias dimensiones.
SELECT SUM(V.ventasAnuales)
FROM MejoresVendedores V;
SELECT SUM(B.ventasAnuales)
FROM (SELECT V.idVendedor, V.apellido, V.nombre, V.telefono, V.ventasAnuales
FROM Vendedor V
WHERE V.ventasAnuales > (SELECT AVG(ventas)
FROM Vendedor) AS B;
En un ambiente de almacén de datos, donde las consultas y vistas son muy complejas y donde el
analista usa el sistema en un ambiente interactivo, la modificación de consultas puede generar
retrasos inaceptables en tiempos de respuesta. Sin embargo, un método alterno de manejo de vistas
es materializarlas, resolverlas previamente a partir de la definición y almacenarlas para usos
posteriores. Para acelerar el procesamiento, pueden crearse índices para las vistas materializadas.
El diseñador del almacén de datos debe considerar qué vistas deben materializarse, examinando las
restricciones de almacenamiento contra los posibles beneficios de velocidad las consultas más
importantes. El diseñador también debe decidir una política de mantenimiento para materializar
vistas. Cuando las tablas origen cambian, la vista también debe actualizarse. Esto puede realizarse
como parte de la transacción de actualización para las tablas base, como una política llamada
mantenimiento inmediato de vistas, que hace más lenta la transacción de actualización para el
almacén de datos. Una alternativa es usar mantenimiento de vistas diferido. Algunas políticas
posibles incluyen:
Actualización Perezosa, que actualiza la vista cuando una consulta ejecuta una vista y la
versión de la materialización actual es obsoleta.
Actualización Periódica, que actualiza la vista a intervalos regulares de tiempo.
Actualización Forzada, que actualiza la vista después de que un número específico de
actualizaciones se han hecho a las tablas base.
El proceso de actualización puede hacerse volviendo a ejecutar la vista materializada. Sin embargo,
para vistas complejas, especialmente aquellas con reuniones o agregaciones, esto puede ser muy
costoso. En vez de eso, la actualización puede hacerse incrementalmente, incorporando sólo los
cambios hechos a las tablas base.
Predecir. La minería de datos puede mostrar el modo en que actuarán ciertos atributos en el
futuro. Por ejemplo, estudiando los datos de tres supermercados, se puede probablemente,
predecir las ventas para el mismo período el siguiente año. Si se tiene una BD sobre salud,
que contiene datos de las epidemias de gripe de los cinco inviernos anteriores,
probablemente se puede predecir el número de tales infecciones para el siguiente invierno.
Determinados patrones de ondas sísmicas pueden predecir un terremoto con una alta
probabilidad.
Clasificar. La minería de datos puede dividir los datos de modo que las diferentes clases o
categorías se puedan identificar basándose en combinaciones de parámetros. Por ejemplo, a
partir de los datos crediticios de los clientes en el pasado, se puede clasificar un cliente nuevo
como una buena o mala oportunidad de crédito. La clasificación también se usa en medicina,
para determinar cuál de los diagnósticos severos posibles es el apropiado para un paciente,
basado en datos anteriores acerca de otros pacientes y sus síntomas.
Identificar. Los patrones pueden servir para identificar la existencia de un artículo, evento o
actividad. Por ejemplo, si se conoce el patrón típico de las existencias de ventas que se
presentó en casos previos, y se observa el mismo patrón ocurriendo nuevamente, se puede
identificar el mercado actual. Las compañías de seguros estudian patrones y características
de reclamaciones previas conocidas como fraudes para determinar cuáles de las nuevas
reclamaciones pueden ser fraudes.
Optimizar. Uno de sus objetivos puede ser optimizar el uso de recursos limitados como el
tiempo, espacio, dinero o materiales y maximizar las variables de salida como las ventas o
Unidad 7. Nuevas Tecnologías Página 12
beneficios bajo un conjunto de restricciones. La minería de datos puede modelar escenarios
para ayudar a determinar el mejor lugar para equipamiento, la forma más lucrativa para
invertir el dinero o la forma más eficiente de usar el tiempo disponible para maximizar la
productividad u obtener otros objetivos.
El término minería de datos se emplea en un sentido muy amplio. En algunas situaciones incluye
análisis estadístico y optimización restringida, así como aprendizaje automático. No existe una línea
bien definida entre estas disciplinas.
En los sistemas expertos, el conocimiento se obtiene usando la lógica deductiva. Un sistema experto
de ingeniería de inferencia se usa para aplicar las leyes de lógica a hechos almacenados en la BD
para deducir nuevos hechos en forma mecánica. El conocimiento se puede clasificar como inductivo
o deductivo. La minería de datos usa inducción en vez de deducción. Examina un gran número de
casos y concluye que existe un patrón o regla. El conocimiento puede representarse en gran
variedad de formas, incluyendo reglas, árboles de decisión, redes neuronales o jerarquías de clases
marcos de referencia (frames).
Nótese que ambos lados, izquierdo (pan) y derecho (mantequilla) pueden ser conjuntos de
elementos en vez de elementos individuales. Dos medidas importantes conectadas a las
reglas de asociación son el soporte y la confianza. Para un conjunto de elementos, el soporte
es el porcentaje de transacciones en el conjunto de datos que contienen todos estos
elementos incluidos en ambos lados. Nótese que la transacción puede incluir elementos
adicionales que no son parte de la asociación. Por ejemplo, si se tiene un millón de registros
de ventas, y 100,000 de ellas incluyen ambos, pan y mantequilla, el soporte para la regla pan
=> mantequilla es 10%. Si el soporte es bajo, implica que no hay una evidencia abrumadora
de que los elementos ocurran conjuntamente. La confianza es una medida de qué tan
seguido se comprueba la regla como verdadera, esto es, para los casos donde el lado
izquierdo de la implicación está presente, la confianza es el porcentaje de aquellos en los que
el lado derecho también está presente. Para un millón de registros de ventas, probablemente
500,000 incluyen pan, pero sólo 100,000 de ellos incluyen también mantequilla, así que la
confianza en esta regla es 20%. El soporte y la confianza no van necesariamente unidos, por
lo tanto, el objetivo de las reglas de asociación de la minería de datos es el de generar todas
las reglas posibles que superen en un mínimo los umbrales de soporte y confianza
especificados por el usuario.
Reglas de clasificación: la clasificación es el problema de colocar instancias en la categoría
correcta de varias posibles categorías. El objetivo es crear jerarquías de clases a partir de
conjuntos de eventos o transacciones. Las clases pueden ser predefinidas o determinarse
durante la tarea de clasificación. El sistema se desarrolla para proporcionar un conjunto de
instancias pasadas para las cuales la clasificación correcta se conoce, llamado conjunto de
entrenamiento. Usando estas muestras, el sistema desarrolla un método para clasificar
correctamente un nuevo elemento cuya clase es actualmente conocida. Un ejemplo clásico
de regla de clasificación es el problema de decidir cuáles clientes son merecedores de
crédito, basado en hechos como ingresos, propiedades, etc.
Patrones secuenciales: lo que se persigue es encontrar una secuencia de acciones o
eventos, detectando asociaciones entre eventos con determinadas relaciones temporales.
Una aplicación típica de patrones secuenciales es la predicción de que un cliente que compra
un producto particular en una transacción seguirá con la compra de un producto relacionado
en otra transacción. Por ejemplo, una persona que compra una impresora en una tienda de
computadoras, probablemente comprará papel en su próxima visita. Tales patrones se
representan como secuencias. La secuencia {impresora}{papel} representa dos visitas del
mismo cliente en las cuales el patrón secuencial es observado, esto es, el cliente compra una
impresora en la primera visita y papel en la siguiente visita. El porcentaje de veces que ocurre
una secuencia en el conjunto de transacciones de ventas es el soporte para el patrón. La
primera subsecuencia, {impresora}, es llamada predictor o previsor de la segunda
subsecuencia {papel}. La confianza para estas predicciones es la probabilidad que cuando
{impresora} ocurre en una visita, {papel} ocurrirá en una siguiente visita. Esta probabilidad
puede calcularse examinando el renglón de datos de las transacciones de ventas
observadas. Los patrones secuenciales pueden involucrar más de un elemento en cada
subsecuencia, y más de una subsecuencia. En términos generales, si la secuencia S1, S2,…
Sn, donde Si es un conjunto de elementos, ha sido válida, entonces S1 es un predictor de S2 a
Sn.
Patrones de series de tiempo. Una serie de tiempo es una secuencia de eventos que son
del mismo tipo. La minería de datos puede detectar similitudes en las posiciones de las series
de tiempo. Por ejemplo, si el total de ventas para un supermercado se calcula y registra al
final de cada mes durante un largo período de tiempo, estas medidas constituyen una serie
de tiempo. Los datos de series de tiempo pueden estudiarse para descubrir patrones y
Promedio
Prepa
Mediocre
<70
70-90 >90
Promedio
Examen Examen Examen
<1000 Bueno
<1000 >1400 >1400 >1400
Excelente
Árbol de decisión
7.1.1.2. Regresión
Y = a0 + a1 X1 + a2 X2 + . . . + an Xn
En minería de datos, se puede pedir directamente al sistema que identifique las variables
independientes, y encuentre la función de regresión. Los sistemas de minería de datos también
pueden usar regresión no lineal, usando la aproximación mediante una curva correspondiente,
encontrando la ecuación de la curva que corresponde a los datos observados tan detalladamente
como sea posible. También puede trabajar con datos no numéricos.
Estas técnicas incluyen una variedad de métodos usando un conjunto de muestras para todas las
variables para encontrar las relaciones más fuertes entre variables y observaciones. Los métodos
tienen origen en el campo de la inteligencia artificial. Estos usan una forma generalizada de
regresión, proporcionando un método iterativo y usando una técnica de ajuste de curva para
encontrar una función a partir del conjunto de muestras. Las redes neuronales usan un método de
aprendizaje, adaptándose con forme aprenden nueva información examinando muestras adicionales.
Por ejemplo, un modelo simple de una red neuronal que representa compras en Internet, puede
predecir los clientes potenciales que comprarán en un sitio específico. Algunas variables de entrada
que involucran edad, educación e ingresos se usan en las predicciones. Por ejemplo, se ha
demostrado que los graduados mayores de 21 años con ingresos mayores a 50,000 dólares
compran equipos de fotografía en Internet. En la etapa de aprendizaje la red obtiene un conjunto de
muestras de prueba que proporcionan hechos acerca de estos valores de entrada para un ejemplo
de clientes, y también el sitio en el que solicitan. Las capas ocultas se desarrollan por el sistema con
forme examina estos casos, usando técnicas de regresión generalizadas. Además de los casos
proporcionados, el sistema refina sus capas ocultas hasta que ha aprendido a predecir
correctamente un cierto porcentaje. Entonces prueba los casos proporcionados para evaluar el
sistema. Si se desempeña bien en los casos de prueba, el sistema puede ser usado para nuevos
datos donde la salida es conocida.
Las redes neuronales tienen diversos elementos que hacen difícil trabajar con ella. Uno de los
problemas principales es que la curva concuerde. El conjunto de datos de entrenamiento, como
cualquier otro renglón de datos, siempre tiene cierta cantidad de “ruido”, inconsistencias o
variaciones que no son significativas y que deben ser ignoradas. En vez de eso, las redes
neuronales pueden acomodar sus funciones de predicción para contabilizar estos valores,
produciendo una curva que corresponde perfectamente al conjunto de muestras. La función de
predicción se realizará pobremente sobre nuevos datos. Un segundo problema es que el
conocimiento de cómo el sistema toma sus predicciones está en las capas ocultas, de modo que los
usuarios no tienen una buena vista del razonamiento usado. A pesar del modelo de regresión, donde
los coeficientes muestran la contribución de cada atributo, el peso asignado a los hechos en el
modelo no puede ser interpretado de modo natural por los usuarios. Aún cuando el modelo puede
trabajar bien, la salida puede ser difícil de comprender e interpretar.
edad
< 21
libros
edad
> 21
Artículos
<
prepa
Capas deportivos
Ocultas
prepa
Viajes
Equipo
profe
sional
fotográfico
7.1.1.4. Agrupación
La agrupación o segmentación se refiere a métodos usados para colocar tuplas en clusters o grupos
que pueden ser disjuntos o traslapados. Usando un conjunto de muestras, el sistema identifica un
conjunto finito de clusters en los cuales las tuplas de la BD pueden ser agrupadas. Las tuplas en
cada cluster son similares, compartiendo algunas propiedades y son diferentes a las tupla en otros
clusters. Similarmente se miden usando algún tipo de función de distancia que es definida para los
datos. Por ejemplo, si edad es un atributo, la diferencia entre las edades de las personas puede ser
usada como la función de distancia. En algunos problemas, las categorías pueden ser organizadas
jerárquicamente. Un ejemplo puede ser de gente agrupada por educación y niveles de ingresos.
Mostrando el grado máximo completado por cada persona en el eje de las X y los ingresos anuales
en el eje de Y. A partir de los datos, se puede notar que existen tres grupos. Hay gente con el nivel
más bajo de educación que tienen bajos ingresos, gente con bajos niveles de educación con
ingresos moderadamente altos y gente con alto nivel de educación con altos ingresos.
80000
60000
Ingresos
40000
20000
0
0 5 10 15 20
Nivel Educativo
Método de Agrupación
Ventas al menudeo.
o Manejo de relaciones con los clientes (MRC). Es una nueva aplicación de la
minería de datos. El MRC permite que una venta a menudeo proporcione una
experiencia personalizada de ventas a los clientes para crear lealtad de los clientes.
La minería de datos se usa para identificar y anticipar las necesidades de los clientes,
de modo que las ventas tendrán elementos que solicitan y podrán sugerir productos
relacionados que el cliente compra. Por ejemplo, las tiendas de libros por Internet
analizan las preferencias de clientes por región y el historial de ventas para sugerir
nuevas compras o sugerir compras relacionadas a la actual
o Las campañas publicitarias usan minería de datos para identificar los clientes que
probablemente comprarán en respuesta a los anuncios. Para firmas de ventas por
catálogo, se usa para identificar a aquellos que responderán positivamente. Los datos
se pueden crear en respuesta a un modelo. Ese modelo, que incluye datos
Las investigaciones en el área de almacenes de datos y minería de datos son muy activas, cada vez
existen más herramientas para el manejo de estas tecnologías, con mayor cantidad de
funcionalidades y cada vez mejores.
Tarea.
a. Leer al menos 2 fuentes adicionales sobre los temas vistos en esta unidad y hacer un resumen
de la unidad (máximo 1 cuartilla). No olvidar conclusiones y bibliografía.
b. Cuál es la diferencia entre OLAP y OLTP, entre el esquema de estrella y de copo, entre las vistas
de las BD transaccionales y las de un almacén de datos y entre los patrones secuenciales y las
series de tiempo.
c. Investigar qué herramientas proporciona MySQL para Almacén de datos y Minería de datos.