Sunteți pe pagina 1din 22

Unidad 6.

Base de datos para el soporte de toma


de decisiones
6.1.1 Definicin Y objetivo

6.1 Bodegas de datos(Data warehouse)

Un Data Warehouse es una coleccin de datos orientados a temas,
integrados, no-voltiles y variante en el tiempo, organizados para
soportar necesidades empresariales
1.3.2 Funcionamiento
Un data warehouse se crea al extraer datos desde una o ms bases de
datos de aplicaciones operacionales.

* El proceso de transformar, crear el detalle de tiempo variante, resumir
y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la informacin Institucional.
* La innovacin de la Tecnologa de Informacin dentro de un ambiente
data warehousing, puede permitir a cualquier organizacin hacer un
uso ms ptimo de los datos, como un ingrediente clave para un
proceso de toma de decisiones ms efectivo.

*Las organizaciones tienen que aprovechar sus recursos de
informacin para crear la informacin de la operacin del negocio, pero
deben considerarse las estrategias tecnolgicas necesarias para la
implementacin de una arquitectura completa de data warehouse.

2.1.3 consideraciones de Diseo

El diseo de un DW debe estar orientado a optimizar las consultas
relacionadas con los aspectos del negocio que se desean estudiar, esto
conduce a una estructura en estrella en la que el centro es la tabla fact o
hecho que representa al factor principal por el que se desea analizar la
base de datos. Alrededor de esta tabla aparecen las tablas dimensin,
que representan los diferentes aspectos relacionados con el principal y
que influyen en el estudio.
*
Entre los aspectos a tener en cuenta al afrontar el diseo de un DW hay
que tener especial cuidado al:

*Identificar las tablas de hechos, ya que es posible tener ms de una. Por
cada aspecto del negocio que interese estudiar debe aparecer una tabla
de hechos
.
6.1.4 herramientas para extraer transformar y
cargar fuentes de datos
En los procesos de extraccin, transformacin y carga (ETL) son
importantes ya que son la forma en que los datos se guardan en un
almacn de datos (o en cualquier base de datos). Implican las siguientes
operaciones:
* Extraccin. Accin de obtener la informacin deseada a partir de los
datos almacenados en fuentes externas.
*Transformacin. Cualquier operacin realizada sobre los datos para
que puedan ser cargados en el data warehouse o se puedan migrar de
ste a otra base de datos.

*Repositorio Propio de Datos: informacin relevante, metadatos.
*interfaces y Gestores de Consulta: permiten acceder a los datos y sobre
ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de
datos).

Carga. Consiste en almacenar los datos en la base de datos final,
por ejemplo el almacn de datos objetivo normal.

*El sistema ETL, realiza las siguientes acciones
:
*Extraccin de los datos.

*Filtrado de los datos: limpieza, consolidacin.

*Carga inicial del almacn: ordenacin, agregaciones.

*Refresco del almacn: operacin peridica que propaga los
cambios de las fuentes externas al almacn de datos.

6.2 Procesamiento y anlisis en lnea (OLAP).


6.2.1 Definiciones y conceptos
OLAP (Procesamiento Analtico en Lnea / On LineAnalytical Processing)
es una solucin utilizada en la Inteligencia de negocios cuyo objetivo es
agilizar la consulta de grandes cantidades de datos para extraer algn tipo de
informacin



6.2.2 Requerimientos funcionales de los sistemas OLAP.


Construir un datawarehouse y/o datamart.

Uso de herramientas de almacenamiento (bases de datos
multidimensionales), herramientas de extraccin y coleccin,
herramientas para reportes de usuario final y herramientas para anlisi
inteligentes.
Un servidor que sea altamente escalable.
Un segundo servidor para las herramientas de consulta de datos.


6.2.3 Operadores para manejo de cubos de datos del
estndar SQL3.

Qu es SQL3

El SQL3 es una extensin del estndar de bd SQL92 que incluye soporte para la
administracin de bd orientadas a objetos.

SQL3 es un estndar para productos y no un producto en s.

Los cubos de informacin o cubos OLAP funcionan como los cubos de
rompecabezas en los juegos, en el juego se trata de armar los colores y en el data
warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el
juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de
dimensiones, razn por la cual tambin reciben el nombre de hipercubos.

Un cubo OLAP contendr datos de una determinada variable que se desea
analizar, proporcionando una vista lgica de los datos provistos por el sistema de
informacin hacia el data warehouse, esta vista estar dispuesta segn unas
dimensiones y podr contener informacin calculada.



3.2.4 diseo de consultas de base de datos Dimensionales
El modelo UDM proporciona las siguientes ventajas:

Mejora notablemente el modelo del usuario.

Proporciona consultas de alto rendimiento que admiten un anlisis interactivo,
incluso con grandes volmenes de datos.

Captura las reglas de negocio del modelo para proporcionar un anlisis
mejorado.

Admite cerrar el ciclo, lo que permite que los usuarios acten segn los datos
que ven.



3.2.5 UTILIZACION DE HERRAMIENTAS PARA OLAP
Herramientas OLAP (On-Line Analytical Processing). Permiten obtener
informacin generando consultas multidimensionales, con columnas y filas
mviles y diversos grados de agrupamiento para diferentes parmetros.

Modelo Multidimensional:


Modelo estilo hoja de clculo.

a. Elementos:

b. Visin de Relaciones :



6.3 MERCADO DE DATOS DATA MARK
Introduccin de data Mart

Los productos Data Warehouse han nacido para resolver problemas de anlisis de
grandes masas de informacin, en empresas donde una pequea diferencia en el
valor de una variable, puede afectar la cuenta de resultado con unas diferencias de
millones de dlares.

Data Mart se destaca por una definicin de requerimientos ms fcil y rpida.
Tambin se simplifica el desarrollo de todo el mecanismo de su base de datos y con
ello baja substancialmente todo el coste del proyecto, as como su duracin.

Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en
ocasiones se desarrolla una aplicacin que integre todas ellas y proporciona las
funciones de un EIS (Executive Information System).

6.3.1 Definiciones o conceptos
Definicin
Un Data mart es una versin especial de almacn de datos (data
warehouse).
Son subconjuntos de datos con el propsito de ayudar a que un rea
especfica dentro del negocio pueda tomar mejores decisiones. Los datos
existentes en este contexto pueden ser agrupados, explorados y
propagados de mltiples formas para que diversos grupos de usuarios
realicen la explotacin de los mismos de la forma ms conveniente segn
sus necesidades.

6.3.2 Fase de construccin
Construccin del Data mart: Esta actividad tiene el objetivo de construir el
modelo de datos, la metadata de la herramienta de Explotacin y La
Arquitectura del Modelo Multidimensional en la herramienta de explotacin.
*
Construccin de los Procesos de Cargas:
En sta actividad es cuando se debe desarrollar los procesos de carga de
datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de
acceso, los importadores e integradores de datos, los programas de entrada de
datos.
*
Construccin de los reportes analticos:
Consiste en construir los reportes, tableros de control, dashboard, scorecard.
*
Construccin de los procesos de prueba:Se debe construir los programas,
reportes, informes que permita probar los procesos de cargas y los reportes
entregados.
6.4 Minera de datos (Data mining)
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial
de informacin que reside de manera implcita en los datos. Dicha
informacin era previamente desconocida y podr resultar til para algn
proceso. En otras palabras, la minera de datos prepara, sondea y explora
los datos para sacar la informacin oculta en ellos
Seleccin del conjunto de datos,.
Anlisis de las propiedades de los datos,
Transformacin del conjunto de datos de entrada,
Seleccionar y aplicar la tcnica de minera de datos
Extraccin de conocimiento,
Interpretacin y evaluacin de datos,
6.4.1 Definiciones y conceptos
El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que
permiten explorar grandes bases de datos, de manera automtica o
semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado
contexto.

Es una herramienta capaz de abarcar una amplia gama de dominios, desde
aquellos de la recuperacin y extraccin de informacin, presentacin,
resumen de multidocumentos, minera de datos aplicada a textos.

El datamining surge para intentar ayudar a comprender el contenido de un
repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en
algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y
a las redes neuronales.


6.4.2 Aplicaciones de la minera de datos
Negocios

La minera de datos puede contribuir significativamente en las
aplicaciones de administracin empresarial basada en la relacin con el
cliente. En lugar de contactar con el cliente de forma indiscriminada a
travs de un centro de llamadas o enviando cartas, slo se contactar
con aquellos que se perciba que tienen una mayor probabilidad de
responder positivamente a una determinada oferta o promocin.
*
En lugar de crear modelos para predecir qu clientes pueden cambiar, la
empresa podra construir modelos separados para cada regin y/o para
cada tipo de cliente.


Hbitos de compra en supermercados

El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la
deteccin de hbitos de compra en supermercados. Un estudio muy citado
detect que los viernes haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza.

Se detect que se deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en quedarse en casa
cuidando de su hijo y viendo la televisin con una cerveza en la mano.

El supermercado pudo incrementar sus ventas de cerveza colocndolas
prximas a los paales para fomentar las ventas compulsivas.
*
Patrones de fuga

Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas
industrias como la banca, las telecomunicaciones.

A estos clientes y en funcin de su valor se les podran hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de
retenerlos.

*
6.4.3 Diseo de la minera de base de datos
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables
dependientes, como a las variables objetivo, como posiblemente al muestreo de
los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersin, presencia de valores atpicos y ausencia de datos
(valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de diversas
formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la
tcnica de minera de datos que mejor se adapte a los datos y al problema
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo
predictivo, de clasificacin o segmentacin.

5. Evaluar los resultados contrastndolos con un conjunto de datos previamente
reservado para validar la generalidad del modelo.
6.4.4 Obtencin de informacin a travs de patrones
de bsquedas
Modelo o patrn

Un modelo es una descripcin global del conjunto de datos. Toma una
perspectiva completa y total. En contraste un patrn es una propiedad local de
los datos, tal vez slo la tienen ciertas instancias o atributos.

El reconocimiento de patrones, tambin llamado lectura de patrones,
identificacin de figuras y reconocimiento de formas es el reconocimiento de
patrones en seales. No slo es un campo de la informtica sino un proceso
fundamental que se encuentra en casi todas las acciones humanas.

Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de
voz, la clasificacin de documentos, el reconocimiento de escritura y el
reconocimiento de caras humanas.


6.4.5 Tcnicas y herramientas de la minera de datos.

La Minera de Datos ha sufrido transformaciones en los ltimos aos de
acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin
de los modelos de compra en lnea.

Los ms importantes de ellos son:

La importancia que han cobrado los datos no estructurados (texto, pginas de
Internet).

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas
operacionales, portales de Internet.

La exigencia de que los procesos funcionen prcticamente en lnea (por
ejemplo, que frente a un fraude con una tarjeta de crdito).

Los tiempos de respuesta. El gran volumen de datos que hay que procesar en
muchos casos para obtener un modelo vlido es un inconveniente; esto
implica grandes cantidades de tiempo de proceso y hay problemas que
requieren una respuesta en tiempo real.


6.4.6 Tendencias en minera de datos.

S-ar putea să vă placă și