Sunteți pe pagina 1din 46

INSTITUTO TECNOLGICO DE LZARO CRDENAS MICHOACN.

POR:

Martin Alejandro Aguilar Lemus ING.SISTEMAS COMPUTACIONALES 41 T MCTC ESTEBAN VALDEZ RAMREZ FUNDAMENTOS DE BASE DE DATOS INVESTIGACIN UNIDAD VI

CUIDAD LZARO CRDENAS MICHOACN 05 DE JUNIO DEL 2013

TPICOS SELECTOS DE BASE DE DATOS ................................................................................................. 3 6.1 DEFINICION Y CONCEPTOS DE LAS BASES DE DATOS ORIENTADOS A OBJETOS ................................ 4 6.2 CONCEPTOS DE BASES DE DATOS DISTRIBUIDAS .............................................................................. 5 Calendarizador distribuido ............................................................................................................... 6 Deteccin de bloqueos y concurrencia .......................................................................................... 7 Distribucin de los datosefiniciones de almacn de datos................................................................................................ 33 Definicin de Bill Inmon .................................................................................................................. 33 Definicin de Ralph Kimball........................................................................................................... 33 Una definicin ms amplia de almacn de datos ....................................................................... 33 Dimensiones .................................................................................................................................... 35 Variables........................................................................................................................................... 35 Ejemplos ........................................................................................................................................... 35 Elementos que integran un almacn de datos ........................................................................... 36 Metadatos......................................................................................................................................... 36 Funciones ETL (extraccin, transformacin y carga) ................................................................ 36 Middleware ....................................................................................................................................... 36 Viajes e inconvenientes de los almacenes de datos ................................................................. 38 Ventajas ............................................................................................................................................ 38 Inconvenientes ................................................................................................................................ 38 6.5.2 DATAMINNING ............................................................................................................................ 38 6.5.3 SOPORTE A LA TOMA DE DECISIONES ......................................................................................... 43 CONCLUSIN ....................................................................................................................................... 44 BIBLIOGRAFA ...................................................................................................................................... 45

Tpicos selectos de base de datos


Un tpico es una idea o un tema en especfico, en este caso bases de datos, as que resumiremos los tpicos ms importantes, o selectos de bases de datos. Una base de datos es una biblioteca donde a de mantener listas de los libros que posee, de los usuarios que tiene de sus productos, ventas y empleados. A este tipo de informacin se le llama datos. Un gestor de base de datos es un programa que permite introducir y almacenar datos, ordenarlos y manipularlos. Organizarlos de manera significativa para que se pueda obtener informacin no visible como totales, tendencias o relaciones de otro tipo. Debe permitir: -Introducir datos -Almacenar datos -Recuperar datos y trabajar con ellos Tabla o fichero, registro y campo Un programa de base de datos almacena la informacin que introducimos en forma de tablas como las que podemos ver, por ejemplo, en una lista telefnica. Registro: es el concepto bsico en el almacenamiento de datos. El registro agrupa la informacin asociada a un elemento de un conjunto y est compuesto por campos. Tabla: conjunto de registros homogneos con la misma estructura. Tipos de base de datos: planas y relacionales Para hacer una base de datos que cumpla las funciones de listn telefnico necesitamos una sola tabla, pero puede haber casos en los que necesitemos ms de una. A esta forma de organizar la base de datos mediante distintas tablas relacionadas por campos comunes se le llama base de datos relacional. No todos los programas de gestin de base de datos tienen esta capacidad de manejar bases de datos relacionales, por eso, antes de elegir uno deberemos considerar si necesitamos o no esta capacidad. Esta base de datos relacional estar formada por tablas. Con la caracterstica de que las mismas se relacionan entre s mediante uno o ms campos. Se puede decir que cada objeto de la realidad ser una tabla en nuestra base de datos y que hay que buscar la manera de reflejar las relaciones antes mencionadas. Para este tipo de bases de datos con mltiples usuarios aparecieron las llamadas bases de datos de red. Estas estn situadas en un nico ordenador llamado servidor (generalmente ordenadores de gran potencia) y se puede acceder a ellas desde terminales u ordenadores con un programa que permita el acceso a ella los llamados clientes. Los Gestores de bases de datos de

este tipo permiten que varios usuarios hagan operaciones sobre ella al mismo tiempo: uno puede hacer una consulta al mismo tiempo que otro, situado en un lugar diferente, est introduciendo datos en la base. Utilidad de una base de datos: Las tres cosas bsicas que debe permitir un gestor de base de datos son: introducir datos, almacenarlos y recuperarlos. Al mismo tiempo permiten otra serie de funciones que hacen de ellos herramientas incomparablemente superiores a los mtodos tradicionales de almacenamiento de datos: archivadores, carpetas, etc. Cualquier gestor debe permitir: ordenar los datos, realizar bsquedas, mostrar distintas vistas de los datos, realizar clculos sobre ellos, resumirlos, generar informes a partir de ellos, importarlos y exportarlos. Bsquedas En los antiguos sistemas de archivo de datos si se quera buscar un conjunto determinado de registros era necesario tener los datos ordenados previamente por un criterio determinado (por ejemplo, en los ficheros de biblioteca, por materia o autor). Luego visualmente y a mano, a menudo con gran trabajo y prdida de tiempo, ir extrayendo los registros de uno en uno. Al terminar de usarlos se tena que seguir el proceso contrario. En el caso de que se quisiera hacer una bsqueda por un criterio diferente al del orden del archivo.

6.1 DEFINICION Y CONCEPTOS DE LAS BASES DE DATOS ORIENTADOS A OBJETOS


Una base de datos orientada a objetos es una base de datos inteligente soporta el paradigma orientado a objetos almacenando mtodos y datos, y no solamente datos. Est diseada para ser eficaz, desde el punto de vista fsico, para almacenar objetos complejos. Evite el acceso a los datos; esto gracias a los mtodos almacenados en ella. Es ms segura, ya que no permite tener acceso a los datos (objetos); esto debido a que para poder entrar se tiene que hacer por los mtodos que haya utilizado el programador. Un SGBDOO es un SGBD que almacena objetos y por tanto posee todas las ventajas de la orientacin a objetos. Las bases de datos orientadas a objetos, se disean para trabajar bien en conjuncin con los lenguajes de programacin orientados a objetos como: JAVA C++ Visual Basic.Net C# Caractersticas de un SGBDOO Persistencia Concurrencia Recuperacin

Gran almacn secundario Consultas Abstraccin Encapsulacin Modularidad Jerarqua Tipos Genericidad

En total deben de ser 13 caractersticas obligatorias para los SGBDOO, basado en dos criterios: 1. Debe ser un sistema orientado a objetos. 2. Debe de ser un sistema gestor de base de datos, Esto segn Atkinson. Y las caractersticas son: 1. Debe de soportar objetos complejos. Debe de ser posible construir objetos complejos aplicando constructores a objetos bsicos. 2. Identidad del objeto. Todos los objetos deben tener un identificador, el cual es independiente de los valores de sus atributos. 3. Encapsulamiento. Los programadores solo tienen acceso a la especificacin de interfaz de los mtodos, y los datos e implementacin de estos mtodos estn ocultos en los objetos. 4. Tipos o clases. El esquema de una base de datos orientada a objetos contiene un conjunto de clases o tipos. 5. Tipos o clases deben de ser capaces de heredar de sus supertipos o superclases los atributos y los mtodos. 6. La sobrecarga debe ser soportada. Los mtodos deben de poder aplicarse a diferentes tipos. 7. El DML debe ser completo. El DML en los sistemas gestores de base de datos orientados a objetos debe ser un lenguaje de programacin de propsito general. 8. El conjunto de tipos de datos debe ser extensible. No habr distincin entre los tipos definidos por el usuario y los tipos definidos por el sistema. 9. Persistencia de datos. Los datos deben mantenerse despus de que la aplicacin que los creo haya finalizado, el usuario no tiene que hacer copia explcitamente. 10. El SGBD debe de ser capaz de manejar bases de datos grandes. 11. El SGBD debe soportar la concurrencia. Debe de disponer del mecanismo para el control de la concurrencia. 12. Recuperacin. El sistema gestor debe de proveer mecanismos de recuperacin de la informacin en caso de fallo del sistema. 13. El SGBD debe de proveer de una manera fcil de hacer consultas.

6.2 Conceptos de bases de datos distribuidas


Una base de datos distribuida (BDD) es un conjunto de mltiples bases de datos lgicamente relacionadas las cuales se encuentran distribuidas en

diferentes espacios lgicos (ej. un servidor corriendo 2 mquinas virtuales) e interconectados por una red de comunicaciones. Dichas BDD tienen la capacidad de realizar procesamiento autnomo, esto permite realizar operaciones locales o distribuidas. Un sistema de Bases de Datos Distribuida (SBDD) es un sistema en el cual mltiples sitios de bases de datos estn ligados por un sistema de comunicaciones de tal forma que, un usuario en cualquier sitio puede acceder los datos en cualquier parte de la red exactamente como si estos fueran accedidos de forma local. Un sistema distribuido de bases de datos se almacenan en varias computadoras. Los principales factores que distinguen un SBDD de un sistema centralizado son los siguientes: Hay mltiples computadores, llamados sitios o nodos. Estos sitios deben de estar comunicados por medio de algn tipo de red de comunicaciones para transmitir datos y rdenes entre los sitios. Sistema manejador de base de datos distribuida (DDBMS) Este sistema est formado por las transacciones y los administradores de la base de datos distribuidos. Un DDBMS implica un conjunto de programas que operan en diversas computadoras, estos programas pueden ser subsistemas de un nico DDBMS de un fabricante o podra consistir de una coleccin de programas de diferentes fuentes. Administrador de transacciones distribuidas (DTM) Este es un programa que recibe las solicitudes de procesamiento de los programas de consulta o transacciones y las traduce en acciones para los administradores de la base de datos. Los DTM se encargan de coordinar y controlar estas acciones. Este DTM puede ser propietario o desarrollado en casa. Sistema manejador de base de datos (DBMS) Es un programa que procesa cierta porcin de la base de datos distribuida. Se encarga de recuperar y actualizar datos del usuario y generales de acuerdo con los comandos recibidos de los DTM. Nodo Un nodo es una computadora que ejecuta un DTM o un DBM o ambos. Un nodo de transaccin ejecuta un DTM y un nodo de base de datos ejecuta un DBM. Calendarizador distribuido El calendarizador est encargado de ordenar un conjunto de transacciones u operaciones que se deseen realizar sobre una base de datos. Cualquier orden en el que se decidan hacer este conjunto de operaciones se denomina calendarizacin. Parte del trabajo del calendarizador es realizar estas operaciones de forma que sean serializables y recuperables. Dos calendarizaciones son serializables (o equivalentes) si

Cada operacin de lectura lee valores de los datos que son producidos por la misma operacin de escritura en ambas calendarizaciones (es decir son iguales)

La operacin final de escritura en cada elemento de la data es la misma en ambas calendarizaciones Deteccin de bloqueos y concurrencia Bloqueos Un bloqueo en general es cuando una accin que debe ser realizada est esperando a un evento. Para manejar los bloqueos hay distintos acercamientos: prevencin, deteccin, y recuperacin. Tambin es necesario considerar factores como que hay sistemas en los que permitir un bloqueo es inaceptable y catastrfico, y sistemas en los que la deteccin del bloqueo es demasiado costosa. En el caso especfico de las bases de datos distribuidas usar bloqueo de recursos, peticiones para probar, establecer o liberar bloqueos requiere mensajes entre los manejadores de transacciones y el calendarizador. Para esto existen dos formas bsicas:

Autnoma: cada nodo es responsable por sus propios bloqueos de recursos.


Una transaccin sobre un elemento con n replicas requiere 5n mensajes Peticin del recurso Aprobacin de la peticin Mensaje de la transaccin Reconocimientos de transaccin exitosa Peticiones de liberacin de recursos

Copia Primaria: un nodo primario es responsable para todos los bloqueos de recursos

Una transaccin sobre un elemento con n copias requiere 2n+3 mensajes Una peticin del recurso Una aprobacin de la peticin n mensajes de la transaccin n reconocimientos de transaccin exitosa Una peticin de liberacin de recurso

Podemos definir que dos operaciones entran en conflicto que debe ser resuelto si ambas acceden a la misma data, y una de ellas es de escritura y si fueron realizadas por transacciones distintas. Concurrencia El ejemplo ms comn de un bloqueo mutuo es cuando un recurso A est siendo utilizado por una transaccin A que a su vez solicita un recurso B que est siendo utilizado por una transaccin B que solicita el recurso A. Entre los ejemplos especficos para las bases de datos distribuidas podemos destacar::

Distribucin de los datos Una de las decisiones ms importantes que el diseador de bases de datos distribuidas debe tomar es el posicionamiento de la data en el sistema y el esquema bajo el cual lo desea hacer. Para esto existen cuatro alternativas principales: centralizada, replicada, fragmentada, e hbrida. Centralizada Es muy similar al modelo de Cliente/Servidor en el sentido que la BDD est centralizada en un lugar y los usuarios estn distribuidos. Este modelo solo brinda la ventaja de tener el procesamiento distribuido ya que en sentido de disponibilidad y fiabilidad de los datos no se gana nada. Replicadas El esquema de BDD de replicacin consiste en que cada nodo debe tener su copia completa de la base de datos. Es fcil ver que este esquema tiene un alto costo en el almacenamiento de la informacin. Debido a que la actualizacin de los datos debe ser realizada en todas las copias, tambin tiene un alto costo de escritura, pero todo esto vale la pena si tenemos un sistema en el que se va a escribir pocas veces y leer muchas, y dnde la disponibilidad y fiabilidad de los datos sea de mxima importancia. Particionadas Este modelo consiste en que solo hay una copia de cada elemento, pero la informacin est distribuida a travs de los nodos. En cada nodo se aloja uno o ms fragmentos disjuntos de la base de datos. Como los fragmentos no se replican esto disminuye el costo de almacenamiento, pero tambin sacrifica la disponibilidad y fiabilidad de los datos. Algo que se debe tomar en cuenta cuando se desea implementar este modelo es la granularidad de la fragmentacin. La fragmentacin se puede realizar tambin de tres formas:

Horizontal: Los fragmentos son subconjuntos de una tabla (anlogo a un restringir) Vertical: Los fragmentos son subconjuntos de los atributos con sus valores (anlogo a un proyectar) Mixto: Se almacenan fragmentos producto de restringir y proyectar una tabla.

Una ventaja significativa de este esquema es que las consultas (SQL) tambin se fragmentan por lo que su procesamiento es en paralelo y ms eficiente, pero tambin se sacrifica con casos especiales como usar JUNTAR o PRODUCTO, en general casos que involucren varios fragmentos de la BDD. Para que una fragmentacin sea correcta esta debe cumplir con las siguientes reglas:

Debe ser Completa: Si una relacin R se fragmenta en R1,R2, ... , Rn, cada elemento de la data de R debe estar en algn Ri. Debe ser Reconstruible: Debe ser posible definir una operacin relacional que a partir de los fragmentos obtenga la relacin. Los fragmentos deben ser Disjuntos: Si la fragmentacin es horizontal entonces si un elemento e est en Ri este elemento no puede estar en ningn Rk (para k distinto a i). En el caso de fragmentacin vertical es

necesario que se repitan las llaves primarias y esta condicin solo se debe cumplir para el conjunto de atributos que no son llave primaria. Hbrida Este esquema simplemente representa la combinacin del esquema de particin y replicacin. Se particiona la relacin y a la vez los fragmentos estn selectivamente replicados a travs del sistema de BDD. Criterios para escoger la distribucin

Localidad de la data: la data debera ser colocada donde sta se accede ms seguido. El diseador debe analizar las aplicaciones y determinar cmo colocar la data de tal forma que se optimicen los accesos a la data locales. Fiabilidad de la data: Almacenando varias copias de la data en lugares geogrficamente apartados se logra maximizar la probabilidad de que la data va a ser recuperable en caso de que ocurra dao fsico en cualquier sitio. Disponibilidad de la data: como en la fiabilidad, almacenar varias copias asegura que los usuarios tengan a su disponibilidad los elementos de la data, an si el nodo al que usualmente acceden no est disponible o falla. Capacidades y costos de almacenamiento: a pesar de que los costos de almacenamiento no son tan grandes como los de transmisin, los nodos pueden tener diferentes capacidades de almacenamiento y procesamiento. Esto se debe analizar cuidadosamente para determinar donde poner la data. El costo de almacenamiento se disminuye significativamente minimizando la cantidad de copias de la data. Distribucin de la carga de procesamiento: una de las razones por la cual se escoge un sistema de BDD es porque se desea poder distribuir la carga de procesamiento para hacer este ms eficiente. Costo de comunicacin: el diseador debe considerar tambin el costo de usar las comunicaciones de la red para obtener data. Los costos de comunicacin se minimizan cuando cada sitio tiene su propia copia de la data, por otro lado cuando la data es actualizada se debe actualizar en todos los nodos. Uso del sistema: debe tomarse en consideracin cual ser el tipo principal de uso del sistema de BDD. Factores como la importancia en la disponibilidad de la data, la velocidad de escritura y la capacidad de recuperacin de daos fsicos deben tomarse en cuenta para escoger el esquema correcto.

6.3CONCEPTOS DE BASE DE DATOS EN MALLA


Tambin conocida como Base de datos espacial (spatial database) es un sistema administrador de bases de datos que maneja datos existentes en un espacio o datos espaciales.

En este tipo de bases de datos es imprescindible establecer un cuadro de referencia (un SRE, Sistema de Referencia Espacial) para definir la localizacin y relacin entre objetos, ya que los datos tratados en este tipo de bases de datos tienen un valor relativo, no es un valor absoluto. Los sistemas de referencia espacial pueden ser de dos tipos: georreferenciados (aquellos que se establecen sobre la superficie terrestre. Son los que normalmente se utilizan, ya que es un dominio manipulable, perceptible y que sirve de referencia) y no georreferenciados (son sistemas que tienen valor fsico, pero que pueden ser tiles en determinadas situaciones). La construccin de una base de datos geogrfica implica un proceso de abstraccin para pasar de la complejidad del mundo real a una representacin simplificada que pueda ser procesada por el lenguaje de las computadoras actuales. Este proceso de abstraccin tiene diversos niveles y normalmente comienza con la concepcin de la estructura de la base de datos, generalmente en capas; en esta fase, y dependiendo de la utilidad que se vaya a dar a la informacin a compilar, se seleccionan las capas temticas a incluir.

La estructuracin de la informacin espacial procedente del mundo real en capas conlleva cierto nivel de dificultad. En primer lugar, la necesidad de abstraccin que requieren los computadores implica trabajar con primitivas bsicas de dibujo, de tal forma que toda la complejidad de la realidad ha de ser reducida a puntos, lneas o polgonos. En segundo lugar, existen relaciones espaciales entre los objetos geogrficos que el sistema no puede obviar; la topologa, que en realidad es el mtodo matemtico-lgico usado para definir las relaciones espaciales entre los objetos geogrficos puede llegar a ser muy compleja, ya que son muchos los elementos que interactan sobre cada aspecto de la realidad. DATOS ESPACIALES Un modelo de datos geogrfico es una abstraccin del mundo real que emplea un conjunto de objetos dato, para soportar el despliegue de mapas, consultas, edicin y anlisis. Los datos geogrficos, presentan la informacin en representaciones subjetivas a travs de mapas y smbolos, que representan la geografa como formas geomtricas, redes, superficies, ubicaciones e imgenes, a los cuales se les asignan sus respectivos atributos que los definen y describen. Un dato espacial es una variable asociada a una localizacin del espacio. Normalmente se utilizan datos vectoriales, los cuales pueden ser expresados mediante tres tipos de objetos espaciales. PUNTOS Se encuentran determinados por las coordenadas terrestres medidas por latitud y longitud. Por ejemplo, ciudades, accidentes geogrficos puntuales, hitos. LNEAS Objetos abiertos que cubren una distancia dada y comunican varios puntos o nodos, aunque debido a la forma esfrica de la tierra tambin

10

se le consideran como arcos. Lneas telefnicas, carreteras y vas de trenes son ejemplos de lneas geogrficas. POLGONOS Figuras planas conectadas por distintas lneas u objetos cerrados que cubren un rea determinada, como por ejemplo pases, regiones o lagos. De esta forma la informacin sobre puntos, lneas y polgonos se almacena como una coleccin de coordenadas (x, y). La ubicacin de una caracterstica puntual, pueden describirse con un slo punto (x, y). Las caractersticas lineales, pueden almacenarse como un conjunto de puntos de coordenadas (x, y). Las caractersticas poligonales, pueden almacenarse como un circuito cerrado de coordenadas. La otra forma de expresar datos espaciales es mediante rasterizacin, la cual, a travs de una malla que permite asociar datos a una imagen; es decir, se pueden relacionar paquetes de informacin a los pxeles de una imagen digitalizada. Los datos espaciales adems se caracterizan por su naturaleza georreferenciada y multidireccional. La primera se refiere que la posicin relativa o absoluta de cualquier elemento sobre el espacio contiene informacin valiosa, pues la localizacin debe considerarse explcitamente en cualquier anlisis. Por multidireccional se entiende a que existen relaciones complejas no lineales, es decir que un elemento cualquiera se relaciona con su vecino y adems con regiones lejanas, por lo que la relacin entre todos los elementos no es unidireccional. Es decir, todos los elementos se relacionan entre s, pero existe una relacin ms profunda entre los elementos ms cercanos. Como destacaba Tobler: "todo tiene que ver con todo, pero las cosas cercanas estn ms relacionadas que las cosas lejanas". LENGUAJES DE CONSULTA ESPACIAL Las bases de datos espaciales no tienen un conjunto de operadores que sirvan como elementos bsicos para la evaluacin de consultas ya que estas manejan un volumen extremadamente grande de objetos complejos no ordenados en una dimensin. Es por esto que existen algoritmos complejos para evaluar predicados espaciales. Las consultas son realizadas generalmente en SSQL (Spatial SQL), el cual introduce, mediante extensiones, los distintos conceptos del lgebra ROSE dentro del lenguaje SQL estndar, es decir, utiliza las clusulas SELECTFROM-WHERE para las tres operaciones en el lgebra relacional (proyeccin algebraica, producto cartesiano y seleccin). Las tres categoras fundamentales de consultas en un sistema de informacin espacial son: Consultas exclusivamente de propiedades espaciales. Ejemplo: "Traer todos los pueblos que son cruzados por un ro". Consultas sobre propiedades no espaciales. Ejemplo: "Cuantas personas viven en Valdivia".

11

Consultas que combinan propiedades espaciales con no espaciales. Ej: "Traer todos los vecinos de un cuadra localizada en Los Angeles". En el lenguaje SSQL, el ejemplo del segundo punto se escribira de la siguiente forma. SELECT poblacin FROM ciudades WHERE nombre= "Valdivia" El otro tipo de consultas, para los datos obtenidos mediante rasterizacin, es llamado PSQL (Pictoral SQL) donde cada objeto espacial se extiende mediante un atributo loc (localizacin) el cual es referenciado en la clusula SELECT para una salida grfica y una clusula especfica para tratar relaciones espaciales. Tambin se destaca en los lenguajes de modelado de la informacin espacial a GML que es una estructura para almacenar y compartir datos geogrficos. Es una codificacin del modelo geomtrico de rasgo simple del OGC (Open Geospatial Consortium simple feature) usando XML. Un rasgo geogrfico (geographic feature) es definido por el OGC como "una abstraccin del fenmeno del mundo real, si ste est asociado con una posicin relativa a la Tierra". Por tanto, es posible hacer una representacin del mundo real con un conjunto de rasgos. La especificacin de un rasgo viene dada por sus propiedades, las que pueden pensarse definidas como un triple (nombre, tipo, valor). Si este rasgo es geogrfico entonces la propiedad tendr un valor geomtrico. Por tanto, un rasgo simple del OGC es aquel cuya propiedad geomtrica est restringida a una geometra simple en la que sus coordenadas estn definidas en dos dimensiones y en el caso de existir una curva, sta es sujeta a una interpolacin lineal.

6.4 Conceptos de bases de datos difusas


1. Introduccin. Este tipo de bases de datos, que se encuadra dentro de la tendencia que pretende tratar con datos y consultas imprecisas, aplica la teora de conjuntos difusos a las bases de datos. Hay que tener en cuenta que, al fin y al cabo, la mayor parte de informacin que manejamos es incompleta e incierta. Una de las caractersticas del lenguaje natural, que hace difcil su utilizacin en sistemas computacionales es su imprecisin. Por ejemplo conceptos como pequeo o grande, tienen significados diferentes de acuerdo al contexto en el que se estn utilizando, e incluso dentro del mismo contexto, pueden significar cosas diferentes para diferentes individuos. La teora de los conjuntos difusos desarrollada por Zadeh, provee una poderosa herramienta para la representacin y manejo de la imprecisin por lo que actualmente est siendo utilizada en varios campos para el diseo de sistemas basados en reglas difusas.

12

La teora de conjuntos difusos, extiende la teora clsica de conjuntos al permitir que el grado de pertenencia de un objeto a un conjunto sea representada como un nmero real entre 0 y 1 en vez del concepto clsico en el que solo se tiene la posibilidad de pertenecer a un conjunto o no pertenecer al mismo; en otras palabras, el grado de pertenencia a un conjunto en la teora clsica tiene solo dos valores posibles: 0 y 1. En el sentido ms amplio, un sistema basado en reglas difusas es un sistema basado en reglas donde la lgica difusa es utilizada como una herramienta para representar diferentes formas de conocimiento acerca del problema a resolver, as como para modelar las interacciones y relaciones que existen entre sus variables. Debido a estas propiedades, los sistemas basados en reglas difusas han sido aplicados de forma exitosa en varios dominios en los que la informacin vaga o imprecisa emerge en diferentes formas. Actualmente, el modelo relacional no permiten el procesamiento de consultas del tipo Encontrar todos los gerentes cuyo sueldo no sea muy alto dado que ni el clculo ni el lgebra relacional, que establecen el resultado de cualquier consulta como una nueva relacin, tienen la capacidad de permitir consultas de una manera difusa. En los ltimos aos, algunos investigadores han lidiado con el problema de relajar el modelo relacional para permitirle admitir algunas imprecisiones; esto conduce a sistemas de bases de datos que encajan en el campo de la Inteligencia Artificial, ya que permiten el manejo de informacin con una terminologa que es muy similar a la del lenguaje natural. Una solucin que aparece recurrentemente en los trabajos de investigacin actuales en esta rea es la fusin de los sistemas manejadores de bases de datos relacionales con la lgica difusa, lo que da lugar a lo que se conoce como sistemas manejadores de bases de datos difusas o FRDBMS (por sus siglas en ingls, Fuzzy Relational Database Management System). 2. Modelos de Implementacin El problema de la implementacin de los sistemas gestores de bases de datos difusas ha sido tratado en dos vertientes principales: Iniciar con un sistema gestor de bases de datos relacionales (SGBDR) con informacin precisa y desarrollar una sintaxis que permita formular consultas imprecisas, lo cual da origen a extensiones SQL, como Fuzzy SQL, con capacidades de manejar la imprecisin. Construir un gestor de bases de datos relacionales difusas (SGBDRD) prototipo que implemente un modelo concreto de base de datos relacional difusa en el que la informacin imprecisa pueda ser almacenada. Dentro de esta vertiente existen dos grandes ramas: Los modelos a travs de unificacin por relaciones de similitud y los modelos relacionales basados en distribuciones de probabilidades.

13

Particularmente me enfocar a los trabajos desarrollados en la Universidad de Granada, Espaa por un grupo de investigadores que se encuentran trabajando en esta rama actualmente. 3. Representacin de la informacin Los elementos relacionados con la manipulacin de informacin difusa pueden tener representaciones diferentes. Por ejemplo, una distribucin normalizada de probabilidades puede ser representada por diferentes tipos de funciones (trapezoidal, triangular, intervalar, etc.). Lo ms usual, es que se usen funciones de tipo trapezoidal. Lo mismo puede decirse de la forma en la que se modelan los operadores relacionales difusos as como los dems elementos difusos que aparezcan en el sistema. El criterio empleado para seleccionar la forma de representacin de los mltiples elementos difusos del sistema manejador de base de datos, puede afectar de manera determinante la funcionalidad y desempeo de la base de datos, por lo que debera ser uno de los puntos centrales en los que el experto ajuste la arquitectura del FRDBMS al problema especfico a tratar mediante el mismo. Puede decirse entonces que este criterio de seleccin y ajuste constituye un paso entre la formulacin de una base de datos relacional difusa y la implementacin de un sistema basado en la misma. La informacin que se puede manejar en una base de datos difusa puede dividirse en dos tipos principales: Datos Precisos.

Manejados usualmente mediante la representacin provista por la base de datos relacional husped. Datos Imprecisos.

Los modelos usualmente consideran dos tipos de representacin para los datos imprecisos adems de la informacin desconocida o indeterminada que se maneja mediante los tipos unknown, undefined y null: *Datos imprecisos sobre dominios ordenados Este grupo de datos contiene distribuciones de probabilidad definidas en dominios continuos o discretos, pero ordenados.

14

Datos con analogas sobre dominios discretos

Este grupo de datos se construye sobre dominios discretos en los que existen definidas relaciones de proximidad entre sus valores. En este caso se deber almacenar la representacin de los datos adems de la representacin de las relaciones de proximidad definidas para los valores en el dominio. Tipo de dato Indefinido (undefined)

Cuando un atributo toma el valor undefined, esto refleja el hecho de que ningn valor de su dominio es permitido. Por ejemplo: el nmero de telfono de alguien que no tiene telfono. Tipo de dato desconocido (unknown)

Los datos de este tipo expresan nuestra ignorancia sobre el valor que el atributo toma, sin embargo expresa tambin que puede tomar uno de los valores del dominio. Por ejemplo la fecha de nacimiento de alguien, la desconocemos pero tiene que tener alguna. Tipo de dato nulo (null)

Cuando un atributo toma el valor nulo, esto significa que no tenemos informacin sobre l, ya sea porque no conocemos su valor o porque es imposible asignarle un valor del dominio. Por ejemplo el email de alguien es null si desconocemos su valor o si lo tiene o no. 3.1 Operaciones relacionales difusas: Los diferentes operadores de comparacin que se uti lizan para representar relaciones en la base de datos son los operadores relacionales. Para que estos funcionen sobre informacin imprecisa es necesario extender estos

15

operadores. La representacin adoptada por Medina et al en su modelo de FRDBMS se basa en el trabajo previo de Zadeh [6] y es la siguiente: Igual a:

Este operador modela el concepto de igualdad para datos imprecisos.

Aproximadamente igual:

Este operador define el grado en el que dos valores numricos (no difusos) son aproximadamente iguales de acuerdo a si la diferencia de sus valores se encuentra dentro de un lmite preestablecido. Y se calcula mediante la siguiente expresin:

A continuacin se muestra la representacin grfica para este operador:

6.5 Aplicaciones especializadas de los sistemas de bases de datos


Uno de los objetivos fundamentales de un sistema de informacin es contar no slo con recursos de informacin, sino tambin con los mecanismos necesarios para poder encontrar y recuperar estos recursos. De esta forma, las

16

bases de datos se han convertido en un elemento indispensable no slo para el funcionamiento de los grandes motores de bsqueda y la recuperacin de informacin a lo largo y ancho de la Web, sino tambin para la creacin de sedes web, Intranets y otros sistemas de informacin en los que se precisa manejar grandes o pequeos volmenes de informacin. La creacin de una base de datos a la que puedan acudir los usuarios para hacer consultas y acceder a la informacin que les interese es, pues, una herramienta imprescindible de cualquier sistema informativo sea en red o fuera de ella. Una base de datos es una coleccin de datos organizados y estructurados segn un determinado modelo de informacin que refleja no slo los datos en s mismos, sino tambin las relaciones que existen entre ellos. Una base de datos se disea con un propsito especifico y debe ser organizada con una lgica coherente. Los datos podrn ser compartidos por distintos usuarios y aplicaciones, pero deben conservar su integridad y seguridad al margen de las interacciones de ambos. La definicin y descripcin de los datos han de ser nicas para minimizar la redundancia y maximizar la independencia en su utilizacin. En una base de datos, las entidades y atributos del mundo real, se convierten en registros y campos. Estas entidades pueden ser tanto objetos materiales como libros o fotografas, pero tambin personas e, incluso, conceptos e ideas abstractas. Las entidades poseen atributos y mantienen relaciones entre ellas. Los modelos clsicos de tratamiento de los datos son:

jerrquico: puede representar dos tipos de relaciones entre los datos: relaciones de uno a uno y relaciones de uno a muchos. Este modelo tiene forma de rbol invertido en el que una rama puede tener varios hijos, pero cada hijo slo puede tener un padre. en red: Este modelo permite la representacin de muchos a muchos, de tal forma que cualquier registro dentro de la base de datos puede tener varias ocurrencias superiores a l. El modelo de red evita redundancia en la informacin, a travs de la incorporacin de un tipo de registro denominado el conector. En el modelo en red se representa el mundo real mediante registros lgicos que representan a una entidad y que se relacionan entre s por medio de flechas relacional:. Desde los aos 80 es el modelo ms utilizado, ya que permite una mayor eficacia, flexibilidad y confianza en el tratamiento de los datos. La mayor parte de las bases de datos y sistemas de informacin actuales se basan en el modelo relacional ya que ofrece numerosas ventajas sobre los 2 modelos anteriores, como es el rpido aprendizaje por parte de usuarios que no tienen conocimientos profundos sobre sistemas de bases de dados. En el modelo relacional se representa el mundo real mediante tablas relacionadas entre s por columnas comunes. Las bases de datos que pertenecen a esta categora se basan en el modelo relaciones, cuya estructura principal es la relacin, es decir una tabla bidimensional compuesta por lneas y columnas. Cada lnea, que en terminologa relacional se llama tupla, representa una entidad que nosotros queremos memorizar en la base de datos. las caractersticas de cada entidad estn definidas por las columnas de las relaciones, que se llaman atributos. Entidades con

17

caractersticas comunes, es decir descritas por el mismo conjunto de atributos, formarn parte de la misma relacin.

Ejemplo de base de datos relacional elaborada con Microsoft Access Hoy tambin destaca la utilizacin de bases de datos distribuidas ya que cada vez es ms corriente el uso de arquitecturas de cliente-servidor y trabajo en grupo. Los principales problemas que se generan por el uso de la tecnologa de bases de datos distribuidas se refieren a la duplicidad de datos y a su integridad al momento de realizar actualizaciones a los mismos. Adems, el control de la informacin puede constituir una desventaja, debido a que se encuentra diseminada en diferentes localizaciones geogrficas. Recientemente han hecho su aparicin los modelos de bases de datos orientadas a objetos. En estos, el esquema de la base de datos est representada por un conjunto de clases que definen las caractersticas y el comportamiento de los objetos que conformarn la base de datos.La diferencia principal respecto a los modelos anteriores es la no positividad de los datos. Esto es, con una base de datos tradicional, las operaciones que se tienen que efectuar en los datos se les piden a las aplicaciones que los usan. Con una base de datos orientada a objetos sucede lo contrario, los objetos memorizados en la base de datos contienen tanto los datos como las operaciones posibles con tales datos. En cierto sentido, se podr pensar en los objetos como en datos a los que se les ha dotado de "cierta inteligencia" que les permite saber cmo comportarse, sin tener que apoyarse en aplicaciones externas. La arquitectura de un sistema de base de datos se basa en 3 niveles distintos:

nivel fsico: es el nivel ms bajo de abstraccin y el nivel real de los datos almacenados. Este nivel define cmo se almacenan los datos en el soporte fsico, ya sea en registros o de cualquier otra forma, as como

18

los mtodos de acceso. Este nivel lleva asociada una representacin de los datos, que es lo que denominamos Esquema Fsico. nivel conceptual: es el correspondiente a una visin de la base de datos desde el punto de visto del mundo real. Es decir se trata con la entidad u objeto representado, sin importar como est representado o almacenado ste. Es la representacin de los datos realizada por la organizacin, que recoge los datos parciales de los requerimientos de los diferentes usuarios y aplicaciones parciales. Incluye la definicin de los datos y las relaciones entre ellos. Este nivel lleva asociado un Esquema Conceptual. nivel de visin: son partes del esquema conceptual. El nivel conceptual presenta toda la base de datos, mientras que los usuarios, por lo general, slo tienen acceso a pequeas parcelas de sta. El nivel visin es el encargado de dividir estas parcelas. Un ejemplo sera el caso del empleado de una organizacin que tiene acceso a la visin de su nmina, pero no a la de sus compaeros. El esquema asociado a ste nivel es el Esquema de Visin.

Otros autores utilizan la denominacin de nivel interno, nivel conceptual y nivel externo, para referirse a estos mismos niveles:

Niveles de la arquitectura de un sistema de base de datos Este modelo de arquitectura permite establecer el principio de independencia de los datos, ya se trate de una independencia lgica o fsica. La independencia lgica significa que los cambios en el esquema lgico no deben afectar a los esquemas externos que no utilicen los datos modificados; la independencia fsica significa que el esquema lgico no se va a ver afectado por los cambios realizados en el esquema interno, correspondientes a modos de acceso, etc. A la hora de disear una base de datos hay que distinguir por un lado el modelo de datos (instrumento) y por otro lado el esquema de datos (el resultado de aplicar ese modelo). Un modelo de datos es un conjunto de conceptos, reglas y convenciones que nos permiten describir los datos del universo del discurso. Un esquema es la estructura de datos obtenida tras aplicar dicho modelo.

19

El modelo de datos es una cuestin fundamental a la hora de disear bases de datos. Jess Tramullas en Los sistemas de bases de datosrecoge estos 3 modelos fundamentales:

Modelos lgicos basados en objetos: los dos ms extendidos son el modelo entidad-relacin y el orientado a objetos. El modelo entidad-relacin (E-R) se basa en una percepcin del mundo compuesta por objetos, llamados entidades, y relaciones entre ellos. Las entidades se diferencian unas de otras a travs de atributos. El orientado a objetos tambin se basa en objetos, los cuales contienen valores y mtodos, entendidos como rdenes que actan sobre los valores, en niveles de anidamiento. Los objetos se agrupan en clases, relacionndose mediante el envo de mensajes. Algunos autores definen estos modelos como "modelos semnticos". Modelos lgicos basados en registros: el ms extendido es el relacional, mientras que los otros dos existentes, jerrquico y de red, se encuentran en retroceso. Estos modelos se usan para especificar la estructura lgica global de la base de datos, estructurada en registros de formato fijo de varios tipos. El modelo relacional representa los datos y sus relaciones mediante tablas bidimensionales, que contienen datos tomados de los dominios correspondientes. El modelo de red est formado por colecciones de registros, relacionados mediante punteros o ligas en grafos arbitrarios. el modelo jerrquico es similar al de red, pero los registros se organizan como colecciones de rboles. Algunos autores definen estos modelos como "modelos de datos clsicos". Modelos fsicos de datos: muy poco usados, son el modelo unificador y el de memoria de elementos. Algunos autores definen estos modelos como "modelos de datos primitivos".

Los objetivos del modelo de datos son , por un lado formalizar y definir las estructuras permitidas para representar los datos, y por otro, disear la base de datos. En el diseo de una base de datos, hay que tener en cuenta distintas consideraciones, entre las que destacan:

la velocidad de acceso el tamao de la informacin el tipo de informacin la facilidad de acceso a la informacin la facilidad para extraer la informacin requerida el comportamiento del sistema de gestin de bases de datos con cada tipo de informacin.

Para plasmar los tres niveles en el enfoque o modelo de datos seleccionado, es necesario un programa o aplicacin que acte como interfaz entre el usuario, los modelos y el sistema fsico. Esta es la funcin que desempean los Sistemas de Gestin de Bases de Datos. Un Sistema de Gestin de Bases de Datos, tambin llamado DBMS (Data Base Management System) no es ms que un paquete de software, que se ejecuta en un ordenador anfitrin (host) que es quien centraliza los accesos a los datos y acta de interfaz entre los

20

datos fsicos y los usuarios. Este sistema es capaz de llevar a cabo funciones como la creacin y gestin de la base de datos misma, el control de accesos y la manipulacin de datos de acuerdo a las necesidades de cada usuario. As pues, las bases de datos pueden ser creadas, mantenidas y gestionadas por una serie de aplicaciones denominadas Sistemas de Gestin de Bases de Datos (SGBD). De esta forma, cualquier usuario puede crear una base de datos siguiendo unos parmetros normalizados que permiten que pueda ser consultada por otros usuarios. Un sistema de gestin de base de datos est formado por personas, mquinas, programas y datos. Estos sistemas de gestin abarcan el conjunto de rutinas de software interrelacionadas cada una de las cuales es responsable de una determinada tarea. Jess Tramullas recoge los componentes con los que debe contar un sistema de gestin de bases de datos ideal:

Un lenguaje de definicin de esquema conceptual. Un sistema de diccionario de datos. Un lenguaje de especificacin de paquetes de entrada/salida. Un lenguaje de definicin de esquemas de base de datos. Una estructura simtrica de almacenamiento de datos. Un mdulo de transformacin lgica a fsica. Un subsistema de privacidad de propsito general. Un subsistema de integridad de propsito general Un subsistema de reserva y recuperacin de propsito general. Un generador de programas de aplicacin. Un generador de programas de informes. Un lenguaje de consulta de propsito general.

Los SGBD tienen dos funciones principales que son:


La definicin de las estructuras para almacenar los datos. La manipulacin de los datos.

Adems, los SGBD deben incorporar como herramienta fundamental dos tipos de lenguajes: uno para la definicin de los datos, y otro para la manipulacin de los mismos. El primero se denomina DLL (Data Definition Language) y es el que provee de los medios necesarios para definir los datos con precisin, especificando las distintas estructuras. El segundo se conoce como DML (Data Manipulation/Management Language) y es el facilita a los usuarios el acceso y manipulacin de los datos. Antes de la existencia de las bases de datos, los ordenadores trabajaban en lo que se conoce como "Sistemas de procesamiento de Archivos" en los que se guardaban los datos para ser procesados por programas escritos especialmente para cada clase de archivo; esto conduca a un sistema monoltico y de difcil mantenimiento con una serie de inconvenientes como la dificultad de acceso a ciertos datos de informacin, el aislamiento de datos, la falta de integridad, los problemas de atomicidad en las operaciones, los problemas de acceso concurrente, la falta de seguridad, etc. Para resolver estos problemas se desarrollaron los Sistemas de Gestin de Bases de Datos cuyas caractersticas hacen al sistema mucho ms eficiente que los sistemas de procesamiento de archivos. Algunas de estas mejoras se basan en la

21

existencia de una sola copia de los datos para que todos los programas trabajen con ella, lo que se denominado obtencin de redundancia mnima, para de esta manera poder eliminar la inconsistencia de los datos; o la capacidad de interactuar en un ambiente cliente/servidor donde los clientes o usuarios (ya sea en una intranet o desde Internet) puedan trabajar con un un conjunto nico de datos alojados en un servidor y donde varios clientes podran estar trabajando al mismo tiempo. Estas son slo algunas de las caractersticas con que cuenta el modelo de base de datos relacional y existen diversos motores de base de datos que permiten trabajar ya sea con bases de datos existentes o creando nuevas con todas las capacidades de trabajo en red. Numerosas empresas se han volcado al desarrollo de sistemas de gestin de bases de datos como Oracle, Informix, PostgreSQL, Sybase, Microsoft, etc. y existen tanto soluciones comerciales de pago, como soluciones de acceso libre. Los principales sistemas gestores de bases de datos se relacionan aqu. En el diseo de una base de datos, el tamao de la misma es una cuestin fundamental, puesto que ste afecta tanto a la eficiencia en el almacenamiento, como a la agilidad en la bsqueda y recuperacin. Como los datos pueden estar en cualquier morfologa (texto, imagen, audio, etc.), en algunos casos se debern utilizar tcnicas de compresin de datos con el fin de disminuir el espacio y tamao de la base, pero estas tcnicas de compresin debern ir acompaadas de las correspondientes tcnicas de indizacin que hagan posible la recuperacin de dichos datos. Tradicionalmente se ha hecho una distincin clara entre 2 tipos de bases de datos:

Bases de datos referenciales: aquellas bases de datos que ofrecen registros que a su vez son representaciones de documentos primarios, y entre las que cabe distinguir: o bibliogrficas: aquellas cuyo contenido son registros de tipo bibliogrfico. o directorios: aquellas cuyo contenido est referido a la descripcin de otros recursos de informacin, como por ejemplo un directorio de bases de datos. Bases de datos fuente: son las que ofrecen el documento completo, no una representacin del mismo, y entre las que cabe distinguir: o numricas: contienen informacin de tipo numrico. o textuales: contienen el texto completo de un documento. o mixtas: combinan ambos tipos de informacin.

Sin embargo, el desarrollo de las aplicaciones multimedia ha dado un vuelco al concepto tradicional de base de datos, que slo integraba elementos de informacin textual y numrica. Con el multimedia, han hecho su aparicin otro tipo de objetos: grficos, sonoros y audiovisuales que comparten el mismo entorno que los datos textuales y numricos. La aparicin del CD-ROM y otros soportes pticos como el DVD con gran capacidad de almacenamiento de datos y alta velocidad de lectura, han hecho posible el desarrollo de las bases de datos multimedia. A la vez, se han ido estandarizando poco a poco los formatos de archivo grficos, de audio y de vdeo, y se han perfeccionado los mtodos de compresin de este tipo de datos, ya que ocupan grandes cantidades de memoria.

22

Adems, el desarrollo del hipertexto, al permitir la conectividad entre las referencias y los documentos fuente a travs de los enlaces, ha roto tambin las fronteras entre documentos primarios y documentos secundarios, aunando en un mismo espacio datos referenciales y acceso directo al documento fuente. Hasta pocas recientes, las bases de datos eran productos comerciales desarrollados y mantenidos por ciertas empresas que las comercializaban bien en formato CD-ROM o bien las distribuan para su consulta, previo pago, en lnea va telnet. La mayora eran bases de datos bibliogrficas o de legislacin. Las organizaciones tambin contaban con sus propias bases de datos construidas sobre los sistemas de gestin ms conocidos para crear y mantener bases de datos como FileMaker, Knosys, Access, etc. Hoy todos estos programas se han visto obligados a ser compatibles con la Web y a ofrecer la posibilidad de acceder, buscar y recuperar los datos en lnea va protocolo http. De esta forma, se han desarrollado y comercializado una serie de herramientas y aplicaciones, comnmente denominadas pasarelas web, que permiten consultar las viejas -o nuevas- bases de datos creadas con estos sistemas de gestin mediante el navegador web, pero tambin, la existencia de estas herramientas ha favorecido el hecho de que cualquier persona pueda hoy publicar su propia base de datos en su pgina web, para que pueda ser consultada por cualquier usuario de la red. Estas pasarelas no son ms que herramientas de software que permiten la comunicacin entre el servidor web y la base de datos. As pues, la World Wide Web se ha convertido en s misma, en una interfaz de acceso a datos que puede ser utilizada por cualquier usuario. Los nodos de un hipertexto no se limitan a incluir texto, imagen o sonido, sino tambin scripts y otros elementos como APIs (Application Programming interface) o controladores para conectividad de bases de datos e intercambio de informacin tales como OLE (Open Database Connectivity), CGI (Common Gateway Interface), JDBC (Java Data Base Connectivity), SQL LINKS etc. Todos estos objetos son los que hacen posible la existencia de elementos y documentos dinmicos y los que aportan un verdadero dinamismo al hipertexto. Se trata de componentes que deben ser diseados en la interfaz de programacin para acceso a datos del hipertexto y que comprende tanto el diseo e interfaz de Objetos de Acceso a Datos, como la interfaz de programacin de aplicaciones. Disear hoy una web se ha convertido en una labor compleja puesto que se exigen conocimientos de arquitectura de la informacin en sus distintas facetas y una de ellas, es administrar y gestionar bases de datos. La Web es aqu entendida como interfaz de software que permite una serie de funcionalidades como que el usuario pueda interrogar y consultar de forma directa a la base de datos y obtener las referencias o el acceso directo a los recursos o documentos buscados.

23

Los SGBD suelen incluir herramientas de administracin que permiten ajustar el rendimiento en funcin de las necesidades particulares. Muchas empresas cuentan son sus propios administradores de bases de datos, pero tambin hay muchas otras que no, y lo ms probable es que el diseador web tenga que administrar tambin las bases de datos. Sin embargo, la complejidad del diseo ha dado lugar al nacimiento de nuevas profesiones que se encargan de llevar a cabo procesos tales como el anlisis o minera de datos ( data mining) o la distribucin de los mismos (data warehouse). Como se ha afirmado anteriormente, existen sistemas de gestin de bases de datos tanto de uso libre, como soluciones comerciales de pago. Una de las tendencias ms claras en la Web actual es integrar el acceso a datos en los servidores de aplicaciones y esto ha conducido a que casi todos los fabricantes de sistemas de gestin de bases de datos comerciales ofrezcan sus propios servidores de aplicaciones que se integran a bajo nivel con los productos de bases de datos de la misma empresa. Como ejemplos, tenemos Sybase Enterprise Server y Oracle Application Server. Un servidor de aplicaciones no es ms que un cambio de nombre para algunos servidores Web de nueva generacin que permiten construir aplicaciones. Suelen asociarse con servidores de alto rendimiento pensados para dar servicio a sitios Web con grandes necesidades para gestionar movimientos de datos, afluencia de visitas, atencin de transacciones hacia bases de datos, etc. Generalmente los fabricantes del sector tienen a disposicin del pblico un servidor Web bsico y otro con multitud de extensiones integradas al que llaman servidor de aplicaciones.

24

Un servidor de aplicaciones clsico se apoya en un modelo cliente/servidor de tres capas:


Presentacin: una interfaz, generalmente grfica que reside en los clientes. El ejemplo tpico es un navegador. Lgica de negocio: donde reside el servidor de aplicaciones y el conjunto de programas a los que da soporte. Almacenamiento: generalmente una base de datos.

Los servicios aadidos a los servidores de aplicaciones suelen ser: generacin de cdigo HTML XML, trabajo con bases de datos y gestin de transacciones, funcionamiento multiproceso para atender a distintas peticiones, establecimiento de distintas sesiones para acceso de usuarios, mecanismos de seguridad y autentificacin, monitorizacin para evitar fallos, etc. De cualquier forma, hay que tener en cuenta que, aparte de cmo se almacenan los datos en la base de datos, una cuestin importante es la interfaz de presentacin de esos datos. Las interfaces o presentaciones de una aplicacin hacia el usuario han ido evolucionando a travs del tiempo y, actualmente se utilizan muchos lenguajes visuales denominados de cuarta generacin como son: Visual Fox Pro, Visual Basic, Delphi, etc. Tambin los ambientes Web, se han vuelto una opcin viable para las aplicaciones distribuidas en Internet y esto se ha logrado mediante el uso de ciertas herramientas como son: HTML, DHTML y JavaScripts. Con tecnologas como el scripting y DHTML, los desarrolladores de aplicaciones pueden crear acciones con interfaces de Web funcionales, basadas para la entrada de datos o salida de resultados de bsqueda sin usar controles comunes o applets. La tendencia es que las empresas intenten mejorar la interfaz hacia el usuario para que ste tenga la oportunidad de explotar la mayor cantidad de informacin, en una nica pantalla o ventana del sistema.

25

Las interfaces de programacin denotan el proceso de acceso y manipulacin de los datos a una base de datos, partiendo de la aplicacin. El siguiente esquema muestra 4 niveles o interfaces:

Interfaces de Programacin para el acceso a datos. La primera interfaz corresponde a la de Aplicacin, la cual abarca y/o corresponde a cada uno de los programas clientes. La Interfaz de Objetos de Acceso a Datos, se encuentra como punto medio entre las aplicaciones y las API's que llegan a ser necesarias para el acceso a las bases de datos. Entre las tecnologas que pertenecen a la Interfaz de Objetos de Acceso de Datos encontramos: DAO (Data Access Objects), ADO (ActiveX Data Objects), RDO (Remote Data Object), RDS (Remote Data Service) y MIDAS (Middle-tier Distributed Application Service). Su funcin es encapsular los componentes que se encuentran en la interfaz que corresponde a la de API's, con la finalidad de reducir el desarrollo de la aplicacin y los costos de mantenimiento y deben situarse en todos los equipos que ejecuten la aplicacin, ya que se encuentran casi de manera conjunta con la aplicacin. Por su parte, la Interfaz de Programacin de Aplicaciones (Application Programming Interface, API), se encarga de mantener el dilogo con la base de datos, para poder llevar a cabo el acceso y manipulacin de los datos. Algunos de los componentes que forman parte de esta interfaz son los siguientes: OLE DB, ODBC (Open Database Connectivity), JDBC (Java Data Base Connectivity), ISAPI (Internet Server Application Programming Interface) y CGI (Common Gateway Interface). La funcin que tienen las API's, es la de ser una interfaz entre las aplicaciones y las bases de datos, llevando sta tarea unas veces a travs de los clientes y otros a travs del servidor de base de datos. Esto quiere decir, que puede darse el caso de que el cliente conste de las tres primeras interfaces o niveles, o que se encuentren las dos ltimas en el servidor. La interfaz correspondiente a la base de datos, es donde se encontrar el servidor y toda la informacin depositada en l. Para poder accesar y manipular la informacin de una base de datos, es necesario llevar a cabo la instalacin de ciertos API's o controladores, que son indispensables para efectuar la conectividad de los datos externos, y vincularlos a la aplicacin para su correcta y adecuada utilizacin. Las API's que se describen a continuacin, son un claro ejemplo del proceso correspondiente a la conectividad de datos.

26

ODBC (Open Data Base Connectivity): Esta tecnologa proporciona una interfaz comn para tener acceso a bases de datos SQL heterogneas. ODBC est basado en SQL (Structured Query Language) como un estndar para tener acceso a datos. ODBC permite la conexin fcil desde varios lenguajes de programacin y se utiliza mucho en el entorno Windows. Sobre ODBD Microsoft ha construido sus extensiones OLE DB y ADO. Los OCBD se pueden clasificar en 3 categoras: o Los ODBC's que permitan la realizacin de consultas y actualizaciones. o Los ODBC's que mediante ellos se pueda llegar a la creacin de tablas en la base de datos. o Los ODBC's propios de los DBMS, los cuales se pueden llegar a manipular ciertas herramientas de administracin. CGI (Common Gateway Interface): es una de las soluciones que se est utilizando ms para la creacin de interfaces Web/DBMS. Entre las ventajas de la programacin CGI, destaca la sencillez, ya que es muy fcil de entender, adems de ser un lenguaje de programacin independiente, ya que los escritos CGI pueden elaborarse en varios lenguajes. Tambin es un estndar para usarse en todos los servidores Web, y funcionar bajo una arquitectura independiente, ya que ha sido creado para trabajar con cualquier arquitectura de servidor Web. Como la aplicacin CGI se encuentra funcionando de forma independiente, no pone en peligro al servidor, en cuanto al cumplimiento de todas las tareas que ste se encuentre realizando, o al acceso del estado interno del mismo. Pero el CGI presenta cierta desventaja en su eficiencia, debido al que el servidor Web tiene que cargar el programa CGI y conectar y desconectar con la base de datos cada vez que se recibe una requisicin. Adems, no existe un registro del estado del servidor, sino que todo hay que hacerlo manualmente. ISAPI (Internet Server Application Programming Interface): Es la interfaz propuesta por Microsoft como una alternativa ms rpida que el CGI, y est incluida en el Servidor Microsoft Internet Information (IIS). As como los escritos CGI, los programas escritos usando ISAPI habilitan un usuario remoto para ejecutar un programa, busca informacin dentro de una base de datos, o intercambia informacin como otro software localizado en el servidor. Los programas escritos usando la interfaz ISAPI son compilados como bibliotecas de enlace dinmico (DLL - Dinamic Link Library), ya que son cargados por el servidor Web cuando ste se inicia. Dichos programas se vuelven residentes en memoria, por lo que se ejecutan mucho ms rpido que las aplicaciones CGI, debido a que requieren menos tiempo de uso de CPU al no iniciar procesos separados. Uno de los programas ISAPI ms usados es el HTTPODBC.DLL que se usa para enviar y/o devolver informacin hacia y desde las bases de datos, a travs de ODBC. Adems, ISAPI permite realizar un procesamiento previo de la solicitud y uno posterior de la respuesta, con lo cual manipula la solicitud/respuesta HTTP. Los filtros ISAPI pueden utilizarse para aplicaciones tales como autenticacin, acceso o apertura de sesin. NSPAI. es la API propuesta por Netscape para extender la funcionalidad de sus servidores. DBI (PERL): Perl es uno de los lenguajes ms utilizados para programacin en la Web y proporciona su propia interfaz de acceso a datos, llamada DBI (DataBase Interface). Es especialmente utilizado

27

bajo plataformas Linux/Unix, solucionando las complejidades de ODBC en estos sistemas. DBI acta como una abstraccin para un conjunto de mdulos DBD (DataBase Driver). Cada mdulo DBD acta como manejador de un sistema gestor de base de datos distinto. Existen mdulos para prcticamente cualquier SGBD (Oracle, Informix, MySQL, etc.) y puentes hacia otras tecnologas como ADO, JDBC ... JDBC (Java Data Base Connectivity): se trata del estndar para la conectividad entre el lenguaje Java y un amplio rango de sistemas gestores de bases de datos. Los JDBC pueden desenvolverse tanto en un nivel cliente, esto es, trabajando del lado de la aplicacin, o en el servidor directamente relacionado con la base de datos. Cuando se encuentre a nivel cliente, trabajar con la tecnologa ODBC para acceso a los datos. Hay diversos tipos de controladores JDBC: o El puente JDBC-OBDC: fue uno de los primeros controladores disponibles, implementa un enlace para utilizar un controlador ODBC desde Java. Con el tiempo han surgido controladores JDBC especficos para cada base de datos que mejoran el rendimiento del puente JDBC-ODBC. o Controladores Java parcialmente nativos: usan tanto cdigo Java como binario especfico de cada plataforma. o Controladores JDBC-Net de Java puro: son controladores escritos completamente en Java que entienden un protocolo de red estndar (HTTP, etc.) y permiten comunicarse con un servidor de acceso a bases de datos, que es el que finalmente provee el acceso al SGBD especfico (posiblemente con ODBC). o Controladores de protocolo nativo en Java puro: escritos en Java puro, utilizan el protocolo especfico de la marca del SGBD. SQL LINKS: se trata de controladores que se encargan de realizar la comunicacin remota entre la aplicacin y los servidores remotos de bases de datos, permitiendo una comunicacin casi directa y muy rpida. Los ha desarrollado la empresa Inprise y permiten conexionescon otros servidores de bases de datos como: Interase, Oracle, Sybase, Informix, Microsoft SQL Server, etc.

Las 2 tecnologas ms importantes de conectividad a la la base de datos son ADO y JDBC. ADO:Existen varios niveles o interfaces para lograr la comunicacin o acceso a la base de datos a travs de la aplicacin. El siguiente esquema muestra 2 de los principales niveles, dentro de los cuales se encuentra ADO.

28

Por lo general, las interfaces de objetos de datos son ms fciles de usar que las APIS, aunque las APIs ofrecen ms funcionalidades. ADO ( ActiveX Data Objects) es la interfaz de objetos de datos para OLE DB, y RDO ( Remote Data Objects) es la interfaz para el objeto ODBC. ADO encapsula el API OLE DB en un modelo objeto simple que reduce el desarrollo, mantenimiento y costo de la aplicacin. Es muy fcil de usar, utiliza lenguajes de programacin como Visual Basic, Java, C++, VBScript y JScript, puede accesar datos desde cualquier recurso OLE DB y adems, es extensible. Es la interfaz utilizada por Microsoft. El modelo ADO, basado en el modelo de objetos, define una jerarqua de objetos programables que pueden ser usados por desarrolladores de pginas Web para acceder a la informacin almacenada en una base de datos. Una jerarqua es un grupo de objetos relacionados que trabajan juntos para un mismo propsito. Por ejemplo, en la siguiente figura, cada caja representa un objeto, y cada lnea representa una asociacin directa entre ellos.

ADO est compuesto de siete objetos, algunos de alto nivel como Connection, Command y Recordset, que pueden ser creados y eliminados por el usuario y otros con distintas funcionalidades como designar propiedades de conexin, definir sentencias y ejecutarlas, optimizacin de consultas, etc. Estos elementos se representan en la siguiente figura:

Cada uno de los objetos anteriores contiene una coleccin de objetos Property. El objeto Property permite a ADO mostrar dinmicamente las capacidades de un objeto especfico. ADO permite disear sitios web que pueden acceder repetidamente a la misma base de datos usando una misma bsqueda u otra similar. Se pueden compartir conexiones y esto significa una menor carga de trabajo para el servidor de la base de datos, un tiempo de respuesta ms rpida y ms accesos a pgina con xito. Existe un componente llamado RDS (Remote Data Service) que ofrece el ambiente de Acceso Universal a Datos, ya sea desde Internet o la World Wide

29

Web, creando un marco de trabajo que permite una interaccin fcil y eficiente con los datos fuente OLE DB tanto en Intranets corporativas o en Internet. RDS ofrece la ventaja de obtener por el lado del cliente resultados de datos, actualizacin y soporte para controles ADO y ofrece el modelo de programacin OLE DB/ADO para manipular datos de las aplicaciones del cliente. JDBC JDBC o Java Data Base Connectivity, creado por la empresa Sun, es la API estndar de acceso a bases de datos con Java. Sun opt por crear una nueva API en lugar de utilizar ODBC, porque esta ltima presentaba algunos problemas desde ciertas aplicaciones Java. ODBC es una interfaz escrita en lenguaje C, que al no ser un lenguaje portable, haca que las aplicaciones Java tambin perdiesen la portabilidad. Adems, ODBC ha de instalarse manualmente en cada mquina, mientras que los controladores ( drivers) JDBC que estn escritos en Java son automticamente instalables y portables. El nivel de abstraccin al que trabaja JDBC es ms alto que el de ODBC y, de esta forma, se pueden crear libreras de ms alto nivel, Para trabajar con JDBC es necesario tener controladores que permitan acceder a las distintas bases de datos. Sin embargo, ODBC sigue siendo hoy en da la API ms popular para acceso a Bases de Datos, por lo que: Sun se ha visto obligada a disear un puente que permite utilizar la API de JDBC en combinacin con controladores ODBC.

Las tecnologas que se emplea para la conectividad entre los datos y la aplicacin, se ha convertido en un factor muy importante a la hora de desarrollar un proyecto web que cuente con funcionalidad de acceso a datos. A continuacin se muestra un cuadro comparativo de las dos tecnologas ms importantes en este sentido: ActiveX Data Objects (ADO) y Java Data Base Connectivity (JDBC). ADO JDBC

30

Tecnologa elaborada por Microsoft Tiene la principal funcin de realizar la solicitud de los datos a la base de datos. Esta solicitud la realizar mediante la tecnologa OLE DB, la cual estar en contacto de manera directa con la base de datos. La tecnologa OLE DB slo se emplear cuando el DBMS pertenece de igual manera a Microsoft, como es SQL Server. ADO encapsular a ciertos objetos de OLE DB, para que de sta manera se realice la conexin con la base de datos. Para realizar la gestin de acceso a bases de datos heterogneas por parte de ADO, ste har uso de ciertos objetos de la tecnologa RDO (Remote Data Objects). RDO depender de los ODBCs para poder efectuar la conexin a la base de datos y con esto el acceso a la informacin. ADO podr encontrarse trabajando en una pgina web en conjunto con cdigo HTML; esto ser posible mediante un mecanismo de introduccin de instrucciones como es el VBscript. Los objetos que conforman al ADO, no son compatibles con otros lenguajes, solo por aquellos que pertenecen a la empresa Microsoft como son: Visual C++, Visual Basic, Visual Java, etc.

Tecnologa hecha por Sun Microsistems. Tiene la funcin de ser un gestor para la aplicacin con respecto a la base de datos. Por primera vez el JDBC fue empleado, tomando como intermediario entre l y la base de datos al ODBC. Como modelo cliente/servidor, el JDBC se encontrar trabajando en el equipo cliente, conectndose directamente con la base de datos. Como modelo de tres capas, el JDBC se encontrar en una capa intermedia, donde todos los usuarios pasarn por l para poder accesar a la base de datos. Existen mdulos JDBC que son propios de los fabricantes de DBMS, que son utilizados para el rpido acceso a la informacin de las bases de datos de los mismos. JDBC no se encontrar ligado a trabajar con alguna tecnologa en especfica, ya que se elabor con la finalidad de ser portable. En aplicaciones Web, JDBC se encontrar laborando en conjunto con cdigo HTML, mediante el mecanismo del Java script. JDBC se elabor con la finalidad de poder ser compatible y portable para poder ser empleado en aplicaciones y para la conexin con bases de datos.

Por ltimo, hay que destacar tambin una tecnologa llamada Web DB utilizada por algunos servidores de bases de datos, con la cual, un usuario puede solicitar la informacin que requiera y visualizarla a modo de respuesta en una pgina Web, que ser creada y elaborada por el propio servidor de base de datos. El proceso que comprende desde la solicitud a la visualizacin de la informacin, puede ser representado de la siguiente manera:

En este esquema anterior destacan:

31

Navegador (browser): es la aplicacin mediante la cual, se tiene acceso libre a los servicios de Internet, y el medio que permite al usuario introducir la solicitud para visualizar la informacin, empleando el URL para especificar detalladamente el proceso que se desea ejecutar. Interfaz de Web: proporciona una interfaz para que un programa que se ejecute en el servidor genere como salida el cdigo HTML, en lugar de leer simplemente un archivo esttico de texto. Con sta interfaz se podrn crear las pginas Web de forma dinmica y/o utilizar la implementacin de formularios HTML. Esta interfaz permite tecnologas como los CGIs o aquellas otras que son propias del servidor de base de datos. Agente PL/SQL: es el eslabn final del proceso entre un navegador cliente y el servidor de base de datos. El agente ejecutar una llamada a un procedimiento almacenado en el servidor. Este procedimiento crear una pgina HTML dinmica como salida, y el agente devolver dicha salida al cliente a travs del navegador empleando de igual manera la Interfaz de Web. Base de Datos (BD). En ella se mantendr almacenada la informacin; se encargar de proporcionar los datos que le hayan solicitado previamente, al momento de la ejecucin de un procedimiento por parte del Agente PL/SQL.

Esta herramienta es una muy buena opcin para pequeas o medianas empresas, en las cuales llegara a resultar muy costoso la implementacin de otro tipo de tecnologas ms caras y avanzadas.

6.5.1 Datawarehouse
En el contexto de la informtica, un almacn de datos (del inglsdata warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

32

Definiciones de almacn de datos Definicin de Bill Inmon Bill Inmon1 fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse(almacn de datos) en trminos de las caractersticas del repositorio de datos:

Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes.

Inmon defiende una metodologa descendente (top-down) a la hora de disear un almacn de datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin. Definicin de Ralph Kimball Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa ascendente (bottom-up) a la hora de disear un almacn de datos. Una definicin ms amplia de almacn de datos Las definiciones anteriores se centran en los datos en s mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las tcnicas para analizarlos y generar informacin, as como las diferentes formas para realizar la gestin de datos son componentes esenciales de un almacn de datos. Muchas referencias a un almacn de datos utilizan esta definicin ms amplia. Por lo tanto, en esta definicin se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el anlisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos. Funcin de un almacn de datos En un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario. Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento ptimo y en el formato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de informacin ejecutiva (EIS) o

33

herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fcilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema. En el funcionamiento de un almacn de datos son muy importantes las siguientes ideas:

Integracin de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organizacin y que con frecuencia tendrn diferentes estructuras (fuentes heterogneas). Se debe facilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s.

Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el almacn. Data marts. Los Data marts son subconjuntos de datos de un data warehouse para reas especficas. Entre las caractersticas de un data mart destacan: Usuarios limitados. rea especfica. Tiene un propsito especfico. Tiene una funcin de apoyo. Cubos de informacin Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional.

34

A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar. Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos. Variables Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ... Ejemplos Ejemplos de variables podran ser:

Beneficios Gastos Ventas etc.

Ejemplos de dimensiones podran ser:


producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc.

Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del productovendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

35

Elementos que integran un almacn de datos Metadatos Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy diferente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la informacin concerniente a: Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones Funciones ETL (extraccin, transformacin y carga)

Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones: Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas. Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal. Middleware Middleware es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. De esta manera se ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo.

36

La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos. Diseo de almacn de datos Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia el almacn. Una vez construido, se requieren medios para manejar grandes volmenes de informacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin:

Situacin actual de partida.- Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de decisiones. Entorno tcnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) as como aplicaciones y herramientas. Se dar nfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cmo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que ser entregado a los usuarios. Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harn para llegar a la construccin del producto final deseado. Prueba del concepto tecnolgico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionar finalmente como se espera.

Almacn de datos especial

37

Almacn de datos espacial es una coleccin de datos orientados al tema, integrados, no voltiles, variantes en el tiempo y que aaden la geografa de los datos, para la toma de decisiones. Sin embargo la componente geogrfica no es un dato agregado, sino que es una dimensin o variable en la tecnologa de la informacin, de tal manera que permita modelar todo el negocio como un enteholstico, y que a travs de herramientas de procesamiento analtico en lnea (OLAP), no solamente se posea un alto desempeo en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados. Viajes e inconvenientes de los almacenes de datos Ventajas Hay muchas ventajas por las que es recomendable usar un almacn de datos. Algunas de ellas son: Los almacenes de datos hacen ms fcil el acceso a una gran variedad de datos a los usuarios finales Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisin tales como informes de tendencia, por ejemplo: obtener los tems con la mayora de las ventas en un rea en particular dentro de los ltimos dos aos; informes de excepcin, informes que muestran los resultados reales frente a los objetivos planteados a priori. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes. Inconvenientes Utilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son:

A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto. A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.

6.5.2 Dataminning
Descubriendo Informacin Oculta Data Mining, la extraccin de informacin oculta y predecible de grandes bases de datos, es una poderosa tecnologa nueva con gran potencial para ayudar a las compaas a concentrarse en la informacin ms importante de sus Bases de Informacin (Data Warehouse). Lasherramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en

38

losnegocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin (knowledge-driven). Los anlisis prospectivos automatizados ofrecidos por un producto as van ms all de los eventos pasados provistos por herramientas retrospectivas tpicas de sistemas de soporte de decisin. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempopara poder ser resueltas y a los cuales los usuarios de esta informacin casi no estn dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando informacin predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Muchas compaas ya colectan y refinan cantidades masivas de datos. Las tcnicas de Data Mining pueden ser implementadas rpidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de informacin existentes y pueden ser integradas con nuevosproductos y sistemas pues son tradas en lnea (on-line). Una vez que las herramientas de Data Mining fueron implementadas en computadoras clienteservidor de alta performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "Cules clientes tienen ms probabilidad de responder al prximo mailing promocional, y por qu? y presentar los resultados en formas de tablas, congrficos, reportes, texto, hipertexto, etc. El Alcance de Data Mining El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos depoblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

39

Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Ms filas. Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de poblacin.

Las tcnicas ms comnmente usadas en Data Mining son:

Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una redneuronal biolgica. Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en undiseo basado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico.

Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Una arquitectura para Data Mining Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica

40

sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido. Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el anlisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados especficos tales como manejos de campaa, prospecting, y optimizacin de promociones. La integracin con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organizacin puede "minar" las mejores prcticas y aplicarlas en futuras decisiones. Este diseo representa una transferencia fundamental desde los sistemas de soporte de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales a travs de software de consultas y reportes, el server de Anlisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes. Glosario de Trminos de Data Mining

Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural. Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a intervalos especficos. El tiempo es usualmente la dimensin dominanate de los datos. Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos histticos. Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas para aprender acerca de la estructura de un conjunto de datos. Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias , comportamientos o eventos basado en datos histricos. rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificacinde un conjunto de datos. Ver CART y CHAID. Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-line (OLAP). Estructurada como un hipercubo con un eje por dimensin. CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto

41

de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID . CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART. Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores tales como "Bueno" y "Malo". Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las variables disponibles. Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores conectados por una red. Ver procesamiento paralelo. Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos. Data Warehouse: Sistema para el almacenamiento y distribucin de cantdades masivas de datos Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que representan eventos inusuales. Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y Ciudad. Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de decisin es un modelo para laclasificacin de un conjunto de datos Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de las variables que son estudiadas. Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP. OLAP Procesamiento analtico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases de datos orientadas a array que permite a

42

los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales. Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados detenidamente; pueden dar importante informacin. Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples procesadores o en una red de estaciones de trabajo o PCs. RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento. Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes). Regresin logstica: Una regresin lineal que predice las proporciones de una variable seleccionada categrica, tal como Tipo de Consumidor, en una poblacin. Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano. SMP Multiprocesador simtrico (Symmetric multiprocessor): Tipo de computadora con multiprocesadores en la cual la memoria es compartida entre los procesadores Terabyte: Un trilln de bytes.

6.5.3 Soporte a la toma de decisiones


El trmino soporte a la toma de decisiones se ha utilizado de formas muy diversas y se ha definido de diferentes maneras dependiendo del punto de vista del autor.2 Algunas de esas definiciones son:

Un DSS, en trminos muy generales, es "un sistema basado en computador que ayuda en el proceso de toma de decisiones" (Finlay3 y otros). En trminos bastante ms especficos, un DSS es "un sistema de informacin basado en un computador interactivo, flexible y adaptable, especialmente desarrollado para apoyar la solucin de un problema de gestin no estructurado para mejorar la toma de decisiones. Utiliza datos, proporciona una interfaz amigable y permite la toma de decisiones en el propio anlisis de la situacin" .

Los DSS son herramientas de mucha utilidad en Inteligencia empresarial (Business Intelligence), permiten realizar el anlisis de las diferentes variables de negocio para apoyar el proceso detoma de decisiones de los directivos:

Permite extraer y manipular informacin de una manera flexible. Ayuda en decisiones no estructuradas.

43

Permite al usuario definir interactivamente qu informacin necesita y cmo combinarla. Suele incluir herramientas de simulacin, modelizacin, etc. Puede combinar informacin de los sistemas transaccionales internos de la empresa con los de otra empresa externa.

Su principal caracterstica es la capacidad de anlisis multidimensional (OLAP) que permite profundizar en la informacin hasta llegar a un alto nivel de detalle, analizar datos desde diferentes perspectivas, realizar proyecciones de informacin para pronosticar lo que puede ocurrir en el futuro, anlisis de tendencias, anlisis prospectivo, etc. Un DSS da soporte a las personas que tienen que tomar decisiones en cualquier nivel de gestin, ya sean individuos o grupos, tanto en situaciones semiestructuradas como en no estructuradas, a travs de la combinacin del juicio humano e informacin objetiva:

Soporta varias decisiones interdependientes o secuenciales. Ofrece ayuda en todas las fases del proceso de toma de decisiones inteligencia, diseo, seleccin, e implementacin- as como tambin en una variedad de procesos y estilos de toma de decisiones. Es adaptable por el usuario en el tiempo para lidiar con condiciones cambiantes. Genera aprendizaje, dando como resultado nuevas demandas y refinamiento de la aplicacin, que a su vez da como resultado un aprendizaje adicional. Generalmente utiliza modelos cuantitativos (estndar o hechos a la medida). Los DSS avanzados estn equipados con un componente de administracin del conocimiento que permite una solucin eficaz y eficiente de problemas muy complejos. Puede ser implantado para su uso en Web, en entornos de escritorio o en dispositivos mviles (PDA). Permite la ejecucin fcil de los anlisis de sensibilidad.

CONCLUSIN
En esta prctica aprendimos a cmo desarrollar de una manera prctica y sencilla como abrir un archivo en ER/Studio para despus manipularlo ya despus aprendimos a cmo de una manera prctica como crear un modelo fsico para ya despus que se cre el modelo fsico de una manera sencilla, crear el SQL que nos permitir trabajar con el manejador de base de datos en este caso Access que porque es un sistema que todos tenemos lo trabajemos para demostrar el uso y control del SQL. En esta prctica aprendimos de una manera sencilla como ingresar datos por comando desde Universal ISQL en lo cual nos dimos a la tarea que son sencillos, as como tambin las consultas que podemos hacer en el mismo

44

programa . Como lo principal que fue como enlazar Universal ISQL con Access de una manera sencilla y prctica.

Bibliografa
Programacion.net. ASP en castellano. http://www.programacion.net/asp/ Programacion.net. Bases de datos en castellano. http://www.programacion.net/bbdd/ Programacion.net. Java en castellano.http://www.programacion.net/java/ Programacion.net. PHP en castellano. http://www.programacion.net/php/ TRAMULLAS, Jess. "Seccin 3: Los sistemas de bases de datos y los SGBD. En Introduccin a la Documtica.http://tek.docunautica.com/ TRAMULLAS, Jess. "Seccin 6: Las bases de datos multimedia". En Introduccin a la Documtica. http://tek.docunautica.com/ RAZQUIN ZAPE, Pedro. "Las bases de datos multimedia revisadas". Cuadernos de Documentacin Multimedia. Nm. 6-7, 19971998.http://www.ucm.es/info/multidoc/multidoc/revista/cuad67/prazquin.htm VALLE GASTAMINZA, Flix del. Diseo de Bases http://www.ucm.es/info/multidoc/prof/fvalle/Disbd.htm de datos.

ABADAL, Ernest. "Diseo y creacin de una base de datos en un medio de comunicacin". En: FUENTES, M. Eulalia (ed.). Manual de Documentacin periodstica. Madrid, Sntesis, 1995. ABADAL, Ernest. "Bases de datos documentales en el web: anlisis del software para su publicacin". Hipertext.net, nm. 3, 2005.http://www.hipertext.net/web/pag255.htm ABADAL, Ernest. CODINA, Llus. Bases de datos documentales: caractersticas, funciones y mtodos. Madrid: Sntesis, 2005. CARIDAD, Mercedes. "Bases de datos documentales: el acceso a la informacin". En: Lpez Yepes, Jos (coord.). Manual de informacin y documentacin. Madrid, Pirmide,1996. CMS-Spain.com http://www.ecm-spain.com/home.asp CODINA, L. FUENTES, M. E. "Documentacin periodstica y bases de datos: elementos para su fundamento como disciplina y propuesta de conjunto nuclear de bases de datos". En: Fuentes, M. E. (dir.). Anuari de biblioteconoma, documentaci e informaci. Barcelona, COBDC, 1999.

45

HORTH, Henry F. SILBERCHATZ, Abraham. Fundamentos de las bases de datos. McGraw Hill, 1998. LPEZ FRANCO, Jos Manuel. Integracin de tecnologas a travs de servidores web.http://trevinca.ei.uvigo.es/~txapi/espanol/proyecto/superior/memoria/ memoria.html LPEZ YEPES, Alfonso. "Bases de datos documentales multimedia". En: Lpez Yepes, Jos (coord.). Manual de informacin y documentacin. Madrid, Pirmide, 1996. LPEZ YEPES, Jos (coord.) Manual de Ciencias de la Documentacin. Madrid, Pirmide, 2002. MARTNEZ SAN GERMN. Taller de base de datos. http://www.itver.edu.mx/comunidad/material/tallerbd/apuntes/index.html PALMA, Mara del Valle. "Bases de datos y servicios de informacin disponibles en Internet". En: Documentacin Digital (CD-ROM). Barcelona: UPF, 1999. PALMA, Mara del Valle. "Tcnicas y mtodos para mejorar la calidad de la indizacin y su recuperacin en bases de datos documentales de ciencias sociales y humanidades". 5es Jornades Catalanes de Documentaci: biblioteques, centres de documentaci i serveis dinformaci.Barcelona: Cobdc; Socadi, 1995.

46

S-ar putea să vă placă și