Sunteți pe pagina 1din 62

Instituto Tecnolgico de Los Mochis

ANTOLOGA

Materia: TPICOS AVANZADOS DE BASE DE DATOS

Profesor: Luca del Carmen Ochoa Romo

Los Mochis, Sinaloa, Agosto de 2011

JUSTIFICACION

Como parte de las estrategias para elevar la calidad acadmica el Instituto Tecnolgico de Los Mochis y sus distintos departamentos promueven y apoyan el desarrollo de materiales didcticos para el apoyo de las diferentes asignaturas que se imparten en sus programas. Derivado de lo anterior la siguiente antologa fue desarrollada con la finalidad de que sean utilizados por la academia de Informtica del Departamento de Sistemas y Computacin del Instituto Tecnolgico de Los Mochis en el programa de la retcula 2004, en la asignatura de Tpicos Avanzados de Bases de Datos, con el objetivo de brindar una herramienta ms a los docentes que les corresponda impartir mencionada asignatura y eficientar an ms su labor docente.

Pgina 2

NDICE

TEMA

PGINA

MODELOS EMERGENTES DE BASE DE DATOS.6 BASE DE DATOS ORIENTADA OBJETOS. ...7 DEFINICION Y CONCEPTOS DE BDOO........8 EL MODELO DE DATOS ORIENTADO A OBJETOS....9 EL ESTANDAR ODMG...12 ENCAPSULAMIENTO HERENCIA POLIMORFISMO EN BDOO..13 PERSISTENCIA, CONCURRENCIA, RECUPERACIN EN BDOO..17 BASES DE DATOS MULTIDIMENSIONALES (BDM)18 CUBOS E HIPERCUBOS DE DATOS.19 ESTRUCTURAS NO JERRQUICAS Y JERRQUICAS DE DATOS20 BASES DE DATOS Y TECNOLOGIAS WEB21 HERRAMIENTAS Y TECNOLOGIAS PARA EL DESARROLLO WEB.21 INTERCAMBIO ELECTRNICO DE DATOS (EDI).22 ECOMMERCE Y EBUSSINESS..23 ELEARNING.25 SISTEMAS DE SEGURIDAD PARA EL DESARROLLO WEB....26
Pgina 3

EXTENSIBLE MARKUP LANGUAGE (XML)..27 FUNDAMENTOS DE XML..28 DISEO DE APLICACIONES WEB USANDO XML31 PRODUCTOS XML...32 MIDDLEWARE.34 BASES DE DATOS...35 SISTEMA DE ADMINISTRACION DE CONTENIDOS37 MOTORES DE CONSULTA38 BASES DE DATOS PARA EL SOPORTE EN LA TOMA DE DECISIONES...39 BODEGA DE DATOS (DATAWAREHOUSE)...39 DEFINICION, OBJETIVO DE BODEGAS DE DATOS.39 FUNCIONAMIENTO DATAWEREHOUSE...40 CONSIDERACIONES DEL DISEO DATAWAREHOUSE.41 HERRAMIENTAS PARA EXTRAER, TRANSFORMAR Y CARGAR FUENTES DE DATOS..42 PROCESAMIENTO Y ANALISIS EN LINEA OLAP.43 DEFINICIONES Y CONCEPTOS OLAP.43 REQUERIMIENTOS FUNCIONALES DE SISTEMAS OLAP..44 OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTANDAR SQL3..45 UTILIZACIN DE HERRAMIENTAS PARA OLAP.46

Pgina 4

MERCADO DE DATOS (DATA MART)47 DEFINICIONES, CONCEPTOS DE MERCADO DE DATOS ..47 FASES DE CONSTRUCCIN DE MERCADO DE DATOS..48 ANLISIS DE MERCADO DE DATOS..49 HERRAMIENTAS FRONT-END.50 HERRAMIENTAS DE BASE DE DATOS...51 PROCESO, DISEO Y CONSULTAS DE MERCADO DE DATOS.52 MINERIA DE DATOS (DATA MINING)...53 DEFINICIONES, CONCEPTOS DE MINERIA DE DATOS..53 APLICACIONES DE MINERIA DE DATOS..54 DISEO DE MINEROS DE DATOS55 OBTENCIN DE INFORMACIN A TRAVS DE PATRONES DE BSQUEDA56 TCNICAS, HERRAMIENTAS DE MINERA DE DATOS..57 TENDENCIAS EN MINERA DE DATOS..59 BIBLIOGRAFA61

Pgina 5

MODELOS EMERGENTES DE BASE DE DATOS


En la ltima dcada hemos sido testigos de un desarrollo extraordinario de la tecnologa de las bases de datos. Temas que parecan al principio exclusivos de laboratorios y centros de investigacin, han aparecido en las ltimas versiones de los SGBD comerciales: multimedia, orientacin a objetos, seguridad, temporalidad. Paralelismo, bases de datos multidimensionales, semiestructuradas, grid, etc. 47 En estos momentos, mientras que los fabricantes propugnan extensiones al SQL y al XML y una mejora incremental a los productos existentes, los investigadores apuestan por una reconceptualizacin de las bases de datos, en la que se obtenga una nueva arquitectura no limitada por los compromisos polticos del pasado.48 Muchas de las aplicaciones no tradicionales no utilizaban tecnologa de bases de datos debido a los requisitos especficos. Los SGBD reaccionaron ante esta situacin de forma que pudieran proporcionar respuestas a estos requisitos, por lo que casi todos los proveedores comenzaron a incorporar nuevas funcionalidades a sus productos para proporcionar soluciones a estos problemas. Al mismo tiempo, los adelantos en los ordenadores (hardware y software), y los cambios organizacionales en las empresas tambin obligaron al nacimiento de una nueva generacin de bases de datos.47 Esta generacin de bases de datos (tercera), se caracteriza por proporcionar capacidades de gestin de datos al igual que sus predecesoras, permitiendo que grandes cantidades de datos persistentes sean compartidos por muchos usuarios. Tambin proporcionar gestin de datos, permitiendo tipos de datos mucho ms complejos, objetos multimedia, datos derivados, encapsulamiento de la semntica de los datos, as como otras nuevas capacidades. Algunos proporcionan incluso gestin de conocimiento, soportando un gran nmero de reglas complejas para inferencia automtica de informacin y tambin para mantener las restricciones de integridad entre datos.49

Pgina 6

BASE DE DATOS ORIENTADA OBJETOS


Los SGBO (Sistemas de Gestin de Bases de Objetos) surgen a la falta de capacidad semntica del modelo relacional para soportar aplicaciones complejas, como las de ingeniera (CASE, CAD/CAM, CIM, CAE, etc.), sistemas basados en el conocimiento, tratamiento de documentos, multimedia y gestin de redes, etc. Este tipo de aplicaciones requiere modelar, de forma directa, objetos e interrelaciones complejos, almacenar informacin no estructurada, gestionar diferentes tipos de transacciones, controlar de forma exhaustiva componentes y estructuras, adems de manejar versiones y configuraciones.47 En una base de datos orientada a objetos, la informacin se representa mediante objetos como los presentes en la programacin orientada a objetos. Cuando se integra las caractersticas de una base de datos con las de un lenguaje de programacin orientado a objetos, el resultado es un sistema gestor de base de datos orientada a objetos (ODBMS, Objeto Database Management System). Un ODBMS hace que los objetos de la base de datos aparezcan como objetos de un lenguaje de programacin en uno o ms lenguajes de programacin a los que d soporte. Un ODBMS extiende los lenguajes con datos persistentes de forma transparente, control de concurrencia, recuperacin de datos, consultas asociativas y otras capacidades. Las bases de datos orientadas a objetos se disean para trabajar bien en conjuncin con lenguajes de programacin orientados a objetos como Java, C#, Visual Basic.NET y C++. Los ODBMS usan exactamente el mismo modelo que estos lenguajes de programacin. Los ODBMS son una buena eleccin para aquellos sistemas que necesitan un buen rendimiento en la manipulacin de tipos de dato complejos. Los ODBMS proporcionan los costos de desarrollo ms bajos y el mejor rendimiento cuando se usan objetos gracias a que almacenan objetos en disco y tienen una integracin transparente con el programa escrito en un lenguaje de programacin orientado a objetos, al almacenar exactamente el modelo de objeto usado a nivel de la aplicacin, lo que reduce los costos de desarrollo y mantenimiento. 1

Pgina 7

DEFINICION Y CONCEPTOS DE BDOO


Base de datos orientada a objetos (BDOO): una coleccin persistente y compatible de objetos definida por un modelo de datos orientado a objetos. Modelo de datos orientado a objetos: Un modelo de datos que captura la semntica de los objetos soportados en la programacin orientada a objetos. Sistema Gestor de Bases de Datos Orientadas a Objetos (SGBDOO): El gestor de una base de datos orientada a objetos. Los principales conceptos que se utilizan en las Bases de Datos Orientada a Objetos (BDOO) son las siguientes: Identidad de objetos Constructores de tipos Encapsulamiento Compatibilidad con los lenguajes de programacin Jerarquas de tipos y herencia Manejo de objetos complejos Polimorfismo y sobrecarga de operadores Creacin de versiones.

Pgina 8

EL MODELO DE DATOS ORIENTADO A OBJETOS


Al igual que todo SGBD se soporta en un determinado MD (Modelo de Datos), los SGBO implementan un modelo de objetos; desafortunadamente, para los SGBO no ha existido un nico modelo, anlogo al modelo relacional difundido por el Dr. Codd, sino que cada acuerdo universal sobre qu es un sistema orientado a objetos, en lo que coinciden los distintos autores es en considerar, como idea fundamental de este paradigma, esta integracin de los dos aspectos de los sistemas de informacin que se venan analizando tradicionalmente de forma separada: datos y procesos. 47 El modelo de bases de datos orientado a objetos es una adaptacin a los sistemas de bases de datos. Se basa en el concepto de encapsulamiento de datos y cdigo que opera sobre estos en un objeto. Los objetos estructurados se agrupan en clases. El conjunto de clases est estructurado en sub y superclases basado en una extensin del concepto ISA del modelo Entidad - Relacin. Puesto que el valor de un dato en un objeto tambin es un objeto, es posible representar el contenido del objeto dando como resultado un objeto compuesto. El propsito de los sistemas de bases de datos es la gestin de grandes cantidades de informacin. Las primeras bases de datos surgieron del desarrollo de los sistemas de gestin de archivos. Estos sistemas primero evolucionaron en bases de datos de red o en bases de datos jerrquicas y, ms tarde, en bases de datos relacionales.

Estructura de objetos. Un objeto se describe por sus propiedades, tambin llamadas atributos estructura del objeto- y los servicios que pueden proporcionar comportamiento del objeto-. El estado de un objeto viene determinado por los valores que toman sus atributos, valores que siempre han de cumplir las restricciones impuestas sobre ellos.47

Pgina 9

El modelo orientado a objetos se basa en encapsular cdigo y datos en una nica unidad, llamada objeto. La interfaz entre un objeto y el resto del sistema se define mediante un conjunto de mensajes. Un objeto tiene asociado:

un conjunto de variables que contienen los datos del objeto. El valor de cada variable es un objeto.

Un conjunto de mensajes a los que el objeto responde. Un mtodo, que es un trozo de cdigo para implementar cada mensaje. Un mtodo devuelve un valor como respuesta al mensaje.

Jerarqua de clases. En una base de datos existen objetos que responden a los mismos mensajes, utilizan los mismos mtodos y tienen variables del mismo nombre y tipo. Sera intil definir cada uno de estos objetos por separado por lo tanto se agrupan los objetos similares para que formen una clase, a cada uno de estos objetos se le llama instancia de su clase. Todos los objetos de su clase comparten una definicin comn, aunque difieran en los valores asignados a las variables. As que bsicamente las bases de datos orientados a objetos tienen la finalidad de agrupar aquellos elementos que sean semejantes en las entidades para formar un clase, dejando por separado aquellas que no lo son en otra clase. Ejemplo: los atributos de nombre, direccin y telfono se repiten en la entidad alumno y maestro, as que podemos agrupar estos elementos para formar la clase Persona con dichos campos. Quedando por separado en alumno: Especialidad, semestre, grupo y en maestro: Nmero econmico, Plaza y RFC; la materia no entra en la agrupacin (Clase persona) ya que la clase especfica los datos de solo personas, as que queda como clase materia.

Pgina 10

Herencia. Las clases en un sistema orientado a objetos se representan en forma jerrquica, as que las propiedades o caractersticas del elemento persona las contendrn (heredaran) los elementos alumno y maestro. Decimos que tanto la entidad alumno y maestro son subclases de la clase persona este concepto es similar al utilizado en la de especializacin (la relacin ISA) del modelo E-R. Se pueden crear muchas agrupaciones (clases) para simplificar un modelo as que una jerarqua (en forma grfica) puede quedar muy extensa, en estos casos tenemos que tener bien delimitados los elementos que intervienen en una clase y aquellos objetos que las heredan.

Consultas orientadas a objetos: Los lenguajes de programacin orientados a objetos requieren que toda la interaccin con objetos se realiza mediante el envo de mensajes. Consideremos el ejemplo de alumno-cursa-materia deseamos realizar la consulta de los alumnos que cursan la materia de Base de Datos I, para realizar esta consulta se tendra que enviar un mensaje a cada instancia alumno As un lenguaje de consultas para un sistema de bases de datos orientado a objetos debe incluir tanto el modelo de pasar el mensaje de objeto a objeto como el modelo de pasar el mensaje de conjunto en conjunto. Complejidad de Modificacin. En base de datos orientados a objetos pueden existir los siguientes cambios:

Adicin de una nueva clase: Para realizar este proceso, la nueva clase debe colocarse en la jerarqua de clase o subclase cuidando las variables o mtodos de herencia correspondientes.

Pgina 11

Eliminacin de una clase: Se requiere la realizacin de varias operaciones, se debe de cuidar los elementos que se han heredado de esa clase a otras y reestructurar la jerarqua.

En s la estructuracin de modelos orientados a objetos simplifica una estructura evitando elementos o variables repetidas en diversas entidades, sin embargo el precio de esto es dedicarle un minucioso cuidado a las relaciones entre las clases cuando en modelo es complejo, la dificultad del manejo de objetos radica en la complejidad de las modificaciones y eliminaciones de clases, ya que de tener variables que heredan otros objetos se tiene que realizar una reestructuracin que involucra una serie de pasos complejos. 3

EL ESTANDAR ODMG
En verano de 1991 Rick Cattell, de SunSoft, reuni a un grupo de expertos que trabajaban en distintas empresas de SGBO, y les propuso elaborar un estndar de facto, basado en las caractersticas que presentaban los productos existentes y que se pudiera publicar en un breve plazo de tiempo. As naci el ODBMG (Object Data Management Group) que agrupaba a los principales vendedores de SGBO: Object Design, Ontos, O2 Technology, Versant, Objectivity, POET Software y Servio Corporation y que contaba tambin con diversos revisores tanto de empresas (Andersen, Hewlett-Packard, EDS, Sybase, Texas Instruments o Persistence), como de universidades: Maier, Dewitt, Carey, Dittrich, Zdonik, Liskov, King, etc. 47 El modelo de objetos ODMG permite que tanto los diseos, como las

implementaciones, sean portables entre los sistemas que lo soportan. Dispone de las siguientes primitivas de modelado: Los componentes bsicos de una base de datos orientada a objetos son los objetos y los literales. Un objeto es una instancia auto contenida de una entidad de inters del mundo real. Los objetos tienen algn tipo de identificador nico. Un literal es un valor especfico, como Amparo o 36. Los literales no tienen identificadores. Un literal no

Pgina 12

tiene que ser necesariamente un solo valor, puede ser una estructura o un conjunto de valores relacionados que se guardan bajo un solo nombre. Los objetos y los literales se categorizan en tipos. Cada tipo tiene un dominio especfico compartido por todos los objetos y literales de ese tipo. Los tipos tambin pueden tener comportamientos. Cuando un tipo tiene comportamientos, todos los objetos de ese tipo comparten los mismos comportamientos. En el sentido prctico, un tipo puede ser una clase de la que se crea un objeto, una interface o un tipo de datos para un literal (por ejemplo, integer). Un objeto se puede pensar como una instancia de un tipo. Lo que un objeto sabe hacer son sus operaciones. Cada operacin puede requerir datos de entrada (parmetros de entrada) y puede devolver algn valor de un tipo conocido. Los objetos tienen propiedades, que incluyen sus atributos y las relaciones que tienen con otros objetos. El estado actual de un objeto viene dado por los valores actuales de sus propiedades. 4

ENCAPSULAMIENTO HERENCIA POLIMORFISMO EN BDOO


La Base de Datos Orientada a Objetos, es una base de datos inteligente que soporta el paradigma orientado a objetos almacenando datos y mtodos, y no slo datos. Est diseada para ser eficaz, desde el punto de vista fsico, para almacenar objetos complejos. Evita el acceso a los datos; esto es mediante los mtodos almacenados en ella. Es ms segura ya que no permite tener acceso a los datos (objetos); esto debido a que para poder entrar se tiene que hacer por los mtodos que haya utilizado el programador. Las BDOO almacenan y manipulan informacin que puede ser digitalizada (representada) por objetos, proporcionan una estructura flexible con acceso gil, rpido, con gran capacidad de modificacin. Las caractersticas de este tipo de sistemas provienen, como hemos visto, fundamentalmente de la confluencia entre las bases de datos y la orientacin a objetos.

Pgina 13

Hay que observar que a continuacin resumimos los principales caractersticas de un SGBO en el sentido de que no todos los sistemas tendrn todas y cada una de sus caractersticas. Como se seala en ANSI (1990b), este tipo de descripciones se pueden considerar un modelo de referencia abstracto que, si bien no proporciona una especificacin implementable, s resulta til para exponer este tipo de sistemas e incluso como base de comparacin entre productos.47

POLIMORFISMO Es una caracterstica del paradigma O.O., en el que objetos de una determinada clase, puede verse o tratarse como una clase ms general dentro de su jerarqua. Esta caracterstica determina y potencia las capacidades de consulta de un OODBMS, ya que por ejemplo, si en la base de datos se tienen objetos Estudiante-Posgrado y Estudiante-Pregrado, si se consultan todos los objetos Estudiante el resultado -por polimorfismo- incluir simultneamente estos dos tipos de estudiante.

El polimorfismo es la capacidad de que un mensaje sea interpretado de maneras distintas, segn el objeto que lo recibe. En la orientacin a objetos se emplean principalmente dos formas de polimorfismo:

Pgina 14

De Subclase: Cuando un servicio definido en una clase se redefine en alguna de sus subclases manteniendo el mismo nombre. Entonces un mensaje enviado a un objeto que pertenece a una cierta clase de la jerarqua puede invocar a cualquiera de estos servicios, segn sea la clase a la que pertenezca el objeto que lo recibe.

De sobrecarga: utilizando el mismo nombre para servicios distintos, no situados en una jerarqua de generalizacin (Sobrecargando el significado del trmino). 47

HERENCIA:
La herencia es uno de los conceptos ms cruciales en la POO. La herencia bsicamente consiste en que una clase puede heredar sus variables y mtodos a varias subclases (la clase que hereda es llamada superclase o clase padre). Esto significa que una subclase, aparte de los atributos y mtodos propios, tiene incorporados los atributos y mtodos heredados de la superclase. De esta manera se crea una jerarqua de herencia. Por ejemplo, imaginemos que estamos haciendo el anlisis de un Sistema para una tienda que vende y repara equipos celulares.

Los SGBO incorporan los conceptos bsicos del paradigma de la orientacin a objetos. Adems, existen otras caractersticas de los sistemas orientados al objeto que se incorporan en los SGBO, como son:

Pgina 15

Extensibilidad, ya que se permite al usuario definir nuevas clases y modificar las existentes de manera dinmica. Esta caracterstica resulta imprescindible en las aplicaciones que suelen utilizar tecnologa orientada a objetos CAD/CAM, CASE, etc.- ya que en ellas la modificacin del esquema es la norma.

Bibliotecas de clases, que definen elementos con un alto nivel de funcionalidad, que se pueden integrar en las bases de datos. El problema de las bibliotecas de clase de los SGBO es que suelen tener una funcionalidad limitada y que las bibliotecas de terceros pueden resultar incompatibles con el modelo soportado por el SGBO, ya que no existe un estndar universal adoptado. 47

ENCAPSULAMIENTO:
Es la ocultacin de informacin. Significa mantener la informacin dentro del objeto y mantenerlo como una caja negra. Puede ser accedida por mtodos. Cada objeto contiene y define procedimientos (mtodos) y la interfaz mediante la cual se puede acceder a l y otros objetos pueden manipularlo. La mayora de los SGBDOO permite el acceso directo a los atributos incluyendo operaciones definidas por el propio SGBDOO las cuales leen y modifican los atributos para evitar que el usuario tenga que implementar una cantidad considerable de mtodos cuyo nico propsito sea el de leer y escribir los atributos de un objeto. Generalmente, los SGBDOO permiten al usuario especificar qu atributos y mtodos son visibles en la interfaz del objeto y pueden invocarse desde afuera.5 En el paradigma de la orientacin a objetos un sistema se concibe como un conjunto de objetos que se comunican entre s mediante mensajes. A nivel conceptual un objeto es una entidad percibida en el sistema que se est desarrollando, mientras que a nivel de implementacin, un objeto se corresponde con un encapsulamiento de un conjunto de operaciones (servicios) que pueden ser invocadas externamente y de un estado que recuerda el efecto de los servicios. El encapsulamiento es un principio de abstraccin que agrupa datos y procesos permitiendo ocultar a los usuarios de un objeto los aspectos de implementacin, ofrecindoles una interfaz externa mediante la cual pueden

Pgina 16

interactuar con el objeto. El principio de ocultamiento de la informacin es importante ya que permite modificar los aspectos privados de un objeto sin que se vean afectados los dems objetos que interactan con ste, siempre que se conserve la misma interfaz.47

PERSISTENCIA, CONCURRENCIA, RECUPERACIN EN BDOO

CARACTERISTICAS DE UNA BDOO

Persistencia

Es la capacidad que sus datos se ejecucin de un puedan reutilizar

que tiene el programador para conserven al finalizar la proceso, de forma que se en otros procesos.

Concurrencia

Se relaciona con interactuando Este debe transacciones destruya la consistencia de la base de datos.

la existencia de muchos usuarios concurrentemente en el sistema. controlar la interaccin entre las concurrentes para evitar que se

Recuperacin

Proporcionar como mnimo el mismo nivel de recuperacin que los sistemas de bases de datos actuales. De forma que, tanto en caso de fallo de hardware como de fallo de software, el sistema pueda retroceder hasta un estado coherente de los datos. 6

Pgina 17

BASES DE DATOS MULTIDIMENSIONALES (BDM)


DEFINICIN, CONCEPTOS DE BDM
Son Base de datos de estructura basada en dimensiones orientada a consultas

complejas y alto rendimiento. Puede utilizar un SGBDR en estrella (Base de datos Multidimensional a nivel lgico) o SGBDM (Base de datos Multidimensional a niveles lgico y fsico o Base de datos Multidimensional Pura) Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creacin de Cubos OLAP. Bsicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podra serlo tambin en una base de datos multidimensional), la diferencia est ms bien a nivel conceptual; en las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien representan mtricas que se desean estudiar.

Pgina 18

CUBOS E HIPERCUBOS DE DATOS


Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el Datawarehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el Datawarehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Variables Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos, representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido.
8

Pgina 19

ESTRUCTURAS NO JERRQUICAS Y JERRQUICAS DE DATOS

Estructuras Jerrquicas Una Base de datos jerrquica es un tipo de Sistema Gestor de Bases de Datos que, como su nombre indica, almacenan la informacin en una estructura jerrquica que enlaza los registros en forma de estructura de rbol (similar a un rbol visto al revs), en donde un nodo padre de informacin puede tener varios nodos hijo. Como funcionan Los datos se almacenan en la forma de registros, el equivalente a las filas del modelo relacional. Cada registro consta de un conjunto de campos, el equivalente a las columnas del modelo relacional. Un conjunto de registros con los mismos campos se denomina fichero (record type, en ingls), el equivalente a las tablas del modelo relacional.

El modelo jerrquico facilita relaciones padre-hijo, es decir, relaciones 1:N (de uno a varios) del modelo relacional. Pero a diferencia de ste ltimo, las relaciones son unidireccionales. En justicia, dichas relaciones son hijo-padre, pero no padre-hijo. Por ejemplo, el registro de un empleado (nodo hijo) puede relacionarse con el registro de su departamento (nodo padre), pero no al contrario. Esto implica que solamente se puede consultar la base de datos desde los nodos raz hacia los nodos hoja. La consulta en el sentido contrario requiere una bsqueda secuencial por todos los registros de la base de datos. En las bases de datos jerrquicas no existen ndices que faciliten esta tarea.
9

Pgina 20

BASES DE DATOS Y TECNOLOGIAS WEB

HERRAMIENTAS Y TECNOLOGIAS PARA EL DESARROLLO WEB


El Lenguaje de Modelado Unificado (UML) es un lenguaje grfico para visualizar, especificar y documentar cada una de las partes que comprende el desarrollo de software. UML entrega una forma de modelar cosas conceptuales como lo son procesos de negocio y funciones de sistema, adems de cosas concretas como lo son escribir clases en un lenguaje determinado, esquemas de base de datos y componentes de software reusables.

Algunas tecnologas para construir sitios en Internet son las siguientes: Servlets: Esta tecnologa puede llevar a cabo todas las funciones de un programa de CGI. Este se ejecuta dentro de la mquina virtual de Java junto con el servidor Web por lo cual no requiere de la descarga de un programa externo.

Java Server Pages (JSP): La implmentation actual de JSP est limitada como un lenguaje script. El diseo de JSP permitir a otros lenguajes scripts ser soportados en un futuro. JSP ayuda en la creacin de nuevos tags que son interpretados por el procesador JSP, permitiendo la extensin del lenguaje.

HTML: Lenguaje de definicin de marcas es un lenguaje sencillo que permite marcar los documentos de hipertexto mediante unas etiquetas especficas, de este modo conseguimos darle a los documentos una cierta estructura.

JavaScript: Es un lenguaje compacto de scripts basado en objetos, para desarrollar aplicaciones cliente-servidor en Internet. 10

Pgina 21

INTERCAMBIO ELECTRNICO DE DATOS (EDI)

Intercambio electrnico de datos es el intercambio entre sistemas de informacin, por medios electrnicos, de datos estructurados de acuerdo con normas de mensajes acordadas. A travs del EDI, las partes involucradas cooperan sobre la base de un entendimiento claro y predefinido acerca de un negocio comn, que se lleva a cabo mediante la transmisin de datos electrnicos estructurados. En el EDI, las interacciones entre las partes tienen lugar por medio de aplicaciones informticas que actan a modo de interfaz con los datos locales y pueden intercambiar informacin comercial estructurada. El EDI establece cmo se estructuran, para su posterior transmisin, los datos de los documentos electrnicos y define el significado comercial de cada elemento de datos. Para transmitir la informacin necesita un servicio de transporte adicional (por ejemplo, un sistema de tratamiento de mensajes o de transferencia de ficheros). EDI ofrece una amplia gama de oportunidades de trabajo y beneficios para nuestra empresa entre los que se destacan: * Agilizacin de procesos comerciales * Importante disminucin de errores en los documentos * Disminucin de stocks, debido a la facilidad de aplicacin de tcnicas "Just-in-Time" * Ahorro de costos de administracin * Mejora de la competitividad de la empresa que lo adopta
11

Pgina 22

E-COMMERCE Y E-BUSSINESS
El E-commerce (Comercio Electrnico) es la compra y venta de bienes y servicios a travs de internet y ms especficamente en el World Wide Web. Es intercambio electrnico de datos de computadora a computadora entre socios comerciales (cadenas), con la finalidad de ahorrar tiempo al eliminar los tradicionales mtodos de preparacin y envo de documentos a travs de mensajera. A la vez, tiene la ventaja de ser un mtodo ms seguro y confiable para el manejo de informacin. Las tendencias de las grandes empresas en la actualidad es la de optimizar y simplificar todas las operaciones de su empresa; para lograr esto, tiene que adoptarse mtodos modernos de administracin, produccin, control y comunicacin, entre los cuales se encuentra EC. Ventajas. Permite el acceso a mayor informacin. Los pedidos que se realizan son ms rpidos. Disponibilidad las 24 horas. Menos inversin en los presupuestos publicitarios.

Desventajas. No conocer la empresa. Puede ser falsa. Formato de pagos. No es 100% seguros algunos clientes tienen miedo de dar sus datos personales. Conocer a quien vende. No se confa en quien vende algunas empresas pueden ser falsas. Poder volver. Algunas veces no se aceptan devoluciones. Intangibilidad. No se puede ver fsicamente el producto. Privacidad y seguridad. Algunas veces no es seguro dar nuestros datos pueden ser clonados.

Pgina 23

E- BUSSINESS Es la aplicacin de las tecnologas de la informacin para facilitar la compraventa de productos, servicios e informacin a travs de redes pblicas basadas en estndares de comunicaciones. Las aplicaciones basadas en los conceptos de E-Business se caracterizan por ser interactivas, con alta intensidad de transacciones, y porque permiten un relanzamiento de los negocios hacia nuevos mercados. El E-Business es la nueva forma de comercio en Internet, sin fronteras, con un nuevo planteamiento de los modelos empresariales, clientes globales, nuevos sistemas de pago y estrategias innovadoras. DIFERENCIAS ENTRE E-COMMERCE Y E-BUSINESS El E-Commerce cubre los procesos por los cuales se llega a los consumidores, proveedores y socios de negocio, incluyendo actividades como ventas, marketing, toma de rdenes de pedido, entrega, servicios al consumidor, y administracin de lealtad del consumidor. El E-Business incluye al E-Commerce, pero tambin cubre procesos internos como produccin, administracin de inventario, desarrollo de productos, administracin de riesgo, finanzas, desarrollo de estrategias, administracin del conocimiento y recursos humanos. La estrategia de E-Commerce es ms estrecha, est ms orientada a las ventas y es ms simple que otras iniciativas En ltima instancia un sistema de E-Business puede tomar mltiples formas y es la empresa quien debe decidir la mejor o ms adecuada segn sus necesidades.
12

Pgina 24

E-LEARNING
E-Learning (aprendizaje electrnico) es la educacin a distancia completamente virtualizada a travs de los nuevos canales electrnicos (las nuevas redes de comunicacin, en especial Internet), utilizando para ello herramientas o aplicaciones de hipertexto (correo electrnico, pginas web, foros de discusin, mensajera instantnea, plataformas de formacin, que unen varios de los anteriores ejemplos de aplicaciones) como soporte de los procesos de enseanza-aprendizaje. Las ventajas que ofrece la formacin en lnea son las siguientes:

Inmersin prctica en un entorno web 2.0. Eliminacin de barreras espaciales y temporales (desde su propia casa, en el trabajo, en un viaje a travs de dispositivos mviles, etc.). Supone una gran ventaja para empresas distribuidas geogrficamente.

Prcticas en entornos de simulacin virtual, difciles de conseguir en formacin presencial, sin una gran inversin.

Gestin real del conocimiento: intercambio de ideas, opiniones, prcticas, experiencias. Enriquecimiento colectivo del proceso de aprendizaje sin lmites geogrficos.

Actualizacin constante de los contenidos (deduccin lgica del punto anterior). Reduccin de costos (en la mayora de los casos, a nivel metodolgico y, siempre, en el aspecto logstico).

Permite una mayor conciliacin de la vida familiar y laboral.

13

Pgina 25

SISTEMAS DE SEGURIDAD PARA EL DESARROLLO WEB


Puede permitir o impedir, a diferentes usuarios el acceso a cierta informacin, pero en la red mundial de Internet se necesita de controles ms efectivos en este sentido, ante posible espionaje, copia de datos, manipulacin de stos, etc. La identificacin del usuario es una de las formas de guardar la seguridad. Las identidades y permisos de usuarios estn definidas en los Archivos de Control de Acceso. Control de acceso. Una vez protegido de los extraos, es necesario determinar si el usuario es la persona que dice ser para posteriormente permitirle realizar aquellas operaciones a las que tiene acceso. Controles de integridad. Protegen a los datos de ser, intencionalmente o por error, alterados durante su transmisin. Esquema de seguridad que debe tener un sitio en Internet. o La seguridad de la red o La seguridad de la plataforma o La infraestructura de CA (Autoridad de Certificacin) La seguridad en web tiene 3 etapas* primarias: Seguridad de la computadora del usuario Los usuarios deben contar con navegadores y plataformas seguras, libres de virus y vulnerabilidades. Tambin debe garantizarse la privacidad de los datos del usuario. Seguridad del servidor web y de los datos almacenados ah Se debe garantizar la operacin continua del servidor, que los datos no sean modificados sin autorizacin (integridad) y que la informacin slo sea distribuida a las personas autorizadas (control de acceso). Seguridad de la informacin que viaja entre el servidor web y el usuario Garantizar que la informacin en trnsito no sea leda (confidencialidad), modificada o destruida por terceros. Tambin es importante asegurar que el enlace entre cliente y servidor no pueda interrumpirse fcilmente (disponibilidad). 14

Pgina 26

EXTENSIBLE MARKUP LANGUAGE (XML)

XML es una tecnologa sencilla que tiene a su alrededor otras que la complementan y la hacen mucho ms grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la informacin de una manera segura, fiable y fcil. 15 XML se basa en el uso de marcas o etiquetas para diferenciar los diversos elementos que pueden existir en un documento. Al contrario de HTML, que se utiliza para establecer cmo han de presentarse, o visualizar, dichos datos, con XML lo que definimos utilizando el marcado es la estructura del documento, es decir, la perfecta organizacin de los contenidos existentes en dicho documento.44 Para comprender XML es importante entender sus races como un lenguaje de marcas de documentos. El trmino marca se refiere a cualquier elemento de un documento del que no se tiene intencin que sea parte de la salida impresa. Por ejemplo, un escritor que crea un texto que finalmente se compone de una revista puede desear realizar notas sobre cmo se ha de realizar la composicin. Sera importante introducir estas notas de forma que se pudieran distinguir del contenido real, de forma que una nota como <<no romper este prrafo>> no acabe impresa en la revista. En un procesamiento electrnico de documentos un lenguaje de marcas es una descripcin formal de qu parte del documento es contenido, qu parte es marca y lo que significa la marca. Para la familia de los lenguajes de marcado, en los que se incluye HTML, SGML y XML las marcas adoptan la forma de etiquetas encerradas entre corchetes angulares, <>. Las etiquetas se usan en pares, con <etiqueta> y </etiqueta> delimitando al comienzo y final de la porcin de documento a la cual se refiere la etiqueta. Por ejemplo, el ttulo de un documento podra estar marcado de la siguiente forma: <title>Fundamentos de bases de datos</title> A diferencia de HTML, XML no percibe las etiquetas permitidas, y se pueden establecer etiquetas segn cada necesidad. Esta caracterstica es la clave de la funcin principal

Pgina 27

de XML, en la representacin e intercambio de datos, mientras HTML, se usa principalmente para el formato de documentos.45 VENTAJAS

Es extensible: Despus de diseado y puesto en produccin, es posible extender XML con la adicin de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicacin alguna.

El analizador es un componente estndar, no es necesario crear un analizador especfico para cada versin de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones.

Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de distintas plataformas, sin que importe el origen de los datos, es decir, podramos tener una aplicacin en Linux con una base de datos Postgres y comunicarla con otra aplicacin en Windows y Base de Datos MSSQL Server.

Transformamos datos en informacin, pues se le aade un significado concreto y los asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos. 15

FUNDAMENTOS DE XML

Estructura de un documento XML

La tecnologa XML busca dar solucin al problema de expresar informacin estructurada de la manera ms abstracta y reutilizable posible. Que la informacin sea estructurada quiere decir que se compone de partes bien definidas, y que esas partes se componen a su vez de otras partes.

Pgina 28

Partes de un documento XML

Un documento XML est formado por el prlogo y por el cuerpo del documento as como texto de etiquetas que contiene una gran variedad de efectos positivos o negativos en la referencia opcional a la que se refiere el documento, hay que tener mucho cuidado de esa parte de la gramtica lxica para que se componga de manera uniforme. Prlogo: Aunque no es obligatorio, los documentos XML pueden empezar con unas lneas que describen la versin XML, el tipo de documento y otras cosas. El prlogo de un documento XML contiene:

Una declaracin XML. Es la sentencia que declara al documento como un documento XML.

Una declaracin de tipo de documento. Enlaza el documento con su DTD (definicin de tipo de documento), o el DTD puede estar incluido en la propia declaracin o ambas cosas al mismo tiempo.

Uno o ms comentarios e instrucciones de procesamiento.

Cuerpo: A diferencia del prlogo, el cuerpo no es opcional en un documento XML, el cuerpo debe contener un y solo un elemento raz, caracterstica indispensable tambin para que el documento est bien formado. Sin embargo es necesaria la adquisicin de datos para su buen funcionamiento. Elementos: Los elementos XML pueden tener contenido (ms elementos, caracteres o ambos), o bien ser elementos vacos. Atributos: Los elementos pueden tener atributos, que son una manera de incorporar caractersticas o propiedades a los elementos de un documento. Deben ir entre comillas. Por ejemplo, un elemento estudiante puede tener un atributo Mario y un atributo tipo, con valores come frutas y talento respectivamente.

Pgina 29

<Estudiante Mario="come frutas" tipo="talento">Esto es un da que Mario va paseando</Estudiante> Entidades predefinidas: Entidades para representar caracteres especiales para que, de esta forma, no sean interpretados como marcado en el procesador XML. Ejemplo: entidad predefinida: & carcter: &.
16

El constructor fundamental en un documento XML, es el elemento. Un elemento es sencillamente un par de etiquetas de inicio y finalizacin coincidentes y todo el texto que aparece entre ellas. Los documentos XML deben tener un nico elemento raz que abarque el resto de los elementos en el documento, los elementos en un documento XML deben anidarse adecuadamente. Por ejemplo: <banco><cuenta><saldo></saldo></cuenta></banco> est anidado adecuadamente, mientras que <banco><cuenta><saldo></cuenta></saldo><banco> no est adecuadamente anidado.45

Pgina 30

DISEO DE APLICACIONES WEB USANDO XML

Desarrollo de aplicaciones con XML Se pueden establecer cuatro tipos de aplicaciones que impulsarn el desarrollo del XML:

Aplicaciones que exijan que el cliente Web medie entre dos o ms Bases de Datos. Se har posible la integracin de bases de datos distribuidas en los navegadores que admitan XML, pudindose modificar el contenido y la estructura de esta.

Aplicaciones que intentan transferir una parte significativa de la carga del proceso del servidor al cliente Web. Esta carga har que muchas de las funciones de modificacin puedan desarrollarse desde el mismo navegador Web del cliente. El lado ms negativo es que se necesitar mayor ancho de banda y mayor potencia del procesador del equipo para poder soportar esta arquitectura de tres capas.

Aplicaciones que precisen que el cliente Web presente diferentes versiones de los mismos datos a diferentes usuarios.

Aplicaciones en las que agentes Web inteligentes intentan adaptar la bsqueda de informacin a las necesidades de los usuarios individuales. Habr una interaccin entre la informacin requerida y las preferencias del usuario de la aplicacin. Con el XML vendr una segunda generacin de aplicaciones con una mayor precisin de la bsqueda. 17

Pgina 31

PRODUCTOS XML

El nmero de productos para utilizar XML con Bases de Datos est creciendo a una gran velocidad. Nuevos productos entran al mercado de forma constante. Los documentos XML pertenecen a dos categoras: "basados en datos" y "basados en documentos". Los "basados en datos" son en los que XML es usado como un transporte de datos. Estos son por ejemplo rdenes de compra, registros de pacientes y datos cientficos. Para grabar y recuperar datos en un documento "basados en datos", se necesitar una Base de datos, como puede ser una Base de Datos Relacional o una Orientada a Objetos.

Los "basados en documentos" son en los que XML es usado para representar documentos, como un manual de usuario, pginas estticas, folletos de marketing. Este ltimo tipo de documento se caracteriza por su estructura irregular. Para grabar y recuperar datos en un documento "basados en documentos", se necesita una Base de Datos de XML o un Sistema de Administracin de Contenidos. Ambos estn diseados para almacenar fragmentos del contenido, como procedimientos, captulos, y glosarios, y pueden incluir metadatos, como nombre del autor, fecha de revisin, etc.

Pgina 32

Categoras de Productos

Middleware: Software que es invocado desde nuestras aplicaciones para transferir datos entre documentos XML y Bases de Datos. Orientados a aplicaciones "basados en datos". Bases de Datos XML-Enabled: Bases de Datos que pueden transferir datos entre documentos XML y ellas mismas. Orientados principalmente para aplicaciones "basados en datos". Bases de Datos de XML Nativo: Base de Datos que almacenan XML en su forma "nativa", generalmente tanto texto indexado como alguna variante del DOM. Son tanto para aplicaciones "basados en datos" o "basados en documentos". Servidores XML: Plataforma que brinda servicio de datos (en forma de documentos XML) desde y hacia aplicaciones distribuidas, como E-Commerce y aplicaciones Business to Business. Orientados principalmente a aplicaciones "basados en datos". Servidores de Aplicaciones XML: Servidores de aplicaciones Web que brindan servicio de XML a los navegadores. Son tanto para aplicaciones "basados en datos" o "basados en documentos". Sistemas de Administracin de Contenidos: Sistemas para administrar documentos legibles e incluyen soporte para editar, controlar las versiones, crear nuevos documentos a partir de documentos existentes. Principalmente destinados a aplicaciones "basados en documentos" Motores de consulta de XML: Aplicaciones que permiten realizar consultas sobre documentos XML.
18

Pgina 33

MIDDLEWARE
Middleware es un software que asiste a una aplicacin para interactuar o comunicarse con otras aplicaciones, software, redes, hardware y/o sistemas operativos. Este simplifica el trabajo de los programadores en la compleja tarea de generar las conexiones que son necesarias en los sistemas distribuidos. De esta forma se provee una solucin que mejora la calidad de servicio, seguridad, envi de mensajes, directorio de servicio, etc. Funciona como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware abstrae de la complejidad y heterogeneidad de las redes de comunicaciones subyacentes, as como de los sistemas operativos y lenguajes de programacin, proporcionando una API para la fcil programacin y manejo de aplicaciones distribuidas. Dependiendo del problema que resolver y de las funciones necesarias, sern tiles diferentes tipo de servicios de Middleware. Por lo general el Middleware del lado cliente est implementado por el Sistema Operativo, el cual posee las bibliotecas que ejecutan todas las funcionalidades para la comunicacin a travs de la red.
19

Taxonoma del software middleware

Pgina 34

BASES DE DATOS
Una base de datos es una entidad en la cual se pueden almacenar datos de manera estructurada, con la menor redundancia posible. Diferentes programas y diferentes usuarios deben poder utilizar estos datos.

Por qu utilizar una base de datos? Una base de datos proporciona a los usuarios el acceso a datos, que pueden visualizar, ingresar o actualizar, en concordancia con los derechos de acceso que se les hayan otorgado. Se convierte ms til a medida que la cantidad de datos almacenados crece. Una base de datos puede ser local, es decir que puede utilizarla slo un usuario en un equipo, o puede ser distribuida, es decir que la informacin se almacena en equipos remotos y se puede acceder a ella a travs de una red. La principal ventaja de utilizar bases de datos es que mltiples usuarios pueden acceder a ellas al mismo tiempo.
20

Pgina 35

DBMS principales Los principales sistemas de administracin de bases de datos son:


Borland Paradox Filemaker IBM DB2 Ingres Interbase Microsoft SQL server Microsoft Access Microsoft FoxPro Oracle Sybase MySQL PostgreSQL mSQL SQL Server 11

Pgina 36

SISTEMA DE ADMINISTRACION DE CONTENIDOS


Un sistema de administracin de contenidos brindan diversos y atractivos beneficios, entre una informacin puntual y clara hasta el manejo de contenidos de forma inteligente. Diversas instituciones de gobierno encuentran en este tipo de propuestas la plataforma que necesitan para sus servicios. Un contribuyente puede entrar al sitio y encontrar la informacin que necesita de forma rpida y que el sistema brinda una organizacin de los contenidos a travs del manejo de secciones o mdulos donde el usuario puede revisar su estado de cuenta, imprimir su siguiente recibo, leer noticias relacionadas a su comunidad o recibir avisos sobre obras y documentacin que le ataen. Por el lado administrativo, estas instituciones de gobierno puede actualizar la informacin a travs de una consola, donde cada departamento puede subir y bajar datos sin necesidad de terceros. La seccin de comunicados, por ejemplo, puede subir las noticias de la semana, mientras que la seccin de pagos puede informar a los usuarios sobre promociones por pagos oportunos, inclusive los mismos contribuyentes pueden comentar sobre los servicios mediante foros y chats donde la institucin puede responder y de esta forma, retroalimentar el flujo de comunicacin. Para el rea comercial o de negocios, un sistema de administracin de contenidos puede funcionar como un eficiente medio de comunicacin en diversas reas como la atencin a clientes, comunicacin interdepartamental as como un medio ideal para el ambiente laboral. La administracin de contenidos puede ser la mejor forma de atraer a un cliente ya que le permite encontrar lo que busca de manera puntual, un cliente puede saber la fecha de nuevos productos, preguntar sobre el proceso de pago, descuentos o alguna informacin de algn producto en especfico. El sistema tambin puede servir para que los diversos departamentos que conforman una empresa se comuniquen entre s, intercambiando informacin sobre objetivos y metas, creando as un filtro de calidad que har ms eficiente su negocio. Un sistema de contenidos tambin es una excelente plataforma para la comunicacin organizacional, ya que los trabajadores o miembros de su empresa pueden
Pgina 37

comunicarse mediante foros o chats para hacer sugerencias, comentarios y enterarse de noticias relacionadas a la empresa, evitando as los molestos chismes.
21

MOTORES DE CONSULTA
Un motor de bsqueda se podra definir de forma muy simple, como una herramienta que basa su funcionamiento en palabras clave que tienen el objetivo de realizar bsquedas dentro de una base de datos. Los documentos que se pueden encontrar despus de realizar una bsqueda se pueden haber agrupado de forma manual o mediante un robot, que es un programa que de manera automtica atraviesa la estructura de documentos Web extrayendo un documento y a partir de ste extrayendo recursivamente todos los documentos que estn referenciados por enlaces, es por este motivo que tambin es conocido como araa (spider). El motor de bsqueda recibe la consulta/interrogacin (tambin conocida como query) del usuario, formada por una o ms palabras, realiza la consulta a la base de datos y ofrece un listado ordenado de documentos que cumplen parte o el total de los requisitos de interrogacin. El orden de los documentos ofrecidos est de acuerdo con una puntuacin (score) que asocia el programan a cada documento cuando realiza la consulta y que vara en cada caso. De esta manera, cuanto ms alta sea la puntuacin ms exacto es el resultado. 22

Pgina 38

BASES DE DATOS PARA EL SOPORTE EN LA TOMA DE DECISIONES

BODEGA DE DATOS (DATAWAREHOUSE)

DEFINICION, OBJETIVO DE BODEGAS DE DATOS

Es un conjunto de datos integrados u orientados a un propsito u objetivo, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y est orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de esta informacin est orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos seleccionados desde las fuentes.

RIESGOS. Desactualizacin de esquemas a nuevas necesidades del negocio. Acceso no restringido a objetos de Datawarehouse. Respaldo de los datos almacenados

Pgina 39

FUNCIONAMIENTO DATAWAREHOUSE

Cmo trabaja el Datawarehouse?


Extrae la informacin operacional. Transforma la operacin a formatos consistentes. Automatiza las tareas de la informacin para prepararla a un anlisis eficiente.

En qu podemos usarlo?

Manejo de relaciones de marketing. Anlisis de rentabilidad. Reduccin de costos 23

Pgina 40

CONSIDERACIONES DEL DISEO DATAWAREHOUSE

Bloques para la construccin de un Datawarehouse

MODELAR: Modelo de diseo de la base de datos (fragmentacin, reas temas, y la granularidad).

CONDENSAR: Se reducen grandes volmenes de datos que llegan, utilizando tcnicas de adicin y resumen.

AGREGAR: Las rutas y reglas de navegacin del Datawarehouse.

CONCILIAR Y VALIDAR: El glosario empresarial.

DESARROLLAR CONSULTAS CON BASE EN LA ARQUITECTURA, CREAR GLOSARIO, EXAMINAR Y NAVEGAR POR LOS METADATOS: La lista de consultas y reportes diseados y predefinidos. 24

Pgina 41

HERRAMIENTAS PARA EXTRAER, TRANSFORMAR Y CARGAR FUENTES DE DATOS

Las herramientas se clasifican en cuatro categoras bsicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extraccin y Coleccin, Herramientas para Reportes de Usuario Final y Herramientas para Anlisis Inteligentes. Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Datawarehouse. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Datawarehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interface vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc. Herramientas de Anlisis Inteligente: Entre ellas estn las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Datawarehouse modelos y relaciones en los datos. Estas herramientas utilizan una tcnica conocida como Datamining o Minera de datos. 25

Pgina 42

PROCESAMIENTO Y ANALISIS EN LINEA OLAP

DEFINICIONES Y CONCEPTOS OLAP

OLAP, proviene de Online Analitical Processing (Procesamiento Analtico en Lnea), define a una tecnologa que se basa en el anlisis multidimensional de los datos y que le permite al usuario tener una visin ms rpida e interactiva de los mismos. Es una solucin utilizada en el campo de la Inteligencia de Negocios (Business Intelligence), la cual consiste en consultas a estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de Datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares. Este anlisis, tambin conocido como anlisis del hipercubo, organiza la informacin segn los parmetros que se consulten, de manera tal que a partir de estructuras multidimensionales que contienen los datos resumidos de Sistemas Transaccionales, conocidos como OLTP (Online Transactional Processing) o de grandes bases, se obtendr la informacin requerida. 26

Pgina 43

REQUERIMIENTOS FUNCIONALES DE SISTEMAS OLAP


Existen algunas clasificaciones entre las implementaciones OLAP. ROLAP es una implementacin OLAP que almacena los datos en un motor relacional. Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas. Los esquemas ms comunes sobre los que se trabaja son estrella, aunque es posible trabajar sobre cualquier base de datos relacional. La arquitectura est compuesta por un servidor de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esa arquitectura es que permite el anlisis de una enorme cantidad de datos. MOLAP es una implementacin OLAP que almacena los datos en una base de datos multidimensional. Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados. HOLAP (Hybrid OLAP) almacena algunos datos en un motor relacional y otros en una base de datos multidimensional DOLAP es un OLAP orientado a equipos de escritorio (Desktop OLAP). Trae toda la informacin que necesita analizar desde la base de datos relacional y la guarda en el escritorio. Desde ese momento, todas las consultas y anlisis son hechas contra los datos guardados en el escritorio. 27

Pgina 44

OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTANDAR SQL3


Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el Datawarehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos.

Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el Datawarehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante tablas dinmicas en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un Datawarehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar. 28

Pgina 45

UTILIZACIN DE HERRAMIENTAS PARA OLAP


Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser: Herramientas de consultas / reportes, con interfaz grfica, sin usar sentencias SQL, realizar peticiones complejas. Herramientas OLAP: Permiten obtener informacin generando consultas

multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento para diferentes parmetros. Modelo Multidimensional: Modelo estilo hoja de clculo. a. Elementos Medidas: Valores de inters Dimensiones, Atributos, Propiedades Visin de Cubos: Datos representados en forma de arreglos multidimensionales. b. Visin de Relaciones: Tablas de hechos (Fact Table): Ejemplo: ventas. Tablas de dimensiones: Ejemplo: tiempo, producto, geografa. Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalizacin genera un efecto denominado copos de nieve, es preferible usar el mtodo de la estrella, donde las relaciones son ms claras. La actualizacin se hace por periodos, no en lnea. 29

Pgina 46

MERCADO DE DATOS (DATAMART)

DEFINICIONES, CONCEPTOS DE MERCADO DE DATOS

Un Datamart es una versin especial de almacn de datos (Datawarehouse). Como los almacenes de datos, los Datamart contienen una visin de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el anlisis de tendencias y experiencias pasadas. La diferencia principal es que la creacin de un Datamart es especfica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante. 30 Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
31

Pgina 47

FASES DE CONSTRUCCIN DE MERCADO DE DATOS

1.-Construccin del Datamart: Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin.

2.- Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.

3.- Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc

4.- Construccin de los procesos de prueba: Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados. 32

Pgina 48

ANLISIS DE MERCADO DE DATOS


Datamart se destaca por una definicin de requerimientos ms fcil y rpida. Tambin se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el costo del proyecto, as como su duracin. Aspect Datamart es una solucin completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solucin consolida datos de mltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y as poder identificar rpidamente los procesos de cambio necesarios. El valor de un Datamart es difcil de determinar por la habilidad del usuario para extraer la informacin ms significativa sobre la cual se toman las decisiones del negocio. Un interfaz de usuario efectivo minimiza el nmero de acciones de usuario requeridas para obtener el resultado deseado por lo que deber estar navegando intuitivamente a no ser que el usuario memorice los comandos. Las herramientas de acceso a la informacin pueden soportar acceso, anlisis, visualizacin y Datamining de los datos de una forma predefinida. 33

Pgina 49

TECNOLOGIAS DE MERCADOS DE DATOS


Herramientas Front-end Herramientas de BD

HERRAMIENTAS FRONT-END
La Interfaz Front-End, es una aplicacin donde los usuarios interactan directamente con las funciones del sistema, cubre todas las interfaces con las cuales un usuario interacta con los sistemas, ya sean locales o remotos, sus funciones principales son: o Diseo de formatos. o Presentacin. o Lgica de la aplicacin. o Manipulacin de datos. o Herramientas de consulta. o Utileras/mens Herramientas front-end, tambin conocidas como herramientas de acceso a los datos o herramientas de presentacin: Herramientas de consulta: usan consultas predefinidas y las capacidades de informacin incorporadas para que los usuarios tenga accesos a los datos. Aplicaciones de usuarios: Muchos programas de aplicacin comunes como Microsoft Excel pueden proporcionar acceso front-end a bases de datos de apoyo. Herramientas de desarrollos de programas: Muchas instalaciones clienteservidor necesitan aplicaciones front-end especiales personalizados para sus tareas de obtencin de datos. 34

Pgina 50

HERRAMIENTAS DE BASE DE DATOS


Consultas Bsicas y Reportes: En este tipo de herramientas el usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, va SQL (estndar para el acceso a las bases de datos relacionales). El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algn informe complejo, por lo que su utilizacin directa no est recomendada a usuarios finales. Consultas y Reportes Avanzados: Estas herramientas aportan una visin temtica de las bases de datos relacionales (visin de negocio), mediante la cual el usuario final tiene una visin menos tcnica del Datamart. Este tipo de herramientas pone una capa de trminos que le son ms familiares a los usuarios finales y establece, las interrelaciones de las tablas del Datamart, de forma que sea ms sencillo. An as, sigue siendo la estructura relacional bsica la que subyace en estas herramientas. Cognos: A travs de su interfaz simple al estilo de asistente, Cognos integra bases de datos y aplicaciones de Lotus Notes, el nico producto de inteligencia de negocios que ofrece toda la gama de capacidades de inteligencia de negocios en una arquitectura nica y probada. 35

Pgina 51

PROCESO, DISEO Y CONSULTAS DE MERCADO DE DATOS

El diseo de bases de datos es el proceso por el que se determina la organizacin de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar

PALO Es un motor orientado a celdas, multidimensional, que est especficamente diseado para mostrar informacin desde excel, para todo tipo de anlisis. 36

Pgina 52

MINERIA DE DATOS (DATAMINING)


DEFINICIONES, CONCEPTOS DE MINERIA DE DATOS
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial

de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin. 37 De las mltiples definiciones ms o menos equivalentes que existen de Data Mining creemos que la hace el Instituto SAS describe con acierto la idea que subyace a este concepto. El Instituto SAS define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar

(Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. El proceso de Data Mining es por tanto aplicable a lo largo de una amplia variedad de industrias y proporciona distintas metodologas de anlisis segn el tipo de problema que queremos analizar.43 En [Witten & Frank 2000] se define la minera de datos como el proceso de extraer conocimiento til y comprensible, previamente desconocido, desde las grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la minera de datos es encontrar modelos inteligentes a partir de los datos. Para que este proceso sea efectivo debera ser automtico o semi-automtico (asistido) y el uso de los patrones descubiertos debera ayudar a tomar decisiones ms seguras que reporten, por tanto, algn beneficio a la organizacin. Por tanto, dos son los retos de la minera de datos por un lado, trabajar con grandes volmenes de datos, procedentes mayoritariamente de sistemas de informacin, con los
Pgina 53

problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos), y por el otro usar tcnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y til. En muchos casos la utilidad del conocimiento minado est ntimamente relacionada con la comprensibilidad del modelo inferido. No debemos olvidar que, generalmente, el usuario final no tiene por qu ser un experto en las tcnicas de minera de datos, ni tampoco puede perder mucho tiempo interpretando los resultados. Por ello, en muchas aplicaciones es importante hacer que la informacin descubierta sea ms comprensible por los humanos (por ejemplo, usando representaciones grficas, convirtiendo los patrones a lenguaje natural o utilizando tcnicas de visualizacin de los datos). De una manera simplista pero ambiciosa, podramos decir que el objetivo de la minera de datos es convertir datos en conocimiento.46 Tipos de datos, llegados a este punto surge una pregunta obligada, a qu tipo de datos puede aplicarse la minera de datos? En principio, sta puede aplicarse a cualquier tipo de informacin, siendo las tcnicas de minera diferentes para cada una de ellas. En esta seccin damos una breve introduccin a algunos de estos tipos. En concreto, vamos a diferenciar entre datos estructurados provenientes de bases de datos relacionales, otros tipos de datos estructurados en bases de datos (espaciales, temporales, textuales y multimedia) y datos no estructurados provenientes de la web o de otros tipos de repositorios de documentos. 46

APLICACIONES DE MINERIA DE DATOS


Negocios o o o o o o o o Hbitos de compra en supermercados. Patrones de fuga. Fraudes. Recursos humanos. Predecir ventas. Dirigir correo a clientes especficos. Determinar los productos que se pueden vender juntos. Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra.

Internet o Juegos.
Pgina 54

o Ciencia e Ingeniera. o Gentica. o Ingeniera elctrica. 38 Segn el enfoque de Csar Prez y Daniel Santn, existen innumerables problemas de Data Mining con los que nos podemos encontrar como son: o o o o o o o o o Predecir el nivel de morosidad de un cliente. Saber quines son mis clientes. Encontrar el perfil de comprador del producto A. Detectar los contribuyentes que estn cometiendo acciones fraudulentas. Encontrar el perfil del cliente que me abandonar el mes siguiente. Encontrar los sntomas de enfermedades que ms a menudo aparecen juntas. Predecir si un paciente responder adecuadamente a un tratamiento. Encontrar las caractersticas de la poblacin fumadora. Detectar alumnos en las escuelas con alto riesgo de fracaso escolar.

Es fcil comprobar ante esta lista, que en ningn caso pretende ser exhaustiva, que podamos establecer una primera clasificacin de estos problemas en: Problemas descriptivos. Problemas Predictivos.

DISEO DE MINEROS DE DATOS


Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos. 2. Anlisis de las propiedades de los datos. 3. Transformacin del conjunto de datos de entrada. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo de prediccin, de clasificacin o segmentacin. 5. Evaluar los resultados contrastndolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Pgina 55

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. 39

OBTENCIN DE INFORMACIN A TRAVS DE PATRONES DE BSQUEDA


Un modelo es una descripcin global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrn es una propiedad local de los datos, tal vez slo la tienen ciertas instancias o atributos. El reconocimiento de patrones, tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas es el reconocimiento de patrones en seales. No slo es un campo de la informtica sino un proceso fundamental que se encuentra en casi todas las acciones humanas. Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificacin de documentos (por ejemplo spam/no spam), el reconocimiento de escritura y el reconocimiento de caras humanas. 40

Pgina 56

TCNICAS, HERRAMIENTAS DE MINERA DE DATOS


Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales: Son un paradigma de aprendizaje y procesamiento

automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Algunos ejemplos de red neuronal son:

El Perceptor. El Perceptor multicapa. Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.

Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:

Algoritmo ID3. Algoritmo C4.5.

Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:

Pgina 57

Algoritmo K-means. Algoritmo K-medoids.41

Segn Csar Prez y Daniel Santn, las tcnicas son implementaciones especficas de los algoritmos que se utilizan para llevar a cabo las operaciones de construccin del modelo. No todos los algoritmos para resolver un determinado problema de Data Mining son iguales y cada uno de ellos tendr una serie de ventajas e inconvenientes. La conveniencia de aplicar un determinado algoritmo depende no slo del tipo de problema con el que nos estamos enfrentando sino tambin en gran medida del tipo de los datos con los que se est tratando. En este sentido conviene analizar los distintos enfoques y algoritmos que existen en la literatura, pues en la vida real nos encontramos que las herramientas comerciales ofrecen todo un abanico de posibles algoritmos y es el usuario final el que tiene que decidir cul de ellos utilizar. Con lo cual al menos que se tenga un conocimiento de estos algoritmos y una experiencia en su uso, ser muy difcil encontrar la mejor solucin de un problema determinado. Tngase en cuenta que, como se ver, los algoritmos utilizados en Data Mining provienen de otras reas de investigacin como la estadstica o la inteligencia artificial con lo que convendr analizar estos algoritmos para poder utilizarlos en el lugar apropiado y de la manera adecuada. A continuacin se numeran someramente las tcnicas de Data Mining que se pueden aplicar para resolver las operaciones de Data Mining descritas. Modelos predictivos: clasificacin: En estos modelos se utiliza aprendizaje supervisado. Se suelen utilizar rboles de decisin, regresiones logsticas y redes neuronales. Estos modelos utilizan un conjunto de datos de entrenamiento para crear el modelo, que posteriormente se utiliza para clasificar individuos desconocidos. Modelos predictivos: prediccin de valores: Para la prediccin de valores se utilizan, junto a los mtodos anteriores, la regresin lineal y regresin no lineal. Segmentacin de bases de datos: clustering no jerrquico: Se compara cada registro de la base de datos con todos los segmentos o semillas creados por la funcin de creacin de las semillas. Se mide la distancia del registro de entrada con los

Pgina 58

segmentos ya creados y se asigna el registro de entrada al segmento correspondiente. El nmero de clusters se ajustan automticamente. Mtodo de las k-medias. Segmentacin de bases de datos: clustering jerrquico: Este tipo de tcnica de Data Mining es apropiado cuando no conocemos ni tenemos informacin acerca de los grupos en los que se clasifican los clusters. Se suelen utilizar algoritmos de tipo jerrquico como los aglomerativos o divisivos. Junto a ellos se utilizan las redes neuronales basadas en aprendizaje no supervisado, como por ejemplos los mapas de Kohonen. Anlisis de relaciones: asociaciones: El objetivo de esta tcnica de Data Mining es encontrar elementos que implican la presencia de otros elementos dentro de una misma transaccin. El resultado de esta tcnica son reglas de tipo if X then Y. En las reglas, X se denomina cabeza de la regla e Y se denomina cuerpo. Uno de los algoritmos de asociacin ms utilizados es Apriori. Se basa en contar las ocurrencias de todas las posibles combinaciones de los elementos. Lo que hace es contar las ocurrencias de todos los elementos presentes en las transacciones de la base de datos y crear un vector donde cada uno de los elementos lleva una cuenta de los elementos de la base de datos. Aquellas celdas del vector cuyo valor este por debajo del nivel de soporte (umbral) se ignoran. Anlisis de relaciones: patrones secuenciales: trata de descubrir patrones entre transacciones en las que un conjunto de elementos va seguido de otro conjunto de elementos distanciados un periodo de tiempo determinado. Anlisis de relaciones: patrones en series temporales: Con esta tcnica se pretenden descubrir ocurrencias o secuencias similares a una dada en una base de datos que almacene informacin que represente una serie de temporal, como puede ser la evolucin de los precios de mercado o datos de telemetra provenientes de algn sensor, es decir, una serie temporal es un conjunto de valores de una variable en un periodo de tiempo.

TENDENCIAS EN MINERA DE DATOS


La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son:
Pgina 59

La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.).

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.

La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito).

Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real. 42

Pgina 60

BIBLIOGRAFA
1 http://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetos 2

http://www.tutoriales.itsa.edu.mx/TopicosAvanzadosBD/index.php?mod=definicion&ban=0

3http://sistemas.itlp.edu.mx/tutoriales/basedat1/tema7.htm 4http://www.tutoriales.itsa.edu.mx/TopicosAvanzadosBD/index.php?mod=elestandar&ban=0 5http://neysmall.iespana.es/web/ApuntesElectronicos/Unidad1/UNIDAD_1_Tema_1.1.4.html 6http://www.mitecnologico.com/Main/PersistenciaConcurrenciaRecuperacionEnBdoo 7http://www.redcientifica.com/oracle/c0001p0005.html 8http://www.mitecnologico.com/Main/CubosEHipercubosDeDatos 9http://www.mitecnologico.com/Main/EstructurasNoJerarquicasYJerarquicasDeDatos 10http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/martinez_v_lm/capitulo2.pdf 11http://www.monografias.com/trabajos/edi/edi.shtml 12http://www.mitecnologico.com/Main/EcommerceYEbussiness 13http://es.wikipedia.org/wiki/Aprendizaje_electr%C3%B3nico 14http://www.mitecnologico.com/Main/SistemasSeguridadParaDesarrollosWeb 15http://es.wikipedia.org/wiki/Extensible_Markup_Language 16http://es.wikipedia.org/wiki/Extensible_Markup_Language

17

http://www.monografias.com/trabajos7/xml/xml.shtml http://www.monografias.com/trabajos7/xml/xml.shtml

18

19http://es.wikipedia.org/wiki/Middleware 20http://es.kioskea.net/contents/bdd/bddintro.php3 21http://www.softelligence.com.mx/Docs/Sistema-de-Administracion-de-Contenidos.htm 22http://www.unlu.edu.ar/~tyr/tyr/TYR-motor/mamami-motor.pdf 23http://html.rincondelvago.com/dwh_4.html 24http://www.wikilearning.com/apuntes/data_warehouse-

funciones_de_un_datawarehouse/23032-2

Pgina 61

25http://www.monografias.com/trabajos24/bodega-de-datos/bodega-de-datos.shtml 26http://www.mastermagazine.info/termino/6841.php 27http://www.cavsi.com/preguntasrespuestas/que-es-procesamiento-analitico-en-liea-olap/ 28http://www.mitecnologico.com/Main/OperadoresParaManejoDeCubosDeDatosDelEstandarSql

3
29http://www.mitecnologico.com/Main/UtilizacionHerramientasParaOlap 30http://www.cavsi.com/preguntasrespuestas/category/bases-de-datos/ 31expotabd.wikispaces.com/file/view/DATA+MART.ppt 32, 33expotabd.wikispaces.com/file/view/DATA+MART.ppt 34expotabd.wikispaces.com/file/view/DATA+MART.ppt 35expotabd.wikispaces.com/file/view/DATA+MART.ppt 36expotabd.wikispaces.com/file/view/DATA+MART.ppt 37http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 38Leonardonevarez.host56.com/archivos/MineriaDatos.ppt 39Leonardonevarez.host56.com/archivos/MineriaDatos.ppt

40Leonardonevarez.host56.com/archivos/MineriaDatos.pp 41http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 42http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 43Csar

Prez, Daniel Santn, Data Mining Soluciones con Enterprise Miner, Alfaomega Ra-Ma. Rodrguez Zamora, Publicacin en Internet y tecnologa XML, Alfaomega Ra-Ma. Korth, Sudarshan, Fundamentos de bases de datos, McGrawHill Cuarta Edicin.

44Alonso

45Silberschatz, 46Jos

Hernndez Orallo, Ma.Jos Ramirez Quintana, Csar Ferri Ramrez, Introduccin a la Minera de Datos, PrenticeHall.
47Mario

G.Piattini, Esparza Marcos, Coral Calero, Beln Vela, Tecnologa y diseo de bases de datos, Alfaomega.
48Abiteboul,S.

et al (2003). The Lowell Database Research Self Assesment. Disponible en: http://research.microsoft.com/~gray/lowell/.
49Cattell,

R.G.G.(1991). What are next generation database system?. En CACM (Octubre).

Pgina 62

S-ar putea să vă placă și