Documente Academic
Documente Profesional
Documente Cultură
ANTOLOGA
JUSTIFICACION
Como parte de las estrategias para elevar la calidad acadmica el Instituto Tecnolgico de Los Mochis y sus distintos departamentos promueven y apoyan el desarrollo de materiales didcticos para el apoyo de las diferentes asignaturas que se imparten en sus programas. Derivado de lo anterior la siguiente antologa fue desarrollada con la finalidad de que sean utilizados por la academia de Informtica del Departamento de Sistemas y Computacin del Instituto Tecnolgico de Los Mochis en el programa de la retcula 2004, en la asignatura de Tpicos Avanzados de Bases de Datos, con el objetivo de brindar una herramienta ms a los docentes que les corresponda impartir mencionada asignatura y eficientar an ms su labor docente.
Pgina 2
NDICE
TEMA
PGINA
MODELOS EMERGENTES DE BASE DE DATOS.6 BASE DE DATOS ORIENTADA OBJETOS. ...7 DEFINICION Y CONCEPTOS DE BDOO........8 EL MODELO DE DATOS ORIENTADO A OBJETOS....9 EL ESTANDAR ODMG...12 ENCAPSULAMIENTO HERENCIA POLIMORFISMO EN BDOO..13 PERSISTENCIA, CONCURRENCIA, RECUPERACIN EN BDOO..17 BASES DE DATOS MULTIDIMENSIONALES (BDM)18 CUBOS E HIPERCUBOS DE DATOS.19 ESTRUCTURAS NO JERRQUICAS Y JERRQUICAS DE DATOS20 BASES DE DATOS Y TECNOLOGIAS WEB21 HERRAMIENTAS Y TECNOLOGIAS PARA EL DESARROLLO WEB.21 INTERCAMBIO ELECTRNICO DE DATOS (EDI).22 ECOMMERCE Y EBUSSINESS..23 ELEARNING.25 SISTEMAS DE SEGURIDAD PARA EL DESARROLLO WEB....26
Pgina 3
EXTENSIBLE MARKUP LANGUAGE (XML)..27 FUNDAMENTOS DE XML..28 DISEO DE APLICACIONES WEB USANDO XML31 PRODUCTOS XML...32 MIDDLEWARE.34 BASES DE DATOS...35 SISTEMA DE ADMINISTRACION DE CONTENIDOS37 MOTORES DE CONSULTA38 BASES DE DATOS PARA EL SOPORTE EN LA TOMA DE DECISIONES...39 BODEGA DE DATOS (DATAWAREHOUSE)...39 DEFINICION, OBJETIVO DE BODEGAS DE DATOS.39 FUNCIONAMIENTO DATAWEREHOUSE...40 CONSIDERACIONES DEL DISEO DATAWAREHOUSE.41 HERRAMIENTAS PARA EXTRAER, TRANSFORMAR Y CARGAR FUENTES DE DATOS..42 PROCESAMIENTO Y ANALISIS EN LINEA OLAP.43 DEFINICIONES Y CONCEPTOS OLAP.43 REQUERIMIENTOS FUNCIONALES DE SISTEMAS OLAP..44 OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTANDAR SQL3..45 UTILIZACIN DE HERRAMIENTAS PARA OLAP.46
Pgina 4
MERCADO DE DATOS (DATA MART)47 DEFINICIONES, CONCEPTOS DE MERCADO DE DATOS ..47 FASES DE CONSTRUCCIN DE MERCADO DE DATOS..48 ANLISIS DE MERCADO DE DATOS..49 HERRAMIENTAS FRONT-END.50 HERRAMIENTAS DE BASE DE DATOS...51 PROCESO, DISEO Y CONSULTAS DE MERCADO DE DATOS.52 MINERIA DE DATOS (DATA MINING)...53 DEFINICIONES, CONCEPTOS DE MINERIA DE DATOS..53 APLICACIONES DE MINERIA DE DATOS..54 DISEO DE MINEROS DE DATOS55 OBTENCIN DE INFORMACIN A TRAVS DE PATRONES DE BSQUEDA56 TCNICAS, HERRAMIENTAS DE MINERA DE DATOS..57 TENDENCIAS EN MINERA DE DATOS..59 BIBLIOGRAFA61
Pgina 5
Pgina 6
Pgina 7
Pgina 8
Estructura de objetos. Un objeto se describe por sus propiedades, tambin llamadas atributos estructura del objeto- y los servicios que pueden proporcionar comportamiento del objeto-. El estado de un objeto viene determinado por los valores que toman sus atributos, valores que siempre han de cumplir las restricciones impuestas sobre ellos.47
Pgina 9
El modelo orientado a objetos se basa en encapsular cdigo y datos en una nica unidad, llamada objeto. La interfaz entre un objeto y el resto del sistema se define mediante un conjunto de mensajes. Un objeto tiene asociado:
un conjunto de variables que contienen los datos del objeto. El valor de cada variable es un objeto.
Un conjunto de mensajes a los que el objeto responde. Un mtodo, que es un trozo de cdigo para implementar cada mensaje. Un mtodo devuelve un valor como respuesta al mensaje.
Jerarqua de clases. En una base de datos existen objetos que responden a los mismos mensajes, utilizan los mismos mtodos y tienen variables del mismo nombre y tipo. Sera intil definir cada uno de estos objetos por separado por lo tanto se agrupan los objetos similares para que formen una clase, a cada uno de estos objetos se le llama instancia de su clase. Todos los objetos de su clase comparten una definicin comn, aunque difieran en los valores asignados a las variables. As que bsicamente las bases de datos orientados a objetos tienen la finalidad de agrupar aquellos elementos que sean semejantes en las entidades para formar un clase, dejando por separado aquellas que no lo son en otra clase. Ejemplo: los atributos de nombre, direccin y telfono se repiten en la entidad alumno y maestro, as que podemos agrupar estos elementos para formar la clase Persona con dichos campos. Quedando por separado en alumno: Especialidad, semestre, grupo y en maestro: Nmero econmico, Plaza y RFC; la materia no entra en la agrupacin (Clase persona) ya que la clase especfica los datos de solo personas, as que queda como clase materia.
Pgina 10
Herencia. Las clases en un sistema orientado a objetos se representan en forma jerrquica, as que las propiedades o caractersticas del elemento persona las contendrn (heredaran) los elementos alumno y maestro. Decimos que tanto la entidad alumno y maestro son subclases de la clase persona este concepto es similar al utilizado en la de especializacin (la relacin ISA) del modelo E-R. Se pueden crear muchas agrupaciones (clases) para simplificar un modelo as que una jerarqua (en forma grfica) puede quedar muy extensa, en estos casos tenemos que tener bien delimitados los elementos que intervienen en una clase y aquellos objetos que las heredan.
Consultas orientadas a objetos: Los lenguajes de programacin orientados a objetos requieren que toda la interaccin con objetos se realiza mediante el envo de mensajes. Consideremos el ejemplo de alumno-cursa-materia deseamos realizar la consulta de los alumnos que cursan la materia de Base de Datos I, para realizar esta consulta se tendra que enviar un mensaje a cada instancia alumno As un lenguaje de consultas para un sistema de bases de datos orientado a objetos debe incluir tanto el modelo de pasar el mensaje de objeto a objeto como el modelo de pasar el mensaje de conjunto en conjunto. Complejidad de Modificacin. En base de datos orientados a objetos pueden existir los siguientes cambios:
Adicin de una nueva clase: Para realizar este proceso, la nueva clase debe colocarse en la jerarqua de clase o subclase cuidando las variables o mtodos de herencia correspondientes.
Pgina 11
Eliminacin de una clase: Se requiere la realizacin de varias operaciones, se debe de cuidar los elementos que se han heredado de esa clase a otras y reestructurar la jerarqua.
En s la estructuracin de modelos orientados a objetos simplifica una estructura evitando elementos o variables repetidas en diversas entidades, sin embargo el precio de esto es dedicarle un minucioso cuidado a las relaciones entre las clases cuando en modelo es complejo, la dificultad del manejo de objetos radica en la complejidad de las modificaciones y eliminaciones de clases, ya que de tener variables que heredan otros objetos se tiene que realizar una reestructuracin que involucra una serie de pasos complejos. 3
EL ESTANDAR ODMG
En verano de 1991 Rick Cattell, de SunSoft, reuni a un grupo de expertos que trabajaban en distintas empresas de SGBO, y les propuso elaborar un estndar de facto, basado en las caractersticas que presentaban los productos existentes y que se pudiera publicar en un breve plazo de tiempo. As naci el ODBMG (Object Data Management Group) que agrupaba a los principales vendedores de SGBO: Object Design, Ontos, O2 Technology, Versant, Objectivity, POET Software y Servio Corporation y que contaba tambin con diversos revisores tanto de empresas (Andersen, Hewlett-Packard, EDS, Sybase, Texas Instruments o Persistence), como de universidades: Maier, Dewitt, Carey, Dittrich, Zdonik, Liskov, King, etc. 47 El modelo de objetos ODMG permite que tanto los diseos, como las
implementaciones, sean portables entre los sistemas que lo soportan. Dispone de las siguientes primitivas de modelado: Los componentes bsicos de una base de datos orientada a objetos son los objetos y los literales. Un objeto es una instancia auto contenida de una entidad de inters del mundo real. Los objetos tienen algn tipo de identificador nico. Un literal es un valor especfico, como Amparo o 36. Los literales no tienen identificadores. Un literal no
Pgina 12
tiene que ser necesariamente un solo valor, puede ser una estructura o un conjunto de valores relacionados que se guardan bajo un solo nombre. Los objetos y los literales se categorizan en tipos. Cada tipo tiene un dominio especfico compartido por todos los objetos y literales de ese tipo. Los tipos tambin pueden tener comportamientos. Cuando un tipo tiene comportamientos, todos los objetos de ese tipo comparten los mismos comportamientos. En el sentido prctico, un tipo puede ser una clase de la que se crea un objeto, una interface o un tipo de datos para un literal (por ejemplo, integer). Un objeto se puede pensar como una instancia de un tipo. Lo que un objeto sabe hacer son sus operaciones. Cada operacin puede requerir datos de entrada (parmetros de entrada) y puede devolver algn valor de un tipo conocido. Los objetos tienen propiedades, que incluyen sus atributos y las relaciones que tienen con otros objetos. El estado actual de un objeto viene dado por los valores actuales de sus propiedades. 4
Pgina 13
Hay que observar que a continuacin resumimos los principales caractersticas de un SGBO en el sentido de que no todos los sistemas tendrn todas y cada una de sus caractersticas. Como se seala en ANSI (1990b), este tipo de descripciones se pueden considerar un modelo de referencia abstracto que, si bien no proporciona una especificacin implementable, s resulta til para exponer este tipo de sistemas e incluso como base de comparacin entre productos.47
POLIMORFISMO Es una caracterstica del paradigma O.O., en el que objetos de una determinada clase, puede verse o tratarse como una clase ms general dentro de su jerarqua. Esta caracterstica determina y potencia las capacidades de consulta de un OODBMS, ya que por ejemplo, si en la base de datos se tienen objetos Estudiante-Posgrado y Estudiante-Pregrado, si se consultan todos los objetos Estudiante el resultado -por polimorfismo- incluir simultneamente estos dos tipos de estudiante.
El polimorfismo es la capacidad de que un mensaje sea interpretado de maneras distintas, segn el objeto que lo recibe. En la orientacin a objetos se emplean principalmente dos formas de polimorfismo:
Pgina 14
De Subclase: Cuando un servicio definido en una clase se redefine en alguna de sus subclases manteniendo el mismo nombre. Entonces un mensaje enviado a un objeto que pertenece a una cierta clase de la jerarqua puede invocar a cualquiera de estos servicios, segn sea la clase a la que pertenezca el objeto que lo recibe.
De sobrecarga: utilizando el mismo nombre para servicios distintos, no situados en una jerarqua de generalizacin (Sobrecargando el significado del trmino). 47
HERENCIA:
La herencia es uno de los conceptos ms cruciales en la POO. La herencia bsicamente consiste en que una clase puede heredar sus variables y mtodos a varias subclases (la clase que hereda es llamada superclase o clase padre). Esto significa que una subclase, aparte de los atributos y mtodos propios, tiene incorporados los atributos y mtodos heredados de la superclase. De esta manera se crea una jerarqua de herencia. Por ejemplo, imaginemos que estamos haciendo el anlisis de un Sistema para una tienda que vende y repara equipos celulares.
Los SGBO incorporan los conceptos bsicos del paradigma de la orientacin a objetos. Adems, existen otras caractersticas de los sistemas orientados al objeto que se incorporan en los SGBO, como son:
Pgina 15
Extensibilidad, ya que se permite al usuario definir nuevas clases y modificar las existentes de manera dinmica. Esta caracterstica resulta imprescindible en las aplicaciones que suelen utilizar tecnologa orientada a objetos CAD/CAM, CASE, etc.- ya que en ellas la modificacin del esquema es la norma.
Bibliotecas de clases, que definen elementos con un alto nivel de funcionalidad, que se pueden integrar en las bases de datos. El problema de las bibliotecas de clase de los SGBO es que suelen tener una funcionalidad limitada y que las bibliotecas de terceros pueden resultar incompatibles con el modelo soportado por el SGBO, ya que no existe un estndar universal adoptado. 47
ENCAPSULAMIENTO:
Es la ocultacin de informacin. Significa mantener la informacin dentro del objeto y mantenerlo como una caja negra. Puede ser accedida por mtodos. Cada objeto contiene y define procedimientos (mtodos) y la interfaz mediante la cual se puede acceder a l y otros objetos pueden manipularlo. La mayora de los SGBDOO permite el acceso directo a los atributos incluyendo operaciones definidas por el propio SGBDOO las cuales leen y modifican los atributos para evitar que el usuario tenga que implementar una cantidad considerable de mtodos cuyo nico propsito sea el de leer y escribir los atributos de un objeto. Generalmente, los SGBDOO permiten al usuario especificar qu atributos y mtodos son visibles en la interfaz del objeto y pueden invocarse desde afuera.5 En el paradigma de la orientacin a objetos un sistema se concibe como un conjunto de objetos que se comunican entre s mediante mensajes. A nivel conceptual un objeto es una entidad percibida en el sistema que se est desarrollando, mientras que a nivel de implementacin, un objeto se corresponde con un encapsulamiento de un conjunto de operaciones (servicios) que pueden ser invocadas externamente y de un estado que recuerda el efecto de los servicios. El encapsulamiento es un principio de abstraccin que agrupa datos y procesos permitiendo ocultar a los usuarios de un objeto los aspectos de implementacin, ofrecindoles una interfaz externa mediante la cual pueden
Pgina 16
interactuar con el objeto. El principio de ocultamiento de la informacin es importante ya que permite modificar los aspectos privados de un objeto sin que se vean afectados los dems objetos que interactan con ste, siempre que se conserve la misma interfaz.47
Persistencia
que tiene el programador para conserven al finalizar la proceso, de forma que se en otros procesos.
Concurrencia
Se relaciona con interactuando Este debe transacciones destruya la consistencia de la base de datos.
la existencia de muchos usuarios concurrentemente en el sistema. controlar la interaccin entre las concurrentes para evitar que se
Recuperacin
Proporcionar como mnimo el mismo nivel de recuperacin que los sistemas de bases de datos actuales. De forma que, tanto en caso de fallo de hardware como de fallo de software, el sistema pueda retroceder hasta un estado coherente de los datos. 6
Pgina 17
complejas y alto rendimiento. Puede utilizar un SGBDR en estrella (Base de datos Multidimensional a nivel lgico) o SGBDM (Base de datos Multidimensional a niveles lgico y fsico o Base de datos Multidimensional Pura) Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creacin de Cubos OLAP. Bsicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podra serlo tambin en una base de datos multidimensional), la diferencia est ms bien a nivel conceptual; en las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien representan mtricas que se desean estudiar.
Pgina 18
Pgina 19
Estructuras Jerrquicas Una Base de datos jerrquica es un tipo de Sistema Gestor de Bases de Datos que, como su nombre indica, almacenan la informacin en una estructura jerrquica que enlaza los registros en forma de estructura de rbol (similar a un rbol visto al revs), en donde un nodo padre de informacin puede tener varios nodos hijo. Como funcionan Los datos se almacenan en la forma de registros, el equivalente a las filas del modelo relacional. Cada registro consta de un conjunto de campos, el equivalente a las columnas del modelo relacional. Un conjunto de registros con los mismos campos se denomina fichero (record type, en ingls), el equivalente a las tablas del modelo relacional.
El modelo jerrquico facilita relaciones padre-hijo, es decir, relaciones 1:N (de uno a varios) del modelo relacional. Pero a diferencia de ste ltimo, las relaciones son unidireccionales. En justicia, dichas relaciones son hijo-padre, pero no padre-hijo. Por ejemplo, el registro de un empleado (nodo hijo) puede relacionarse con el registro de su departamento (nodo padre), pero no al contrario. Esto implica que solamente se puede consultar la base de datos desde los nodos raz hacia los nodos hoja. La consulta en el sentido contrario requiere una bsqueda secuencial por todos los registros de la base de datos. En las bases de datos jerrquicas no existen ndices que faciliten esta tarea.
9
Pgina 20
Algunas tecnologas para construir sitios en Internet son las siguientes: Servlets: Esta tecnologa puede llevar a cabo todas las funciones de un programa de CGI. Este se ejecuta dentro de la mquina virtual de Java junto con el servidor Web por lo cual no requiere de la descarga de un programa externo.
Java Server Pages (JSP): La implmentation actual de JSP est limitada como un lenguaje script. El diseo de JSP permitir a otros lenguajes scripts ser soportados en un futuro. JSP ayuda en la creacin de nuevos tags que son interpretados por el procesador JSP, permitiendo la extensin del lenguaje.
HTML: Lenguaje de definicin de marcas es un lenguaje sencillo que permite marcar los documentos de hipertexto mediante unas etiquetas especficas, de este modo conseguimos darle a los documentos una cierta estructura.
JavaScript: Es un lenguaje compacto de scripts basado en objetos, para desarrollar aplicaciones cliente-servidor en Internet. 10
Pgina 21
Intercambio electrnico de datos es el intercambio entre sistemas de informacin, por medios electrnicos, de datos estructurados de acuerdo con normas de mensajes acordadas. A travs del EDI, las partes involucradas cooperan sobre la base de un entendimiento claro y predefinido acerca de un negocio comn, que se lleva a cabo mediante la transmisin de datos electrnicos estructurados. En el EDI, las interacciones entre las partes tienen lugar por medio de aplicaciones informticas que actan a modo de interfaz con los datos locales y pueden intercambiar informacin comercial estructurada. El EDI establece cmo se estructuran, para su posterior transmisin, los datos de los documentos electrnicos y define el significado comercial de cada elemento de datos. Para transmitir la informacin necesita un servicio de transporte adicional (por ejemplo, un sistema de tratamiento de mensajes o de transferencia de ficheros). EDI ofrece una amplia gama de oportunidades de trabajo y beneficios para nuestra empresa entre los que se destacan: * Agilizacin de procesos comerciales * Importante disminucin de errores en los documentos * Disminucin de stocks, debido a la facilidad de aplicacin de tcnicas "Just-in-Time" * Ahorro de costos de administracin * Mejora de la competitividad de la empresa que lo adopta
11
Pgina 22
E-COMMERCE Y E-BUSSINESS
El E-commerce (Comercio Electrnico) es la compra y venta de bienes y servicios a travs de internet y ms especficamente en el World Wide Web. Es intercambio electrnico de datos de computadora a computadora entre socios comerciales (cadenas), con la finalidad de ahorrar tiempo al eliminar los tradicionales mtodos de preparacin y envo de documentos a travs de mensajera. A la vez, tiene la ventaja de ser un mtodo ms seguro y confiable para el manejo de informacin. Las tendencias de las grandes empresas en la actualidad es la de optimizar y simplificar todas las operaciones de su empresa; para lograr esto, tiene que adoptarse mtodos modernos de administracin, produccin, control y comunicacin, entre los cuales se encuentra EC. Ventajas. Permite el acceso a mayor informacin. Los pedidos que se realizan son ms rpidos. Disponibilidad las 24 horas. Menos inversin en los presupuestos publicitarios.
Desventajas. No conocer la empresa. Puede ser falsa. Formato de pagos. No es 100% seguros algunos clientes tienen miedo de dar sus datos personales. Conocer a quien vende. No se confa en quien vende algunas empresas pueden ser falsas. Poder volver. Algunas veces no se aceptan devoluciones. Intangibilidad. No se puede ver fsicamente el producto. Privacidad y seguridad. Algunas veces no es seguro dar nuestros datos pueden ser clonados.
Pgina 23
E- BUSSINESS Es la aplicacin de las tecnologas de la informacin para facilitar la compraventa de productos, servicios e informacin a travs de redes pblicas basadas en estndares de comunicaciones. Las aplicaciones basadas en los conceptos de E-Business se caracterizan por ser interactivas, con alta intensidad de transacciones, y porque permiten un relanzamiento de los negocios hacia nuevos mercados. El E-Business es la nueva forma de comercio en Internet, sin fronteras, con un nuevo planteamiento de los modelos empresariales, clientes globales, nuevos sistemas de pago y estrategias innovadoras. DIFERENCIAS ENTRE E-COMMERCE Y E-BUSINESS El E-Commerce cubre los procesos por los cuales se llega a los consumidores, proveedores y socios de negocio, incluyendo actividades como ventas, marketing, toma de rdenes de pedido, entrega, servicios al consumidor, y administracin de lealtad del consumidor. El E-Business incluye al E-Commerce, pero tambin cubre procesos internos como produccin, administracin de inventario, desarrollo de productos, administracin de riesgo, finanzas, desarrollo de estrategias, administracin del conocimiento y recursos humanos. La estrategia de E-Commerce es ms estrecha, est ms orientada a las ventas y es ms simple que otras iniciativas En ltima instancia un sistema de E-Business puede tomar mltiples formas y es la empresa quien debe decidir la mejor o ms adecuada segn sus necesidades.
12
Pgina 24
E-LEARNING
E-Learning (aprendizaje electrnico) es la educacin a distancia completamente virtualizada a travs de los nuevos canales electrnicos (las nuevas redes de comunicacin, en especial Internet), utilizando para ello herramientas o aplicaciones de hipertexto (correo electrnico, pginas web, foros de discusin, mensajera instantnea, plataformas de formacin, que unen varios de los anteriores ejemplos de aplicaciones) como soporte de los procesos de enseanza-aprendizaje. Las ventajas que ofrece la formacin en lnea son las siguientes:
Inmersin prctica en un entorno web 2.0. Eliminacin de barreras espaciales y temporales (desde su propia casa, en el trabajo, en un viaje a travs de dispositivos mviles, etc.). Supone una gran ventaja para empresas distribuidas geogrficamente.
Prcticas en entornos de simulacin virtual, difciles de conseguir en formacin presencial, sin una gran inversin.
Gestin real del conocimiento: intercambio de ideas, opiniones, prcticas, experiencias. Enriquecimiento colectivo del proceso de aprendizaje sin lmites geogrficos.
Actualizacin constante de los contenidos (deduccin lgica del punto anterior). Reduccin de costos (en la mayora de los casos, a nivel metodolgico y, siempre, en el aspecto logstico).
13
Pgina 25
Pgina 26
XML es una tecnologa sencilla que tiene a su alrededor otras que la complementan y la hacen mucho ms grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la informacin de una manera segura, fiable y fcil. 15 XML se basa en el uso de marcas o etiquetas para diferenciar los diversos elementos que pueden existir en un documento. Al contrario de HTML, que se utiliza para establecer cmo han de presentarse, o visualizar, dichos datos, con XML lo que definimos utilizando el marcado es la estructura del documento, es decir, la perfecta organizacin de los contenidos existentes en dicho documento.44 Para comprender XML es importante entender sus races como un lenguaje de marcas de documentos. El trmino marca se refiere a cualquier elemento de un documento del que no se tiene intencin que sea parte de la salida impresa. Por ejemplo, un escritor que crea un texto que finalmente se compone de una revista puede desear realizar notas sobre cmo se ha de realizar la composicin. Sera importante introducir estas notas de forma que se pudieran distinguir del contenido real, de forma que una nota como <<no romper este prrafo>> no acabe impresa en la revista. En un procesamiento electrnico de documentos un lenguaje de marcas es una descripcin formal de qu parte del documento es contenido, qu parte es marca y lo que significa la marca. Para la familia de los lenguajes de marcado, en los que se incluye HTML, SGML y XML las marcas adoptan la forma de etiquetas encerradas entre corchetes angulares, <>. Las etiquetas se usan en pares, con <etiqueta> y </etiqueta> delimitando al comienzo y final de la porcin de documento a la cual se refiere la etiqueta. Por ejemplo, el ttulo de un documento podra estar marcado de la siguiente forma: <title>Fundamentos de bases de datos</title> A diferencia de HTML, XML no percibe las etiquetas permitidas, y se pueden establecer etiquetas segn cada necesidad. Esta caracterstica es la clave de la funcin principal
Pgina 27
de XML, en la representacin e intercambio de datos, mientras HTML, se usa principalmente para el formato de documentos.45 VENTAJAS
Es extensible: Despus de diseado y puesto en produccin, es posible extender XML con la adicin de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicacin alguna.
El analizador es un componente estndar, no es necesario crear un analizador especfico para cada versin de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones.
Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de distintas plataformas, sin que importe el origen de los datos, es decir, podramos tener una aplicacin en Linux con una base de datos Postgres y comunicarla con otra aplicacin en Windows y Base de Datos MSSQL Server.
Transformamos datos en informacin, pues se le aade un significado concreto y los asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos. 15
FUNDAMENTOS DE XML
La tecnologa XML busca dar solucin al problema de expresar informacin estructurada de la manera ms abstracta y reutilizable posible. Que la informacin sea estructurada quiere decir que se compone de partes bien definidas, y que esas partes se componen a su vez de otras partes.
Pgina 28
Un documento XML est formado por el prlogo y por el cuerpo del documento as como texto de etiquetas que contiene una gran variedad de efectos positivos o negativos en la referencia opcional a la que se refiere el documento, hay que tener mucho cuidado de esa parte de la gramtica lxica para que se componga de manera uniforme. Prlogo: Aunque no es obligatorio, los documentos XML pueden empezar con unas lneas que describen la versin XML, el tipo de documento y otras cosas. El prlogo de un documento XML contiene:
Una declaracin XML. Es la sentencia que declara al documento como un documento XML.
Una declaracin de tipo de documento. Enlaza el documento con su DTD (definicin de tipo de documento), o el DTD puede estar incluido en la propia declaracin o ambas cosas al mismo tiempo.
Cuerpo: A diferencia del prlogo, el cuerpo no es opcional en un documento XML, el cuerpo debe contener un y solo un elemento raz, caracterstica indispensable tambin para que el documento est bien formado. Sin embargo es necesaria la adquisicin de datos para su buen funcionamiento. Elementos: Los elementos XML pueden tener contenido (ms elementos, caracteres o ambos), o bien ser elementos vacos. Atributos: Los elementos pueden tener atributos, que son una manera de incorporar caractersticas o propiedades a los elementos de un documento. Deben ir entre comillas. Por ejemplo, un elemento estudiante puede tener un atributo Mario y un atributo tipo, con valores come frutas y talento respectivamente.
Pgina 29
<Estudiante Mario="come frutas" tipo="talento">Esto es un da que Mario va paseando</Estudiante> Entidades predefinidas: Entidades para representar caracteres especiales para que, de esta forma, no sean interpretados como marcado en el procesador XML. Ejemplo: entidad predefinida: & carcter: &.
16
El constructor fundamental en un documento XML, es el elemento. Un elemento es sencillamente un par de etiquetas de inicio y finalizacin coincidentes y todo el texto que aparece entre ellas. Los documentos XML deben tener un nico elemento raz que abarque el resto de los elementos en el documento, los elementos en un documento XML deben anidarse adecuadamente. Por ejemplo: <banco><cuenta><saldo></saldo></cuenta></banco> est anidado adecuadamente, mientras que <banco><cuenta><saldo></cuenta></saldo><banco> no est adecuadamente anidado.45
Pgina 30
Desarrollo de aplicaciones con XML Se pueden establecer cuatro tipos de aplicaciones que impulsarn el desarrollo del XML:
Aplicaciones que exijan que el cliente Web medie entre dos o ms Bases de Datos. Se har posible la integracin de bases de datos distribuidas en los navegadores que admitan XML, pudindose modificar el contenido y la estructura de esta.
Aplicaciones que intentan transferir una parte significativa de la carga del proceso del servidor al cliente Web. Esta carga har que muchas de las funciones de modificacin puedan desarrollarse desde el mismo navegador Web del cliente. El lado ms negativo es que se necesitar mayor ancho de banda y mayor potencia del procesador del equipo para poder soportar esta arquitectura de tres capas.
Aplicaciones que precisen que el cliente Web presente diferentes versiones de los mismos datos a diferentes usuarios.
Aplicaciones en las que agentes Web inteligentes intentan adaptar la bsqueda de informacin a las necesidades de los usuarios individuales. Habr una interaccin entre la informacin requerida y las preferencias del usuario de la aplicacin. Con el XML vendr una segunda generacin de aplicaciones con una mayor precisin de la bsqueda. 17
Pgina 31
PRODUCTOS XML
El nmero de productos para utilizar XML con Bases de Datos est creciendo a una gran velocidad. Nuevos productos entran al mercado de forma constante. Los documentos XML pertenecen a dos categoras: "basados en datos" y "basados en documentos". Los "basados en datos" son en los que XML es usado como un transporte de datos. Estos son por ejemplo rdenes de compra, registros de pacientes y datos cientficos. Para grabar y recuperar datos en un documento "basados en datos", se necesitar una Base de datos, como puede ser una Base de Datos Relacional o una Orientada a Objetos.
Los "basados en documentos" son en los que XML es usado para representar documentos, como un manual de usuario, pginas estticas, folletos de marketing. Este ltimo tipo de documento se caracteriza por su estructura irregular. Para grabar y recuperar datos en un documento "basados en documentos", se necesita una Base de Datos de XML o un Sistema de Administracin de Contenidos. Ambos estn diseados para almacenar fragmentos del contenido, como procedimientos, captulos, y glosarios, y pueden incluir metadatos, como nombre del autor, fecha de revisin, etc.
Pgina 32
Categoras de Productos
Middleware: Software que es invocado desde nuestras aplicaciones para transferir datos entre documentos XML y Bases de Datos. Orientados a aplicaciones "basados en datos". Bases de Datos XML-Enabled: Bases de Datos que pueden transferir datos entre documentos XML y ellas mismas. Orientados principalmente para aplicaciones "basados en datos". Bases de Datos de XML Nativo: Base de Datos que almacenan XML en su forma "nativa", generalmente tanto texto indexado como alguna variante del DOM. Son tanto para aplicaciones "basados en datos" o "basados en documentos". Servidores XML: Plataforma que brinda servicio de datos (en forma de documentos XML) desde y hacia aplicaciones distribuidas, como E-Commerce y aplicaciones Business to Business. Orientados principalmente a aplicaciones "basados en datos". Servidores de Aplicaciones XML: Servidores de aplicaciones Web que brindan servicio de XML a los navegadores. Son tanto para aplicaciones "basados en datos" o "basados en documentos". Sistemas de Administracin de Contenidos: Sistemas para administrar documentos legibles e incluyen soporte para editar, controlar las versiones, crear nuevos documentos a partir de documentos existentes. Principalmente destinados a aplicaciones "basados en documentos" Motores de consulta de XML: Aplicaciones que permiten realizar consultas sobre documentos XML.
18
Pgina 33
MIDDLEWARE
Middleware es un software que asiste a una aplicacin para interactuar o comunicarse con otras aplicaciones, software, redes, hardware y/o sistemas operativos. Este simplifica el trabajo de los programadores en la compleja tarea de generar las conexiones que son necesarias en los sistemas distribuidos. De esta forma se provee una solucin que mejora la calidad de servicio, seguridad, envi de mensajes, directorio de servicio, etc. Funciona como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware abstrae de la complejidad y heterogeneidad de las redes de comunicaciones subyacentes, as como de los sistemas operativos y lenguajes de programacin, proporcionando una API para la fcil programacin y manejo de aplicaciones distribuidas. Dependiendo del problema que resolver y de las funciones necesarias, sern tiles diferentes tipo de servicios de Middleware. Por lo general el Middleware del lado cliente est implementado por el Sistema Operativo, el cual posee las bibliotecas que ejecutan todas las funcionalidades para la comunicacin a travs de la red.
19
Pgina 34
BASES DE DATOS
Una base de datos es una entidad en la cual se pueden almacenar datos de manera estructurada, con la menor redundancia posible. Diferentes programas y diferentes usuarios deben poder utilizar estos datos.
Por qu utilizar una base de datos? Una base de datos proporciona a los usuarios el acceso a datos, que pueden visualizar, ingresar o actualizar, en concordancia con los derechos de acceso que se les hayan otorgado. Se convierte ms til a medida que la cantidad de datos almacenados crece. Una base de datos puede ser local, es decir que puede utilizarla slo un usuario en un equipo, o puede ser distribuida, es decir que la informacin se almacena en equipos remotos y se puede acceder a ella a travs de una red. La principal ventaja de utilizar bases de datos es que mltiples usuarios pueden acceder a ellas al mismo tiempo.
20
Pgina 35
Borland Paradox Filemaker IBM DB2 Ingres Interbase Microsoft SQL server Microsoft Access Microsoft FoxPro Oracle Sybase MySQL PostgreSQL mSQL SQL Server 11
Pgina 36
comunicarse mediante foros o chats para hacer sugerencias, comentarios y enterarse de noticias relacionadas a la empresa, evitando as los molestos chismes.
21
MOTORES DE CONSULTA
Un motor de bsqueda se podra definir de forma muy simple, como una herramienta que basa su funcionamiento en palabras clave que tienen el objetivo de realizar bsquedas dentro de una base de datos. Los documentos que se pueden encontrar despus de realizar una bsqueda se pueden haber agrupado de forma manual o mediante un robot, que es un programa que de manera automtica atraviesa la estructura de documentos Web extrayendo un documento y a partir de ste extrayendo recursivamente todos los documentos que estn referenciados por enlaces, es por este motivo que tambin es conocido como araa (spider). El motor de bsqueda recibe la consulta/interrogacin (tambin conocida como query) del usuario, formada por una o ms palabras, realiza la consulta a la base de datos y ofrece un listado ordenado de documentos que cumplen parte o el total de los requisitos de interrogacin. El orden de los documentos ofrecidos est de acuerdo con una puntuacin (score) que asocia el programan a cada documento cuando realiza la consulta y que vara en cada caso. De esta manera, cuanto ms alta sea la puntuacin ms exacto es el resultado. 22
Pgina 38
Es un conjunto de datos integrados u orientados a un propsito u objetivo, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y est orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de esta informacin est orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos seleccionados desde las fuentes.
RIESGOS. Desactualizacin de esquemas a nuevas necesidades del negocio. Acceso no restringido a objetos de Datawarehouse. Respaldo de los datos almacenados
Pgina 39
FUNCIONAMIENTO DATAWAREHOUSE
Extrae la informacin operacional. Transforma la operacin a formatos consistentes. Automatiza las tareas de la informacin para prepararla a un anlisis eficiente.
En qu podemos usarlo?
Pgina 40
CONDENSAR: Se reducen grandes volmenes de datos que llegan, utilizando tcnicas de adicin y resumen.
DESARROLLAR CONSULTAS CON BASE EN LA ARQUITECTURA, CREAR GLOSARIO, EXAMINAR Y NAVEGAR POR LOS METADATOS: La lista de consultas y reportes diseados y predefinidos. 24
Pgina 41
Las herramientas se clasifican en cuatro categoras bsicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extraccin y Coleccin, Herramientas para Reportes de Usuario Final y Herramientas para Anlisis Inteligentes. Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Datawarehouse. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Datawarehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interface vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc. Herramientas de Anlisis Inteligente: Entre ellas estn las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Datawarehouse modelos y relaciones en los datos. Estas herramientas utilizan una tcnica conocida como Datamining o Minera de datos. 25
Pgina 42
OLAP, proviene de Online Analitical Processing (Procesamiento Analtico en Lnea), define a una tecnologa que se basa en el anlisis multidimensional de los datos y que le permite al usuario tener una visin ms rpida e interactiva de los mismos. Es una solucin utilizada en el campo de la Inteligencia de Negocios (Business Intelligence), la cual consiste en consultas a estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de Datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares. Este anlisis, tambin conocido como anlisis del hipercubo, organiza la informacin segn los parmetros que se consulten, de manera tal que a partir de estructuras multidimensionales que contienen los datos resumidos de Sistemas Transaccionales, conocidos como OLTP (Online Transactional Processing) o de grandes bases, se obtendr la informacin requerida. 26
Pgina 43
Pgina 44
Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el Datawarehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante tablas dinmicas en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un Datawarehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar. 28
Pgina 45
multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento para diferentes parmetros. Modelo Multidimensional: Modelo estilo hoja de clculo. a. Elementos Medidas: Valores de inters Dimensiones, Atributos, Propiedades Visin de Cubos: Datos representados en forma de arreglos multidimensionales. b. Visin de Relaciones: Tablas de hechos (Fact Table): Ejemplo: ventas. Tablas de dimensiones: Ejemplo: tiempo, producto, geografa. Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalizacin genera un efecto denominado copos de nieve, es preferible usar el mtodo de la estrella, donde las relaciones son ms claras. La actualizacin se hace por periodos, no en lnea. 29
Pgina 46
Un Datamart es una versin especial de almacn de datos (Datawarehouse). Como los almacenes de datos, los Datamart contienen una visin de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el anlisis de tendencias y experiencias pasadas. La diferencia principal es que la creacin de un Datamart es especfica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante. 30 Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
31
Pgina 47
1.-Construccin del Datamart: Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin.
2.- Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.
3.- Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc
4.- Construccin de los procesos de prueba: Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados. 32
Pgina 48
Pgina 49
HERRAMIENTAS FRONT-END
La Interfaz Front-End, es una aplicacin donde los usuarios interactan directamente con las funciones del sistema, cubre todas las interfaces con las cuales un usuario interacta con los sistemas, ya sean locales o remotos, sus funciones principales son: o Diseo de formatos. o Presentacin. o Lgica de la aplicacin. o Manipulacin de datos. o Herramientas de consulta. o Utileras/mens Herramientas front-end, tambin conocidas como herramientas de acceso a los datos o herramientas de presentacin: Herramientas de consulta: usan consultas predefinidas y las capacidades de informacin incorporadas para que los usuarios tenga accesos a los datos. Aplicaciones de usuarios: Muchos programas de aplicacin comunes como Microsoft Excel pueden proporcionar acceso front-end a bases de datos de apoyo. Herramientas de desarrollos de programas: Muchas instalaciones clienteservidor necesitan aplicaciones front-end especiales personalizados para sus tareas de obtencin de datos. 34
Pgina 50
Pgina 51
El diseo de bases de datos es el proceso por el que se determina la organizacin de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar
PALO Es un motor orientado a celdas, multidimensional, que est especficamente diseado para mostrar informacin desde excel, para todo tipo de anlisis. 36
Pgina 52
de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin. 37 De las mltiples definiciones ms o menos equivalentes que existen de Data Mining creemos que la hace el Instituto SAS describe con acierto la idea que subyace a este concepto. El Instituto SAS define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar
(Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. El proceso de Data Mining es por tanto aplicable a lo largo de una amplia variedad de industrias y proporciona distintas metodologas de anlisis segn el tipo de problema que queremos analizar.43 En [Witten & Frank 2000] se define la minera de datos como el proceso de extraer conocimiento til y comprensible, previamente desconocido, desde las grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la minera de datos es encontrar modelos inteligentes a partir de los datos. Para que este proceso sea efectivo debera ser automtico o semi-automtico (asistido) y el uso de los patrones descubiertos debera ayudar a tomar decisiones ms seguras que reporten, por tanto, algn beneficio a la organizacin. Por tanto, dos son los retos de la minera de datos por un lado, trabajar con grandes volmenes de datos, procedentes mayoritariamente de sistemas de informacin, con los
Pgina 53
problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos), y por el otro usar tcnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y til. En muchos casos la utilidad del conocimiento minado est ntimamente relacionada con la comprensibilidad del modelo inferido. No debemos olvidar que, generalmente, el usuario final no tiene por qu ser un experto en las tcnicas de minera de datos, ni tampoco puede perder mucho tiempo interpretando los resultados. Por ello, en muchas aplicaciones es importante hacer que la informacin descubierta sea ms comprensible por los humanos (por ejemplo, usando representaciones grficas, convirtiendo los patrones a lenguaje natural o utilizando tcnicas de visualizacin de los datos). De una manera simplista pero ambiciosa, podramos decir que el objetivo de la minera de datos es convertir datos en conocimiento.46 Tipos de datos, llegados a este punto surge una pregunta obligada, a qu tipo de datos puede aplicarse la minera de datos? En principio, sta puede aplicarse a cualquier tipo de informacin, siendo las tcnicas de minera diferentes para cada una de ellas. En esta seccin damos una breve introduccin a algunos de estos tipos. En concreto, vamos a diferenciar entre datos estructurados provenientes de bases de datos relacionales, otros tipos de datos estructurados en bases de datos (espaciales, temporales, textuales y multimedia) y datos no estructurados provenientes de la web o de otros tipos de repositorios de documentos. 46
Internet o Juegos.
Pgina 54
o Ciencia e Ingeniera. o Gentica. o Ingeniera elctrica. 38 Segn el enfoque de Csar Prez y Daniel Santn, existen innumerables problemas de Data Mining con los que nos podemos encontrar como son: o o o o o o o o o Predecir el nivel de morosidad de un cliente. Saber quines son mis clientes. Encontrar el perfil de comprador del producto A. Detectar los contribuyentes que estn cometiendo acciones fraudulentas. Encontrar el perfil del cliente que me abandonar el mes siguiente. Encontrar los sntomas de enfermedades que ms a menudo aparecen juntas. Predecir si un paciente responder adecuadamente a un tratamiento. Encontrar las caractersticas de la poblacin fumadora. Detectar alumnos en las escuelas con alto riesgo de fracaso escolar.
Es fcil comprobar ante esta lista, que en ningn caso pretende ser exhaustiva, que podamos establecer una primera clasificacin de estos problemas en: Problemas descriptivos. Problemas Predictivos.
Pgina 55
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. 39
Pgina 56
automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Algunos ejemplos de red neuronal son:
El Perceptor. El Perceptor multicapa. Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:
Pgina 57
Segn Csar Prez y Daniel Santn, las tcnicas son implementaciones especficas de los algoritmos que se utilizan para llevar a cabo las operaciones de construccin del modelo. No todos los algoritmos para resolver un determinado problema de Data Mining son iguales y cada uno de ellos tendr una serie de ventajas e inconvenientes. La conveniencia de aplicar un determinado algoritmo depende no slo del tipo de problema con el que nos estamos enfrentando sino tambin en gran medida del tipo de los datos con los que se est tratando. En este sentido conviene analizar los distintos enfoques y algoritmos que existen en la literatura, pues en la vida real nos encontramos que las herramientas comerciales ofrecen todo un abanico de posibles algoritmos y es el usuario final el que tiene que decidir cul de ellos utilizar. Con lo cual al menos que se tenga un conocimiento de estos algoritmos y una experiencia en su uso, ser muy difcil encontrar la mejor solucin de un problema determinado. Tngase en cuenta que, como se ver, los algoritmos utilizados en Data Mining provienen de otras reas de investigacin como la estadstica o la inteligencia artificial con lo que convendr analizar estos algoritmos para poder utilizarlos en el lugar apropiado y de la manera adecuada. A continuacin se numeran someramente las tcnicas de Data Mining que se pueden aplicar para resolver las operaciones de Data Mining descritas. Modelos predictivos: clasificacin: En estos modelos se utiliza aprendizaje supervisado. Se suelen utilizar rboles de decisin, regresiones logsticas y redes neuronales. Estos modelos utilizan un conjunto de datos de entrenamiento para crear el modelo, que posteriormente se utiliza para clasificar individuos desconocidos. Modelos predictivos: prediccin de valores: Para la prediccin de valores se utilizan, junto a los mtodos anteriores, la regresin lineal y regresin no lineal. Segmentacin de bases de datos: clustering no jerrquico: Se compara cada registro de la base de datos con todos los segmentos o semillas creados por la funcin de creacin de las semillas. Se mide la distancia del registro de entrada con los
Pgina 58
segmentos ya creados y se asigna el registro de entrada al segmento correspondiente. El nmero de clusters se ajustan automticamente. Mtodo de las k-medias. Segmentacin de bases de datos: clustering jerrquico: Este tipo de tcnica de Data Mining es apropiado cuando no conocemos ni tenemos informacin acerca de los grupos en los que se clasifican los clusters. Se suelen utilizar algoritmos de tipo jerrquico como los aglomerativos o divisivos. Junto a ellos se utilizan las redes neuronales basadas en aprendizaje no supervisado, como por ejemplos los mapas de Kohonen. Anlisis de relaciones: asociaciones: El objetivo de esta tcnica de Data Mining es encontrar elementos que implican la presencia de otros elementos dentro de una misma transaccin. El resultado de esta tcnica son reglas de tipo if X then Y. En las reglas, X se denomina cabeza de la regla e Y se denomina cuerpo. Uno de los algoritmos de asociacin ms utilizados es Apriori. Se basa en contar las ocurrencias de todas las posibles combinaciones de los elementos. Lo que hace es contar las ocurrencias de todos los elementos presentes en las transacciones de la base de datos y crear un vector donde cada uno de los elementos lleva una cuenta de los elementos de la base de datos. Aquellas celdas del vector cuyo valor este por debajo del nivel de soporte (umbral) se ignoran. Anlisis de relaciones: patrones secuenciales: trata de descubrir patrones entre transacciones en las que un conjunto de elementos va seguido de otro conjunto de elementos distanciados un periodo de tiempo determinado. Anlisis de relaciones: patrones en series temporales: Con esta tcnica se pretenden descubrir ocurrencias o secuencias similares a una dada en una base de datos que almacene informacin que represente una serie de temporal, como puede ser la evolucin de los precios de mercado o datos de telemetra provenientes de algn sensor, es decir, una serie temporal es un conjunto de valores de una variable en un periodo de tiempo.
La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real. 42
Pgina 60
BIBLIOGRAFA
1 http://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetos 2
http://www.tutoriales.itsa.edu.mx/TopicosAvanzadosBD/index.php?mod=definicion&ban=0
3http://sistemas.itlp.edu.mx/tutoriales/basedat1/tema7.htm 4http://www.tutoriales.itsa.edu.mx/TopicosAvanzadosBD/index.php?mod=elestandar&ban=0 5http://neysmall.iespana.es/web/ApuntesElectronicos/Unidad1/UNIDAD_1_Tema_1.1.4.html 6http://www.mitecnologico.com/Main/PersistenciaConcurrenciaRecuperacionEnBdoo 7http://www.redcientifica.com/oracle/c0001p0005.html 8http://www.mitecnologico.com/Main/CubosEHipercubosDeDatos 9http://www.mitecnologico.com/Main/EstructurasNoJerarquicasYJerarquicasDeDatos 10http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/martinez_v_lm/capitulo2.pdf 11http://www.monografias.com/trabajos/edi/edi.shtml 12http://www.mitecnologico.com/Main/EcommerceYEbussiness 13http://es.wikipedia.org/wiki/Aprendizaje_electr%C3%B3nico 14http://www.mitecnologico.com/Main/SistemasSeguridadParaDesarrollosWeb 15http://es.wikipedia.org/wiki/Extensible_Markup_Language 16http://es.wikipedia.org/wiki/Extensible_Markup_Language
17
http://www.monografias.com/trabajos7/xml/xml.shtml http://www.monografias.com/trabajos7/xml/xml.shtml
18
funciones_de_un_datawarehouse/23032-2
Pgina 61
3
29http://www.mitecnologico.com/Main/UtilizacionHerramientasParaOlap 30http://www.cavsi.com/preguntasrespuestas/category/bases-de-datos/ 31expotabd.wikispaces.com/file/view/DATA+MART.ppt 32, 33expotabd.wikispaces.com/file/view/DATA+MART.ppt 34expotabd.wikispaces.com/file/view/DATA+MART.ppt 35expotabd.wikispaces.com/file/view/DATA+MART.ppt 36expotabd.wikispaces.com/file/view/DATA+MART.ppt 37http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos 38Leonardonevarez.host56.com/archivos/MineriaDatos.ppt 39Leonardonevarez.host56.com/archivos/MineriaDatos.ppt
Prez, Daniel Santn, Data Mining Soluciones con Enterprise Miner, Alfaomega Ra-Ma. Rodrguez Zamora, Publicacin en Internet y tecnologa XML, Alfaomega Ra-Ma. Korth, Sudarshan, Fundamentos de bases de datos, McGrawHill Cuarta Edicin.
44Alonso
45Silberschatz, 46Jos
Hernndez Orallo, Ma.Jos Ramirez Quintana, Csar Ferri Ramrez, Introduccin a la Minera de Datos, PrenticeHall.
47Mario
G.Piattini, Esparza Marcos, Coral Calero, Beln Vela, Tecnologa y diseo de bases de datos, Alfaomega.
48Abiteboul,S.
et al (2003). The Lowell Database Research Self Assesment. Disponible en: http://research.microsoft.com/~gray/lowell/.
49Cattell,
Pgina 62