Sunteți pe pagina 1din 32

MARCO TEORICO 1. Introduccion Colocar todo sobre lo que va a tratar el capitulo 1.- Qu es un Sistema de Informacin? Contextualizacion???

Si se considera cualquier sistema complejo, stos dependen de una entidad abstracta denominada sistema de informacin, que es el lazo que mantiene unido a diferentes componentes en forma total ligados hacia el mismo objetivo. 1.1.- Definicin de sistema de informacin. Para el desarrollo de todo sistema de informacin es preciso definir que se entiende por sistema de informacin: Los autores Laudon y Laudon (2004) definen los sistemas de informacin como un conjunto de componentes interrelacionados que recolectan (o recuperan), procesan, almacenan y distribuyen informacin para apoyar la toma de decisiones y el control de una organizacin.[1] ParaSistema de Informacin es un conjunto de procedimientos ordenados que al ser ejecutados proporcionan informacin para la toma de decisiones y el control del sistema (organizacin).[2] Segn:Un sistema de informacin (SI) es un conjunto de elementos interrelacionados con el propsito de prestar atencin a las demandas de informacin de una organizacin, para elevar el nivel de conocimientos que permitan un mejor apoyo a la toma de decisiones y desarrollo de acciones.*3+ Tomando en cuenta las tres anteriores definiciones, para el presente proyecto se asumir la posicin de Laudon y Laundon ya que rene todos los elementos necesarios como la comprensin de lo que es un sistema de informacin. Todo sistema de informacin tiene componentes, los ms importantes son: a) Financieros. Es el aspecto econmico que permite la adquisicin, contratacin y mantenimiento de los dems recursos que integran un sistema de informacin. b) Administrativos. Es la estructura orgnica de objetivos, lineamientos, funciones, procedimientos, departamentalizacin, direccin y control de las actividades; que sustenta la creacin y uso de los sistemas. Humanos. Est compuesto por dos grupos: El tcnico, que posee los conocimientos especializados en el desarrollo de sistemas, siendo estos los: Administradores, Lderes de Proyecto, Analistas, Programadores, Operadores y Capturistas.

El usuario, representado por las personas interesadas en el manejo de informacin va cmputo, como apoyo al mejor desempeo de sus actividades, siendo estos los: Funcionarios, Contadores, Ingenieros, Empleados, Pblico, etc. Materiales. Son aquellos elementos fsicos que soportan el funcionamiento de un sistema de informacin, por ejemplo: local de trabajo, instalaciones elctricas y de aire acondicionado, medios de comunicacin, mobiliario, maquinaria, papelera, etc. Tecnolgicos. Es el conjunto de conocimientos, experiencias, metodologas y tcnicas; que orientan la creacin, operacin y mantenimiento de un sistema. Existe gran cantidad y variedad de sistemas de informacin orientados a diversos campos de la actividad humana, algunas de sus aplicaciones son las siguientes: Cientficas: control de vuelos espaciales, estudios sobre energa nuclear, etc. Militares: control y operacin de armas, sistemas de defensa, etc. De Ingeniera: diseo industrial de autos y maquinaria; control de procesos de produccin y siderrgicos, etc. Comunicaciones y Transportes: diseo de carreteras, control de trfico areo y terrestre, transmisin remota de datos, etc. Administrativas: nmina, inventarios, almacenes, contabilidad, presupuesto, ventas, etc. En la educacin. Apoyo en la enseanza, referencias bibliogrficas, etc. Mdicas: diagnstico, teraputicas, aparatos binicos, etc. Artsticas: msica, poesa, pintura, etc. Arreglar incisos Todos estos elementos se vern en el proyecto???? 2.- Qu es una Biblioteca? El bibliotecario Manuel Carrin Gtiez (1990:23) aporta la siguiente reflexin sobre el concepto de biblioteca: A pesar de la etimologa de la palabra, una biblioteca no es un mueble o un edificio para guardar libros, sino es una coleccin de libros debidamente organizada para su uso.[4] Unesco manifiesta lo siguiente: La Biblioteca Publica es un centro local de informacin que facilita a los usuarios toda clase de conocimiento e informacin, los servicios deben establecerse sobre la base de la igualdad para todas las personas sin tener cuenta su edad, raza, sexo, religin, nacionalidad, idioma o condicin social. La Biblioteca Publica debe ofrecer servicios y materiales especiales para aquellos usuarios que por una u otra razn no pueden hacer uso de los servicios y materiales ordinarios como por ejemplo: minoras lingsticas, personas con discapacidades fsicas, personas en hospitales o en prisin.

Todos los grupos de edad han de encontrar material adecuado a sus necesidades. Las colecciones y los servicios han de incluir todo tipo de soportes adecuados, tanto en modernas tecnologas como en materiales tradicionales. Ni los fondos ni los servicios han de estar sujetos a forma alguna de censuras, ideolgica, poltica o religiosa, ni a presiones comerciales.... [5] Una tercera concepcin que es la de considerar la biblioteca como un sistema de una serie de elementos interrelacionados tendentes a conseguir un fin especfico, en esta lnea esta Serrai, Berta Enciso, Shera... etc.*6+ La misin de la biblioteca es contribuir al desarrollo integral de los miembros de una comunidad determinada y a su propia identidad, con la participacin de sus miembros, actuando como puente entre la cultura acumulada y el libre acceso de dicha comunidad a la informacin, conocimiento y creacin. La visin de la biblioteca se representa como un lugar de encuentro que contribuye a elevar la calidad de vida, entregar informacin para la toma de decisiones, la cultura ciudadana y como fuente tradicional del conocimiento. La biblioteca persigue los siguientes objetivos: Educacin; propiciar el autoaprendizaje de todos los ciudadanos, desarrollar sus capacidades mentales y ampliar sus conocimientos. Informacin; ofrecer al individuo informacin que le permita la solucin de los problemas de la vida diaria y sus necesidades bsicas: salud, vivienda, alimentacin, educacin, etc. Cultura; promover las manifestaciones culturales de la comunidad a travs de todas sus formas de expresin: pintura, msica, folklore, produccin literaria, artesana, tradiciones, costumbres, etc. Recreacin; favorecer al empleo del tiempo libre del individuo y de los diferentes grupos de la comunidad de acuerdo con la edad, ocupacin e inters, proporcionndoles el material y los medios que faciliten su aprovechamiento. Las funciones que cumple una biblioteca son: Recopilar y organizar la informacin necesaria para satisfacer las necesidades de la comunidad. Organizar la informacin de tal manera que pueda recuperarse oportunamente en respuesta a una solicitud. Difundir la informacin y prestar servicios a todos los grupos de la comunidad. Estimular el uso e interpretacin de los recursos de informacin a los lectores mediante guas, publicidad, exhibiciones, listados de libros adquiridos, conferencias sobre libros, mesas redondas sobre textos y pelculas. Fomentar el hbito por la lectura en los diferentes usuarios y principalmente en los nios teniendo en cuenta que es en los primeros aos cuando se desarrollan las habilidades, intereses y hbitos de lectura. Promover y participar activamente en la realizacin de los programas culturales de la comunidad.

Coordinar con organizaciones encargadas de la alfabetizacin de adultos con el fin de apoyar su labor educativa. Es importante para el fin de este proyecto puntualizar las desventajas que presenta la biblioteca. Escasez de servicios frente a la virtual, limitndose, en general, a la consulta y lectura de documentos en sala, el prstamo a domicilio, un servicio de prstamo inter-bibliotecario limitado por la dificultad de acceso a los catlogos de otras bibliotecas, servicios de referencia y asesoramiento, etc. Limitacin en el uso debido al horario establecido en la biblioteca tradicional. Fuentes de informacin no actualizadas. Bsqueda de informacin ms tediosa, requiere de mayor tiempo para buscar la informacin en libros, revistas, etc. que se encuentren ubicadas en la biblioteca. Personal no es suficiente para satisfacer las necesidades de los usuarios. Servicios casi exclusivamente locales, determinados por la distancia geogrfica, de tal modo que el usuario accede a los fondos y servicios ofrecidos en el lugar en que reside o estudia. No requiere de destrezas de computadoras pero si de bsqueda de informacin. Grandes limitaciones a la cooperacin bibliotecario por la inexistencia de catlogos en lnea, que imposibilita la adquisicin compartida o cooperativa efectiva. 3.- Qu es una biblioteca virtual? Actualmente se estn publicando numerosos libros y artculos sobre las redes que nos explican qu es una red, cules son sus herramientas bsicas (correo electrnico, listas de discusin, listas de distribucin, buscadores y recuperadores de informacin, aplicaciones para la transferencia de datos) sus utilidades, y de los cambios sociales que estos nuevos canales estn generando desde el punto de vista educativo, encontramos tambin trabajos de reflexin sobre las aplicaciones educativas de este nuevo canal para la localizacin, acceso y recuperacin de variados tipos de informacin: grficos, imgenes, textos, documentos multimedia, desde lugares remotos y para la interaccin entre personas o grupos de personas. Aplicaciones que en general posibilitan ampliar el horizonte informativo y comunicativo de profesores y alumnos. Por ello, es importante resaltar en este trabajo la utilizacin de centros de almacenamiento de informacin. Estos centros de banco de datos, almacenamiento o de acopio informativo se denomina, Biblioteca Virtual. Se constituir en una de las principales aplicaciones educativas, a todos los niveles, tal vez sea la posibilidad de comunicacin e interaccin mediante el uso del ciberespacio (WWW), correo electrnico (e-mail) entre personas (profesores, alumnos, expertos en un tema) e instituciones que no se encuentran fsicamente en el mismo lugar, ni en las mismas coordenadas temporales.

3.1.- Definicin de biblioteca virtual Es necesario comprender la definicin de una biblioteca virtual, para lo cual se cita tres definiciones: Es aquella que hace uso de la realidad virtual para mostrar una interfaz y emular un ambiente que site al usuario dentro de una biblioteca tradicional. Hace uso de la ms alta tecnologa multimedia y puede guiar al usuario a travs de diferentes sistemas para encontrar colecciones en diferentes sitios, conectados a travs de sistemas de cmputo y telecomunicaciones *7+ (Lpez Guzmn, 2000). Es aquella que da un valor aadido a la biblioteca digital complementndola con servicios bibliotecarios y documentales, en los cuales interviene, de forma constante el elemento humano, que ayuda y complementa la accin del usuario, dndole estos servicios de forma virtual (a distancia), y que aprovecha la respuesta virtual de los usuarios para organizar la informacin y los contenidos que ste necesita, o para darle las herramientas necesarias para obtener informacin *8+ (Prez, 2000). Las bibliotecas virtuales son sistemas basados en la tecnologa web que tienen alojadas numerosas bases de datos cientficas, muchas de las cuales se hallan en texto completo *9+ (Fitzgerald y Galloway, 2001). En vista de que existe cierta ambigedad entre la concepcin de una biblioteca virtual y digital; y habiendo definido lo que es una biblioteca virtual se define a continuacin una biblioteca digital para puntualizar las diferencias que existe entre cada una de ellas. Es un repositorio de acervos y contenidos digitalizados, almacenados en diferentes formatos electrnicos por lo que el original en papel, en caso de existir, pierde supremaca. Generalmente, son bibliotecas pequeas y especializadas, con colecciones limitadas a slo algunos temas *10+ (Lpez Guzmn, 2000). 3.2.- Caractersticas de una biblioteca virtual Por medio de la realidad virtual intenta modelar un ambiente similar al existente en una biblioteca tradicional La informacin se exhibe, organiza, almacena y se pone a disposicin de los usuarios de forma digital, la Biblioteca no tiene existencia fsica. Todos los recursos estn digitalizados y almacenados, accesibles desde cualquier sitio. La distancia geogrfica se reduce. El acceso es interactivo, muy distinto del acceso al material impreso. Su concepto refleja el dinamismo de INTERNET Plataforma para proporcionar el conocimiento y el uso de las nuevas tecnologas Se renueva y se enriquece constantemente, contribuye a impulsar la educacin, la investigacin cientfica. Son sistemas abiertos y no acabados, su actualizacin es constante y dinmica.

Prevalece el servicio de consulta. Brindan servicios adicionales conocidos como de valor aadido o agregado. Analisis de las diferencias o si es lo mismo una biblioteca digital de una virtual y puntualizar claramente que se esta haciendo en el proyecto Faltan referencias bibliograficas 4.- Modelado Contextualizacion Los modelos se crean para obtener un mejor entendimiento de la entidad real que se construir. El modelo debe ser capaz de representar la informacin que el software transforma, la arquitectura y las funciones que permitan que ocurra la transformacin, las caractersticas que desean los usuarios, y el comportamiento del sistema conforme se realiza la transformacin. Los modelos deben cumplir estos objetivos en diferentes grados de abstraccin (primero al presentar el software desde el punto de vista del cliente y despus al representar el software en un nivel ms tcnico). En el trabajo de la ingeniera del software se crean dos clases de modelos: modelos de anlisis y modelos de diseo. 4.1.- Modelo de anlisis Los modelos de anlisis representan los requisitos del cliente al presentar el software en tres dominios diferentes: el dominio de la informacin, el dominio funcional y el dominio del comportamiento. *11+ El anlisis de sistemas debe cumplir con los siguientes objetivos: Identificar las necesidades del Cliente. Evaluar que conceptos tiene el cliente del sistema para establecer su viabilidad. Realizar un Anlisis Tcnico y econmico. Asignar funciones al Hardware, Software, personal, base de datos, y otros elementos del Sistema. Establecer las restricciones de presupuestos y planificacin temporal. Crear una definicin del sistema que forme el fundamento de todo el trabajo de Ingeniera. El modelado de anlisis tiene los siguientes principios: El dominio de informacin de un problema debe representarse y entenderse. El dominio de informacin lo forman los datos que fluyen hacia el sistema (a partir de los usuarios finales, otros sistemas o dispositivos externos), los datos que fluyen desde el sistema (a travs de la interfaz del usuario, interfaces de red, reportes, graficas y otros medios) y los almacenamientos de datos que se recopilan y reorganizan los objetos consistentes de informacin (los datos que se mantienen en forma permanente).

Se deben definir las funciones que ejecuta el software. Las funciones del software proporcionan un beneficio directo a los usuarios finales y tambin aporta soporte interno a aquellas caractersticas visibles para el usuario. Se debe representar el comportamiento del software (como una consecuencia de eventos externos). La entrada que proporcionan los usuarios finales, los datos de control que aporta un sistema externo o los datos de monitoreo que se recolectan a travs de una red ocasionan que el software se comporte de una manera especifica. Los modelos que presentan informacin, funcin y comportamiento deben partirse de forma que descubran el detalle de una manera estratificada (o jerrquica). El modelo de anlisis es el primer paso en la resolucin de problemas en la ingeniera del software. Esto permite entender mejor el problema y establecer una base para la solucin (diseo). La tarea del anlisis debe moverse de la informacin esencial hacia el detalle de implementacin. El modelo del anlisis comienza con la descripcin del problema desde la perspectiva del usuario final. La esencia del problema se describe sin ninguna consideracin de la forma en la que se implementara la solucin. El detalle de implementacin indica como se implementara la esencia. 4.2.- Modelo de diseo Los modelos de diseo representan caractersticas del software que ayudan a los profesionales a construirlo de manera efectiva: la arquitectura, la interfaz del usuario, y el detalle a nivel de componentes. El modelo de diseo del software es el equivalente al plano de una casa para un arquitecto. Comienza con la representacin de la totalidad del objeto que ser construido, y con lentitud lo refina para proporcionar una gua para construir cada detalle. El modelo de diseo sigue los siguientes principios: El diseo debe ser rastreable hasta el modelo de anlisis. El modelo de anlisis describe el dominio de la informacin del problema, las funciones visibles para el usuario, el comportamiento del sistema y un conjunto de clases de anlisis. El modelo de diseo traduce esta informacin a una arquitectura: un conjunto de subsistemas que implementan las funciones ms importantes y un conjunto de diseos al nivel de componentes que son la realizacin de las clases de anlisis. Siempre se debe considerar la arquitectura del sistema que se va a construir. La arquitectura del software es el esqueleto del sistema que se va a construir. Este afecta las interfaces, las estructuras de datos, el flujo y el comportamiento del control del programa, la manera en que se pueden realizar las pruebas, la facilidad de mantenimiento del sistema resultante, y mucho ms. Por estas razones, el diseo debe iniciarse con las consideraciones del diseo arquitectnico. El diseo de datos es tan importante como el diseo de funciones de procesamiento. El diseo de datos es un elemento esencial del diseo arquitectnico. Un diseo de datos bien estructurado ayuda a simplificar el flujo del programa, facilita el diseo y la implementacin de los componentes del software.

Las interfaces (internas y externas) deben disearse con cuidado. La manera en que fluyen los datos entre los componentes de un sistema tiene mucho que ver con la eficiencia del procesamiento, la propagacin del error y la simplicidad del diseo. Una interfaz bien diseada facilita la integracin y ayuda a quien realiza la prueba a validar funciones de componentes. El diseo de interfaz del usuario debe ajustarse a las necesidades del usuario final. Sin embargo, en cada caso, debe resaltarse la facilidad del uso. Sin importar que tan sofisticadas sean sus funciones internas, sin importar que tan comprensibles sean las estructuras de datos, no importante que tan bien diseada este su arquitectura, un diseo de interfaz pobre siempre conduce a la percepcin de que el software esta mal hecho. El diseo al nivel de componentes debe ser independiente del modo funcional. La independencia funcional es una medida del modo funcional. La funcionalidad que entrega un componente debe ser cohesiva; es decir, debe centrarse en una y solo una funcin o subsuncin. Los componentes deben estar apareados entre si en forma mnima y vinculados con el ambiente externo. El apareamiento se consigue de muchas maneras: va interfaz de componente, por mensajes, a travs de de datos globales. A medida que aumenta el nivel de apareamiento, la probabilidad de propagacin de error tambin aumenta y la facilidad de mantenimiento general del software disminuye Las representaciones del diseo (modelos) deben ser fcilmente comprensibles. El propsito del diseo es comunicar informacin a los profesionales que generaran cdigos, a aquellos que probaran el software, y a quienes tal vez mantengan el software en lo futuro. El diseo debe desarrollarse de manera iterativa. En cada iteracin el diseador debe buscar la mayor simplicidad. Las primeras iteraciones sirven para refinar el diseo y corregir errores, pero las iteraciones posteriores deben buscar que el diseo sea tan simple como sea posible. Faltan referencias bibliograficas 4.3.- Metodologa para el modelado Contextualizacion El avance de Internet y las comunicaciones ha provocado en los ltimos aos el nacimiento de nuevas propuestas metodolgicas para la web. Las metodologas permiten estructurar comunicar, entender, simplificar y formalizar tanto el dominio como las decisiones de diseo, as como disponer de documentacin detallada para posibles cambios del software. 4.3.1.- UWE La propuesta de Ingeniera Web basada en UML (UWE (Koch, 2000)) es una metodologa detallada para el proceso de autora de aplicaciones con una definicin exhaustiva del proceso de diseo que debe ser utilizado. Este proceso, iterativo e incremental, incluye flujos de

trabajo y puntos de control, y sus fases coinciden con las propuestas en el Proceso Unificado de Modelado. UWE est especializada en la especificacin de aplicaciones adaptativas, y por tanto hace especial hincapi en caractersticas de personalizacin, como es la definicin de un modelo de usuario o una etapa de definicin de caractersticas adaptativas de la navegacin en funcin de las preferencias, conocimiento o tareas de usuario. Otras caractersticas relevantes del proceso y mtodo de autora de UWE son el uso del paradigma orientado a objetos, su orientacin al usuario, la definicin de un meta-modelo (modelo de referencia) que da soporte al mtodo y el grado de formalismo que alcanza debido al soporte que proporciona para la definicin de restricciones sobre los modelos. Los principales de aspectos en los que se fundamenta UWE son los siguientes: Uso de una notacin estndar, para todos los modelos (UML: Lenguaje de modelado unificado). Definicin de mtodos: Definicin de los pasos para la construccin de los diferentes modelos. Especificacin de Restricciones: Se recomienda el uso de restricciones escritas (OCL: Lenguaje de restricciones de objetos) para aumentar la exactitud de los modelos. 4.3.1.1.- Fases del desarrollo Por lo que respecta al proceso de autora de la aplicacin, UWE hace un uso exclusivo de estndares reconocidos como UML y el lenguaje de especificacin de restricciones asociado OCL. Para simplificar la captura de las necesidades de las aplicaciones web, UWE propone una extensin que se utiliza a lo largo del proceso de autora. Este proceso de autora est dividido en cuatro pasos o actividades: Anlisis de Requisitos: Fija los requisitos funcionales de la aplicacin Web para reflejarlos en un modelo de casos de uso. Diseo Conceptual: Materializado en un modelo de dominio, considerando los requisitos reflejados en los casos de uso. Diseo Navegacional: Lo podemos subdividir en : Modelo del Espacio de Navegacional. Modelo de la Estructura de navegacin: Muestra la forma de navegar ante el espacio de navegacin. Diseo de Presentacin: Representa las vistas del interfaz del usuario mediante modelos estndares de interaccin UML. El modelo que propone UWE est compuesto por 6 sub-modelos: Modelo de Casos de Uso: modelo para capturar los requisitos del sistema. Modelo de Contenido: es un modelo conceptual para el desarrollo del contenido. Modelo de Usuario: es modelo de navegacin, en el cual se incluyen modelos estticos y modelos dinmicos.

Modelo de estructura: en el cual se encuentra la presentacin del sistema y el modelo de flujo. Modelo Abstracto: incluye el modelo a de interfaz de usuario y el modelo de ciclo de vida del objeto. Modelo de Adaptacin. 4.3.1.2.- Modelos de UWE Modelo de Contenido. Este modelo especifica cmo se encuentra relacionados los contenidos del sistema, es decir, define la estructura de los datos que se encuentran alojados en el sitio web. Modelo de navegacin. Este modelo indica como el sistema de pginas web del sitio esta relacionado internamente. Es decir como se enlazan los elementos de navegacin. Para ello se utilizan unidades de navegacin llamados nodos conectadas por enlaces de navegacin. Modelo de presentacin. En este modelo se representan las clases de navegacin y de procesos que pertenecen a cada pgina web. Modelo de proceso. Este modelo especifica las acciones que realiza cada clase del proceso, en este modelo se incluye: Modelo de estructura de Procesos: que define las relaciones entre las diferentes clases proceso. Modelo de Flujo de Procesos: que especifica las actividades conectadas con cada proceso. Describe los comportamientos de una clase proceso. Lo que ocurre en detalle dentro de cada una de ellas. Contextualizacion y referencias bibliograficas 5.- Implementacin Contextualizacion 5.1.- Base de datos Hoy en da hablar de Base de Datos (BD) es referirse a un activo de singular importancia en cualquier organizacin, por lo tanto, el objetivo de toda organizacin no es solo tener una Base de Datos, sino una Base de Datos correctamente diseada y administrada, de forma tal que brinde una informacin correcta para la dinmica de la organizacin, en el tiempo adecuado y a la persona conveniente. 5.1.1.- Definicin de base de datos Antes de trabajar con Base de Datos es conveniente ver el concepto a partir de una serie de definiciones de diferentes personalidades. ...Base de Datos es una coleccin de informacin que ha sido creada para satisfacer uno o mas objetivos precisos. *11+

...Base de Datos es la coleccin de datos operacionales almacenados que son usados por el sistema de aplicaciones de una determinada empresa. *12+ Coleccin o deposito de datos integrados, almacenados en soporte secundario (no voltil) y con redundancia controlada. Los datos, que han de ser compartidos por diferentes usuarios y aplicaciones, deben mantenerse independientemente de ellos, y su definicin (estructura de la base de datos) nica y almacenada junto con los datos se ha de apoyar en un modelo de datos, el cual ha de permitir captar las interrelaciones y restricciones existentes en el mundo real. Los procedimientos de actualizacin y recuperacin, comunes, y bien determinados facilitaran la seguridad del conjunto de los datos. [13] Contextualizacion y anlisis para tu propia definicion 5.1.3.-Sistema de gestin de bases de datos (DBMS - SGBD) Contextualizacion Un gestor de base de datos o sistema de gestin de base de datos (SGBD o DBMS) es un software que permite introducir, organizar y recuperar la informacin de las bases de datos; en definitiva, administrarlas. 5.1.4.- Sistema de gestin de bases de datos Relacionales (SGBDR) Un RDBMS es un Sistema Gestor de Bases de Datos Relacionales. Se trata de software capaz de producir, manipular y gestionar bases de datos de tipo relacional. Es un software que se antepone a los datos de una base de datos, de modo que cualquier acceso a los datos pasa por una peticin al RDBMS que ste gestiona a fin de realizar la operacin ms conveniente sobre esa peticin. Prcticamente es un Sistema Operativo diseado para el control del acceso a los datos. Para conseguir este control, todo RDBMS posee una serie de subsistemas que se encargan de gestionar cada servicio. Algunos de estos subsistemas son: Sistema de gestin de la memoria. Encargado de decidir que parte de la memoria se dedica a cada tarea del RDBMS. Su funcin es que haya suficiente memoria para que el RDBMS funcione eficazmente y a la vez nunca dejar menos memoria de la que necesita el Sistema Operativo para que la mquina funcione. Gestin de Entrada y Salida. Para conseguir que los accesos a los datos sean adecuados. Procesador de lenguajes. Para interpretar las instrucciones SQL (o de otros lenguajes vlidos) que los usuarios lanzan a la base de datos. Control de procesos. Gestiona los programas en ejecucin necesarios para el funcionamiento de la base de datos. Control de la red. Para gestionar las conexiones a la base de datos desde la red y evitar problemas a la base de datos en caso de desconexin.

Control de transacciones. Permite gestionar las transacciones (series de operaciones que se pueden anular o llevar a cabo al final). Contextualizacion y referencias bibliograficas 5.1.5.- Oracle Oracle es un sistema de administracin de base de datos (o RDBMS Relational Data Base Management System por las siglas en ingls), fabricado por Oracle Corporation, bsicamente una herramienta cliente/servidor para la gestin de Bases de Datos. Es un producto vendido a nivel mundial. Para desarrollar en Oracle se utiliza PL/SQL un lenguaje de 5 generacin, bastante potente para tratar y gestionar la base de datos, tambin por norma general se suele utilizar SQL. Oracle es sin duda una de las mejores bases de datos que tenemos en el mercado, es un sistema gestor de base de datos robusto, tiene muchas caractersticas que nos garantizan la seguridad e integridad de los datos; que las transacciones se ejecuten de forma correcta, sin causar inconsistencias; ayuda a administrar y almacenar grandes volmenes de datos; estabilidad, escalabilidad y es multiplataforma. Contextualizacion y referencias bibliograficas

5.1.5.1.- Caractersticas de Oracle Oracle es un sistema de administracin de base de datos (o RDBMS Relational Data Base Management System por las siglas en ingls), fabricado por Oracle Corporation, bsicamente una herramienta cliente/servidor para la gestin de Bases de Datos. Oracle es el motor de base de datos relacional ms usado a nivel mundial. Puede ejecutarse en todas las plataformas, desde una PC hasta un Servidor. Oracle soporta todas las funciones que se esperan de un servidor "serio": un lenguaje de diseo de bases de datos muy completo (PL/SQL) que permite implementar diseos "activos", con triggers y procedimientos almacenados, con una integridad referencial declarativa bastante potente. Permite el uso de particiones para la mejora de la eficiencia, de replicacin e incluso ciertas versiones admiten la administracin de bases de datos distribuidas. El software del servidor puede ejecutarse en multitud de sistemas operativos. Qu hay de los objetos de Oracle? Este sistema ha comenzado a evolucionar en esta direccin, aadiendo tipos de clases, referencias, tablas anidadas, matrices y otras estructuras de datos complejas. Es una herramienta de administracin grfica que es mucho ms intuitiva y cmoda de utilizar. Ayuda a analizar datos y efectuar recomendaciones concernientes a mejorar el rendimiento y la eficiencia en el manejo de aquellos datos que se encuentran almacenados.

Apoya en el diseo y optimizacin de modelos de datos. Asiste a los desarrolladores con sus conocimientos de SQL y de construccin de procedimientos almacenados y triggers, entre otros. Apoya en la definicin de estndares de diseo y nomenclatura de objetos. Documenta y mantiene un registro peridico de las mantenciones, actualizaciones de hardware y software, cambios en las aplicaciones y, en general, todos aquellos eventos relacionados con cambios en el entorno de utilizacin de una base de datos. Un servidor Oracle es el software que permite una administracin y desarrollo de bases de datos. Tiene tres posibilidades de ejecucin: Local o basada en host. El servidor se ejecuta en la misma mquina en la que se conectan los clientes. La versin personal de Oracle database, produce servidores de este tipo. Cliente-Servidor. Enfoque ms tpico. El servidor reside en un ordenador distinto respecto al que los usuarios van a usar para conectarse a la base de datos. Cliente-Servidor de Aplicaciones-Servidor. Los usuarios acceden a un servidor de aplicaciones (Oracle Application Server) que, a su vez, accede al servidor Oracle. Los tres elementos (cliente, servidor de aplicaciones, servidor Oracle) pueden estar en tres mquinas distintas.

Oracle permite el reguardo de informacin a travs de las copias de seguridad. Hay dos tipos de copia de seguridad: En fro. La copia se realiza tras cortar la instancia de Oracle. La copia de seguridad almacena todos los datos de la base (incluidos los archivos de control y de rehacer). En caliente. Ya que en muchos casos no se puede parar la instancia tan fcilmente (por estar 24 horas al da funcionando). En ese caso es una indicacin la que se hace a la base de datos y la copia se realiza desde el sistema operativo (copiando sin ms).

El software del sistema de bases de datos Oracle incorpora herramientas para realizar la mayora de tareas comunes en una base de datos: Oracle Universal Installer. gestor de instalaciones, controla cada nueva instalacin de software Oracle a fin de que se integren de la mejor manera posible SQL*plus. Programa cliente que permite conexin con el servidor Oracle para enviarle secuencias SQL y PL/SQL iSQL*plus. Permite conexiones al servidor Oracle con la misma finalidad que el anterior pero utilizando una navegador de Internet, lo que facilita el trabajo SQL*plus WorkSheet. Permite conexiones al servidor de Oracle, utilizando un entorno ms potente (procede del Oracle Enterprise Manager) Oracle Enterprise Manager. Entorno que permite la administracin y configuracin completa del servidor Oracle.

SQL*Loader. Permite cargar en bases de datos de Oracle informacin que procede de un archivo de texto. Necesaria para utilizar en las bases de datos de Oracle, informacin que procede de otro software. Import/Export. Para importar y exportar datos entre instancias de Oracle. De un servidor a otro por ejemplo. tambin se utiliza como herramienta de copia de seguridad. Servidor http de Oracle. Basado en el servidor Apache, permite opciones de documentacin y sobre todo la comunicacin directa a travs de iSQL*Plus con el servidor Oracle sin tener necesidad de instalar software adicional. net Manager. Permite la administracin de los servicios de red a fin de configurar las conexiones hacia instancias de Oracle. Oracle Forms. Permite crear aplicaciones visuales sobre bases de datos de Oracle Oracle Reports. Asistente para la produccin de informes Oracle Designer. Herramienta CASE de Oracle, para crear esquemas en el ordenador y que el software produzca los resultados del mismo. Oracle JDeveloper. Crea aplicaciones Java pensadas para desarrollar formularios sobre datos de Oracle. Oracle Developer Suite. Integra todos los componentes anteriores Oracle AS (Application Server). Servidor de aplicaciones de Oracle. Permite compilar aplicaciones J2EE Pro C/C++ Precompilador de C/C++ para Oracle

El servidor Oracle provee de control de accesos discrecional, es decir, acceso restringido a la informacin basado en privilegios. Oracle gestiona la seguridad de la base de datos usando: * Usuarios y esquemas de la base de datos. * Privilegios. * Roles. * Ajustes de rendimiento y cuotas. * Lmites sobre los recursos. * Auditora. Cada usuario tiene un dominio de seguridad, que determina cosas como: * Acciones (privilegios y roles) disponibles para el usuario. * Cuotas sobre tablespaces. * Lmites en los recursos del sistema. 5.2.- Programacin del sistema

Contextualizacion 5.2.1.- Entorno de desarrollo NetBeans NetBeans es un entorno de desarrollo, hecho principalmente para el lenguaje de programacin Java. Existe adems un nmero importante de mdulos para extender el NetBeans IDE. NetBeans IDE es un producto libre y gratuito sin restricciones de uso. NetBeans es un proyecto de cdigo abierto de gran xito con una gran base de usuarios, una comunidad en constante crecimiento, y con cerca de 100 socios en todo el mundo. Sun MicroSystems fund el proyecto de cdigo abierto NetBeans en junio de 2000 y contina siendo el patrocinador principal de los proyectos. La plataforma NetBeans permite que las aplicaciones sean desarrolladas a partir de un conjunto de componentes de software llamados mdulos. Un mdulo es un archivo Java que contiene clases de java escritas para interactuar con las APIs de NetBeans y un archivo especial (manifest file) que lo identifica como mdulo. Las aplicaciones construidas a partir de mdulos pueden ser extendidas agregndole nuevos mdulos. Debido a que los mdulos pueden ser desarrollados independientemente, las aplicaciones basadas en la plataforma NetBeans pueden ser extendidas fcilmente por otros desarrolladores de software. El IDE NetBeans es un IDE - una herramienta para programadores pensada para escribir, compilar, depurar y ejecutar programas. Est escrito en Java - pero puede servir para cualquier otro lenguaje de programacin. Contextualizacion y referencias bibliograficas 5.2.2.- Lenguaje de Programacin JAVA Java es toda una tecnologa orientada al desarrollo de software con el cual es posible realizar cualquier tipo de programa. Hoy en da, la tecnologa Java ha cobrado mucha importancia en el mbito de Internet gracias a su plataforma J2EE. La tecnologa Java est compuesta bsicamente por 2 elementos: el lenguaje Java y su plataforma. Con plataforma nos referimos a la mquina virtual de Java (Java Virtual Machine). Java tambin es un lenguaje de programacin. En la actualidad es un lenguaje muy extendido y cada vez cobra ms importancia tanto en el mbito de Internet como en la informtica en general. Est desarrollado por la compaa Sun Microsystems con gran dedicacin y siempre enfocado a cubrir las necesidades tecnolgicas ms punteras. 5.2.2.1.- Caractersticas del lenguaje Java Potente Orientacin a objetos Java fue diseado como un lenguaje orientado a objetos desde el principio. Los objetos agrupan en estructuras encapsuladas tanto sus datos como los mtodos (o funciones) que manipulan esos datos. La tendencia del futuro, a la que Java se suma, apunta hacia la

programacin orientada a objetos, especialmente en entornos cada vez ms complejos y basados en red. En Java el concepto de objeto resulta sencillo y fcil de ampliar. Adems se conservan elementos "no objetos", como nmeros, caracteres y otros tipos de datos simples. Riqueza semntica Pese a su simpleza se ha conseguido un considerable potencial, y aunque cada tarea se puede realizar de un nmero reducido de formas, se ha conseguido un gran potencial de expresin e innovacin desde el punto de vista del programador. Robusto Java verifica su cdigo al mismo tiempo que lo escribe, y una vez ms antes de ejecutarse, de manera que se consigue un alto margen de codificacin sin errores. Se realiza un descubrimiento de la mayor parte de los errores durante el tiempo de compilacin, ya que Java es estricto en cuanto a tipos y declaraciones, y as lo que es rigidez y falta de flexibilidad se convierte en eficacia. Respecto a la gestin de memoria, Java libera al programador del compromiso de tener que controlar especialmente la asignacin que de sta hace a sus necesidades especficas. Este lenguaje posee una gestin avanzada de memoria llamada gestin de basura, y un manejo de excepciones orientado a objetos integrados. Estos elementos realizarn muchas tareas antes tediosas a la vez que obligadas para el programador. Modelo de objeto rico Existen varias clases que contienen las abstracciones bsicas para facilitar a los programas una gran capacidad de representacin. Para ello se contar con un conjunto de clases comunes que pueden crecer para admitir todas las necesidades del programador. Adems la biblioteca de clases de Java proporciona un conjunto nico de protocolos de Internet. El conjunto de clases ms complicado de Java son sus paquetes grficos AWT (Abstract Window Toolkit) y Swing. Estos paquetes implementan componentes de una interfaz de usuario grfica bsica comn a todos los ordenadores personales modernos. Lenguaje simple Fcil aprendizaje El nico requerimiento para aprender Java es tener una comprensin de los conceptos bsicos de la programacin orientada a objetos. As se ha creado un lenguaje simple (aunque eficaz y expresivo) pudiendo mostrarse cualquier planteamiento por parte del programador sin que las interioridades del sistema subyacente sean expuestas. Java es ms complejo que un lenguaje simple, pero ms sencillo que cualquier otro entorno de programacin. El nico obstculo que se puede presentar es conseguir comprender la programacin orientada a objetos, aspecto que, al ser independiente del lenguaje, se presenta como insalvable.

Completado con utilidades El paquete de utilidades de Java viene con un conjunto completo de estructuras de datos complejas y sus mtodos asociados, que son de inestimable ayuda para implementar applets y otras aplicaciones ms complejas. Se dispone tambin de estructuras de datos habituales, como pilas y tablas hash, como clases ya implementadas. Existe una interfaz Observer/Observable que permite la implementacin simple de objetos dinmicos cuyo estado se visualiza en pantalla. El JDK (Java Development Kit) suministrado por Sun Microsystems incluye un compilador, un intrprete de aplicaciones, un depurador en lnea de comandos, y un visualizador de applets entre otros elementos. Interactivo y orientado a red Interactivo y animado Uno de los requisitos de Java desde sus inicios fue la posibilidad de crear programas en red interactivos, por lo que es capaz de hacer varias cosas a la vez sin perder rastro de lo que debera suceder y cundo. Para esto se da soporte a la utilizacin de mltiples hilos de programacin (multithread). Las aplicaciones de Java permiten situar figuras animadas en las pginas Web, y stas pueden concebirse con logotipos animados o con texto que se desplace por la pantalla. Tambin pueden tratarse grficos generados por algn proceso. Estas animaciones pueden ser interactivas, permitiendo al usuario un control sobre su apariencia. Arquitectura neutral Java est diseado para que un programa escrito en este lenguaje sea ejecutado correctamente independientemente de la plataforma en la que se est actuando (Macintosh, PC, UNIX). Para conseguir esto utiliza una compilacin en una representacin intermedia que recibe el nombre de cdigos de byte, que pueden interpretarse en cualquier sistema operativo con un intrprete de Java. La desventaja de un sistema de este tipo es el rendimiento; sin embargo, el hecho de que Java fuese diseado para funcionar razonablemente bien en microprocesadores de escasa potencia, unido a la sencillez de traduccin a cdigo mquina hacen que Java supere esa desventaja sin problemas. Trabajo en red Java anima las pginas Web y hace posible la incorporacin de aplicaciones interactivas y especializadas. Aporta la posibilidad de distribuir contenidos ejecutables, de manera que los suministradores de informacin de la Web pueden crear una pgina de hipertexto (pgina Web) con una interaccin continuada y compleja en tiempo real; el contenido ejecutable es transferido literalmente al ordenador del usuario. Los protocolos bsicos para trabajar en Internet estn encapsulados en unas cuantas clases simples. Se incluyen implementaciones ampliables de los protocolos FTP, HTTP, NNTP y SMTP

junto con conectores de red de bajo nivel e interfaces de nombrado. Esto le permite interactuar con esos servicios de red poderosos sin tener que comprender realmente los detalles de bajo nivel de esos protocolos. Este lenguaje est diseado para cumplir los requisitos de entrega de contenidos interactivos mediante el uso de applets insertados en sus pginas HTML. Adems, las clases de Java admiten muy bien estos protocolos y formatos. El envo de las clases de Java a travs de Internet se realiza con gran facilidad, ya que existe una interfaz unificada, resolviendo as los tpicos problemas de diferencia de versiones. Java proporciona un conjunto de clases para tratar con una abstraccin de los conectores de red (sockets) originales de la versin UNIX de Berckley, encapsular la nocin de una direccin de Internet o conectar sockets con flujos de datos de Entrada/Salida. Con todas estas posibilidades aumenta el dinamismo y competitividad de la Web, puesto que es capaz de captar el inters del usuario durante largo tiempo y permite a los programadores convertir la Web en un sistema de entrega de software. Applets Una applet (miniaplicacin) es un pequeo programa en Java transferido dinmicamente a travs de Internet. Presentan un comportamiento inteligente, pudiendo reaccionar a la entrada de un usuario y cambiar de forma dinmica. Sin embargo, la verdadera novedad es el gran potencial que Java proporciona en este aspecto, haciendo posible que los programadores ejerzan un control sobre los programas ejecutables de Java que no es posible encontrar en otros lenguajes. Otras Caractersticas Seguridad Existe una preocupacin lgica en Internet por el tema de la seguridad: virus, caballos de Troya, y programas similares navegan de forma usual por la red, constituyendo una amenaza palpable. Java ha sido diseado poniendo un nfasis especial en el tema de la seguridad, y se ha conseguido lograr cierta inmunidad en el aspecto de que un programa realizado en Java no puede realizar llamadas a funciones globales ni acceder a recursos arbitrarios del sistema, por lo que el control sobre los programas ejecutables no es comparable a otros lenguajes. Los niveles de seguridad que presenta son: Fuertes restricciones al acceso a memoria, como son la eliminacin de punteros aritmticos y de operadores ilegales de transmisin. Rutina de verificacin de los cdigos de byte que asegura que no se viole ninguna construccin del lenguaje. Verificacin del nombre de clase y de restricciones de acceso durante la carga. Sistema de seguridad de la interfaz que refuerza las medidas de seguridad en muchos niveles.

Lenguaje basado en C++

Java fue desarrollado basndose en C++, pero eliminando rasgos del mismo poco empleados, optndose por una codificacin comprensible. Bsicamente, encontramos las siguientes diferencias con C++: Java no soporta los tipos struct, union ni punteros. No soporta typedef ni #define. Se distingue por su forma de manejar ciertos operadores y no permite una sobrecarga de operadores. No soporta herencia mltiple. Java maneja argumentos en la lnea de comandos de forma diversa a como lo hacen C o C++. Tiene una clase String que es parte del paquete java.lang y se diferencia de la matriz de caracteres terminada con un nulo que usan C y C++. Java cuenta con un sistema automtico para asignar y liberar memoria, con lo que no es necesario utilizar las funciones previstas con este fin en C y C++.

Gestin de la Entrada/Salida En lugar de utilizar primitivas como las de C para trabajar con ficheros, se utlizan primitivas similares a las de C++, mucho ms elegantes, que permiten tratar los ficheros, sockets, teclado y monitor como flujos de datos. De este modo se pueden utilizar dichas primitivas para cualquier operacin de Entrada/Salida. Diferentes tipos de aplicaciones En Java podemos crear los siguientes tipos de aplicaciones: Aplicaciones: Se ejecutan sin necesidad de un navegador. Applets: Se pueden descargar de Internet y se observan en un navegador. JavaBeans: Componentes software Java, que se puedan incorporar grficamente a otros componentes. JavaScript: Conjunto del lenguaje Java que puede codificarse directamente sobre cualquier documento HTML Servlets: Mdulos que permiten sustituir o utilizar el lenguaje Java en lugar de programas CGI (Common Gateway Interface) a la hora de dotar de interactividad a las pginas Web. Resumir, Contextualizacion y referencias bibliograficas

5.2.3.- Bsquedas y recuperacin de la informacin Contextualizar Modelos de recuperacin.

Modelo Booleano El modelo Boleano, es un modelo de recuperacin simple basado en la teora fija y lgebra de Boolean, este modelo proporciona un grupo de trabajo que es fcil de usar por un usuario comn de un sistema de IR. Adems, las llamadas se especifican como expresiones de Boolean que tienen la semntica precisa. Dado su simplicidad inherente y formalismo, el modelo de Boolean recibi la gran atencin y se adopt por muchos de los sistemas bibliogrficos comerciales. De este modelo se pueden destacar los siguientes puntos: -La relevancia es binaria: un documento es relevante o no lo es. -Consultas de una palabra: un documento es relevante si contiene la palabra. -Consultas AND: Los documentos deben contener todas las palabras. -Consultas OR: Los documentos deben contener alguna palabra. -Consultas A BUTNOT B: Los documentos los documentos deben ser relevantes para A pero no para B. -Es el modelo ms primitivo, sin embargo es el ms popular. Por qu es malo? No discrimina entre documentos ms y menos relevantes. Da lo mismo que un documento contenga una o cien veces las palabras de consulta. Da lo mismo que cumpla una o todas las clusulas de un OR. No permite ordenar los resultados. Puede resultar confuso Por qu es popular? Es una de los primeros modelos que se implemento y muchos de los primeros sistemas de IR se basaron en l. La idea suele ser comn entre los usuarios que la estn usando. Es la opcin favorita para insertar texto en un RDBMS. Es simple de formalizar y eficiente de implementar. En algunos casos (usuarios expertos) puede ser adecuado. Puede ser til en combinacin con otro modelo. Modelo Probabilstico

Este modelo fue introducido en 112.6 por Roberston y Spark Jones y despus se conoci como el modelo de la recuperacin de independencia binario. La idea fundamental es, dada una pregunta del usuario, se encuentra un conjunto de documentos que contienen los datos pertinentes, a este conjunto se le conoce como conjunto de la respuesta ideal. El modelo slo asume que esta probabilidad de relevancia depende de la pregunta y las representaciones del documento, que en este caso el usuario haga. Ventajas: Se alinean los documentos en orden decreciente de su probabilidad de ser pertinentes (referenciados). Desventajas: La necesidad de suponer la separacin inicial de documentos en los conjuntos pertinentes y no pertinentes. No se toma en cuenta la frecuencia de un trmino del ndice ocurre dentro de un documento. Que adopta la independencia para las condiciones del ndice. Caractersticas Se presupone que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada. Para cada documento, se intenta evaluar la probabilidad de que el usuario lo considere relevante. La relevancia de un documento se calcula como: P (d relevante para q)/ P(d no relevante para q) Donde q es una pregunta del usuario y d los campos de cada documento. Por qu es poco popular? Se debe comenzar adivinando y luego refinar esa apuesta iterativamente. El modelo ve cada documento como un conjunto de trminos. Necesita presuponer que los trminos son independientes. Existen estudios que muestra que es inferior al modelo vectorial y casi todos los cientficos lo consideran inferior. Modelo de Espacios Vectoriales

Es el modelo ms popular hoy en da ya que permite discriminar correctamente entre documentos. Tomar en cuenta: tf (term frequency): la frecuencia de un trmino en un cada documento. maxtf (max term frequency): de un trmino entre todos los documentos. f (frequency): es la normalizacin de la frecuencia, tf/maxtf. idf = log (N/ni) Frecuencia inversa. N-nmero de documentos en la coleccin, ni-nmero de documentos donde aparece un trmino. w = f x idf, el peso de un trmino en un documento. Proceso Se selecciona un conjunto de palabras tiles para discriminar (trminos o keywords). Se puede enriquecer esto con un proceso de lematizacin (o stemming), etiquetado, e identificacin de frases. En los sistemas modernos, toda palabra del texto es un trmino, excepto posiblemente las stopwords o palabras vacas. Si un trmino aparece mucho en un documento, se supone que es importante en ese documento (tf crece). Pero si aparece un muchos documentos, entonces no es til para distinguir ningn documento de los otros (idf decrece). Adems normalizamos los mdulos de los vectores para no favorecer documentos ms largos. Lo que se intenta medir es cuanto ayuda ese trmino a distinguir ese documento de los dems. La similaridad es un valor entre cero y uno. Notar que dos documentos iguales tienen similaridad 1, y ortogonal (si no comparten trminos) tienen similaridad cero. En particular, una consulta se puede ver como un documento (formado por esas palabras) y por lo tanto como un vector. El modelo es ms general, y permite cosas como: -Que la consulta sea un documento. -Hacer clustering de documentos similares. -Relevance feedback ("more like this").

Este modelo es utilizado por la herramienta Lucene para la indexacin y bsqueda de documentos. 5.2.4.- Lucene Lucene es una novedosa herramienta que permite tanto la indexacin cmo la bsqueda de documentos. Creada bajo una metodologa orientada a objetos e implementada completamente en Java, no se trata de una aplicacin que pueda ser descargada, instalada y ejecutada sino de una API flexible, muy potente y realmente fcil de utilizar, a travs de la cual se pueden aadir, con pocos esfuerzos de programacin, capacidades de indexacin y bsqueda a cualquier sistema que se est desarrollando. Originalmente escrita por Doug Cutting, en Septiembre de 2001 pas a formar parte de la familia de cdigo abierto de la fundacin Jakarta. Existen otras herramientas, a parte de Lucene, que permiten realizar la indexacin y bsqueda de documentos pero dichas herramientas han sido optimizadas para usos concretos, lo que implica que el intentar adaptar dichas herramientas a un proyecto especfico sea una tarea realmente difcil. La idea que engloba Lucene es completamente diferente, ya que su principal ventaja es su flexibilidad, que permite su utilizacin en cualquier sistema que lleve a cabo procesos de indexacin. 5.2.4.1.- Caractersticas de Lucene A continuacin se detallan algunas caractersticas que hacen de Lucene una herramienta flexible y adaptable:

Indexacin incremental vs indexacin por lotes. El trmino de indexacin por lotes se utiliza para referirse a aquellosprocesos de indexacin, en los cuales, una vez que ha sido creado el ndice para un conjunto de documentos, el intentar aadir algunos documentos nuevos es una tarea difcil por lo que se opta por reindexar todos los documentos de nuevo. Sin embargo en la indexacin incremental se pueden aadir documentos a un ndice ya creado con anterioridad de forma fcil. Lucene soporta ambos tipos de indexacin. Origen de datos. Muchas herramientas de indexacin slo permiten indexar ficheros o pginas web, lo que supone un serio inconveniente cuando se tiene que indexar contenido almacenado en una base de datos. Lucene permite indexar tanto documentos y pginas web como el contenido procedente de una base de datos. Contenido Etiquetado.

Algunas herramientas, tratan los documentos como simples flujos de palabras. Pero otras como Lucene permiten dividir el contenido de los documentos en campos y as poder realizar consultas con un mayor contenido semntico. Esto es, se pueden buscar trminos en los distintos campos del documento concedindole ms importancia segn el campo en el que aparezca. Por ejemplo, si se dividen los documentos en dos campos, ttulo y contenido, puede concederse mayor importancia a aquellos documentos que contengan los trminos de la bsqueda en el campo ttulo. Tcnica de indexacin. Existen palabras tales como a, unos, el, laetc. que aaden poco significado al ndice, son palabras poco representativas del documento. Al eliminar estas palabras del ndice se reduce considerablemente el tamao del mismo as como el tiempo de indexacin. Estas palabras estn contenidas en lo que se denomina lista de parada, que es la tcnica de indexacin contemplada por Lucene. Concurrencia. Lucene gestiona que varios usuarios puedan buscar en el ndice de forma simultnea as como tambin que un usuario modifique el ndice al mismo tiempo que otro lo consulta. Eleccin del idioma Tal y como ya se indic con anterioridad Lucene trabaja con listas de parada, las cuales son proporcionadas por el desarrollador que est utilizando Lucene, esto permite escoger el idioma a utilizar.

5.2.4.2.- Funcionalidad Bsica Lucene es una herramienta que permite tanto la indexacin cmo la bsqueda de documentos. A continuacin, y puesto que indexacin y bsqueda son dos operaciones muy generales, que abarcan multitud de aspectos, se trata en detalle cada una de ellas. Concepto de indizacin Cuando se requiere hacer uso de bsquedas dentro de una aplicacin, se viene a la mente crear un programa que haga esto, es decir, que busque en todos los archivos palabras o frases relacionadas, esto tendra fallas en el caso de archivos muy grandes. Por eso es importante crear los ndices, transformar el texto en un formato donde la bsqueda sea ms rpida, eliminando el proceso de exploracin lento. Este proceso de conversin es llamado indizacin y al archivo resultante se le llama ndice. Un ndice separa las palabras del documento en campos y permite el acceso rpido a los datos que fueron almacenados en el proceso de indizado.

La creacin de un ndice constituye el punto de partida para el trabajo con Lucene, puesto que una vez que ha sido creado, se irn aadiendo todos aquellos documentos susceptibles de ser indexados. Clases bsicas en la indizacin Las clases que se muestran a continuacin son las principales durante el proceso de indizacin, para ello se definen cada una de ellas y el uso que tienen en Lucene. IndexWriter Directory Analyzer Document Field IndexWriter Es el componente central del proceso de indizacin. Esta clase crea ndices y agrega documentos a uno ya existente. IndexWriter es un objeto que permite acceder al ndice pero no leer o buscar en el. Directory La clase Directory representa la ubicacin de un ndice en Lucene. Esta a su vez utiliza subclases FSDirectory para guardar los ndices en el sistema de archivos. Esta es la clase que ms se usa para el almacenamiento de ndices. La clase IndexWriter hace uso de FSDirectory cuando necesita recibir como parmetro el directorio donde se almacenarn los ndices. Otra subclase llamada RAMDirectory, a diferencia de FSDirectory, esta se usa para almacenar los ndices en memoria es recomendable cuando se crean ndices pequeos o si se realizan pruebas de indizacin o bsqueda. Analyzer Antes de indizar un documento este pasa por la clase Analyzer. Esta clase elimina del documento palabras que no ayudan o distinguen un documento de otro como l, la, en, una, entre otras. Tambin convierte en las palabras a minsculas para que las bsquedas sean ms exactas. Document Una clase Document representa una coleccin de campos. El documento a indizar es separado en campos o en metadatos como son el titulo del documento, fecha de modificacin, autor, entre otras. Estos se guardan en archivos diferentes cuando se indizan. Cuando se hace referencia a un documento se refiere a todo archivo que contenga texto como HTML, PDF, XML, entre otros.

Field Cada documento contiene uno o ms campos, en Lucene existen 4 mtodos Field diferentes: 1. Keyword: Se almacena y se indiza tal cual, no se analiza, se utiliza para los campos que necesitan guardarse en el ndice sin modificaciones como el nmero de seguridad social, los sitios de internet, directorio donde se encuentra el documento, entre otras. 2. UnIndexed: Se almacena pero nunca se usa en las bsquedas, como las llaves primarias en una base de datos. 3. Text: el valor se analiza e indiza, el valor original tambin se almacena. 4. UnStored: Es la opuesta a UnIndexed. Se analiza e indiza, se utiliza para todos los documentos de texto o sitios web donde solo se requiera guardar titulo y contenido. Concepto de bsqueda La bsqueda es el proceso de entrar al ndice y buscar palabras relacionadas, para encontrar documentos donde aparezca. Es importante para la bsqueda tomar en cuenta dos factores: la destitucin y la precisin. La destitucin se encarga de indicar que documentos son relevantes a la bsqueda mientras que la precisin se encarga del filtrado de los datos. La bsqueda de documentos constituye la funcionalidad principal proporcionada por Lucene. Para ello aporta mltiples clases y mtodos para la representacin de consultas y para buscar en el ndice aquellos documentos que son relevantes y cumplen con los criterios de la bsqueda. Clases bsicas para la bsqueda Para llevar a cabo una bsqueda con Lucene es importante familiarizarse con las siguientes clases: IndexSearcher Term Query TermQuery Hits IndexSearcher IndexSearcher es en la bsqueda lo que IndexWriter es en la indizacin. Es la clase principal que abre el ndice para buscar en el, ofrece varios mtodos de bsqueda, lo que hace esta clase es pasar como parmetro la query y regresar un objeto hits. Term

Un trmino es la unidad bsica para la bsqueda. Similar al objeto Field, consiste de un par de elementos: el nombre del campo y su valor. Por ejemplo en la siguiente Query Lucene tiene diferentes subclases de Query, la ms utilizada es TermQuery por los mtodos que ella contiene. TermQuey Es el tipo de Query mas bsico soportada por Lucene, se utiliza para hacer coincidir documentos que tienen valores especficos. Hits La clase Hits almacena los puntos de referencia a los resultados de la bsqueda, es decir todos los documentos encontrados que se relacionan con la Query. 5.2.4.3.- Comparacin de Lucene con Lmur, Terrier y Xapian Lucene es multiplataforma, al igual que Lemur, las dems tecnologas no. Terrier y Lucene son implementados en Java, Lemur y Xapian en C++, aunque todas tienen soporte para otros lenguajes de programacin. Todas indizan diferentes formatos de texto como: PDF, WORD, HTML, HTM, TXT, XML, RTF, entre otras. Lucene permite Stemming para varios idiomas, las dems tecnologas tambin. Lucene permite bsqueda mientras se actualiza el ndice, lo que otras tecnologas no hacen. Lemur y Lucene permiten la indizacin incremental, Xapian y Terrier no. Todas trabajan con modelos probabilsticos, excepto Lucene que trabaja con el modelo de espacio vectorial. Todas las tecnologas son OpenSource (Software Libre). Mas adelante y seria bueno un anlisis de las ventajas y desventajas de cada uno de ellos en una tabla Falta contextualizar y referencias bibliogrficas adems de no poner muchos subpuntos sino mas bien enlazar las ideas con prrafos de relacion 5.2.5.- Metadatos

Contextualizacion Desde hace ya varios aos y a raz de la popularizacin de Internet, y sobre todo de su coleccin distribuida de recursos multimedia (World-Wide Web), la cantidad de informacin disponible en la red creci desmesuradamente. Esto hizo que la gestin, mantenimiento y, lo que aqu se trata, la recuperacin de informacin se convirtiese en un problema difcil de resolver para los gestores de la informacin y para el usuario de informacin electrnica.

Para evitar tal problema se impulsaron diferentes soluciones para mejorar la recuperacin de informacin en Internet. Una de esas soluciones fue el desarrollo de modelos de metadatos, estructuras de base para describir distintos objetos de informacin distribuidos en la web, de tal forma que la bsqueda basada en esos metadatos disminuyese el problema de la recuperacin de informacin. 5.2.5.1.- Definicin de metadatos Segn Eva Mndez y Los A. Senso se entiende por metadatos: toda aquella informacin descriptiva sobre el contexto, calidad, condicin o caractersticas de un recurso, dato u objeto que tiene la finalidad de facilitar su recuperacin, autentificacin, evaluacin, preservacin y/o interoperabilidad. Son datos que describen otros datos, es decir, informacin relativa a los propios datos que facilitan su catalogacin y adems proporcionan informacin semntica asociada. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso. El concepto de metadatos es anlogo al uso de ndices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, ttulos, casas editoriales y lugares para buscar libros. As, los metadatos ayudan a ubicar datos. 3 definiciones y referencias??? 5.2.5.2.- Uso de los Metadatos Los metadatos se utilizan en mbitos muy diversos: bases de datos relacionales, aplicaciones data - warehouse, sistemas de ficheros, etc. La posibilidad de definir cmo es la informacin contenida en un lugar, hace de los metadatos una herramienta de amplio espectro. Los metadatos aaden semntica al cdigo de las pginas, lo cual puede ayudar a los motores de bsqueda, indexadores, etc. a encontrar aquello que se est buscando. El uso de lenguajes para la definicin de metadatos estandarizados, tales como XML RDF permiten el intercambio de informacin entre diferentes mquinas, con diferentes sistemas operativos, favoreciendo as la recuperacin. Nacen con este propsito diferentes estndares como Dublin Core Metadata Initiative que pretenden definir una serie de vocabularios de metadatos para describir recursos. De esta forma se puede crear un lenguaje estandarizado que defina recursos de forma internacional. Esto facilita el acceso y la recuperacin de informacin. En una biblioteca virtual, para asegurar el acceso universal a esa informacin, estos deben ser gestionados por un software, que permita su ubicacin coherente dentro de la Web y que facilite su recuperacin a travs de una descripcin estandarizada por medio de metadatos asociados a cada objeto digital. Una biblioteca virtual sin metadatos descriptivos, es como una biblioteca tradicional sin catlogo 5.2.5.3.- Clasificacin de los Metadatos Segn la funcin que proporcionan, se pueden clasificar en:

Metadatos Administrativos: se refieren a las caractersticas y propiedades del recurso, facilitando la gestin y procesamiento tecnolgico y fsico de las colecciones y el control de calidad, gestin de derechos, control de acceso y utilizacin, y condiciones de preservacin. Incluyen datos tcnicos como tipo y modelo de escner, resolucin, profundidad de bit, espacio de color, formato de archivo, compresin, fuente de luz, propietario, fecha de registro. Metadatos estructurales: proporcionan informacin sobre la estructura interna de los recursos electrnicos, como pgina, seccin, captulo, partes, ndices, tabla de contenido, etc. Y describen la relacin entre los materiales. Facilitan la navegacin y presentacin de los recursos y relacionan las diferentes partes que lo componen. Metadatos Descriptivos: se utilizan para la descripcin e identificacin de la informacin contenida en el recurso. Contienen atributos fsicos (medios, condicin de las dimensiones) y atributos bibliogrficos (ttulo, autor/creador, idioma, palabras, claves). Todos estos tipos de metadatos conviven con el objeto digital y existen diferentes modelos para cada uno. Los administrativos y estructurales en su mayora son gestionados automticamente por el software, cuando se crea el recurso. Los metadatos descriptivos son ingresados por el catalogador. 5.2.6.- Estndar Dubln Core La iniciativa de Metadatos de Dublin Core (DCMI), llamada tambin Dublin Core, es una organizacin dedicada a fomentar la adopcin extensa de los estndares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos que permitan sistemas ms inteligentes del descubrimiento del recurso. Se cre en 1995 con el propsito de crear estndares que facilitaran la descripcin y recuperacin de recursos de informacin. Se cre un conjunto de descriptores que hoy en da es el ms extendido en la Web. Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar un documento. Si este estndar se usara mundialmente, se conseguira que todas las aplicaciones automticas que intentan indexar la informacin de Internet, como los buscadores, tendran toda la informacin necesaria para manipular los documentos en su propia cabecera, facilitando su indizacin y provocando una mejora de eficiencia de los motores de bsqueda. Convirtindose en la norma ISO 15836/2003 en febrero de 2003. 5.2.6.1.- Caractersticas Dublin Core es un sistema de 15 definiciones semnticas descriptivas que pretenden transmitir un significado semntico a las mismas. Cada definicin es opcional, puede repetirse y aparecer en cualquier orden. Este sistema de definiciones fue diseado especficamente para proporcionar un vocabulario de caractersticas "base", capaces de proporcionar la informacin descriptiva bsica sobre cualquier recurso, sin que importe el formato de origen, el rea de especializacin o el origen cultural.

Los elementos de Dublin Core pueden clasificarse en tres categoras segn el tipo de informacin que contengan: Sobre el contenido del recurso 1. Ttulo Etiqueta: DC.Title. El nombre dado a un recurso, usualmente por el autor. 2. Claves

Etiqueta: DC.Subject Los tpicos del recurso. Tpicamente, Subject expresar las claves o frases que describen el ttulo o el contenido del recurso. 3. Descripcin

Etiqueta: DC.Description Una descripcin textual del recurso, tal como un resumen en el caso de un documento o una descripcin del contenido en el caso de un documento visual. 4. Fuente

Etiqueta: DC.Source Secuencia de caracteres utilizado para identificar unvocamente un trabajo a partir del cual proviene el recurso actual. Por ejemplo, es posible usar Source con la fecha de 1603 como descripcin de una pelcula basada en una obra de Shakespeare, pero es preferible, en ese caso, usar Relation IsBasedOn con una referencia a un recurso distinto cuya descripcin contenga el elemento Date con valor 1603. 5. Lengua Etiqueta: DC.Language Lengua/s del contenido intelectual del recurso. Prcticamente el contenido de este campo debera coincidir con los de la RFC 1766 (Tags para la identificacin de lenguas, por ejemplo: en, es, de, fi, ja y zh. 6. Relacin Etiqueta: DC.Relation Un identificador de un segundo recurso y su relacin con el recurso actual. Este elemento permite enlazar los recursos relacionados y las descripciones de los recursos. 7. Cobertura Etiqueta: DC.Coverage

La caracterstica de cobertura espacial y/o temporal del contenido intelectual del recurso. La cobertura espacial se refiere a una regin fsica ; uso de coordenadas (por ejemplo, longitud y latitud) o nombres de lugares extrados de una lista controlada. La cobertura temporal se refiere al contenido del recurso en vez de a cuando fue creado o puesto accesible ya que este ltimo pertenece al elemento Date. Sobre la propiedad intelectual del recurso 8. Autor o Creador Etiqueta: DC.Creator La persona u organizacin responsable de la creacin del contenido intelectual del recurso. Por ejemplo, los autores en el caso de documentos escritos, artistas, fotgrafos e ilustradores en el caso de recursos visuales. 9. Editor

Etiqueta: DC.Publisher La entidad responsable de hacer que el recurso se encuentre disponible en la red en su formato actual, por ejemplo la empresa editora, un departamento universitario u otro tipo de organizacin. 10. Otros Colaboradores Etiqueta: DC.Contributor Una persona u organizacin que haya tenido una contribucin intelectual significativa en la creacin del recurso pero cuyas contribuciones son secundarias en comparacin a las de las personas u organizaciones especificadas en el elemento Creator (por ejemplo, editor, ilustrador y traductor).

11. Derechos Etiqueta: DC.Rights Una referencia (URL, por ejemplo) para una nota sobre derechos de autor, para un servicio de gestin de derechos o para un servicio que dar informacin sobre trminos y condiciones de acceso a un recurso, como por ejemplo el copyrigth. Sobre la instancia del recurso 12. Fecha Etiqueta: DC.Date

Una fecha en la que el recurso se puso a disposicin del usuario en su forma actual. Esta fecha no ha de confundirse con la que pertenece al elemento Coverage, que sera asociada con el recurso slo en la medida en que el contenido intelectual est de algn modo relacionado con esa fecha. 13. Tipo del Recurso Etiqueta: DC.Type La categora del recurso, por ejemplo pgina personal, romance, poema, minuta, diccionario. 14. Formato Etiqueta: DC.Format El formato de datos de un recurso, usado para identificar el software y posiblemente, el hardware que se necesitara para mostrar el recurso. 15. Identificador del Recurso Etiqueta: DC.Identifier Secuencia de caracteres usados para identificar unvocamente un recurso. Ejemplos para recursos en lnea pueden ser URLs y URNs (cuando estn implementados). Para otros recursos pueden ser usados otros formatos de identificadores, como por ejemplo ISBN (International Standard Book Number Nmero Internacional Normalizado para Libros). Falta mucha contextualizacin y enlaces entre prrafos como subtitulos, adems de que se recomimenta que en cada subtitulos no se tenga mas de un subtitulo dentro y no tantos puntos es mejor enlazar mediante prrafos de relacin y no solo subtitulos sin puntos o vietas. Tomar en cuenta la forma de definicin de sistemas de informacin como referencia para los dems subittutlos adems ordenar bien por sistemas de conocimientos

S-ar putea să vă placă și