Documente Academic
Documente Profesional
Documente Cultură
DIGITALIZACIÓN EN GALICIA
Biblioteca de Galicia
Marzo 2011
1. Introducción
Las presentes directrices básicas no pretenden ser un manual de digitalización sino simplemente un
instrumento para el trabajo en común y la coordinación de los proyectos que se están realizando o
se realicen en el futuro dentro del ámbito gallego. Se trata de un documento además adaptado a las
actuales características y panorama de las normativas y directrices nacionales e internacionales
vigentes para estos procesos, que requerirá de posteriores y previstas actualizaciones que permitan
adaptar su contenido a futuros desarrollos en el ámbito de aplicación de las mismas.
En el apéndice se señalan otros textos consultados y tenidos en cuenta para la redacción de estas
directrices o considerados de interés.
La función pues de esta publicación está, por un lado, en divulgar en nuestro ámbito una serie de
conceptos que consideramos tienen una básica importancia hacia el diseño de una política común,
tanto técnica como documental de digitalización de nuestro patrimonio bibliográfico y por otro,
concretar o desarrollar aquellos aspectos de esta política que puedan ser específicos de nuestra
comunidad.
Objetivos
Se trata en cualquier caso de procesos tanto técnicos como normativos en constante evolución y
desarrollo. El presente documento pretende establecer objetivos a medio y largo plazo pero con la
constancia de que estos deben ser fijados de forma que puedan adaptarse al mismo tiempo a
posibles cambios o mejoras surgidos en el campo que abarcan estos procesos y a los elementos
constitutivos de los mismos. Deberán actualizarse asimismo con una periodicidad suficiente.
2. Proceso técnico
Consideraciones previas
Además de la inversión precisa para poner en marcha una biblioteca digital es importante prever
su sostenibilidad, por lo que debe contar con una previsión de mantenimiento.
Los múltiples beneficios de la digitalización deben ser tenidos en cuenta, especialmente los
derivados de su difusión y acceso fácil, generalizado y, en general, gratuito. La biblioteca digital
debe crearse con una idea clara de servicio a los usuarios a los que va dirigida. Debe facilitar su
acceso a través de normativas, especialmente las, que afectan su uso y accesibilidad facilitando
además su integración con otras ofertas similares en la red. No se puede olvidar tampoco el papel
educativo que puede jugar. También hay que tener en cuenta su papel en la preservación,
especialmente en el hecho de limitar (no necesariamente eliminar) el uso del material original. La
digitalización no es sin embargo la forma más barata ni con más garantías de preservación.
Especialmente importante es el tema de los derechos de autor. No debemos olvidar que muchos de
los materiales bibliográficos y documentales susceptibles de digitalización y de difusión a través
de la red, están sujetos a derechos de autor, de copia o de otro tipo, que debemos respetar o
negociar de ser el caso
En el capítulo 1 de las "Directrices para Proyectos de Digitalización ..." de la IFLA se establecen
pautas para la toma de decisión hacia los posibles proyectos y para la selección de materiales a
digitalizar.
http://travesia.mcu.es/portalnb/jspui/bitstream/10421/3342/1/pautas_digitalizacion1.pdf
Las "Directrices para Proyectos de Digitalización ..." de la IFLA definen la "imagen digital" como
una "fotografía electrónica" convertida en un conjunto de elementos pictóricos (pixeles) y
ordenada de acuerdo con una relación predefinida de columnas y filas.
Estas imágenes digitales son el resultado de la conversión, a través de escaners, de las imágenes
procedentes de los objetos o documentos originales, que son "capturadas" y convertidas en ficheros
a través del software normalmente incluido en los citados escaners.
Formato: Los datos recogidos por el software del escáner, deben ser almacenados de acuerdo con
un formato, de los que existen en el mercado diferentes ofertas. Los más conocidos y utilizados
son TIFF, JPEG, GIF, PDF, etc. Algunos de ellos están pensados asimismo para compresión de las
imágenes.
El formato más usualmente requerido para imágenes de preservación sin comprensión en las
bibliotecas digitales es el TIFF ("Tagged Image File Format"), actualmente en su versión 6. En
este formato las imágenes pueden acompañarse con etiquetas que contienen información sobre las
mismas. Para imágenes de acceso se aconsejan sistemas de compresión sin pérdida. La Biblioteca
de Galicia está solicitando JPEG ("Joint Photographic Experts Group"). Actualmente se está
demandando también el JPEG2000, que permite trabajar con niveles de compresión mayores y que
está siendo aceptada como formato de preservación
Profundidad o definición: Indica el número de bits utilizado para representar cada píxel. Cuantos
más bits se utilicen mayor será el número de combinaciones posibles para representar colores o
escalas de grises. Un único bit solo permitiría representar el blanco y el negro, 8 bits permitirían
hasta 256 gamas de grises y 24 bits, hasta 16,7 millones de colores.
Lo mismo que con la resolución, cada tipo de material requiere una definición óptima que permita
explotar al máximo sus posibilidades de información y al mismo tiempo no desaproveche recursos
innecesarios. No se precisa una misma calidad para poder leer una página de prensa o de un libro
por Internet que para reproducir un cartel a color, un dibujo, grabado o una obra pictórica, ni para
contar con archivos que permitan una reproducción facsímil.
Tipo de color: blanco y negro, escala de grises o color, en relación también con la definición
escogida.
Según el tipo de material y soporte y de la función de los mismos variarán los requisitos o
directrices concretas a tener en cuenta. A continuación se indican una serie de pautas que son en
estos momentos las que están demandándose tanto por la Biblioteca de Galicia como por diversas
instituciones, tanto nacionales como de fuera de España, especialmente aquellas de especial peso
en el campo de las bibliotecas digitales. No se presentan como normativa de obligado
cumplimiento, pero se aconsejan en líneas generales en cuanto conducen a la deseada
estandarización, y contribuyen a la buscada integración de recursos. Los datos, y especialmente la
resolución, se refieren siempre en relación al formato del original (100% de su tamaño).
En los anexos A y B se incluyen textos y enlaces a diferentes requisitos acerca de estos aspectos de
la digitalización.
Archivo de Archivo de difusión
Tipo de documento conservación JPEG, PDF1, GIF
TIFF 6
Con cada imagen de texto deberá acompañarse un archivo asociado de texto legible por ordenador,
elaborado a través de un programa de OCR que deberá contar con los siguientes elementos para la
generación de los archivos OCR2:
1
O PDF adopta as características do formato original.
Estos ficheros se entregarán según el esquema ALTO XML. Analyzed Layout and Text Object es
un esquema XML que especifica los metadatos técnicos del diseño y contenido de recursos
textuales físicos, tales como páginas de un libro o periódico. Generalmente se usa como esquema
que extiende la sección de metadatos administrativos en Metafecha Encoding and Transmission
Schema (METS). Nembargantes, puede usarse ALTO independientemente de METS.
La vinculación entre los ficheros de imagen y texto se especificará en la sección correspondiente
del fichero METS que debe acompañar a cada obra digitalizada.
Los nuevos desarrollos en el campo de descripción de los objetos digitales también permiten
nuevas formas de avanzar, como son la integración de objetos de diferente origen o final (archivos,
bibliotecas, museos y proyectos educativos institucionales y en línea), y asimismo la mejora
sustancial de los sistemas de descripción e investigación, desarrollada junto a la Web Semántica.
Se convierte, pues, necesario formular una coordinación aún mayor y la unificación en los casos en
que sea posible.
Actualmente son varios los estándares aplicables a los objetos digitales, no existiendo uno único
que recoja todos los ámbitos aplicables a la descripción de estas imágenes. Por esa razón se hace
preciso aplicar diferentes esquemas, que por lo demás actualmente se integran a través de
lenguajes como el XML en estructuras internacionalmente aceptadas como el de METS.
De entre todos los esquemas y recomendaciones relativos a metadatos existentes actualmente hay
varias normas que se están estableciendo como estándares más o menos aceptados de forma global
en el mundo de las bibliotecas digitales. La Biblioteca de Galicia en sus proyectos de digitalización
está adoptando estos estándares aceptados por la mayor parte de las bibliotecas digitales nacionales
e internacionales y son estos los que se proponen como pautas para proyectos a llevar a cabo en el
resto de Galicia.
Las actuales pautas de la Biblioteca de Galicia establecen como modelo de metadatos la entrega de
ficheros XML estructurados según el esquema Metafecha Encoding & Transmission Standard
(METS), actualmente en su versión 1.9.
http://www.loc.gov/standards/mets/METSPrimerRevised.pdf
METS es un esquema de metadatos desenvuelto por iniciativa de la Digital Library Federation y
mantenido por la "Network Development and MARC Standars Office" de la Biblioteca del
Congreso (LC) norteamericana (http://www.loc.gov/standards/mets/). Utiliza como lenguaje el
XML Schema do World Wide Web Consortium (W3C).
El METS aporta una metaestructura que contempla las diversas categorías de datos significativos
para una imagen digital y al mismo tiempo permite la integración dentro del propio registro o a
través de enlaces a archivos externos, de otros esquemas de metadatos.
Además de las recomendaciones generales para la utilización del esquema METS establecidas por
la "Network Development and MARC Standards Office" de la LOC, la Biblioteca de Galicia sigue
las recomendaciones particulares realizadas por el Ministerio de Cultura para el consumo y
preservación de recursos digitales3.
Los ficheros METS de la Biblioteca de Galicia se elaboran conforme a los siguientes perfiles
registrados en la "Network Development and MARC Standards Office" de la LOC y aprobados
por la METS Editorial Board:
Siguiendo las normativas anteriormente señaladas, especialmente las definidas por la Subdirección
General de Coordinación Bibliotecaria del MCU, la Biblioteca de Galicia recomienda que los
archivos METS deben de tener, como mínimo, las siguientes secciones:
1. Etiqueta raíz
2. Cabecera (metsHdr)
En la cabecera ha de haber dos etiquetas < altRecordID > que nos servirán para asociar los grupos
de imágenes a los registros correspondientes:
a) Etiqueta < altRecordID > con atributo TYPE="Nº control". El valor del atributo TYPE será el
número de control o el código interno de identificación asignado al registro bibliográfico por la
organización que lo crea, utiliza o distribuye. Por ejemplo:
<mets:altRecordID TYPE="Nº control">PFB002201056</mets:altRecordID >
b) Etiqueta < altRecordID > con atributo TYPE="Institución y signatura". El valor del atributo
TYPE en este caso será el código de biblioteca (que en los registros debe aparecer en el campo 852
$a) y la signatura del ejemplar (que en los registros debe aparecer en el campo 852 $j). Ambos
valores deben estar separados por un espacio en blanco. Es importante que en los códigos de
biblioteca no haya espacios en blanco entre sus letras, eso produciría errores. Por ejemplo:
Donde C(S)-CBG es el código de la biblioteca (que aparece en los registros en el 852 $a) y
BL10784 es la signatura del ejemplar (que aparece en los registros en el 852 $j). Cada ejemplar
debe tener su propia signatura, estas no deben repetirse.
Nota: de entregar sólo registros bibliográficos, en ellos estará el mencionado campo 852. Si se
entregaron registros independientes de ejemplar (de fondos) en ellos es donde deberá estar el
campo 852.
Para la asignación del código de la biblioteca se recomienda la utilización de la codificación
establecida para el Catálogo Colectivo del Patrimonio Bibliográfico.
-Pueden incluirse además metadatos en otros formatos. Para la participación en proyectos europeos
es obligatorio la implementación del formato ESE en su versión 3.3.1 y en adelante lo será EDM
(Europeana Data Model).
Cuando el fichero de metadatos se corresponde con una publicación periódica se recomienda la
utilización del esquema MODS http://www.loc.gov/standards/mods/
-En esta sección pueden incluirse metadatos PREMIS para preservación. La obtención de estos
metadatos se hará siguiendo el Diccionario de Datos PREMIS Versión 2.0.
http://www.bne.es/es/Micrositios/Guias/DiccionarioPremis/VERSION2.0/
En esta sección se relacionan y enumeran ordenadamente los archivos que van a ser o pudiesen ser
cargados.
Debe haber una etiqueta < fileGrp > para cada una de las versiones del objeto digitalizado. Por
ejemplo, si se va a cargar una sola imagen o un solo grupo de imágenes habrá uno solo < fileGrp >,
si se pretende cargar la obra en varios formatos (por ejemplo jpg y pdf), habrá uno < fileGrp > para
cada formato de imajen.
Los < fileGrp > deberán tener el atributo USE con los siguientes valores en función de los
diferentes formatos de imaxen del objeto digitalizado que representen:
Para las imágenes TIFF: < fileGrp USE= "archive">
Para las imágenes JPEG: < fileGrp USE= "reference">
Para las imágenes GIF: < fileGrp USE= "thumbnail">
Para las imágenes PDF: el suyo < fileGrp > no precisa del atributo USE
Será requisito mínimo obligatorio la existencia de uno < fileGrp > con el atributo USE con valor
"reference".
Se anidarán dentro de cada < fileGrp > tantas etiquetas <file> como objetos pertenezcan al grupo.
Si se trata de un conjunto de imágenes jpg, habrá un <file> para cada imagen.
Anidada en cada una de las etiquetas <file> ha de haber una etiqueta < FLocat > con los
siguiente atributos obligatorios LOCTYPE (con valor "URL") y xlink:href.
a) Una dirección absoluta al objeto. Por ejemplo, si las imágenes se encuentran en un disco duro
externo, el valor de este atributo sería la dirección absoluta a la imagen correspondiente.
b) Otra opción sería poner el texto file://($$SOPORTE1$$)/ antes del nombre de la carpeta
contenedora que contiene todos los grupos de imágenes (la carpeta con el nombre o código de la
biblioteca que contiene el resto de carpetas).
Por ejemplo: < file ID="FID5" MIMETYPE="image/jpeg" SEQ="1" DMDID="DM1 " >
< FLocat LOCTYPE="URL" xlink:type="simple" xlink:href="file://($$SOPORTE1$$)/NOVA
GALICIA reference/Nova galicia 16-17.0005.jpg"/>
</File>
Donde NUEVA GALICIA reference es el nombre de la carpeta contenedora.
Habrá tantos < strucMap > como estructuras se vayan a cargar. Si se va a cargar un grupo de
imágenes jpg por un lado y un pdf por otro, habrá dos mapas estructurales.
La etiqueta < strucMap > tiene de llevar el atributo TYPE con el valor "physical".
Ha de haber una primera etiqueta <div> que identifique la obra con el atributo TYPE (con valor
"libro, mapa ... "). Este primer <div> también ha de llevar un atributo LABEL con el mismo valor
que el atributo LABEL de la etiqueta raíz.
También ha de llevar un atributo ORDER, para indicar la orden del <div> dentro de este nivel de
anidamiento.
El resto de etiquetas <div> dependerán de la estructura de la obra que se está cargando. Deberán
incluirse los niveles de <div> necesarios para expresar esta estructura y en cada uno de estos <div>
deberán incluirse los atributos ORDER, para indicar el número de orden del objeto (mediante este
atributo se ordenan las imágenes) y LABEL, que es el texto que se va a visualizar asociado al
objeto, por ejemplo un número de página o de capítulo ...
A cada objeto particular (imagen jpg, pdf, tiff ...) le corresponderá una etiqueta <fptr> con el
atributo obligatorio FILEID. El valor de este atributo será igual al valor del atributo ID de la
etiqueta <file> (de la sección de archivo) correspondiente a dicho objeto digital. Esta relación es
indispensable para que la aplicación sepa qué imagen de las enumeradas en la sección de archivo
corresponde a cada parte de la estructura.
Cada una de estas etiquetas <fptr> estará anidada en una etiqueta <div> donde se indicara
mediante los atributos ORDER y LABEL, la orden del objeto respecto a sus hermanos y el texto
que se visualizará asociado a dicho objeto (por ejemplo, el número de página).
Autoridades
De igual modo, se entregará un fichero XML estructurado según el esquema MADS en el que se
detallarán los registros de autoridades correspondientes a cada publicación (personas, entidades y
títulos), con todas las variantes y referencias que puedan desprenderse de la catalogación completa
de la totalidad del ejemplar disponible. Con estos ficheros XML MADS se constituirá el fichero de
autoridades de la Biblioteca de Galicia.
Desde octubre del año 2008 la Biblioteca de Galicia mantiene en funcionamiento "Galiciana",
repositorio OAI accesible en la dirección http://www.galiciana.bibliotecadegalicia.xunta.es.
Este repositorio permite recolectar registros mediante el Protocolo OAI-PMH versión 2.0. Sus
registros están codificados como mínimo en Dublin Core sin calificar, aunque Galiciana trabaja
con casi todos los esquemas de metadatos más utilizados actualmente (OAI_MARC, OAI_DC,
MARC 21, ESE y DIDL).
Hoy en día el repositorio de Galiciana es proveedor de datos en los principales proyectos de
agregadores de contenidos de bases de datos de colecciones digitales a nivel estatal (HISPANA),
europeo (EUROPEANA) y mundial (OAISTER). También está presente en los principales
registros internacionales de proveedores de datos como "Registry of Open Access Repositories
(ROAR)". Todo eslabón es posible ya que Galiciana cumple con las principales directrices y
protocolos de interoperabilidad vigentes actualmente.
La formulación esencial de los archivos abiertos es permitir el acceso a los materiales en la web
por medio de repositorios que, interoperando unos con otros, permitan el intercambio de
metadatos, su almacenamiento y publicación. Persiguiendo este objetivo "la Open Archives
Initiative desarrolla y promueve normas de interoperabilidad que tienen por objeto facilitar la
difusión eficaz de los contenidos".
El Protocolo OAI para la Recolección de Metadatos (OAI-PMH), define un mecanismo para la
recolección de registros que contienen los metadatos de los repositorios. El OAI-PMH ofrece a los
Proveedores de Datos una opción técnica sencilla para poner sus metadatos a disposición de
servicios basados en los estándares abiertos HTTP (Hypertext Transport Protocol) y XML
(Extensible Markup Language). Los metadatos que son reunidos pueden estar en cualquier formato
establecido por una comunidad (o por cualquier conjunto específico de Proveedores de Datos y
Proveedores de Servicios), con independencia de que establecieran el Dublin Core no cualificado
para proporcionar un nivel básico de interoperabilidad.
Directrices DRIVER
Las Directrices OpenAIRE 1.0, orientarán los administradores de repositorios para definir e
implementar sus políticas locales de administración de datos cumpliendo con las demandas de la
Comisión Europea sobre Acceso Abierto. Además, cumplirán con los requisitos técnicos de la
infraestructura de OpenAIRE, diseñada para soportar y monitorizar la implementación del piloto
7PM OA1.
Al implementar estas Directrices para administradores de repositorios, se facilita a los autores que
depositan sus publicaciones en el repositorio cumplir con los requisitos de la CE sobre Acceso
Abierto.
Para desarrolladores de software de repositorios, las Directrices son una guía para añadir en futuras
versiones del software, funcionalidades que ayuden a los autores con financiación de la CE para
sus investigaciones.
ANEXO A