Documente Academic
Documente Profesional
Documente Cultură
bibliotecas universitarias
Universidad de Burgos
28-29 de octubre de 2005
ndice
Los metadatos
El concepto de metadatos es anterior a Internet y a
la Web. El trmino fue acuado en el mbito de la
Informtica durante la dcada de los 60. Hoy, se
ha incrementado su inters con el desarrollo de la
publicacin electrnica y las bibliotecas digitales.
Los metadatos se introdujeron en el vocabulario
de la Biblioteconoma en 1995, en el 1 Seminario
de Dublin Core (celebrado en Dublin, Ohio,
EEUU).
El concepto de metadatos
No existe un consenso conceptual sobre el trmino
de metadatos, es diferente segn el colectivo que
los utiliza:
o Informticos: entienden los metadatos a nivel fsico
(nombres de ficheros, formatos, tipos de datos...)
o Gestores de bases de datos: entienden los metadatos
nombres de los objetos de una base de datos, atributos,
relaciones, etc.
o Bibliotecarios: consideran que los metadatos son datos
sobre el contenido, la estructura, la representacin y el
contexto de un conjunto de datos concreto.
El trmino metadatos
Hay dos tendencias en el uso de los metadatos
dentro de la comunidad de bibliotecarios:
o Los llamados generalistas que usan el trmino
metadatos para referirse a la descripcin de recursos
digitales y no digitales.
o Mientras los restrictivos que limitan su uso al mbito
de los recursos electrnicos distribuidos por la Web.
Definiciones de metadatos
La definicin de metadatos ms extendida es datos sobre
otros datos. Etimolgicamente, el trmino metadato/s
procede del prefijo griego meta, que significa algo que
transciende, que va ms all.
Eva Mndez y Jos A. Senso definen los metadatos,
incidiendo en su funcionalidad, como toda aquella
informacin descriptiva sobre el contexto, calidad,
condicin o caractersticas de un recurso, dato u objeto
que tienen la finalidad de facilitar su recuperacin,
autentificacin, evaluacin, preservacin y/o
interoperatividad.
Ms definiciones de metadatos
Los metadatos se definen como informacin estructurada
sobre un recurso de informacin de cualquier tipo o
formato (P. Caplan).
Segn Ukoln, los metadatos son datos estructurados sobre
recursos digitales (y no digitales) que pueden ser utilizados
como ayuda en un amplio rango de operaciones. Por
ejemplo, en la descripcin y localizacin de recursos, en la
gestin de los recursos de informacin, incluida la gestin
de derechos de propiedad intelectual y en su preservacin a
largo plazo. (http://www.ukoln.ac.uk/metadata)
Ejemplos de metadatos
Los registros del catlogo de la biblioteca.
El resumen de un documento.
Las palabras clave extradas de un texto
Tipos de metadatos. 1
Segn el dominio de aplicacin:
o Recursos web de portales temticos: Dublin Core
o Registros catalogrficos en catlogos de bibliotecas:
MARC
o Objetos de museos: CIMI (Consortium for the
Interchange Museum Information)
o Recursos geogrficos y geoespaciales (CSDGM)
o Recursos de administraciones pblicas (GILS)
o Recursos de archivos (EAD) .....
Tipos de metadatos. 2
Segn el ciclo de vida de los recursos:
o Metadatos descriptivos
o Metadatos administrativos
o De gestin de derechos
o De preservacin
o De tipo tcnico
Metadatos descriptivos
Los metadatos descriptivos tienen como objetivo
la localizacin (como se encuentra un recurso), la
identificacin (cmo se distingue un recurso de
otro) y la seleccin (cmo determinar que un
recurso cumple una necesidad particular).
Otras funciones de los metadatos descriptivos
incluyen la evaluacin, relaciones y usabilidad.
Metadatos administrativos
Loas metadatos administrativos contienen informacin
para facilitar la gestin de los recursos: cuando fue creado
un recurso, quin es el responsable de controlar el acceso o
archivar el contenido, cules son las restricciones sobre el
acceso, distintas versiones, uso de los recursos, relativos al
nivel de utilizacin.
La categora de metadatos administrativos puede
subdividirse en metadatos de gestin de derechos,
metadatos de preservacin (actualizacin de los datos,
migracin de los contenidos...) y metadatos de tipo tcnico
(informan sobre el funcionamiento del sistema, de los
requisitos de hardware y software...)
Tipos de metadatos. 3
Segn la complejidad estructural:
o Metadatos desestructurados: los metadatos generados
automticamente por los robots a partir del texto en
HTML y de algunas etiquetas como <title>, <meta>...
o Metadatos semiestructurados: para estructuras
semnticas sencillas, como Dublin Core
o Metadatos estructurados: MARC
Esquemas de metadatos. 1
Un esquema de metadatos es un conjunto de campos, junto con sus
reglas de uso y una sintaxis, concebido para un propsito concreto.
Existe una amplia variedad de esquemas de metadatos, dependiendo
de los objetivos y caractersticas de los distintos proyectos :
o Metadatos de propsito general, dirigidos a describir cualquier
tipo de informacin digital. Por ejemplo, el esquema Dublin Core
o METS (Metadata Encoding and Transmission Standard).
o Metadatos de propsito especfico, vinculados a un campo
temtico en particular como el esquema EAD (Encoded Archival
Description) que se emplea para describir informacin de archivo
o el modelo TEI-Header (Text Encoding Iniciative) para describir
informacin textual en el rea de las Humanidades, etc.
Esquemas de metadatos. 2
Caractersticas de un esquema de metadatos:
o Semntica: alude al significado de los campos, su carcter
obligatorio, si puede ser repetible
o Reglas de contenido: prescriben cmo seleccionar y representar
los valores de un campo.
o Sintaxis: fija la codificacin de los campos del esquema en la
mquina, para ofrecer un formato de intercambio.
Ejemplo:
o El esquema MARC es un compuesto de diferentes normas:
ISO2709, MARC21, Anglo-American Cataloguing Rules, ISBD.
o Clases de elementos MARC: campos, indicadores y subcampos
o ISO 2709 no asigna significados a estos elementos, quien lo hace
es MARC21
Campos de datos
Metadatos MODS
Metadatos METS
Metadatos METS
Partes de un registro METS:
o Cabecera: informa del doc METS mismo (identificadores, fecha de
creacin, actualizaciones y status)
o Metadatos descriptivos: admite esquemas DC, MARCXML y
MODS
o Metadatos administrativos para difusin y preservacin
o Seccin de ficheros: identifica la totalidad de ficheros que
componen el objeto
o Mapa estructural: contiene el diseo de la estructura jerrquica del
doc
o Seccin de comportamiento y funcionamiento: aplicaciones
empleadas para visualizar el documento.
http://www.loc.gov/standards/mets/sfquad.xml
Dublin Core.1
En sus orgenes, Dublin Core sirvi para conectar
o relacionar a los bibliotecarios con las
comunidades Web y dinamizar a la comunidad
bibliotecaria, introduciendo nuevos conceptos y
nueva terminologa, que ha sido fundamental para
el desarrollo y los retos a los que se enfrenta
nuestra profesin en la actualidad.
Dublin Core.2
El esquema de metadatos Dublin Core se gest bajo el
patrocinio de la OCLC (Online Computer Library Center)
y el NCSA (National Center for Supercomputing
Applications). Tambin cont con la participacin de la
IETF (Internet Engineering Task Force), que es una de las
entidades administrativas de Internet (6). El primer
Seminario se celebr en Dublin (Ohio, EEUU) de dnde
Dublin Core tom su nombre. Desde 1995 se han
celebrado 13 Seminarios, el ltimo en Madrid, en
septiembre de 2005.
Creator (autor)
Title (Ttulo)
Subject (Materia)
Contributor (Colaborador)
Date (Fecha)
Description (Descripcin)
Publisher (Editor)
Type (Tipo de recurso)
Format (Formato)
Coverage (Cobertura)
Rights (Derechos de
Propiedad Intellectual)
Relation (Relacin)
Source (Fuente)
Language (Idioma)
Identifier (Identificador)
Distribucin de registros DC
A mediados de la dcada de los 90 se incluan los
metadatos DC en etiquetas META en las pginas Web. La
asignacin de metadatos la hacan los autores de las
pginas Web. Era sencillo, pero poco flexible, poco fiable
(se utilizaba como spamming con fines de promocin) y
dificil de mantener.
A partir de 2000 se utiliza la sintaxis XML/RDF
En 2001, Open Archives Initiative (OAI), y el protocolo
OAI-PMH, promueve la adopcin de Dublin Core sin
calificar para la descripcin de los archivos e-prints y
sintaxis XML.
Dublin Core/XML-RDF
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.0/"
xmlns:dcq="http://purl.org/dc/qualifiers/1.0/">
<rdf:Description>
<dc:type>Text Data</dc:type>
<dc:language>spa</dc:language>
<dc:creator>Castells, Manuel, 1942-</dc:creator>
<dc:title>La galaxia Internet / Manuel Castells</dc:title>
<dc:publisher>Barcelona :</dc:publisher>
<dc:publisher>Plaza y Jans, </dc:publisher>
<dc:date>2001</dc:date>
<dc:description>Incluye ndices</dc:description>
<dc:subject>Internet -- Aspectos sociales</dc:subject>
<dc:subject>Globalizacin</dc:subject>
</rdf:Description>
</rdf:RDF>++
DC - Modelos utilizados
Bases de datos
Metadatos DC para extraer automticamente a
travs de la recoleccin (harvesting). OAI-PMH
Metadatos incluidos en pginas Web
Portales temticos. 1
Financiados por organismos pblicos relacionados con la
enseanza superior para servir de apoyo a la enseanza y
la investigacin.
Estos portales se caracterizan porque suelen estar
especializados en un rea temtica concreta y por la
calidad de sus colecciones, ya que la evaluacin, la
seleccin y el tratamiento de los recursos corre a cargo de
bibliotecarios y especialistas en la materia.
Utilizacin de metadatos Dublin Core para la descripcin
de los recursos web.
Utilizacin de sistemas de clasificacin y tesauros
Portales temticos. 2
En el Reino Unido: Resource Descovery Network (RDN)
http://www.rdn.ac.uk. Ofrece en una misma interfaz
muchos de los portales acadmicos britnicos (SOSIG,
OMNI, etc.), donde se pueden hacer consultas simultneas
en todas las bases de datos de recursos web.
El proyecto europeo DESIRE (1996-2000). Potenci el
desarrollo de portales temticos basados en la seleccin,
descripcin y clasificacin de recursos web de calidad.
(DESIRE Information Gateways Handbook)
Proyecto europeo Renardus (continuacin del proyecto
DESIRE) http://www.renardus.org.
Autora y edicin
Contenido
Fiabilidad
Accesibilidad
Actualizacin del contenido
Diseo y formato
al contenido
a la propiedad intelectual
al acceso
a los metadatos administrativos
rea de navegacin:
o Materias
rea de listados:
o Novedades
o Los recursos ms visitados
Orgenes de OAI-PMH
Archivos e-prints:
o arXiv, por Paul Ginsparg, en Los lamos, California,
de Fsica. (1991)
o CogPrints, de Psicologa, Lingstica y neurociencia.
o RePEc, en el campo de la Economa.
Convencin de Santa Fe
Acuerdos:
o Protocolo de transporte: HTTP (get y post) y respuestas
XML.
o Esquema de metadatos: Dublin Core sin calificar.
o Una base para asegurar la calidad de los metadatos.
o Propiedad intelectual y derechos de uso.
Versiones de OAI-PMH
v1.0 Enero 2001
v1.1 Julio 2001
v2.0 Junio 2002
El usuario se conecta
a Google, OAIster o
el archivo.
Otro Proveedor
de datos
Proveedor
servicios
OAI-PMH
Las peticiones y respuestas se envan a travs del
protocolo HTTP.
Las peticiones se codifican como operaciones
GET y POST.
La sintaxis de las respuestas son documentos que
utilizan la sintaxis XML.
Datestamp y Harvesting
OAI-PMH
Peticiones
o
o
o
o
o
o
Identify
ListMetadataFormats
ListSets
GetRecord
ListIdentifiers
ListRecords
ListSets. Subconjuntos
Mecanismo del protocolo que permite recolectar
colecciones. No es obligatorio.
Ejemplos:
o Tipos de documentos (Tesis...)
o Perodos de tiempo
o Materias
ndice
Los metadatos
El concepto de metadatos es anterior a Internet y a
la Web. El trmino fue acuado en el mbito de la
Informtica durante la dcada de los 60. Hoy, se
ha incrementado su inters con el desarrollo de la
publicacin electrnica y las bibliotecas digitales.
Los metadatos se introdujeron en el vocabulario
de la Biblioteconoma en 1995, en el 1 Seminario
de Dublin Core (celebrado en Dublin, Ohio,
EEUU).
El concepto de metadatos
No existe un consenso conceptual sobre el trmino
de metadatos, es diferente segn el colectivo que
los utiliza:
o Informticos: entienden los metadatos a nivel fsico
(nombres de ficheros, formatos, tipos de datos...)
o Gestores de bases de datos: entienden los metadatos
nombres de los objetos de una base de datos, atributos,
relaciones, etc.
o Bibliotecarios: consideran que los metadatos son datos
sobre el contenido, la estructura, la representacin y el
contexto de un conjunto de datos concreto.
El trmino metadatos
Hay dos tendencias en el uso de los metadatos
dentro de la comunidad de bibliotecarios:
o Los llamados generalistas que usan el trmino
metadatos para referirse a la descripcin de recursos
digitales y no digitales.
o Mientras los restrictivos que limitan su uso al mbito
de los recursos electrnicos distribuidos por la Web.
Definiciones de metadatos
La definicin de metadatos ms extendida es datos sobre
otros datos. Etimolgicamente, el trmino metadato/s
procede del prefijo griego meta, que significa algo que
transciende, que va ms all.
Eva Mndez y Jos A. Senso definen los metadatos,
incidiendo en su funcionalidad, como toda aquella
informacin descriptiva sobre el contexto, calidad,
condicin o caractersticas de un recurso, dato u objeto
que tienen la finalidad de facilitar su recuperacin,
autentificacin, evaluacin, preservacin y/o
interoperatividad.
Ms definiciones de metadatos
Los metadatos se definen como informacin estructurada
sobre un recurso de informacin de cualquier tipo o
formato (P. Caplan).
Segn Ukoln, los metadatos son datos estructurados sobre
recursos digitales (y no digitales) que pueden ser utilizados
como ayuda en un amplio rango de operaciones. Por
ejemplo, en la descripcin y localizacin de recursos, en la
gestin de los recursos de informacin, incluida la gestin
de derechos de propiedad intelectual y en su preservacin a
largo plazo. (http://www.ukoln.ac.uk/metadata)
Ejemplos de metadatos
Los registros del catlogo de la biblioteca.
El resumen de un documento.
Las palabras clave extradas de un texto
Tipos de metadatos. 1
Segn el dominio de aplicacin:
o Recursos web de portales temticos: Dublin Core
o Registros catalogrficos en catlogos de bibliotecas:
MARC
o Objetos de museos: CIMI (Consortium for the
Interchange Museum Information)
o Recursos geogrficos y geoespaciales (CSDGM)
o Recursos de administraciones pblicas (GILS)
o Recursos de archivos (EAD) .....
Tipos de metadatos. 2
Segn el ciclo de vida de los recursos:
o Metadatos descriptivos
o Metadatos administrativos
o De gestin de derechos
o De preservacin
o De tipo tcnico
Metadatos descriptivos
Los metadatos descriptivos tienen como objetivo
la localizacin (como se encuentra un recurso), la
identificacin (cmo se distingue un recurso de
otro) y la seleccin (cmo determinar que un
recurso cumple una necesidad particular).
Otras funciones de los metadatos descriptivos
incluyen la evaluacin, relaciones y usabilidad.
Metadatos administrativos
Loas metadatos administrativos contienen informacin
para facilitar la gestin de los recursos: cuando fue creado
un recurso, quin es el responsable de controlar el acceso o
archivar el contenido, cules son las restricciones sobre el
acceso, distintas versiones, uso de los recursos, relativos al
nivel de utilizacin.
La categora de metadatos administrativos puede
subdividirse en metadatos de gestin de derechos,
metadatos de preservacin (actualizacin de los datos,
migracin de los contenidos...) y metadatos de tipo tcnico
(informan sobre el funcionamiento del sistema, de los
requisitos de hardware y software...)
Tipos de metadatos. 3
Segn la complejidad estructural:
o Metadatos desestructurados: los metadatos generados
automticamente por los robots a partir del texto en
HTML y de algunas etiquetas como <title>, <meta>...
o Metadatos semiestructurados: para estructuras
semnticas sencillas, como Dublin Core
o Metadatos estructurados: MARC
Esquemas de metadatos. 1
Esquemas de metadatos. 2
Campos de datos
Metadatos MODS
Metadatos METS
Metadatos METS
Dublin Core.1
En sus orgenes, Dublin Core sirvi para conectar
o relacionar a los bibliotecarios con las
comunidades Web y dinamizar a la comunidad
bibliotecaria, introduciendo nuevos conceptos y
nueva terminologa, que ha sido fundamental para
el desarrollo y los retos a los que se enfrenta
nuestra profesin en la actualidad.
Dublin Core.2
El esquema de metadatos Dublin Core se gest bajo el
patrocinio de la OCLC (Online Computer Library Center)
y el NCSA (National Center for Supercomputing
Applications). Tambin cont con la participacin de la
IETF (Internet Engineering Task Force), que es una de las
entidades administrativas de Internet (6). El primer
Seminario se celebr en Dublin (Ohio, EEUU) de dnde
Dublin Core tom su nombre. Desde 1995 se han
celebrado 13 Seminarios, el ltimo en Madrid, en
septiembre de 2005.
Creator (autor)
Title (Ttulo)
Subject (Materia)
Contributor (Colaborador)
Date (Fecha)
Description (Descripcin)
Publisher (Editor)
Type (Tipo de recurso)
Format (Formato)
Coverage (Cobertura)
Rights (Derechos de
Propiedad Intellectual)
Relation (Relacin)
Source (Fuente)
Language (Idioma)
Identifier (Identificador)
Distribucin de registros DC
A mediados de la dcada de los 90 se incluan los
metadatos DC en etiquetas META en las pginas Web. La
asignacin de metadatos la hacan los autores de las
pginas Web. Era sencillo, pero poco flexible, poco fiable
(se utilizaba como spamming con fines de promocin) y
dificil de mantener.
A partir de 2000 se utiliza la sintaxis XML/RDF
En 2001, Open Archives Initiative (OAI), y el protocolo
OAI-PMH, promueve la adopcin de Dublin Core sin
calificar para la descripcin de los archivos e-prints y
sintaxis XML.
Dublin Core/XML-RDF
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.0/"
xmlns:dcq="http://purl.org/dc/qualifiers/1.0/">
<rdf:Description>
<dc:type>Text Data</dc:type>
<dc:language>spa</dc:language>
<dc:creator>Castells, Manuel, 1942-</dc:creator>
<dc:title>La galaxia Internet / Manuel Castells</dc:title>
<dc:publisher>Barcelona :</dc:publisher>
<dc:publisher>Plaza y Jans, </dc:publisher>
<dc:date>2001</dc:date>
<dc:description>Incluye ndices</dc:description>
<dc:subject>Internet -- Aspectos sociales</dc:subject>
<dc:subject>Globalizacin</dc:subject>
</rdf:Description>
</rdf:RDF>++
DC - Modelos utilizados
Bases de datos
Metadatos DC para extraer automticamente a
travs de la recoleccin (harvesting). OAI-PMH
Metadatos incluidos en pginas Web
Portales temticos. 1
Financiados por organismos pblicos relacionados con la
enseanza superior para servir de apoyo a la enseanza y
la investigacin.
Estos portales se caracterizan porque suelen estar
especializados en un rea temtica concreta y por la
calidad de sus colecciones, ya que la evaluacin, la
seleccin y el tratamiento de los recursos corre a cargo de
bibliotecarios y especialistas en la materia.
Utilizacin de metadatos Dublin Core para la descripcin
de los recursos web.
Utilizacin de sistemas de clasificacin y tesauros
Portales temticos. 2
En el Reino Unido: Resource Descovery Network (RDN)
http://www.rdn.ac.uk. Ofrece en una misma interfaz
muchos de los portales acadmicos britnicos (SOSIG,
OMNI, etc.), donde se pueden hacer consultas simultneas
en todas las bases de datos de recursos web.
El proyecto europeo DESIRE (1996-2000). Potenci el
desarrollo de portales temticos basados en la seleccin,
descripcin y clasificacin de recursos web de calidad.
(DESIRE Information Gateways Handbook)
Proyecto europeo Renardus (continuacin del proyecto
DESIRE) http://www.renardus.org.
Autora y edicin
Contenido
Fiabilidad
Accesibilidad
Actualizacin del contenido
Diseo y formato
al contenido
a la propiedad intelectual
al acceso
a los metadatos administrativos
rea de navegacin:
o Materias
rea de listados:
o Novedades
o Los recursos ms visitados
Orgenes de OAI-PMH
Archivos e-prints:
o arXiv, por Paul Ginsparg, en Los lamos, California,
de Fsica. (1991)
o CogPrints, de Psicologa, Lingstica y neurociencia.
o RePEc, en el campo de la Economa.
Convencin de Santa Fe
Acuerdos:
o Protocolo de transporte: HTTP (get y post) y respuestas
XML.
o Esquema de metadatos: Dublin Core sin calificar.
o Una base para asegurar la calidad de los metadatos.
o Propiedad intelectual y derechos de uso.
Versiones de OAI-PMH
v1.0 Enero 2001
v1.1 Julio 2001
v2.0 Junio 2002
El usuario se conecta
a Google, OAIster o
el archivo.
Otro Proveedor
de datos
Proveedor
servicios
OAI-PMH
Las peticiones y respuestas se envan a travs del
protocolo HTTP.
Las peticiones se codifican como operaciones
GET y POST.
La sintaxis de las respuestas son documentos que
utilizan la sintaxis XML.
Datestamp y Harvesting
OAI-PMH
Peticiones
o
o
o
o
o
o
Identify
ListMetadataFormats
ListSets
GetRecord
ListIdentifiers
ListRecords
ListSets. Subconjuntos
Mecanismo del protocolo que permite recolectar
colecciones. No es obligatorio.
Ejemplos:
o Tipos de documentos (Tesis...)
o Perodos de tiempo
o Materias