Title: Tema 5; XML en la descripci
1Tema 5XML en la descripción de recursos
- Ricardo Eíto Brun
- Sevilla, 23-25 de octubre 2002
2Introduction
- Los formatos de marcas se han presentado como una
alternativa/complemento a los sistemas de
codificación de datos utilizados tradicionalmente
por la comunidad bibliotecaria en la descripción
de recursos - Desde mediados de los años 90 se han planteado
distintas iniciativas en esta línea - El origen de estas iniciativas están distintas
bibliotecas. Las iniciativas más importantes han
sido lideradas por la Library of Congress
3MARC y XML
- Podemos señalar distintas líneas de trabajo
- Diseño de modelos alternativos para la
descripción de recursos (Dublin Core) - Adaptación de los modelos tradicionales MARC
-, a los nuevos formatos Internet (xml) - El formato XML se ha presentado como una
alternativa para representar y transferir
registros MARC a través de Internet y facilitar
su tratamiento automatizado
4MARC y XML
- Las ventajas de XML son
- XML ofrece un sistema de codificación más simple
y fácil de procesar que el utilizado actualmente
para registros MARC (2709) - XML se presenta como un formato universal,
utilizado en cualquier tipo de aplicación, frente
al sistema de codificación actual de MARC - XML elimina complejidad innecesaria para los
desarrolladores - Se pretende evitar la segregación de MARC
frente a otros formatos de metadatos Internet
utilizados en los proyectos de biblioteca
electrónica
5MARC y XML
- Al mismo tiempo, MARC presenta ventajas frente a
los formatos de metadatos que se han propuesto
para el mundo Internet, como Dublin Core - Mayor capacidad expresiva
- Soporte de más de 30 años por parte de la
comunidad bibliotecaria y de la industria
software especializado - Una semántica claramente definida, aceptada y
adaptada a las distintas realidades nacionales - Cobertura a un amplio número de formatos y
tipos de información (autoridades, datos
bibliográficos, holdings, etc.)
6MARC y XML
- Resumiendo
- MARC es un formato que permite codificar y
transmitir un gran número de datos de una forma
estandarizada y fácilmente procesable - El resto de alternativas que se an propuesto para
la descripción de recursos adaptadas a Internet
no ofrecen la expresividad o el nivel de detalle
necesario - Estas alternativas se encuentran en fase de
desarrollo, y no podemos garantizar su
permanencia en un futuro
7MARC y XML
- Resumiendo
- MARC no sólo es un estándar para facilitar el
intercambio de información bibliográfica, - También se ha convertido en la base de los
sistemas integrados de gestión bibliotecaria
actuales
8MARC y XML
- Sin embargo, hay quien señala que MARC no es un
formato óptimo para las necesidades actuales en
lo referente a la descripción de recursos - MARC es sumamente complejo, la descripción es
costosa y lenta para el gran número de recursos
que tenemos que describir - El creciente número de recursos a describir nos
obliga a plantear sistemas de indización
descentralizados, que no requieran una
formación tan compleja como la requerida para
trabajar con MARC, ni mecanismos de entrada de
datos tan complejos
9MARC y XML
- Los partidarios de alternativas a MARC
- se basan más en la rapidez con que se podría
describir los recursos, y - sacrifican la calidad y el detalle de la
descripción de los recursos...
10Adaptar MARC a Internet primeras iniciativas
- Las primera iniciativa de la LOC se remonta a
1992 con la inclusión del campo 856 (electronic
location and access) en MARC - Este campo permitiría crear un enlace entre un
registro bibliográfico y un recurso remoto
disponible en formato electrónico - Proyectos como el OCLC Internet Cataloging
(1994-1996) utilizaron este campo para codificar
5000 registros de recursos Internet - El proyecto CATRIONA (CATaloguing and Retrieval
of Information Over Network Applications) también
utilizó el 856
11Adaptar MARC a Internet primeras iniciativas
- El campo 856 contiene la información necesaria
para localizar y acceder a un recurso electrónico
... puede utilizarse en un registro
bibliográfico de un recurso cuando éste o una
parte del mismo esté disponible
electrónicamente... - El primer indicador define el método de acceso
al recurso electrónico. Si el recurso es
accesible por más de un método, éste repite - El segundo indicador indica la relación entre el
recurso electrónico identificado en el campo 856
y el documento descrito en el registro como un
todo
12Adaptar MARC a Internet primeras iniciativas
- Los valores posibles para el primer indicador
son - - no se proporciona información
- 0 correo electrónico
- 1 FTP
- 2 Telnet
- 3 Llamada telefónica
- 4 HTTP
- 7 Un método distinto al anterior, que se habrá
indicado en el subcampo 2.
13Adaptar MARC a Internet primeras iniciativas
- Los valores posibles para el segundo indicador
son - - No se proporciona información
- 0 Recurso. La localización electrónica hace
referencia al mismo recurso descrito en el
registro como un todo. Es decir, el ítem
representado por el registro bibliográfico es un
recurso electrónico - 1 versión del recurso. La localización
electrónica hace referencia a la versión
electrónica del recurso descrito en el registro.
Es decir, el documento descrito mediante el
registro no es electrónico, pero existe una
versión en formato electrónico - 2 Recurso relacionado
- 8 no hay una visualización asociada
14Adaptar MARC a Internet primeras iniciativas
- 245 10aProceedings of the Seminar
- 856 40uhtp//www.loc.gov/seminar.html
- 245 00aAnalyzing qualitative datec/edited by
- 856 40uhtp//www.loc.gov/analyzing.html
- 245 00aAmerican quarterly
- 856 41uhtp//www.muse.edu/journals/amquarterly.ht
m - 245 00aDocumentos de D. Pedro Valverde
- 856 423Indiceuhtp//www.bne.es/pedroValverde.pdf
15Adaptar MARC a Internet primeras iniciativas
- SUBCAMPOS
- a nombre del host de la localización
electrónica - b número de acceso (dirección IP)
- c información sobre la compresión
- d ruta física
- f nombre electrónico del fichero
- k contraseña necesaria para acceder al recurso
- m contacto para facilitar el acceso
- p puerto
- u URI o URL
- y texto del enlace
- 3 Especificación de materiales
16Adaptar MARC a Internet primeras iniciativas
- Una segunda iniciativa de la LOC consistió en
adaptar MARC a SGML, iniciada en 1995 - El objetivo era crear una DTD que permitiese la
conversión de registros MARC a SGML y viceversa
-, sin pérdida de información - Se diseñaron 2 DTDs, para datos bibliográficos /
fondos y para autoridades / clasificación y una
aplicación PERL para la conversión de MARC 2709 a
MARC SGML y viceversa - Las DTD se publicaron en mayo 1996. La utilidad
de conversión se inició en julio 1997. En enerp
1998 se hizo pública. - Posteriormente, estas DTDs se migraron a XML para
adaptarlas al nuevo escenario tecnológico
17Adaptar MARC a Internet primeras iniciativas
- El programa de conversión de MARC a SGML/XML
utiliza PERL y nsgmls - Estas utilidades de libre distribución se pueden
descargar de - http//www.perl.com
- http//www.jclark.com/sp
- En el diseño de las DTD y utilidades de
conversión participaron las empresasa Mulberry
Technologies y ATLIS Consulting Group
18Adaptar MARC a Internet primeras iniciativas
- Las DTD para XML y SGML contenían un elemento XML
para cada campo y subcampo de MARC - Por ejemplo, para el elemento 245 MARC, en la DTD
se incluía un elemento mrcb245, un mrcb245-b,
mrcb245-c, etc. - Estos campos se agrupaban en otros elementos,
como por ejemplo mrcb-title-and-title-related,
mrcb-subject-access, etc. - Los campos de control variables 008 contaban
con un elemento para cada posición o ítem del
que contienen información, etc... - Esto hacía que la DTD y los registros fuesen muy
largos - PRACTICA Abrir con XML Spy el archivo
mrcbxmlfile
19Adaptar MARC a Internet estado actual
- El 5 de junio 2002, la LOC Network Development
and MARC Standards Office publicó un esquema XML
para codificar registros MARC21 - Este esquema, resultado del trabajo de la LOC,
OCLC, RLG - y revisado por la NLM y la National
Library of Canada sustituía a la iniciativa
anterior derivada de la DTD SGML - Este esquema está previsto que sirva para
codificar cualquier tipo de registro MARC
(bibliográfico, autoridades, etc.)
20Adaptar MARC a Internet estado actual
- El nuevo esquema pretende ir más allá de un mero
mecanismo de conversión, y así facilitar - La representación de registros MARC existentes en
formato XML - La representación de metadatos para facilitar el
harvesting del proyecto OAI (Open Archives
Initiative) - La descripción inicial de recursos utilizando
MARC - La codificación de metadatos MARC que puedan ser
incluidos como parte o junto a recursos de
información disponibles en formato electrónico
21Adaptar MARC a Internet estado actual
- El elemento raíz es collection, que tendrá un
elemento record para cada registro - El elemento record contendrá
- un elemento no vacío leader para la cabecera,
- Elementos no vacíos controlfield para cada campo
de control y - Elementos no vacíos datafield para cada campo de
datos - La cabecera se indica en un elemento leader
- Los campos de control se indican con elementos
controlfield. - Cada campo de control tendrá un atributo tag que
recogerá su código (éste se indica mediante 3
dígitos). Entre sus etiquetas de inicio y de fin
se escribirá su valor
22Adaptar MARC a Internet estado actual
- Los campos se representan mediante elementos
datafield - La etiqueta (nombre del campo) y los indicadores
se escriben como valores de los atributos tag,
ind1 y ind2 del elemento datafield - Los subcampos se tratan como elementos hijos
subfield - del elemento datafield correspondiente
al campo. - El código del subcampo se escriben como valor del
atributos code - El valor del subcampo se escribe entre las
etiquetas de inicio y fin del elemento subfield - PRACTICA Abrir el documento de ejemplo
sandburg.xml para ver un ejemplo
23Adaptar MARC a Internet estado actual
- La información que encontramos en MARC 2709 sobre
longitud de campos y las posiciones de inicio del
campo (el directorio) no se utilizan en el
esquema xml - Las posiciones de la cabecera del registro que no
son necesarias se mantienen, pero se dejan en
blanco - Se trata de un esquema más fácilmente procesable
y comprensible que la DTD anterior
24Adaptar MARC a Internet estado actual
- El esquema XML forma parte de una iniciativa
mayor framework -, que incluye el desarrollo de
distintas aplicaciones, utilidades e interfaces
para permitir - Transformaciones entre MARC (2709), MARC (xml)
Dublin Core y MODS (Metadata Object Description
Schema) forman parte de la iniciativa - Hojas de estilo para la presentación de la
información XML como HTML
25Adaptar MARC a Internet estado actual
- En el modelo propuesto se habla del esquema xml
como piedra angular para representar los datos
de una forma que sea fácilmente procesable por
distintas aplicaciones consumidoras xml
consumers - Los XML consumers procesan los documentos xml
codificados con el esquema anterior. Los
consumidores incluyen distintos tipos de
utilidades - Transformación de MARC xml a otros formatos de
metadatos - Presentación de registros MARC xml en un formato
fácilmente legible (html, pdf, etc.) - Validación de documentos, extracción de datos,
etc.
26Adaptar MARC a Internet estado actual
27Adaptar MARC a Internet estado actual
- Entre las utilidades que se han diseñado a partir
del esquema anterior, contamos con las
siguientes - MARC4J conversión de MARC 2709 a xml
- Hojas de estilo XSLT para convertir de MARC XML a
MODS, Dublin Core y OAI MARC (Open Archives
Initiative) - Hojas de estilo XSLT para presentar datos MARC en
HTML
28MARCXML Prácticas codificación
- Utilizando el esquema MARCXMLSlim.xsd y XML Spy,
codifica el siguiente registro MARC
29MARCXML Prácticas codificación
- Utilizando el esquema MARCXMLSlim.xsd y XML Spy,
codifica el siguiente registro MARC
30MARCXML Prácticas codificación
- Utilizando las utilidades de conversión, crea el
registro COLLECTION.xml a formato MODS, y a las
presentaciones HTML con etiquetas numéricas y con
textos en inglés.
31XMLMARC Stanford University
- XMLMARC es una iniciativa dirigida por Lane
Medical Library en la Universidad de Stanford, en
el ámbito de las bibliotecas digitales - La motivación analizar la viabilidad de adaptar
MARC a XML para facilitar la integración de
distintas fuentes de información y descripciones
de recursos - En diciembre 1999 publicaron una utilidad Java
que convertía registros MARC 2709 a formato XML,
de libre utilización. - El proyecto diseñó una DTD para codificar datos
bibliográficos y de autoridades - Como parte del proyecto se convirtieron 250.000
registros MARC a XML - http//xmlmarc.stanford.edu
32XMLMARC Stanford University
- El proyecto XMLMARC de Stanford sigue vivo
- Próximamente se presentará XOBIS v1.0a (XML
Organic Bibliographic Information Schema ) , un
esquema XML para codificar datos bibliográficos
que reemplazará al XMLMARC anteriormente usado en
este proyecto - Se puede obtener información detallada de este
formato en http//xobis.stanford.edu . Un
ejemplo de documento XML codificado según este
esquema se encuentra en el archivo
lanerecords.xml
33XMLMARC Stanford University
- La estructura de un registro XOBIS sigue el
siguiente modelo - ControlData metadatos acerca del registro
propiamente dicho fecha creación, tipo, etc. - Principal elements o Work element
- Relationships
34BiblioML
- Este es otro proyecto que muestra el interés
despertado por el lenguaje XML como mecanismo
para codificar información bibliográfica y de
autoridades UNIMARC - El proyecto subvencionado por el Ministère de la
culture et de la communication, France,
aparentemente está detenido - http//www.culture.fr/BiblioML/en/index.html
35MODS (Metadata Object Description Schema)
- Se trata de un proyecto reciente, liderado por la
LOC americana - Consiste en un esquema para codificar metadatos e
información bibliográfica utilizando XML - Se utilizan etiquetas alfanuméricas en lugar de
numéricas, y en ciertos casos se agrupan
elementos de MARC en un mismo elemento - De su mantenimiento se encarga la LOC NDMSO
- Última versión disponible 14 junio de 2002
v1.2. Estable por un periodo de 6 meses - http//www.loc.gov/standards/mods
36MODS (Metadata Object Description Schema)
- MODS no nos indica cómo transferir registros MARC
utilizando XML, sino que ofrece un mecanismo que
permite describir recursos con XML utilizando un
esquema que se sitúa a medio camino entre MARC y
Dublin Core - Aparentemente, MODS es la opción que debería
imponerse como sistema para la descripción de
recursos en Internet - Es más sofisticado que DC
- No es tan complejo como MARC
- Es más compatible con MARC que otros esquemas (la
pérdida de información en las transformaciones en
menor)
37MODS (Metadata Object Description Schema)
- MODS define un conjunto de elementos que son un
subconjunto del MARC21 Format for Bibliographic
Data - En total se definen 20 elementos (cada uno de
ellos con unos elementos hijos que matizan su
semántica) - Todos los elementos, excepto dos, y atributos son
opcionales - La LOC ha establecido un mapeo entre los
elementos MODS y los campos y subcampos de MARC - Práctica abrir el archivo mods99042030Book.xml y
ver su estructura. - La conversión entre MARC 2709 y MODS siempre se
hará mediante MARC XML nunca directamente.
38MODS (Metadata Object Description Schema)
- Los principales elementos en MODS son
- titleInfo es obligatorio. Contiene al menos un
elemento hijo llamado title - name correspondería al encabezamiento. Puede
ser de persona, organización o conferencia.El
tipo de encabezamiento se indica mediante un
atributo type que aceptará los valores personal,
corporate o conferencename puede incluir los
elementos hijos namePart, role, affiliation y
displayForm - typeOfResource tipo del recurso
39MODS (Metadata Object Description Schema)
- genre género. No tiene elementos hijos. Sólo
tiene un atributo authority que tomará el valor
marc. Su valor se tomará de la lista disponible
en la URLhttp//www.loc.gov/marc/sourcecode/genr
e/ - publicationInfo agrupa los datos sobre el
editor, mediante los elementos hijos placeCode,
place, publisher, dateIssued, dateCreated,
edition, etc. - language idioma del recurso
- physicalDescription descripción física del
recurso. Incluye los elementos hijos form,
extent, digitalOrigin, etc. - abstract resumen puede apuntar a un recurso
remoto
40MODS (Metadata Object Description Schema)
- tableOfContents incluirá una URL que apunta a
un recurso remoto con esta información - targetAudience audiencia a la que va dirigida
el contenido - note para codificar notas. Puede apuntar a una
nota disponible como un recurso externo mediante
un hipervínculo - cartographics para información cartográfica,
contiene los elementos hijos coordenadas, escala
y proyección - subject temas de los que trata el recurso.
Incluye los elementos hijos topic, geographic y
temporal.
41MODS (Metadata Object Description Schema)
- Classification código de clasificación según un
esquema de clasificación que se indicará en el
atributo authority de este elemento - relatedItem permite relacionar elementos
- Identifier ID del recurso. Puede ser un isbn,
issn, etc. Su tipo se indicará mediante un
atributo type - Location
- accessConditions
- Extension
- recordInfo contiene los siguientes elementos
hijos recordCreationDate, recordChangeDate,
recordIdentifier, etc.
42Conclusiones
- En los últimos 10 años se han lanzado distintas
iniciativas para complementar / sustituir MARC
con XML - El último modelo propuesto por la LOC parece más
fiable, y probablemente tenga una mayor
aceptación que la iniciativa de 1995 - MODS ofrece un esquema más completo que DC y más
próximo a MARC - El hecho de estar promovido por la LOC puede ser
un punto importante, aunque la experiencia de
MARC SGML puede repetirse - Actualmente, falta una documentación detallada
sobre cómo usar este nuevo esquema, para que
pueda considerarse una alternativa real a DC