Tema 5; XML en la descripci - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Tema 5; XML en la descripci

Description:

Title: MARC y XML Author: OleCenter Last modified by: Ricardo Eito Brun Created Date: 1/4/1980 1:18:13 AM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:113
Avg rating:3.0/5.0
Slides: 43
Provided by: OleC151
Category:
Tags: xml | descripci | java | tema

less

Transcript and Presenter's Notes

Title: Tema 5; XML en la descripci


1
Tema 5XML en la descripción de recursos
  • Ricardo Eíto Brun
  • Sevilla, 23-25 de octubre 2002

2
Introduction
  • Los formatos de marcas se han presentado como una
    alternativa/complemento a los sistemas de
    codificación de datos utilizados tradicionalmente
    por la comunidad bibliotecaria en la descripción
    de recursos
  • Desde mediados de los años 90 se han planteado
    distintas iniciativas en esta línea
  • El origen de estas iniciativas están distintas
    bibliotecas. Las iniciativas más importantes han
    sido lideradas por la Library of Congress

3
MARC y XML
  • Podemos señalar distintas líneas de trabajo
  • Diseño de modelos alternativos para la
    descripción de recursos (Dublin Core)
  • Adaptación de los modelos tradicionales MARC
    -, a los nuevos formatos Internet (xml)
  • El formato XML se ha presentado como una
    alternativa para representar y transferir
    registros MARC a través de Internet y facilitar
    su tratamiento automatizado

4
MARC y XML
  • Las ventajas de XML son
  • XML ofrece un sistema de codificación más simple
    y fácil de procesar que el utilizado actualmente
    para registros MARC (2709)
  • XML se presenta como un formato universal,
    utilizado en cualquier tipo de aplicación, frente
    al sistema de codificación actual de MARC
  • XML elimina complejidad innecesaria para los
    desarrolladores
  • Se pretende evitar la segregación de MARC
    frente a otros formatos de metadatos Internet
    utilizados en los proyectos de biblioteca
    electrónica

5
MARC y XML
  • Al mismo tiempo, MARC presenta ventajas frente a
    los formatos de metadatos que se han propuesto
    para el mundo Internet, como Dublin Core
  • Mayor capacidad expresiva
  • Soporte de más de 30 años por parte de la
    comunidad bibliotecaria y de la industria
    software especializado
  • Una semántica claramente definida, aceptada y
    adaptada a las distintas realidades nacionales
  • Cobertura a un amplio número de formatos y
    tipos de información (autoridades, datos
    bibliográficos, holdings, etc.)

6
MARC y XML
  • Resumiendo
  • MARC es un formato que permite codificar y
    transmitir un gran número de datos de una forma
    estandarizada y fácilmente procesable
  • El resto de alternativas que se an propuesto para
    la descripción de recursos adaptadas a Internet
    no ofrecen la expresividad o el nivel de detalle
    necesario
  • Estas alternativas se encuentran en fase de
    desarrollo, y no podemos garantizar su
    permanencia en un futuro

7
MARC y XML
  • Resumiendo
  • MARC no sólo es un estándar para facilitar el
    intercambio de información bibliográfica,
  • También se ha convertido en la base de los
    sistemas integrados de gestión bibliotecaria
    actuales

8
MARC y XML
  • Sin embargo, hay quien señala que MARC no es un
    formato óptimo para las necesidades actuales en
    lo referente a la descripción de recursos
  • MARC es sumamente complejo, la descripción es
    costosa y lenta para el gran número de recursos
    que tenemos que describir
  • El creciente número de recursos a describir nos
    obliga a plantear sistemas de indización
    descentralizados, que no requieran una
    formación tan compleja como la requerida para
    trabajar con MARC, ni mecanismos de entrada de
    datos tan complejos

9
MARC y XML
  • Los partidarios de alternativas a MARC
  • se basan más en la rapidez con que se podría
    describir los recursos, y
  • sacrifican la calidad y el detalle de la
    descripción de los recursos...

10
Adaptar MARC a Internet primeras iniciativas
  • Las primera iniciativa de la LOC se remonta a
    1992 con la inclusión del campo 856 (electronic
    location and access) en MARC
  • Este campo permitiría crear un enlace entre un
    registro bibliográfico y un recurso remoto
    disponible en formato electrónico
  • Proyectos como el OCLC Internet Cataloging
    (1994-1996) utilizaron este campo para codificar
    5000 registros de recursos Internet
  • El proyecto CATRIONA (CATaloguing and Retrieval
    of Information Over Network Applications) también
    utilizó el 856

11
Adaptar MARC a Internet primeras iniciativas
  • El campo 856 contiene la información necesaria
    para localizar y acceder a un recurso electrónico
    ... puede utilizarse en un registro
    bibliográfico de un recurso cuando éste o una
    parte del mismo esté disponible
    electrónicamente...
  • El primer indicador define el método de acceso
    al recurso electrónico. Si el recurso es
    accesible por más de un método, éste repite
  • El segundo indicador indica la relación entre el
    recurso electrónico identificado en el campo 856
    y el documento descrito en el registro como un
    todo

12
Adaptar MARC a Internet primeras iniciativas
  • Los valores posibles para el primer indicador
    son
  • - no se proporciona información
  • 0 correo electrónico
  • 1 FTP
  • 2 Telnet
  • 3 Llamada telefónica
  • 4 HTTP
  • 7 Un método distinto al anterior, que se habrá
    indicado en el subcampo 2.

13
Adaptar MARC a Internet primeras iniciativas
  • Los valores posibles para el segundo indicador
    son
  • - No se proporciona información
  • 0 Recurso. La localización electrónica hace
    referencia al mismo recurso descrito en el
    registro como un todo. Es decir, el ítem
    representado por el registro bibliográfico es un
    recurso electrónico
  • 1 versión del recurso. La localización
    electrónica hace referencia a la versión
    electrónica del recurso descrito en el registro.
    Es decir, el documento descrito mediante el
    registro no es electrónico, pero existe una
    versión en formato electrónico
  • 2 Recurso relacionado
  • 8 no hay una visualización asociada

14
Adaptar MARC a Internet primeras iniciativas
  • 245 10aProceedings of the Seminar
  • 856 40uhtp//www.loc.gov/seminar.html
  • 245 00aAnalyzing qualitative datec/edited by
  • 856 40uhtp//www.loc.gov/analyzing.html
  • 245 00aAmerican quarterly
  • 856 41uhtp//www.muse.edu/journals/amquarterly.ht
    m
  • 245 00aDocumentos de D. Pedro Valverde
  • 856 423Indiceuhtp//www.bne.es/pedroValverde.pdf

15
Adaptar MARC a Internet primeras iniciativas
  • SUBCAMPOS
  • a nombre del host de la localización
    electrónica
  • b número de acceso (dirección IP)
  • c información sobre la compresión
  • d ruta física
  • f nombre electrónico del fichero
  • k contraseña necesaria para acceder al recurso
  • m contacto para facilitar el acceso
  • p puerto
  • u URI o URL
  • y texto del enlace
  • 3 Especificación de materiales

16
Adaptar MARC a Internet primeras iniciativas
  • Una segunda iniciativa de la LOC consistió en
    adaptar MARC a SGML, iniciada en 1995
  • El objetivo era crear una DTD que permitiese la
    conversión de registros MARC a SGML y viceversa
    -, sin pérdida de información
  • Se diseñaron 2 DTDs, para datos bibliográficos /
    fondos y para autoridades / clasificación y una
    aplicación PERL para la conversión de MARC 2709 a
    MARC SGML y viceversa
  • Las DTD se publicaron en mayo 1996. La utilidad
    de conversión se inició en julio 1997. En enerp
    1998 se hizo pública.
  • Posteriormente, estas DTDs se migraron a XML para
    adaptarlas al nuevo escenario tecnológico

17
Adaptar MARC a Internet primeras iniciativas
  • El programa de conversión de MARC a SGML/XML
    utiliza PERL y nsgmls
  • Estas utilidades de libre distribución se pueden
    descargar de
  • http//www.perl.com
  • http//www.jclark.com/sp
  • En el diseño de las DTD y utilidades de
    conversión participaron las empresasa Mulberry
    Technologies y ATLIS Consulting Group

18
Adaptar MARC a Internet primeras iniciativas
  • Las DTD para XML y SGML contenían un elemento XML
    para cada campo y subcampo de MARC
  • Por ejemplo, para el elemento 245 MARC, en la DTD
    se incluía un elemento mrcb245, un mrcb245-b,
    mrcb245-c, etc.
  • Estos campos se agrupaban en otros elementos,
    como por ejemplo mrcb-title-and-title-related,
    mrcb-subject-access, etc.
  • Los campos de control variables 008 contaban
    con un elemento para cada posición o ítem del
    que contienen información, etc...
  • Esto hacía que la DTD y los registros fuesen muy
    largos
  • PRACTICA Abrir con XML Spy el archivo
    mrcbxmlfile

19
Adaptar MARC a Internet estado actual
  • El 5 de junio 2002, la LOC Network Development
    and MARC Standards Office publicó un esquema XML
    para codificar registros MARC21
  • Este esquema, resultado del trabajo de la LOC,
    OCLC, RLG - y revisado por la NLM y la National
    Library of Canada sustituía a la iniciativa
    anterior derivada de la DTD SGML
  • Este esquema está previsto que sirva para
    codificar cualquier tipo de registro MARC
    (bibliográfico, autoridades, etc.)

20
Adaptar MARC a Internet estado actual
  • El nuevo esquema pretende ir más allá de un mero
    mecanismo de conversión, y así facilitar
  • La representación de registros MARC existentes en
    formato XML
  • La representación de metadatos para facilitar el
    harvesting del proyecto OAI (Open Archives
    Initiative)
  • La descripción inicial de recursos utilizando
    MARC
  • La codificación de metadatos MARC que puedan ser
    incluidos como parte o junto a recursos de
    información disponibles en formato electrónico

21
Adaptar MARC a Internet estado actual
  • El elemento raíz es collection, que tendrá un
    elemento record para cada registro
  • El elemento record contendrá
  • un elemento no vacío leader para la cabecera,
  • Elementos no vacíos controlfield para cada campo
    de control y
  • Elementos no vacíos datafield para cada campo de
    datos
  • La cabecera se indica en un elemento leader
  • Los campos de control se indican con elementos
    controlfield.
  • Cada campo de control tendrá un atributo tag que
    recogerá su código (éste se indica mediante 3
    dígitos). Entre sus etiquetas de inicio y de fin
    se escribirá su valor

22
Adaptar MARC a Internet estado actual
  • Los campos se representan mediante elementos
    datafield
  • La etiqueta (nombre del campo) y los indicadores
    se escriben como valores de los atributos tag,
    ind1 y ind2 del elemento datafield
  • Los subcampos se tratan como elementos hijos
    subfield - del elemento datafield correspondiente
    al campo.
  • El código del subcampo se escriben como valor del
    atributos code
  • El valor del subcampo se escribe entre las
    etiquetas de inicio y fin del elemento subfield
  • PRACTICA Abrir el documento de ejemplo
    sandburg.xml para ver un ejemplo

23
Adaptar MARC a Internet estado actual
  • La información que encontramos en MARC 2709 sobre
    longitud de campos y las posiciones de inicio del
    campo (el directorio) no se utilizan en el
    esquema xml
  • Las posiciones de la cabecera del registro que no
    son necesarias se mantienen, pero se dejan en
    blanco
  • Se trata de un esquema más fácilmente procesable
    y comprensible que la DTD anterior

24
Adaptar MARC a Internet estado actual
  • El esquema XML forma parte de una iniciativa
    mayor framework -, que incluye el desarrollo de
    distintas aplicaciones, utilidades e interfaces
    para permitir
  • Transformaciones entre MARC (2709), MARC (xml)
    Dublin Core y MODS (Metadata Object Description
    Schema) forman parte de la iniciativa
  • Hojas de estilo para la presentación de la
    información XML como HTML

25
Adaptar MARC a Internet estado actual
  • En el modelo propuesto se habla del esquema xml
    como piedra angular para representar los datos
    de una forma que sea fácilmente procesable por
    distintas aplicaciones consumidoras xml
    consumers
  • Los XML consumers procesan los documentos xml
    codificados con el esquema anterior. Los
    consumidores incluyen distintos tipos de
    utilidades
  • Transformación de MARC xml a otros formatos de
    metadatos
  • Presentación de registros MARC xml en un formato
    fácilmente legible (html, pdf, etc.)
  • Validación de documentos, extracción de datos,
    etc.

26
Adaptar MARC a Internet estado actual
27
Adaptar MARC a Internet estado actual
  • Entre las utilidades que se han diseñado a partir
    del esquema anterior, contamos con las
    siguientes
  • MARC4J conversión de MARC 2709 a xml
  • Hojas de estilo XSLT para convertir de MARC XML a
    MODS, Dublin Core y OAI MARC (Open Archives
    Initiative)
  • Hojas de estilo XSLT para presentar datos MARC en
    HTML

28
MARCXML Prácticas codificación
  • Utilizando el esquema MARCXMLSlim.xsd y XML Spy,
    codifica el siguiente registro MARC

29
MARCXML Prácticas codificación
  • Utilizando el esquema MARCXMLSlim.xsd y XML Spy,
    codifica el siguiente registro MARC

30
MARCXML Prácticas codificación
  • Utilizando las utilidades de conversión, crea el
    registro COLLECTION.xml a formato MODS, y a las
    presentaciones HTML con etiquetas numéricas y con
    textos en inglés.

31
XMLMARC Stanford University
  • XMLMARC es una iniciativa dirigida por Lane
    Medical Library en la Universidad de Stanford, en
    el ámbito de las bibliotecas digitales
  • La motivación analizar la viabilidad de adaptar
    MARC a XML para facilitar la integración de
    distintas fuentes de información y descripciones
    de recursos
  • En diciembre 1999 publicaron una utilidad Java
    que convertía registros MARC 2709 a formato XML,
    de libre utilización.
  • El proyecto diseñó una DTD para codificar datos
    bibliográficos y de autoridades
  • Como parte del proyecto se convirtieron 250.000
    registros MARC a XML
  • http//xmlmarc.stanford.edu

32
XMLMARC Stanford University
  • El proyecto XMLMARC de Stanford sigue vivo
  • Próximamente se presentará XOBIS v1.0a (XML
    Organic Bibliographic Information Schema ) , un
    esquema XML para codificar datos bibliográficos
    que reemplazará al XMLMARC anteriormente usado en
    este proyecto
  • Se puede obtener información detallada de este
    formato en http//xobis.stanford.edu . Un
    ejemplo de documento XML codificado según este
    esquema se encuentra en el archivo
    lanerecords.xml

33
XMLMARC Stanford University
  • La estructura de un registro XOBIS sigue el
    siguiente modelo
  • ControlData metadatos acerca del registro
    propiamente dicho fecha creación, tipo, etc.
  • Principal elements o Work element
  • Relationships

34
BiblioML
  • Este es otro proyecto que muestra el interés
    despertado por el lenguaje XML como mecanismo
    para codificar información bibliográfica y de
    autoridades UNIMARC
  • El proyecto subvencionado por el Ministère de la
    culture et de la communication, France,
    aparentemente está detenido
  • http//www.culture.fr/BiblioML/en/index.html

35
MODS (Metadata Object Description Schema)
  • Se trata de un proyecto reciente, liderado por la
    LOC americana
  • Consiste en un esquema para codificar metadatos e
    información bibliográfica utilizando XML
  • Se utilizan etiquetas alfanuméricas en lugar de
    numéricas, y en ciertos casos se agrupan
    elementos de MARC en un mismo elemento
  • De su mantenimiento se encarga la LOC NDMSO
  • Última versión disponible 14 junio de 2002
    v1.2. Estable por un periodo de 6 meses
  • http//www.loc.gov/standards/mods

36
MODS (Metadata Object Description Schema)
  • MODS no nos indica cómo transferir registros MARC
    utilizando XML, sino que ofrece un mecanismo que
    permite describir recursos con XML utilizando un
    esquema que se sitúa a medio camino entre MARC y
    Dublin Core
  • Aparentemente, MODS es la opción que debería
    imponerse como sistema para la descripción de
    recursos en Internet
  • Es más sofisticado que DC
  • No es tan complejo como MARC
  • Es más compatible con MARC que otros esquemas (la
    pérdida de información en las transformaciones en
    menor)

37
MODS (Metadata Object Description Schema)
  • MODS define un conjunto de elementos que son un
    subconjunto del MARC21 Format for Bibliographic
    Data
  • En total se definen 20 elementos (cada uno de
    ellos con unos elementos hijos que matizan su
    semántica)
  • Todos los elementos, excepto dos, y atributos son
    opcionales
  • La LOC ha establecido un mapeo entre los
    elementos MODS y los campos y subcampos de MARC
  • Práctica abrir el archivo mods99042030Book.xml y
    ver su estructura.
  • La conversión entre MARC 2709 y MODS siempre se
    hará mediante MARC XML nunca directamente.

38
MODS (Metadata Object Description Schema)
  • Los principales elementos en MODS son
  • titleInfo es obligatorio. Contiene al menos un
    elemento hijo llamado title
  • name correspondería al encabezamiento. Puede
    ser de persona, organización o conferencia.El
    tipo de encabezamiento se indica mediante un
    atributo type que aceptará los valores personal,
    corporate o conferencename puede incluir los
    elementos hijos namePart, role, affiliation y
    displayForm
  • typeOfResource tipo del recurso

39
MODS (Metadata Object Description Schema)
  • genre género. No tiene elementos hijos. Sólo
    tiene un atributo authority que tomará el valor
    marc. Su valor se tomará de la lista disponible
    en la URLhttp//www.loc.gov/marc/sourcecode/genr
    e/
  • publicationInfo agrupa los datos sobre el
    editor, mediante los elementos hijos placeCode,
    place, publisher, dateIssued, dateCreated,
    edition, etc.
  • language idioma del recurso
  • physicalDescription descripción física del
    recurso. Incluye los elementos hijos form,
    extent, digitalOrigin, etc.
  • abstract resumen puede apuntar a un recurso
    remoto

40
MODS (Metadata Object Description Schema)
  • tableOfContents incluirá una URL que apunta a
    un recurso remoto con esta información
  • targetAudience audiencia a la que va dirigida
    el contenido
  • note para codificar notas. Puede apuntar a una
    nota disponible como un recurso externo mediante
    un hipervínculo
  • cartographics para información cartográfica,
    contiene los elementos hijos coordenadas, escala
    y proyección
  • subject temas de los que trata el recurso.
    Incluye los elementos hijos topic, geographic y
    temporal.

41
MODS (Metadata Object Description Schema)
  • Classification código de clasificación según un
    esquema de clasificación que se indicará en el
    atributo authority de este elemento
  • relatedItem permite relacionar elementos
  • Identifier ID del recurso. Puede ser un isbn,
    issn, etc. Su tipo se indicará mediante un
    atributo type
  • Location
  • accessConditions
  • Extension
  • recordInfo contiene los siguientes elementos
    hijos recordCreationDate, recordChangeDate,
    recordIdentifier, etc.

42
Conclusiones
  • En los últimos 10 años se han lanzado distintas
    iniciativas para complementar / sustituir MARC
    con XML
  • El último modelo propuesto por la LOC parece más
    fiable, y probablemente tenga una mayor
    aceptación que la iniciativa de 1995
  • MODS ofrece un esquema más completo que DC y más
    próximo a MARC
  • El hecho de estar promovido por la LOC puede ser
    un punto importante, aunque la experiencia de
    MARC SGML puede repetirse
  • Actualmente, falta una documentación detallada
    sobre cómo usar este nuevo esquema, para que
    pueda considerarse una alternativa real a DC
Write a Comment
User Comments (0)
About PowerShow.com