Indexado de texto completo en textos digitalizados - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Indexado de texto completo en textos digitalizados

Description:

'Indexado de texto completo en textos digitalizados' ... Material organizado por inventario y p ginas ... Inventario. N mero de p gina. Sistema de archivos: ReiserFS ... – PowerPoint PPT presentation

Number of Views:158
Avg rating:3.0/5.0
Slides: 15
Provided by: YO49
Category:

less

Transcript and Presenter's Notes

Title: Indexado de texto completo en textos digitalizados


1
Indexado de texto completo en textos
digitalizados
  • 5a Jornada sobre la Biblioteca Digital
    Universitaria
  • 9 Noviembre de 2007
  • Marcio Luis Andrade Lessa
  • Biblioteca Nacional de Maestros

2
En que consiste
  • Es un buscador que le da al usuario la
    posibilidad de buscar frases o palabras en textos
    digitalizados en formato de imagen.

3
El material en una biblioteca digital se somete a
  • Catalogación
  • Digitalización
  • Indexado de texto completo del contenido

4
Catalogación
  • Interfases de catalogación
  • IsisMarc Catalis Aguapey
  • Software de catalogación y OPAC
  • microIsis OpenIsis - Malette

5
Proceso para la digitalización
  • Imágenes registro asociado y metadatos
  • Digitalización de videos registro asociado y
    metadatos
  • Texto en imagen se lo digitaliza y se realiza un
    control de calidad.
  • OCR Se realiza de manera automática un
    conocimiento óptico de caracteres y se somete a
    algoritmos de depuración.
  • Indexación Se alimenta una base de datos con el
    documento asociado.

6
Organización del material
  • Material organizado por inventario y páginas
  • Software que actúa como book reader con
    conversión automática de formatos.
  • Software para streaming de los videos
    digitalizados

7
Almacenaje
00011354
Inventario
00011354 - 0003 . JPG
Número de página
Sistema de archivos ReiserFS (Permite hasta
2.000.0000 de archivos por directorio) Imagen
200-360 DPI (2 MBY aprox en JPG)
8
Automatización
  • Se cataloga el material agregando el registro
    correspondiente a la base de datos.
  • Se procede a la digitalización del material en
    las estaciones de trabajo
  • Control de calidad del material digitalizado
  • Ejecución de script de actualización del
    buscador

9
Reconocimiento óptico de caracteres
  • Se tiene un porcentaje bajo de errores en la
    digitalización el mas bajo es de 2 para
    implementar un buscador en un muy buen índice de
    errores
  • Software GOCR Ocrad
  • Mediante IPC (Interprocess comunication)
  • Salida mediante una (pipe)

10
Algoritmos de depuración
  • Por distancia vectorizado de palabras
  • Algoritmo de Bayer
  • B-Tree

11
Software de bases de datos
  • Se puede implementar en
  • Berkeley DB (base de datos no relacional MySQL y
    Oracle fueron construidos con ella)
  • MYSQL o cualquier otro motor de base datos
    relacional
  • ZODB (Base datos orientada a objetos Python)

12
Arquitectura informática
Estaciones de trabajo
Cluster Linux etherblades GFS
Servicios Sitio web
Catálogos
Lectura de documentos on-line
Streaming de video
Internet
13
Conclusiones
  • Pros
  • Manera fácil y barata de implementar un buscador
    de texto completo en imágenes utilizando software
    libre.
  • Se realiza todo de manera casi automatizada.
  • Contras
  • El material debe estar en buen estado y hay
    ciertas restricciones a algunas tipografías de
    los documentos (dependiendo del OCR).
  • Hay que realizar una buena gestión de la calidad
    en los documentos digitalizados.

14
Contacto
  • Marcio Luis Andrade Lessa
  • Biblioteca Nacional de Maestros
  • Teléfono 4129-1203
  • E-Mail mandrade_at_me.gov.ar
Write a Comment
User Comments (0)
About PowerShow.com