Tar - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Tar

Description:

Tar ntula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes – PowerPoint PPT presentation

Number of Views:64
Avg rating:3.0/5.0
Slides: 21
Provided by: DanielG181
Category:
Tags: servlets | tar

less

Transcript and Presenter's Notes

Title: Tar


1
Tarântula
  • Sistema de Recolha de Documentos na Web
  • por
  • Daniel Coelho Gomes

2
Apresentação de estágio
  • Contexto
  • Tarântula
  • Aplicações
  • Conclusões e trabalho futuro

3
Instituição de acolhimento
  • LaSIGE - Laboratório de Sistemas Informáticos de
    Grande Escala
  • é uma unidade de investigação do DI da FCUL
  • diferentes grupos
  • diferentes áreas de trabalho
  • XLDB - research group
  • sistemas de informação com ênfase para a gestão
    em grande escala de dados distribuídos na
    Internet

4
Motivação
  • Vulgarização da utilização da Internet
  • Mais utilizadores
  • Mais publicadores
  • Mais documentos online
  • Mais informação disponível
  • Maior fonte de informação do mundo,
    praticamente inexplorada face às suas
    potencialidades.

5
Como tirar proveito de toda esta informação
disponível?
6
  • Criação de novos sistemas direccionados para a
    Web
  • Motores de busca
  • gerais
  • especializados
  • Recuperação de Informação (IR)
  • Prospecção de Dados (Data Mining)

7
Para processar a informação disponível na WWW, as
aplicações necessitam de recolher conteúdos de
forma sistemática.
8
Tarântula
  • Modulo de recolha de conteúdos online
  • Integrável
  • Configurável
  • Escalável

9
Sistemas de Recolha
  • Crawler, spider, robot, wanderer, worm, etc.
  • Funcionamento conceptualmente simples
  • recolha iterativa de conteúdos, a partir de URLs
  • Complexidade variante consoante a aplicação
  • Pouca documentação

10
Requisitos de um crawler
  • Robusto à anarquia da Web
  • HTML mal formado
  • servidores em baixo ou muito lentos
  • Regras de bom comportamento
  • REP
  • Não sobrecarregar servidores Web
  • Monitorização e controlo de acções

11
Casos de uso do Tarântula
12
Arquitectura
13
Modelo de Dados
14
Tecnologias
  • Dados de Configuração e Dados de Execução SQL e
    PostgreSQL.
  • Interface de Configuração e Gestão HTML, Java
    Servlets.
  • Monitor de Tarefas class Java, que estabelece
    uma ligação JDBC com o PostgreSQL.
  • Interpretador do Protocolo de Exclusão, Extractor
    de URLs e Conversor de Links analisadores
    léxicos escritos em Java.
  • Coordenador e Coleccionador aplicações
    multi-threaded desenvolvidas em Java.

15
Aplicações
  • DROP
  • Biblioteca Nacional
  • Recolha, armazenamento e consulta de publicações
    online
  • Cópias fieis dos originais
  • TUMBA
  • Motor de busca da Web Portuguesa
  • Grande quantidade de docs num intervalo de tempo
    relativamente curto

16
Exemplo
  • Configuração
  • 126 publicações online
  • restrito ao servidor base
  • profundidade máxima 3
  • todos os tipos de documento

17
Caracterização das publicações online Portuguesas
  • bem cuidadas (HTTP 404 4)
  • documentos pequenos (2 a 32 KB)
  • tipos facilmente tratáveis (gif, html, jpeg)
  • acessíveis a robots (REP 1 servidor)

18
Conclusões
  • Integração e configuração fácil
  • Bem comportado
  • Ponto de congestão
  • PostgreSQL
  • Capacidade de recolha insuficiente para recolhas
    em grande escala (73 docs/seg)
  • Escalabilidade?
  • expansão do sistema com mais Coleccionadores
  • distribuição de componentes por diversas máquinas

19
Trabalho futuro
  • Escalabilidade à dimensão da Web Portuguesa
  • Resolução dos pontos de congestão
  • Arquitectura distribuída
  • Colaboração com um repositório de dados
  • Novas funcionalidades
  • detector de idioma
  • informação para ranking dos documentos

20
FIM
Write a Comment
User Comments (0)
About PowerShow.com