Projeto X-Finder Agents - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Projeto X-Finder Agents

Description:

Projeto X-Finder Agents Recupera o e Indexa o de p ginas especializadas na Web Disciplina: Intelig ncia Artificial Simb lica Professora: Fl via Barros – PowerPoint PPT presentation

Number of Views:100
Avg rating:3.0/5.0
Slides: 23
Provided by: Gebe9
Category:

less

Transcript and Presenter's Notes

Title: Projeto X-Finder Agents


1
Projeto X-Finder Agents
  • Recuperação e Indexação de páginas especializadas
    na Web
  • Disciplina Inteligência Artificial Simbólica
  • Professora Flávia Barros

2
X-Finder Agents
  • Andamento
  • A cada novo assunto pertinente apresentado, será
    proposta 1 tarefa cujo resultado será
    posteriormente avaliado em uma aula de
    laboratório
  • Teremos 3 tarefas ao todo (3 etapas do projeto),
    segundo o cronograma de aulas da página do curso
  • Grupos
  • No máximo, 4 alunos por equipe

o que não é pertinente será cobrado em uma
lista de exercícios
3
Páginas Especializadas
  • Páginas especializadas estrutura na Web
  • apesar da aparência caótica, a Web pode ser vista
    como um aglomerado de classes particulares de
    páginas
  • essas páginas especializadas têm em comum
    características sintáticas (formato) e semânticas
    (conteúdo)
  • Exemplos
  • FAQs, páginas de hotéis, páginas pessoais,
    chamadas de trabalho (cfp), lista de artigos,
    restaurantes, classificados, cinemas, ...

4
Páginas Especializadas
  • Exemplo página de publicações

5
Arquitetura do Sistema
Busca por palavras-chave do domínio (ex.
Publications)
Engenhos de Busca tradicionais (ex. Google)
Web
URLs Páginas HTML recuperadas
Classificador
Base de Índices Específica
Consulta palavras-chave
URLs classificadas positivamente
URLs recuperadas
6
Objetivo
  • Projeto básico (para todos)
  • Implementar um conjunto de agentes capazes de
    recuperar, classificar e indexar páginas
    especializadas
  • Extensões eventuais
  • (a) prover extração de informação
  • (b) estender a busca com as palavras mais comuns
    (ex. bolo, carnes, ...)
  • (c) introduzir conectores lógicos para consulta a
    posteriori
  • (d) notificação personalizada

7
Etapa 1 Criar o corpus
  • Identificar palavras-chave a serem usadas nas
    consultas aos engenhos de busca genéricos
  • ex. conference, symposium e call for papers
    para o caso das páginas de chamadas de trabalho
  • ex. receitas, ingredientes para o caso de
    receitas culinárias
  • Montar um corpus de páginas à mão

8
Etapa 1 Criar o corpus
  • Criação manual do corpus
  • Fazer consultas a Engenhos de Busca usando as
    palavras-chaves identificadas
  • Separar páginas positivas (que pertencem à classe
    escolhida) das negativas
  • Armazená-las em um BD (ou arquivo) indicando se
    são positivas ou negativas
  • url, classe, arquivo html
  • Recolher 300 páginas
  • 200 positivas e 100 negativas
  • Separar o corpus em dois
  • Treinamento (140 páginas e 70 páginas -)
  • Teste (60 páginas e 30 páginas -)

9
Etapa 2 Montar a Base de Regras
  • Com base no corpus de treinamento, identificar
    possíveis regras de classificação
  • Se a palavra publications aparece no título
  • E existem parágrafos com nomes de conferências ou
    congressos
  • Então é uma página de publicações
  • Implementar as regras de classificação
  • Reutilizar uma classe que manipula arquivos html
  • (www.cin.ufpe.br/compint/aulas-IAS/programas/Pagi
    naWWW.java)
  • utilizar JEOPS ou Clips

10
Montar regras com fator de certeza associado
  • Montar regras com fator de certeza (F.C.)
    associado
  • Objetivo melhorar a precisão do sistema
  • Se evidência1 Então pag.positiva com F.C. de
    chance
  • O F.C. é calculado pelo do Teorema de Bayes
  • P(pag.pos evidência1)
  • P(pag.pos evidência1) / P(evidência1)
  • Onde
  • P(pag.pos evidência1) é a probabilidade de uma
    página ser positiva dado que a evidência1 ocorreu
  • P(pag.pos evidência1) é a quantidade de páginas
    positivas que contêm a evidência1
  • P(evidência1) é a quantidade de páginas positivas
    e negativas (o corpus inteiro) que contêm a
    evidência1

11
Utilizar as regras com fator de certeza associado
  • Quando a máquina de inferência dispara regras com
    a mesma conclusão, ela deve combinar os F.C.
    associados
  • O objetivo é calcular a probabilidade final de
    uma dada página ser positiva
  • P-atual P-anterior P-nova (1 - P-anterior)
  • Por exemplo
  • Se evidência1 Então pag.positiva com 90
  • Se evidência2 Então pag.positiva com 85
  • P-atual 0,9 0,85 (1 - 0,90)
  • Quando a máquina de inferência pára, teremos a
    probabilidade final de uma página ser positiva
  • Em JEOPS, pode-se implementar a probabilidade
    acumulada no objeto

12
Etapa 2 Regras com fator de certeza associado
  • A probabilidade final é comparada a um limiar
  • Se P-final gt limiar Então página positiva
  • Cada classificador poderá usar um limiar
    diferente
  • O limiar é calculado iterativamente com base na
    F-measure para o corpus de treinamento
  • 1. Escolher um limiar inicial (p. ex. 60)
  • 2. Calcular F-measure
  • 3. Aumentar o limiar em 0.5 e calcular F-measure
  • 4. Repetir passo 3 até F-measure começar a piorar
  • 5. Escolher para o sistema o limiar que
    apresentou melhor F-measure
  • Com base no corpus de teste, medir o desempenho
    do sistema classificador
  • Precisão, Cobertura e F-measure

13
Etapa 2 Avaliação final do sistema
  • Precisão
  • total de páginas classificadas corretamente como
    positivas sobre o total de páginas classificadas
    como positivas (sendo elas positivas ou negativas
    no corpus)
  • Cobertura
  • total de páginas classificadas corretamente como
    positivas sobre o total de páginas positivas
    existentes no corpus
  • F-measure
  • 2 cobertura precisão
  • cobertura precisão

14
Etapa 2 Avaliação final do sistema
  • Exemplo
  • total de páginas do corpus 200
  • total de páginas positivas do corpus 170
  • total de páginas negativas do corpus 30
  • total de páginas positivas classificadas
    corretamente como positivas 130
  • total de páginas negativas classificadas como
    positivas 20
  • total geral de páginas classificadas como
    positivas 150
  • Precisão 130 / 150 0,87
  • Cobertura 130 / 170 0,76
  • F-measure (2 0,87 0,76) / (0,87 0,76)
  • 1,32 / 1,63 0,81

15
Etapa 3 Aprendizagem Automática
  • Preparar o corpus
  • enxugar o texto, inclusive tirando tags
  • escolher as palavras mais pertinentes (TFIDF)
  • compor o vetor de representação
  • Escolher alguns algoritmos de aprendizagem (ID3,
    RN, Bayes, etc.)
  • codificar os exemplos
  • rodar os algoritmos e obter os resultados
  • Avaliar os métodos de classificação
  • dedutivo x indutivo discutir resultados!

16
Etapa 4 Ontologias
  • A definir

17
Etapa 5 Criar Base de Índices
  • Tendo construído o classificador (regras ou
    aprendizagem)
  • criar base de índices com as páginas pertencentes
    à classe desejada
  • stop-list, arquivos invertidos, ...
  • utilizar inicialmente apenas as páginas do corpus
  • prover interface para consulta (simples!)
  • Opcional automatizar busca na Web a fim de
    alimentar a base de índices automática e
    periodicamente

18
Etapa 5 - opcional Implementar Protótipo
  • Automatizar consulta a mecanismos de busca
  • Reutilizar/programar as classes para acesso aos
    mecanismos de busca
  • Identificar estrutura da página de resposta do
    mecanismo de busca para extração dos links
  • ex. terceira linha, depois de um ltLIgt...
  • Automatizar extração de links das respostas
  • Reutilizar/programar uma classe que manipula
    arquivos html
  • Automatizar atualização e indexação periódicas da
    base de índices

19
Etapa 6 - opcional
  • Se der tempo, dividir os grupos para estender o
    trabalho em alguma das seguintes direções
  • (a) prover extração de informação
  • (b) estender a busca com as palavras mais comuns
    (ex. bolo, carnes, ...)
  • (c) introduzir conectores lógicos para consulta a
    posteriori
  • (d) fazer notificação personalizada

20
Referências
  • Internet Categorization and Search A
    Self-Organizing Approach, Hsinchun Chen,
    University of Arizona, 1996.
  • Learning from Hotlists and Coldlists Towards a
    WWW information filtering and seeking agent,
    Michael Pazzani, University of California.
  • The State of the Art in Text Filtering, Douglas
    W. Oard, University of Maryland, 1997.
  • BRight a Distributed System for Web Information
    Indexing and Searching, Pedro Falcão Silvio
    Meira, Universidade Federal de Pernambuco.

21
Referências
  • Ontologies for Enhancing Web Searches' Precision
    and Recall, Flávia A. Barros, Pedro F. Gonçalves,
    Universidade Federal de Pernambuco.
  • Information Retrieval Data Structures
    Algorithms, Willian B. Frakes e Ricardo
    Baeza-Yates, Prentice Hall, 1992.
  • Filtragem e Recomendação de Documentos na Web.
    Uma Abordage Usando Java, José Abelardo Sánchez
    Cardoza, Universidade Federal de Pernambuco, 1998.

22
Referências - links
  • Universidade de Maryland
  • http//www.cs.umbc.edu/abir/
  • http//www.cs.umbc.edu/agents/
  • Intelligent Software Agents
  • http//www.sics.se/ps/abc/survey.html
  • MIT Media Lab
  • http//lcs.www.media.mit.edu/groups/agents/resourc
    es
  • Sycaras Page
  • http//almond.srv.cs.cmu.edu/afs/cs/user/katia/www
    /katia-home.html
  • Sasdwedish Institute of Computer Science
  • http//www.dsv.su.se/fk/if_Doc/IntFilter.html
Write a Comment
User Comments (0)
About PowerShow.com