Avalia - PowerPoint PPT Presentation

About This Presentation
Title:

Avalia

Description:

Avalia o De Sistemas De Recupera o De Informa o (RI): Panor mica E Reflex es Rachel Virg nia Xavier Aires 27 de junho de 2002 – PowerPoint PPT presentation

Number of Views:148
Avg rating:3.0/5.0
Slides: 64
Provided by: Rache96
Category:
Tags: sigir | avalia

less

Transcript and Presenter's Notes

Title: Avalia


1
Avaliação De Sistemas De Recuperação De
Informação (RI)
  • Panorâmica E Reflexões

Rachel Virgínia Xavier Aires 27 de
junho de 2002
2
Avaliação De Sistemas De RI Panorâmica
  • O que avaliar
  • Como avaliar
  • Avaliação de máquinas de busca
  • Planejamento de uma avaliação de máquinas de busca

3
O Que Avaliar
  • Qual o objetivo da avaliação?
  • Fazer uma avaliação do sistema
  • Fazer uma avaliação dos usuários
  • Fazer uma avaliação do sistema pensando nos
    usuários

4
Avaliando O Sistema (1-5)
  • Que forma de indexação funciona melhor?
  • Qual algoritmo de RI é melhor?

O Que Avaliar
5
Avaliando O Sistema (2-5)
  • As avaliações são feitas com um conjunto de
    documentos, um conjunto de consultas e um
    conjunto de respostas
  • A comparação em geral é feita através de duas
    medidas recall e precision (ambas serão
    explicadas em como avaliar)

O Que Avaliar
6
Avaliando O Sistema (3-5)
  • Exemplos de avaliação deste tipo são as
    avaliações do TREC
  • Estas iniciativas são importantes para melhorar a
    qualidade sob o ponto de vista técnico de RI
  • Exemplos de iniciativas semelhantes são as do
    japão e china

O Que Avaliar
7
Avaliando O Sistema (4-5)
  • Críticas
  • Credibilidade
  • Ambiente de laboratórios X ambiente real
  • Relevância dos julgamentos (em como avaliar)
  • Generalidade
  • As consultas são representativas?
  • Coleções de texto pequenas e mais voltadas para
    ciência e tecnologia

O Que Avaliar
8
Avaliando O Sistema (5-5)
  • Críticas
  • Utilidade
  • Alguns sistemas tem de ser avaliados segundo
    outros critérios
  • A precisão está relacionada a visão do usuário de
    um bom sistema?
  • Comprovação teórica
  • Recall e precision têm algum significado para o
    usuário?
  • Diferenças estatísticas entre estas medidas são
    significante em contextos e situações reais?

O Que Avaliar
9
Avaliando Os Usuários (1-3)
  • Comportamento (processo de explorar a informação)
    e satisfação dos usuários na busca
  • Eficiência do sistema
  • Se as necessidades do usuário foram atendidas
  • Se a informação recuperada é útil ou não
  • Se a interface é amigável

O Que Avaliar
10
Avaliando Os Usuários (2-3)
  • Estas avaliações promoveram avanços
  • Para conhecer as necessidades dos usuários
  • Novos sistemas de RI, como os que passaram a
    incluir interfaces de interação gráfica
  • Novas informações sobre que recursos podem ajudar
    o usuário a encontrar recursos relevantes
  • E principalmente serviram para mostrar que
    relevância é um conceito dinâmico e situacional

O Que Avaliar
11
Avaliando Os Usuários (3-3)
  • Problemas
  • Os pesquisadores deste tipo de avaliação são
    experientes em teorias e métodos e raramente em
    tecnologia não sabem como fazer sistemas de
    acordo com seus resultados ou traduzi-los de
    forma que outros possam fazer
  • É difícil comparar ou resumir os resultados
    porque são utilizados dados, métodos e níveis de
    análise diferentes
  • São estudos em geral focados em públicos
    específicos
  • Não estão relacionados a públicos grandes e
    diferenciados
  • As análises levam de meses a anos

O Que Avaliar
12
Avaliando O Sistema Considerando Os Usuários (1-2)
  • Questões entre estes dois paradigmas (Saracevic,
    1995)
  • Quanto sucesso teve e tem a RI em resolver o
    problema da explosão de informação?
  • Quão bem a RI dá suporte às pessoas em situações
    difíceis quando têm de escolher entre diversas
    opções?
  • Como toda esta informação, associada a tecnologia
    de RI existente, afeta nosso trabalho, lazer,
    sociedade, cultura?

O Que Avaliar
13
Avaliando O Sistema Considerando Os Usuários (2-2)
  • Estas questões devem ser respondidas já que o
    propósito geral de uma avaliação é aumentar as
    chances de um determinado sistema de RI ser
    adotado e utilizado.
  • Só é possível respondê-las com análises de
    sistemas associadas a análises de usuários e
    unindo as pesquisas de laboratório as situações
    reais, contextos, indivíduos e organizações.

O Que Avaliar
14
Avaliação De Sistemas De RI Reflexões
  • O que avaliar
  • Como avaliar
  • Avaliação de máquinas de busca
  • Planejamento de uma avaliação de máquinas de busca

15
Como Avaliar
  • Nem uma técnica proporciona por si só uma
    avaliação completa.
  • Nem todos os critérios e medidas são necessários
    para todos os contextos.
  • Como a performance é medida através de
    benchmarks, a performance é válida apenas para o
    ambiente em que foi medida.

16
Como Avaliar
  • É difícil construir corpora.
  • Benchmarks pra web ainda estão sendo construídos.
  • Não existem banchmarks para várias línguas. Como
    é o caso do português.

17
Precision e Recall(precisão e revocação)
Como Avaliar
18
Precision E Recall No TREC
  • Sumário estatístico número de tópicos, número de
    documentos recuperados, número de documentos
    relevantes.
  • Recall-precision precisão média em 11 níveis de
    recall (de 0 a 1, de 0.1 em 0.1).
  • Precisão média quando 5, 10, .., 100, 1000
    documents são recuperados.
  • Recall-precision para cada tópico e a média de
    recall-precision para cada um dos sistemas para
    aquele tópico.

Como Avaliar
19
Dificuldades em medir
  • Eficiência está relacionada à relevância dos
    documentos recuperados
  • Não é fácil de calcular este número
  • O que é relevante?
  • Vai usar uma medida binária (sim/não) ou não?
  • A forma não binária é mais natural

Como Avaliar
20
Dificuldades em medir
  • A relevância é
  • Subjetiva depende do julgamento
  • Situacional relacionada as necessidades atuais
    do usuário
  • Cognitiva
  • Dinâmica

Como Avaliar
21
Fallout
  • Problemas com precision e recall
  • Número de documentos irrelevantes não é
    considerado.
  • Como medir o recall se não existir documento
    relevante no conjunto de documentos?
  • Como medir precision se nenhum documento for
    recuperado?

Como Avaliar
22
Outras Medidas
  • Diferença simétrica normalizada.
  • Fornece a diferença proporcional entre o conjunto
    de documentos relevantes e irrelevantes
    recuperados por um sistema. Quanto menor a
    diferença, melhor o sistema em recuperar todos os
    documentos relevantes para uma dada consulta.

Como Avaliar
23
Medidas subjetivas De relevância
  • Novelty Proporção de items relevantes
    recuperados que o usuário não conhecia.
  • Habilidade de encontrar nova informação sobre um
    tópico.
  • Coverage Proporção de items relevantes
    recuperados que usuário já conhecia.
  • Quando o usuário quer encontrar documentos que
    ele já conhecia.

Como Avaliar
24
Particularidades da avaliação de sistemas RI na
web
Precision A / AC Recall A / AB
Como Avaliar
Na Web não temos B Difícil obter A e C
25
Avaliação De Sistemas De RI Reflexões
  • O que avaliar
  • Como avaliar
  • Avaliação de máquinas de busca
  • Planejamento de uma avaliação de máquinas de busca

26
Particularidades Da Avaliação De Máquinas De Busca
  • O que é mais importante recall ou precision?
  • Devido a generalidade desta aplicação o recall e
    precision realmente não servem como medidas
    únicas

27
Particularidades Da Avaliação De Máquinas De Busca
  • Apesar das dificuldades em definir os número de
    documentos relevantes recuperados e não
    recuperados a maioria dos estudos compara
    máquinas de busca utilizando recall e/ou
    precision
  • Por exemplo, olhando as 2 primeiras páginas de
    resultados (Gwizdka Chignell,1999)

28
Medidas Utilizadas
  • Composição dos índices freqüência de atualização
    e tamanho
  • Capacidade de busca o que a máquina de busca
    permite usar
  • Performance além de precision e recall usam
    tempo de resposta
  • Apresentação da saída
  • Esforço do usuário quão difícil é para um
    usuário comum utilizar a máquina de busca

Particularidades da avaliação de máquinas de busca
29
Medidas Sugeridas Por Gwizdka Chignell (1-5)
  • Sugerem que não se considere tempo de resposta.
    Pois apesar de ser uma medida importante é uma
    medida muito instável.
  • Falam de documentos relevantes, documentos
    indiretamente relevantes e não relevantes.
  • Propõe uma medida de precisão que considere a
    posição do item relevante (se entre os 10
    primeiros tem um peso maior).

Particularidades da avaliação de máquinas de busca
30
Medidas Sugeridas Por Gwizdka Chignell (2-5)
  • Definem 4 tipos de precisão que variam de acordo
    com a forma que a relevância é utilizada full
    precision, best precision, useful precision e
    objective precision.

Particularidades da avaliação de máquinas de busca
31
Medidas Sugeridas Por Gwizdka Chignell (3-5)
  • Full precision - considera a pontuação associada
    a cada hit
  • Best precision - considera apenas os hits mais
    relevantes
  • Useful precision - considera apenas os hits mais
    relevantes e os que contém links para os mais
    relevantes
  • Objective precision - não requer julgamentos de
    relevância. É baseada na presença ou ausência de
    termos requisitados e na distinção entre links
    bons e ruins

Particularidades da avaliação de máquinas de busca
32
Medidas Sugeridas Por Gwizdka Chignell (4-5)
  • A precisão é medida para os 20 primeiros itens
    recuperados

Particularidades da avaliação de máquinas de busca
33
Medidas Sugeridas Por Gwizdka Chignell (5-5)
  • Propõe uma medida de esforço baseada na medida de
    tamanho da busca (número de documentos
    irrelevantes antes de um documento relevante)
    diferencia as paginas indiretamente relevantes.
  • Número de links ruins e de links duplicados.

Particularidades da avaliação de máquinas de busca
34
Clickthrough Data
  • Avaliação baseada totalmente nos cliques de
    usuários. Não requer julgamentos ou feedback por
    parte do usuário.
  • Se o usuário clica em mais documentos de uma
    máquina de busca do que nos de outra tal máquina
    retornou resultados mais relevantes (Joachims,
    2002).

Particularidades da avaliação de máquinas de busca
35
Avaliação De Sistemas De RI Reflexões
  • O que avaliar
  • Como avaliar
  • Avaliação de máquinas de busca
  • Planejamento de uma avaliação de máquinas de busca

36
Planejamento De Uma Avaliação De Máquinas De Busca
  • O que interessa verificar sobre uma máquina de
    busca? Exemplos
  • Qual é a melhor máquina de busca sobre medicina?
  • Qual a melhor máquina de busca para encontrar
    artigos científicos?
  • Para diferentes necessidades, diferentes medidas
    e formas de proceder a avaliação

37
Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português
  • Qual a melhor para as perguntas mais freqüentes?
  • Qual o tamanho estimado do índice de cada uma das
    máquinas de busca?
  • Como o índice vem sendo alterado ao longo do
    tempo (volume, que tipo de conteúdo, etc)?

38
Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português
  • Qual a freqüência com que seus índices são
    atualizados (freshness)?
  • Como é a intersecção (overlap) entre as máquinas
    de busca?
  • Qual a freqüência de links que não existem mais?

39
Questões Interessantes Sobre As Máquinas De Busca
Para Português
  • É fácil encontrar artigos?
  • Como é seu desempenho na busca por serviços
    on-line?
  • Dão suporte a estudantes em suas pesquisas para o
    colégio?
  • Qual a melhor para perguntas que estão freqüentes
    em um determinado período?
  • Islã, tiazinha, etc

40
O Que Definir
  • Que mecanismos de busca avaliar
  • Que consultas utilizar
  • Como selecionar as consultas
  • Filtrar ou não as consultas
  • Quantas consultas
  • Como julgar a relevância dos resultados

41
Que Mecanismos De Busca Avaliar (1-2)
  • Somente máquinas de busca ou máquinas de busca e
    diretórios?
  • Só serviços de busca gratuitos?
  • Somente máquinas de busca genéricas ou também
    máquinas especializadas em um determinado
    assunto?
  • Os meta searchers devem ser avaliados ou não,
    somente quando possuem também algum mecanismo de
    busca próprio?

42
Que Mecanismos De Busca Avaliar (2-2)
  • Avaliar apenas as máquinas de busca que só
    indexam páginas em português ou também as que
    indexam várias línguas incluindo o português?
  • Quantas máquinas de busca avaliar?
  • Quais máquinas avaliar?
  • www.cade.com.br, www.todobr.com.br, www.sapo.pt,
    www.tumba.pt, www.google.com

43
Que Consultas Utilizar (1-2)
  • Selecionando dentre as consultas mais freqüentes
    do log de uma máquina de busca ou dentre todas
  • Retirando uma amostra aleatória
  • Removendo os assuntos que não se quer avaliar e
    então retirar uma amostra
  • Escolher entre as consultas sobre um dado assunto
  • Escolher uma amostra seguindo proporções
  • Uma determinada porcentagem de questões com
    apenas 2 palavras, com apenas 3, com frases
  • Questões em linguagem natural

44
Que Consultas Utilizar (2-2)
  • Elaborar uma lista de consultas manualmente.
  • Para por exemplo, avaliar o desempenho das
    máquinas de busca para pesquisa científica.
  • Solicitar que bibliotecários elaborem uma lista
    de consultas para representar diferentes
    necessidades de usuários.
  • Traduzir listas de consultas utilizadas em outros
    estudos, por exemplo CLEF.

45
Filtrar Ou Não As Consultas
SPC CEE CET SdPM
  • Nem sempre é possível interpretar os objetivos
    por trás de uma consulta.
  • Utilizar juízes humanos para escolher dentre as
    consultas quais possuem pelo menos um objetivo
    possível.
  • ou
  • Coletar consultas com um grupo pequeno de
    usuários e solicitar que explicitem o objetivo.

46
Filtrar Ou Não As Consultas
  • Nem sempre é possível interpretar os objetivos
    por trás de uma consulta.
  • Utilizar juízes humanos para escolher dentre as
    consultas quais possuem pelo menos um objetivo
    possível.
  • ou
  • Coletar consultas com um grupo pequeno de
    usuários e solicitar que explicitem o objetivo.

47
Quantas Consultas
  • Quantas consultas para avaliar a precisão?
  • 03 (Pratt Fragan, 2000 Notess, 2000), 04
    (Notess, 2002)
  • 07 (Consumidor S.A Moreira)
  • 15 (Gwizdka Chignell 1999 Notess, 1999)
  • 18 (Bruza et al, 2000), 20 (CNET.com), 50
    (Hawking et al, 1999)
  • Acima de 50 (Hawking et al, 2001 Li et al, 2001)
  • Quantas consultas para avaliar critérios que
    devem ser avaliados com uma freqüência maior? Por
    exemplo, freshness.

48
A Relevância Ou Não Dos Documentos (1-3)
  • Dentre os documentos retornados como resposta,
    quantos julgar?
  • Os primeiros 10 (CNET.com Chu Rosenthal, 1996
    Hawking et al, 2001), 20 (Gwizdka Chignell,
    1999 Hawking et al, 1999 Li et al, 2001 Su et
    al, 1998) de cada máquina (1ª e 2ª páginas de
    resultados)?
  • Quem irá julgar a relevância?
  • O grupo que está realizando a avaliação (Chu
    Rosenthal, 1996) pesquisadores da área.
  • Pessoas que não são de RI nem de computação. Por
    exemplo, usuários interessados em um determinado
    assunto. (Pratt Fagan, 2000).
  • Bibliotecários. (Chu Rosenthal, 1996)

49
A Relevância Ou Não Dos Documentos (2-3)
  • O julgamento será binário?
  • Relevante e não relevante
  • Relevante, pouco relevante e irrelevante
  • Níveis de relevância (Su et al, 1998 Gwidka
    Chignell, 1999)
  • Haverá apenas um objetivo para cada consulta?

50
A Relevância Ou Não Dos Documentos (2-3)
SPC - Sociedade de Proteção ao Crédito SPC - Só
para contrariar
  • O julgamento será binário?
  • Relevante e não relevante
  • Relevante, pouco relevante e irrelevante
  • Níveis de relevância (Su et al, 1998 Gwidka
    Chignell, 1999)
  • Considerar apenas um objetivo para cada consulta?

51
A Relevância Ou Não Dos Documentos (3-3)
  • Que instruções dar aos juizes? (Hawking et al,
    2000)
  • Não considerem a avaliação do documento anterior
    na avaliação atual
  • Não considerem a qualidade do documento, vejam
    apenas se trata do assunto questionado
  • Não importa a veracidade das informações

52
Avaliação De Sistemas De RI Reflexões
  • É possível realizar uma avaliação conjunta de RI
    tomando por base os critérios das já existentes
    e/ou atualizando-os para as necessidades atuais
  • É necessário criar uma base de consultas e
    documentos relevantes para português

53
Avaliação De Sistemas De RI Reflexões
  • Para quaisquer das tarefas de RI é possível fazer
    avaliações mais detalhadas individuais e
    participar de avaliações conjuntas como o TREC e
    CLEF
  • É necessário criar uma base de consultas e
    documentos relevantes para português

54
Como Criar Esta Base Cooperativamente?
  • Definir como criar os tópicos
  • Que assuntos
  • Por exemplo 20 consultas, avaliando os primeiros
    30 resultados de 5 mb
  • Definir o processo de medir relevância
  • Definir um processo de adicionar novos tópicos
    nas avaliações seguintes
  • Compatível com o TREC?

55
O Que Vamos Avaliar Cooperativamente
  • Sugestões sob o ponto de vista de uma base da
    web
  • Recuperação de informação na web
  • Recuperação de informação multilíngüe
  • Filtering
  • Question answering
  • Information extraction
  • Sumarização de documentos da web

56
Referências
  • (Bruza et al, 2000) Peter Bruza Robert McArthur
    Simon Dennis. Interactive Internet Search
    keyword, directory and query reformulation
    mechanisms compared. www.guidebeam.com/sigir00.pdf
  • (CNET.com) CNET.com. Search Engines Shoot-out.
    http//www.cnet.com/software/0-352106-7-276936.htm
    l?tagtxt
  • (Chu Rosenthal, 1996). Heting Chu Marilyn
    Rosenthal. Search Engines the World Wide Web A
    comparative study and evaluation methodology.
    ASIS 1996. http//www.asis.org/annual-96/Electroni
    cProceedings/chu.html
  • (Consumidor S.A) http//server.digipronto.com.br/i
    dec.org.br/consumidorsa/arquivo/jun99/aval.htm

57
Referências
  • (Cooper, 1968) W. S. Cooper. Expected search
    length A single measure of retrieval
    effectiveness based on weak ordering action of
    retrieval systems. Journal of the American
    Society for Information Science, 19, 30-41. 1968.
  • (Greisdorf Spink, 2001) Howard Greisdorf
    Amanda Spink. Median Measure an approach to IR
    systems evaluation. Information Processing and
    Management 37, 843-857. 2001.
  • (Gwizdka Chignell,1999) Jacek Gwizdka Mark
    Chignell. Towards Information Retrieval Measures
    for Evaluation of Web Search Engines.
    http//www.imedia.mie.utoronto.ca/jacekg/pubs/web
    IR_eval1_99.pdf

58
Referências
  • (Hawking et al, 1999) David Hawking Nick
    Craswell Donna Harman. Results and Challenges in
    Web Search Evaluation. http//www8.org/w8-papers/2
    c-search-discover/results/results.html
  • (Hawking et al, 2000) David Hawking Nick
    Craswell Peter Bailey Kathy Griffiths.
    Measuring Search Engine Quality. Journal of
    Information Retrieval. http//www.wkap.nl/journalh
    ome.htm/1386-4564.
  • (Hawking et al, 2001)David Hawking Nick
    Craswell Kathleen Griffiths. Which search engine
    is best at finding online services?
    http//citeseer.nj.nec.com/455030.html
  • (Joachims, 2002) Thorsten Joachims. Evaluating
    Search Engines using Clickthrough Data. 2002.
    http//www.cs.cornell.edu/People/tj/publications/j
    oachims_02b.pdf

59
Referências
  • (Li et al, 2001) Longzhuang Li Yi Shang Wei
    Zhang. Relevance evaluation of search
    enginesquery results. http//www10.org/cdrom/post
    ers/1017.pdf
  • (Moreira) Wálter Moreira. Eficácia dos mecanismos
    de busca brasileiros na internet.
    http//intermega.globo.com/biblio_fespsp/artigos.h
    tm
  • (Notess, 1999) Greg R. Notess. Comparing Internet
    Search Engines. http//www.csu.edu.au/special/onli
    ne99/proceedings99/103a.htm
  • (Notess, 2000) Greg R. Notess. Seacrh Engine
    Statistics Dead links report. http//www.notess.c
    om/search/stats/deads.shtml.

60
Referências
  • (Notess, 2002) Greg R. Notess. Seacrh Engine
    Statistics Unique Hits Report.
    http//www.notess.com/search/stats/unique.html.
  • (Pratt Fagan, 2000) Wanda Pratt Lawrence
    Fagan. The usefulness of dynamically categorizing
    search results. Journal of the American Medical
    Informatics Association, Vol 7, 6, 2000.
  • (Rijsbergen, 1979) C. J. van RIJSBERGEN.
    Information Retrieval. 1979. Disponível em
    http//www.dcs.gla.ac.uk/Keith/Preface.html.
  • (Robertson Teather, 1974) S.E. Robertson D.
    Teather. A statistical analysis of retrieval
    tests a Bayesian approach. Journal of
    Documentation, 30, 273-282. 1974.

61
Referências
  • (Saracevic, 1995) T. Saracevic. (1995).
    Evaluation of evaluation in information
    retrieval. Proceedings og SIGIR 95, 138-146.
    http//www.scils.rutgers.edu/muresan/Docs/sigirSa
    racevic1995.pdf
  • (Su et al, 1998) L. T. Su H. Chen X. Dong.
    Evaluation of Web-based search engines from the
    end-users perspective a pilot study.
    Proceedings of the Annual Conference for the
    American Society for Information Science,
    348-361.
  • (Swets, 1963) J. A. Swets. Information Retrieval
    Systems. Science, 141, 245-250. 1963.
  • (Wishard, 1998) Lisa Wishard. Precision Among
    Internet Search Engines An Earth Sciences Case
    Study. http//www.library.ucsb.edu/istl/98-spring/
    article5.html

62
Referências
  • (Wu Sonnenwald, 1999) Mei-Mei Wu Diane H.
    Sonnenwald. Reflections in Information Retrieval
    Evaluation. Proceedings of the 1999 EBTI, ECAI,
    SEER PNC Joint Meeting, 63-81.
    http//pnclink.org/events-report/1999/Proceedings/
    wu-mm.pdf

63
Lista de mecanismos de busca
  • Brasil
  • www.todobr.com.br
  • www.cade.com.br
  • Portugal
  • www.paginasamarelas.pt
  • www.gertrudes.pt
  • www.sapo.pt
  • www.aeiou.pt
  • Genéricas
  • www.google.com
  • www.altavista.com.br
  • www.fast.no
Write a Comment
User Comments (0)
About PowerShow.com