Minera - PowerPoint PPT Presentation

About This Presentation
Title:

Minera

Description:

Minera o na Web Prepara o dos documentos Fl via Barros CIn-UFPE * – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0
Slides: 35
Provided by: fbf4
Category:

less

Transcript and Presenter's Notes

Title: Minera


1
Mineração na Web
  • Preparação dos documentos
  • Flávia Barros

2
Roteiro
  • Revisão
  • Etapas dos Sistemas de Recuperação de Informação
  • Preparação dos documentos
  • Operações sobre o texto
  • Criação da representação do documento

3
Sistemas de Recuperação de Informação
  • Etapas principais
  • Preparação dos documentos
  • Indexação dos documentos
  • Busca (casamento com a consulta do usuário)
  • Ordenação dos documentos recuperados

4
Preparação dos documentos Duas Fases
  • Operações sobre o texto
  • objetivo criar a visão lógica do documento
  • Criação da representação do documento
  • Utilizando algum modelo de RI

5
Visão lógica do documento
  • Conjunto de termos usados para representar
    (indexar) o documento
  • Vamos tratar aqui apenas documentos textuais
  • A seleção desses termos pode ser
  • Manual
  • Realizada por um especialista
  • Ex., um bibliotecário (em sistemas de
    bibliotecas)
  • Automática
  • Termos são automaticamente extraídos do texto
  • Ex., a maioria dos sistemas automáticos de RI

6
Visão lógica do documento Seleção automática de
termos
  • Duas opções
  • Usar o texto completo ou selecionar os termos
    mais representativos
  • Texto completo
  • Visão lógica mais completa do documento
  • Porém tem alto custo computacional
  • Adotada por sistemas com bases de documentos
    pequenas por alguns engenhos de busca na Web

7
Visão lógica do documento Seleção automática de
termos
  • Conjunto reduzido de termos
  • Obtido através de Operações sobre o texto
  • O objetivo é selecionar os termos que melhor
    descrevem o documento
  • Reduzindo assim a complexidade da representação
    do documento
  • Representação mais comum Centróide
  • Lista de termos com pesos associados ou não
  • Problema perda do contexto

8
Seleção automática de termos Operações sobre o
texto
  • Fases
  • Análise léxica
  • Elimina dígitos, pontuação, etc
  • Eliminação de stopwords
  • Artigos, pronomes, etc
  • Operação de stemming
  • Redução da palavra ao seu radical
  • Identificação de grupos nominais
  • Ex., Recuperação de Informação

9
Seleção automática de termos Operações sobre o
texto
  • Cada fase de operação de texto pode utilizar
    diferentes técnicas na sua implementação
  • Cada sistema de RI implementa uma ou mais dessas
    fases
  • A escolha depende do tipo de sistema desejado

10
Operações sobre o texto Fases
  • Operações sobre o texto reduzem progressivamente
    a visão lógica do documento

Texto completo
Lista reduzida de termos
11
Operações sobre o textoAnálise léxica
  • Entrada
  • O texto original
  • uma cadeia de caracteres
  • Objetivo
  • Converter o texto original em uma lista de
    palavras
  • Identificando as palavras que ocorrem no texto
  • Procedimento padrão
  • Utilizar espaços como sendo separadores de
    palavras
  • Tratar pontuação, hífens, dígitos, e letras
    maiúsculas e minúsculas
  • Cada caso pode requerer tratamentos diferenciados

12
Análise léxica Tratamento de pontuação e hífens
  • Geralmente, todos os caracteres de pontuação são
    removidos
  • . , ! ? -
  • Porém, há casos em que eles são mantidos por
    serem necessários
  • Código de programa dentro do texto
  • Variável x.id ? xid
  • URLs de Sites na Web
  • Caso do hífen
  • Palavras compostas e prefixos
  • Guarda-chuva, pré-processamento
  • Alguns termos compostos
  • state-of-the-art

13
Análise léxica Eliminação de dígitos
  • Geralmente, dígitos são removidos por serem vagos
  • Por não terem uma semântica associada quando
    aparecem isolados
  • Ex. 1910 (ano, peso, tamanho???)
  • Contudo, dígitos associados a alguns
    termos/caracteres especiais podem ser importantes
  • 510dC
  • dC não significa nada em isolamento
  • Windows95, X3PO,...

14
Análise léxica Substituição de letras maiúsculas
  • Objetivo principal
  • Tornar a representação homogênea
  • Facilitar a recuperação do documento a partir de
    consultas
  • Exceções
  • Carneiro
  • Animal ou nome próprio?
  • Banco instituição financeira
  • banco - assento

15
Operações sobre o textoAnálise léxica
  • Como visto, existem diversas exceções a tratar
  • Isso depende da aplicação, do domínio do sistema,
    etc...
  • Sugestão
  • Preparar lista de exceções e tratar caso a caso
  • Engenhos de busca
  • Geralmente, não eliminam nada
  • Funcionam em todos os domínios...
  • Indexam o texto completo com sua pontuação,
    dígitos, etc...

16
Operações sobre o textoEliminação de stopwords
  • Algumas palavras não são bons discriminadores
  • Palavras muito freqüentas na base de documentos
  • Palavras sem semântica associada
  • artigos, preposições, conjunções, alguns
    advérbios e adjetivos
  • Aqui também há exceções a considerar
  • Em domínios específicos, podemos precisar manter
    algumas dessas palavras
  • Redes de computadores

17
Operações sobre o textoEliminação de stopwords
  • Vantagens
  • Diminui a representação do texto
  • Melhora a ordenação na recuperação
  • TF-IDF
  • Desvantagens
  • Diminui a precisão na recuperação
  • Ex., ser ou não ser
  • Somente o termo ser será usado na indexação
    documento
  • Mais uma razão para os engenhos de busca
    utilizarem representação do texto completo

18
Operações sobre o texto Stemming
  • Problema
  • Freqüentemente, o usuário especifica uma palavra
    na consulta, mas apenas uma variação dessa
    palavra aparece nos documentos relevantes
  • Ex., plural, gerúndio, verbos flexionados,
    aumentativo...
  • Objetivo dessa operação
  • Substituir a palavra por seu radical (stem)
  • Porção da palavra que resta após a remoção de
    prefixos e sufixos
  • Possibilitar casamento parcial entre variações de
    uma mesma palavra
  • Ex. engenheiro, engenharia,...

19
Operações sobre o texto Técnicas de stemming
  • Table look-up
  • Mantém uma tabela de radicais de palavras
  • Procedimento simples, porém necessita de dados
    sobre os todos os radicais da língua
  • Successor variety
  • Considera os morfemas da língua
  • meninos
  • Procedimento complexo e muito dependente da língua

20
Operações sobre o texto Técnicas de stemming
  • Remoção de afixos (prefixos e sufixos)
  • Algoritmo de Porter
  • Considera que a remoção de sufixos é mais
    importante que a de prefixos
  • A maioria das variações de palavras é gerada por
    sufixos
  • Usa uma regra de redução para cada sufixo
  • O livro texto traz o algoritmo completo para a
    língua inglesa
  • Procura pela maior seqüência de letras que casa
    com alguma regra
  • Plural sses ? ss, ies ? i , ss ? ss, s
    ? ?

21
Operações sobre o texto Técnicas de stemming
  • Algoritmo de Porter
  • Outras regras de redução
  • ed -gt 0
  • ing -gt 0

22
Operações sobre o texto Técnicas de stemming
  • Para o Português, o problema é mais complexo
  • Plural
  • existe um número muito maior de formas de fazer
    plural em português
  • Para substantivos, artigos e alguns adjetivos
  • Precisamos de regras para tratar aumentativo,
    diminutivo, feminino, masculino,...
  • Número de regras para flexões verbais também
    aumenta consideravelmente

23
Operações sobre o texto Stemming
  • Snowball
  • Uma linguagem para processamento de strings
    específica para criar algoritmos de stemming
    para RI
  • http//snowball.tartarus.org/
  • Veja algoritmo disponível para Português em
  • http//snowball.tartarus.org/algorithms/portuguese
    /stemmer.html
  • O site também traz exemplo de stoplist para
    Português

24
StemmingExemplo do Snowball para Português
word
stem
 
 
 
quiloquilométricasquilométricosquilômetroquilô
metrosquilosquímicaquímicasquímicoquímicosqu
imioterapiaquimioterápicos
 
  gt  
 
quil quilométrquilométrquilômetrquilômetrquil
químicquímicquímicquímicquimioterapquimioter
áp
25
Operações sobre o texton-grams
  • Uma alternativa ao uso de stemmers...
  • Uma n-gram é uma subsequência de n itens de uma
    dada sequência
  • Os items podem ser fonemas, letras, palavras...
  • Uma n-gram de tamanho 1 é chamada de "unigram"
    de tamanho 2 é "bigram, etc, e de tamanho 5 ou
    mais é apenas chamada de "n-gram".
  • O objetivo é o mesmo da operação de stemming
  • Cortar a palavra para possibilitar casamento
    parcial entre variações de uma mesma palavra

26
Operações sobre o textoThesaurus
  • Dicionário de sinônimos de uma língua
  • Eg., WordNet
  • Thesaurus podem ser também definidos para
    domínios específicos
  • Entradas contêm palavras isoladas ou termos
    compostos
  • Para cada entrada, o thesaurus pode trazer
  • Sinônimos, antônimos, kind-of, part-of,...
  • Classe gramatical
  • E, às vezes, uma definição do termo

27
Operações sobre o textoThesaurus
  • Uso de thesaurus em sistemas de RI
  • Auxilia na seleção de termos relevantes para
    indexar o documento
  • Auxilia no processamento da consulta
  • Expansão de termos
  • Objetivo principal de usar thesaurus de um
    domínio específico em sistemas de RI
  • Restringir o sistema a um vocabulário controlado
    para indexação e busca de documentos

28
Operações sobre o textoThesaurus
  • Para sistemas na Web em inglês, usa-se o WordNet
    com freqüência
  • http//wordnet.princeton.edu/

29
Operações sobre o texto Identificação de Grupos
Nominais
  • Objetivo identificar grupos nominais (termos
    compostos) para indexar o documento
  • Ex., Recuperação de Informação, Inteligência
    Artificial
  • Procedimentos
  • Selecionar substantivos do texto, eliminando
    sistematicamente palavras de outras classes
    gramaticais
  • Usando uma stoplist ou
  • usando um etiquetador automático (parts-of-
    speech tagger) para determinar a classe das
    palavras e/ou
  • usando um thesaurus da língua ou do domínio
  • Agrupar substantivos para formar termos compostos

30
Identificação de Grupos Nominais
  • Como agrupar substantivos para formar termos
    compostos
  • Considerando os grupos nominais identificados
    pelo tagger
  • Considerando a distância entre os termos no texto
  • Número de palavras entre os dois substantivos
  • Ex., Recuperação de Informação
  • Apenas uma palavra (de)
  • Extraindo esses termos de um thesaurus do domínio
  • Pode conter um vocabulário controlado de termos
    em vez de palavras isoladas

31
Preparação dos documentos Criação da
Representação do Documento
  • Entrada
  • Visão lógica do documento
  • Lista de termos representativos do documento
  • Saída
  • Representação final do documento
  • Termos representativos da base peso associados
    a cada termo
  • Dependente do modelo de RI escolhido
  • Booleano, espaço vetorial, probabilista...
  • Aulas passadas

32
Operações sobre a Consulta
  • Em geral...
  • Quando possível, devem ser usadas aqui as mesmas
    operações utilizadas para criar a visão lógica do
    documento, e.g.,
  • limpeza das stopwords, uso de stemming,
    thesaurus...
  • Porém, existem mais operações a serem realizadas
    na consulta
  • Assunto da próxima aula...

33
Criação da Representação da Consulta
  • Entrada
  • Visão lógica da consulta
  • Saída
  • Representação final da consulta
  • Dependente do modelo de RI escolhido
  • Booleano, espaço vetorial, probabilista...
  • Aulas passadas

34
Próxima aulaConsultas - queries
  • Como tratar as Consultas a um sistema de RI
  • Linguagens e Operações
Write a Comment
User Comments (0)
About PowerShow.com