Minera - PowerPoint PPT Presentation

About This Presentation

Title:

Minera

Description:

Minera o na Web Prepara o dos documentos Fl via Barros CIn-UFPE * – PowerPoint PPT presentation

Number of Views:84

Avg rating:3.0/5.0

Slides: 35

Provided by: fbf4

Category:

more less

Transcript and Presenter's Notes

Title: Minera

1
Mineração na Web

Preparação dos documentos
Flávia Barros

2
Roteiro

Revisão
Etapas dos Sistemas de Recuperação de Informação
Preparação dos documentos
Operações sobre o texto
Criação da representação do documento

3
Sistemas de Recuperação de Informação

Etapas principais
Preparação dos documentos
Indexação dos documentos
Busca (casamento com a consulta do usuário)
Ordenação dos documentos recuperados

4
Preparação dos documentos Duas Fases

Operações sobre o texto
objetivo criar a visão lógica do documento
Criação da representação do documento
Utilizando algum modelo de RI

5
Visão lógica do documento

Conjunto de termos usados para representar
(indexar) o documento
Vamos tratar aqui apenas documentos textuais
A seleção desses termos pode ser
Manual
Realizada por um especialista
Ex., um bibliotecário (em sistemas de
bibliotecas)
Automática
Termos são automaticamente extraídos do texto
Ex., a maioria dos sistemas automáticos de RI

6
Visão lógica do documento Seleção automática de
termos

Duas opções
Usar o texto completo ou selecionar os termos
mais representativos
Texto completo
Visão lógica mais completa do documento
Porém tem alto custo computacional
Adotada por sistemas com bases de documentos
pequenas por alguns engenhos de busca na Web

7
Visão lógica do documento Seleção automática de
termos

Conjunto reduzido de termos
Obtido através de Operações sobre o texto
O objetivo é selecionar os termos que melhor
descrevem o documento
Reduzindo assim a complexidade da representação
do documento
Representação mais comum Centróide
Lista de termos com pesos associados ou não
Problema perda do contexto

8
Seleção automática de termos Operações sobre o
texto

Fases
Análise léxica
Elimina dígitos, pontuação, etc
Eliminação de stopwords
Artigos, pronomes, etc
Operação de stemming
Redução da palavra ao seu radical
Identificação de grupos nominais
Ex., Recuperação de Informação

9
Seleção automática de termos Operações sobre o
texto

Cada fase de operação de texto pode utilizar
diferentes técnicas na sua implementação
Cada sistema de RI implementa uma ou mais dessas
fases
A escolha depende do tipo de sistema desejado

10
Operações sobre o texto Fases

Operações sobre o texto reduzem progressivamente
a visão lógica do documento

Texto completo
Lista reduzida de termos
11
Operações sobre o textoAnálise léxica

Entrada
O texto original
uma cadeia de caracteres
Objetivo
Converter o texto original em uma lista de
palavras
Identificando as palavras que ocorrem no texto
Procedimento padrão
Utilizar espaços como sendo separadores de
palavras
Tratar pontuação, hífens, dígitos, e letras
maiúsculas e minúsculas
Cada caso pode requerer tratamentos diferenciados

12
Análise léxica Tratamento de pontuação e hífens

Geralmente, todos os caracteres de pontuação são
removidos
. , ! ? -
Porém, há casos em que eles são mantidos por
serem necessários
Código de programa dentro do texto
Variável x.id ? xid
URLs de Sites na Web
Caso do hífen
Palavras compostas e prefixos
Guarda-chuva, pré-processamento
Alguns termos compostos
state-of-the-art

13
Análise léxica Eliminação de dígitos

Geralmente, dígitos são removidos por serem vagos
Por não terem uma semântica associada quando
aparecem isolados
Ex. 1910 (ano, peso, tamanho???)
Contudo, dígitos associados a alguns
termos/caracteres especiais podem ser importantes
510dC
dC não significa nada em isolamento
Windows95, X3PO,...

14
Análise léxica Substituição de letras maiúsculas

Objetivo principal
Tornar a representação homogênea
Facilitar a recuperação do documento a partir de
consultas
Exceções
Carneiro
Animal ou nome próprio?
Banco instituição financeira
banco - assento

15
Operações sobre o textoAnálise léxica

Como visto, existem diversas exceções a tratar
Isso depende da aplicação, do domínio do sistema,
etc...
Sugestão
Preparar lista de exceções e tratar caso a caso
Engenhos de busca
Geralmente, não eliminam nada
Funcionam em todos os domínios...
Indexam o texto completo com sua pontuação,
dígitos, etc...

16
Operações sobre o textoEliminação de stopwords

Algumas palavras não são bons discriminadores
Palavras muito freqüentas na base de documentos
Palavras sem semântica associada
artigos, preposições, conjunções, alguns
advérbios e adjetivos
Aqui também há exceções a considerar
Em domínios específicos, podemos precisar manter
algumas dessas palavras
Redes de computadores

17
Operações sobre o textoEliminação de stopwords

Vantagens
Diminui a representação do texto
Melhora a ordenação na recuperação
TF-IDF
Desvantagens
Diminui a precisão na recuperação
Ex., ser ou não ser
Somente o termo ser será usado na indexação
documento
Mais uma razão para os engenhos de busca
utilizarem representação do texto completo

18
Operações sobre o texto Stemming

Problema
Freqüentemente, o usuário especifica uma palavra
na consulta, mas apenas uma variação dessa
palavra aparece nos documentos relevantes
Ex., plural, gerúndio, verbos flexionados,
aumentativo...
Objetivo dessa operação
Substituir a palavra por seu radical (stem)
Porção da palavra que resta após a remoção de
prefixos e sufixos
Possibilitar casamento parcial entre variações de
uma mesma palavra
Ex. engenheiro, engenharia,...

19
Operações sobre o texto Técnicas de stemming

Table look-up
Mantém uma tabela de radicais de palavras
Procedimento simples, porém necessita de dados
sobre os todos os radicais da língua
Successor variety
Considera os morfemas da língua
meninos
Procedimento complexo e muito dependente da língua

20
Operações sobre o texto Técnicas de stemming

Remoção de afixos (prefixos e sufixos)
Algoritmo de Porter
Considera que a remoção de sufixos é mais
importante que a de prefixos
A maioria das variações de palavras é gerada por
sufixos
Usa uma regra de redução para cada sufixo
O livro texto traz o algoritmo completo para a
língua inglesa
Procura pela maior seqüência de letras que casa
com alguma regra
Plural sses ? ss, ies ? i , ss ? ss, s
? ?

21
Operações sobre o texto Técnicas de stemming

Algoritmo de Porter
Outras regras de redução
ed -gt 0
ing -gt 0

22
Operações sobre o texto Técnicas de stemming

Para o Português, o problema é mais complexo
Plural
existe um número muito maior de formas de fazer
plural em português
Para substantivos, artigos e alguns adjetivos
Precisamos de regras para tratar aumentativo,
diminutivo, feminino, masculino,...
Número de regras para flexões verbais também
aumenta consideravelmente

23
Operações sobre o texto Stemming

Snowball
Uma linguagem para processamento de strings
específica para criar algoritmos de stemming
para RI
http//snowball.tartarus.org/
Veja algoritmo disponível para Português em
http//snowball.tartarus.org/algorithms/portuguese
/stemmer.html
O site também traz exemplo de stoplist para
Português

24
StemmingExemplo do Snowball para Português
word
stem

quiloquilométricasquilométricosquilômetroquilô
metrosquilosquímicaquímicasquímicoquímicosqu
imioterapiaquimioterápicos

gt

quil quilométrquilométrquilômetrquilômetrquil
químicquímicquímicquímicquimioterapquimioter
áp
25
Operações sobre o texton-grams

Uma alternativa ao uso de stemmers...
Uma n-gram é uma subsequência de n itens de uma
dada sequência
Os items podem ser fonemas, letras, palavras...
Uma n-gram de tamanho 1 é chamada de "unigram"
de tamanho 2 é "bigram, etc, e de tamanho 5 ou
mais é apenas chamada de "n-gram".
O objetivo é o mesmo da operação de stemming
Cortar a palavra para possibilitar casamento
parcial entre variações de uma mesma palavra

26
Operações sobre o textoThesaurus

Dicionário de sinônimos de uma língua
Eg., WordNet
Thesaurus podem ser também definidos para
domínios específicos
Entradas contêm palavras isoladas ou termos
compostos
Para cada entrada, o thesaurus pode trazer
Sinônimos, antônimos, kind-of, part-of,...
Classe gramatical
E, às vezes, uma definição do termo

27
Operações sobre o textoThesaurus

Uso de thesaurus em sistemas de RI
Auxilia na seleção de termos relevantes para
indexar o documento
Auxilia no processamento da consulta
Expansão de termos
Objetivo principal de usar thesaurus de um
domínio específico em sistemas de RI
Restringir o sistema a um vocabulário controlado
para indexação e busca de documentos

28
Operações sobre o textoThesaurus

Para sistemas na Web em inglês, usa-se o WordNet
com freqüência
http//wordnet.princeton.edu/

29
Operações sobre o texto Identificação de Grupos
Nominais

Objetivo identificar grupos nominais (termos
compostos) para indexar o documento
Ex., Recuperação de Informação, Inteligência
Artificial
Procedimentos
Selecionar substantivos do texto, eliminando
sistematicamente palavras de outras classes
gramaticais
Usando uma stoplist ou
usando um etiquetador automático (parts-of-
speech tagger) para determinar a classe das
palavras e/ou
usando um thesaurus da língua ou do domínio
Agrupar substantivos para formar termos compostos

30
Identificação de Grupos Nominais

Como agrupar substantivos para formar termos
compostos
Considerando os grupos nominais identificados
pelo tagger
Considerando a distância entre os termos no texto
Número de palavras entre os dois substantivos
Ex., Recuperação de Informação
Apenas uma palavra (de)
Extraindo esses termos de um thesaurus do domínio
Pode conter um vocabulário controlado de termos
em vez de palavras isoladas

31
Preparação dos documentos Criação da
Representação do Documento

Entrada
Visão lógica do documento
Lista de termos representativos do documento
Saída
Representação final do documento
Termos representativos da base peso associados
a cada termo
Dependente do modelo de RI escolhido
Booleano, espaço vetorial, probabilista...
Aulas passadas

32
Operações sobre a Consulta

Em geral...
Quando possível, devem ser usadas aqui as mesmas
operações utilizadas para criar a visão lógica do
documento, e.g.,
limpeza das stopwords, uso de stemming,
thesaurus...
Porém, existem mais operações a serem realizadas
na consulta
Assunto da próxima aula...

33
Criação da Representação da Consulta