Title: Minera
1Mineração na Web
- Preparação dos documentos
- Flávia Barros
2Roteiro
- Revisão
- Etapas dos Sistemas de Recuperação de Informação
- Preparação dos documentos
- Operações sobre o texto
- Criação da representação do documento
3Sistemas de Recuperação de Informação
- Etapas principais
- Preparação dos documentos
- Indexação dos documentos
- Busca (casamento com a consulta do usuário)
- Ordenação dos documentos recuperados
4Preparação dos documentos Duas Fases
- Operações sobre o texto
- objetivo criar a visão lógica do documento
- Criação da representação do documento
- Utilizando algum modelo de RI
5Visão lógica do documento
- Conjunto de termos usados para representar
(indexar) o documento - Vamos tratar aqui apenas documentos textuais
- A seleção desses termos pode ser
- Manual
- Realizada por um especialista
- Ex., um bibliotecário (em sistemas de
bibliotecas) - Automática
- Termos são automaticamente extraídos do texto
- Ex., a maioria dos sistemas automáticos de RI
6Visão lógica do documento Seleção automática de
termos
- Duas opções
- Usar o texto completo ou selecionar os termos
mais representativos - Texto completo
- Visão lógica mais completa do documento
- Porém tem alto custo computacional
- Adotada por sistemas com bases de documentos
pequenas por alguns engenhos de busca na Web
7Visão lógica do documento Seleção automática de
termos
- Conjunto reduzido de termos
- Obtido através de Operações sobre o texto
- O objetivo é selecionar os termos que melhor
descrevem o documento - Reduzindo assim a complexidade da representação
do documento - Representação mais comum Centróide
- Lista de termos com pesos associados ou não
- Problema perda do contexto
8Seleção automática de termos Operações sobre o
texto
- Fases
- Análise léxica
- Elimina dígitos, pontuação, etc
- Eliminação de stopwords
- Artigos, pronomes, etc
- Operação de stemming
- Redução da palavra ao seu radical
- Identificação de grupos nominais
- Ex., Recuperação de Informação
9Seleção automática de termos Operações sobre o
texto
- Cada fase de operação de texto pode utilizar
diferentes técnicas na sua implementação - Cada sistema de RI implementa uma ou mais dessas
fases - A escolha depende do tipo de sistema desejado
10Operações sobre o texto Fases
- Operações sobre o texto reduzem progressivamente
a visão lógica do documento
Texto completo
Lista reduzida de termos
11Operações sobre o textoAnálise léxica
- Entrada
- O texto original
- uma cadeia de caracteres
- Objetivo
- Converter o texto original em uma lista de
palavras - Identificando as palavras que ocorrem no texto
- Procedimento padrão
- Utilizar espaços como sendo separadores de
palavras - Tratar pontuação, hífens, dígitos, e letras
maiúsculas e minúsculas - Cada caso pode requerer tratamentos diferenciados
12Análise léxica Tratamento de pontuação e hífens
- Geralmente, todos os caracteres de pontuação são
removidos - . , ! ? -
- Porém, há casos em que eles são mantidos por
serem necessários - Código de programa dentro do texto
- Variável x.id ? xid
- URLs de Sites na Web
- Caso do hífen
- Palavras compostas e prefixos
- Guarda-chuva, pré-processamento
- Alguns termos compostos
- state-of-the-art
13Análise léxica Eliminação de dígitos
- Geralmente, dígitos são removidos por serem vagos
- Por não terem uma semântica associada quando
aparecem isolados - Ex. 1910 (ano, peso, tamanho???)
- Contudo, dígitos associados a alguns
termos/caracteres especiais podem ser importantes - 510dC
- dC não significa nada em isolamento
- Windows95, X3PO,...
14Análise léxica Substituição de letras maiúsculas
- Objetivo principal
- Tornar a representação homogênea
- Facilitar a recuperação do documento a partir de
consultas - Exceções
- Carneiro
- Animal ou nome próprio?
- Banco instituição financeira
- banco - assento
15Operações sobre o textoAnálise léxica
- Como visto, existem diversas exceções a tratar
- Isso depende da aplicação, do domínio do sistema,
etc... - Sugestão
- Preparar lista de exceções e tratar caso a caso
- Engenhos de busca
- Geralmente, não eliminam nada
- Funcionam em todos os domínios...
- Indexam o texto completo com sua pontuação,
dígitos, etc...
16Operações sobre o textoEliminação de stopwords
- Algumas palavras não são bons discriminadores
- Palavras muito freqüentas na base de documentos
- Palavras sem semântica associada
- artigos, preposições, conjunções, alguns
advérbios e adjetivos - Aqui também há exceções a considerar
- Em domínios específicos, podemos precisar manter
algumas dessas palavras - Redes de computadores
17Operações sobre o textoEliminação de stopwords
- Vantagens
- Diminui a representação do texto
- Melhora a ordenação na recuperação
- TF-IDF
- Desvantagens
- Diminui a precisão na recuperação
- Ex., ser ou não ser
- Somente o termo ser será usado na indexação
documento - Mais uma razão para os engenhos de busca
utilizarem representação do texto completo
18Operações sobre o texto Stemming
- Problema
- Freqüentemente, o usuário especifica uma palavra
na consulta, mas apenas uma variação dessa
palavra aparece nos documentos relevantes - Ex., plural, gerúndio, verbos flexionados,
aumentativo... - Objetivo dessa operação
- Substituir a palavra por seu radical (stem)
- Porção da palavra que resta após a remoção de
prefixos e sufixos - Possibilitar casamento parcial entre variações de
uma mesma palavra - Ex. engenheiro, engenharia,...
19Operações sobre o texto Técnicas de stemming
- Table look-up
- Mantém uma tabela de radicais de palavras
- Procedimento simples, porém necessita de dados
sobre os todos os radicais da língua - Successor variety
- Considera os morfemas da língua
- meninos
- Procedimento complexo e muito dependente da língua
20Operações sobre o texto Técnicas de stemming
- Remoção de afixos (prefixos e sufixos)
- Algoritmo de Porter
- Considera que a remoção de sufixos é mais
importante que a de prefixos - A maioria das variações de palavras é gerada por
sufixos - Usa uma regra de redução para cada sufixo
- O livro texto traz o algoritmo completo para a
língua inglesa - Procura pela maior seqüência de letras que casa
com alguma regra - Plural sses ? ss, ies ? i , ss ? ss, s
? ?
21Operações sobre o texto Técnicas de stemming
- Algoritmo de Porter
- Outras regras de redução
- ed -gt 0
- ing -gt 0
22Operações sobre o texto Técnicas de stemming
- Para o Português, o problema é mais complexo
- Plural
- existe um número muito maior de formas de fazer
plural em português - Para substantivos, artigos e alguns adjetivos
- Precisamos de regras para tratar aumentativo,
diminutivo, feminino, masculino,... - Número de regras para flexões verbais também
aumenta consideravelmente
23Operações sobre o texto Stemming
- Snowball
- Uma linguagem para processamento de strings
específica para criar algoritmos de stemming
para RI - http//snowball.tartarus.org/
- Veja algoritmo disponível para Português em
- http//snowball.tartarus.org/algorithms/portuguese
/stemmer.html - O site também traz exemplo de stoplist para
Português
24StemmingExemplo do Snowball para Português
word
stem
quiloquilométricasquilométricosquilômetroquilô
metrosquilosquímicaquímicasquímicoquímicosqu
imioterapiaquimioterápicos
gt
quil quilométrquilométrquilômetrquilômetrquil
químicquímicquímicquímicquimioterapquimioter
áp
25Operações sobre o texton-grams
- Uma alternativa ao uso de stemmers...
- Uma n-gram é uma subsequência de n itens de uma
dada sequência - Os items podem ser fonemas, letras, palavras...
- Uma n-gram de tamanho 1 é chamada de "unigram"
de tamanho 2 é "bigram, etc, e de tamanho 5 ou
mais é apenas chamada de "n-gram". - O objetivo é o mesmo da operação de stemming
- Cortar a palavra para possibilitar casamento
parcial entre variações de uma mesma palavra
26Operações sobre o textoThesaurus
- Dicionário de sinônimos de uma língua
- Eg., WordNet
- Thesaurus podem ser também definidos para
domínios específicos - Entradas contêm palavras isoladas ou termos
compostos - Para cada entrada, o thesaurus pode trazer
- Sinônimos, antônimos, kind-of, part-of,...
- Classe gramatical
- E, às vezes, uma definição do termo
27Operações sobre o textoThesaurus
- Uso de thesaurus em sistemas de RI
- Auxilia na seleção de termos relevantes para
indexar o documento - Auxilia no processamento da consulta
- Expansão de termos
- Objetivo principal de usar thesaurus de um
domínio específico em sistemas de RI - Restringir o sistema a um vocabulário controlado
para indexação e busca de documentos
28Operações sobre o textoThesaurus
- Para sistemas na Web em inglês, usa-se o WordNet
com freqüência - http//wordnet.princeton.edu/
29Operações sobre o texto Identificação de Grupos
Nominais
- Objetivo identificar grupos nominais (termos
compostos) para indexar o documento - Ex., Recuperação de Informação, Inteligência
Artificial - Procedimentos
- Selecionar substantivos do texto, eliminando
sistematicamente palavras de outras classes
gramaticais - Usando uma stoplist ou
- usando um etiquetador automático (parts-of-
speech tagger) para determinar a classe das
palavras e/ou - usando um thesaurus da língua ou do domínio
- Agrupar substantivos para formar termos compostos
30Identificação de Grupos Nominais
- Como agrupar substantivos para formar termos
compostos - Considerando os grupos nominais identificados
pelo tagger - Considerando a distância entre os termos no texto
- Número de palavras entre os dois substantivos
- Ex., Recuperação de Informação
- Apenas uma palavra (de)
- Extraindo esses termos de um thesaurus do domínio
- Pode conter um vocabulário controlado de termos
em vez de palavras isoladas
31Preparação dos documentos Criação da
Representação do Documento
- Entrada
- Visão lógica do documento
- Lista de termos representativos do documento
- Saída
- Representação final do documento
- Termos representativos da base peso associados
a cada termo - Dependente do modelo de RI escolhido
- Booleano, espaço vetorial, probabilista...
- Aulas passadas
32Operações sobre a Consulta
- Em geral...
- Quando possível, devem ser usadas aqui as mesmas
operações utilizadas para criar a visão lógica do
documento, e.g., - limpeza das stopwords, uso de stemming,
thesaurus... - Porém, existem mais operações a serem realizadas
na consulta - Assunto da próxima aula...
33Criação da Representação da Consulta
- Entrada
- Visão lógica da consulta
- Saída
- Representação final da consulta
- Dependente do modelo de RI escolhido
- Booleano, espaço vetorial, probabilista...
- Aulas passadas
34Próxima aulaConsultas - queries
- Como tratar as Consultas a um sistema de RI
- Linguagens e Operações