Title: MINERAЗГO DE DADOS
1MINERAÇÃO DE DADOS
- BANCOS DE DADOS NÃO CONVENCIONAIS
2BDs NÃO CONVENCIONAIS
- BDs de estrutura complexa
- BDs de Planos
- BDs Espaciais
- BDs Multimedia
- Arquivos flat
- Web
3BDs DE ESTRUTURA COMPLEXA
- Aspecto relevante GENERALIZAÇÃO
- Generalização de atributos multivalorados
- Atributos com conjunto de valores (set-valued
data) - Atributos com lista de valores (list-valued data)
- Atributos com estruturas aninhadas (nested
structured data)
4Atributos com conjunto de valores (set-valued
data)
- Generalização de cada valor do conjunto para
hierarquia de nível mais alto - ex alimento maçã, uva, couve-flor, cebola,
arroz - generalização pode ser frutas, verduras,
cereais - ou
- Derivação do comportamento geral do conjunto
- Número de elementos, tipos ou intervalos de
valores, média para dados numéricos
5Atributos com lista de valores (list-valued data)
- Generalização semelhante à de atributos com
conjunto de valores, exceto que a ordem dos
elementos deve ser mantida na generalização - Uma lista pode ser generalizada excluindo-se os
elementos menos importantes ou mantendo apenas o
mais importante - ex Atributo historico_escolar ((Tecnico em
contabilidade, Esc.Tecnica, 1990),(Mestrado em
Matemática, UFPE, 1994),(Doutorado em Matemática,
UFPE, 1998)) - Manter, por exemplo (Doutorado em Matemática,
UFPE, 1998)
6Atributos com estruturas aninhadas (nested
structured data)
- Um atributo complexo pode conter conjuntos,
listas, registros, árvores, e a combinação
destes, onde uma estrutura pode estar aninhada em
outra. - Generalização
- 1. Generalizar cada atributo da estrutura e
manter o formato da estrutura - 2. Transformar a estrutura num flat file e
generalizá-la a partir daí - 3. Retornar o tipo da estrutura
7Generalização em BDs Espaciais
- Agregação e aproximação
- Generalização de pontos geográficos em grupos de
regiões tais como regiões de negócio,
residencial, agricultura ou indústria de acordo
com o uso da terra
8Generalização em BDs Multimidia
- Reconhecimento e extração de características
essenciais ou padrões gerais - Imagem
- Tamanho, cor, formato podem ser extraídos por
agregação ou aproximação - Música
- Resumo Melodia gt Padrões que ocorrem
repetidamente no segmento - Resumo Estilo gt Baseado no tom, tempo ou
principais instrumentos tocados
9GENERALIZAÇÃO Identificadores de Objetos e
Classes
- 1 - O OID é generalizado para o ID da mais baixa
subclasse à qual o objeto pertence - 2 - O ID da subclasse é generalizado para o ID da
classe escalando-se um nível acima na hierarquia
de classes - 3 - Similarmente, uma classe pode ser
generalizada para sua super-classe correspondente
escalando-se um nível acima na hierarquia de
classes
10Mineração de cubos de objetos
- Estende-se o Método de Indução Orientado a
Atributo , visto em mineração de características
em BDs relacionais - Aplica-se uma sequência de operadores de
generalização baseado em classes - Controle do limite da generalização
- Até a classe resultante conter um número pequeno
de objetos - Por eficiência
- Cada atributo multivalorado de um objeto complexo
é generalizado para conter dados simples,
univalorados - Constrói-se um Cubo de Objetos
- Problema
- Nem sempre é desejável se generalizar dados
multivalorados !
11BANCOS DE DADOS DE PLANOS
- PLANO Sequência variada de ações
- BD de Planos Coleção de planos
- Mineração de plano Tarefa de se minerar
conhecimento ou padrões significantes de um BD de
Planos .
12Exemplo - Plano de vôo
Como minerar esta base de planos ?
13Mineração da base
- Passos
- (1) Generalizar a Base de planos em diferentes
direções usando o modelo multidimensional - (2) Observar planos generalizados que possuem
padrões em comum e sequenciais interessantes com
bom suporte - (3) Derivar planos concisos de alto nível
14Visão Multidimensional
Ex num_passageiros lt 50.000 gt categoria
S num_passageiros gt 50.000 gt
categoria L
15Generalização Multidimensional
Daí, podemos encontrar padrões sequenciais
genéricos, como S - L - S 98,5
16Estratégia dividir pra conquistar
- Ao encontrar um padrão genérico com um suporte
alto, podemos particionar o plano base em
subplanos - A partir daí, mineramos cada subsequência para
encontrar características em comum - Para o exemplo dado, podemos gerar a regra
- vôo(x,y) categoria(x,S) categoria(y,L)
- gt região(x) região(y) 75
- O plano base é particionado em subplanos base e
características interessantes são descobertas
pelo processo de mineração de dados .
17BANCOS DE DADOS ESPACIAIS
- Armazena grande quantidade de dados relacionados
ao espaço - Imagens médicas
- Mapas
- Navegação
- Controle tráfego aéreo
- Armazena informações topológicas e de distância
- Desafio em mineração
- Encontrar técnicas eficientes de mineração
(grande quantidade de dados , complexidade de
tipos e de métodos de acesso)
18Construção de D.W. Espacial
- Desafios
- Integração de dados de vários sistemas e fontes
heterogêneas - Estrutura baseada em vetores, objetos ou
relacionais - Fornecedor Mapinfo, intergraph ...
- Realização de OLAP rápido e flexível em DW
espacial - Algumas dimensões e medidas possuem comportamento
espacial
19Cubos de dados espaciais
- Três dimensões presentes
- Dimensão não-espacial ex temperatura 35 a 45 º
C --gt quente - Dimensão espacial p/ não -espacial ex Pernambuco
--gt região _nordeste - Dimensão espacial p/ espacial ex Pernambuco --gt
Nordeste - Dois tipos de medidas
- Medida numérica
- Distributiva Obtida pela aplicação da função de
agregação ex count() - Algébrica Obtida pela aplicação da função
algébrica ex avg sum()/count() - Holística Não deriva de função algébrica ex
Median() - Medida espacial
- ex Coleção de ponteiros para região de mesma
temperatura
20DW espacial BC_weather
Esquema estrela
21OPERAÇÕES DE ROLL-UP
Por Precipitação
Por Temperatura
22Computação de medidas espaciais em cubos de dados
- Dilema armazenamento x custo computacional
- Armazenamento de ponteiros para objetos sem
pré-computação de medidas espaciais - Pré-computação e armazenamento aproximado de
medidas espaciais - ex estimativa de região
- um retângulo - MBR (min.bounding rectangle) pode
ser visto como uma estimativa grosseira do mapa
de uma região - Materialização de porções de cubos que mais se
tem acesso - Examinar cada grupo de obj. espaciais que podem
sofrer merge
23Regras de associação espacial
- Forma A gt B s,p
- é_uma (X,escola)perto_de(X,clube) gt
perto_de(X,parque) 0.5,80 - Predicados espaciais
- perto_de , longe_de (relacionado a distância)
- intercepta, sobrepõe (relacionado a topologia)
- à_esquerda, à_direita, à_oeste (orientação
espacial)
24Classificação e análise de tendência
- Classificação de regiões
- rica x pobre (propriedades associadas a objetos
espaciais) - ex possui universidade ? Shoppings ?
- Análise de tendência (espacial e temporal)
- Mudança de dados (espaciais ou não) com o espaço
- ex Distância do oceano muda clima e
vegetação - Mudança de padrões com o tempo e espaço
- ex Fluxo de tráfego em rodovias e cidades
25BDs MULTIMIDIA
- Armazenam e gerenciam objetos multimídia, tais
como imagem, audio, vídeo, hipertexto - Sistemas de recuperação de similaridades em
imagens - Baseado em descrição
- Manualmente laborioso
- Automaticamente resultado de baixa qualidade
- Ex palavra-chave, título, tamanho, tempo de
criação - Polissemia uma só forma com mais de um
significado - Baseado em conteúdo
- Usa características visuais para indexar imagens
e fazer a recuperação baseada em similaridade com
outras imagens - Ex Textura, forma, cor, objetos
26MultiMediaMiner
- Sistema de mineração de dados multimídia
- Imagem grid 8 x 8
- Cada imagem contém dois descritores
- Descritor de características
- Imagem original não é armazenada diretamente no
BD, mas nome do arquivo, URL, tipo da imagem,
URLs pais - Descritor de layout
- Vetor de cores - cor mais frequente em cada uma
das 64 células - Vetor de margens - Número de lados em cada uma
das células
27MultiMediaMiner
Dimensões em cubo de dados multimídia
28MultiMediaMiner
Thumbnails
29Minerando associações
- Que tipos de associação podem ser mineradas em
BDs multimídia ? - Três categorias de associação
- Associação entre conteúdo de imagem e de
não-imagem - Se 50 da parte superior da imagem é azul então é
céu - Associação entre conteúdo de imagens não
relacionadas ao espaço - Se imagem possui dois quadrados azuis então
contém círculo vermelho - Associação entre conteúdo de imagens relacionadas
ao espaço - Se imagem possui um triângulo vermelho entre dois
quadrados então contém grande círculo abaixo
30Mineração de regras de associações BDs
transacionais x BDs multimídia
- Refinamento progressivo de resolução Uma imagem
pode conter muitos objetos com características
diferentes, tais como cor, forma, textura ...
semelhança de características numa resolução
baixa podem diferir em uma resolução melhor - Uma figura contendo dois objetos iguais difere
daquela contendo apenas um objeto do mesmo tipo
em BDs multimídia. Em BDs transacionais, a pessoa
comprar uma ou duas caixas de leite é tratado
como o mesmo atributo compra_leite - Existem relações espaciais entre objetos
multimídia, tais como acima, através de , abaixo,
à esquerda ...
31Conclusão
- A cada dia , mais e mais dados são armazenados de
forma complexa, estruturados ou não estruturados,
hipertexto e multimídia - Mineração de tipos complexos de dados, tais como
objetos, dados espaciais, multimídia, dados
seriais-temporais, textos e web tem se tornado
uma tarefa muito importante - Mineração de dados complexos ainda está em fase
inicial, e muitos desafios ainda terão de ser
superados.
32Bibliografia
- Han, Jiawei. Kamber, Micheline. Data Mining
Concepts and Techniques - Morgan Kaufmann
Publishers. - MultiMediaMiner. Site - http//db.cs.sfu.ca/MMMine
r - Bechara, Evanildo. Moderna Gramática Portuguesa -
Editora Lucerna / Rj - 2000