MINERAЗГO DE DADOS - PowerPoint PPT Presentation

About This Presentation
Title:

MINERAЗГO DE DADOS

Description:

MINERA O DE DADOS BANCOS DE DADOS N O CONVENCIONAIS BDs N O CONVENCIONAIS BDs de estrutura complexa BDs de Planos BDs Espaciais BDs Multimedia Arquivos flat Web ... – PowerPoint PPT presentation

Number of Views:48
Avg rating:3.0/5.0
Slides: 33
Provided by: cinUfpeB8
Category:
Tags: dados | minera

less

Transcript and Presenter's Notes

Title: MINERAЗГO DE DADOS


1
MINERAÇÃO DE DADOS
  • BANCOS DE DADOS NÃO CONVENCIONAIS

2
BDs NÃO CONVENCIONAIS
  • BDs de estrutura complexa
  • BDs de Planos
  • BDs Espaciais
  • BDs Multimedia
  • Arquivos flat
  • Web

3
BDs DE ESTRUTURA COMPLEXA
  • Aspecto relevante GENERALIZAÇÃO
  • Generalização de atributos multivalorados
  • Atributos com conjunto de valores (set-valued
    data)
  • Atributos com lista de valores (list-valued data)
  • Atributos com estruturas aninhadas (nested
    structured data)

4
Atributos com conjunto de valores (set-valued
data)
  • Generalização de cada valor do conjunto para
    hierarquia de nível mais alto
  • ex alimento maçã, uva, couve-flor, cebola,
    arroz
  • generalização pode ser frutas, verduras,
    cereais
  • ou
  • Derivação do comportamento geral do conjunto
  • Número de elementos, tipos ou intervalos de
    valores, média para dados numéricos

5
Atributos com lista de valores (list-valued data)
  • Generalização semelhante à de atributos com
    conjunto de valores, exceto que a ordem dos
    elementos deve ser mantida na generalização
  • Uma lista pode ser generalizada excluindo-se os
    elementos menos importantes ou mantendo apenas o
    mais importante
  • ex Atributo historico_escolar ((Tecnico em
    contabilidade, Esc.Tecnica, 1990),(Mestrado em
    Matemática, UFPE, 1994),(Doutorado em Matemática,
    UFPE, 1998))
  • Manter, por exemplo (Doutorado em Matemática,
    UFPE, 1998)

6
Atributos com estruturas aninhadas (nested
structured data)
  • Um atributo complexo pode conter conjuntos,
    listas, registros, árvores, e a combinação
    destes, onde uma estrutura pode estar aninhada em
    outra.
  • Generalização
  • 1. Generalizar cada atributo da estrutura e
    manter o formato da estrutura
  • 2. Transformar a estrutura num flat file e
    generalizá-la a partir daí
  • 3. Retornar o tipo da estrutura

7
Generalização em BDs Espaciais
  • Agregação e aproximação
  • Generalização de pontos geográficos em grupos de
    regiões tais como regiões de negócio,
    residencial, agricultura ou indústria de acordo
    com o uso da terra

8
Generalização em BDs Multimidia
  • Reconhecimento e extração de características
    essenciais ou padrões gerais
  • Imagem
  • Tamanho, cor, formato podem ser extraídos por
    agregação ou aproximação
  • Música
  • Resumo Melodia gt Padrões que ocorrem
    repetidamente no segmento
  • Resumo Estilo gt Baseado no tom, tempo ou
    principais instrumentos tocados

9
GENERALIZAÇÃO Identificadores de Objetos e
Classes
  • 1 - O OID é generalizado para o ID da mais baixa
    subclasse à qual o objeto pertence
  • 2 - O ID da subclasse é generalizado para o ID da
    classe escalando-se um nível acima na hierarquia
    de classes
  • 3 - Similarmente, uma classe pode ser
    generalizada para sua super-classe correspondente
    escalando-se um nível acima na hierarquia de
    classes

10
Mineração de cubos de objetos
  • Estende-se o Método de Indução Orientado a
    Atributo , visto em mineração de características
    em BDs relacionais
  • Aplica-se uma sequência de operadores de
    generalização baseado em classes
  • Controle do limite da generalização
  • Até a classe resultante conter um número pequeno
    de objetos
  • Por eficiência
  • Cada atributo multivalorado de um objeto complexo
    é generalizado para conter dados simples,
    univalorados
  • Constrói-se um Cubo de Objetos
  • Problema
  • Nem sempre é desejável se generalizar dados
    multivalorados !

11
BANCOS DE DADOS DE PLANOS
  • PLANO Sequência variada de ações
  • BD de Planos Coleção de planos
  • Mineração de plano Tarefa de se minerar
    conhecimento ou padrões significantes de um BD de
    Planos .

12
Exemplo - Plano de vôo
Como minerar esta base de planos ?
13
Mineração da base
  • Passos
  • (1) Generalizar a Base de planos em diferentes
    direções usando o modelo multidimensional
  • (2) Observar planos generalizados que possuem
    padrões em comum e sequenciais interessantes com
    bom suporte
  • (3) Derivar planos concisos de alto nível

14
Visão Multidimensional
Ex num_passageiros lt 50.000 gt categoria
S num_passageiros gt 50.000 gt
categoria L
15
Generalização Multidimensional
Daí, podemos encontrar padrões sequenciais
genéricos, como S - L - S 98,5
16
Estratégia dividir pra conquistar
  • Ao encontrar um padrão genérico com um suporte
    alto, podemos particionar o plano base em
    subplanos
  • A partir daí, mineramos cada subsequência para
    encontrar características em comum
  • Para o exemplo dado, podemos gerar a regra
  • vôo(x,y) categoria(x,S) categoria(y,L)
  • gt região(x) região(y) 75
  • O plano base é particionado em subplanos base e
    características interessantes são descobertas
    pelo processo de mineração de dados .

17
BANCOS DE DADOS ESPACIAIS
  • Armazena grande quantidade de dados relacionados
    ao espaço
  • Imagens médicas
  • Mapas
  • Navegação
  • Controle tráfego aéreo
  • Armazena informações topológicas e de distância
  • Desafio em mineração
  • Encontrar técnicas eficientes de mineração
    (grande quantidade de dados , complexidade de
    tipos e de métodos de acesso)

18
Construção de D.W. Espacial
  • Desafios
  • Integração de dados de vários sistemas e fontes
    heterogêneas
  • Estrutura baseada em vetores, objetos ou
    relacionais
  • Fornecedor Mapinfo, intergraph ...
  • Realização de OLAP rápido e flexível em DW
    espacial
  • Algumas dimensões e medidas possuem comportamento
    espacial

19
Cubos de dados espaciais
  • Três dimensões presentes
  • Dimensão não-espacial ex temperatura 35 a 45 º
    C --gt quente
  • Dimensão espacial p/ não -espacial ex Pernambuco
    --gt região _nordeste
  • Dimensão espacial p/ espacial ex Pernambuco --gt
    Nordeste
  • Dois tipos de medidas
  • Medida numérica
  • Distributiva Obtida pela aplicação da função de
    agregação ex count()
  • Algébrica Obtida pela aplicação da função
    algébrica ex avg sum()/count()
  • Holística Não deriva de função algébrica ex
    Median()
  • Medida espacial
  • ex Coleção de ponteiros para região de mesma
    temperatura

20
DW espacial BC_weather
Esquema estrela
21
OPERAÇÕES DE ROLL-UP
Por Precipitação
Por Temperatura
22
Computação de medidas espaciais em cubos de dados
  • Dilema armazenamento x custo computacional
  • Armazenamento de ponteiros para objetos sem
    pré-computação de medidas espaciais
  • Pré-computação e armazenamento aproximado de
    medidas espaciais
  • ex estimativa de região
  • um retângulo - MBR (min.bounding rectangle) pode
    ser visto como uma estimativa grosseira do mapa
    de uma região
  • Materialização de porções de cubos que mais se
    tem acesso
  • Examinar cada grupo de obj. espaciais que podem
    sofrer merge

23
Regras de associação espacial
  • Forma A gt B s,p
  • é_uma (X,escola)perto_de(X,clube) gt
    perto_de(X,parque) 0.5,80
  • Predicados espaciais
  • perto_de , longe_de (relacionado a distância)
  • intercepta, sobrepõe (relacionado a topologia)
  • à_esquerda, à_direita, à_oeste (orientação
    espacial)

24
Classificação e análise de tendência
  • Classificação de regiões
  • rica x pobre (propriedades associadas a objetos
    espaciais)
  • ex possui universidade ? Shoppings ?
  • Análise de tendência (espacial e temporal)
  • Mudança de dados (espaciais ou não) com o espaço
  • ex Distância do oceano muda clima e
    vegetação
  • Mudança de padrões com o tempo e espaço
  • ex Fluxo de tráfego em rodovias e cidades

25
BDs MULTIMIDIA
  • Armazenam e gerenciam objetos multimídia, tais
    como imagem, audio, vídeo, hipertexto
  • Sistemas de recuperação de similaridades em
    imagens
  • Baseado em descrição
  • Manualmente laborioso
  • Automaticamente resultado de baixa qualidade
  • Ex palavra-chave, título, tamanho, tempo de
    criação
  • Polissemia uma só forma com mais de um
    significado
  • Baseado em conteúdo
  • Usa características visuais para indexar imagens
    e fazer a recuperação baseada em similaridade com
    outras imagens
  • Ex Textura, forma, cor, objetos

26
MultiMediaMiner
  • Sistema de mineração de dados multimídia
  • Imagem grid 8 x 8
  • Cada imagem contém dois descritores
  • Descritor de características
  • Imagem original não é armazenada diretamente no
    BD, mas nome do arquivo, URL, tipo da imagem,
    URLs pais
  • Descritor de layout
  • Vetor de cores - cor mais frequente em cada uma
    das 64 células
  • Vetor de margens - Número de lados em cada uma
    das células

27
MultiMediaMiner
Dimensões em cubo de dados multimídia
28
MultiMediaMiner
Thumbnails
29
Minerando associações
  • Que tipos de associação podem ser mineradas em
    BDs multimídia ?
  • Três categorias de associação
  • Associação entre conteúdo de imagem e de
    não-imagem
  • Se 50 da parte superior da imagem é azul então é
    céu
  • Associação entre conteúdo de imagens não
    relacionadas ao espaço
  • Se imagem possui dois quadrados azuis então
    contém círculo vermelho
  • Associação entre conteúdo de imagens relacionadas
    ao espaço
  • Se imagem possui um triângulo vermelho entre dois
    quadrados então contém grande círculo abaixo

30
Mineração de regras de associações BDs
transacionais x BDs multimídia
  • Refinamento progressivo de resolução Uma imagem
    pode conter muitos objetos com características
    diferentes, tais como cor, forma, textura ...
    semelhança de características numa resolução
    baixa podem diferir em uma resolução melhor
  • Uma figura contendo dois objetos iguais difere
    daquela contendo apenas um objeto do mesmo tipo
    em BDs multimídia. Em BDs transacionais, a pessoa
    comprar uma ou duas caixas de leite é tratado
    como o mesmo atributo compra_leite
  • Existem relações espaciais entre objetos
    multimídia, tais como acima, através de , abaixo,
    à esquerda ...

31
Conclusão
  • A cada dia , mais e mais dados são armazenados de
    forma complexa, estruturados ou não estruturados,
    hipertexto e multimídia
  • Mineração de tipos complexos de dados, tais como
    objetos, dados espaciais, multimídia, dados
    seriais-temporais, textos e web tem se tornado
    uma tarefa muito importante
  • Mineração de dados complexos ainda está em fase
    inicial, e muitos desafios ainda terão de ser
    superados.

32
Bibliografia
  • Han, Jiawei. Kamber, Micheline. Data Mining
    Concepts and Techniques - Morgan Kaufmann
    Publishers.
  • MultiMediaMiner. Site - http//db.cs.sfu.ca/MMMine
    r
  • Bechara, Evanildo. Moderna Gramática Portuguesa -
    Editora Lucerna / Rj - 2000
Write a Comment
User Comments (0)
About PowerShow.com