Descoberta de Conhecimento em BD - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Descoberta de Conhecimento em BD

Description:

Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 33
Provided by: Ricardo200
Category:

less

Transcript and Presenter's Notes

Title: Descoberta de Conhecimento em BD


1
Descoberta de Conhecimento em BD
  • Jacques Robin e Ricardo Bezerra

2
Motivação da seca de dados até o diluvio
  • Informatização dos meios produtivos permitiu a
    geração de grandes volumes de dados
  • Transações eletrônicas
  • Novos equipamentos científicos e industriais para
    observação e controle
  • Dispositivos de armazenamento em massa
  • Aproveitamento da informação permite ganho de
    competitividade conhecimento é poder (e poder
    !)
  • Recursos de análise de dados tradicionais são
    inviáveis para acompanhar esta evolução
  • processo iterativo de criação, teste e
    refinamento de hipóteses

3
Motivação inundação de informação
  • Morrendo de sede por conhecimento em um oceano
    de dados
  • Gigantismo do problema de análise de dados para
    tomada de decisão
  • BD da Wal-Mart 20 milhões de transações por dia
  • Data Warehouse da Mobil 100 TB
  • BD da NASA recebe de satélites 50 GB por hora
  • Solução
  • ferramentas de automatização das tarefas
    repetitivas e sistemática de análise de dados
  • ferramentas de auxílio para as tarefas cognitivas
    da análise
  • integração das ferramentas em sistemas apoiando o
    processo completo de descoberta de conhecimento
    para tomada de decisão

4
Exemplo preliminar
  • Problema do mundo dos negócios, entender o perfil
    dos clientes
  • desenvolvimento de novos produtos
  • para controle de estoque em postos de
    distribuição
  • propaganda mal direcionada gera maiores gastos e
    desestimula o possível interessado a procurar as
    ofertas adequadas
  • Situação
  • empresa possui registro de todas as transações
    efetuadas
  • mas como aproveitar dessa riqueza de dados?
  • Categorias
  • produtos de esporte
  • eletrodomésticos
  • produtos de entretenimento
  • produtos para o lar

5
Processo mínimo de descoberta de conhecimento
Compreensão do domínio e dos objetivos da
tarefa Criação do conjunto de dados envolvendo
as variáveis necessárias
Escolha e execução do algoritmo de acordo com a
tarefa a ser cumprida
Operações como identificação de ruídos, outliers,
como tratar falta de dados em alguns campos, etc.
Interpretação dos resultados, com possível
retorno aos passos anteriores
Redução de dimensionalidade, combinação de
atributos
Consolidação incorporação e documentação do
conhecimento e comunicação aos interessados
6
1. Seleção de dados e 2. pré-processamento
  • Com seu conhecimento do domínio, analista humano
    decide
  • que as informações relevantes a-priori
    encontram-se nas seguintes tabelas
  • clientes nome, identificação, idade, sexo,
    estado civil, endereço, renda, proprietário da
    casa
  • produtos nome, identificação, preço, categoria,
    quantidade em estoque, quantidade encomendada
  • transações identificador de cliente,
    identificador de produto, data e hora,
    quantidade
  • Eliminar registros incompletos, inconsistentes,
    etc.

7
3. Transformação de dados
  • Agrupando informações em uma única tabela

8
4. Data mining stricto sensus
  • Decidiu-se aplicar um algoritmo de aprendizado
    para agrupar os clientes em quatro conjuntos
  • ex. rede de Kohonen do tipo vector quantization
  • Idéia do algoritmo é dispor, em conjuntos,
    clientes que apresentem aspectos similares
  • Posteriormente, os dados são organizados em uma
    planilha, onde o número do grupo (1, 2, 3, ou 4)
    é utilizado como chave primária
  • A planilha calcula estatísticas de cada grupo,
    comparando-as com toda população

9
5. Apresentação dos resultados
  • Analista humano
  • ainda precisa do seu conhecimento do domínio
  • para interpretar esses resultados em conhecimento
    marketing

10
Descoberta de Conhecimento em BD
  • O processo
  • não trivial de extração de informações
    implícitas,
  • anteriormente desconhecidas,
  • e potencialmente úteis de uma fonte de dados
  • Torture os dados até eles confessarem
  • O que é uma descoberta, afinal?
  • Exibir todos os empregados que ganham dentro de
    uma determinada faixa salarial é uma descoberta?
  • O que é um padrão interessante?
  • Válido, Novo, Útil, Interpretável (objetividade
    difícil)
  • que é conhecimento? X f(X, V, N, U, I) gt T

11
KDD x Data Mining
  • Mineração de dados passo do processo de KDD que
    produz um conjunto de padrões sob um custo
    computacional aceitável
  • KDD
  • utiliza algoritmos de data mining para extrair
    padrões classificados como conhecimento
  • incorpora também tarefas como escolha do
    algoritmo adequado, processamento e amostragem de
    dados e interpretação de resultados

12
O perigo da falta de interpretação
13
O perigo da falta de interpretação (cont.)
Hosp. A
Hosp. B
Boas condições
O hospital A é melhor!
Morreram Sobreviveram
6 594
8 592
  • Números x Bom-senso
  • 1. Mentiras,
  • 2. Mentiras danadas,
  • 3. Estatísticas

Total
600
600
Hosp. A
Hosp. B
Más condições
Morreram Sobreviveram
57 1443
8 192
... e data mining?
Total
1500
200
14
A busca por causalidade
  • Correlação não é o mesmo que causalidade
  • lama e chuva são dois conceitos relacionados,
    mas como inferir que um é causa do outro?
  • A média de idade da Flórida é grande. O clima da
    Flórida faz as pessoas viverem mais?
  • Explicação plausível muitas pessoas mudam-se pra
    lá quando se aposentam
  • Experimentos controlados
  • KDD necessariamente
  • processo exploratório, iterativo e interativo
  • envolvendo em cada passo um especialista humano
  • tanto (se não mais) importante do que método de
    mineração
  • auxílio ao gerenciamento do processo (Knowledge
    Management)
  • integração transparente de ferramentas

15
Processo mais abrangente de descoberta de
conhecimento
16
KDD problema pluridisciplinar
  • Inteligência Artificial
  • aprendizado de máquina
  • representação de conhecimento e inferência
  • geração automática de resumos textuais
  • Estatística análise exploratória de dados
  • Computação gráfica visualização de dados
  • Bancos de dados
  • integração, consolidação e remodelagem de dados
    para processamento analítico (data warehousing)
  • linguagens de consulta para
  • hipercubos de dados (OLAP)
  • funções de mineração (OLAM)
  • Integração
  • APIs entre ferramentas, disponibilização na Web,
  • BD dedutivos, ativos, temporais, OOs, de
    restrições

17
Outro exemplo de passos e saída de KDD
Base de Conhecimento
Aprendizagem Mineração de Dados
Arquivos de Log Páginas Web
BD Relacional
Data Warehouse Dimensional
Geração de Linguagem Natural
  • Ex, conhecimento extraído de um BD de
    supermercado
  • No ano passado, as variações de vendas mais
    incomuns foram
  • Soda Diet com decrescimento de 40 na região
    nordeste de julho a agosto
  • Cerveja Bavaria com crescimento de 42 nacional
    de setembro a outubro
  • ...

18
Gramática Computacional
HYSSOP Gerador automático de hipertexto
em linguagem natural
Léxico Computacional
Arquitetura
Exemplo de
  • Camada 4 tecnologia de
  • Processamento de
  • Linguagem Natural e Lingüística Computacional

Estratégias de planejamento de hipertexto
integrad a
Conteúdo selecionado para o resumo conjunto
de predicados de objetos
Regras de seleção de conteúdo de resumos
  • Camada 3 tecnologias de
  • Sistemas Especialistas
  • Dedução Automática
  • BD Dedut DOivos
  • BD Orientada a Objetos

SGBD dedutivo orientado a objetos
Regras de exploração de hipercubo de dados
DOODCI API SGBDDOO / Java para OLAP e
mineração de exceções
ExceptionMiner minerador de células e subcubos
atípicos em hipercubos de dados
Outros aplicativos de mineração de dados
conectados via Java
  • Camada 2 tecnologias de
  • Aprendizagem de Màquina
  • Indução Automática
  • Mineração de Dados

JDCI API Java / Servidor OLAP
Servidor OLAP
  • Camada 1 tecnologias de
  • BD Ativos
  • Data Warehousing
  • BD Dimensionais e OLAP

Esquema Dimensional Data Warehouse Hipercubo
de dados
Esquema Relacional BD operacional (para OLTP)
Assistente de Remodelagem de Dados
SGBD ativo
  • Arquivos de log
  • Servidor Web
  • Gerenciador de Banners
  • Servidor RoboCup

Regras de carga e atualização de dados
19
Tarefas básicas
  • Previsão
  • Cálculo de variáveis de interesse a partir dos
    valores de um conjunto de variáveis de
    explicação
  • É comunamente visada em aprendizado de
    máquina/estatística
  • Exemplos classificação e regressão
  • Descrição
  • Reportar relações entre as variáveis do modelo de
    forma simétrica
  • À princípio, está mais relacionada ao processo de
    KDD
  • Exemplos agrupamento, sumarização (incluindo
    sumário de textos), dependências, análise de
    desvio

20
Exemplo de previsão (I)
Análise de crédito
  • Um hiperplano paralelo de separação pode ser
    interpretado diretamente como uma regra
  • se a renda é menor que t, então o crédito não
    deve ser liberado
  • Exemplo
  • árvores de decisão
  • indução de regras

21
Exemplo de previsão (II)
Análise de crédito
  • Hiperplano oblíquo melhor separação
  • Exemplos
  • regressão linear
  • perceptron

22
Exemplo de previsão (III)
Análise de crédito
  • Superfície não linear melhor poder de
    classificação, pior interpretação
  • Exemplos
  • perceptrons multicamadas
  • regressão não-linear

23
Exemplo de previsão (IV)
Análise de crédito
  • Métodos baseado em exemplos
  • Exemplos
  • k-vizinhos mais próximos
  • raciocínio baseado em casos

24
Exemplo de descrição (I)
Análise de crédito
  • Agrupamento
  • Exemplo
  • vector quantization

25
Exemplo de descrição (II)
  • Regras de associação
  • 98 dos consumidores que adquiriram pneus e
    acessórios de automóveis também se interessaram
    por serviços automotivos
  • descoberta simétrica de relações, ao contrário de
    métodos de classificação
  • qualquer atributo pode ser uma classe ou um
    atributo de discriminação

26
Exemplo de descrição (III)
  • Previsão de séries temporais

Identificação dos investimentos mais promissores
nos próximos 30 dias
Métodos
27
Garimpando resultados
  • Transformar 1.000.000 de registros em mil regras
    é bom, mas... o que fazer com estas 1000 regras?
  • Mineração de Conhecimento
  • Medidas de utilidade
  • subjetivas
  • dependentes de domínio
  • demanda especialistas com tempo livre
  • objetivas
  • mais independentes
  • ex, grau de surpresa
  • Validade
  • utilizando limiares de confiança, apenas as
    regras (por exemplo) mais importantes seriam
    apresentadas
  • E as exceções?
  • ruído ou pepita de conhecimento

28
Distinguir pepitas de ruído
  • Regras cobrindo cobrem apenas uma pequena
    quantidade de dados
  • potencial para descrever relações interessantes e
    anteriormente despercebidas
  • porém, são facilmente descartadas em filtragens
    por limiar de grau de cobertura
  • como distingui-las de ruído?
  • Idéia do algoritmo
  • criar pequenas generalizações das regras em
    estudo e comparar a cobertura obtida

29
Algoritmo para regras de pequeno alcance
  • para cada antecedente a de uma regra
  • se a é categórico, retire-o da regra
  • se a é contínuo, aumente o intervalo no qual o
    antecedente é válido
  • conte o número D de vezes em que a classe obtida
    é diferente da classe da regra original
  • calcule uma medida M em função de D e do total de
    antecedentes N.
  • exemplo M D/N
  • valores altos de M tenderão a capturar as
    relações mais úteis

30
Escalabilidadetécnicas para acelerar a mineração
de BD gigantes
  • Amostragem
  • redução de precisão
  • Algoritmos distribuídos
  • particionar o banco de dados em p partições
  • utilizar um processador diferente para cada
    partição
  • utilizar um método de combinação de resultados
  • Paralelismo (intra-algorítimico)

31
Aplicabilidade de KDD
  • Onde o processo de descoberta de conhecimento
    deve ser aplicado?
  • A tarefa é propícia ao estudo de novos
    experimentos
  • não há nenhuma outra boa alternativa de análise
    de dados
  • disponibilidade de dados suficientes
  • com nível aceitável de ruído
  • sem problemas de ordem jurídica
  • especialistas disponíveis para
  • avaliação do grau de interesse das descobertas
    obtidas
  • seleção de atributos
  • descrição de conhecimento a priori em geral

32
  • A diminuição de 40 das vendas de soda diet de
    julho a agosto na região nordeste foi realmente
    atípica porque
  • para as outras regiões, a variação média das
    vendas desse produto no mesmo período foi um
    aumento de 9
  • para o ano todo, as vendas desse produto nessa
    mesma região decresceram de apenas 7
  • as vendas globais, de todos os produtos, nessa
    região e no mesmo periódo, decresceram de apenas
    2

Volta
Write a Comment
User Comments (0)
About PowerShow.com