Title: Jacques Robin e Francisco de A. T. de Carvalho
1Aplicações práticas dadescoberta de conhecimento
em BD
- Jacques Robin e Francisco de A. T. de Carvalho
- CIn-UFPE
2Aplicações da Mineração de Dados
3Marketing e comércio
- Gerenciamento de relação com clientes
- descrição multi-dimensional, agrupamento e
classificação de clientes, associações entre
produtos ou serviços, para otimização e
personalização de - campanhas de propaganda e de promoções
- sugestões de produtos e serviços
- mineração comparativa de evolução de compras,
produtos ou serviços oferecidos e preços para - promover retenção de clientes
- definir política de preço altamente dinâmica (ex,
passagem aérea)
4Marketing e comércio
- Gerenciamento de relação com clientes
- ambos a partir de
- Transações com cartões de fidelidade, de
requisitos de programa a la carte (TV, vídeo,
música), de reservas (passagens, hoteis,
ingressos) - Log de servidor Web para comércio eletrónico
5Finanças e segurança
- Serviços financeiros
- mineração de series temporais de valores na bolsa
para especulação - mineração de associação e grupos de valores para
definição de portfolio de investimento e planos
de aposentadoria - previsão de inadimplência para definir política
de empréstimo - Detecção de fraude
- descrição multi-dimensional e mineração de series
excepcionais de - de uso de cartão de créditos para serviços
financeiros - pedidos de acesso a sites para segurança de
sistemas - transferências de fundos para lavagem de dinheiro
sujo e sonegação de imposto - chamadas para telecomunicações
6Finanças e segurança
- Detecção de tentativas de intrusão
- mineração de padrões temporais de comandos de
protocolos em arquivos de log de servidores - batch e tempo real
7Jogos, esportes e recursos humanos
- Jogos
- mineração de regras estratégicas e táticas a
partir de BD de partidas (xadrez, futebol de
robôs) - Jogos, esportes e re-engenharia de organizações
- OLAP, agrupamento e mineração multi-dimensional
de series de resultados para identificar fatores
internos (ex, composição do time, tática usada) e
externos (ex, tipo de adversário, local do jogo)
contribuindo a vitórias e a derrotas
8Jogos, esportes e recursos humanos
- Jogos de esportes virtuais, esportes e
recrutamento - previsão do desempenho e popularidade futuro de
atletas, artistas e funcionários para contratação
e transferência
9Serviços de infra-estrutura energia, água,
transporte, telecomunicação, Internet
- descrição multi-dimensional e previsão
comparativa - de demanda e da capacidade das fontes ou
equipamentos - para
- planejar investimentos e otimizar rotas para
evitar interrupção de serviços e congestionamento - definir vários níveis de qualidade de serviços,
seus preços e seus clientes potenciais - detecção de fraudes
10Serviços de infra-estrutura energia, água,
transporte, telecomunicação, Internet
- previsão de falha de equipamento para definir
política de prevenção de falha - mineração de regras de diagnóstico para análise
de falha
11Saúde
- Indústria farmacêutica
- previsão dos efeitos de um novo remédio composto
a partir dos efeitos dos seus componentes em
remédios testados - Medicina e epidemiologia
- mineração de regras de diagnostico
- previsão de predisposição a doenças e resposta a
tratamento - a partir de BD de órgãos de saúde (CDC,
ministério da saúde)
12Saúde
- Pesquisa em genética e biologia molecular
- mineração comparativa de seqüências de genes em
células sanas e doentes (adaptação da mineração
de series temporais para dados categóricos) - mineração de associações e grupos de genes
baseada na sua co-ocorrência em várias classes de
células - previsão da forma 3D de uma proteína a partir da
sua seqüência de ácidos-amidos
13Conclusão sobre a aplicabilidade de KDD
- Ainda existe muito mais tarefas e domínios de
aplicação prática da descoberta de conhecimento
em BD não mencionadas - Ubiqüidade da necessidade por mineração de dados
e descoberta de conhecimento em BD - O mais difícil não é identificar setores de
atividade que precisam dessa tecnologia e sim
identificar setores que não podem beneficiar-se
dela
14Sistemas e Protótiposde Data Mining
15Como escolher um Sistema de Data Mining?
- Os sistemas comerciais de data mining tem pouco
em comum - Diferentes funcionalidades ou metodologias de
data mining - Podem trabalhar com conjuntos de dados de tipos
completamente diferentes - Tipos de dados relational, transacional, texto,
sequencia temporal, espacial? - Questões sobre o sistema
- execução em um ou vários sistemas operacionais?
- arquitetura cliente/servidor?
- Fornece Web-based interfaces e permite XML data
como entrada e/ou saída?
16Como escolher um Sistema de Data Mining? (2)
- Fontes de dados
- arquivos texto ASCII, fontes de dados relacionais
multiplas - suporte de conexões ODBC (OLE DB, JDBC)?
- Funções e metodologias de Data mining
- Única vs. multiplas funções de data mining
- Único vs. vários metodos por função
- Mais funções e métodos por função fornece ao
usuário grande flexibilidade e poder de análise
17Como escolher um Sistema de Data Mining? (2)
- Acoplamento com BD e/ou data warehouse
- Quatro formas de acoplamento sem acoplamento,
acoplamento frouxo, acoplamento semifirme, e
acoplamento firme - Idealmente, um sistema de data mining deve ser
firmemente acoplado com um sistema de bases de
dados
18Como escolher um Sistema de Data Mining? (3)
- Scalabilidade
- Escalabilidade por linhas
- Escalabilidade por coluna
- realizar um sistema com escalabilidade por coluna
é um desafio é muito maior do que realizar um
sistema com escalabilidade por linha - Ferramentas de Visualização
- Uma figura vale milhares de palavras
- Categorias de visualização visualização de
dados, visualização dos resultados da mineração,
vizualização do processo de mineração, e visual
data mining - Interface gráfica e linguagem de interrogação
(query) de Data mining - Interface gráfica de alta qualidade e fácil de
usar
19Exemplos de Sistemas de Data Mining (1)
- IBM Intelligent Miner
- Uma ampla faixa de algoritmos de data mining
- Algoritmos de mineração escaláveis
- Kit de ferramentas algoritmos de redes neurais,
métodos estatisticos, preparação de dados,
ferramentas de visualização - Firme integração com o sistema de bases de dados
relacionais IBM's DB2 - SAS Enterprise Miner
- Grande variedade de ferramentas de análise
estatistica - Ferramentas de Data warehouse e multiplos
algoritmos de data mining - Mirosoft SQLServer 2000
- Integração de BD e OLAP com mineração
20Exemplos de Sistemas deData Mining (2)
- SGI MineSet
- Multiplos algoritmos de data mining e métodos
estatísticos avançados - Ferramentas de visualização avançadas
- Clementine (SPSS)
- Meio ambiente de desenvolvimento integrado de
data mining para usuários e programadores - Multiplos algoritmos de data mining and
ferramentas de visualização
21Exemplos de Sistemas deData Mining (2)
- DBMiner (DBMiner Technology Inc.)
- Multiplos módulos de data mining análise OLAP,
associação, classificação, agrupamento - Funções eficientes de mineração de padrões
sequenciais e associação, ferramentas de
classificação visual - Mineração de bases de dados relacionais e de data
warehouses
22Temas Adidionais emMineração de Dados
23Data Mining Visual
- Visualização uso de computação gráfica para
criar imagens visuais que ajudam a entender
representações massivas e complexas de dados - Data Mining Visual processo de descoberta de
conhecimento implicito a partir de grandes
conjuntos de dados usando tecnicas de visualização
Interface Homem Máquina
Computação Gráfica
Multimidia
Computação de alto desempenho
Rconhecimento de Padrões
24Visualização
- Proposito da Visualização
- Fornecer uma visão geral qualitativa de grandes
conjuntos de dados - Busca de padrões, tendencias, estrutura,
irregularidades, relações entre dados. - Ajuda para encontrar regiões interessantes e
parametros apropriados para posterior análise
qualitativa.
25Data MiningVisual Visualização de Dados
- Integração da visualização e do data mining
- visualização de dados
- visualização dos resultados do data mining
- visualização do processo de data mining
- data mining visual interativo
- Visualização de dados
- Dados em um BD ou em uma data warehouse pode ser
visualizado - em diferentes níveis de abstração
- via diferentes combinações de atributos (ou
dimensões) - Os dados podem ser apresentados em várias formas
visuais
26Visualização dos Resultados do Data Mining
- Apresentação visual dos resultados (ou
conhecimento) obtidos da mineração de dados - Exemplos
- Scatter plots and boxplots (obtidos do data
mining descritivo) - Árvores de Decisão
- Regras de Association
- Agrupamentos
- Outliers
- Regras de generalização
27Boxplots (Statsoft) Multiplas Combinações de
Variáveis
28Visualização dos resultados doData Mining (SAS
Enterprise Miner) Scatter Plots
29Visualização de Regras de Associação (SGI/MineSet
3.0)
30Visualização de uma Árvore de decisão
(SGI/MineSet 3.0)
31Visualização do Processode Data Mining
- Apresentação dos varios processos de data mining
em formas visuais de tal forma que o usuário pode
ver - O processo de extração de dados
- Onde os dados são extraídos
- Como os dados são limpados, integrados,
proprocessados e minerdos - O método selecionado para o data mining
- Onde os resultados são armazenados
- Como eles podem ser vistos
32Data Mining Visual Interativo
- Uso de ferramentas de visualização no processo de
mineração para ajudar os usuários a realizarem
decisões locais astuciosas para a mineraçãos - Exemplo
- Mostar a distribuição dos dados em um conjunto de
atributos usando setores coloridos - Usar o resultado para decidir qual setor dever
ser selecionado para a classificação e onde fica
um bom ponto de corte desse setor
33Audio Data Mining
- Usar sinais de audio para ressaltar padrões de
dados ou caracteristicas dos resultados da
mineração - Alternativa a mineração visual
- Data mining visual pode ressaltar padrões
interessantes usando gráficos, mas exige que o
usuário se concentre na busca visual de padrões - Em vez disso transformar padrões em sons e
música e ouvir ritmos, tons, e melodias para
identificar algo interessante ou não usual
34Impactos sociais daMineração de Dados
35Data Mining é uma moda ou é algo persistente?
- Data mining é uma tecnologia
- Ciclo de vida tecnológico
- Inovação
- Adesão inicial
- Ruptura
- Maioridade inicial
- Maioridade tardia
- Legado
36Cilco de vida de adoção tecnológica
- Data mining está na ruptura!?
- Os sistemas de data mining existentes são muito
genericos - É necessário soluções de data mining especificas
e integração da lógica das organisações com as
funções da mineração
37Impactos Sociais Ameaça a privacidade e a
segurança dos dados?
- Data mining é uma ameaça para a privacidade e
segurança dos dados? - Big Brother, Big Banker, e Big Business
estão vigiando voce cuidadosamente - Informações de perfil são coletadas o tempo todo
- cartão de crédito, cartão de fidelidade, etc
- Surfar a Web, alugar um video, preencher um
formulario, - Coletar dados pessoais pode ser benefico para as
organisações e as pessoas, mas existe o perigo de
uso indevido - Registros médicos, Avaliação do empregado, Etc.
38Proteção da Privacidade e da Segurança dos Dados
- Praticas corretas
- Regras internacionais para a proteção da
privacidade de dados - Cobre aspectos relacionados a coleta de dados,
proposito, uso, qualidade, acesso, participação
individual, etc - Especificação do propósito e Limitação do Uso
- Acesso Individuos tem o direito de conhecer que
informação é coletada sobre ele, quem tem acesso
a os dados, e como os dados são usados - Desenvolvimento de tecnicas segurança
- criptografia
- bases de dados anonimas
39Tendencias em Mineração de Dados
40Tendencias em Data Mining (1)
- Aplicações
- desenvolvimento de sistemas de data minig para
aplicações especificas - Data mining invisivel (mineração como função
interna) - Métodos de data mining com escalabilidade
- Constraint-based mining uso de restrições para
guiar os sistemas de data maning na busca por
padrões interessantes - Integração de data mining com bases de dados,
data warehouse e bases de dados na Web - Data mining invisivel
41Tendencias em Data Mining (2)
- Padronização da linguagem do data mining
- A padronização facilitará o desenvolvimento
sistemático, melhorará a interoperabilidade, e
promoverá a instrução e o uso de sistemas de data
mining na indústria e na sociedade - Data mining Visual
- Novos métodos para minerar tipos de dados
complexos - Maior esforço de pesquisa para a integração de
métodos de mineração de dados com técnicas
existentes da análise de dados para os tipos
complexos de dados - Web mining
- Proteção da privacidade e segurança da informação
na mineração dos dados