Title: Apresenta
1Seminário
Mineração de Exceções
Erivan A. Andrade (eaa_at_cin.ufpe.br) Jacques
Robin (jr_at_cin.ufpe.br)
2Roteiro
- Motivação
- Métodos Baseados em Agrupamento
- Métodos Baseados em Estatística
- Métodos baseados em Distância
- Métodos Baseados em Desvio
- Conclusões
- Referências
3Motivação definição
- O que é outlier?
- É uma observação, num conjunto de dados, que é
suficientemente dissimilar ou aberrante do
restante dos dados para levantar suspeita de ser
causado por um mecanismo diferenciado - Equivalente a exceções
- Causa dos outliers o que é esse mecanismo?
- Erro de medida
- Comportamento diferente do padrão
- Dilema o ruído de uns é o sinal dos outros
- Mineração de outliers
- Detecção e análise de outliers
4Motivação aplicações práticas
- Detecção de Fraudes
- Comportamento de gastos de consumidores
- Em análises médicas (resultados não esperados de
tratamentos ) - Pesquisa farmacêutica
- Marketing
- Coaching (hey Felipão, Romário é um outlier! ?)
- Etc.
5Técnicas de Mineração de Exceções
- Classes de técnicas
- Semi-automático
- Visualização
- Automático
- Baseados em Clustering
- Baseado em Estatística
- Baseado em Desvio
- Baseado em Distância
- Características desejáveis
- Escalável para alta dimensionalidade
- Interpretabilidade dos resultados
- Computacionalmente eficiente
- Dá importância ao comportamento local dos dados
- Ordenação dos outliers
6Roteiro
- Motivação
- Métodos Baseados em Agrupamento
- Métodos Baseados em Estatística
- Métodos baseados em Distância
- Métodos Baseados em Desvio
- Conclusões
- Referências
7Mineração de exceção baseada em agrupamento
- Idéia
- Formar grupos de dados
- Dados que não se encaixam em nenhum grupos são
considerados exceções
Inserir figura exemplo aqui
8Mineração de exceção baseada em agrupamento
- Vantagens
- Reutiliza vasto leque de métodos de agrupamentos
- Não requer conhecimento prévio de distribuição
- Limitações
- O que se busca é otimizar os agrupamentos, não a
detecção de exceções - O que é exceção para uma configuração pode não
ser para outra
9Roteiro
- Motivação
- Métodos baseados em Agrupamento
- Métodos baseados em Estatística
- Métodos baseados em Distância
- Métodos Baseados em Desvio
- Conclusões
- Referências
10Mineração de Outliers Baseada em Estatística
- Assume distribuição ou modelo probabilístico para
um conjunto de dados - Ex distribuição normal
- Usa Teste de discordância (TD) ? identifica os
outliers com respeito ao modelo escolhido - Se um objeto for significativamente maior ou
menor que o modelo escolhido ele é uma exceção - O TD examina 2 hipóteses
- Uma hipótese de trabalho
- Uma hipótese alternativa
11Mineração de Outliers Baseada em Estatística
- Vantagens
- Pode ser avaliado o nível de significância de uma
exceção - Usa métodos estatístico consolidados ao longo dos
tempos
- Limitações
- O modelo escolhido influencia a identificação dos
Outliers - Testa aberração ao longo de apenas uma única
dimensão - Dificuldade na escolha de uma distribuição
12Roteiro
- Motivação
- Métodos baseados em Agrupamento
- Métodos baseados em Estatística
- Métodos Baseados em Desvio
- Métodos baseados em Distância
- Conclusões
- Referências
13Mineração de Outliers Baseada em Desvio
- Não usa métodos estatísticos nem medidas de
distância - Define exceção como pontos cujo valor desviam da
maioria ao longo de algumas ou todas as dimensões - Exceções são equivalentes a Desvios de
comportamento
14Mineração de Outliers Baseada em Densidade de
Distribuição
- Características
- Divide o espaço de dados em ? classe equi-depth
- Cada classe contém uma fração f1/ ? dos
registros - Diferentes localidades dos dados são densas com
respeito a diferentes subconjuntos de atributos - Observa a densidade de distribuição da projeção
dos dados - Gera projeções dos dados sobre k dimensões
- Identifica nessas projeções, regiões de densidade
anormalmente baixa - Pontos nessas regiões são considerados outliers
- Suporta dados com alta dimensionalidade
15Mineração de Outliers Baseada em Densidade de
Distribuição
Ideia
16Mineração de Outliers Baseada em Densidade de
Distribuição
- O número de pontos em um cubo pode ser
aproximando por uma distribuição normal e então - Fração esperada
- Desvio padrão
- Coeficiente de dispersão de um cubo D
- n(D) número de pontos em um cubo k-dimensional
- N número de pontos no conjunto de dados
- S(D)lt0 indica cubos com numero de pontos
significativamente abaixo do esperado
17Mineração de Outliers Baseada em Densidade de
Distribuição
- Busca necessária para gerar as projeções
- Busca exaustiva garante encontrar todas a
exceções mas com complexidade alta - Busca genética com função de seleção, crossover e
mutação específica para o problema permite
encontrar, a um custo muito menor, a maioria das
exceções
Comparativo de resultado
18Mineração de Outliers em Cubos OLAP
- Exploração dirigida a hipótese
- O usuário interativamente busca por regiões de
anomalias - As regiões de anomalias representam áreas de
interesse - A busca das anomalias é feita com o uso das
operações de cubo OLAP - Dril-down, roll-up, seleção
- Problemas da exploração dirigida a hipótese
- Espaço de busca muito grande
- As anomalias podem estar em níveis inferiores ao
ponto de partida da análise - Grande quantidade de agregados
19Mineração de Outliers em Cubos OLAP
- Exploração dirigida a descoberta
- O usuário busca por anomalias guiado por
indicadores pré-computados - Os indicadores permitem a observação de padrões
anormais em qualquer nível de agregação - Muito útil, especialmente, para grande numero de
dimensões - Um valor é uma exceção se ele difere
significativamente do seu valor antecipado - Valor calculado por um modelo estatístico
- Considera o contexto da posição da célula no cubo
- Combina as tendências ao longo das diferentes
dimensões a que uma célula pertence
20Mineração de Outliers em Cubos OLAP
- Exploração dirigida a descoberta
- Definição de exceção (yijk yijk)/ ?ijk gt (?
2.5) - Cálculo do valor antecipado yijk
- Onde
- ? l... (média ao longo de todas as dimensões)
- ?irAr l...ir... - ?(média ao longo de uma
dimensão) - ?irisArAs l...ir... is... - ?irAr -
?isAs ? (Média ao longo de duas dimensões)
21Mineração de Outliers em Cubos OLAP
- Exploração dirigida a descoberta
- Equação iterativa para cálculo do ? (desvio
padrão)
?2ijk (yijk)?
22Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta
- Os indicadores dão o grau de surpresa do valor da
célula - Os indicadores são 3
- SelfExp valor surpresa da célula em relação a
outras células no mesmo nível de agregação - InExp Grau de surpresa em algum nível abaixo
desta célula - PathExp grau de surpresa para cada caminho de
drill-down a partir da célula.
23Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Destacar Exceções
24Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Exceção de Caminho
25Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Down por produto (PathExp)
26Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Drown para Diet-S (InExp)
27Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
28Roteiro
- Motivação
- Métodos baseados em Agrupamento
- Métodos baseados em Estatística
- Métodos Baseados em Desvio
- Métodos baseados em Distância
- Conclusões
- Referências
29Mineração de Outliers Baseada em Distância Dk(p)
- Busca Resolver limitações do estatístico
- Um outlier é determinado baseado na distancia
Dk(p) - Dk(p) distância de p ao seu k-esimo vizinho
- Evita suposição sobre distribuição dos dados
- Menor custo computacional
- Pode, ás vezes, convergir para os métodos
estatísticos - Desvantagem
- Não é escalável para mais que 5 dimensões
30Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Loop aninhado
- Para cada ponto p no conjunto de dados calcula
Dk(p) - Para calcular cada Dk(p) varre todos os dados
- Mantém uma lista de k vizinhos mais próximo para
cada ponto p - Os n pontos com maior valor de Dk(p) são os n
outliers - Para melhorar a eficiência pode-se considerar
blocos de pontos ao invés de pontos individuais
31Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo baseado em índice
- O uso de estruturas de índices espaciais pode
diminuir substancialmente o calculo de distâncias
(R-tree, por exemplo) - É possível podar sub-arvores cujos nós não podem
conter outlier - A cada passo guarda-se os n outliers encontrados
- Dnmin menor Dk entre os outlier
- Dk(p)lt Dnmin P não pode ser um outlier
32Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições
- Detecta os n outliers mais fortes
- Os outliers são ordenados pela distância Dk(p)
- Baseia se na distância dos vizinhos mais próximos
- O conjunto de dados é divididos em partições por
meio de algoritmos de agrupamento - Poda partições que não são candidatas a conter
outlier - Acelera a identificação pois diminui a quantidade
de pontos
33Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)
- Gerar partições
- Através de clustering
- Calcular limites Dk para os pontos em cada
partição - P.uppermax(Dk) e P.lowermin(Dk) dos pontos da
partição P - Identificar partições candidatas a conter
exceções - P.upper?minDkDistminPi.lower1? i ? l
- Pi.lowergtPj.lowergt..gtPl.lower e o número de
pontos seja pelo menos n - Computar exceções com os pontos nas partições
candidatas - P.neighbors denota as partições vizinhas de P a
uma distância de P.upper
34Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)
O número total de pontos a ser examinado para
calcular outlier é o das partições candidatasos
de suas vizinhas
35Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições
36Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
37Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
38Roteiro
- Motivação
- Métodos baseados em Agrupamento
- Métodos baseados em Estatística
- Métodos Baseados em Desvio
- Métodos baseados em Distância
- Conclusões
- Referências
39Conclusões
- Mineração de exceções
- É de grande interesse
- É custosa computacionalmente, principalmente para
grande quantidade de dimensões - Necessita de métodos robustos
40Referências
- Data Mining concepts and techniques, de Han, J.
Kamber, M., 2001, Morgan Kaufmann - Discovery-driven Exploration of OLAP Data Cubes,
de Sunita Sarawagi, Rakesh Agrawal, Nimrod
Megiddo, IBM Research Division - Efficient Algoritms for Mining Outliers from Data
sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok
Shim. 2000 - Outlier Detection for High Dimensional Data.
Charu C. Aggarwal e Philip S. Yu. 2001
41Visão de Outliers
42Comparativo Força bruta x algorotimo Evolutivo