Title: Apresenta
1Apresentação de artigoPartial Mixture
Estimation an Outlier Detection in Data and
Regression
- Aluno Reinaldo Cherubini Neto
- Disciplina Descoberta de K em BD
- Profs. Dr. Luis Otávio Campos Alvares
- Dr. Paulo Martins Engel
2Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Aplicações (da identificação de outliers)
- Identificação de dados discrepantes
- Problemas em teorias
- Desvios em processos (produtivos, de seleção)
- Limpeza de Bancos de Dados
- Preparação de dados (amostras) para análises
- Detecção de fraudes
3Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Outlier
- É uma observação que é numericamente distante do
restante dos dados. - Ex. Notas de 20 alunos
- a1,a2,a4,a6,a7,a13,a19 3 a3,a5,a12,a15,
- a18,a20 4 a8,a9, a10,a14,a16,a17 5 e a11
10 - Média 4,25 Mediana1 4,00
- Sem o a11 10 ? Média 3,95 Mediana 3,95
- a11 é um outleir (um dado discrepante)
- Discrepância disparidade, diferença.
- Pode ser um dado pertencente a uma população
diferente da que deu origem à amostra.
________________________ 1- Ordenados os
elementos da amostra, a mediana é o valor
(pertencente ou não à amostra) que a divide ao
meio, isto é, 50 dos elementos da amostra são
menores ou iguais à mediana e os outros 50 são
maiores ou iguais à mediana
4Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Problema
- Abordagens puramente gráficas e não paramétricas
para a identificação de outliers são propensas a
erros, dados que geram pequenas elevações em
distribuições suaves podem parecer com outliers,
mas não são. - Assim, a identificação de outliers sem um modelo
probabilístico explícito deve ser encarada como
preliminar e exploratória. - Contudo, até mesmo os modelos probabilísticos são
normalmente conhecidos por darem, na melhor das
hipóteses, um resultado aproximado. Portanto, a
identificação de outliers ainda assim continua
sujeita a algum viés (SCOTT, 2003).
5Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Problema
- Aitikin e Wilson (1980) aplicaram o algoritmo
maximização da expectativa (expectation-maximizati
on EM) para identificação de outliers em
misturas normais (gaussianas), com sucesso. - Entretanto, é muito difícil adivinhar bons
parâmetros iniciais para uma mistura,
principalmente quando K é muito maior ou muito
menor ao modelo correto.
6Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Normal mixture Model
- É um conjunto de amostras pertencentes à
populações diferentes, com distribuição normal
(gaussiana), que estão misturadas e cujo o rótulo
de identificação da população a qual cada
observação pertence é desconhecido. - A função da probabilidade da densidade é dada por
7Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Onde
- K diferentes populações
- ?j é a proporção da amostra pertencente a
população K no mix de amostras. - f(x µj , s2j ) é a densidade normal com média µj
e variância s2j.sendo que - Para ?j 1 e
- ? é o (3K -1) vetor dimensional de ?js, µj s e
s2js
8Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Expectation Maximization algorithm
- Algoritmo EM (maximização da expectativa)
- É um classificador automático (ñ necessário
aprendizado) ou aprendizado não supervisionado - É uma abordagem geral para a computação iterativa
da estimativa da máxima verossimilhança
(maximum-likelihood ML) quando as observações
podem ser vistas como dados incompletos
(DEMPSTER LAIRD e RUBIN, 1977). - Dados incompletos sendo X e Y espaços amostrais
(e, outros tantos entre X e Y), os dados
observados y pertencem a amostra Y e, os dados x
pertencentes a amostra X só podem ser observados
indiretamente a partir de y. (x ñ observados)
9Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Assumindo o mapeamento
- x ? y(x) para X até Y e
- x é conhecido somente por estar próximo a X(y)
- o subconjunto de X é determinado pela equação
- y y(x) onde y é o dado observado.
10Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- sendo
- f(xF) uma família de densidade amostral
dependente dos parâmetros da F (gaussiana)
derivada da sua correspondente família de
densidade amostral g(yF) - a especificação dos dados completos f(......) é
relacionada a especificação dos dados incompletos
g(......) pela
11Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- O algoritmo EM busca encontrar um valor de F que
maximiza a função g(yF) dado uma observação y,
mas sem usar a família associada f(xF). - Cada iteração do algoritmo executa dois passos
- Expectation step (E-step) e
- Maximization step (M-step)
- Daí EM.
12Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Suponha que f(xF) tem uma família-exponencial
regular (regular exponencial-family) para - f(xF) b(x)exp(Ft(x)T)/a(F)
- Onde
- F indica o 1 x r parâmetro vetor
- t(x) indica o 1 x r vetor do dado completo
- T (sobrescrito) indica a matriz transposta
13Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Tendo a equação anterior (f(xF)
b(x)exp(Ft(x)T)/a(F)) - E-step estime o dado completo estatisticamente
suficiente t(x) para encontrar - Aa
- M-step determine F(p1) como solução da equação
- a
14Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Funcionalmente o EM é semelhante ao
K-médias - Contudo, o EM considera, além da média, o desvio
padrão (s2) para determinar os clusters.
15Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Executa em dois passos principais
- Inicialização de médias (µi) e desvios padrões
(si) - Rotula os dados pelo e-step (calcula µi, si)
- Maximiza a expectativa, no m-step, atualizando os
parâmetros.
16Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Utiliza para isto, as seguintes equações
Onde
Fórmulas em Mixture Models, Outliers, and the EM
Algorithm (Aitkin e Wilson, 1980)
17Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Algoritmo EM
- Exemplo animado de execução do algoritmo
18Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Partial Mixture Estimation an Outlier Detection
- Mistura normal (outra definição)
- Um modelo teórico comum para a ocorrência de
outliers em uma amostra simples é a mistura
normal com componente influenciado (rebocado)
(two-component normal mixture) em que um dos
componentes, com uma grande probabilidade a
priori, representa as boas observações,
enquanto o outro, com uma baixa probabilidade a
priori, representa as más observações (AITKIN e
WILSON, 1980).
19Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Partial Mixture Estimation an Outlier Detection
- Partindo do pressuposto que um outlier é um dado
pertencente a uma população diferente da que deu
origem à amostra - Posso utilizar um modelo de mistura para
identifica-los - Como o algoritmo EM é utilizado para a
clusterização, ele pode ser utilizado para
separar os dados bons dos maus (outliers).
Aitkin e Wilson (1980) fizeram isso. (ver slide
5)
20Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Partial Mixture Estimation an Outlier Detection
- Uma preocupação prática com a abordagem de Aitkin
e Wilson (1980) é que uma identificação dos
bons dados pode ser feita pelo bom senso, mas a
dos outliers e dos cluster de outliers é mais
suspeita. - Neste artigo é proposta uma abordagem alternativa
ao EM que pode estimar somente uma subfração dos
componentes do mixture model (partial mixture
estimation).
21Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Partial Mixture Estimation an Outlier Detection
- Aqui os outliers serão tratados como estorvos
(nuisance). - Uma vez que a estimação bem sucedida é alcançada
os labels são reordenados a fim de que os pesos
dos cluters fiquem em ordem decrescente de
magnitude, ?1 gt ?2 gt ... gt ?k. - Em muitas situações os menores K 1 clusters
representam vários tipos de outliers ou cluster
afastados com (?1, µ1, S1) sendo os parâmetros de
interesse.
22Partial Mixture Estimation an Outlier Detection
in Data and Regression
- Partial Mixture Estimation an Outlier Detection
- A simplificação do modelo é o componente de
densidade parcial multivariado (MPDC
multivariate partial density component), dado por - A
- Onde ? (?1, µ1, S1) e a equação para o MPDC é
dada explicitamente por