Apresenta - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Apresenta

Description:

Apresenta o de artigo: Partial Mixture Estimation an Outlier Detection in Data and Regression Aluno : Reinaldo Cherubini Neto Disciplina: Descoberta de K em BD – PowerPoint PPT presentation

Number of Views:60
Avg rating:3.0/5.0
Slides: 23
Provided by: ufr60
Category:

less

Transcript and Presenter's Notes

Title: Apresenta


1
Apresentação de artigoPartial Mixture
Estimation an Outlier Detection in Data and
Regression
  • Aluno Reinaldo Cherubini Neto
  • Disciplina Descoberta de K em BD
  • Profs. Dr. Luis Otávio Campos Alvares
  • Dr. Paulo Martins Engel

2
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Aplicações (da identificação de outliers)
  • Identificação de dados discrepantes
  • Problemas em teorias
  • Desvios em processos (produtivos, de seleção)
  • Limpeza de Bancos de Dados
  • Preparação de dados (amostras) para análises
  • Detecção de fraudes

3
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Outlier
  • É uma observação que é numericamente distante do
    restante dos dados.
  • Ex. Notas de 20 alunos
  • a1,a2,a4,a6,a7,a13,a19 3 a3,a5,a12,a15,
  • a18,a20 4 a8,a9, a10,a14,a16,a17 5 e a11
    10
  • Média 4,25 Mediana1 4,00
  • Sem o a11 10 ? Média 3,95 Mediana 3,95
  • a11 é um outleir (um dado discrepante)
  • Discrepância disparidade, diferença.
  • Pode ser um dado pertencente a uma população
    diferente da que deu origem à amostra.

________________________ 1- Ordenados os
elementos da amostra, a mediana é o valor
(pertencente ou não à amostra) que a divide ao
meio, isto é, 50 dos elementos da amostra são
menores ou iguais à mediana e os outros 50 são
maiores ou iguais à mediana
4
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Problema
  • Abordagens puramente gráficas e não paramétricas
    para a identificação de outliers são propensas a
    erros, dados que geram pequenas elevações em
    distribuições suaves podem parecer com outliers,
    mas não são.
  • Assim, a identificação de outliers sem um modelo
    probabilístico explícito deve ser encarada como
    preliminar e exploratória.
  • Contudo, até mesmo os modelos probabilísticos são
    normalmente conhecidos por darem, na melhor das
    hipóteses, um resultado aproximado. Portanto, a
    identificação de outliers ainda assim continua
    sujeita a algum viés (SCOTT, 2003).

5
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Problema
  • Aitikin e Wilson (1980) aplicaram o algoritmo
    maximização da expectativa (expectation-maximizati
    on EM) para identificação de outliers em
    misturas normais (gaussianas), com sucesso.
  • Entretanto, é muito difícil adivinhar bons
    parâmetros iniciais para uma mistura,
    principalmente quando K é muito maior ou muito
    menor ao modelo correto.

6
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Normal mixture Model
  • É um conjunto de amostras pertencentes à
    populações diferentes, com distribuição normal
    (gaussiana), que estão misturadas e cujo o rótulo
    de identificação da população a qual cada
    observação pertence é desconhecido.
  • A função da probabilidade da densidade é dada por

7
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Onde
  • K diferentes populações
  • ?j é a proporção da amostra pertencente a
    população K no mix de amostras.
  • f(x µj , s2j ) é a densidade normal com média µj
    e variância s2j.sendo que
  • Para ?j 1 e
  • ? é o (3K -1) vetor dimensional de ?js, µj s e
    s2js

8
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Expectation Maximization algorithm
  • Algoritmo EM (maximização da expectativa)
  • É um classificador automático (ñ necessário
    aprendizado) ou aprendizado não supervisionado
  • É uma abordagem geral para a computação iterativa
    da estimativa da máxima verossimilhança
    (maximum-likelihood ML) quando as observações
    podem ser vistas como dados incompletos
    (DEMPSTER LAIRD e RUBIN, 1977).
  • Dados incompletos sendo X e Y espaços amostrais
    (e, outros tantos entre X e Y), os dados
    observados y pertencem a amostra Y e, os dados x
    pertencentes a amostra X só podem ser observados
    indiretamente a partir de y. (x ñ observados)

9
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Assumindo o mapeamento
  • x ? y(x) para X até Y e
  • x é conhecido somente por estar próximo a X(y)
  • o subconjunto de X é determinado pela equação
  • y y(x) onde y é o dado observado.

10
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • sendo
  • f(xF) uma família de densidade amostral
    dependente dos parâmetros da F (gaussiana)
    derivada da sua correspondente família de
    densidade amostral g(yF)
  • a especificação dos dados completos f(......) é
    relacionada a especificação dos dados incompletos
    g(......) pela

11
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • O algoritmo EM busca encontrar um valor de F que
    maximiza a função g(yF) dado uma observação y,
    mas sem usar a família associada f(xF).
  • Cada iteração do algoritmo executa dois passos
  • Expectation step (E-step) e
  • Maximization step (M-step)
  • Daí EM.

12
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Suponha que f(xF) tem uma família-exponencial
    regular (regular exponencial-family) para
  • f(xF) b(x)exp(Ft(x)T)/a(F)
  • Onde
  • F indica o 1 x r parâmetro vetor
  • t(x) indica o 1 x r vetor do dado completo
  • T (sobrescrito) indica a matriz transposta

13
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Tendo a equação anterior (f(xF)
    b(x)exp(Ft(x)T)/a(F))
  • E-step estime o dado completo estatisticamente
    suficiente t(x) para encontrar
  • Aa
  • M-step determine F(p1) como solução da equação
  • a

14
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Funcionalmente o EM é semelhante ao
    K-médias
  • Contudo, o EM considera, além da média, o desvio
    padrão (s2) para determinar os clusters.

15
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Executa em dois passos principais
  • Inicialização de médias (µi) e desvios padrões
    (si)
  • Rotula os dados pelo e-step (calcula µi, si)
  • Maximiza a expectativa, no m-step, atualizando os
    parâmetros.

16
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Utiliza para isto, as seguintes equações

Onde
Fórmulas em Mixture Models, Outliers, and the EM
Algorithm (Aitkin e Wilson, 1980)
17
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Algoritmo EM
  • Exemplo animado de execução do algoritmo

18
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Partial Mixture Estimation an Outlier Detection
  • Mistura normal (outra definição)
  • Um modelo teórico comum para a ocorrência de
    outliers em uma amostra simples é a mistura
    normal com componente influenciado (rebocado)
    (two-component normal mixture) em que um dos
    componentes, com uma grande probabilidade a
    priori, representa as boas observações,
    enquanto o outro, com uma baixa probabilidade a
    priori, representa as más observações (AITKIN e
    WILSON, 1980).

19
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Partial Mixture Estimation an Outlier Detection
  • Partindo do pressuposto que um outlier é um dado
    pertencente a uma população diferente da que deu
    origem à amostra
  • Posso utilizar um modelo de mistura para
    identifica-los
  • Como o algoritmo EM é utilizado para a
    clusterização, ele pode ser utilizado para
    separar os dados bons dos maus (outliers).
    Aitkin e Wilson (1980) fizeram isso. (ver slide
    5)

20
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Partial Mixture Estimation an Outlier Detection
  • Uma preocupação prática com a abordagem de Aitkin
    e Wilson (1980) é que uma identificação dos
    bons dados pode ser feita pelo bom senso, mas a
    dos outliers e dos cluster de outliers é mais
    suspeita.
  • Neste artigo é proposta uma abordagem alternativa
    ao EM que pode estimar somente uma subfração dos
    componentes do mixture model (partial mixture
    estimation).

21
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Partial Mixture Estimation an Outlier Detection
  • Aqui os outliers serão tratados como estorvos
    (nuisance).
  • Uma vez que a estimação bem sucedida é alcançada
    os labels são reordenados a fim de que os pesos
    dos cluters fiquem em ordem decrescente de
    magnitude, ?1 gt ?2 gt ... gt ?k.
  • Em muitas situações os menores K 1 clusters
    representam vários tipos de outliers ou cluster
    afastados com (?1, µ1, S1) sendo os parâmetros de
    interesse.

22
Partial Mixture Estimation an Outlier Detection
in Data and Regression
  • Partial Mixture Estimation an Outlier Detection
  • A simplificação do modelo é o componente de
    densidade parcial multivariado (MPDC
    multivariate partial density component), dado por
  • A
  • Onde ? (?1, µ1, S1) e a equação para o MPDC é
    dada explicitamente por
Write a Comment
User Comments (0)
About PowerShow.com