Aprendizado Bayesiano - PowerPoint PPT Presentation

About This Presentation
Title:

Aprendizado Bayesiano

Description:

Aprendizado Bayesiano Disciplina: Sistemas Inteligentes Teorema de Bayes Calcula a probabilidade de diferentes hip teses a medida que novas evid ncias s o observadas. – PowerPoint PPT presentation

Number of Views:81
Avg rating:3.0/5.0
Slides: 38
Provided by: xxx202
Category:

less

Transcript and Presenter's Notes

Title: Aprendizado Bayesiano


1
Aprendizado Bayesiano
  • Disciplina Sistemas Inteligentes

2
Aprendizagem Bayesiana
  • Fornece probabilidades para suas respostas
  • Permite combinar facilmente conhecimento a priori
    com dados de observação
  • Métodos práticos e bem sucedidos para
    aprendizagem
  • Aprendizagem Bayesiana Ingênua
  • Aprendizagem de Redes Bayesianas

3
Teorema de Bayes
  • Calcula a probabilidade de diferentes hipóteses a
    medida que novas evidências são observadas.
  • Seja h hipótese e D evidência
  • Objetivo Calcular P(h/D)

P(h) probabilidade a priori de h P(D)
probabilidade a priori de D P(D/h)
probabilidade de observar D dado que h aconteceu
4
Exemplo Classificar Risco- Seguradora de
Veículos
  • Hipóteses riscoalto riscobaixo
  • Probabilidades a priori
  • P(risco alto) 0.2
  • P(risco baixo) 0.8
  • Clientes sexo masculino, ou sexo feminino
  • Pergunta Qual a probabilidade a posteriori?
  • Qual a P(risco alto sexo M) ?
  • Qual a P(risco alto sexo F) ?

5
Exemplo Classificar Risco- Seguradora de
Veículos
  • Evidência sexo M
  • P(risco alto) 0.2
  • P(sexo M) 0.6
  • P(sexo M / risco alto) 0.7
  • P(risco alto sexo M)
  • P(sexo M / risco alto) P(risco alto)
  • P(sexo M)
  • 0.7 0.2 / 0.6 0.23
  • P(risco baixosexoM) 1 0.23 0.77

6
Exemplo Classificar Risco- Seguradora de
Veículos
  • Evidência sexo F
  • P(risco alto) 0.2
  • P(sexo F) 0.4
  • P(sexo F / risco alto) 0.3
  • P(risco alto sexo F)
  • P(sexo F / risco alto) P(risco alto)
  • P(sexo F)
  • 0.3 0.2 / 0.4 0.1
  • P(risco baixosexoF) 1 0.1 0.9

7
Escolha das Hipóteses
  • Geralmente, existe um espaço de hipóteses (H), e
    deseja-se a hipótese (h?H) mais provável,
    observados os dados de treinamento (D)
  • Hipótese de máxima a posteriori hMAP
  • Hipótese de máxima verossimilhança hML (supondo
    que P(hi)P(hj))

8
Aprendizagem pelo Método da Força Bruta
  • Para cada hipótese h ? H, calcule a probabilidade
    a posteriori
  • Escolha a hipótese hMAP de maior probabilidade à
    posteriori

9
Aprendizagem pelo Método da Força Bruta
  • Suponha que D é o conjunto de exemplos D (x1,
    f(x1)), ? (xm, f(xm))
  • Cálculo de P(D/h)
  • P(D/h) 1, se h é consistente com D (ou seja
    f(xi) h(xi), ?(x1, f(xi)) ?D)
  • P(D/h) 0, caso contrário

10
Aprendizagem pelo Método da Força Bruta
  • Escolha P(h) sob a hipótese de distribuição
    uniforme
  • ? h ? H
  • P(D)
  • onde VSH,D é subconjunto de hipóteses de H
    consistentes com D

11
Aprendizagem pelo Método da Força Bruta
  • Cálculo da probabilidade a posteriori
  • Se h é inconsistente com D
  • Se h é consistente com D

12
Exemplo Método da Força Bruta
  • Considere H h1, h2, h3, h4
  • h1 risco alto, h2 risco baixo
  • h3 se sexo M então risco alto senão risco
    baixo
  • h4 se sexo M então risco baixo senão risco
    alto
  • Considere exemplo D1 sexo M, risco
    alto
  • Então VSH,D1 h1, h3, P(h1D1) P(h3D1)
    0.5 e P(h2D1) P(h4D1) 0
  • Considere exemplo D2 sexo F, risco
    baixo
  • Então VSH,D1,D2 h3, P(h3D1,D2) 1 e
    P(h1D1,D2) P(h2D1,D2) P(h4D1,D2) 0

13
Evolução das Probabilidades a Posteriori
  • em (a) todas as hipóteses tem a mesma
    probabilidade
  • em (b) e (c) a medida que novos exemplos são
    adquiridos, a probabilidade a posteriori das
    hipóteses inconsistentes se tornam nulas,
    enquanto que a probabilidade a posteriori das
    hipóteses que restaram no espaço de versões
    aumenta

14
Método da Força Bruta Observações
  • Na prática
  • só funciona quando o conceito verdadeiro está
    contido no espaço de hipóteses
  • funciona com dados sem ruído
  • No cálculo da probabilidade P(h/D) pode se levar
    em consideração
  • erro obtido pela hipótese h no conjunto D
  • o tamanho da hipótese

15
Classificador Bayesiano Ótimo
  • Dada uma nova instância x, qual é a sua
    classificação mais provável?
  • hMAP(x) nem sempre é a classificação mais
    provável
  • Considere três hipóteses
  • P(h1/D) 0.4, P(h2/D) 0.3 e P(h3/D) 0.3
  • Dada uma nova instância x a ser classificada como
    alto () ou baixo (-)
  • Suponha h1(x) , h2(x) - e h3(x) -
  • A classificação mais provável de x?

16
Classificador Bayesiano Ótimo
  • Se a possível classificação do novo exemplo pode
    ser qualquer vj ? V, a probabilidade de que a
    classificação correta seja vj
  • Classificação Bayesiana ótima

17
Classificador Bayesiano Ótimo
  • Exemplo
  • P(h1/D) 0.4, P(-/h1) 0, P(/h1) 1
  • P(h2/D) 0.3, P(-/h2) 1, P(/h2) 0
  • P(h3/D) 0.3, P(-/h3) 1, P(/h3) 0
  • Portanto
  • e

18
Classificador Bayesiano Ingênuo
  • Suponha uma função de classificação f X ? V,
    onde cada instância x é descrita pelos atributos
    a1, ?, an
  • O valor mais provável de f(x) é

19
Classificador Bayesiano Ingênuo
  • Calcular P(vj) a partir dos dados de treinamento
    é fácil, o problema é calcular a probabilidade
    P(a1,..., an vj)
  • Suposição Bayesiana Ingênua
  • ou seja, as variáves são a1,..., an
    independentes
  • Classificador Bayesiano Ingênuo (NB)

20
Classificador Bayesiano Ingênuo
  • Estimativa das Probabilidades P(vj) e P(ai/vj)
    através das freqüências relativas P(vj) e
    P(ai/vj)
  • Para cada vj
  • P(vj) ? estimativa de P(vj)
  • Para cada valor ai de cada atributo a
  • P(ai/vj) ? estimativa de P(ai/vj)
  • Classificador de novas instancias(x)

21
Classificador Bayesiano Ingênuo Exemplo
  • Dia Tempo Temp. Humid. Vento Jogar
  • D1 Sol Quente Alta Fraco Não
  • D2 Sol Quente Alta Forte Não
  • D3 Coberto Quente Alta Fraco Sim
  • D4 Chuva Normal Alta Fraco Sim
  • D5 Chuva Frio Normal Fraco Não
  • D6 Chuva Frio Normal Forte Não
  • D7 Coberto Frio Normal Forte Sim
  • D8 Sol Normal Alta Fraco
    Não
  • D9 Sol Frio Normal Fraco
    Sim
  • D10 Chuva Normal Normal Fraco Sim
  • D11 Sol Frio Alta Forte
    ?

P(Sim) 5/10 0.5 P(Não) 5/10
0.5 P(Sol/Sim) 1/5 0.2 P(Sol/Não) 3/5
0.6 P(Frio/Sim) 2/5 0.4 P(Frio/Não) 2/5
0.4 P(Alta/Sim) 2/5 0.4 P(Alta/Não) 3/5
0.6 P(Forte/Sim) 1/5 0.2 P(Forte/Não) 2/5
0.4 P(Sim)P(Sol/Sim) P(Frio/Sim) P(Alta/Sim)
P(Forte/Sim) 0.0032 P(Não)P(Sol/Não)P(Frio/Nã
o) P(Alta/Não) P(Forte/Não) 0.0288 ?
Jogar_Tenis (D11) Não
22
Algoritmo BayesianoIngênuo Dificuldades
  • Suposição de independência condicional quase
    sempre violada, mas funciona surpreendentemente
    bem
  • O que acontece se nenhuma das instancias
    classificadas como vj tiver o valor ai?

23
Algoritmo BayesianoIngênuo Dificuldades
  • Solução típica
  • n é o número de exemplos para os quais v vj
  • nc número de exemplos para os quais v vj e a
    ai
  • p é a estimativa à priori para P(ai/vj)
  • m é o peso dado à priori (número de exemplos
    virtuais)

24
Exemplo Classificação de Documentos
  • Classificar documentos em duas classes vj
    interesse, não-interesse
  • Variáveis a1,..., an são palavras de um
    vocabulário e P(ai/vj) é a freqüência com que a
    palavra ai aparece entre os documentos da classe
    vj
  • P(vj) número de documentos da classe vj
  • número total de documentos

25
Exemplo Classificação de Documentos
  • P(ai/vj) nij 1
  • nj Vocabulário
  • onde nj é o número total de palavras nos
    documentos da classe vj e nij é o número de
    ocorrências da palavra ai nos documentos da
    classe vj.
  • Usa-se m Vocabulário e p 1/
    Vocabulário (assumindo que cada palavra tem a
    mesmo probabilidade de ocorrência)

26
Exemplo Classificação de Documentos
  • Classificação Final
  • Observação nem sempre a ocorrência de uma
    palavra independe das outras palavras. Exemplo
    Inteligência e Artificial.

27
Redes Bayesianas
  • Uma Rede Bayesiana é um grafo acíclico e dirigido
    onde
  • Cada nó da rede representa uma variável aleatória
  • Um conjunto de ligações ou arcos dirigidos
    conectam pares de nós
  • cada nó recebe arcos dos nós que tem influência
    direta sobre ele (nós pais).
  • Cada nó possui uma tabela de probabilidade
    condicional associada que quantifica os efeitos
    que os pais têm sobre ele

28
Exemplo
29
Aprendizagem de Redes Bayesianas
  • Variantes da tarefa de aprendizagem
  • A estrutura da rede pode ser conhecida ou
    desconhecida
  • O conjunto de treinamento pode fornecer valores
    para todas as variáveis da rede ou para somente
    algumas
  • Se a estrutura é conhecida e todas as variáveis
    observadas
  • Então é tão fácil como treinar um classificador
    Bayesiano ingênuo

30
Aprendizagem de Redes Bayesianas
  • Suponha a estrutura conhecida e variáveis
    parcialmente observáveis
  • Exemplo, observa-se fogo na Floresta, Tempestade,
    Ônibus de turismo, mas não Raio, Fogo no
    Acampamento
  • Aprende-se a tabela de probabilidades
    condicionais de cada nó usando o algoritmo do
    gradiente ascendente
  • O sistema converge para a rede h que maximiza
    localmente ln (P(D/h))

31
Exemplo
32
Gradiente Ascendente para Redes Bayesianas
  • Seja wijk uma entrada na tabela de probabilidade
    condicional para a variável Yi na rede
  • wijk P(Yi yij/Predecessores(Yi) lista uik
    de valores)
  • Exemplo, se Yi Fogo no Acampamento, então uik
    pode ser Tempestade T, Ônibus de Turismo ?O
  • Aplicar o gradiente ascendente repetidamente
  • Atualizar todos os wijk usando os dados de
    treinamento D
  • Normalizar os wijk para assegurar
  • e

33
Aprendizagem da Estrutura de Redes Bayesianas
  • Métodos baseados em Busca e Pontuação
  • Busca no espaço de estruturas
  • Cálculo das tabelas de probabilidade para cada
    estrutura
  • Definição da medida de avaliação (Pontuação)
  • Ex. Minimum Descrition Length (MDL)
  • Operadores de busca (adição, remoção ou reversão
    de arcos da rede)
  • Processo de busca prossegue enquanto a pontuação
    de uma rede for significativamente melhor que a
    anterior
  • Ex K2(Cooper e Herskovits, 1992)

34
Aprendizagem da Estrutura de Redes Bayesianas
  • Métodos baseados em análise de dependência
  • Arcos são adicionados ou removidos dependendo de
    um teste de independência condicional entre os
    nós
  • Teste de independência pode ser feito entre pares
    de nós ou com um conjuntos maior de variáveis
    condicionais
  • Ex CDL(Chen, Bell e Liu 1997)

35
Aprendizagem da Estrutura de Redes Bayesianas
  • Métodos baseados em Busca e Pontuação
  • Vantagem Menor complexidade no tempo
  • Desvantagem Não garante encontrar melhor solução
  • Métodos baseados em análise de dependência
  • Vantagem Sob certas condições, encontra a melhor
    solução
  • Desvantagem Teste de independência com uma
    quantidade muito grande de variáveis pode se
    tornar inviável

36
Conclusões
  • Aprendizado Bayesiano pode ser usado para
    determinar as hipóteses mais prováveis dado um
    conjunto de exemplos
  • Fornece algoritmos que podem ser usados na
    prática
  • Classificador Bayesiano Ingênuo
  • Redes Bayesianas

37
Bibliografia
  • Russel, S, Norvig, P. (1995). Artificial
    Intelligence a Modern Approach (AIMA)
    Prentice-Hall. Pages 436-458, 588-593
  • Mitchell, T. (1997) Machine Learning,
    McGraw-Hill. Cap.6
  • Fayyad et al. (1996) Advances in knowledge
    discovery and data mining, AAAI Press/MIT Press.
    Cap.11
  • Pearl, J. (1988) Probabilistic Reasoning in
    Inteligent Systems
Write a Comment
User Comments (0)
About PowerShow.com