Redes Bayesianas - PowerPoint PPT Presentation

1 / 48
About This Presentation
Title:

Redes Bayesianas

Description:

Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE Roteiro Probabilidade (Teorema de Bayes). O que s o Redes Bayesianas? Construindo uma Rede Bayesiana. – PowerPoint PPT presentation

Number of Views:102
Avg rating:3.0/5.0
Slides: 49
Provided by: Departa126
Category:

less

Transcript and Presenter's Notes

Title: Redes Bayesianas


1
Redes Bayesianas
  • Paulo Adeodato
  • George Cavalcanti
  • CIn-UFPE

2
Roteiro
  • Probabilidade (Teorema de Bayes).
  • O que são Redes Bayesianas?
  • Construindo uma Rede Bayesiana.
  • Inferência em Redes Bayesianas.
  • Aprendizagem em Redes Bayseanas.
  • Redes Bayesianas x Redes Neurais

3
Probabilidade CondicionalDefinição e
Propriedades
1- P(BA), para A fixo, satisfaz os axiomas de
Kolmogorov 2- Se A ?, então P(BA) P(B) 3- A
probabilidade condicional define-se em função
da probabilidade não condicional, logo o cálculo
da primeira decorre do conhecimento da segunda 4-
4
Teorema da Multiplicação de Probabilidades
  • Esse resultado permite calcular a probabilidade
    de ocorrência simultânea de vários eventos a
    partir das probabilidades condicionais.

5
Probabilidade de um Evento
  • Considere os eventos B1,...,Bk formando uma
    partição de W, isto é,

Intuitivamente, qualquer que seja o resultado
de um experimento, um e somente um desses eventos
Bi acontecerá.Graficamente,
6
(No Transcript)
7
Assim, podemos calcular a probabilidade de A
de forma aditiva
onde cada uma dessas interseções é dada por
E dessa maneira temos o seguinte
8
Teorema da Probabilidade Total
  • A utilidade desse resultado reside em que, muitas
    vezes, é difícil calcular a probabilidade do
    evento A em forma direta, mas pode-se conhecer a
    probabilidade dele acontecer dado que ocorreram
    outros eventos Bi que formam uma partição do
    espaço amostral.

9
Teorema de Bayes
  • Permite calcular a probabilidade da causa Bi
    ter acontecido, dado que a conseqüência A
    tenha sido observada.

10
Exemplo
  • Um sistema automático de apoio à decisão médica é
    utilizado para auxílio na diagnose do tipo de
    hepatite dos pacientes num ambulatório. Erros
    são inerentes ao processo decisório e o
    desempenho desse sistema, medido pela sua matriz
    de confusão abaixo, indica qual a probabilidade
    de um tipo de hepatite ser reconhecido como
    qualquer deles. Considerando que as incidências
    dos casos de hepatite na região são de 10 do
    tipo A, 60 do tipo B e 30 do tipo C, qual a
    probabilidade de um paciente que teve
    diagnosticada hepatite B pelo sistema tenha, na
    realidade, esse tipo de hepatite ?

11
Exemplo (Continuação)
  • Cada elemento da matriz de confusão representa a
    probabilidade condicionada P(tipo diagnosticado
    tipo real) de hepatite.
  • DIAGNOSTICADA
  • R A B C
  • E A 0,85 0,10 0,05
  • A B 0,10 0,70 0,20
  • L C 0,20 0,15 0,65

12
Exercício
  • Em teste de múltipla escolha, a probabilidade de
    o aluno saber a resposta é p. Havendo m escolhas,
    se ele sabe a resposta responde corretamente com
    probabilidade 1 se ele não sabe a resposta,
    responde corretamente com probabilidade 1/m. Qual
    é a probabilidade de que ele sabia a resposta
    dado que a pergunta foi respondida corretamente ?

13
Variaveis Aleatorias Bidimensionais
  • Há 3 tipos de VAs bidimensionais caracterizados
    pelos tipos das VAs que compõem o vetor
    aleatório
  • Discreta-discreta
  • (X,Y) ? (estado civil, no de dependentes)
  • Discreta-contínua
  • (X,Y) ? (renda, estado civil)
  • Contínua -contínua
  • (X,Y) ? (renda, tempo de emprego)

14
VAs Bidimensionais Discretas
  • Uma variável aleatória bidimensional é discreta
    se o seu contradomínio ?XY for discreto
  • ?XY ?X x ?Y (produto cartesiano)
  • A sua distribuição é dada por

onde
  • p(xi,yj) representa a Probabilidade Conjunta

15
VAs Bidimensionais Discretas (cont.)
  • Assim

e
16
Exemplo
  • Duas fábricas (F1 e F2) fornecem um tipo de peça
    a 3 empresas distintas (E1, E2 e E3), a excecao
    da fábrica F2 que não fornece a empresa F2.
    Suponha que o lançamento de pedidos é
    equiprovável de cada empresa para cada fábrica.
    Que modelo descreve a VA bidimensional dos pares
    (fábrica, empresa)?

17
Distribuições Marginais
  • Dada p(xi,yj), é possível obter, tanto a
    distribuição de X quanto a distribuição de Y

e
18
Distribuições Marginais (cont.)
  • P(Xxi) e P(Yyj) são chamadas probabilidades
    marginais ou distribuições marginais porque
    costumam ser colocadas nas margens das tabelas de
    distribuicoes discretas bidimensionais.
  • Quais são as probabilidades marginais do exemplo
    anterior?

19
Independência
  • Seja (X,Y) uma variável aleatória bidimensional
    discreta. A variáveis aleatórias X e Y são ditas
    independentes se
  • p(xi,yj) p(xi) p(yj)
  • para todo (xi,yj) pertencente a ?X x ?Y

20
Distribuição de Probabilidade Conjunta
  • O que é?
  • É uma tabela n-dimensional na qual os valores das
    células dão a probabilidade de um dado evento
    ocorrer.
  • Poder expressivo
  • Ela pode responder qualquer questão sobre o
    domínio.
  • Problema
  • complexidade de cálculo matemático e tamanho que
    cresce exponencialmente com a dimensão do espaço

Exemplo de uma distribuição de probabilidade
conjunta
21
Redes Bayesianas representação do conhecimento
para raciocínio com incerteza
  • Representa 3 tipos de conhecimento do domínio
  • relações de independência entre variáveis
    aleatórias (graficamente)
  • probabilidades a priori de algumas variáveis
  • probabilidades condicionais entre variáveis
    dependentes.
  • Permite calcular eficientemente
  • probabilidades a posteriori de qualquer variável
    aleatória(inferência) usando para isso uma
    definição recursiva do teorema de Bayes.
  • Conhecimento representado
  • pode ser aprendido a partir de exemplos
    reutilizando parte dos mecanismos de raciocínio

22
Estrutura de uma rede bayesiana
  • Cada variável aleatória (VA) é representada por
    um nó da rede
  • Cada nó (VA) recebe conexões dos nós que têm
    influência direta (seus pais) sobre ele. (Tarefa
    fácil para o especialista)
  • Cada nó possui uma tabela de Probabilidades
    Condicionais que quantifica a influência dos seus
    pais sobre ele. (Difícil para o especialista)
  • O grafo é acíclico (veremos a razao matematica
    para tal)

23
Construção (manual) de uma rede bayesiana
  • Escolher variáveis relevantes que descrevam o
    domínio
  • Escolher uma ordem para as variáveis
  • Enquanto tiver variáveis sobrando
  • pegar uma variável e adicionar um nó na rede para
    ela
  • criar links dos nós anteriormente inseridos que
    satisfaçam a independência condicional
  • definir a tabela de probabilidade condicional
    para a variável.

24
Exemplo simples de rede bayesiana (cont.)
25
Decomposição da Probabilidade Conjunta
26
Decomposição da Probabilidade Conjunta
  • Essa decomposicao deixa clara a necessidade de a
    rede bayesiana ser um grafo aciclico
  • A cada fator acrescentado na decomposicao
    acrescentamos 2j-1 condicoes da tabela de
    probabilidades condicionadas da j-esima VA ao
    total de condicoes
  • Assim, teremos um total (?2j-1) de 25-1 condicoes
    nas tabelas das probabilidades condicionadas das
    Vas. Esse representa o pior caso possivel para
    uma rede bayesiana.

27
Aprendizagem em redes bayesianas
  • 4 Situacoes possiveis
  • Estrutura conhecida, completamente observável
  • as tabelas de probabilidade condicionada podem
    ser estimadas usando o conjunto de exemplos com
    classificador ingênuo? de Bayes
  • Estrutura desconhecida, completamente observável
  • o problema é construir a topologia da rede. Busca
    no espaço de estruturas.
  • Estrutura conhecida, variáveis escondidas
  • caso parecido com aprendizado em redes neurais
  • Estrutura desconhecida, variáveis escondidas
  • não se conhece algoritmos para este tipo de
    problema

28
Tipos de conhecimento
  • Causal
  • Refletem a direção conhecida de causalidade no
    mundo para algumas propriedades do mundo
    percepções são geradas.
  • ex, P(DorDeDenteCárie), P(MaryCallsAlarme)
  • Diagnóstico
  • Infere a presença de propriedades escondidas
    diretamente da percepção.
  • Produzem conclusões fracas.
  • ex, P(CárieDorDeDente), P(AlarmeMaryCalls)

29
Ordenar nós de uma rede bayesiana
  • Algoritmo de construção apresentado especifica a
    ordem
  • Raízes sempre causais, folhas sem influência
    causal sobre nenhuma outra variável
  • Caracteristicas
  • compactacao da rede
  • menor complexidade computacional (pior caso volta
    a distribuição de probabilidade conjunta)
  • menores tempo de resposta e necessidade de memoria

30
Exemplo de rede bayesiana não puramente causal
  • Vamos usar o exemplo do alarme com a seguinte
    ordem de inserção dos nós
  • MaryCalls, JohnCalls, Alarme, Roubo e Terremoto.

31
Exemplo de rede bayesiana não puramente causal
(cont.)
  • Problemas
  • A figura possui duas conexões a mais
  • julgamento não natural e difícil das
    probabilidades
  • Tendo uma rede puramente causal, teríamos um
    número menor de conexões
  • Podemos piorar ainda mais a nossa configuração da
    rede, seguindo a seguinte ordem de criação
  • MaryCalls, JohnCalls, Terremoto, Roubo e Alarme.
  • Resulta num total de 25-1 condicoes nas tabelas
    das probabilidades condicionadas das VAs (pior
    caso probabilidade conjunta original)

32
Exemplo de rede bayesiana não puramente causal
(cont.)
33
Preencher tabelas de probabilidades condicionais
com conhecimento do domínio
  • Problema preencher as tabelas de probabilidade
    condicionada.
  • Distribuições canônicas (ex, normal, binomial)
  • Relações entre nós (pais e filhos) se ajustam a
    algum padrão. Nesses casos, toda a tabela pode
    ser especificada determinando o padrão e talvez
    suprimindo alguns parâmetros. (conseguido apenas
    para a Normal com intervalos discretizados)
  • Relações determinísticas
  • Os nós possuem seus valores especificados pelos
    valores dos seus pais, sem incerteza.
  • Lógica ruidosa (noisy-OR)
  • A probabilidade de o nó de saída ser falso é o
    produto do parâmetro ruidoso de todos os nós de
    entrada que são verdadeiros.

34
Preencher tabelas de probabilidades condicionais
com conhecimento do domínio
35
Versatilidade das redes bayesianas
  • Redes Bayesianas oferecem 4 tipos de inferência
  • Causal (da causa para o efeito)
  • P(JohnCalls/Roubo) 0,86
  • Diagnóstico (do efeito para a causa)
  • P(Roubo/JohnCalls) 0,016

36
Versatilidade das redes bayesianas
  • Intercausal (entre causas com um efeito comum)
  • P(Roubo/Alarme) 0,376
  • P(Roubo/Alarme ?Terremoto) 0,373
  • Mista (combinando duas ou mais das de cima)
  • P(Alarme/JohnCalls ??Terremoto) 0,03
  • Este é um uso simultâneo de inferência causal e
    diagnóstico.

37
Exemplo da tarefa de aprendizagem
38
Outros Usos
  • Além de calcular consultas a partir de variáveis
    como evidência uma rede bayesiana também pode ser
    usada para realizar as seguintes tarefas
  • tomada de decisão
  • decidir qual variável adicional deve ser
    observada
  • Análise sensitiva
  • nos dá resposta as questões
  • Qual evidência é a favor, contra e/ou irrelevante
    para uma dada hipótese?
  • Qual evidência distingue uma hipótese hi da
    hipótese hj?
  • explicar os resultados para o usuário

39
Aula Encerrada Neste Ponto
40
Calcular probabilidades a posteriori usando uma
rede bayesiana
  • Caso simples
  • polytree (redes com conexões simples)
  • algoritmo recursivo usando teorema de bayes a
    cada passo
  • Caso complexo
  • rede multiplamente conectados
  • redução para polytree
  • agrupamento (grandes tabelas)
  • separação condicional (muitas redes)
  • simulação estocástica (muitas iterações)

41
Aprender probabilidades com estrutura fixa
  • Humanos acham fácil dizer o que causa o que, mas
    acham difícil colocar números nos links.
  • Tarefa de aprendizagem
  • Dados
  • relações de independência entre variáveis
    aleatórias (estrutura)
  • probabilidades a priori das variáveis de
    entrada
  • probabilidades a posteriori de variáveis de
    saída
  • Calcular
  • probabilidades condicionais das variáveis
    dependentes
  • 2 algoritmos principais
  • gradiente ascendente de P(DHi) - muito parecido
    com aprendizagem de pesos em redes neurais
  • algoritmo EM (Estimação Média)
  • ambos iterativos e sujeito a encontrar mínimo
    local

42
Exemplo da tarefa de aprendizagem
43
Exemplo da tarefa de aprendizagem
  • Dados de treinamento
  • P(JR), p(JT), p(MR), P(MT)
  • Exemplos
  • True, False, False, False
  • (...)
  • False, False, True, False
  • explicar que usando bayes iterativamente pode
    calcular ? a partir dos dados

44
Gradiente ascendente de P(DH)
  • exemplo passo a passo
  • formula de Mitchell que mostra similaridade com RN

45
Algoritmo EM
46
Redes Bayesianas x Redes Neuraissimilaridades
  • processo iterativo em N épocas
  • ajuste das probabilidades condicionais no lugar
    de pesos
  • use gradiente ascendente de P(DHi)

47
Redes Bayesianas x Redes Neuraisdiferenças
  • Redes Bayesianas
  • representações locais
  • as variáveis possuem dois níveis de ativação
  • pode tratar qualquer sub-conjunto das variáveis
    como entrada
  • Inserção fácil de conhecimento a priori
  • nao implementavel em hardware
  • Redes Neurais
  • representacao global distribuida
  • variaveis discretas ou continuas
  • execucao em tempo linear
  • entradas e saidas fixas
  • dificil insercao de conhecimento a priori
  • implementavel em hardware

48
Bibliografia
  • Russel, S, Norvig, P. (1995). Artificial
    Intelligence a Modern Approach (AIMA)
    Prentice-Hall. Pages 436-458, 588-593
  • An Introduction to Baysean Networks
  • Mitchell, T. (1997) Machine Learning,
    McGraw-Hill. Cap.6
  • Fayyad et al. (1996) Advances in knowledge
    discovery and data mining, AAAI Press/MIT Press.
    Cap.11
  • Pearl, J. (1988) Probabilistic Reasoning in
    Inteligent Systems
Write a Comment
User Comments (0)
About PowerShow.com