Title: Redes Bayesianas
1Redes Bayesianas
Renato Fernandes Corrêa
2Conhecimento incerto
- A conexão entre antecedente e consequente não é
uma implicação lógica em nenhuma direção - Exemplo sistema de diagnóstico odontológico
- Regra de diagnóstico
- " p sintoma (p,dor de dente) Þ doença
(p,cárie) - A doença (causa do sintoma) pode ser outra.
- Regra causal
- " p doença (p,cárie) Þ sintoma (p,dor de dente)
- Há circunstâncias em que a doença não provoca o
sintoma.
3Conhecimento incerto
- A lógica de primeira ordem falha no domínio de
diagnóstico médico devido a - preguiça
- existem causas ou conseqüências demais a
considerar - ignorância teórica e prática
- não existe uma teoria completa para o domínio,
nem podemos fazer todos os testes necessários
para o diagnóstico perfeito. - Nestes casos, o conhecimento do agente pode
apenas prover um grau de crença nas sentenças
relevantes.
4Teoria da Probabilidade
- Fornece um meio de descrever e manipular
conhecimento incerto ou incompleto - Associa às sentenças um grau de crença numérico
entre 0 e 1 - Contudo, cada sentença ou é verdadeira ou é falsa
- Grau de crença(probabilidade)
- a priori(incondicional) calculado antes do
agente receber percepções - Ex. P(cárie true) P(cárie) 0.5
- condicional calculado de acordo com as
evidências disponíveis - evidências percepções que o agente recebeu até
agora - Ex P(cáriedor de dente) 0.8
5Probabilidade condicional
- Probabilidade condicional (a posteriori) de A
dado que B ocorreu é definida por - P(AB) P(AÙB) , quando P(B) gt 0.
P(B) - Teorema de Bayes
- P(AB) P(BA) P(A)
P(B) - Probabilidade condicional
- possibilita inferência sobre uma proposição
desconhecida A dada a evidência B
6Probabilidade condicional e independência
- Independência
- P(AB) P(A)
- Exemplo A dor de dente e Búlcera
- Úlcera não causa dor de dente
- Eventos mutuamente excludentes
- P(A Ù B) 0
- Experimento Lançamento de um dado
- A a face do dado é ímpar e B a face do dado é
par - Independência condicional
- Seja X e Y independentes dado Z gt P(XY,Z)
P(XZ) - Independência condicional é crucial para o
funcionamento eficaz de sistemas probabilísticos.
7Redes Bayesianas (Redes de Crença)
- Estrutura de dados usada para representar 3 tipos
de conhecimento do domínio - relações de dependência entre variáveis
aleatórias (graficamente) - probabilidades a priori de algumas variáveis
- probabilidades condicionais entre variáveis
- Permitem calcular eficientemente a probabilidades
a posteriori de qualquer variável aleatória
(inferência) por meio de uma definição recursiva
do teorema de Bayes. - Conhecimento representado pode ser aprendido a
partir de exemplos
8Estrutura das Redes Bayesianas
- Uma Redes Bayesiana é um grafo acíclico e
dirigido onde - Cada nó da rede representa uma variável aleatória
- Um conjunto de ligações ou arcos dirigidos
conectam pares de nós - cada nó recebe arcos dos nós que tem influência
direta sobre ele (nós pais). - Cada nó possui uma tabela de probabilidade
condicional associada que quantifica os efeitos
que os pais têm sobre ele
9Rede Bayesiana com as probabilidades condicionais
Roubo
Terremoto
Alarme
Maria ligar
João ligar
P(AR,T) P(alarme-disparouroubo, terremoto)
10Redes Bayesianas
- Fornecem uma descrição completa do domínio
- A probabilidade de ocorrencia de qualquer estado
do domínio pode ser calculada - probabilidade de uma conjunção de assinalamentos
a cada variável, tal que - P(X1x1 Ù ... Ù Xnxn), pode ser abreviado como
P(x1, ..., xn) - Ex Calcular a probabilidade de o alarme tocar
sem ter havido assalto nem terremoto e João e
Maria telefonarem - P(A Ù ØR Ù Ø T Ù J Ù M) P(JA) P(MA) P(A Ø
R Ù Ø T )P(Ø R)P(Ø T) 0.9 x 0.7 x 0.001 x
0.999 x 0.998 0.00062 ou 0.062
11Inferência em Redes Bayesianas
- Causal (das causas para os efeitos)
- P (João LigarRoubo) 0.86
- Diagnóstico (dos efeitos para as causas)
- P (RouboJoão Ligar) 0.016
12Inferência em Redes Bayesianas
- Intercausal (entre causas com um efeito comum)
- P(Roubo/Alarme) 0,376
- P(Roubo/Alarme ÙTerremoto) 0,003
- Mista (combinando duas ou mais das de cima)
- P(Alarme/JoãoLigar ÙØTerremoto) 0,03
- Este é um uso simultâneo de inferência causal e
diagnóstico.
13Inferência em Redes Bayesianas
- Caso simples
- polytree (redes com conexões simples)
- algoritmo recursivo usando teorema de bayes a
cada passo - Caso complexo
- rede multiplamente conectados (classes de
algoritmos) - redução para polytree
- agrupamento (grandes tabelas)
- separação condicional (muitas redes)
- árvore de junção ou árvore de cliques (mais
usada) - simulação estocástica (muitas iterações)
- Software para inferêcia Nética da NORSYS.
14Engenharia do conhecimentopara Redes Bayesianas
- 1. Escolher um conjunto de variáveis relevantes
que descrevam o domínio - 2. Ordem de inclusão dos nós na rede
- 1. causas raízes
- 2. variáveis que elas influenciam
- 3. folhas, que não influenciam diretamente
nenhuma outra variável. - 3. Enquanto houver variáveis a representar
- a) escolher uma variável Xi e adicionar um nó
para ela na rede - b) estabelecer Pais(Xi) dentre os nós que já
estão na rede, satisfazendo a propriedade de
dependência condicional - c) definir a tabela de probabilidade condicional
para Xi
15Engenharia do conhecimentopara Redes Bayesianas
- São necessários n2k números para especificar a
rede completa(variáveis aleatórias booleanas),
onde - K n de pais de cada variável e n n de nós
- É desejável que
- cada variável seja diretamente influenciada por
poucas variáveis - a topologia da rede reflita essas influências com
um conjunto apropriado de Pais - algumas dependências poderão ser relaxadas
- Ex P(JoãoligarTerremoto) e P(MarialigarTerremot
o) - se o alarme tocar e houver terremoto, eles vão
assumir que esta foi a causa do alarme ter
disparado, e não vão ligar.
16Aprendizagem das probabilidades com estrutura
fixa
- Humanos acham fácil dizer o que causa o que, mas
acham difícil colocar probabilidades nos links. - Tarefa de aprendizagem
- Dados
- relações de independência entre variáveis
aleatórias (estrutura) - probabilidades a priori das variáveis de
entrada - probabilidades a posteriori de variáveis de
saída - Calcular
- probabilidades condicionais das variáveis
dependentes - 2 algoritmos principais
- gradiente ascendente de P(DHi)
- algoritmo EM (Estimação Média)
- ambos iterativos e sujeito a encontrar mínimo
local
17Aprendizagem da estrutura
- A duas classes de métodos de aprendizagem da
estrutura de uma rede bayesiana - Métodos baseados em Busca e Pontuação - pesquisa
no espaço de possíveis estruturas - Determinar a melhor estrutura que se encaixa aos
dados, iniciando com uma rede sem arcos e
adicionando-os aos poucos e avaliando(pontuando)
a estrutura obtida - Existem vários métodos de pontuação
- ex K2(Cooper e Herskovits, 1992)
- Métodos baseados em análise de dependência entre
variáveis - Iniciar com uma estrutura totalmente conectada
com arcos sem direção, eliminar arcos baseando-se
em testes de independência condicional, associar
direções aos arcos - ex CDL(Chen, Bell e Liu 1997)
18Software que aprende a estrutura e probabilidades
- Belief Network Power Constructor (Cheng, Bell e
Liu)
Estrutura e Parâmetros
Opcional
19Aplicação em Diagnóstico Médico
Visita à Asia
Fumante
Informação do Paciente
Tuberculose
Bronquite
Câncer (Pulmão)
Dificuldades Médicas
Tuberculose ou Câncer
Raio-X
Dispnéia
Exames diagnósticos
Cooper, 1984
20Aplicação em Diagnóstico Médico
Visita à Asia
Fumante
Tuberculose
Bronchitis
Câncer (Pulmão)
Tuberculose ou Câncer
Raio-X
Dispnéia
- As relações são tabelas de probabilidades
condicionais
21Aplicação em Diagnóstico Médico
- PATHFINDER é um sistema de diagnóstico de doenças
que atacam os nodos linfáticos. - Foi construido por membros do programa Stanford
Medical Computer Science, durante os anos 80. - O sistema lida com 60 doenças e 100
evidências(sintomas e resultados de exames). - A metodologia utilizada para a criação da base de
conhecimento foi a especificada anteriormente. - Uma comparação recente demonstrou que o
Pathfinder está superando os especialistas
consultados durante sua criação (patologistas
reconhecidos mundialmente).
22Aplicação em Recuperação de Informação
- O objetivo
- desenvolver uma arquitetura de IR probabilística
que - auxilie os usuários que tem necessidade de
informações estáveis em ordenar um grande volume
de material sensitivo ao tempo - permita a utilização de uma linguagem intuitiva
na especificação das necessidades de informação a
serem supridas - integre relevance feedback e dados de treinamento
com o julgamento feito pelo usuário para
incrementalmente melhorar sua performance de
recuperação
23Aplicação em Recuperação de Informação
- Tendo sido especificado
- um ou mais tópicos de interesse, e
- características do documento que devem ser usadas
como evidência de cada tópico de interesse. - A tarefa de recuperação de informação pode ser
divida em 3 passos - 1. Construir a rede representando a pergunta
(query) - 2. Pontue cada documento
- 2.1. Extrair as características de cada
documento - 2.2. Instanciar as características na rede de
recuperação - 2.3. Calcular a probabilidade a posteriori da
relevância do documento. - 3. Ranquear os documentos de acordo com as
pontuações.
24Aplicação em Recuperação de Informação
- Requer dois conjuntos de probabilidades a serem
especificadas - A probabilidade a priori de um documento ser
relevante a um dado tópico ti - A probabilidade condicional da uma característica
fik estar presente em um documento, dado que o
documento é relevante para um tópico ti. - A tarefa de recuperação de informação envolve
computar a probabilidade P(tif1,...,fm)
P(ti) P (f1,...,fmti)
P(f1,...,fm)
25Aplicação em Recuperação de Informação em artigos
de jornal
Política contraditória do governo dos EUA
Corrupção de oficiais
Conflito no Oriente-Médio
Intervenção
empréstimo
corrupção
Forças armadas
mortos
26Aplicação em Recuperação de Informação
- A relação ente tópicos
- pode ser derivado examinando uma coleção de
documentos de treinamento, onde o julgamento de
relevância do documento para cada tópico é
fornecido. - Diagramas de co-ocorrência.
- Aproximação das probabilidadesP(fkti)
documentos relevantes para ti que contém fk
documentos relevantes para o tópico
ti P(ti) documentos relevantes para ti
total de documentos
27Aplicações de Redes Bayesianas
- Modelo do estudante para o ANDES, tutor
inteligente para Física, do Learning RD Center
da Universidade de Pittsburgh. www.pitt.edu/vanle
hn/andes.html - Produto para e-commerce modelado com agentes
virtuais distribuídos baseados em RB que
supervisionam as linhas de usuários em sites Web,
da Manna Network Technologies. www.mannanetwork.co
m - SymText usa um modelo de contexto baseado em RB
para extrair informação de textos médicos
escritos em linguagem natural (Universidade de
Utah - Spencer Koehler, CRL). http//students.cs.b
yu.edu/sbk/
28Aplicações de Redes Bayesianas
- Agentes em que as suas qualidades (mentais ou
emocionais) são descritas por redes bayesianas
passa-se de um determinado estado emocional para
um outro, com uma certa probabilidade.
hcoelho_at_di.fc.ul.pt - PAINULIM é um sistema para apoio ao diagnóstico
de doenças neuro-musculares, desenvolvido por
Yang Xiang, com base em uma rede bayesiana
múltiplamente seccionada nos domínios clínico,
EMG (eletromiografia) e condução
nervosa.http//snowhite.cis.uoguelph.ca/faculty_i
nfo/yxiang/research.html - Diversos outros sistemas são citados por Russ
Greiner na página www.cs.ualberta.ca/greiner/bn.h
tmlapplic
29Outros Usos de Redes Bayesianas
- Além de calcular consultas a partir de variáveis
como evidência uma rede bayesiana também pode ser
usada para realizar as seguintes tarefas - tomada de decisão
- decidir qual variável adicional deve ser
observada - Análise sensitiva
- nos dá resposta as questões
- Qual evidência é a favor, contra e/ou irrelevante
para uma dada hipótese? - Qual evidência distingue uma hipótese hi da
hipótese hj? - explicar os resultados para o usuário
30Conclusões
- A maior vantagem do raciocínio probabilistico em
relação ao raciocínio lógico é permitir ao agente
chegar a decisões racionais mesmo quando não há
informação suficiente para provar que qualquer
das ações dadas irá funcionar. - Raciocínio probabilístico trata o grau de
incerteza associado à maioria dos domínios. - Estimativas grosseiras podem implicar em
respostas imprecisas,mesmo utilizando
sofisticados método estatísticos. - Redes Bayesianas são usadas em muitas aplicações
do mundo real.
31Referências Bibliográficas
- Stuart, J. Russel and Norvig, P. (1995) -
Artificial Intelligence A Modern Approach.
Prentice Hall. Pages 436-458, 588-593. - Mitchell, T. (1997) Machine Learning,
McGraw-Hill. Cap.6. - Carneiro, A. Lenin. Aprendizado automático em
redes bayesianas. Dissertação de Mestrado.
Brasília UnB, Ciência da Computação, 1999. - Fung, R., Del Favero, B. Applying Bayesian
Networks to Information Retrieval. Proceedings of
Communications of the ACM, march 1995/Vol.38, No.
3. - BNPC http//www.cs.ualberta.ca/jcheng/bnpc.htm
- Néticahttp//www.norsys.com/