Title: Aprendizado de M
1Aprendizado de Máquinas
2Aprendendo de Observações
A M B I E N T E
Sensores
Critica
Feedback
Performance
Aprendizado
Objetivos
de aprendizado
Gerador
Efectores
Modelo de Aprendizado
3Aprendizado
- A percepção pode ser usada para atuar e para
melhorar a habilidade do agente no futuro. - O aprendizado ocorre como resultado da interação
do agente e o mundo, e das observações deste
agente.
4Pesquisas em Aprendizado
- Que componentes do elemento de performance devem
ser melhorados. - Que representação é usada para estes componentes.
- Que feedback esta disponivel.
- Que informação a priori esta disponivel.
5Componentes de Performance
- Mapeamento do estado corrente para ações.
- Um meio de inferir propriedades do mundo.
- Informações de como o meio evolue
- Informações das consequências das ações do agente
- Estados desejaveis do mundo
- Objetivos para atingir determinados estados.
6Representação do componente
- Diferentes formas de representar conhecimento
levam a diferentes métodos de aprendizado. - Ex redes neurais, algoritmos géneticos, formulas
lógicas....
7Feedback Disponivel
- E, S aprendizado supervisionado
- E, S aprendizado reforçado
- E aprendizado não supervisionado
8Aprendizado Inductivo
9Aprendizado Inductivo
- Assumindo que o sistema é modelado por um uma
função f, desconhecida - Dado uma coleção de exemplos de f, retornar a
função h que se aproxima a f, a função h é
denominada hipoteses.
10Bias
11Tarefa de Classificação
12Árvores de Decisão
País
Inglaterra
Alemanha
Não
Sim
França
Idade
gt 25
lt 25
Sim
Não
13Árvores de Decisão
- Classificação baseado num conjunto de atributos
- Cada nó interno corresponde a um teste sobre os
valores dos atributos - Os arcos são rotulados com os valores possiveis
do teste - Cada folha na árvore especifica a classificação.
14Esperar por uma mesa num restaurante
- Decidir que propriedades ou atributos estão
disponiveis para descrever os exemplos do
dominio - Existem alternativas?, existe um bar no local?,
dia da semana, estado da fome, estado do
restaurante, preço, chuva, reserva, tipo de
comida, tempo de espera....
15Esperar por uma mesa?
Estado rest.
Cheio
Espera
Medio
Vazio
30-60
0-10
Não
Sim
gt60
10-30
Sim
Alternativa
Fome
Não
Não
Sim
Sim
Não
Sim
Reservas
Dia
Alternat.
Não
Final
Sim
Semana
Não
Sim
Sim
Sim
Bar
Não
Sim
Chove
Não
Sim
Sim
Não
Não
Sim
Não
Sim
16Expressividade das Árvores de decisão
- Conjunto de implicações da raiz até uma folha
- ex ?r Estado(r,cheio)? Espera(r,0-10) ?
?fome(r,não) gt Esperar. - As árvores de decisão estão limitadas a falar de
um objeto único. - Linguagem proposicional, cada teste num atributo
é uma proposição - ? rr, Perto(rr,r),Preço(r,p),Preço(rr,pp),Menor(pp
,p)
17Inducindo Árvores a partir de Exemplos
- Um exemplo é descrito pelo valor dos atributos e
o valor do predicado objetivo (classificação). - Solução trivial uma folha para cada exemplo
- memorização das observações sem extrair padrão
- Extrair padrões significa descrever um grande
número de casos de uma maneira concisa. - Ockham Razor A melhor hipoteses é a mais simples
consistente com todas as observações.
18Indução de Árvores
- Encontrar a árvore de decisão menor é um problema
intratavel - Solução Heuristicas simples, boas árvores
- Ideia básica
- Testar o atributo mais importante primeiro
- Separar o maior número de casos, a cada vez.
- Classificação correta com o menor número de teste.
19Indução de Árvores
- Uma árvore de decisão é construída de forma
"top-down", usando o princípio de
dividir-para-conquistar. - Inicialmente, todas as tuplas são alocadas à raiz
da árvore. - Selecione um atributo e divida o conjunto.
- Objetivo- separar as classes
- Repita esse processo, recursivamente.
20Conjunto de Treinamento
21Seleção do Atributo
1 3 4 6 8 12 -2 5 7 9 10 11
Tipo
F
B
I
T
3 12 - 7 9
1 - 5
6 - 10
4 8 - 2 11
22 1 3 4 6 8 12 - 2 5 7 9 10 11
Estado
Cheio
Vazio
Medio
4 12 - 2 5 9 10
Fome
- 7 11
1 3 6 8 -
Sim
Não
- 5 9
4 12 - 2 10
23Algoritmo
24Árvore Gerada
Estado
Fome
Vazio
Cheio
Medio
Não
Sim
Sim
Não
Não
Tipo
B
Sim
F
I
T
Sim
Não
sex/sab
Sim
Não
Sim
Não
25Árvore
- Os dados do exemplo foram gerados com a árvore
inicial - A árvore gerada é diferente da original
- O algoritmo olha os exemplos!!!
- Performance do algoritmo é bom se produz uma
hipoteses que é boa para predizer a classificação
de exemplos não vistos anteriormente. Conjunto de
teste.
26Métodologia de Aprendizado
- Colecione um conjunto grande de exemplos
- Divida em 2 conjuntos disjunto
- conjunto de treinamento
- conjunto de teste
- Use o algoritmo de aprendizado com o conj.
treinamento para gerar a hipoteses H. - Calcule a percentagem de exemplos no conjunto de
teste que estão corretamente classificados por H. - Repita os passos 2 a 4 para diferentes conjuntos
27Conjunto de treinamento
- O resultado é um conjunto de dados que pode ser
processado para dar a media da qualidade da
predição.
28Curva de Aprendizado
- de corretos no conjunto de teste
100
Tamanho do conjunto de treinamento
29Uso pratico de Árvores
- Lógica proposicional
- Tomada de decisões, classificação de objetos
- Planos de vôos
- Equipamentos para separação de gasolina e oleo.
30Teoria da Informação
- Escolha do melhor atributo?
- Árvore de profundidade mínima
- Atributo perfeito divide os exemplos em conjuntos
que são e -. - ex estado do restaurante x tipo de restaurante
- Quantidade de informação esperada de cada
atributo (Shanon Weaver, 1949).
31Teoria da Informação
- Dada uma situação na qual há N resultados
alternativos desconhecidos, quanta informação
você adquire quando você sabe o resultado? - Resultados equiprováveis
- Lançar uma moeda, 2 resultados, 1 bit de
informação - 1 ficha dentre 8, 8 resultados, 3 bits de
informação - 1 ficha dentre 32, 32 resultados, 5 bits de
informação - N resultados equiprováveis Info log2N bits
32Teoria da Informação
- Probabilidade de cada resultado p1/N,
- Info - log2 p bits
- Resultados não equiprováveis
- ex 128 fichas, 127 pretas e 2 branca. É quase
certo que o resultado de extrair uma ficha será
uma ficha preta. - Existe menos incerteza removida, porque há menos
dúvida sobre o resultado.
33Função de Shannon
- Info - ?i1,N pi log2pi bits
- Em vários algoritmos de árvore de decisão, a
seleção de atributos é baseada nesta teoria. - Ex ID3, C4.5, C5.0 Quinlan93, Quinlan96.
34Árvores e Teoria da Informação
- Para um dado exemplo qual é a classificação
correta? - Uma estimação das probabilidades das possiveis
respostas antes de qualquer atributo ser testado
é - Proporção de exemplos e - no conjunto de
treinamento. - I(p/(pn),n/(pn))
- -p/(pn)log2p/(pn)- n/(pn)log2n/(pn)
35Árvores e Teoria da Informação
- Testar atributo
- Qualquer atributo A divide o conjunto E em
subconjuntos E1,...,Ev de acordo com seus valores
(v valores distintos). - Cada subconjunto Ei possui pi exemplos ( ) e ni
exemplos (-), - I (pi/(pini),ni/(pini)) bits de informação
adicional para responder.
36Ganho de Informação
- Um exemplo randomico possui valor i para o
atributo com probabilidade (pini)/(pn) - Em media depois de testar o atributo A
necessitamos - Resta(A)?i1,v (pini)/(pn)I(pi/(pini),ni/(pin
i)) - Ganho(A) I(p/(pn),n/(pn))- Resta(A)
37Exemplo
- Estado do restaurante
- Valores possiveis (vazio, medio, cheio)
- Ganho(Estado) 1-2/12 I(0,1)4/12I(1,0)6/12I(2/
6,4/6) 0,541 bits - Ganho(tipo) 1-2/12I(1/2,1/2)1/12I(1/2,1/2)4/12
I(2/4,2/4)4/12 - I(2/4,2/4) 0
bits
38Outros Criterios
- Há vários outros critérios que podem ser usados
para selecionar atributos quando construindo uma
árvore de decisão - Nenhum critério é superior em todas as
aplicações. A eficácia de cada critério depende
dos dados sendo minerados.
39Ruido e Overfitting
- Ex 2 ou mais exemplos com a mesma descrição e
diferentes classificações. - Classificação segundo a maioria
- Reportar a estimação das probabilidades de cada
classificação. - Classificar considerando atributos irrelevantes
- ex jogo de dados, considerar como atributo
dia,cor..
40Overfitting
- Quando existe um conjunto grande de hipoteses
possiveis, devemos ser cuidadosos para não usar a
liberdade resultante para encontrar regularidades
nos dados. - Sugere-se podar a árvore, prevenindo testar
atributos que não são claramente relevantes. - Ganho de informação perto de zero
- Teste de Significância Estatistica.
41Teste de Significância
- Assumir que não existe um padrão nos dados,
hipoteses nula. - Os dados são analizados para calcular quanto eles
desviam-se da ausência perfeita de padrão. - Se o grau de desviação é estatisticamente
insignificante (5) - Existe uma boa evidência da presença de um padrão
nos dados.
42Teste de Significância
- As probabilidades são calculadas de uma
distribuição estandard da quantidade de desviação
que se espera ver devido a uma amostra randomica. - Neste caso, a hipoteses nula é que o atributo é
irrelevante, e o ganho de informação de uma
amostra infinitamente grande seria zero.
43Probabilidade de Hipotese Nula
- Uma amostra de tamanho v exiba a desviação
observada da distribuição esperada de exemplos
e -. - Comparar o número de casos p, n dos esperados pi
e ni - pi p(pini)/(pn)
- nin(pini)/(pn)
- D ? (pi-pi)2/pi(ni-ni)2/ni
- baixo a hipóteses nula, D é distribuído de acordo
a X2 com v-1 graus de liberdade.
44Cross-Validação
- A ideia é tentar estimar como a hipoteses atual
predizirá. - Manter dados de teste, testar performance da
predição.
45Árvores de decisão
- Falta de dados
- Atributos multivalorados
- Atributos continuos