Title: Aprendizado Baseado em Instancias
1Aprendizado Baseado em Instancias
2Introdução
- Em contraste aos métodos de aprendizado que
constroem uma descrição explicita genérica da
função alvo. - Os métodos baseados em instâncias guardam os
exemplos de treinamento - A generalização é posposta até que uma nova
instância deva ser classificada - Cada vez que uma nova instância é encontrada,
seus relacionamentos com os exemplos previamente
guardados é examinado para atribuir um valor de
função alvo.
3IBL
- IBL, instance based learning
- Inclui os métodos de vizinho mais próximo,
raciocínio baseado em casos - IBL é um método chamado lazy
- IBL é utilizado em funções alvo com valores
discreto ou valores reais.
4IBL
- IBL pode utilizar uma representação simbólica
mais complexa para as instâncias -gt Raciocínio
baseado em Casos. - O custo de classificar uma nova instância é alto
- Indexação eficiente dos exemplos de treinamento
5Aprendizado K-Nearest Neighbor
- O método IBL mas basico é o algoritmo k-nearest
neighbor - Este algoritmo assume que todas as instâncias
correspondem a um ponto no espaço n-dimensional
Rn - O vizinho mais próximo de uma instância é
definido em termos da distância euclidiana.
6Distância Euclidiana
- Seja a instância descrita por
- (a1(x),a2(x),.........an(x))
- A distância entre 2 instâncias Xi e Xj
- d(Xi,Xj)(?r1,n (ar(Xi)-ar(Xj))2)1/2
- Esta abordagem é apropriada tanto para funções
alvo discretas ou reais.
7Algoritmo para funções Alvo Discretas
- Neste caso o valor f(xq) retornado é o f(xq) mais
freqüente entre os k vizinhos de f(xq). - Algoritmo
- Fase de treinamento para cada exemplo de
treinamento (x,f(x)), adicione o exemplo a lista
de exemplos.
8Classificação
- Dado uma instância Xq a ser classificada
- Sejam X1...Xk as instâncias de treinamento mais
próximas de Xq - Retorne
- F(Xq) lt- argmax )(?i1,k a(r,f(Xi))
- Onde a(a,b)1 se ab
- Caso contrario a(a,b)0
9Numero de vizinhos
1 vizinho classifica como 5 vizinhos
classificam como -
10Regressão
- Classificação no caso de valores reais
- f(Xq) (?i1,k,f(Xi))/k
11Algoritmo Nearest Neighbor Distâncias Ponderadas
- Um refinamento obvio do algoritmo é atribuir
pesos a cada k-vizinho de acordo a sua distância
a instância a classificar Xq - Ex valores discretos
- F(Xq) lt- argmax )(?i1,kwi a(r,f(Xi))
- Voto de acordo com a distância
- Wi 1/ d(Xq,Xi)2
- Se Xi Xq -gt f(Xq) f(Xi)
12Continuo
- f(Xq) (?i1,k,wi f(Xi))/ ?i1,k,wi
- Normalizar os pesos
- K todas as instâncias ou constante
- Obs A introdução de pesos no algoritmo o faz um
método altamente efetivo para vários problemas
práticos - É robusto a dados com ruído e efetivo com grandes
bases de treinamento - É sensível ao conjunto de atributos
13Regressão Localmente Ponderada
- Esta abordagem usa exemplos de treinamento
ponderado por sua distância para formar uma
aproximação a f. - Ex podemos usar uma função linear, quadrática,
rede neural ou alguma outra função. - Dada uma instância a classificar Xq, a abordagem
constrõe uma aproximação f usando os vizinhos de
Xq. - Esta aproximação é utilizada para calcular f(Xq)
14Regressão Linear
- f(X) w0 w1 a1(x) ..... wnan(x)
- E ½ ?i1,k,( f(X) fe(x))2
- ?W? ?i1,k,( f(X) fe(x)) an(x)
15Problemas de Dimensionalidade
- Imagine instâncias descritas por 20 atributos,
mais somente 2 são relevantes - Problemas de recuperação, kd-tree, as instâncias
são guardadas nas folhas da arvore, com as
instâncias vizinhas no no perto dele. Os nos
internos da arvore ordenam a nova instância e a
classificam testando seus atributos.
16Comentarios IHC
- Baixos requisitos de memoria e processamento
- Uma hipoteses
- Sensibilidade a ordem no treinamento, maior
quantidade de instâncias de treinamento para
converger - Menos sensitivo a ruido
17Indução de Conceitos Competitivos
18Indução de Conceitos Competitivos
- Protótipos
- Tarefa
- dado um conjunto de instâncias pre-classificadas
- encontrar uma descrição intencional
- um conjunto de protótipos
19Indução de Conceitos Competitivos
- Esquemas competitivos não podem ser representados
isoladamente - A extensão de um conceito depende de sua
descrição e da dos outros - O operador típico é o calculo da media das
instâncias de treinamento. - A descrição especifica a tendência central das
instâncias
20Aprendizado baseado em Instâncias
- Guardam instâncias específicas ao invés de uma
descrição abstrata - Protótipos
- conjunção de pares atributos valor
21Protótipos
22Protótipos
- Usar protótipos para classificação é um processo
de três passos - Dada uma instância I,
- calcula-se sua distância a cada protótipo
- distância euclidiana,
- distância de hamming
- Usa-se o resultado para classificar a instância,
o protótipo mais perto
23Método média das Instâncias
- Realizar a média das instâncias para encontrar o
protótipo de cada classe - Para determinar o valor pi de um atributo para um
protótipo (numérico) - pi 1/n ? xij (j1,n)
24Método incremental
- Ao encontrar uma instância de uma classe nova,
guarde esta instância como protótipo - Quando observar uma instância de uma classe
conhecida, recalcule o protótipo - para cada atributo i
- ? pi (xi-pi)/n1
- para atributos nominais, escolha o valor mais
frequente
25Método média das Instâncias
- Em termos de eficiência e elegância é um dos
melhores - pouca expressão representacional
- linhas de fronteiras
26Método dos Pesos
- Um dos problemas do método anterior é tratar
todos os atributos de forma equivalente - Se os atributos tem escalas diferentes
- normalizar
- Alguns atributos tem maior importância
27Relevância dos atributos
Peso
-
- -
Altura
Altura 0.93 e peso 0.68
Pesos de atributos iguais
28Métrica de distância
- ? ?i wi (pi-xi)2
- wi ?
- wi 1 - 1/n( ?(k1,c) ?j1,nk ?pki - xji?)
- n número total de instâncias de treinamento
- nk número de instâncias para a classe c
29Modelos Estatisticos
30Naive Bayes
- 2 presupostos
- todos os atributos são igualmente importantes
- independencia estatistica (dado o valor da
classe) - A independencia nunca é verdadeira
- Na pratica o esquema trabalha bem.
31Probabilidades para a base Weather
Play
Windy
Humidity
Temperature
Outlook
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
5
9
2
6
False
4
3
High
2
2
Hot
3
2
Sunny
3
3
True
1
6
Normal
2
4
Mild
0
4
Overcast
1
3
Cool
2
3
Rainy
5/ 14
9/ 14
2/5
6/9
False
4/5
3/9
High
2/5
2/9
Hot
3/5
2/9
Sunny
3/5
3/9
True
1/5
6/9
Normal
2/5
4/9
Mild
0/5
4/9
Overcast
1/5
3/9
Cool
2/5
3/9
Rainy
32Probabilidades para a base Weather
33Regra de Bayes
- A Probabilidade de um evento H dada a evidência
E - A proobabilidade de H a priori PrH
- A probabilidade de um evento antes de ver a
evidência - A probabilidade a posteriori de HPrHE
- A probabilidade de um evento após conhecer a
evidência
Thomas Bayes Nascido 1702 em London,
EnglandMorto 1761 em Tunbridge Wells, Kent,
England
34Naive Bayes para Classificação
- Aprendizado Qual é a probabilidade de uma classe
dada uma instância?? - Evidência E Instância
- Evento H valor da classe para a instância
- Os atributos são independentes
- PrHE PrE1HPrE2H...PrEnHPrE
- PrE
35Exemplo
Evidência E
Probabilidade da classe yes
36Discusão
- Naive Bayes trabalha muito bem mesmo quando
existe dependência entre atributos. - Adicionando muitos atributos redundantes causará
problemas