Aprendizado Baseado em Instancias - PowerPoint PPT Presentation

About This Presentation
Title:

Aprendizado Baseado em Instancias

Description:

Aprendizado Baseado em Instancias Introdu o Em contraste aos m todos de aprendizado que constroem uma descri o explicita gen rica da fun o alvo. – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 37
Provided by: ufp54
Category:

less

Transcript and Presenter's Notes

Title: Aprendizado Baseado em Instancias


1
Aprendizado Baseado em Instancias
2
Introdução
  • Em contraste aos métodos de aprendizado que
    constroem uma descrição explicita genérica da
    função alvo.
  • Os métodos baseados em instâncias guardam os
    exemplos de treinamento
  • A generalização é posposta até que uma nova
    instância deva ser classificada
  • Cada vez que uma nova instância é encontrada,
    seus relacionamentos com os exemplos previamente
    guardados é examinado para atribuir um valor de
    função alvo.

3
IBL
  • IBL, instance based learning
  • Inclui os métodos de vizinho mais próximo,
    raciocínio baseado em casos
  • IBL é um método chamado lazy
  • IBL é utilizado em funções alvo com valores
    discreto ou valores reais.

4
IBL
  • IBL pode utilizar uma representação simbólica
    mais complexa para as instâncias -gt Raciocínio
    baseado em Casos.
  • O custo de classificar uma nova instância é alto
  • Indexação eficiente dos exemplos de treinamento

5
Aprendizado K-Nearest Neighbor
  • O método IBL mas basico é o algoritmo k-nearest
    neighbor
  • Este algoritmo assume que todas as instâncias
    correspondem a um ponto no espaço n-dimensional
    Rn
  • O vizinho mais próximo de uma instância é
    definido em termos da distância euclidiana.

6
Distância Euclidiana
  • Seja a instância descrita por
  • (a1(x),a2(x),.........an(x))
  • A distância entre 2 instâncias Xi e Xj
  • d(Xi,Xj)(?r1,n (ar(Xi)-ar(Xj))2)1/2
  • Esta abordagem é apropriada tanto para funções
    alvo discretas ou reais.

7
Algoritmo para funções Alvo Discretas
  • Neste caso o valor f(xq) retornado é o f(xq) mais
    freqüente entre os k vizinhos de f(xq).
  • Algoritmo
  • Fase de treinamento para cada exemplo de
    treinamento (x,f(x)), adicione o exemplo a lista
    de exemplos.

8
Classificação
  • Dado uma instância Xq a ser classificada
  • Sejam X1...Xk as instâncias de treinamento mais
    próximas de Xq
  • Retorne
  • F(Xq) lt- argmax )(?i1,k a(r,f(Xi))
  • Onde a(a,b)1 se ab
  • Caso contrario a(a,b)0

9
Numero de vizinhos
1 vizinho classifica como 5 vizinhos
classificam como -
10
Regressão
  • Classificação no caso de valores reais
  • f(Xq) (?i1,k,f(Xi))/k

11
Algoritmo Nearest Neighbor Distâncias Ponderadas
  • Um refinamento obvio do algoritmo é atribuir
    pesos a cada k-vizinho de acordo a sua distância
    a instância a classificar Xq
  • Ex valores discretos
  • F(Xq) lt- argmax )(?i1,kwi a(r,f(Xi))
  • Voto de acordo com a distância
  • Wi 1/ d(Xq,Xi)2
  • Se Xi Xq -gt f(Xq) f(Xi)

12
Continuo
  • f(Xq) (?i1,k,wi f(Xi))/ ?i1,k,wi
  • Normalizar os pesos
  • K todas as instâncias ou constante
  • Obs A introdução de pesos no algoritmo o faz um
    método altamente efetivo para vários problemas
    práticos
  • É robusto a dados com ruído e efetivo com grandes
    bases de treinamento
  • É sensível ao conjunto de atributos

13
Regressão Localmente Ponderada
  • Esta abordagem usa exemplos de treinamento
    ponderado por sua distância para formar uma
    aproximação a f.
  • Ex podemos usar uma função linear, quadrática,
    rede neural ou alguma outra função.
  • Dada uma instância a classificar Xq, a abordagem
    constrõe uma aproximação f usando os vizinhos de
    Xq.
  • Esta aproximação é utilizada para calcular f(Xq)

14
Regressão Linear
  • f(X) w0 w1 a1(x) ..... wnan(x)
  • E ½ ?i1,k,( f(X) fe(x))2
  • ?W? ?i1,k,( f(X) fe(x)) an(x)

15
Problemas de Dimensionalidade
  • Imagine instâncias descritas por 20 atributos,
    mais somente 2 são relevantes
  • Problemas de recuperação, kd-tree, as instâncias
    são guardadas nas folhas da arvore, com as
    instâncias vizinhas no no perto dele. Os nos
    internos da arvore ordenam a nova instância e a
    classificam testando seus atributos.

16
Comentarios IHC
  • Baixos requisitos de memoria e processamento
  • Uma hipoteses
  • Sensibilidade a ordem no treinamento, maior
    quantidade de instâncias de treinamento para
    converger
  • Menos sensitivo a ruido

17
Indução de Conceitos Competitivos
18
Indução de Conceitos Competitivos
  • Protótipos
  • Tarefa
  • dado um conjunto de instâncias pre-classificadas
  • encontrar uma descrição intencional
  • um conjunto de protótipos

19
Indução de Conceitos Competitivos
  • Esquemas competitivos não podem ser representados
    isoladamente
  • A extensão de um conceito depende de sua
    descrição e da dos outros
  • O operador típico é o calculo da media das
    instâncias de treinamento.
  • A descrição especifica a tendência central das
    instâncias

20
Aprendizado baseado em Instâncias
  • Guardam instâncias específicas ao invés de uma
    descrição abstrata
  • Protótipos
  • conjunção de pares atributos valor

21
Protótipos
22
Protótipos
  • Usar protótipos para classificação é um processo
    de três passos
  • Dada uma instância I,
  • calcula-se sua distância a cada protótipo
  • distância euclidiana,
  • distância de hamming
  • Usa-se o resultado para classificar a instância,
    o protótipo mais perto

23
Método média das Instâncias
  • Realizar a média das instâncias para encontrar o
    protótipo de cada classe
  • Para determinar o valor pi de um atributo para um
    protótipo (numérico)
  • pi 1/n ? xij (j1,n)

24
Método incremental
  • Ao encontrar uma instância de uma classe nova,
    guarde esta instância como protótipo
  • Quando observar uma instância de uma classe
    conhecida, recalcule o protótipo
  • para cada atributo i
  • ? pi (xi-pi)/n1
  • para atributos nominais, escolha o valor mais
    frequente

25
Método média das Instâncias
  • Em termos de eficiência e elegância é um dos
    melhores
  • pouca expressão representacional
  • linhas de fronteiras

26
Método dos Pesos
  • Um dos problemas do método anterior é tratar
    todos os atributos de forma equivalente
  • Se os atributos tem escalas diferentes
  • normalizar
  • Alguns atributos tem maior importância

27
Relevância dos atributos
Peso

-

- -
Altura
Altura 0.93 e peso 0.68
Pesos de atributos iguais
28
Métrica de distância
  • ? ?i wi (pi-xi)2
  • wi ?
  • wi 1 - 1/n( ?(k1,c) ?j1,nk ?pki - xji?)
  • n número total de instâncias de treinamento
  • nk número de instâncias para a classe c

29
Modelos Estatisticos
  • Naive Bayes

30
Naive Bayes
  • 2 presupostos
  • todos os atributos são igualmente importantes
  • independencia estatistica (dado o valor da
    classe)
  • A independencia nunca é verdadeira
  • Na pratica o esquema trabalha bem.

31
Probabilidades para a base Weather
Play
Windy
Humidity
Temperature
Outlook
No
Yes
No
Yes
No
Yes
No
Yes
No
Yes
5
9
2
6
False
4
3
High
2
2
Hot
3
2
Sunny
3
3
True
1
6
Normal
2
4
Mild
0
4
Overcast
1
3
Cool
2
3
Rainy
5/ 14
9/ 14
2/5
6/9
False
4/5
3/9
High
2/5
2/9
Hot
3/5
2/9
Sunny
3/5
3/9
True
1/5
6/9
Normal
2/5
4/9
Mild
0/5
4/9
Overcast
1/5
3/9
Cool
2/5
3/9
Rainy
32
Probabilidades para a base Weather
  • Um novo dia

33
Regra de Bayes
  • A Probabilidade de um evento H dada a evidência
    E
  • A proobabilidade de H a priori PrH
  • A probabilidade de um evento antes de ver a
    evidência
  • A probabilidade a posteriori de HPrHE
  • A probabilidade de um evento após conhecer a
    evidência

Thomas Bayes Nascido 1702 em London,
EnglandMorto 1761 em Tunbridge Wells, Kent,
England
34
Naive Bayes para Classificação
  • Aprendizado Qual é a probabilidade de uma classe
    dada uma instância??
  • Evidência E Instância
  • Evento H valor da classe para a instância
  • Os atributos são independentes
  • PrHE PrE1HPrE2H...PrEnHPrE
  • PrE

35
Exemplo
Evidência E
Probabilidade da classe yes
36
Discusão
  • Naive Bayes trabalha muito bem mesmo quando
    existe dependência entre atributos.
  • Adicionando muitos atributos redundantes causará
    problemas
Write a Comment
User Comments (0)
About PowerShow.com