Roberto Navigli - PowerPoint PPT Presentation

About This Presentation
Title:

Roberto Navigli

Description:

Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Roberto Navigli Cap. 5.3 [Tan, Steinbeck & Kumar] Concetto di base: Pigrizia In altre parole Il ... – PowerPoint PPT presentation

Number of Views:99
Avg rating:3.0/5.0
Slides: 14
Provided by: Roberto371
Category:

less

Transcript and Presenter's Notes

Title: Roberto Navigli


1
Apprendimento AutomaticoApprendimento Pigro
(Lazy Learning)
  • Roberto Navigli

Cap. 5.3 Tan, Steinbeck Kumar
2
Concetto di base Pigrizia
Pigrizia mentale (Devoto-Oli 2008) atteggiamento
di chi trascura larricchimento delle proprie
conoscenze
3
In altre parole
  • Il principio di base è quello di ritardare il
    processo di modellazione dellinsieme di
    addestramento finché non è richiesto per
    classificare le istanze di test
  • Lazy learner vs. eager learner
  • Il più semplice lazy learner rote classifier
  • Apprende tutto a memoria
  • Classifica solo ciò che fa match con almeno un
    esempio dellinsieme di addestramento

4
Siamo seri!
  • Per rendere lapproccio più flessibile, cerchiamo
    gli esempi di addestramento relativamente più
    simili allistanza di test
  • Se cammina come una papera, fa qua qua come una
    papera e somiglia fisicamente a una papera,
    allora probabilmente è una papera!
  • Apprendimento basato su istanze
  • Un noto rappresentante è lalgoritmo k-Nearest
    Neighbours (kNN)

5
Chi sono i k vicini più vicini?
  • Le istanze sono rappresentate mediante punti
    nello spazio m-dimensionale degli m attributi
  • I k vicini più vicini (nearest neighbours) di
    unistanza di test x sono i k punti dellinsieme
    daddestramento più vicini a x













-
-
-
x
x
x
-
-
-



-
-
-


















k1
k2
k3
6
Come avviene la classificazione?
  • Si sceglie la classe di maggioranza dei k esempi
    più vicini
  • dove Dx è il sottoinsieme di D dei k esempi più
    vicini a x (majority voting)
  • Se k è troppo piccolo si rischia overfitting
    dovuto al rumore nellinsieme di addestramento
  • Se k è troppo grande, potremmo includere istanze
    troppo dissimili dallistanza di test

7
Algoritmo kNN
  • kNN(k, D)
  • For each istanza di test x do
  • Calcola d(x, xi) per ogni esempio (xi, yi) ? D
  • Determina linsieme Dx ? D dei k esempi più
    vicini a x
  • Classifica x

8
Posso migliorare la classificazione?
  • Vista la dipendenza dalla scelta di k, è
    possibile migliorare la classificazione di kNN
    pesando il contributo di ciascun esempio secondo
    la sua distanza
  • Quindi la classe di maggioranza è scelta come
    segue
  • (majority voting pesato sulla
    distanza)

9
Alcune metriche per determinare la distanza
  • Distanza euclidea
  • Distanza di Manhattan (o city block)
  • Distanza di Minkowski (generalizzazione)

10
Misure di Prossimità Cosine Similarity
  • Nota se la distanza è normalizzata tra 0 e 1, la
    similarità sim(x, y) è data da 1-d(x, y)
  • Esempio similarità del coseno di due vettori di
    documenti

11
Misure di Prossimità Coefficiente di Jaccard
  • Esempio similarità di Jaccard di due vettori di
    documenti

12
kNN in a nutshell
  • Vantaggi
  • Non è necessario appprendere né costruire
    unastrazione (modello) a partire dai dati
  • kNN può adattare i propri confini di decisione in
    modo arbitrario, producendo una rappresentazione
    del modello più flessibile
  • Si può arricchire incrementalmente linsieme di
    addestramento
  • Svantaggi
  • Classificare le istanze di test è costoso, perché
    dobbiamo calcolare i valori di prossimità tra
    ciascun esempio di addestramento e listanza di
    test
  • Essendo la classificazione fatta in modo locale
    (al contrario degli alberi di decisione), kNN è
    suscettibile al rumore
  • La misura di prossimità può essere dominata da
    alcuni attributi (es. altezza vs. peso)

13
Esercizio
  • Provate ad adattare lalgoritmo ID3 al paradigma
    di apprendimento pigro
Write a Comment
User Comments (0)
About PowerShow.com