- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

Title An Investigation of Practical Approximate Nearest Neighbor Algorithms Author: Nicolas Chapados Last modified by: Nicolas Chapados Created Date – PowerPoint PPT presentation

Number of Views:19
Avg rating:3.0/5.0
Slides: 13
Provided by: Nicola195
Category:
Tags: nearest | neighbor

less

Transcript and Presenter's Notes

Title:


1
 An Investigation of Practical Approximate
Nearest Neighbor Algorithms 
  • T. Liu, A. W. Moore, A. Gray, K.Yang
  • la gang de CMU
  • (présentation par N. Chapados)

2
K plus proches voisins (KNN)
3
Pourquoi cet article?
  • KNN naïf prend O(N) à trouver les plus proches
    voisins
  • Méthodes de partitionnement de lespace (kd-trees
    ou metric trees) promettent une borne inférieure
    de O(log N)
  • Sujettes à la malédiction de la dimensionalité
  • Cet article KNN APPROXIMATIF
  • Spill trees recherche heuristique

4
Metric Trees
  • Partition récursive de lespace

Points de pivot (dist maximale paire-à-paire)
Frontière de décision L
5
Observation évidente la balle
  • Pour chaque nÅ“ud v, on peut construire une
    hypersphère qui contient tous les points du nœud
  • Centre v.center Rayon v.r
  • Remarque les balles des enfants dun nÅ“ud ne
    sont pas nécessairement disjointes

6
Chercher un voisin dans un Metric Tree
  • Recherche en profondeur
  • (depth-first search DFS)
  • Pour un nÅ“ud N
  • explore gauche ou droite selon L
  • conserve un candidat NN
  • On élague les nÅ“ud qui ne peuvent pas contenir le
    point de recherche

7
Élaguage
q
v.center-q
r
NN
v
v.r
8
Recherche  défaitiste 
  • UN SEUL chemin de la racine à la feuille
  • Aucun backtracking
  • Rapide O(N)
  • Approximatif
  • Ne fonctionne pas très bien pour Metric Trees
  • Si le point-test est près de la frontière dune
    balle, il est souvent mal classifié

9
Spill Trees
  • Améliore la précision de la recherche
     défaitiste 
  • Tauzero ltgt Metric tree

10
Recherche hybride
  • Problème avec spill-trees
  • Profondeur varie énormément avec taille doverlap
    t
  • Introduit un seuil déquilibre (balance
    threshold) r
  • Cas typique r70
  • Si un enfant se retrouve avec plus de 70 des
    points du parent, alors on fixe t0 et on marque
    le nœud comme non-overlapping
  • Les nÅ“uds  non-overlapping  sont conservés
    comme points de banchement dans recherche DFS
  • NÅ“uds overlapping agissent comme des Cut en Prolog

11
Résultats (1)
  • Perf. de spill-tree (speedup p/r à LSH)
  • Aerial N275 465 , d60
  • Corel_hist N20 000 , d64
  • Corel_uci N68 040 , d64
  • Disk_trace N40 000 , d1024
  • Galaxy N40 000 , d4000

12
Résultats (2)
Write a Comment
User Comments (0)
About PowerShow.com