Les SVM : S - PowerPoint PPT Presentation

About This Presentation
Title:

Les SVM : S

Description:

IIE & CNRS - Universit de Paris-Sud, Orsay. antoine_at_lri.fr http://www.lri.fr/~antoine. Les ... On cherche h sous forme d'une fonction lin aire : h(x) = w.x b ... – PowerPoint PPT presentation

Number of Views:939
Avg rating:3.0/5.0
Slides: 54
Provided by: antoinec9
Category:
Tags: svm | cherche | les | vaut

less

Transcript and Presenter's Notes

Title: Les SVM : S


1
Les SVM Séparateurs à Vastes Marges(Support
Vector Machines)
  • Antoine Cornuéjols
  • IIE CNRS - Université de Paris-Sud, Orsay
  • antoine_at_lri.fr http//www.lri.fr/antoine

2
Hyperplans séparateurs
  • Tâche de classification
  • Cas de la séparation linéaire
  • - On cherche h sous forme dune fonction linéaire
    h(x) w.x b
  • - La surface de séparation est donc lhyperplan
  • - Elle est valide si
  • - Lhyperplan est dit sous forme canonique
    lorsque
  • ou encore

3
Hyperplan de plus vaste marge
4
Optimisation de la marge
5
Optimisation de la marge
  • La distance dun point à lhyperplan est
  • Lhyperplan optimal est celui pour lequel la
    distance aux points les plus proches (marge) est
    maximale. Cette distance vaut
  • Maximiser la marge revient donc à minimiser w
    sous contraintes

6
SVMs un problème doptimisation quadratique
  • Il faut donc déterminer w et w0 minimisant
  • (afin de maximiser le pouvoir de généralisation)
  • sous les contraintes (hyperplan séparateur)

7
Résolution de la forme primaire du problème
d dimension de lespace dentrée
  • Il faut régler d 1 paramètres
  • Possible quand d est assez petit avec des
    méthodes d'optimisation quadratique
  • Impossible quand d est grand (gt qqs 103)

8
Transformation du problème doptimisation
  • Méthode des multiplicateurs de Lagrange
  • Problème dual

9
Propriétés de la forme duale
  • La conversion est possible car les fonctions de
    coût et les contraintes sont strictement convexes
    (Th. de Kuhn-Tucker)
  • La complexité du problème d'optimisation est
  • µ m (taille de l'échantillon
    d'apprentissage)
  • et non µ d ( taille de l'espace d'entrée X )
  • Possible d'obtenir des solutions pour des
    problèmes impliquant 105 exemples

10
Solution du problème doptimisation
  • Propriété1 seuls les ?i correspondant aux
    points les plus proches sont non-nuls. On parle
    de points de support (exemples critiques).
  • Propriété 2 seuls interviennent les produits
    scalaires entre les observations x dans le
    problème doptimisation.

11
Problèmes non linéairement séparables dans X
  • La majorité des problèmes !!!
  • Idée
  • Si on projette dans un espace de redescription de
    très grande dimension ??
  • Presque toujours le problème devient linéairement
    séparable
  • Mais
  • Fléau de la dimensionalité
  • dVC explose !!?

12
SVM et redescription
Espace des représentations internes

Espace d'entrées X
Espace de sortie
F
h
x
y
Séparation linéaire
Redescription non linéaire
13
Petite digression
  • La reconnaissance de chiffres manuscrits par
    réseaux de neurones (ATT Bell labs, 1993)

14
La redescription des entrées illustration
  • Soit un espace dentrée à 2 dimensions
  • Tout vecteur x (x1, x2) peut être redécrit à
    laide de polynômes dordre 6
  • Nouvel espace de descripteurs à 16 dimensions
    (fonctions de base)

15
Le nouveau problème doptimisation
  • Soit ? X -gt ?(X), on peut remplacer partout x
    par ?(x)
  • Si ? est bien choisie, K(x, x) ?(x).?(x) peut
    être facile à calculer et le problème devient

16
Solution du nouveau problème doptimisation
  • La fonction de décision devient
  • Soit dans la forme duale

n nb de fcts de base (peut être très grand)
mS nb de points de support
17
Schéma de fonctionnement des SVMs
18
Les conditions de Mercer
  • Si on prend une fonction K symétrique, il existe
    une fonction ? tq
  • ssi, pour toute fonction f telle que
  • lon a
  • Si cette condition est vérifiée, on peut
    appliquer les SVMs
  • MAIS cela ne dit pas comment construire ?

19
Fonctions noyau usuelles (1/2)
  • Polynomiale
  • Les polynomes de degré q ont pour fonction noyau
    associée
  • RBF
  • Les fcts à base radiale
  • ont pour fct noyau associée
  • Sigmoïde
  • Les réseaux de neurones à fcts d'activation
  • ont pour fct noyau associée

20
Fonctions noyau usuelles (2/2)
  • Construction à partir de fonctions noyau de
    base(Propriétés de clôture)
  • K(x,z) K1(x,z) K2(x,z)
  • K(x,z) a K1(x,z)
  • K(x,z) K1(x,z) . K2(x,z)
  • Construction de fonctions noyau dédiées
  • Splines Bm
  • Expansion de Fourrier
  • Ondelettes
  • ...

21
Les fonctions noyau
  • encodent
  • Une mesure de similarité sur les données
  • La forme fonctionnelle des fonctions de décision
  • Le type de régularisation réalisée
  • (ex les fcts gaussiennes favorisent les
    solutions régulières)
  • Le type de covariance dans lespace des entrées
  • (ex fcts noyau invariantes par rotation)
  • Sorte de distribution de probabilité a priori sur
    lespace des hypothèses

22
Illustration le cas du XOR
23
Illustration le cas du XOR
  • Fonction noyau polynomiale de d 2
  • K(x,x') 1 (xT . x')2
  • soit K(x,xi ) 1 x12xi12 2 x1x2xi1xi2
    x22xi22 2x1xi1 2x2xi2
  • correspondant à la projection F
  • 1, x12, v2 x1x2, x22, v2 x1, v2 x2 T

24
Illustration le cas du XOR
  • Ici

25
Illustration le cas du XOR
  • L'optimisation de Q(a) en fonction des
    multiplicateurs de Lagrange conduit au système
    d'équations
  • La valeur optimale des multiplicateurs de
    Lagrange est

26
Illustration le cas du XOR
  • Les 4 exemples sont donc des exemples critiques
    ("support vectors")
  • La valeur optimale de Q(a) est
  • Et soit

27
Illustration le cas du XOR
  • Les 4 exemples sont donc des exemples critiques
    ("support vectors") (? i , ai ? 0)
  • La fonction de décision sécrit

28
Illustration le cas du XOR
  • En revenant dans lespace dorigine
  • Le vecteur poids optimal est

soit
29
Illustration le cas du XOR
  • L'hyperplan optimal correspond à

30
Illustration le cas du XOR
Séparatrice dans l'espace F(X) (espace à 6
dimensions)
  • Séparatrice dans l'espace d'entrée
  • D(x) -x1x2

31
Cas du problème non séparable marges douces
  • On introduit des variables ressort qui
    pénalisent lerreur commise
  • Le problème dual a la même forme à lexception
    dune constante C

32
La mise en pratique
  • Il faut choisir
  • Le type de fonction noyau K
  • Sa forme
  • Ses paramètres
  • La valeur de la constante C
  • La sélection rigoureuse de ces paramètres exige
    une estimation de la dimension de
    Vapnik-Chervonenkis et lapplication de la borne
    de généralisation ?
  • Dans le cas séparable, il est possible de
    déterminer ces paramètres
  • Dans le cas non séparable, il faut tester avec
    des méthodes empiriques pour faire le meilleur
    choix

33
Exemple
  • exemple
  • exemple -
  • Dans cercle points de support
  • Fct noyau polynomiale de degré 3
  • Démo
  • http//svm.research.bell-labs.com/
  • http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

34
Effet des paramètres de contrôle
  • Apprentissage de deux classes
  • exemples tirés uniformément sur l'échiquier
  • SVM à fonctions noyau gaussienne
  • Ici deux valeurs de s
  • En haut petite valeur
  • En bas grande valeur
  • Les gros points sont des exemples critiques
  • Plus en haut qu'en bas
  • Dans les deux cas Remp 0

35
Les données d'apprentissage
36
Paramètres de contrôle les fonctions noyau
  • http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
  • 47 exemples (22 , 25 -)
  • Exemples critiques 4 et 3 -
  • Ici fonction polynomiale de degré 5 et C 10000

37
Paramètres de contrôle les fonctions noyau
(5-, 4)
(5-, 4)
(3-, 4)
  • 47 exemples (22 , 25 -)
  • Exemples critiques 4 et 3 -

Ici fonction polynomiale de degré 2, 5, 8 et C
10000
(10-, 11)
(8-, 6)
(4-, 5)
Ici fonction Gaussienne de s 2, 5, 10, 20 et
C 10000
38
Ajout de quelques points ...
  • http//svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
  • 47 8 exemples (30 , 25 -)
  • Exemples critiques 5 et 8 -
  • Ici fonction polynomiale de degré 5 et C 10000

39
Domaines dapplication des SVMs
  • Traitement dimages
  • Reconnaissance de caractères manuscrits
  • Reconnaissance de scènes naturelles
  • Reconnaissance de visages
  • Entrées image bidimensionnelle en couleur ou
    en niveaux de gris
  • Sortie classe (chiffre / personne)

40
Domaines dapplication des SVMs
  • Images 256 256 (100 niveaux de gris)
  • Codées en 16 16 (niveaux de gris) mêmes par
    4 opérateurs différentiels à une dimension
    (,-,/,\) 1280 pixels (5 16 16)
  • 25 objets pris sous 25, 89 ou 100 points de vue
    (ens. dapprentissage)

Thèse B. Schölkopf, 1997
41
Domaines dapplication des SVMs
  • Résultats avec noyaux polynomiaux

42
Application images couleurs
  • Base dimages Corel Stock Photo Collection
  • 200 catégories
  • 100 images / catégorie
  • Codage
  • Pixel vecteur dans espace à trois dimensions
    (RGB)
  • Image histogramme (fraction des pixels dune
    couleur donnée)
  • Invariant / nombreuses opérations
  • Noyau

(fonction c2)
43
Domaines dapplication des SVMs
  • Catégorisation de textes
  • Classification de-mails
  • Classification de pages web
  • Entrées document (texte ou html)
  • Approche  sac de mots 
  • Document vecteur de mots (lemmatisés pondérés
    par tf-idf)
  • Sortie catégorie (thème, spam/non-spam)
  • Noyau
  • Produit scalaire des vecteurs
  • C (marge dure)

44
Domaines dapplication des SVMs
  • Diagnostic médical
  • Évaluation du risque de cancer
  • Détection darythmie cardiaque
  • Évaluation du risque daccidents
    cardio-vasculaires à moins de 6 ans
  • Entrées état du patient (sexe, age, bilan
    sanguin, )
  • Sortie
  • Classe à risque ou non
  • Probabilité daccident à échéance donnée

45
Domaines dapplication des SVMs
  • Dans les deux cas
  • Pas dinformation de structure
  • Seulement des informations globales

46
Domaines dapplication des SVMs
  • Étude de séquences en bio-informatique
  • Biologie structurale prédictive (prédiction de
    structure secondaire du génome)
  • Identification de régions codantes de lADN
    génomique
  • Phylogénie
  • Entrées chaînes dacides aminées
  • Sortie
  • Structure secondaire
  • Intron / exon
  • Ancêtre
  • Noyau relationnel
  • Modèle génératif (chaînes de Markov insertion,
    délétion, remplacement, )

47
Implémentation des SVMs
  • Minimisation de fonctions différentiables
    convexes à plusieurs variables
  • Pas doptima locaux
  • Mais
  • Problèmes de stockage de la matrice noyau (si
    milliers dexemples)
  • Long dans ce cas
  • Doù mise au point de méthodes spécifiques
  • Gradient sophistiqué
  • Méthodes itératives, optimisation par morceaux
  • Plusieurs packages publics disponibles
  • SVMTorch
  • SVMLight
  • SMO

48
Extensions
  • Classification multi-classes
  • Régression
  • Détection de  nouveautés 
  • Analyse en composantes principales par noyaux

49
SVM et régression
  • Fonction de perte
  • Régression linéaire
  • Soit à minimiser
  • Généralisation

50
SVM et apprentissage non supervisé
  • Détection de  nouveautés 

On cherche à séparer au maximum le nuage de
points de lorigine
51
Pourquoi ça marche ?
  • La marge est liée à la capacité en généralisation
  • Normalement, la classe des hyperplans de Rd est
    de dH d 1
  • Mais la classe des hyperplans de marge est
    bornée par dH Min (R2 c, d) 1
  • où R est le rayon de la plus petite sphère
    englobant l'échantillon d'apprentissage S
  • Peut être beaucoup plus petit que la dimension
    d de l'espace d'entrée X

52
Bilan
  • SVMs très utilisés
  • Méthode générale
  • Facile demploi
  • Résultats en général équivalents et souvent
    meilleurs
  • Stimulent tout un ensemble de travaux sur des
    méthodes à base de noyaux (kernel-based methods)
  • Limites
  • Problèmes i.i.d. (données indépendantes et
    identiquement distribuées)

53
Sources documentaires
  • Ouvrages / articles
  • Cornuéjols Miclet (02) Apprentisage
    artificiel. Concepts et algorithmes. Eyrolles,
    2002.
  • Cristianini Shawe-Taylor (00) Support Vector
    Machines and other kernel-based learning methods.
    Cambridge University Press, 2000.
  • Herbrich (02) Learning kernel classifiers. MIT
    Press, 2002.
  • Schölkopf, Burges Smola (eds) (98) Advances
    in Kernel Methods Support Vector Learning. MIT
    Press, 1998.
  • Schölkopf Smola (02) Learning with kernels.
    MIT Press, 2002.
  • Smola, Bartlett, Schölkopf Schuurmans (00)
    Advances in large margin classifiers. MIT Press,
    2000.
  • Vapnik (95) The nature of statistical learning.
    Springer-Verlag, 1995.
  • Sites web
  • http//www.kernel-machines.org/ (point dentrée)
  • http//www.support-vector.net (point dentrée)
Write a Comment
User Comments (0)
About PowerShow.com