Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation
Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:79
Avg rating:3.0/5.0
Slides: 24
Provided by: Geor121
Category:

less

Transcript and Presenter's Notes

Title: Maschinelles Lernen


1
Kapitel 8 Kernel-Methoden
2
Ausgangsbasis Perceptron Learning Rule
  • Rosenblatt (1962)
  • Input wird dazugezählt (abgezogen), wenn Output
    falsch(mismatch-based)
  • Verwendung Klassifikation

3
Mathematische Formulierung
  • Perceptron (1 Output)
  • yi 1/-1
  • Daten kommen als inneres Produkt vor (duale
    Darstellung)

Inneres Produkt(dot product)
4
Vor- und Nachteile des Perceptrons
  • Vorteile
  • Globale Lösung garantiert (keine lokalen Minima)
  • Leicht lösbar bzw. otpimierbar
  • Nachteil
  • Auf lineare Separierbarkeit beschränkt
  • Idee
  • Transformation der Daten auf einen Raum, in dem
    das Problem linear trennbar ist

5
Vergleiche Diskriminanzanalyse
  • Allgemein linearbeliebige Vorverarbeitungsfunk
    tionen, lineare Verknüpfung
  • Neuronales NetzNN implementiert adaptive
    Vorverarbeitungnichtlinear in Parametern
    (w)durch Approximationstheorem beliebig
    nichtlineare Diskriminanzfunktion

MLP
RBFN
6
Kernels
  • Ziel ist eine fix bestimmte Transformation
    xi?F(xi), sodass das Problem linear trennbar ist
    (ev. hochdimensional)
  • Kernel Funktion, die als inneres Produkt von Fs
    darstellbar ist
  • F muss nicht einmal bekannt sein

7
Beispiel Polynomischer Kernel
  • 2 Dimensionen
  • Kernel entspricht tatsächlich einem inneren
    Produkt aus Vektoren mit Vorverarbeitung

8
Beispiel
  • Durch Transformation wird Problem linear trennbar

?
x22
x2
x1
x12
?-1
9
Die Wirkung des Kernel-Tricks
  • Einsatz des Kernels, z.B
  • 16x16-dimensionale Vektoren (z.B. Pixel-Bilder),
    Polynom 5. Grades Dimension 1010
  • Inneres Produkt zweier 10000000000-dim. Vektoren
  • Berechnung erfolgt im niedrigdimensionalen Raum
  • Inneres Produkt zweier 256-dim. Vektoren
  • 5-te Potenz

10
Gaussscher Kernel
  • ? nicht darstellbar, hat aber unendliche
    Dimension!(wenn Trainingsset unbegrenzt groß
    sein kann)
  • Folgt aus Mercers Theorem
  • Betrachte die Kernel-Matrixüber alle
    Trainingsbeispiele
  • Berechne Eigenwerte und -funktionen, dann gilt
  • Für Gaussschen Kernel gilt Kernel-Matrix hat
    vollen Rang!Dimension so groß wie das
    Trainingsset

11
Large Margin Classifier
  • Hochdimensionaler Raum Overfitting leicht
    möglich
  • Lösung Suche Entscheidungslinie (Hyperebene) mit
    größtem Abstand von den Punkten
  • OptimierungMinimiere(Maximiere
    )Randbedingung

Abstand maximal
w
12
Optimierung 1
  • Quadratisches Optimierungsproblem
  • Lösungsansatz Lagrange-Multiplikanten
  • Randbedingung
  • 1. Ableitung nach w und b muss 0 sein. Das ergibt

13
Optimierung 2
  • Einsetzen der zuletzt ergebenen Terme
  • Duale Formulierung
  • Wichtig Daten stehen wieder als inneres Produkt
    (dot product) im Term!
  • Kernel-Trick kann wieder angewandt werden

14
Optimierung 3
  • Minimierung ist quadratisches Programmierungsprobl
    em
  • Globales Minimum garantiert
  • Methoden
  • Chunking nutzt die Tatsache dass viele ai0
  • Decomposition Methods
  • Sequential Minimal Optimization (SMO)löst eine
    Sequenz von Problemen der Größe 2(Paare von
    Variablen)

15
Support Vectors
  • Support-Vectors Punkte am Rand des Margins
  • Bestimmen alleine die Lösung,für alle anderen
    Punkte gilt ai0, können weggelassen werden

Kernelfunktion
Rückprojektion
Support Vectors
16
Daten mit Rauschen
  • Bisherige Annahme Problem ist exakt trennbar
  • Bei Rauschen Einführung von Slack
    variablesweicht den strengen Margin etwas auf

Lernparameter
  • Duales Problem (Lagrange) bleibtgleich (bis auf
    Randbedingung)

17
Beispiel
Schätzung nur mit Support-Vectors ergibt die
selbe Lösung
Kernel Polynom 3. Ordnung
18
Bedingungen für Kernels
  • Jede Funktion K(x,z), für die gilt
  • bzw.
  • ist eine Kernelfunktion (positive definite
    Kernels)
  • Ist K1 und K2 ein Kernel, so sind auchaK1 (für
    agt0)K1K2K1K2Kernel
  • Wahl des richtigen Kernels (Vorverarbeitung) ist
    entscheidend!? Modellselektion notwendig

für beliebige Trainingspunkte xi
19
SVM-Theorie VC-Dimension
  • Shatter Wenn unter n Punkten alle 2n
    Klassifikationen möglich sind
  • VC-Dimension h kleinstes m von Punkten, für die
    der Lerner weniger als 2m Klassifikationen
    schafft
  • Z.B. VC-Dim(Perceptron)k1 (k Inputdimension)
  • Für komplexe Lerner kann oft nur Schranke
    angegeben werden

20
SVM-Theorie Structural risk minimization
  • Schranke für das Risiko (Fehler)
  • Maximieren des Margins beschränkt VC-Dimension
  • w kann als Regularisierungsterm betrachtet
    werden
  • Gauss-Kernel VC-Dim h8

Mit Wahrscheinlichkeit 1-d
Anzahl Trainingspunkte
Empirischer FehleramTrainingsset
Minimal möglicher Fehler
21
SVM und Neuronale Netze
  • Gauss-Kernel RBF
  • Sigmoid-Kernel MLP
  • So viele Hidden Units wie Trainingsmuster
  • Allerdings andere Berechnung
  • Raum ist 8-dimensional
  • SVM und Boosting formaler Zusammenhangvgl.
    Boosting Punkte an der Entscheidungsgrenze
    bekommen größte Bedeutung (wie SV)

22
Andere Kernelverfahren
  • Kernel-Trick funktioniert bei allen Methoden, in
    denen Daten als inneres Produkt vorkommen
  • Kernel-PCA
  • Kernel-Fisher Diksriminante
  • Kernel Regression
  • Gausssche Prozesse

23
Zusammenfassung
  • SVMs sind interessante Alternative zu klassischen
    neuronalen Netzen
  • Kernel-Trick Inneres Produkt von
    hochdimensionalen Features (Vorverabeitung)
    kann niedrigdimensional berechnet werden
  • Beschränken der VC-Dim. (Vermeidung von
    Overfitting) Large Margin Classifier
  • Lineares Modell, Quadratische Programmierung,
    Minimum garantiert
  • Support Vectors Punkte am Margin, sind alleine
    für Lösung verantwortlich
  • Aber Overfitting dennoch möglich
  • Modellselektion notwendig
  • Wahl des geeigneten Kernels ist sehr wichtig!
Write a Comment
User Comments (0)
About PowerShow.com