Title: Maschinelles Lernen
1Kapitel 8 Kernel-Methoden
2Ausgangsbasis Perceptron Learning Rule
- Rosenblatt (1962)
- Input wird dazugezählt (abgezogen), wenn Output
falsch(mismatch-based) - Verwendung Klassifikation
3Mathematische Formulierung
- Perceptron (1 Output)
- yi 1/-1
- Daten kommen als inneres Produkt vor (duale
Darstellung)
Inneres Produkt(dot product)
4Vor- und Nachteile des Perceptrons
- Vorteile
- Globale Lösung garantiert (keine lokalen Minima)
- Leicht lösbar bzw. otpimierbar
- Nachteil
- Auf lineare Separierbarkeit beschränkt
- Idee
- Transformation der Daten auf einen Raum, in dem
das Problem linear trennbar ist
5Vergleiche Diskriminanzanalyse
- Allgemein linearbeliebige Vorverarbeitungsfunk
tionen, lineare Verknüpfung - Neuronales NetzNN implementiert adaptive
Vorverarbeitungnichtlinear in Parametern
(w)durch Approximationstheorem beliebig
nichtlineare Diskriminanzfunktion
MLP
RBFN
6Kernels
- Ziel ist eine fix bestimmte Transformation
xi?F(xi), sodass das Problem linear trennbar ist
(ev. hochdimensional) - Kernel Funktion, die als inneres Produkt von Fs
darstellbar ist - F muss nicht einmal bekannt sein
7Beispiel Polynomischer Kernel
- 2 Dimensionen
- Kernel entspricht tatsächlich einem inneren
Produkt aus Vektoren mit Vorverarbeitung
8Beispiel
- Durch Transformation wird Problem linear trennbar
?
x22
x2
x1
x12
?-1
9Die Wirkung des Kernel-Tricks
- Einsatz des Kernels, z.B
- 16x16-dimensionale Vektoren (z.B. Pixel-Bilder),
Polynom 5. Grades Dimension 1010 - Inneres Produkt zweier 10000000000-dim. Vektoren
- Berechnung erfolgt im niedrigdimensionalen Raum
- Inneres Produkt zweier 256-dim. Vektoren
- 5-te Potenz
10Gaussscher Kernel
- ? nicht darstellbar, hat aber unendliche
Dimension!(wenn Trainingsset unbegrenzt groß
sein kann) - Folgt aus Mercers Theorem
- Betrachte die Kernel-Matrixüber alle
Trainingsbeispiele - Berechne Eigenwerte und -funktionen, dann gilt
- Für Gaussschen Kernel gilt Kernel-Matrix hat
vollen Rang!Dimension so groß wie das
Trainingsset
11Large Margin Classifier
- Hochdimensionaler Raum Overfitting leicht
möglich - Lösung Suche Entscheidungslinie (Hyperebene) mit
größtem Abstand von den Punkten
- OptimierungMinimiere(Maximiere
)Randbedingung
Abstand maximal
w
12Optimierung 1
- Quadratisches Optimierungsproblem
- Lösungsansatz Lagrange-Multiplikanten
- Randbedingung
- 1. Ableitung nach w und b muss 0 sein. Das ergibt
13Optimierung 2
- Einsetzen der zuletzt ergebenen Terme
- Duale Formulierung
- Wichtig Daten stehen wieder als inneres Produkt
(dot product) im Term! - Kernel-Trick kann wieder angewandt werden
14Optimierung 3
- Minimierung ist quadratisches Programmierungsprobl
em - Globales Minimum garantiert
- Methoden
- Chunking nutzt die Tatsache dass viele ai0
- Decomposition Methods
- Sequential Minimal Optimization (SMO)löst eine
Sequenz von Problemen der Größe 2(Paare von
Variablen)
15Support Vectors
- Support-Vectors Punkte am Rand des Margins
- Bestimmen alleine die Lösung,für alle anderen
Punkte gilt ai0, können weggelassen werden
Kernelfunktion
Rückprojektion
Support Vectors
16Daten mit Rauschen
- Bisherige Annahme Problem ist exakt trennbar
- Bei Rauschen Einführung von Slack
variablesweicht den strengen Margin etwas auf
Lernparameter
- Duales Problem (Lagrange) bleibtgleich (bis auf
Randbedingung)
17Beispiel
Schätzung nur mit Support-Vectors ergibt die
selbe Lösung
Kernel Polynom 3. Ordnung
18Bedingungen für Kernels
- Jede Funktion K(x,z), für die gilt
- bzw.
- ist eine Kernelfunktion (positive definite
Kernels) - Ist K1 und K2 ein Kernel, so sind auchaK1 (für
agt0)K1K2K1K2Kernel - Wahl des richtigen Kernels (Vorverarbeitung) ist
entscheidend!? Modellselektion notwendig
für beliebige Trainingspunkte xi
19SVM-Theorie VC-Dimension
- Shatter Wenn unter n Punkten alle 2n
Klassifikationen möglich sind - VC-Dimension h kleinstes m von Punkten, für die
der Lerner weniger als 2m Klassifikationen
schafft - Z.B. VC-Dim(Perceptron)k1 (k Inputdimension)
- Für komplexe Lerner kann oft nur Schranke
angegeben werden
20SVM-Theorie Structural risk minimization
- Schranke für das Risiko (Fehler)
- Maximieren des Margins beschränkt VC-Dimension
- w kann als Regularisierungsterm betrachtet
werden - Gauss-Kernel VC-Dim h8
Mit Wahrscheinlichkeit 1-d
Anzahl Trainingspunkte
Empirischer FehleramTrainingsset
Minimal möglicher Fehler
21SVM und Neuronale Netze
- Gauss-Kernel RBF
- Sigmoid-Kernel MLP
- So viele Hidden Units wie Trainingsmuster
- Allerdings andere Berechnung
- Raum ist 8-dimensional
- SVM und Boosting formaler Zusammenhangvgl.
Boosting Punkte an der Entscheidungsgrenze
bekommen größte Bedeutung (wie SV)
22Andere Kernelverfahren
- Kernel-Trick funktioniert bei allen Methoden, in
denen Daten als inneres Produkt vorkommen - Kernel-PCA
- Kernel-Fisher Diksriminante
- Kernel Regression
- Gausssche Prozesse
23Zusammenfassung
- SVMs sind interessante Alternative zu klassischen
neuronalen Netzen - Kernel-Trick Inneres Produkt von
hochdimensionalen Features (Vorverabeitung)
kann niedrigdimensional berechnet werden - Beschränken der VC-Dim. (Vermeidung von
Overfitting) Large Margin Classifier - Lineares Modell, Quadratische Programmierung,
Minimum garantiert - Support Vectors Punkte am Margin, sind alleine
für Lösung verantwortlich - Aber Overfitting dennoch möglich
- Modellselektion notwendig
- Wahl des geeigneten Kernels ist sehr wichtig!