Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation

Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Last modified by: Petra Maier Created Date: 1/1/1601 12:00:00 AM Document presentation format: On-screen Show Other titles – PowerPoint PPT presentation

Number of Views:122

Avg rating:3.0/5.0

Slides: 37

Provided by: unim70

Category:

more less

Transcript and Presenter's Notes

Title: Maschinelles Lernen

1
Maschinelles Lernen

Entscheidungsbäume Teil 1
(Mitchell Kap. 3)

2
Beispiel

Nationalitäten

3
Beispiel
Behandlung bei Artikulationsstörungen
4
Beispiel
Tage, um Sport zu treiben
5
Motivation

Versuche Abfolge von Tests oder Bedingungen zu
automatisieren
Für Aufgaben, denen irgendwie abstrahierbare
Regeln zugrunde liegen
Zur Repräsentation komplexer Abhängigkeiten
Disjunktion von Konjunktionen

6
Eigenschaften

Probleme erlauben Attribut-Wert-Darstellung
Zielfunktion muß diskret sein
Disjunktive Beschreibung
Fehlerhafte Trainingsdaten möglich
Unvollständige Trainingsdaten möglich
Typischerweise Klassifikationsprobleme

7
Typische Anwendungen

Medizinische Diagnosen
Analyse des Kreditrisikos
Raumbelegungspläne etc.

8
Naive Beschreibung

Interne Knoten Überprüfen eines Attributs
Verzweigung nach Anzahl der möglichen Werte
Blätter Ergebnis Klassifikation
Pfad durch den Baum Entscheidungsprozess, für
jedes Objekt gibt es genau einen Pfad von der
Wurzel zu einem Blatt

9
Baum

Definition ltK,b?K X Kgt ist ein Baum mit Knoten K
und Kanten b gdw.
Es gibt genau ein w ? K, so dass ??k?K ltk,wgt ?b
(w heißt Wurzel)
Es gibt B ? K mit ?b?B(??k?K ltb,kgt?b) (B sind
die Blätter)
Für ?k?K mit k ? w und k ?B ?ki,kl ?K ltki,kgt ?b
und ltk,klgt ?b (das sind zusammen mit w die
internen Knoten)
Für jeden Pfad ltw ki0,ki1, ki2, ki3,..., kingt
(?0rltn ltkir,kir1gt ?b) gilt ? kir, kis kir ?
kis (keine Zyklen!)

10
Entscheidungsbaum

Sei zusätzlich
A a1, a2, a3,..., aj Menge von Attributen mit
möglichen Attributwerten V va11, va12,
...,vaj1, ..., vajn
C c1, c2, c3,..., cm Menge von Zielkonzepten
Ein Entscheidungsbaum ist ein Baum, bei dem
jeder interne Knoten mit einem Attribut gelabelt
ist (k ltk,aigt) und
jede Kante mit einem entsprechenden Attributwert
(b lt ltkm,aigt,vair,ltkn,algtgt und vair ist
möglicher Wert von ai) ,
jedes Blatt ist mit einer Klasse c gelabelt (k
ltk,cigt)

11
Zwischenfragen

Welche Tiefe hat ein Entscheidungsbaum?
Minimal? Maximal?
Wieviele Knoten hat ein Entscheidungsbaum
maximal?
Gibt es Zielfunktionen, die nicht als
Entscheidungsbaum dargestellt werden können?

12
Grundidee zur Konstruktion

Prinzip von ID3 (Quinlan 1986)
Top-down Suche (greedy) durch die Menge aller
möglichen Entscheidungsbäume
Problem welches Attribut soll als
erstes/nächstes überprüft werden?
Dasjenige, das die beste Einschränkung bringt!

13
Top-down Induktion von Entscheidungsbäumen (ID3)

Hauptschleife
Wähle bestes Entscheidungsattribut ai als Label
für nächsten Knoten k
Generiere für jeden möglichen Wert vl von ai
Tochterknoten kn von k und Kanten, die mit vl
gelabelt sind
Verteile alle Trainingsbeispiele auf die Blätter
Wenn sich eine korrekte Aufteilung aller
Trainingsbeispiele ergibt, labele die Blätter mit
C, andernfalls führe Schleife für jeden neuen
Knoten aus

14
Auswahl der Attribute

Wann ist ein Attribut nützlich?
Wenn es wenige Objekte, aber die eindeutig
klassifiziert?
Wenn es die Inputmenge möglichst gleichmäßig
splittet?
Betrachte Maße aus der Informations-Theorie
Information Gain

15
Entropie

Entropie Maß für die Homogenität oder Reinheit
einer Menge
Entropie Anzahl der Bits, die für die Kodierung
bestimmter Information minimal benötigt wird

16
Entropie

Sei
T Menge von Trainingsdaten
p sei der Anteil der positiven Beispiele in T
p- sei der Anteil der negativen Beispiele in T
Entropie(T) -p log2(p) p-log2p-
im allgemeinen Fall
Entropie(T) ?c?C pclog2(pc)
Annahme 0log2(0) 0

17
Entropie Beispiele

Angenommen alle Beispiele sind positiv

18
Entropie Beispiele

T1 alle Beispiele sind positiv
p 1 und p- 0
Entropie(T1) -1(log21) 0(log20) 0
T1 alle Beispiele sind negativ

19
Entropie Beispiele

T1 alle Beispiele sind positiv
p 1 und p- 0
Entropie(T1) -1(log21) 0(log20) 0
T2 alle Beispiele sind negativ
p 0 und p- 1
Entropie(T2) -0(log20) 1(log21) 0
T3 die Hälfte ist positiv und die Hälfte ist
negativ
p 0.5 und p- 0.5

20
Entropie Beispiele

T1 alle Beispiele sind positiv
p 1 und p- 0
Entropie(T1) -1(log21) 0(log20) 0
T2 alle Beispiele sind negativ
p 0 und p- 1
Entropie(T2) -0(log20) 1(log21) 0
T3 die Hälfte ist positiv und die Hälfte ist
negativ
p 0.5 und p- 0.5
Entropie(T3) -0.5(log20.5) 0.5(log20.5)
-log2(0.5) 1
T4 ¼ ist positiv, der Rest ist negativ
p 0.25 und p- 0.75

21
Entropie Beispiele

T1 alle Beispiele sind positiv
p 1 und p- 0
Entropie(T1) -1(log21) 0(log20) 0
T2 alle Beispiele sind negativ
p 0 und p- 1
Entropie(T2) -0(log20) 1(log21) 0
T3 die Hälfte ist positiv und die Hälfte ist
negativ
p 0.5 und p- 0.5
Entropie(T3) -0.5(log20.5) 0.5(log20.5)
-log2(0.5) 1
T4 ¼ ist positiv, der Rest ist negativ
p 0.25 und p- 0.75
Entropie(T4) -0.25(log20.25) 0.75(log20.75)
0.811...

22
Entropie

Werteverteilung

23
Information Gain

Idee betrachte den Unterschied in der Entropie
von T, wenn nach einem Attribut ai sortiert wird
GAIN(T,ai)
Entropie(T) - ?v von ai(Tv/T Entropie(Tv))
Das beste Attribut für einen Knoten ist
dasjenige, das den höchsten Information Gain
erzielt!

24
Konstruktion
25
Beispiel
26
Beispiel
27
Beispiel
28
Grundannahmen

Welche Grundannahmen wurden gemacht?

29
Grundannahmen

Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum keine!

30
Grundannahmen

Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum keine!
Bzgl. Struktur des entstehenden Baums?

31
Grundannahmen

Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum keine!
Bzgl. Struktur des entstehenden Baums?
Präferenz für möglichst flache Bäume
Präferenz für Bäume, bei denen die spezifischsten
Attribute möglichst nahe bei der Wurzel
angesiedelt sind
Warum möglichst flache Bäume?

32
Zusammenfassung

Hypothesenraum unbeschränkt, d.h. Zielfunktion
ist mit Sicherheit im Hypothesenraum enthalten
Lediglich Präferenz bei der Konstruktion des
Baumes
Betrachtet immer gesamte Trainingsmenge
Toleranz gegenüber fehlerhaften Beispielen
möglich (akzeptiere auch Knoten als Blätter, die
nicht ausschließlich die Zielmenge enthalten)
Keine Beschreibung der gesamten Lösungsmenge
Keine Gewähr, dass der minimale Baum gefunden
wird, nur lokal minimal!

33
Aufgaben

Berechnen Sie bitte Entropie und Information Gain
für folgendes Beispiel. Was sollte also
sinnvoller Weise als Top-Knoten gewählt werden?

34
Aufgaben

Lösen Sie bitte Aufgabe 3.1 und 3.2 aus dem Buch
von Mitchell (S. 77/78)
Erstellen Sie bitte für das Beispiel von letzter
Woche einen Entscheidungsbaum nach dem
vorgestellten Basis-Algorithmus

35
Aufgaben (Mitchell)

(3.1.) Geben Sie Entscheidungsbäume an, die die
folgenden booleschen Funktionen repräsentieren
A and non B
A or (B and C)
A xor B
(A and B) or (C and D)
(3.2) Trainingsbeispiel nächste Seite
Was ist die Entropie des Trainingsbeispiels im
Hinblick auf die Zielfunktion?
Was ist der Information Gain von a2 für diese
Trainingsbeispiele?