Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation
Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Last modified by: Petra Maier Created Date: 1/1/1601 12:00:00 AM Document presentation format: On-screen Show Other titles – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 37
Provided by: unim70
Category:

less

Transcript and Presenter's Notes

Title: Maschinelles Lernen


1
Maschinelles Lernen
  • Entscheidungsbäume Teil 1
  • (Mitchell Kap. 3)

2
Beispiel
  • Nationalitäten

3
Beispiel
Behandlung bei Artikulationsstörungen
4
Beispiel
Tage, um Sport zu treiben
5
Motivation
  • Versuche Abfolge von Tests oder Bedingungen zu
    automatisieren
  • Für Aufgaben, denen irgendwie abstrahierbare
    Regeln zugrunde liegen
  • Zur Repräsentation komplexer Abhängigkeiten
  • Disjunktion von Konjunktionen

6
Eigenschaften
  • Probleme erlauben Attribut-Wert-Darstellung
  • Zielfunktion muß diskret sein
  • Disjunktive Beschreibung
  • Fehlerhafte Trainingsdaten möglich
  • Unvollständige Trainingsdaten möglich
  • Typischerweise Klassifikationsprobleme

7
Typische Anwendungen
  • Medizinische Diagnosen
  • Analyse des Kreditrisikos
  • Raumbelegungspläne etc.

8
Naive Beschreibung
  • Interne Knoten Überprüfen eines Attributs
  • Verzweigung nach Anzahl der möglichen Werte
  • Blätter Ergebnis Klassifikation
  • Pfad durch den Baum Entscheidungsprozess, für
    jedes Objekt gibt es genau einen Pfad von der
    Wurzel zu einem Blatt

9
Baum
  • Definition ltK,b?K X Kgt ist ein Baum mit Knoten K
    und Kanten b gdw.
  • Es gibt genau ein w ? K, so dass ??k?K ltk,wgt ?b
    (w heißt Wurzel)
  • Es gibt B ? K mit ?b?B(??k?K ltb,kgt?b) (B sind
    die Blätter)
  • Für ?k?K mit k ? w und k ?B ?ki,kl ?K ltki,kgt ?b
    und ltk,klgt ?b (das sind zusammen mit w die
    internen Knoten)
  • Für jeden Pfad ltw ki0,ki1, ki2, ki3,..., kingt
    (?0rltn ltkir,kir1gt ?b) gilt ? kir, kis kir ?
    kis (keine Zyklen!)

10
Entscheidungsbaum
  • Sei zusätzlich
  • A a1, a2, a3,..., aj Menge von Attributen mit
    möglichen Attributwerten V va11, va12,
    ...,vaj1, ..., vajn
  • C c1, c2, c3,..., cm Menge von Zielkonzepten
  • Ein Entscheidungsbaum ist ein Baum, bei dem
  • jeder interne Knoten mit einem Attribut gelabelt
    ist (k ltk,aigt) und
  • jede Kante mit einem entsprechenden Attributwert
    (b lt ltkm,aigt,vair,ltkn,algtgt und vair ist
    möglicher Wert von ai) ,
  • jedes Blatt ist mit einer Klasse c gelabelt (k
    ltk,cigt)

11
Zwischenfragen
  • Welche Tiefe hat ein Entscheidungsbaum?
  • Minimal? Maximal?
  • Wieviele Knoten hat ein Entscheidungsbaum
    maximal?
  • Gibt es Zielfunktionen, die nicht als
    Entscheidungsbaum dargestellt werden können?

12
Grundidee zur Konstruktion
  • Prinzip von ID3 (Quinlan 1986)
  • Top-down Suche (greedy) durch die Menge aller
    möglichen Entscheidungsbäume
  • Problem welches Attribut soll als
    erstes/nächstes überprüft werden?
  • Dasjenige, das die beste Einschränkung bringt!

13
Top-down Induktion von Entscheidungsbäumen (ID3)
  • Hauptschleife
  • Wähle bestes Entscheidungsattribut ai als Label
    für nächsten Knoten k
  • Generiere für jeden möglichen Wert vl von ai
    Tochterknoten kn von k und Kanten, die mit vl
    gelabelt sind
  • Verteile alle Trainingsbeispiele auf die Blätter
  • Wenn sich eine korrekte Aufteilung aller
    Trainingsbeispiele ergibt, labele die Blätter mit
    C, andernfalls führe Schleife für jeden neuen
    Knoten aus

14
Auswahl der Attribute
  • Wann ist ein Attribut nützlich?
  • Wenn es wenige Objekte, aber die eindeutig
    klassifiziert?
  • Wenn es die Inputmenge möglichst gleichmäßig
    splittet?
  • Betrachte Maße aus der Informations-Theorie
    Information Gain

15
Entropie
  • Entropie Maß für die Homogenität oder Reinheit
    einer Menge
  • Entropie Anzahl der Bits, die für die Kodierung
    bestimmter Information minimal benötigt wird

16
Entropie
  • Sei
  • T Menge von Trainingsdaten
  • p sei der Anteil der positiven Beispiele in T
  • p- sei der Anteil der negativen Beispiele in T
  • Entropie(T) -p log2(p) p-log2p-
  • im allgemeinen Fall
  • Entropie(T) ?c?C pclog2(pc)
  • Annahme 0log2(0) 0

17
Entropie Beispiele
  • Angenommen alle Beispiele sind positiv

18
Entropie Beispiele
  • T1 alle Beispiele sind positiv
  • p 1 und p- 0
  • Entropie(T1) -1(log21) 0(log20) 0
  • T1 alle Beispiele sind negativ

19
Entropie Beispiele
  • T1 alle Beispiele sind positiv
  • p 1 und p- 0
  • Entropie(T1) -1(log21) 0(log20) 0
  • T2 alle Beispiele sind negativ
  • p 0 und p- 1
  • Entropie(T2) -0(log20) 1(log21) 0
  • T3 die Hälfte ist positiv und die Hälfte ist
    negativ
  • p 0.5 und p- 0.5

20
Entropie Beispiele
  • T1 alle Beispiele sind positiv
  • p 1 und p- 0
  • Entropie(T1) -1(log21) 0(log20) 0
  • T2 alle Beispiele sind negativ
  • p 0 und p- 1
  • Entropie(T2) -0(log20) 1(log21) 0
  • T3 die Hälfte ist positiv und die Hälfte ist
    negativ
  • p 0.5 und p- 0.5
  • Entropie(T3) -0.5(log20.5) 0.5(log20.5)
    -log2(0.5) 1
  • T4 ¼ ist positiv, der Rest ist negativ
  • p 0.25 und p- 0.75

21
Entropie Beispiele
  • T1 alle Beispiele sind positiv
  • p 1 und p- 0
  • Entropie(T1) -1(log21) 0(log20) 0
  • T2 alle Beispiele sind negativ
  • p 0 und p- 1
  • Entropie(T2) -0(log20) 1(log21) 0
  • T3 die Hälfte ist positiv und die Hälfte ist
    negativ
  • p 0.5 und p- 0.5
  • Entropie(T3) -0.5(log20.5) 0.5(log20.5)
    -log2(0.5) 1
  • T4 ¼ ist positiv, der Rest ist negativ
  • p 0.25 und p- 0.75
  • Entropie(T4) -0.25(log20.25) 0.75(log20.75)
    0.811...

22
Entropie
  • Werteverteilung

23
Information Gain
  • Idee betrachte den Unterschied in der Entropie
    von T, wenn nach einem Attribut ai sortiert wird
  • GAIN(T,ai)
  • Entropie(T) - ?v von ai(Tv/T Entropie(Tv))
  • Das beste Attribut für einen Knoten ist
    dasjenige, das den höchsten Information Gain
    erzielt!

24
Konstruktion
25
Beispiel
26
Beispiel
27
Beispiel
28
Grundannahmen
  • Welche Grundannahmen wurden gemacht?

29
Grundannahmen
  • Welche Grundannahmen wurden gemacht?
  • Bzgl. Hypothesenraum keine!

30
Grundannahmen
  • Welche Grundannahmen wurden gemacht?
  • Bzgl. Hypothesenraum keine!
  • Bzgl. Struktur des entstehenden Baums?

31
Grundannahmen
  • Welche Grundannahmen wurden gemacht?
  • Bzgl. Hypothesenraum keine!
  • Bzgl. Struktur des entstehenden Baums?
  • Präferenz für möglichst flache Bäume
  • Präferenz für Bäume, bei denen die spezifischsten
    Attribute möglichst nahe bei der Wurzel
    angesiedelt sind
  • Warum möglichst flache Bäume?

32
Zusammenfassung
  • Hypothesenraum unbeschränkt, d.h. Zielfunktion
    ist mit Sicherheit im Hypothesenraum enthalten
  • Lediglich Präferenz bei der Konstruktion des
    Baumes
  • Betrachtet immer gesamte Trainingsmenge
  • Toleranz gegenüber fehlerhaften Beispielen
    möglich (akzeptiere auch Knoten als Blätter, die
    nicht ausschließlich die Zielmenge enthalten)
  • Keine Beschreibung der gesamten Lösungsmenge
  • Keine Gewähr, dass der minimale Baum gefunden
    wird, nur lokal minimal!

33
Aufgaben
  • Berechnen Sie bitte Entropie und Information Gain
    für folgendes Beispiel. Was sollte also
    sinnvoller Weise als Top-Knoten gewählt werden?

34
Aufgaben
  • Lösen Sie bitte Aufgabe 3.1 und 3.2 aus dem Buch
    von Mitchell (S. 77/78)
  • Erstellen Sie bitte für das Beispiel von letzter
    Woche einen Entscheidungsbaum nach dem
    vorgestellten Basis-Algorithmus

35
Aufgaben (Mitchell)
  • (3.1.) Geben Sie Entscheidungsbäume an, die die
    folgenden booleschen Funktionen repräsentieren
  • A and non B
  • A or (B and C)
  • A xor B
  • (A and B) or (C and D)
  • (3.2) Trainingsbeispiel nächste Seite
  • Was ist die Entropie des Trainingsbeispiels im
    Hinblick auf die Zielfunktion?
  • Was ist der Information Gain von a2 für diese
    Trainingsbeispiele?

36
Trainingsbeispiel 3.2
Instanz Klassifikation a1 a2
1 T T
2 T T
3 - T F
4 F F
5 - F T
6 - F T
Write a Comment
User Comments (0)
About PowerShow.com