Machine%20Learning - PowerPoint PPT Presentation

About This Presentation
Title:

Machine%20Learning

Description:

Machine Learning Decision Trees (2) – PowerPoint PPT presentation

Number of Views:144
Avg rating:3.0/5.0
Slides: 22
Provided by: Petra153
Category:

less

Transcript and Presenter's Notes

Title: Machine%20Learning


1
Machine Learning
  • Decision Trees (2)

2
Beispiel (Wiederholung)
3
Beispiel (Baum)
Was passiert beim Hinzufügen eines neuen,
falschen Beispiels D15? D15 Sunny, Hot, Normal,
Strong, PlayTennis No
4
Overfitting
  • Problem gültige Verallgemeinerungen können
    zerstört werden durch
  • Einzelne fehlerhafte Trainingsdaten
  • Ausreißer bei großen Datenmengen
  • Konstruierter Entscheidungsbaum passt zwar
    optimal auf die Trainingsmenge, aber schlechter
    auf die Gesamtdistribution, als ein
    möglicherweise kleinerer Baum, der die
    Trainingsmenge schlechter apporximiert

5
Overfitting
  • Def.
  • Sei T Trainingsmenge, D Gesamtdistribution.
    Overfitting einer Hypothese h ? H liegt vor, gdw
  • errorT(h) lt errorT(h) und
  • errorD(h) gt errorD(h)

6
Overfitting
7
Overfitting
  • Strategien zur Vermeidung von Overfitting
  • Breche die Generierung weiterer Knoten an
    bestimmter Stelle bei der Konstruktion ab
  • Berechne vollständigen Baum und lösche
    nachträglich Knoten ( Pruning)
  • Notwendig Validationsmenge (auch Testmenge)

8
Overfitting
  • Auswahlkriterien für den besten Baum
  • Beste Ãœbereinstimmung mit der Trainingsmenge
  • Beste Ãœbereinstimmung mit der Validationsmenge
  • Minimal Description Length (MDL)
  • Mass Akkuratheit (TP TN) / (TP TN FP
    FN)

9
Baumbeschneidungsmethoden
  • Löschen von Knoten zur Fehler-Reduktion
  • Teile Daten in Trainings- und Validationsmenge
  • Für jeden Knoten (top-down)
  • Ãœberprüfe die Akkuratheit auf der
    Validationsmenge, wenn dieser Knoten (und evt.
    alle darunter) gelöscht wird.
  • Lösche den Knoten, wenn die Akkuratheit dadurch
    vergrößert wird (das erfordert u.U. Reoranisation
    des Baumes!)

10
Regelmodifikation
  • Reduktion der Entscheidungsschritte durch
    Modifikation der Regeln, die einem
    Entscheidungsbaum entsprechen

11
Entscheidungsbaum als geordnete Menge von Regeln
  • Jeder Entscheidungsbaum lässt sich in eine
    äquivalente Menge von Regeln transformieren
  • Jeder Pfad im Baum entspricht einer Implikation
    die Konjunktion aller inneren Knoten impliziert
    das Blatt
  • Der Baum entspricht der Disjunktion der Regeln,
    die durch die Pfade definiert werden.

12
Beispiel
  • Wenn (Outlooksunny und Humidityhigh), dann
    PlayTennisNo
  • Wenn (Outlooksunny und Humiditynormal), dann
    PlayTennisYes
  • Wenn (Outlookovercast), dann PlayTennisYes
  • Wenn (Outlookrain und Windstrong), dann
    PlayTennisNo
  • Wenn (Outlookrain und Windweak), dann
    PlayTennisYes

13
Pruning durch Generalisierung der Regeln
  • Konvertiere den Baum in seine Regelmenge
  • Generalisiere jede Regel für sich
  • Entferne diejenigen Bedingungen aus der Regel,
    die zu einer Verbesserung der Akkuratheit führen
  • Sortiere die endgültigen Regeln nach ihrer
    erwarteten Akkuratheit
  • Bemerkung das Ergebnis entspricht nicht mehr
    notwendig einem Entscheidungs-Baum! Warum?

14
Regelgeneralisierung
  • Vorteile
  • Größere Flexibilität bei der Generalisierung im
    Baum kann ein Knoten nur komplett oder gar nicht
    gelöscht werden, in der Regel ist partielles
    Löschen abhängig vom Kontext möglich
  • Keine Anordnung der Tests, d.h. Löschen erfordert
    keine Umorganisation
  • Bessere Lesbarkeit und Verständlichkeit der
    Regeln für den Benutzer

15
Attribut-Selektion
  • Problem
  • Information Gain bevorzugt tendenziell Attribute
    mit rel. vielen Werten gegenüber solchen mit rel.
    wenig Werten
  • Alternatives Mass zur Selektion
  • gain ratio

16
Gain Ratio
  • Basiert auf Information Gain
  • Modifiziert durch einen Faktor, der misst, wie
    breit und wie gleichmäßig ein Attribut die Daten
    splittet SI ( Split Information)
  • SI(T,A) -?i1c(Ti/T)log2(Ti/T)
  • GainRatio(T,A) GAIN(T,A)/SplitInformation(T,A)

17
C4.5
  • C4.5 ist die Weiterentwicklung von ID3 (Quinlan
    1986)
  • Unterschied
  • Verwende GainRation zur Attribut-Selektion
  • Nachträgliche Generalisierung der Regeln

18
Weitere Probleme
  • Attribute mit nicht-diskreten Werten
  • Z.B. Temperatur
  • Lösung mache Werte diskret, z.B. durch
  • Runden auf ganze Zahlen
  • Abbildung auf Intervalle
  • Zweiteilung durch gt, lt
  • Kosten eines Attributs
  • Wichtig z.B. bei med. Entscheidungen Kosten
    einer Untersuchung
  • Berechne die Kosten bei der Auswahl der Attribute
    mit ein
  • Z.B. Gain(T,A)2/Cost(A)
  • Z.B. 2GAIN(T,A) -1)/((cost(A)1)w

19
Weitere Probleme
  • Unbekannte Attribut Werte
  • Was passiert mit unvollständigen Trainingsdaten?
  • Versuche sie trotzdem in den Baum einzubauen
  • Falls Knoten k nicht spezifiziertes Attribut A
    testet nehme für A einen plausiblen Wert an
  • Z.B. der häufigste in Bezug auf die Beispiele,
    die unterhalb von k liegen
  • Z.B. der häufigste in Bezug auf alle Beispiele
    mit demselben Zielwert
  • Weise jedem Wert seine Wahrscheinlichkeit pi zu
    und weise jedem Wert das Beispiel zum Anteil von
    pi zu
  • Verfahre analog zur Klassifikation von neuen
    Instanzen

20
Zusammenfassung
  • Entscheidungsbäume eignen sich insbesondere für
    das Lernen von Konzepten und Klassifikationsproble
    men
  • Basis für die meist verwandten Algorithmen ist
    der ID3 Algorithmus von Quinlan
  • ID3 geht von einem vollständigen Hypothesen-Raum
    aus mit einer Präferenz für möglichst kurze Bäume
    und den spezifischsten Attributen möglichst nahe
    an der Wurzel
  • Hauptproblem von ID3 Overfitting
  • Weiterentwicklungen von ID3 beziehen sich auf
  • Lösen des Overfitting Problems
  • Verbesserte Attribut-Selektion
  • Berühmtestes Beispiel C4.5
  • Overfitting ist nicht nur in Bezug auf
    Entscheidungsbäume eines der großen Probleme
    beim maschinellen Lernen

21
Aufgaben
  • Ziel erstellen Sie sich einen individuellen
    Entscheidungsbaum für die Auswahl von Kursen.
    Trainingsmenge sind die Veranstaltungen des CIS
    im WS 03/04 und SS 04 zusammen mit Ihrer Auswahl
    Besucht nicht besucht. Beschreiben Sie zunächst
    alle Veranstaltungen gemäß folgenden Attributen
    und Werten
  • Typ PS, HS, Vorl., Praktikum
  • Bereich CL, Inf, Math. Ling
  • Art theoretisch, praktisch
  • Dozent alle Dozenten des CIS (bei mehreren
    bitte einen auswählen)
  • Uhrzeit vorm., nachm., abends
  • Semester WS, SS
  • Stundenzahl 1,2,3,4
  • Klausur ja,nein
  • Hausarbeit ja,nein
  • Ãœbungsaufgaben ja,nein
  • Schon besucht ja,ein
  • Pflichtkurs ja,nein
  • Erstellen Sie mit einem Algorithmus Ihrer Wahl
    (ID3 oder C4.5) einen Entscheidungsbaum (falls
    Sie sehr wenig Kurse besuchen, betrachten Sie
    bitte auch diejenigen als besucht, die Sie evt.
    Auch gerne besucht hätten.
  • Extrahieren Sie aus diesem Baum die Regeln
  • Inwiefern entsprechen die so entstandenen Regeln
    Ihren tatsächlichen Kriterien bei der Auswahl der
    Kurse?
  • Haben Sie das Gefühl, dass es zu Overfitting kam?
    Wie würden Sie das in diesem Fall beheben?
Write a Comment
User Comments (0)
About PowerShow.com