Classification of Credit Applicants - PowerPoint PPT Presentation

1 / 28
About This Presentation
Title:

Classification of Credit Applicants

Description:

... RMEP teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden Realisiert mit Weka DiscretizeFilter (MDL) ... – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 29
Provided by: CSTE153
Category:

less

Transcript and Presenter's Notes

Title: Classification of Credit Applicants


1
Thema
  • Classification of Credit Applicants
  • Using Data Mining.

2
Gruppe E1-116 a
  • Yue Sun
  • Frank Moritz
  • Jasmin Catovic
  • André Bünger
  • Supervisor Thomas D. Nielson

3
Aufgabenstellung
  • Klassifizierung von Kreditnehmern mittels
    Datamining
  • genutzte Techniken
  • Entscheidungsbäume
  • Neuronale Netze
  • Naive Bayes Klassifizierer

4
Aufbau der Präsentation
  • verwendete Datenbank
  • Benutze Algorithmen
  • Experimente und Ergebnisse
  • Schlussfolgerung

5
Die Datenbank
  • Name
  • Determining the solidness of borrowers via
    Credit-Scoring
  • Herkunft
  • Statistisches Archiv der Universität München

6
Datenbank 2
  • 1000 Datensätze
  • 21 Attribute
  • 20 Merkmalsattribute
  • 3 stetige
  • 17 diskrete
  • 1 Zielattribut (kreditwürdig, nicht kreditwürdig)

7
Trainings- und Testsets
  • 5 verschiedene Sets
  • Größe der Testsets 300 Datensätze
  • Größe der Trainingsets
  • 700 Datensätze
  • 500 Datensätze
  • 300 Datensätze
  • 100 Datensätze

8
Diskretisierung
  • Naive Bayes benötige diskrete Attribute
  • 2 verschiedene Methoden benutzt
  • vorgegebener Vorschlag (Expertenmeinung)
  • recursive minimal entropy partitioning (RMEP)

9
RMEP
  • teilt stetige Attribute, so dass Intervalle mit
    gleichem Zielattributwert gebildet werden
  • Realisiert mit Weka DiscretizeFilter (MDL)

10
Naive Bayes Klassifizierer
  • basiert auf Bayes Theorie der bedingten
    Wahrscheinlichkeit
  • Annahme das die Attribute unabhängig voneinander
    sind

11
Struktur

Creditability
F Worker
Balance
Duration
Credit History
...
12
Entscheidungsbäume
  • verwendete Software Clementine 6.0
  • Clementine verwendete den C5 Algorithmus
  • C5 ist eine Verbesserung von C4.5
  • basiert auf ID3

13
Neuronale Netze
  • Verwendete Software Clementine 6.0
  • Vorwärtsverkettete Netze
  • eine versteckte Schicht mit 5 Neuronen

14
Experimente
  • Ziel den besten Klassifizierer finden
  • Variation von Parametern
  • Naive Bayes m-estimate of probability
  • Entscheidungsbäume Pruningrate, Kosten
  • neuronale Netze Momentum, Lernrate

15
Entscheidungsbäume
Expertenmeinung
16
Vergleich der Diskretisierungsmethodenbei 700
Datensätzen
17
Vergleich der Klassifikation in
kreditwürdig/nicht kreditwürdig bei 700 DS und
Expertenmeinung
pruning 1 1 50 50 60 60 80 80 99 99
class label 0 1 0 1 0 1 0 1 0 1
0 48 48 47 49 45 51 35 61 3 93
1 36 168 32 172 29 175 24 180 0 204
18
Probleme bei der Klassifikation
  • Viele nichtkreditwürdige werden als kreditwürdig
    klassifiziert
  • Mit erhöhtem Pruning werden mehr als kreditwürdig
    klassifiziert
  • Problemlösungsversuch
  • Kosten für Missklasssifikation erhöht
  • Ergebnis keine Verbesserung

19
Neuronale Netze
trainiert mit 700 Datensätzen und Momentum 0.5
20
Vergleich der Klassifikation
trainiert mit 700 Datensätzen,
Expertenmeinung, momentum0.5
Learning rate 0.1 0.1 0.3 0.3 0.5 0.5 0.7 0.7 0.9 0.9
class label 0 1 0 1 0 1 0 1 0 1
0 42 51 37 56 40 53 42 50 45 47
1 26 181 25 182 26 181 32 176 36 172
21
Probleme
  • Viele Nichtkreditwürdige werden als kreditwürdig
    klassifiziert
  • Stark unterschiedliche Ergebnisse bei Modellen
    mit den gleichen Parametern und Datensätzen (bis
    zu 17)

22
Naive Bayes Klassifizierer
Expertenmeinung
23
Vergleich von Expertenmeinung und RMEP bei 700
Datensätzen
24
Vergleich der Klassifikation bei 700 Datensätzen
und Expertenmeinung
m 0 0 10 10 20 20 50 50 100 100
Class label 0 1 0 1 0 1 0 1 0 1
0 48 43 48 42 41 49 32 59 19 72
1 33 176 34 176 28 182 22 187 14 195
25
Vergleich der besten Ergebnisse
  • Entscheidungsbäume
  • Original 72,07 mit pruningrate von 80
  • RMEP 71,20 mit pruningrate von 80
  • EM 73,40 mit pruningrate von 60
  • Neuronale Netze
  • original 74,07 mit alpha 0.5 und eta 0.5
  • RMEP 75,34 mit alpha 0.5 und eta 0.2
  • EM 74,53 mit alpha 0.5 und eta 0.1
  • Naive Bayes Klassifizierer
  • RMEP 74,73 mit m5
  • EM 74,87 mit m10

26
Vergleich 2
0 1 insgesamt Entscheidun
gsbäume 47 86 73,40 Neuronale Netze
46 87 75,34 Naive Bayes Klassifizierer 53
84 74,87
27
Zusammenfassung
  • bestes Resultat mit neuronalen Netzen
  • aber keine großen Unterschiede
  • Naive Bayes Klassifizierer klassifiziert
    nichtkreditwürdige Kreditnehmer am besten
  • gleiche Probleme bei der Klassifikation von
    nichtkreditwürdigen Kreditnehmern

28
Fazit
  • bester Klassifizierer ist der Naive Bayes
    Klassifizierer, da er nichtkreditwürdige Kunden
    besser klassifiziert als die anderen zwei
    Methoden.
  • dadurch Reduzierung der Kreditausfälle für die
    Bank
Write a Comment
User Comments (0)
About PowerShow.com