Title: Classification of Credit Applicants
1Thema
- Classification of Credit Applicants
- Using Data Mining.
2Gruppe E1-116 a
- Yue Sun
- Frank Moritz
- Jasmin Catovic
- André Bünger
- Supervisor Thomas D. Nielson
3Aufgabenstellung
- Klassifizierung von Kreditnehmern mittels
Datamining - genutzte Techniken
- Entscheidungsbäume
- Neuronale Netze
- Naive Bayes Klassifizierer
4Aufbau der Präsentation
- verwendete Datenbank
- Benutze Algorithmen
- Experimente und Ergebnisse
- Schlussfolgerung
5Die Datenbank
- Name
- Determining the solidness of borrowers via
Credit-Scoring - Herkunft
- Statistisches Archiv der Universität München
6Datenbank 2
- 1000 Datensätze
- 21 Attribute
- 20 Merkmalsattribute
- 3 stetige
- 17 diskrete
- 1 Zielattribut (kreditwürdig, nicht kreditwürdig)
7Trainings- und Testsets
- 5 verschiedene Sets
- Größe der Testsets 300 Datensätze
- Größe der Trainingsets
- 700 Datensätze
- 500 Datensätze
- 300 Datensätze
- 100 Datensätze
8Diskretisierung
- Naive Bayes benötige diskrete Attribute
- 2 verschiedene Methoden benutzt
- vorgegebener Vorschlag (Expertenmeinung)
- recursive minimal entropy partitioning (RMEP)
9RMEP
- teilt stetige Attribute, so dass Intervalle mit
gleichem Zielattributwert gebildet werden - Realisiert mit Weka DiscretizeFilter (MDL)
10Naive Bayes Klassifizierer
- basiert auf Bayes Theorie der bedingten
Wahrscheinlichkeit - Annahme das die Attribute unabhängig voneinander
sind
11Struktur
Creditability
F Worker
Balance
Duration
Credit History
...
12Entscheidungsbäume
- verwendete Software Clementine 6.0
- Clementine verwendete den C5 Algorithmus
- C5 ist eine Verbesserung von C4.5
- basiert auf ID3
13Neuronale Netze
- Verwendete Software Clementine 6.0
- Vorwärtsverkettete Netze
- eine versteckte Schicht mit 5 Neuronen
14Experimente
- Ziel den besten Klassifizierer finden
- Variation von Parametern
- Naive Bayes m-estimate of probability
- Entscheidungsbäume Pruningrate, Kosten
- neuronale Netze Momentum, Lernrate
15Entscheidungsbäume
Expertenmeinung
16Vergleich der Diskretisierungsmethodenbei 700
Datensätzen
17Vergleich der Klassifikation in
kreditwürdig/nicht kreditwürdig bei 700 DS und
Expertenmeinung
pruning 1 1 50 50 60 60 80 80 99 99
class label 0 1 0 1 0 1 0 1 0 1
0 48 48 47 49 45 51 35 61 3 93
1 36 168 32 172 29 175 24 180 0 204
18Probleme bei der Klassifikation
- Viele nichtkreditwürdige werden als kreditwürdig
klassifiziert - Mit erhöhtem Pruning werden mehr als kreditwürdig
klassifiziert - Problemlösungsversuch
- Kosten für Missklasssifikation erhöht
- Ergebnis keine Verbesserung
19Neuronale Netze
trainiert mit 700 Datensätzen und Momentum 0.5
20Vergleich der Klassifikation
trainiert mit 700 Datensätzen,
Expertenmeinung, momentum0.5
Learning rate 0.1 0.1 0.3 0.3 0.5 0.5 0.7 0.7 0.9 0.9
class label 0 1 0 1 0 1 0 1 0 1
0 42 51 37 56 40 53 42 50 45 47
1 26 181 25 182 26 181 32 176 36 172
21Probleme
- Viele Nichtkreditwürdige werden als kreditwürdig
klassifiziert - Stark unterschiedliche Ergebnisse bei Modellen
mit den gleichen Parametern und Datensätzen (bis
zu 17)
22Naive Bayes Klassifizierer
Expertenmeinung
23Vergleich von Expertenmeinung und RMEP bei 700
Datensätzen
24Vergleich der Klassifikation bei 700 Datensätzen
und Expertenmeinung
m 0 0 10 10 20 20 50 50 100 100
Class label 0 1 0 1 0 1 0 1 0 1
0 48 43 48 42 41 49 32 59 19 72
1 33 176 34 176 28 182 22 187 14 195
25Vergleich der besten Ergebnisse
- Entscheidungsbäume
- Original 72,07 mit pruningrate von 80
- RMEP 71,20 mit pruningrate von 80
- EM 73,40 mit pruningrate von 60
- Neuronale Netze
- original 74,07 mit alpha 0.5 und eta 0.5
- RMEP 75,34 mit alpha 0.5 und eta 0.2
- EM 74,53 mit alpha 0.5 und eta 0.1
- Naive Bayes Klassifizierer
- RMEP 74,73 mit m5
- EM 74,87 mit m10
26Vergleich 2
0 1 insgesamt Entscheidun
gsbäume 47 86 73,40 Neuronale Netze
46 87 75,34 Naive Bayes Klassifizierer 53
84 74,87
27Zusammenfassung
- bestes Resultat mit neuronalen Netzen
- aber keine großen Unterschiede
- Naive Bayes Klassifizierer klassifiziert
nichtkreditwürdige Kreditnehmer am besten - gleiche Probleme bei der Klassifikation von
nichtkreditwürdigen Kreditnehmern
28Fazit
- bester Klassifizierer ist der Naive Bayes
Klassifizierer, da er nichtkreditwürdige Kunden
besser klassifiziert als die anderen zwei
Methoden. - dadurch Reduzierung der Kreditausfälle für die
Bank