Seminar im Sommersemester 2005 - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Seminar im Sommersemester 2005

Description:

Title: Folie 1 Author: brotman Last modified by: brotman Created Date: 5/17/2005 2:18:18 PM Document presentation format: Bildschirmpr sentation Other titles – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 22
Provided by: brot154
Category:

less

Transcript and Presenter's Notes

Title: Seminar im Sommersemester 2005


1
Seminar im Sommersemester 2005 DATA WAREHOUSING
Data MiningChristian KnappeFachrichtung
WirtschaftsinformatikFriedrich-Schiller-Universit
ät JenaFakultät für Mathematik und
InformatikLehrstuhl für Datenbanken und
InformationssystemeLehrstuhlinhaber Prof. Dr.
Klaus KüspertBetreuung Dipl. Inf. Thomas Müller
2
  • Inhalt
  • Einführung und Motivation
  • Daten und Technik
  • Was ist Data Mining?
  • Data Mining im Überblick
  • DM und Data Warehousing
  • DM vs. OLAP
  • Was leistet DM?
  • Anwendungsgebiete
  • Prozessmodelle im DM
  • KDD als Ausgangspunkt?
  • DM - Teil des Ganzen
  • CRISP-DM als moderne Referenz
  • Weitere Vorgehensweisen
  • Anwendungsübergreifend dank PMML

3
  • Einführung und Motivation
  • Daten und Technik

- Hohes Datenaufkommen
  • Daten werden in riesigen Datenbanken gesammelt
  • Manuelle Auswertung kaum noch möglich

http//www.dbs.informatik.uni-muenchen.de/Lehre/K
DD/index.html
4
  • Einführung und Motivation
  • Daten und Technik

- Leistungsfähige Hardware
  • steigende Geschwindigkeit
  • steigende Kapazität
  • relativ kostengünstig

Grafik und mehr Hans Moravec http//www.frc.ri.c
mu.edu/users/hpm/
5
  • Einführung und Motivation
  • Daten und Technik
  • - Komplexe Strukturen
  • Von Matt LoneyZDNet31. Januar 2005, 0937 Uhr
  • Die Zahlen an sich sind schon überwältigend
  • - Über vier Milliarden Webseiten, jede mit
    durchschnittlich 10 KByte, alle komplett
    indiziert
  • Bis zu 2000 Rechner in einem Cluster - Über 30
    Cluster - Ein Petabyte Daten pro Cluster
  • Oberfläche in 104 Sprachen, unter anderem in
    Klingonisch und Tagalogisch
  • Kontinuierlicher Durchsatz von 2 Gbit/s in einem
    Cluster
  • Die Erwartung, dass pro Tag in jedem der
    größeren Cluster zwei Rechner ausfallen ()

Urs Hölzle, Google VP of Engineering
6
  • Einführung und Motivation
  • Was ist Data Mining?
  • 2 Sichtweisen HaKa2000
  • DM als Teil eines Gesamtprozesses (KDD)
  • Relativ begrenzte Sicht auf DM
  • Meist technisch
  • DM als Gesamtprozess (moderne Definition)
  • DM synonym für KDD
  • CRISP-DM als Beispiel
  • DM als Synergie aus Verfahren, Methoden und
    Vorgehensweise

7
  • Einführung und Motivation
  • Was ist Data Mining?
  • Definitionsansätze
  • Data mining is a problemsolving methodology
    that finds a logical or mathematical
    description, eventually of a complex nature, of
    patterns and regularities in a set of
    data.DeFo95
  • Data mining is a multidisciplinary field,
    drawing work from areas including database
    technology, articial intelligence, machine
    learning, neural networks, statistics, pattern
    recognition, knowledge based systems, knowledge
    acquisition, information retrieval, high
    performance computing, and data
    visualization.HaKa2000

8
  • Data Mining im Überblick
  • DM und Data Warehousing

- Datengrundlage aus Data Warehouse TCC
  • Unt. Datenquellen werden im Data Warehouse
    integriert
  • Teile des DW (logisch oder physisch) werden für
    das Data Mining genutzt

9
  • Data Mining im Überblick
  • DM und Data Warehousing

- Data Mining auch ohne Data Warehouse TCC
  • DW ist nicht zwangsläufig Voraussetzung für DM
  • Unt. Datenquellen können auch direkt in einen
    Data Mart überführt werden
  • Fazit
  • Wahl je nach Anwendungsproblem und -umgebung
  • Aufwand Nutzen Fragestellung

10
  • Data Mining im Überblick
  • DM vs. OLAP
  • induktiv vs. deduktiv TCC
  • OLAP
  • Ausgehend von Hypothese
  • Verifizierung der Hypothese durch Anfragen auf
    den Daten
  • Problematisch bei vielen Variablen
  • Data Mining
  • Daten werden genutzt um Hypothesen aufzustellen
  • Findet evtl. Ansätze die Analyst nicht bedacht
    hätte
  • Fazit
  • Beide Vorgehensweisen können sich ergänzen
  • DM findet Hypothesen per OLAP können diese
    verifiziert werden

11
  • Data Mining im Überblick
  • Was leistet DM?
  • Most Common Data Mining Tasks 1 Larose2005
  • Description (Beschreibung)
  • Beschreibung von Mustern und Trends in Daten
  • Transparenz der Muster (Einfachheit)
  • Intuitive Interpretation und Erklärung möglich
  • Classification (Klassifikation)
  • Nominale Zielvariable (Kategorie)
  • Neues Objekt wird entsprechend klassifiziert
    (einer Kategorie zugeordnet)
  • Klassifikationsregel wird auf Trainingsdaten
    erlernt
  • Estimation (Schätzungen)
  • Ähnlich Classification, jedoch ist Zielvariable
    numerisch
  • Punktschätzungen, Intervallschätzungen, lineare
    Regression, multiple Regression

12
  • Data Mining im Überblick
  • Was leistet DM?
  • Most Common Data Mining Tasks 2 Larose2005
  • Prediction (Vorhersage)
  • Spezielle Ausprägung von Classification und
    Estimation
  • Ergebnisse liegen in der Zukunft
  • Clustering (Gruppenbildung)
  • Gruppierung der Daten
  • Innerhalb der Gruppen kleinstmögliche Differenz
  • Zwischen den Gruppen größtmögliche Differenz
    (Abstand)
  • Association (Verbindung/Kontakt/Zusammenarbeit)
  • Aufdecken von Beziehungen zwischen Attributen
  • Welche Attribute hängen zusammen

13
  • Data Mining im Überblick
  • Anwendungsgebiete DF95
  • Chemie und Pharmazie
  • Entwicklungsprozess ist stark auf Suche
    ausgerichtet
  • Feldforschung
  • Im Einzelhandel
  • Marktsegmentierungen
  • Kundenanalysen
  • Marketingaktionen

14
  • Data Mining im Überblick
  • Anwendungsgebiete DF95
  • Finanzwesen
  • Kundenmanagement
  • Vorhersage von Finanzentwicklungen
  • Remotely sensed Data (Messtechnik)
  • Größter Datenumfang
  • Mustererkennung
  • Und weitere?

15
  • Prozessmodelle im DM
  • KDD als Ausgangspunkt
  • Knowledge Discovery in (large) Databases
  • Fayyad, Piatetsky-Shapiro Smyth 1996
  • Knowledge Discovery in Databases (KDD) ist der
    Prozess der (semi-) automatischen Extraktion von
    Wissen aus Datenbanken, welches
  • gültig (im statistischen Sinn),
  • bisher unbekannt (nicht explizit, kein
    Allgemeinwissen) und
  • potentiell nützlich ist. (für eine gegebene
    Anwendung)

16
  • Prozessmodelle im DM
  • DM als Teil des Ganzen
  • Fokussieren
  • Beschaffung der Daten
  • Verwaltung der Daten
  • Selektion relevanter Daten
  • Transformation
  • Ableitung neuer Merkmale
  • Selektion relevanter Merkmale
  • Evaluation
  • Bewertung der Interessantheit durch den Nutzer
  • Statistische Prüfung der Modelle
  • Vorverarbeitung
  • Datenintegration
  • Konsistenzprüfung
  • Data Mining
  • Suche nach Mustern bzw. Modellen (techn. Def.)

17
  • Prozessmodelle im DM
  • CRISP-DM als moderne Referenz
  • Ein einheitlicher Standard
  • CRoss- Industrie Standart Process for Data
    Mining
  • Seit 1997 Konsortium aus Data Mining Anbietern
    und Nutzern
  • DaimlerChrysler AG, Germany
  • OHRA Verzekering en Bankk Groep B.V.,
    Netherlands
  • NCR Systems Engineering Copenhagen , Denmark
  • SPSS Inc. seit 1998 über Integral Solutions
    Limited, UK
  • Europäische Union im Rahmen des ESPRIT-Programms

18
  • Prozessmodelle im DM
  • CRISP-DM als moderne Referenz
  • Data Mining Lebenszyklus
  • Phasenorientiert
  • Iteratives Vorgehen möglich
  • Zielorientiert

http//www.crisp-dm.org/index.htm
19
  • Prozessmodelle im DM
  • Weitere Vorgehensweisen
  • SAS benutzt SEMMA
  • Sample
  • Explore
  • Modify
  • Model
  • Assess
  • SPSS bedient sich der 5 As
  • Assess
  • Access
  • Analyze
  • Act
  • Automate

20
  1. Anwendungsübergreifend dank PMML
  • Predictive Modelling Markup Language
  • Modellbeschreibungssprache (Definition eines
    Modells)
  • Bietet einheitlichen Standard
  • Einfache Weitergabe und Nutzbarkeit der Modelle
  • XML- Basiert
  • http//www.dmg.org/index.html

21
Literatur
1 Daniel T. Larose Discovering Knowledge in
Data, An Intoduction in Data Mining Verlag Wiley
2005 2 J. Han, M. Kamber Data Mining Concepts
and Techniques Verlag Morgan Kaufmann Publishers
2000 3 Two Crows Cooperation Introduction to
Data Mining and Knowledge Discovery Third
Edition 1999 4 K. M. Decker, S. Focardi
Technology Overview A report on Data Mining
CSCS-ETH 1995
Write a Comment
User Comments (0)
About PowerShow.com