Title: Business Intelligence (BI)
1Business Intelligence (BI)
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Business Intelligence (BI) gilt heute als
generalisierender Begriff für Methoden des
intelligenten Sammelns und Auswerten von Daten
mit dem Ziel einen Mehrwert für die
Unternehmenssteuerung zu erzielen.
Das Messen der wich-tigsten Ist-Zustände (Key
Performance Indicator) im Verbund mit
analytischen Verfahren (OLAP, Data Mining) und
daraus abgeleiteten Vorher-sagen (Forecasting)
sollen den Produk-tivitätsfaktor "Informa-tion"
maximal verwer-ten.
2Die Business-Intelligence-Pyramide
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Hervor-ragende Kapitalrendite Zusammensetzung
und Umsetzung Wissen(Fähigkeit zum Beantworten
aller geschäftsrelevanten Fragen) Erkenntnisse(g
ezielt, zeitnahe, vollständige, aber auch
einfache Analyse) Informationen(relevant,
vollständig, kontextbezogen, zuverlässig,
aktuell) Daten(Integration, Bereinigung,
Unternehmensmodellierung, KonsolidierungTransfor
mation und Aggregation)
Quelle frei nach IT-FOKUS 6/2003
3Data Warehouse
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Ein Data Warehouse ist eine sachverhaltsbezogene,
integrierte, unveränderliche und zeitraumbezogene
Datensammlung zur Unterstützung von
Managemententscheidungen. W. H. Inmon (USA 1996)
Ein Data Warehouse ist eine Sammlung von
integrierten Informationen, welche von den
betrieblichen operativen Systemen und anderen
externen Datenquellen gewonnen werden. Der
spezielle Zweck ist die Unterstützung von
betrieblichen Entscheidungen, nicht betrieblichen
Tätigkeiten. M. J. Corey, M. Abbey (USA 1997)
Mit dem Begriff Data Warehouse i.e.S. wird
generell eine von den opera-tionalen DV-Systemen
isolierte Datenbank umschrieben, die als
unter-nehmensweite Datenbasis für alle
Ausprägungen managementunter-stützender Systeme
dient und durch eine strikte Trennung von
operatio-nalen und entscheidungsunterstützenden
Daten und Systemen gekenn-zeichnet ist. Mucksch,
Behme (BRD 1997)
Es gibt sehr gute Portale, z. B.
http//www.datawarehousingonline.com/
4Grundlegende Architektur eines Data Warehouse(
frei nach Quelle Anahory/Murray Datawarehouse,
S. 59 )
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Einfügemanager
Abfragemanager
OperationaleDaten
Zusammen-fassungsin-formationen
AusführlicheInformationen
ExterneDaten
Warehouse-Manager
OLAP-Werkzeuge
5Speicherung im Data Warehouse
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
relational multidimensional (denormalisiert Star-
bzw. Snowflake-Schema) (Cube) Auswertung
mittels OLAP(Online Analytical
Processing) ROLAP MOLAP (relationales OLAP)
(multidimensionales OLAP) HOLAP (hybrides
OLAP)
6Spezielle Data-Warehouse-Datenmodelle
strukturieren das Data Warehouse (DWH)
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Kernpunkt der Speicherung ausführlicher
Data-Warehouse Informationen zu einem
ausgewählten Thema ist immer
eine Faktentabelle mit zu analysierenden
Messwerten.
Diese wird mit Dimensionswerten (vermutete
Einflussgrößen auf die Entwicklung der Fakten)
indiziert, um die Fakten aus unterschiedlichen
Sichten analysieren zu können. Das daraus
entstehende typische Schema des Modells wird
Star-Schema (bzw. in erweiterter Form auch Star-
oder Snowflake-Schema) genannt).
7Starflake-Schema einer Datenbank Beispiel
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Quartal
Monat
Produkt
Periode
Versand(Fakten)
Sommer-Saison
Vertrieb
Markt
Legende Faktentabelle Star-Dimensionsdaten Sno
wflake-Dimensionsdaten
8Beispiel einer Dimensionstabelle "Periode"
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Schlüssel Bezeichnung Jahr Quartal Monat Saison
00001 Jan. 2000 2000 1 1 0
00002 Feb. 2000 2000 1 2 0
00003 Mär. 2000 2000 1 3 0
00004 Apr. 2000 2000 2 4 0
00005 Mai 2000 2000 2 5 1
00006 Jun. 2000 2000 2 6 1
01007 Jul. 2001 2001 3 7 1
01008 Aug. 2001 2001 3 8 1
01009 Sep. 2001 2001 3 9 1
01010 Okt. 2001 2001 4 10 0
01011 Nov. 2001 2001 4 11 0
01012 Dez. 2001 2001 4 12 0
02001 Jan. 2002 2002 1 1 0
Spalten in Dimensionstabellen spiegeln
Hierarchien wieder, z. B. Jahr ? Quartal ? Monat
? Bezeichnung aber auch Saison ? Jahr u.a.
9Hierarchien in Dimensionen
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
1. Ausgeglichene HierachienBeispiel Periode 1.
Quartal ? Januar Februar März 2. Quartal
? April Mai Juni 3. Quartal ? Juli August Septemb
er 4. Quartal ? Oktober November Dezember
Jahr Quartal MonatAnmerkung Benennung der
Hierarchien einfach.
2. Unausgeglichene HierachienBeispiel
Abteilungsstruktur Firmenkunden
? Großkunden Kleinkunden Privatkunden
? Region Süd Region Nord Öffentlicher Dienst
Anmerkung Benennung der Hierarchien schwierig.
3. Unregelmäßige HierachienBeispiel
Regionen Land ? Region ? StaatAnmerkung
Benennung der Hierarchien einfach, aber bestimmte
Hierarchie-stufen ggf. bedeutungslos für
bestimmte Werte. Z. B. keine Region und kein
Staat für Lichtenstein.
10Fragestellungen - Datenräume - Methoden
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Fragestellung Raum Mathematische Disziplin
Welchen Preis hat Produkt 3497? Datenraum Mengenlehre,Mengenalgebra
Welcher Umsatz wurde mit Produkt 3497 in Berlin im Monat Februar 2001 erzielt? Multidimensionaler Raum Online Analytical Processing (OLAP)Pivot Tabellen
Wie haben sich die Umsätze in den letzten drei Jahren verändert? Varianzraum Data MiningRegressionKorrelation
Welche Faktoren beeinflussen den Umsatz unserer Produkte in den Mittelmeerländern? Raum der Einflussgrößen Data MiningEntscheidungsbäume, Cluster Analyse, Neuronale Netze
11Typisierung von OLAP-Abfragen
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
rotate ("Drehen" des OLAP-Würfels) Es
interessiert der Zusammenhang einiger
ausgewählter Dimensionen .
slice ("Ausschneiden" von Ebenen aus dem
OLAP-Würfel) Eine Dimension wird auf einen
interessierenden Wert eingeschränkt.
dice ("Abteilen" von Teilwürfeln aus dem
OLAP-Würfel)Einschränkung der Dimensionen auf
einen ausgewählten Wertebereich.
12Zur Methodik der Pivot-Tabelle(am Beispiel
MS-Excel)
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Fakten
Dimension 1 (vertikal)
Quelldaten
Dimension 3 (Blatt)
Dimension 2 (horizontal)
13Navigieren in multidimensionalen Speichern
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Fakten (Measures) Dimension Roll-up Drill-Down
1000 Produkt A 1000 1000
960 Produkt B 960 960
5345 Produktgruppe 1 5345 5345
2020 Produkt E
450 Produkt F
4600 Produktgruppe 2 4600 4600
123560 Produkt-kategorie X 123560 123560
876500 Gesamt 876500 876500
Roll-up vom Detail zur AggregationDrill-down vom
Aggregat zum Detail
14Gegenüberstellung OLAP/RDBMS
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
OLAP-Datenbank Relationale Datenbank
Art der Abfrage analytisch transaktionsorientiert
Abfragesprache Herstellerspezifisch, zukünftig standar-disiert durch das OLAP-Council und Microsofts OLE DB for OLAP Structured Query Language (SQL)
Abfragegeschwin-digkeit vorhersagbar schnell nicht vorhersagbar
Berechnungsmög-lichkeiten umfangreich und über mehrere Dimensionen (Cross Dimensional) begrenzt
Update-Mechanismus zyklisch Echtzeit
Speicherform mehrdimensional zweidimensional
Wachstum der Daten Abhängig von der Dichte der Daten, daher schwierig vorhersagbar einfach vorhersagbar
Technisches Symbol
15Datentransformation mit ETL-Tools
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Datenquellen Ziel-Datenbank
ETL-Tools dienen zur Migration von Quelldaten in
eine andere Datenressource in der Regel innerhalb
einer analytischen Umgebung.
16Merkmale des ETL-Prozesses
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Merkmal Ausprägung Beschreibung
Art der Extraktion volle Extraktion Extraktion aller in einem Quellsystem vorhandenen Datensätze
Art der Extraktion Delta-Extraktion Einlesen eingefügter oder aktualisierter Datensätze
Extraktionsszenario Push-Szenario Initiator des ETL-Prozesses ist das Quellsystem
Extraktionsszenario Pull-Szenario Initiator des ETL-Prozesses ist das Data Warehouse
Warte-/Ladezeit synchrone Extraktion Extraktion der Datensätze in Real-time
Warte-/Ladezeit asynchrone Extraktion Datensätze werden gespeichert und später weitergeleitet
Warte-/Ladezeit asynchrones Batching erfolgt auf Abruf, ereignisgesteuert oder per zeitlicher Einplanung (Scheduling)
Gültigkeitsbereich der Daten Mapping Projektion aller Datensätze der Quellsysteme
Gültigkeitsbereich der Daten Selektion Auswahl analyserelevanter Daten
Gültigkeitsbereich der Daten Aggregation festgelegte Granularitätsstufe
17Ausgewählte Analysewerkzeuge für BI
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Anbieter Produkt WWW
Arcplan inSight/dynaSight www.arcplan.de
Business Objects BusinessObjects/ OLAP_at_Work www.businessobjects.com
Cognos NowaView/PowerPlay www.cognos.de
Comshare DecisionWeb www.codec.de
Hyperion Wired for OLAP www.hyperion.de
Information Builders WebFOCUS www.informationbuilders.com
Intellicube Software AG OnVision www.intellicube.de
Knosys ProClarity www.dcsoft.de
Microsoft MS-Excel 2000 www.microsoft.de
MIS AG Decisionware www.mis.de
Seagate Software Info www.seagatesoftware.com
18Business Objekts Enterprise Beispiel eines
BI-Tools
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Quelle IT-FOKUS 6/2003
19Portale als Data Warehouse Client
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Ziel Kombination von Data Warehouse-, Analyse-
und Reporting-Lösungen auf Basis einer
integrierten Portalstruktur.
Anforderungen
- Technologische Integration von OLTP- und Data
Warehouse-Systemen. - Online-Verfügbarkeit des Data Warehouse.
- Abrufbarkeit von unterschiedlichen Endgeräten
Wiedererkennungseffekte. - Angemessene Sicherheit bei parallelen
Zugriffsmöglichkeiten.
- Portal-Framework (z. B. zur Personalisierung ).
- Einbindung heterogener Datenquellen durch
Portlets. - Endnutzergerechte BI-Tools.
- Data-Warehouse-Basisstruktur.
IT-Infrastruktur
Beispiel BA http//www.hyperwave.com/d/references
/ba.html
20Beispiel InSight Marktführer der BI-Tools
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Aus der MS-OLAP-Server-DEMO footmart werden
ausgewählte Sichten (rechte Seite) als Grafik
angezeigt. Quelle http//www.dynasight.com/ von
Arcplan.
21Übersicht über relevante Data Warehouse Anbieter
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Anbieter Produkt WWW
Cognos BI Platform www.cognos.de .com
Hyperion Hyberion Essbase www.hyberion.de .com
IBM Visual Warehouse www.ibm.de
Information Builders SmartMart www.informationbuilders.com
Informix Informix MetaCube ROLAP www.informix.com
Microsoft OLAP- / Analysis Services www.microsoft.de .com
MicroStrategy MicroStrategy www.microstrategy.com
NCR TeraData www.ncr.com
Oracle Express www.oracle.de
Pilot DSS Suite www.pilotsw.com
SAP Business Warehouse www.sap.de
SAS SAS System www.sas.com
Seagate Software Holos www.seagatesoftware.com
Sybase Sybase Warehouse Studio www.sybase.com
22FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Marktübersicht Data Warehouses (Computer
Zeitung Ausgabe 09/2004)
Anbieter Hersteller Produktname Web-Adresse Installationszahl (D/USA)
Aruba Informatik Aruba Informatik EIS / EIP www.aruba-informatik.de ca. 350 Installationen gesamt
Bytesteps Bytesteps Olymp www.bytesteps.net auf Anfrage
Group 1 Software Group 1 Software Sagent Solution www.group1.de 100 (Deutschland), 2.000 (weltweit)
Informatica Informatica Powercenter www.informatica.com/de 500 (Deutschland), 5.000 (weltweit)
MicroStrategy Deutschland MicroStrategy MicroStrategy 7i www.microstrategy.de keine Angabe
MID MID Innovator www.mid.de auf Anfrage
mpro IT Consult mpro IT Consult modm/mpro object Data Model www.mpro.de 30
Oracle Oracle Oracle Data Warehouse www.oracle.com/de keine Angabe
Orenburg Orenburg Board M.I.T. www.board.de gt 1.000
PeopleSoft PeopleSoft Enterprise Warehouse www.peoplesoft.de keine Angabe
Retek Deutschland Retek Deutschland Retek Data Warehouse www.retek.com ca. 50
Samac Software Samac Software Dyna Server/400 www.samac.de keine Angabe
Samac Software Samac Software Dyna Server/Windows www.samac.de keine Angabe
Samac Software Samac Software Mining Server/400 www.samac.de keine Angabe
Samac Software Samac Software MIT/400 www.samac.de keine Angabe
Scopeland Technology Scopeland Technology Scopeland 2000 (DW) www.scopeland.de ca. 100
Teradata, a division of NCR Teradata Teradate Warehouse Miner www.teradata.com 100 Kunden weltweit
Transaction Software Transaction Software Transbase Hypercube www.transaction.de keine Angabe
Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004. Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004. Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004. Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004. Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004.
23Typische betriebliche Data-Warehouse-Umgebung
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Data Marts für Abteilungen
24Anwendungsszenarien für Data Mining
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Aufgaben desData Mining
Methoden desData Mining
BeispielhafteFragestellungen
Prognose
Neuronale Netze
Prognosemodell Response-Wahr-scheinlichkeit
Segmentierung und Kategorisierung
Identifikation ertragreicher Segmente
Entscheidungs-bäume
Analyse von Kaufmustern
Assoziations-analyse
Cluster-verfahren
Customer Profiling
Assoziations-verfahren
Klassifikation
Beispielhafte Fragestellungen
Methoden des Data Mining
Aufgaben des Data Mining
in MS-SQL-Server 2000 Analysis Services
implementiert.
Data Mining bietet eine Reihe von Methoden, die
je nach Aufgabe und Fragestellung zum Einsatz
kommen, um bisher verborgene Zusammenhänge in der
Datenbasis aufzudecken.
25Prinzip des Training und der Vorhersage
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Vorhersagedaten
Einflussdaten
Vorhersage (apply)
Klassenbildung (build)
"Training des Modells"
Häufigkeiten
Ein Modell wird trainiert, auf Basis der
ermittelten Wahrscheinlichkeiten werden
Vorhersagedaten berechnet.
Falldaten
26MS-Analysis-Services Begriffswelt
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
- Ziel eines Dataminingmodells ist das Erkennen von
Mustern in einer datenbank-gespeicherten
Datenmenge ( trainieren) zum Beispiel das
Erkennen des Musters, nach dem Kunden ihre
Kundenkarten auswählen. - Um die für die Mustererkennung erforderlichen
Daten auswerten zu können, muss eine Tabelle
(Dimension) ausgewählt werden, welche die zu
untersuchenden Fälle enthält (Fallschlüsseltabelle
). Nach der Data Warehouse Begriffswelt sind die
zu untersuchen-den Fälle immer Bestandteil einer
Dimension (nicht der Fakten). - Ein Fall bezeichnet die Datensammlung, aus der
eine zu analysierende Einheit besteht (z. B. die
Daten eines Kunden).Er wird durch die
Fallschlüsselspalte (z. B. Kunden-ID)
identifiziert. - Eine Eigenschaft des Falls (Vorhersagbare
Spalte(n)) ist auszuwählen. Für diese sollen
verursachende Eingabewerte ermittelt werden. - Dafür stehen unterschiedliche Methoden zur
Verfügung "Microsoft Decision Trees" für die
Berechnung von Entscheidungsbäumen. "Microsoft
Clustering" ("Nearest Neighbor-Verfahren") für
die Clusteranalyse (hierbei entfallen
vorhersagbare Spalten).
27MS-Analysis-Service Plus und Minus
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
-
- Geringer Methodenvorrat
- Schlichte Ergebnisprä-sentation
- MS OLE DB Provider for Data Mining Services
un-ausgereift.
- Erweiterung der DB-Funktionalität
- Transfermöglichkeit des Mo-dells auf andere
Datenquellen - Gemeinsame Bedienoberfläche mit OLAP-Tools
- Enge Integration mit OLAP-Speicher und RDBMS
MS-SQL-Server 2000 - Gute Dokumentation, inklusiveAnwendungsbeispiel
28Bewertung von Data Mining Plattformen durch
Gartner Group
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Challengers Leaders
29Spezialisten machen Data Mining wahrnehmbar
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Beispiel SPSS( http//www.spss.de ) Das Konzept
des Predictive Analytics soll aus der Analyse des
Vergangenen Modelle für die Zukunft
generieren. "Predictive analytics connects data
to effective action by drawing reliable
conclusions about current conditions and future
events. "
30Produktübersicht SPSS
FHTW Berlin
Datenbanken
Prof. Dr.
Zschockelt
Statistik Statistik
SPSS Produktlinie
SPSS WebApp
Data Mining Data Mining
AnswerTree
Clementine
LexiQuest
Business Intelligence Business Intelligence
OLAP Hub
Showcase Solutions
Predictive Analytic Applications Predictive Analytic Applications
DataDistilleries
Market Research
SPSS MR Dimensions
NetGenesis
Predictive Web Analytics
SPSS Predictive Marketing
Components Components
Analytical components