Title: Daten- und Prozessmanagement - Datenmodellierung -
1Daten- und Prozessmanagement- Datenmodellierung -
2Rahmenmodell des IM (Krcmar)
3Aufgaben für das IS-Management
- Datenmanagement
- Umgang mit Referenzmodellen
- Erstellung eines unternehmensweiten Datenmodells
- Auswahl einer geeigneten Datenarchitektur
- Sicherstellung der Datenkonsistenz
- Prozessmanagement
- Identifizieren von Geschäftsprozessen
- Modellierung und Gestaltung von Prozessen
- Wiederverwendung von Prozessmodellen
- Standardisierung
- Ökonomische Beurteilung von Prozessen
4Datenmanagement
- Ziel
- Optimale Nutzung der Daten im Unternehmen
Verbesserung der Informationsqualität
produktive Anwendungsentwicklung durch Einsatz
von Datenbanken - Aufgaben
- Datenmodellierung
- Datenadministration
- Datentechnik
- Datensicherheit Datenschutz
- Datenkonsistenz und Datenqualität (siehe
Vorlesung) - Sicherung von Daten (z.B. Backup)
- datenbezogene Benutzerservices
5Datenmodellierung
- Formale Beschreibung der Unternehmensdaten in
einem sogenannten Datenmodell - Entity-Relationship-Modell (ERM) für Fakten
- Objektorientierte Datenmodellierung
- Dokumentenmodelle (XML, schemalos)
- Modellierung unscharfer Daten
- verschiedene IR-Modelle für Texte
- integrierte Modelle für die Text-Fakten-Kombinatio
n - Modelle für multimediale Information
- Data Dictionary
6Unternehmensmodelle
Ebenen
A
B
C
Informations- technik
Unternehmensmodell Unternehmensdatenmodell
Unternehmensfunktionsmodell ABC-Klassifizierung
nach Krcmar
7Entity-Relationship-Modell (ERM)
- Ziele
- Beschreibung der Daten und ihrer Beziehungen
untereinander aus fachlogischer Sicht - Erstellung eines konzeptionellen Modells
- Elemente
- Entitäten
- Entitätsmengen
- Attribute (beschreibend und identifizierend)
- Schlüssel
- Beziehungen / Relationen und Beziehungsmengen
- Kardinalitäten
- Aggregationen
8Entitäten sind
- Individuell und eindeutig identifizierbar
- jeweilige Sachlage bestimmt, was als Entität zu
sehen ist (z.B. Schulklasse oder einzelner
Schüler) - darstellbar aufgrund eines Schlüsselwertes
- über Eigenschaften charakterisierbar
- zu Entitätsmengen mit gleichen Eigenschaften
zusammenfassbar
9Beispiele für Entitäten
10Attribute (Eigenschaft, property)
- Beschreiben die fachlichen Eigenschaften, die
allen Entitäten einer Entitätsmenge gemeinsam
sind - Attribut hat Namen und Wertebereich
- Name soll seiner fachlichen Bedeutung entsprechen
- Wertebereich gibt die Menge aller möglichen bzw.
zugelassenen Werte für ein Attribut an
11Beschreibende und identifizierende Attribute
(Schlüssel)
- Beschreibende Attribute beinhalten die
anwendungsrelevanten Eigenschaften - Identifizierende Attribute stellen die Schlüssel
zur eindeutigen Identifikation einer Entität dar - Schlüssel kann aus einem oder mehreren Attributen
zusammengesetzt sein (Minimalitätseigenschaft) - falls mehrere Schlüssel möglich sind, wird einer
als Primärschlüssel festgelegt
12Beziehungen
- Beziehungen stellen Wechselwirkungen und
Abhängigkeiten zwischen Entitäten dar - gleichartige Beziehungen zwischen Entitäten
werden zu Beziehungsmengen (relationship sets)
zusammengefasst, auch als Assoziationen
bezeichnet - Kardinalität von Beziehungen
- Die Kardinalität gibt an, mit wieviel anderen
Entitäten eine Entität in einer konkreten
Beziehung stehen muss bzw. kann. - Prinzipiell drei Möglichkeiten
- 11
- 1M
- MN
13Kardinalität - Beispiele
- 11-Assoziation
- Zwei Entitätsmengen A und B stehen zueinander in
einer 11-Assoziation, wenn jede Entität aus A
mit genau einer Entität aus B verbunden ist und
umgekehrt. - Beispiel Ehe ist 11-Beziehung (westlicher
Kulturkreis) - 1M-Assoziation (auch 1N)
- Zwei Entitätsmengen A und B stehen zueinander in
einer 1M-Assoziation, wenn es zu jeder Entität
aus A eine oder mehrere Entitäten in B gibt, zu
jeder Entität aus B aber genau eine Entität in A
existiert. - MN-Assoziation
- Es gibt zu einer Entität aus A eine oder mehrere
Entitäten in B und umgekehrt
14Konditionelle Beziehungen
- Zwischen zwei Entitäten MUSS keine, aber KANN
eine Beziehung bestehen. - 1C Ein PKW kann einen Tempomat haben
- CMC Bei einer Tagung kann ein Teilnehmer
Mitglied einer Firma sein oder als
Privatperson teilnehmen. Die Firma kann
keinen, einen oder mehrere Teilnehmer zur
Tagung schicken - NMC ein Kurs wird von mindestens einem
(maximal N) Dozenten durchgeführt. Ein
Dozent führt 0 oder M Kurse durch.
15Notation für ERM (Beispiel)
N
MC
Dozent
Kurs
16Schritte bei der ER-Modellierung
- Festlegung der Entitäten (Synonym Objekt)
- Festlegung von Eigenschaften (Attributen) und
Eigenschaftswerten - Zuordnung von von Eigenschaften und
Eigenschaftswerten zu Entitäten - Herstellung von Beziehungen zwischen Entitäten
17Stammdatenmanagement (Master Data Management, MDM)
- Stammdaten Grunddaten / Referenzdaten (master
data) - abgrenzbar gegenüber Bewegungsdaten (transaction
data) - Kriterien zur Definition
- existentielle Abhängigkeit von Bewegungsdaten
- unverändert (d.h. relativ statisch) über einen
längeren Zeitraum - zustandsorientiert zur Identifikation,
Klassifikation und Charakterisierung von
Sachverhalten - MDM gewann neue Relevanz in SOA (data service)
18Stamm- vs. Bewegungsdaten
Stammdaten Bewegungsdaten Bestandsdaten
zeitlich invariant, ohne Zeitbezug zeitlich variant, zumeist mit Zeitbezug dynamisch, zeitlich variant
von mehreren Unternehmensbereichen und Anwendungen genutzt von wenigen Anwendungen genutzt
mögliche Dimension bei OLAP liefern Fakten bei analytischen Auswertungen, mögliche Fakten bei OLAP liefern Fakten bei analytischen Auswertungen, mögliche Fakten
langfristige Speicherung kurz- oder mittelfristige Speicherung langfristige Speicherung
Beispiele Artikeldaten, Kundendaten, Stücklisten, Arbeitspläne Beispiele Bestellungen, Aufträge, Lieferungen Beispiele Lagerbestand, Kontostand
19Objektorientierung
- Objektorientierung stellt neue Konzepte für die
Modellierung und Entwicklung von
Software-Systemen zur Verfügung - OO-Grundkonzepte
- Objekt ? Botschaft
- Klasse ? Vererbung
- Attribut ? Polymorphismus
- Operation/Methode
- Vorteile
- neue Modellierungskonzepte
- vereinigt Daten- und Funktionssicht
- enge Verbindung zu OO Sprachen
- Integrationsansatz für heterogene Systeme
(distributed objects)
20Objektorientierung
Objekt Haus 2673
Haustyp Besitzer Adresse Wohnfläche Anz. der
Bäder Schwimmbad Baujahr Verkaufspreis qm-Preis
Wegbeschreibung
Landhaus Otto Kaiser Königsfeld 400
qm 3 ja 1995 2,4 Mio
Kapselung Attribute Methoden
21Vererbung
Immobilie
Besitzer Adresse BJ Preis
Geschäftshaus
Einfamilienhaus
Besitzer Büros Adresse Parkpl. BJ
Aufzug Preis TG
Besitzer Wohnfl. Adresse Bäder BJ
Gartenfl. Preis
67
22Polymorphismus
- dieselbe Botschaft an Objekte verschiedener
Klassen wird unterschiedlich interpretiert
Objekt EFH
Drucken
Außenansicht
Drucken
Objekt GH
Grundriß
23Ansätze zu Objektorientierung in Datenbanken
- Objektorientierte DBMS
- Entstanden durch Verbreitung von OO
Programmiersprachen - Verschiedene Persistenzkonzepte
- Geringe Bedeutung in der Praxis
- Objektrelationale DBMS
- Kombination der relationalen und OO Eigenschaften
im Datenmodell ? Verwaltung komplexer
Datenstrukturen (Geodaten, Biodaten) - Basis für viele multimediale Informationssysteme
- Objektrelationales Mapping
- OO Sprachen (z.B. Java) mit Abstraktionsebene auf
Basis relationaler Datenbanken - Persistenz-Frameworks (Hibernate, JDO, Java
Persistence API)
24Objektrelationales Mapping
Architektur
Ziele
- Objektorientierter Zugriff auf persistente Daten
- Transparentes Laden und Speichern persistenter
Daten - Performanceverbesserung durch Objektpuffer im
Hauptspeicher
25Dokumentendatenmodelle XML
Dokument-
verarbeitung
lt..gt
lt/..gt
Konzeptueller
lt..gt
XML
lt/..gt
Entwurf von XML-
lt/..gt
lt..gt
Dokumenten
Datenbanken
physische
logische
konzeptuelle
Ebene
Ebene
Ebene
Klettke / Meyer XML-Datenbanken
26XML und Datenbanken
- Speicherung von Dokumenten mit und ohne Schema
(XML Schema) - Arten von Dokumenten
- Datenorientiert (z.B. Bestellung)
- Dokumentenorientiert (z.B.
- Semistrukturiert (z.B. Patientenakten)
- Speicherung von XML
- relationale Speicherung
- inhaltsorientiert (Dokumentenstruktur ?
DB-Struktur) - Strukturorientiert (generisch mit festem
DB-Schema) - opak (CLOB)
- nativ (XML-Datenbanksystem)
- XML-orientierte Abfragen (XQuery)
27DokumentendatenbankenAlternative
DB-Architekturen (NoSQL)
CouchDB als Beispiel einer schemafreien Datenbank
SQL CouchDB
Festes Schema Dynamisches Schema
Tabellen von Daten, Menge, Zeilen Sammlung von Dokumenten variabler Struktur (JSON), Multisets
normalisiert denormalisiert
Objekte über mehrere Tabellen verteilt Dokumente beschreiben sich selbst
Zum Verarbeiten der Objekte muss Schema bekannt sein Zum Verarbeiten muss nur Dokumentenname bekannt sein
Dynamische Abfragen mit statischem Schema Statische Abfragen mit dynamischem Schema
28Datenbanken in der Cloud
- Cloud Storage als Ressource des Cloud Computing,
- verschiedene Kategorien
- BLOB Storage Virtuelles Dateisystem
- Speicherung von Text- und Binärdaten in der Cloud
- Zugriff über APIs, SOAP, REST
- Table Storage BigTable-Ansatz, NoSQL-Datenbank
- BigTable-Konzept (eine riesige Tabelle ohne feste
Struktur) - Zugriff über SOAP REST, APIs
- (echter) DB-Server
- virtueller Datenbankserver zur eigenen
Verwendung - übliche APIs
29Ursachen für unscharfes Wissen
- Unwissenheit
- Fakten zwar nicht bekannt, aber Normalfall
bekannt (Default Reasoning) - Häufigkeitsverteilung der möglichen Werte bekannt
(Stochastik) - Häufigkeitsverteilung der möglichen Werte ist
nicht bekannt (Evidenztheorie) - Ungenauigkeit, z.B. Messungenauigkeit
- Intervallarithmetik zur Behandlung von
Rundungsungenauigkeit - Vagheit der Begriffe
- Fuzzy-Logik Quantifizierung mit vagen oder
unscharfen Begriffen der natürlichen Sprache und
Schlussfolgern über Aussagen mit diesen Begriffen
30Unscharfes Wissen
- ImpräzisionWissen besteht aus mehreren präzisen
Alternativen - Beispiel Herr Müller ist zwischen 30 und 40
Jahre alt. - Unsicherheit (objektive Unschärfe)Die Wahrheit
einer Aussage ist nicht klar.Sowohl präzise als
auch unpräzise Aussagen können unsicher sein. - Beispiel Leipzig liegt (exakt) 113 m u. NN
- Vagheit (subjektive Unschärfe)Die Aussage ist
eher qualitativ. - Beispiel Das Büro Z130 ist groß.
31Beispiel für unscharfes Wissen
mittel
günstig
teuer
1
m
0 10 20 30 40 50 60 70 80 90
100 Preise
32Grundmodell Information Retrieval
Autoren
Anwendung und Bewertung, ggf. Modifikation
Anwender
33Textmodellierung
bestimmen Form geeignet Input Mechanismus Output s
trukturbezogen Systembetrachtung überführen visual
isieren
Bei der strukturbezogenen Systembetrachtung sind
die den Input in den Output überführenden
Mechanismen zu be-stimmen und in geeigneter Form
zu visualisieren.
Transforma- tionen
Stoppwörter
34Das Matching-Paradigma des klassischen
Information Retrieval (IR)
- klassisches Boolesches Retrieval
(mengentheoretisches Modell) - Benutzer drücken ihr Suchproblem in einer exakten
Retrievalsprache aus - Verbindung von Termen und Boolescher Logik AND,
OR, NOT
Term1
Term3
Term2
35Nachteile der Booleschen Systeme
- disjunkte Unterteilung in relevant und
nicht-relevant - erwünschter Umfang schwer kontrollierbar (keine
Sortierung nach Relevanz) - Benutzer haben Probleme mit der Booleschen Logik
- Visualisierbarkeit
36Ranking-Systeme
- Prinzip Anordnung des Ergebnisses in einer nach
Relevanz (!) sortierten Reihenfolge - notwendige Voraussetzung gewichtete Indexierung
- Grundlage Vektorraummodell auf Basis von
Textstatistik - Vorteile
- Rangordnung reiht die relevantesten Dokumente an
den Anfang der Folge - Benutzer bestimmt den Abbruch (cut-off) selbst,
d.h. keine Mengenprobleme - Experimente zeigen bessere Retrievalqualität
(bereits für sehr einfache Verfahren)
37Grundprinzip Ranking
38Systemunterschiede beim IR
- Retrievalmodelle (Boolesches M., Textstatistik,
Linktopologisches M., Netzwerk-M., Nutzer-M.) - Indexierungsmodelle
- Indexierungsvokabular Wortindex / Phrasenindex
- Informationen über Position und Dokumentstruktur
- Struktur von Textdokumenten
- strukturiert (z.B. CSV, XML-Output)
- schwach strukturiert (Überschriften, Paragraphen)
- nicht strukturiert (eher selten)
- Ähnlichkeitsmaße / Abstandsfunktionen
- Outputform Ranking, Relevance Feedback
39Multimedia-Retrieval-Systeme
- Zeitungsarchive (Texte, Bilder, Fotos, Graphiken)
- Rundfunkarchive (Audioarchive)
- Videodatenbanken
- chemische Strukturen
- Fakten
- diverse Mischformen (oft Ergebnis von Integration
unterschiedlicher Quellen) - spezielle Ansätze, z.B. Content-Based Image
Retrieval (vgl. Bildverarbeitung)
40Datenadministration
- Verwaltung der Daten und Funktionen unter
Berücksichtigung von Standards und
internationalen Normen - Einsatz von Data-Dictionary-Systemen
(Datenkatalogsystemen), um eine konsistente
Verwendung von Datenobjekten zu gewährleisten - Weiterentwicklung zu Repository-Systemen
41Data-Dictionary-Systeme
- DDS bestehen aus einem Data Dictionary und einem
Software-System - Primär wenn explizit auf Datenkatalog-Verwaltung
ausgerichtet - Sekundär Datenkatalog-Funktionen nur Teil eines
anderen Softwaresystems - DDS ist
- Abhängig Verwaltungsfunktionen werden von einem
bestimmten DBMS übernommen - Unabhängig Eigene Management-Software und über
Schnittstellen zu anderen DBMS - Sie enthalten Metainformation über die in den DBS
enthaltenen Daten und Anwendungsprogramme
42Aufgaben und Bedeutung von DDS
- DDS dienen zur Konsistenzüberwachung eines
Datenbestandes - Analysen ermöglichen
- verschiedenartige Übersichten über die
Datenstrukturen - Überprüfung auf Redundanz- und Widerspruchsfreihei
t - Data Dictionaries entstehen in der
Definitions-phase einer Anwendung und werden
während des Entwurfs und der Implementierung
ständig ergänzt und verfeinert. - Auswahl einer bestimmten Notation Beschreibung
der Datenstrukturen und - elemente
43Beispiel Kunde in BNF
Kundendatei Kundeneintrag Kundeneintrag
Personal-Nr. Name Adresse
(Geburtsdatum) (Funktion)
Umsatz Name Anrede (Titel) Vorname
Nachname Adresse Straße Haus-Nr.
Postfach-Nr. (Länder-Kennzeichen) PLZ
Ort (Telefon) (Fax)
44Beispiel Kunde (Forts)
Die Kundendatei besteht aus keinem, einem oder
beliebig vielen Kundeneinträgen Ein
Kundeneintrag besteht aus der Personal-Nr., dem
Namen, der Adresse und dem Umsatz (Muss-Angaben).
Optional sind Geburtsdatum und die Funktion
(Kann-Angaben). Bei der Adresse wird entweder
die Straße und die Haus-Nr. oder die
Postfach-Nr. angegeben, gefolgt von PLZ und Ort.
Optional sind Länderkennzeichen, Telefon- und
Fax-Nummer.
45Repository-Systeme
- Anwendungen
- Systementwicklung und Software-Reengineering
- Content-Management
- Service-Repository / Registry / Directory
- IT-Infrastrukturmanagement (Konfigurationsdatenban
k, ITIL) - Systeme
- Artifactory Maven Enterprise Repository (für
firmenweite Repositories) - CentraSite (SOA Repository der Software AG)