Informationsintegration Anwendungsszenarien - PowerPoint PPT Presentation

1 / 59
About This Presentation
Title:

Informationsintegration Anwendungsszenarien

Description:

Informationsintegration Anwendungsszenarien 20.10.2004 Felix Naumann berblick Beispiele der Informationsintegration Data Warehouse F derierte Datenbanken Potential ... – PowerPoint PPT presentation

Number of Views:21
Avg rating:3.0/5.0
Slides: 60
Provided by: informatik150
Category:

less

Transcript and Presenter's Notes

Title: Informationsintegration Anwendungsszenarien


1
InformationsintegrationAnwendungsszenarien
  • 20.10.2004
  • Felix Naumann

2
Überblick
  • Beispiele der Informationsintegration
  • Data Warehouse
  • Föderierte Datenbanken
  • Potential und Probleme der Informations-integratio
    n
  • Redundanz
  • Komplementierung

3
Real-life Informationsintegration
  • Überblick Zwei wesentliche Modelle
  • Data Warehouses
  • Materialisierte Integration
  • Am Beispiel Buchhändler (Folien von Prof. Leser)
  • Föderierte Datenbanken
  • Virtuelle Integration
  • Am Beispiel einer Life Sciences DB
    (DiscoveryLink)
  • Weitere Beispiele

4
Data Warehouse
  • Eine oder mehrere (ähnliche) Datenbanken mit
    Bücherverkaufsinformationen
  • Daten werden oft aktualisiert
  • Jede Bestellung einzeln
  • Katalog Updates täglich
  • Management benötigt Entscheidungshilfen (decision
    support)
  • Komplexe Anfragen

Quelle Ulf Leser, VL Data Warehouses
5
Bücher im Internet bestellen
Zielkonflikt
Quelle Ulf Leser, VL Data Warehouses
6
Die Datenbank dazu
Quelle Ulf Leser, VL Data Warehouses
7
Fragen eines Marketingleiters
  • Wie viele Bestellungen haben wir jeweils im Monat
    vor Weihnachten, aufgeschlüsselt nach
    Produktgruppen?

Quelle Ulf Leser, VL Data Warehouses
8
Technisch
SELECT Y.year, PG.name, count(B.id)FROM year Y,
month M, day D, order O, orders OS, book B,
bookgroup BGWHERE M.year Y.id and M.id
D.month and O.day_id D.id and OS.order_id
O.id and B.id O.book_id and B.book_group_id
BG.id and day lt 24 and month 12GROUP BY
Y.year, PG.product_nameORDER BY Y.year
Quelle Ulf Leser, VL Data Warehouses
9
Technisch
SELECT Y.year, PG.name, count(B.id)FROM year Y,
month M, day D, order O, orders OS, book B,
bookgroup BGWHERE M.year Y.id and M.id
D.month and O.day_id D.id and OS.order_id
O.id and B.id O.book_id and B.book_group_id
BG.id and day lt 24 and month 12GROUP BY
Y.year, PG.product_nameORDER BY Y.year
Quelle Ulf Leser, VL Data Warehouses
10
In Wahrheit ... noch schlimmer
  • Es gibt noch
  • Amazon.de
  • Amazon.fr
  • Amazon.it
  • ...
  • Verteilte Ausführung
  • Count über Union mehrerer gleicher Anfragen in
    unterschiedlichen Datenbanken

HILFE!
Quelle Ulf Leser, VL Data Warehouses
11
In Wahrheit ...
Quelle Ulf Leser, VL Data Warehouses
12
Technisch Eine VIEW
  • CREATE VIEW christmas AS
  • SELECT Y.year, PG.name, count(B.id)FROM
    DE.year Y, DE.month M, DE.day D, DE.order O, ...
    WHERE M.year Y.id and...GROUP BY Y.year,
    PG.product_nameORDER BY Y.year
  • UNION
  • SELECT Y.year, PG.name, count(B.id)FROM EN.yea
    r Y, EN.month M, EN.day D, DE.order O,
    ...WHERE M.year Y.id and...

SELECT year, name, count(B.id)FROM
christmasGROUP BY year, nameORDER BY year
Quelle Ulf Leser, VL Data Warehouses
13
Probleme
  • Count über Union über verteilte Datenbanken?
  • Integrationsproblem
  • Berechnung riesiger Zwischenergebnisse bei jeder
    Anfrage?
  • Datenmengenproblem

Quelle Ulf Leser, VL Data Warehouses
14
Lösung des Integrationsproblems?
  • Zentrale Datenbank
  • Aber Probleme
  • Zweigstellen schreiben übers Netz
  • Schlechter Durchsatz
  • Lange Antwortzeiten im operativen Betrieb

Quelle Ulf Leser, VL Data Warehouses
15
Lösung Datenmengenproblem?
  • Denormalisierte Schema
  • Aber Probleme
  • Jeder lesende / schreibende Zugriff erfolgt auf
    eine Tabelle mit 72 Mill. Records
  • Lange Antwortzeiten im operativen Betrieb

Quelle Ulf Leser, VL Data Warehouses
16
Zielkonflikt
17
Tatsächliche Lösung
Aufbau eines Data Warehouse
  • Redundante, transformierte Datenhaltung
  • Asynchrone Aktualisierung

Quelle Ulf Leser, VL Data Warehouses
18
Weitere Anwendungsgebiete Data Warehouses
  • Customer Relationship Management (CRM)
  • Identifikation von Premiumkunden
  • Personalisierung / Automatische Kundenberatung
  • Gezielte Massen-Mailings (Direktvertrieb)
  • Controlling / Rechnungswesen
  • Kostenstellen
  • Organisationseinheiten
  • Personalmanagement
  • Logistik
  • Flottenmanagement, Tracking
  • Gesundheitswesen
  • Studienüberwachung, Patiententracking

Quelle Ulf Leser, VL Data Warehouses
19
Überblick
  • Beispiele der Informationsintegration
  • Data Warehouse
  • Föderierte Datenbanken
  • Probleme und Potential der Informationsintegration
  • Redundanz
  • Komplementierung

20
Föderierte Datenbanken
  • Mehrere autonome Informationsquellen
  • Mit unterschiedlichsten Inhalten
  • Gene, Proteine, BLAST, etc.
  • Und unterschiedlichsten Schnittstellen
  • HTML-Form, flat file, SQL, etc.
  • Wissenschaftler (Biologe) benötigt z.B. möglichst
    viele Informationen über ein bestimmtes Protein
  • Funktion, Veröffentlichungen, verwandte Proteine
    usw.
  • Sehr komplexe Anfragen
  • Üblicher Ansatz Browsing, Note-Taking, Copy
    Paste
  • Föderierte Datenbanken (wie DiscoveryLink) helfen.

21
Frage eines Biologen
Finde alle menschlichen EST Sequenzen, die nach
BLAST zu mindestens 60 über mindestens 50
Aminosäuren identisch sind mit mouse-channel
Genen im Gewebe des zentralen Nervensystems.
Quelle für das komplette Beispiel A
Practitioners Guide to Data Management and Data
Integration in Bioinformatics, Barbara A. Eckman
in Bioinformatics by Zoe Lacroix and Terence
Critchlow, 2003, Morgan Kaufmann.
22
Verschiedene Informationsquellen
  • Beteiligte Informationsquellen
  • Mouse Genome Database (MGD) _at_ Jackson Labs
  • SwissProt _at_ EBI
  • BLAST tool _at_ NCBI
  • GenBank nucleotide sequence database _at_ NCBI
  • Alle Quellen sind frei verfügbar

23
Herkömmlicher Ansatz Browsing
  • 1. Suche channel Sequenzen im Gewebe des ZNS
    durch MGD HTML Formular

24
Herkömmlicher Ansatz Browsing
  • MGD Resultat
  • 14 Gene aus 17 Experimenten

25
Herkömmlicher Ansatz Browsing
  • Details zu jedem der 14 Gene ansehen
  • Durchschnittlich fünf SwissProt Links pro Gen

26
Herkömmlicher Ansatz Browsing
  • Betrachten jedes SwissProt Eintrages
  • Durch Klick BLAST Algorithmus anwerfen

27
Herkömmlicher Ansatz Browsing
  • Betrachten jedes BLAST Resultats um
  • nicht-menschliche Treffer zu eliminieren,
  • andere Bedingungen zu prüfen (gt60 Identität,
    etc.)

28
Herkömmlicher Ansatz Browsing
  • Für jeden verbleibenden Eintrag
  • Komplette EST Sequenz bei GenBank holen

Alles sehr mühselig!
29
Idee der Integration
  • Bildung eines globalen Schemas (Schemaintegration)
  • Gespeichert als Datenbankschema in DiscoveryLink
  • Generierung von Wrappern für jede Datenquelle
  • Softwarekomponente
  • Mapping von lokalen Schemata auf globales Schema
  • Kennt Anfragefähigkeiten der Quellen

30
DiscoveryLink Architektur
31
Eigenschaften föderierter IS (und DiscoveryLink)
  • Daten bleiben vor Ort.
  • Informationsquellen sind autonom (und wissen oft
    nicht von ihrer Integration).
  • Anfragen werden deklarativ an das globale Schema
    gestellt.
  • Anfrage wird so verteilt wie möglich ausgeführt.
  • Je nach Mächtigkeit der Quellen
  • DiscoveryLink gleicht etwaige mangelnder
    Fähigkeiten aus.

32
Föderierter DBMS Ansatz
Finde alle menschlichen EST Sequenzen, die nach
BLAST zu mindestens 60 über mindestens 50
Aminosäuren identisch sind mit mouse-channel
Genen im Gewebe des zentralen Nervensystems.
  • Einfache SQL-Anfrage um alle vorigen Schritte
    zu vereinen
  • SELECT g.accnum,g.sequence
  • FROM genbank g, blast b, swissprot s, mgd m
  • WHERE m.exp CNS
  • AND m.defn LIKE channel
  • AND m.spid s.id AND s.seq b.query
  • AND b.hit g.accnum
  • AND b.percentid gt 60 AND b.alignlen gt 50

33
Föderierter DBMS Ansatz
  • Effiziente Ausführung durch Optimierer
  • Herkömmliche Optimierung
  • Wrapper helfen mit
  • Kostenmodell
  • domänenspezifischen Funktionen
  • Sichere Ausführung
  • Wiederholbar
  • Transaktional

34
Weitere Anwendungsgebiete Föderierte Datenbanken
  • Meta-Suchmaschinen
  • Unternehmensfusionen
  • Kundendatenbanken
  • Personaldatenbanken
  • Grid
  • Krankenhausinformationssysteme
  • Röntgenbilder
  • Krankheitsverlauf (Akte)
  • Verwaltung
  • Krankenkasse...
  • Verteiltes Arbeiten (groupware)
  • Peer Data Management und P2P

35
Überblick
  • Beispiele der Informationsintegration
  • Data Warehouse
  • Föderierte Datenbanken
  • Probleme und Potential der Informationsintegration
  • Redundanz
  • Komplementierung

36
Integrationspotential
  • Wann ist Informationsintegration möglich?
  • Intensionale Redundanz
  • Wann ist Informationsintegration schwierig?
  • Extensionale Redundanz
  • Wann ist Informationsintegration nützlich?
  • Extensionale Komplementierung
  • Intensionale Komplementierung

37
Intension Extension
  • Definition Intension
  • Die Intension eines Informationssystems ist die
    Menge der Schemainformationen und deren Semantik
    (Bedeutung).
  • Definition Extension
  • Die Extension eines Informationssystems ist die
    Menge aller zur Intension gehörigen, zugreifbaren
    Daten.

38
Intension Extension
  • Die Intension einer Datenbank
  • Schema für eine Menge von Entitäten/Dingen
  • Semantik
  • Die Extension einer Datenbank
  • Zustand
  • Menge von Entitäten

ISBN Titel Autor
3442727316 Moby Dick Herman Melville
3491960827 Robinson Crusoe Daniel Defoe
3462032283 Zwölf Nick McDonell
3883891606 Timbuktu Paul Auster
Buch
39
Redundanz und Komplementierung
  • Redundanz hilft
  • zur Verifikation
  • Nur bei gewisser Redundanz kann Komplementierung
    genutzt werden
  • Komplementierung ist gut
  • Hier liegt der eigentliche Sinn der
    Informationsintegration.
  • Informationen mehrerer (sich komplementierender)
    Quellen werden zu einem größeren Ganzen
    integriert.

40
Intensionale Redundanz
ISBN ISBN Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
Intensionale Redundanz liegt vor, wenn das
Entfernen von Teilen der Intension die
Gesamtintension nicht verändert.
41
Intensionale Redundanz
ISBN ID Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
Intensionale Redundanz trotz unterschiedlicher
Label?
Ja, denn Semantik zählt!
42
Intensionale Redundanz
Quelle 2
Quelle 1
ISBN Autor
3491960827 Daniel Defoe
3442727316 H Melville
3462032283 Nick MacDonell
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Intensionale Redundanz auch über mehrere
Relationen und Quellen.
43
Potential Intensionaler Redundanz
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
ISBN Autor
3491960827 Daniel Defoe
3442727316 H Melville
3462032283 Nick MacDonell
3883891606 Paul Auster
Verifikation
44
Potential Intensionaler Redundanz
Quelle 2
Quelle 1
ISBN Titel
3491960827 Moby Dick
3442727316 Robinson Crusoe
3462032283 Zwölf
3883891606 Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Integration
45
Potential Intensionaler Redundanz
Quelle 1 2
Titel
Moby Dick
Robinson Crusoe
Zwölf
Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Integration
46
Intensionale Komplementierung
Quelle 2
Quelle 1
ISBN Titel
3442727316 Moby Dick
3491960827 Robinson Crusoe
3462032283 Zwölf
3883891606 Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
  • Intensionale Komplementierung liegt vor, wenn von
    zwei Intensionen
  • mindestens eine Differenz ist nicht leer ist,
  • und deren Schnittmenge nicht leer ist.

47
Potential Intensionaler Komplementierung
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
ISBN Titel
3462032283 Zwölf
3499139278 Leviathan
3442727316 Moby Dick
???
Verdichtung Mehr Informationen über einzelne
Objekte
???
48
Potential Intensionaler Komplementierung
Quelle 2
Quelle 1
Autor Titel
MacDonell Zwölf
Auster Leviathan
H Melville Moby Dick
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
???
Verdichtung nicht immer leicht.
???
49
Extensionale Redundanz
Quelle 2
Quelle 1
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Redundanz liegt vor, wenn die Menge
der von zwei Quellen gemeinsam repräsentierten
Objekte nicht leer ist.
50
Extensionale Redundanz
Quelle 2
Quelle 1
ID Author
3491960827 Daniel Defoe
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Redundanz nur über Teile der Quellen.
51
Probleme Extensionaler Redundanz
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
Extensionale Redundanz ist nur auf real-world
Objekten definiert, nicht auf den Daten über sie.
52
Extensionale Komplementierung
Quelle 2
Quelle 1
ISBN Autor
3462032283 Nick MacDonell
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Komplementierung liegt vor, wenn die
Differenz der repräsentierten Objekte zweier
Quellen nicht leer ist.
53
Potential Extensionaler Komplementierung
Quelle 1 Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick MacDonell
3883891606 Paul Auster
Höhere Überdeckung
54
Extensionaler Komplementierung mit Extensionaler
Redundanz
Quelle 2
Quelle 1
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
55
Probleme Extensionaler Komplementierung und
Redundanz
Quelle 1 Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Datenkonflikt
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
56
Der Allgemeine Fall
Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1
a2 b2 - d2
Intensionale Redundanz
Extensionale Redundanz
Extensionale Komplementierung
Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 -
a3 d3 e3 f3
Intensionale Komplementierung
Quelle 1 2 A(V) B/D(W) C/E(X) D(Y) F(Z) a1
b1 c1 d1 - a2 f(b2,d2) c2
d2 - a3 d3 e3 - f3
57
Zusammenfassung Redundanz
  • Intensionale Redundanz ermöglicht extensionale
    Komplementierung
  • Zwei Quellen mit gleichem Schema können zu einer
    überdeckenderen Quelle integriert werden
  • Coverage
  • Extensionale Redundanz ermöglicht intensionale
    Komplementierung
  • Zwei Quellen, die über gleiche Dinge sprechen
    können zu einer dichteren Quelle integriert
    werden.
  • Density
  • Insgesamt ist das Ziel der Integration eine
    vollständigere Quelle (completeness)

58
Zusammenfassung Data Warehouse
Aufbau eines Data Warehouse
Quelle Ulf Leser, VL Data Warehouses
59
Zusammenfassung Föderierte DBMS/IS
Write a Comment
User Comments (0)
About PowerShow.com