Title: Informationsintegration
1Informationsintegration
2Einführung
- Traditionelle Datenbankverarbeitung zentralisiert
- Administrationsvorteile
- Leistungs- und Verfügbarkeitsproblem
- Entwicklung verteilter Informationssysteme
- Hohe Leistungsfähigkeit
- Skalierbarkeit
- Hohe Verfügbarkeit
- Verteilungstransparenz
- Unterstützung dezentraler Organisationsstrukturen
- Integrierter Zugriff auf heterogene Datenbanken
- Data Warehousing
- Unternehmensportale
- Einfache Systemadministration, Hohe
Kosteneffektivität
3Einführung (2)
- Zusammenführung von Daten und Inhalten aus
verschiedenen Quellen zu einer einheitlichen
Menge von Informationen - Aufnahme zusätzlicher Komponenten, um Angebot zu
vergrössern und zu verbessern - Randbedingungen
- Einbindung soll integriert erfolgen
- Systeme der eingebundenen Partner bleiben autonom
- Für die Einbindung keine grossen Änderungen
- Integrierte vs. Föderative Mehrrechner-DBS
4Überblick
- Grundbegriffe
- Integrationsansätze
- Materialisierte Integration
- Virtuelle Integration
- Architektur föderierter Systeme
- Integrationskonflikte
- Schemaintegration
- Integration mittels Mashups
- Zusammenfassung
5(Knoten)-Autonomie
- Grad, zu dem verschiedene DBMS unabhängig
kooperieren können - Hoher Grad an Autonomie ? Föderiertes System (oft
lose gekoppelt) - Arten der Autonomie
- Design-Autonomie (Wahl des DBMS, Wahl der
Ablaufumgebung) - Ausführungsautonomie (vs. globales
Transaktionsmanagement) - Kooperationsautonomie / Kommunikationsautonomie
- Autonomie als organisatorisches Problem
- Beschneidung von Kompetenzen und Verantwortungen
einzelner Systemverantwortlicher
6Begriff Föderation
- Vgl. Beispiel Bundesrepublik Deutschland
- Bundesländer bedingt autonom
- Konflikte durch konkurrierende Gesetzgebung
- Weitere Föderationen
- Europäische Union
- Vereinigte Staaten von Amerika
- Vereinte Nationen (UNO)
- Charakter einer Föderation
- Grad der verbleibenden Autonomie
- Heterogenität der beteiligten (Teil-)Staaten
- Übertragbarkeit auf Informationssysteme ?
7Architekturvarianten
8Heterogenität
- Hoher Grad an Autonomie führt zu einer wachsenden
Heterogenität ? Unterschiedlichkeit von
miteinander verbundenen Informationssystemen - Dimension Heterogenität
- Technische Heterogenität (syntaktische Ebene)
- Datenmodellbasierte Heterogenität
- Logische Heterogenität
- Semantische Heterogenität (Synonyme, Homonyme)
- Schemabasierte Heterogenität
- Strukturelle Heterogenität
- Heterogenitäten zu überbrücken ist die
Kernaufgabe der Integration!
9Integrations-Beispiel
- Starke Heterogenität der Systeme
- Quelle 1 Oracle-Datenbank ? Zugriff über JDBC
- Quelle 2 CORBA Schnittstelle, über die auf den
Informationsbestand zugegriffen werden kann - Quelle 3 XML-Datenbanksystem ? Zugriff mittels
XML-Standards (XPath, XQuery) - Quelle 4 Angebot von statischen HTML-Seiten ?
Zugriff via HTTP-Protokoll - Alle Quellen verwenden unterschiedliche Schemata
- Entkopplung durch eine Zwischenschicht, die eine
integrierte Sicht zur Verfügung stellt
10Anbindung virtuell vs. materialisiert
Systeme zur Datenintegration
Verteilte Anfragebearbeitung
Kopieren der Daten
Materialisierte Integration
Virtuelle Integration
Strukturierte Anfragen
Unstrukturierte Anfragen
(Semi-) Strukturierte Daten
Updates, Transaktionen
Leseoperationen
Mediatoren-Systeme
Föderierte DBS
(Meta-)Suchmaschinen
Data Warehouses
11Materialisierte Integration
12Virtuelle Integration Mediatorbasierte
Informationssysteme
Anwendung 1
Anwendung 2
Schaffung leicht-gewichtiger, verwaltbarer
Mediatoren ?Kopplung verschiedener Mediatoren zu
einer mehrschichtigen Föderationsarchitektur
Mediator
Daten aus verschiedenen Quellen müssen
zusammengefasst werden Schema Mapping
Mediator
Wrapper
Wrapper
Wrapper
Quelle 1
Quelle 2
Quelle 3
13Mediatorbasierte IS - Beispiel
Benutzer wählt aus Kategorie gtgtBohrmaschinenltlt
unter 250,-
Generierung der Anfrage SELECT Name, Preis,
Bewertung WHERE Preis lt 250 AND Kategorie
Bohrmaschine
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
14Mediatorbasierte IS Beispiel (2)
Anfragezerlegung Übersetzung ins Schema der
Quellen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
15Mediatorbasierte IS Beispiel (3)
Übersetzung in Quellenanfragen Absetzen der
Anfragen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
16Mediatorbasierte IS Beispiel (4)
Zusammenführung der Ergebnisse einer
Quelle Transformation in das gemeinsame
Datenmodell und Ausführung von Filteroperationen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
Quellen liefern Ergebnis zurück
17Mediatorbasierte IS Beispiel (5)
Aufbereitung der Ergebnisse für den Benutzer
Übersetzung ins Informationsmodell des
Portales z.Bsp. Artikelname -gt Name Verschmelzen
der Ergebnismengen
Sammeln der Ergebnisse
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
18Typen von föderierten IS
Föderierte Informationssysteme
Föderiertes Schema
Kein Föderiertes Schema
Komponenten sind nicht nur Datenbanken
Komponenten sind Datenbanken
Lose gekoppelte Informationssysteme
Föderierte Datenbanksysteme
Mediator-basierte Informationssysteme
19Systemarchitektur föderierter DBS
Globale Anwendungen
Globale Anwendungen
Föderierungsdienst
Metadaten
Lokale Anwendungen
Lokale Anwendungen
Datenbanksystem
Datenbanksystem
Datenbank
Datenbank
Komponentensystem
Komponentensystem
Föderiertes DBS
205-Ebenen-Schema-Architektur
Föderiertes Datenbanksystem
Externes Schema
Externes Schema
Föderiertes (globales) Schema
Anfragebearbeitung
Integration
Schemaintegration
Exportschema
Exportschema
Auswahl der zu integrierenden Teile
Komponentenschema
Komponentenschema
Übersetzung in gemeinsames Datenmodell
Lokales Schema
Lokales Schema
Datenbank
Datenbank
21Global-As-View Beispiel
Bottom-Up-Integration
Lokale Schemata V1 IMDB(Titel, Regie, Jahr,
Genre) V2 MyMovies(Titel, Regie, Jahr, Genre)
Bekannte Nebenbedingung auf dem globalen Schema
kann modelliert werden.
Globales Schema NeuerFilm(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit) Nebenbedingung
Jahr gt 2000
CREATE VIEW NeuerFilm AS SELECT FROM IMDB WHERE
Jahr gt 2000 UNION SELECT FROM MyMovies WHERE
Jahr gt 2000
22Local-As-View Beispiel
Top-Down-Integration
Lokales Schema V3 KinoDB(Kino, Genre)
Assoziationen des globalen Schemas können in der
Sicht hergestellt werden.
Globales Schema Film(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit)
CREATE VIEW V3 AS SELECT Programm.Kino,
Film.Genre FROM Film, Programm WHERE Film.Titel
Programm.Titel
23Anwendungsgebiete föderierter DBS
- Meta-Suchmaschinen
- Digitale Bibliotheken
- Unternehmensfusionen
- Kundendatenbanken
- Personaldatenbanken
- Krankenhausinformationssysteme
- Krankheitsverlauf (Akte)
- Verwaltung
- Krankenkasse
- Geo-Informationssysteme
24Integrationsprozess (virtuelle Integration)
- Bildung eines globalen Schemas (Schemaintegration)
- Generierung von Wrappern für jede Datenquelle
- Softwarekomponente
- Mapping von lokalen Schemata auf globales Schema
- Kennt Anfragefähigkeiten der Quellen
- Daten bleiben vor Ort
- Informationsquellen sind autonom
25Integrationsprozess (materialisierte Integration)
- Keine wirklich einheitliche und durchgängige
Methodik für die Durchführung der Integration
vorhanden - 5 Phasen des Integrationsprozesses
- Analyse der zu integrierenden Datenquellen
- Transformation der gegebenenfalls heterogenen
Beschreibungen der Daten (Datenbankschemata) in
ein gemeinsames Datenmodell - Feststellung der sich semantisch entsprechenden
Daten (Angabe sogenannter Korrespondenzen) - Ableitung eines integrierten Schemas
- Integration der Daten
26Binäre vs. n-äre Integration
27Probleme beim Integrationsprozess
- Datenbankschemata oft nicht vollständig
- Datenquellen oft "semistrukturiert", oder es gibt
überhaupt kein Datenbankschema - In Altsystemen Semantik der Daten in der
Datenbank nicht vollständig bekannt - Korrespondenzen und Abhängigkeiten zwischen Daten
aus verschiedenen Quellen sind nicht bekannt - Wie ist die Heterogenität zu überwinden?
28Kriterien für Integrationsmethoden
- Vollständigkeit (Completeness)
- Alle Informationen aus lokalen Schemata erhalten
- Korrektheit (Correctness)
- Neue Beziehungen dürften vorhandene Schemata
konsistent ergänzen - Minimalität (Minimality)
- Vermeidung von Redundanz
- Verständlichkeit (Understandability)
- Bekanntes aus lokalem Schema ins föderierte
Schema übernehmen - Vergleich mit traditionellem DB-Entwurf?
29Klassifizierung von Integrationskonflikten
- Datenmodell-Heterogenität
- Unterschiedliche Semantik
- Unterschiedliche Struktur
- Schema- oder Modellierungsheterogenität
- Strukturelle Konflikte
- Extensionale Konflikte
- Beschreibungskonflikte
- Heterogenität auf Datenebene (Datenkonflikt)
30Datenmodellkonflikte
- Vielzahl an Datenmodellen mit unterschied-lichen
Modellierungskonstrukten - objektorientiert, relational, XML, hierarchisch,
objektrelational - Beispiele
- Mengenwertige Attribute (objektrelational) vs.
Fremdschlüsselbeziehung (relational) - Modellierung von Spezialisierung im relationalen
Modell (mindestens 3 Varianten) - Konstrukte eines Datenmodells werden oft nicht
vollständig oder falsch verwendet
31Schematische Heterogenität
- Unterschiedliche Modellierung gleicher
Sachverhalte - Strukturelle Konflikte
- Modellierung Relation vs. Attribut, Attribut vs.
Wert, Relation vs. Wert - Benennung Relationen, Attribute
- Geschachtelt vs. Fremdschlüssel
Person ( Id, Vorname, Nachname, Männlich,
Weiblich )
Männer (Id, Vorname, Nachname) Frauen (Id,
Vorname, Nachname)
32Schematische Heterogenität (2)
- Tabellen Tabellen Konflikte
- Namenskonflikte (gleiche Namen aber
unterschiedliche Tabellen) - Strukturkonflikte (fehlende Attribute)
- Attribut Attribut Konflikte
- Namenskonflikte (gleiche Namen aber
unterschiedliche Attribute) - Default-Wert Konflikte
- IC-Konflikte (Datentypkonflikte,
Bedingungskonflikte)
33Beschreibungskonflikte
- Unterschiedliche Auswahl an erfassten
Objekteigenschaften - Homonyme und synonyme Bezeichnungen
- bei Attributen, Klassen, Relationen, Beziehungen
- Datentypkonflikte
- Wertebereichskonflikte
- Skalierungskonflikte (Maßeinheiten)
- Genauigkeitskonflikte
- Konflikte durch Integritätsbedingungen
- Konflikte der Manipulationsoperationen
34Beispiele für Beschreibungskonflikte
Homonyme Schloss ? Türschloss Schloss ? Gebäude
Synonyme Personal Angestellte
Datentypen int string (für Zahlen)
Skalierungen 0,153 (Meter) 153,0 (Millimeter)
Genauigkeiten 0,543 kg 0,54321 kg
Integritäts-bedingungen Gehalt lt 6000 Gehalt lt 7000
35Synonyme
- Verschiedene Worte mit gleicher Bedeutung
Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
36Homonyme
- Gleiche Worte mit unterschiedlicher Bedeutung
Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
37Hauptproblem Semantische Heterogenität
- Bezeichnet Unterschiede in Bedeutung,
Interpretation und Art der Nutzung - Annahme bisher ? gleiche Bezeichnung, gleiche
Semantik - Repräsentiert Objekt A die gleiche Entität wie
Objekt B? (Identifikationskonflikte) - Datenkonflikt Zwei Duplikate haben
unterschiedliche Attributwerte für semantisch
gleiches Attribut - Genauigkeitskonflikte
38Datenkonflikte
- Inkorrekte Einträge
- Tippfehler bei der Eingabe von Werten
- Falsche Einträge aufgrund von Programmierfehlern
- Veraltete Einträge
- Unterschiedliche Aktualisierungszeitpunkte
- Vergessene Aktualisierungen
- Verschiedene Ausdrücke / Repräsentation von
Werten - Verschiedene Datentypen (numerisch vs.
nicht-numerisch) - Unterschiedliche Schreibweisen, Genauigkeit,
Skalierung (bei gleichem Datentyp)
39Behebung von Datenkonflikten
- Angabe expliziter Werteabbildungen
- Einführung von Ähnlichkeitsmaßen
- Bevorzugung der Werte aus einer lokalen Quelle
- Verwendung von Hintergrundwissen
- Konventionen hinsichtlich Schreibweisen
- Behandlung von Homonymen und Synonymen auf
Datenebene Wörterbücher, Thesauri, Ontologien - Wissensbasierte Verfahren
40Integrationspotential
- Wann ist eine Informationsintegration möglich?
- Intensionale Redundanz
- Wann ist eine Informationsintegration schwierig?
- Extensionale Redundanz
- Wann ist eine Informationsintegration nützlich?
- Extensionale Komplementierung
- Intensionale Komplementierung
41Intension und Extension
- Intension ? Menge der Schemainformationen und
deren Semantik - Extension ? Menge aller zur Intension gehörigen
Daten
ISBN Titel Autor
123456 Mobby Dick Herman Melville
789101 Robinson Crusoe Daniel Defoe
122222 XML-DB Karl May
Intension Extension
42Intensionale Redundanz
- Liegt vor, wenn das Entfernen von Teilen der
Intension die Gesamtintension nicht verändert. - Intensionale Redundanz auch über mehrere
Relationen und Quellen.
ISBN ID Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
43Intensionale Komplementierung
ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
ISBN Titel
122222 XML-DB
123456 Mobby Dick
789101 Robinson Crusoe
- Informationen mehrerer (sich komplementierender)
Quellen werden zu einem größeren Ganzen
integriert - Intensionale Komplementierung liegt vor, wenn von
zwei Intensionen - mindestens eine Differenz nicht leer ist,
- und deren Schnittmenge nicht leer ist.
ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
Titel
Mobby Dick
Robinson Crusoe
XML-DB
44Extensionale Redundanz
- Liegt vor, wenn die Menge der von zwei Quellen
gemeinsam repräsentierten Objekte nicht leer ist.
ID Autor
122222 Karl Mai
123456 Herman Melville
ISBN Autor
123456 Herman Melville
122222 Karl May
Extensionale Redundanz
Datenkonflikt
45Zusammenfassung Redundanz
- Extensionale Redundanz ermöglicht intensionale
Komplementierung - Zwei Quellen, die über gleiche Dinge sprechen,
können zu einer dichteren Quelle integriert
werden (Density) - Intensionale Redundanz ermöglicht extensionale
Komplementierung - Zwei Quellen mit gleichem Schema können zu einer
überdeckenderen Quelle integriert werden
(Coverage)
46Schemaintegration
- Ziel aus mehreren Export-Schemata ein globales
konzeptionelles Schema erstellen - Unterstützung durch geeignete Tools
- Umfasst 3 Phasen
- Vorintegration
- Erkennung und Behebung von Konflikten
- Mischen und Restrukturierung der Schemaangaben
47Schemaintegration Beispiel
- Vorintegration
- Konflikterkennung Behebung
- Mischen Restrukturierung
Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
48Schemaintegration Beispiel (2)
- Vorintegration
- Konflikterkennung Behebung
- Mischen Restrukturierung
Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Vname, Jahr, Exemplare, ISBN) VERFASSER
(Pubnr, Autor) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
49Schemaintegration Beispiel (3)
- Schwierigkeit Integritätsbedingungen
- Pubnr nur in der ersten und Vnr nur in der
zweiten - Datenbank bekannt
- Unterschiedliche Behandlung von Autoren
- Annahme zu BUCH-ISBN kann ein Pubnr Wert und
zu einem Verlagsname ein Vnr Wert bestimmt
werden - Liegen der ISBN bzw. Vname Wert bereits in
BUCHPUB bzw. VERLAG vor ergibt sich die
Zuordnung aus dem Inhalt - Gegebenfalls neue Nummern generieren
- Attribut Autor aus BUCH extrahieren und in
VERFASSER überführen
- Vorintegration
- Konflikterkennung Behebung
- Mischen Restrukturierung
50Schemaintegration Beispiel (4)
- Vorintegration
- Konflikterkennung Behebung
- Mischen Restrukturierung
- Attribute der BUCH Relation auf BUCHP,
PUBLIKATION und VERFASSER abgebildet - Angaben von BUCHPUB befinden sich weitgehend in
BUCHP, lediglich Verlagsname nun in VERLAG
PUBLIKATION (Pubnr, Titel, Typcode) BUCHP
(Pubnr, Vnr, Jahr, Preis, Standort-STADT, Ex-UNI,
ISBN) VERFASSER (Pubnr, Autor) SCHLAGWORT (Pubnr,
Sname) VERLAG (Vnr, Vname, Adresse)
51Prinzipien der Schemaintegration
- Korrespondenzen
- Element-Korrespondenzen (z.B. Klassen,
Relationen) - Attribut-Korrespondenzen
- Pfad-Korrespondenzen
- Korrespondenzen auf Basis von Mengenbeziehungen
- Äquivalenz
- Teilmengenbeziehung / Einschluß
- Überlappung
- Disjunktheit
52Integrationsregeln (1)
- Regel 1 Unabhängige ElementeJedes
Schemaelement, zu dem es keine Korrespondenz mit
einem Schemaelement des anderen Schema gibt, wird
unverändert ins föderierte Schema übernommen.
53Integrationsregeln (2)
- Regel 2 Äquivalente ElementeSind 2
Schemaelemente der zu integrierenden Schemata
über eine Element-Korrepondenz als äquivalent
bestimmt, so werden diese beiden Schemaelemente
im föderierten Schema durch genau ein
Schemaelement repräsentiert.
- Integrationsregeln für Attribute
- Attribute ohne Korrespondenz unverändert
übernehmen - 2 Attribute mit Gleichheits-Korrespondenz ? zu
einem Attribut im föderierten Schema
zusammenfassen - Bei Teilmengen-Korrespondenz ? Attribut, das
Obermenge repräsentiert, ins föderierte Schema
übernehmen - Bei Überlappungs-Korrespondenz ? neues Attribut
anlegen, das die Vereinigung der beiden
Wertemenge repräsentiert, andere Form der
Zusammenführung bei Disjunktheit (z.B. Summe,
Mittelwertbildung)
54Integrationsregeln (3)
- Regel 3 Pfad-IntegrationIn der Regel müssen die
beiden zueinander in Korrespondenz stehenden
Pfade im föderierten Schema jeweils durch einen
semantisch äquivalenten Pfad abgebildet sein. Nur
falls eine Pfad-Äquivalenz als Korrespondenz
vorliegt, reicht es, wenn einer der beiden Pfade
im föderierten Schema abgebildet ist.Sind beide
Pfade vollständig im integrierten Schema
enthalten, liefert die Pfad-Korrespondenz eine
Integritätsbedingung, die auf Ebene des
föderierten Schemas zu überwachen ist.
- Beispiel
- KUNDE bestellt WARE ABNEHMER versorgt
- WARE produziert Hersteller versorgt
PRODUZENT - abgeleitet KUNDE bestellt WARE produziert
HERSTELLER ABNEHMER versorgt PRODUZENT
55Mashup-Ansatz zur Datenintegration
- besondere Art von Anwendungen zur
Datenintegration - neuer Ansatz gegenüber klassischen
Datenintegrationsansätzen wie Data Warehouses
oder Query-Mediatoren - Entwicklung
- potenzieller Kreis der Mashup-Entwickler viel
größer (evtl. ohne Programmierkenntnisse) - kurze Entwicklungszeit, frühzeitige Evaluierung
und Anpassung (Stunden, Tage) - Geeignet für Prototyping und agile
Entwicklungsmethoden
56Arten von Mashups
- Mapping-Mashups
- Integrieren Daten aus online verfügbaren Karten
(maps) - Hohe Verbreitung durch Mapping-APIs (Google,
Yahoo, Microsoft) - Foto- und Video-Mashups
- motiviert durch Foto-Hosting-Sites (flickr) und
Videoportale (YouTube) - Integration externer Daten mit Hilfe von
Metadaten (z.B. für aktuelle Nachrichten) - Such- und Shopping-Mashups
- Anbieter Google Froogle, PriceGrabber
- Vergleichsinformationen zu Produkten
verschiedener Anbieter - Heute Webschnittstellen zum Zugriff auf
Produktinformationen (z.B. Amazon, eBay) - Nachrichten-Mashups
- Kombinieren Agenturmeldungen mit Beiträgen in Web
(Blogs, Foren u.ä.)
57Mashups und Datenintegration
- Datenextraktion
- Verschiedene Schnittstellen von Datenprovidern
- Standardisierte Protokolle und Formate
- Datenfluss
- extrahierte Daten transformieren und miteinander
kombinieren - Benötigte Logik in Mashup-Anwendung (Servlets,
PHP o.ä.) - Präsentation
- Webbrowser visualisiert Mashup-Ergebnis für
Client - Generieren von (X)HTML-Code, ggf. Feed-Format
)RSS, Atom) für Newsreader
58Mashup-Gesamtarchitektur
Daten-/Service-Provider (WWW, Web-APIs, Feeds)
Mashup-Anwendung
Client(Webbrowser, Feedreader)
Daten-extraktion
Daten-fluss
Präsen-tation
(X)HTML, RSS, Atom, CSV, JSON
(X)HTML, JavaScript, RSS, Atom
59Mashup vs. klassische Datenintegration
- Entwicklungsprozess
- Mashup prototyp. Entwicklung von DI-Anwendungen
- Klassische DI erfordert Vorlaufzeit (Data
Cleaning, Schema Integration) - Integrationsart
- Zugriff auf Datenquellen mittels Wrapper ähnlich
klassische DI - Low-Level-Integration keine explizite
semantische Beschreibung der Quellen und ihrer
Verbindung, stattdessen fest codierter Datenfluss - virtuelle Integration (d.h. Extraktion und
Kombination der Daten zur Laufzeit) - geeignet eher für kleine Datenvolumina
- Verwendung
- relativ starre Verknüpfung der Daten
- eher aufgabenspezifische Anwendungen (anders als
ein DWH für beliebige Analysen) - Kürzere Lebensdauer
60Werkzeuge zur Mashup-Erstellung
- Tools zur Datenextraktion von Informationen aus
Websites - Tools zur Modellierung und Ausführung von
Datenflüssen - Komponenten zur Datenverarbeitung (z.B.
Transformation und Aggregation von Datenwerten
und objekten) - Anwendungen zur Unterstützung der Präsentation,
d.h. zur integrierten Darstellung innerhalb eines
Frontends und Interaktion mit Benutzer - Beispiele
- Extraktion Dapper, OpenKapow Robomaker (frei
verfügbar) - Datenrepräsentation Google Mashup Editor
- Datenflussmodellierung Apatar, Microsoft Popfly,
IBM Damia, Yahoo! Pipes - LiteraturD. Aumüller, A. Thor Mashup-Werkzeuge
zur Ad-hoc-Datenintegration im Web, in
Datenbank-Spektrum 26/2008
61Zusammenfassung und Ausblick
- Weiterentwicklung bestehender Schemaintegrationsve
rfahren - Theoretisch wohlüberlegte Ansätze häufig
qualitativ unbefriedigende Ergebnisse - Berücksichtigung von Unsicherheiten bei der
Datenbankintegration - Informationsintegration grosse Herausforderung
- Suchmaschinen im Web liefern nur Dokumente,
welche Suchbegriffe enthalten - Vorgestellte Systeme auf Unterstützung
strukturierter Anfragen ausgerichtet
62Literatur
- E. Rahm Mehrrechner-Datenbanksysteme, Addison
Wesley 1994. - Datenbank Spektrum (Heft 6 / Juni 2003)
- S. Conrad, W. Hasselbring, A. Koschel, R. Tritsch
Enterprise Application Integration
Grundlagen Konzepte Entwurfsmuster
Praxisbeispiele, Elsevier Spektrum Akademishcer
Verlag 2006. - U. Leser, F. Naumann Informationsintegration
Architekturen und Methoden zur Integration
verteilter und heterogener Datenquellen,
dpunkt.verlag 2007.