Title: Informationsintegration Einf
1InformationsintegrationEinführung
2Integrierte Informationssysteme
Anfrage
3Einige Untertitel
- Content Merging
- Objekt Fusion
- Datenintegration
- Data Amalgamation
- Data Cleansing
- Intelligent Information Integration I³
- Data Consolidation
4Überblick
- Vorstellung der Arbeitsgruppe
- Organisatorisches
- Informationssysteme
- Informationsintegration am Beispiel
- Ausblick auf das Semester
5Forschungsgruppe Informationsintegration
- Juniorprofessor Felix Naumann
- Wissenschaftliche Mitarbeiter / Doktoranden
- Jens Bleiholder
- Melanie Weis
- Armin Roth
- Alexander Bilke
- Studentische Hilfskräfte
- Karsten Draba (HumMer Projekt)
- Veronique Tietz (Aladin Projekt)
- Erik Witzmann (DB2 Metasearch Projekt)
- http//www.informatik.hu-berlin.de/mac/
6Metadata Services
Graphical Query Builder
Data Visualization
User Interface
SQL XQuery
Tables XML
Data Lineage
Data Statistics
Data Fusion
Query Optimization
Metadata Repository
RDB XML
HumMer Humboldt Merger
Duplicate Detection
SQL XQuery
Query Execution
Schema Mapping
RDB XML
Schema Matching
Data transformation
RDB2XML
XML2RDB
Samples
Data Import
Schema conversion
RDB2XML
XML2RDB
DBMS
DBMS
...
XML
XML
...
7Kleine Demo
8Laufende Studien- und Diplomarbeiten
- Diplomarbeiten
- Entwicklung einer Testumgebung für ein Peer Data
Management System - Entwurf eines Peer Data Management Systems mit
Steuerungs- und Simulationskomponente - Datentransformation mittels Schema Mapping
- Tree-Edit Distance für XML Duplikaterkennung
- Studienarbeiten
- Transformation von DB2 Datenbanken in XML
Dokumente mittels SQL/XML - Similar Pattern Search in History Data
- Minimum Union als DB2 table function
9Freie Stellen
- Studentische Hilfskraft
- HumMerDB Testdaten für den Humboldt Merger
- 80h / Monat
- Demnächst ausgeschrieben
- Studien- und Diplomarbeiten
- Zurzeit keine frei
- Themenvorschläge sind aber willkommen
- Mehr gegen Ende des Semesters
10Überblick
- Vorstellung der Arbeitsgruppe
- Organisatorisches
- Informationssysteme
- Informationsintegration am Beispiel
- Ausblick auf das Semester
11Voraussetzungen
- Vordiplom
- VL Datenbanken I (DBS I) oder äquivalente
Grundkenntnisse in Datenbanken - Falls Sie Fragen haben in Bezug auf die
äquivalenten Grundkenntnisse, schreiben Sie mir
bitte eine Email. - Es genügt nicht, DBS I parallel zu dieser VL zu
hören. - Einordnung in den Fahrplan zum Datenbankstudium
- Voraussetzung zur Zulassung zur mündlichen
Prüfung ist die erfolgreiche Teilnahme am
Praktikum.
Anmeldung in GOYA!
12Termine
- Vorlesung
- Dienstags 1315 1445
- Donnerstags 1315 1445
- Praktikum
- Dienstags 1515 1645
- Erstes Praktikum 25.10.
- Letzte Vorlesung 16.2.2005
- Weihnachten 19.12. 29.12.
- Insgesamt 32 Veranstaltungen
- Prüfungstermine
- i.d.R. 2 Wochen nach Wintersemester
- i.d.R. 2 Wochen vor Sommersemester
13Andere Veranstaltungen
- Fahrplan durch das DB Studium
- http//www.informatik.hu-berlin.de/mac/fahrplandat
enbanken.html - Forschungsseminar
- Neue Entwicklungen in der Bioinformatik und
Informationsintegration - Termin Mittwochs 11 Uhr in 4.113
- Weitere
- Blockseminar Graphmanagement in
DatenbankenDozent Prof. Ulf Leser
14Feedback
- Schon Evaluation angesehen?
- http//www.informatik.hu-berlin.de/koessler/evalu
/Fragebogen_auswertung.html - Evaluation am Ende des Semesters
- Fragen bitte jederzeit!
- In der VL
- Sprechstunde Donnerstags, nach der Vorlesung (15
Uhr) - Email naumann_at_informatik.hu-berlin.de
- Anregungen zur Verbesserung
- Z.B. zu
- Gebrauch der Folien
- Infos im WWW
- Jeweils nach der VL oder in der Sprechstunde
- Oder per Email naumann_at_informatik.hu-berlin.de
15Literatur
- Leider kein geeignetes Lehrbuch
- Themen u.a. aus
- Föderierte Datenbanksysteme. Konzepte der
Datenintegration, Stefan Conrad, ISBN 3540631763
- Principles of Distributed Database SystemsM.
Tamer Özsu, Patrick ValduriezISBN 0136597076 - Jeweils Hinweise in den Vorlesungen
- Alle genannten Artikel können von mir per Email
angefragt werden. Oder - Google Scholar http//scholar.google.com/
- DBLP http//www.informatik.uni-trier.de/ley/db/i
ndex.html - CiteSeer http//citeseer.ist.psu.edu/
- Homepages der Autoren
16Fotos
17Praktikum
- Metasuchmaschine
- Web Services
- Phase I
- Wrapper Web Service für eine Suchmaschine
- Phase II
- Spezielle Web Services für die Metasuchmaschine,
z.B. - WrapperService Automatische Erstellung eines
neuen Suchmaschinen Wrappers - DirectoryService Liste aller verfügbaren
Suchmaschinen mit Metadaten - SamplingService Metadaten Sammlung
- OptimierungsService Auswahl relevanter
Suchmaschinen - DuplikaterkennungsService Erkennung doppelter
HTML Seiten - DatenfusionsService Konfliktlösung verschiedener
Suchergebnisse - RankmergingService Erstellung eines globalen
Ergebnisrankings - AnfrageerweiterungsService Automatisches
Umschreiben einer Anfrage
18Praktikum
- Scheinvoraussetzungen
- Besuch der Vorlesung Informationsintegration
- Aktive Teilnahme an den Praktikumsterminen
- Erfolgreiche Erstellung eines Wrapper-Services
für eine Suchmaschine in Einzelarbeit - Kurze Vorstellung Ihres Wrapper-Services vor dem
Plenum - Erfolgreiche Erstellung eines weiteren Web
Services für die Metasuchmaschine in
Gruppenarbeit - Vorstellung Ihres Integrations-Services vor dem
Plenum - Erstellung eines Abschlußberichts in
Gruppenarbeit
Für besonders mutige Studenten!
19Überblick
- Vorstellung der Arbeitsgruppe
- Organisatorisches
- Informationssysteme
- Informationsintegration am Beispiel
- Ausblick auf das Semester
20Integrierte Informationssysteme
Anfrage
Integriertes Informations- system
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
21Was ist Informationsintegration?
- Informationsintegration ist die Zusammenführung
von Daten und Inhalt verschiedener Quellen zu
einer einheitlichen Informationsmenge. - Informationsintegration ist die korrekte,
vollständige und effiziente Zusammenführung von
Daten und Inhalt verschiedener, heterogener
Quellen zu einer einheitlichen und strukturierten
Informationsmenge zur effektiven Interpretation
durch Nutzer und Anwendungen.
22Wo herrscht Informationsintegration?
- Im weiteren Sinne
- Business-Integration
- Application-Integration
- Prozess-Integration (Workflow-Integration)
- Im engeren Sinne
- Datenbanken und Informationssysteme
- Verteilt
- Autonom
- Heterogen
23Beispiele für Informationssysteme
- Dateisystem
- Informationseinheit Flat file
- Anfrage File search, RegEx
- Struktur Flach oder hierarchisch
- Beispiele
- NTFS
- NIS
- FTP Zugriff
- Einsatzgebiete
- WWW (HTML Dateien)
- Desktop-Anwendungen (Textverarbeitung, etc.)
24Beispiele für Informationssysteme
- Datei
- Informationseinheit Zeile /Token
- Anfrage Parser
- Struktur Flach
- Beispiele
- Komma-delimited files
- Annotated files
- Einsatzgebiete
- SwissProt
25(No Transcript)
26Beispiele für Informationssysteme
- Markup Datei
- InformationseinheitTagged text
- AnfrageParser, Anfragesprache
- StrukturFlach, hierarchisch oder graph-basiert
- Beispiele
- XML
- HTML
- Einsatzgebiete
- Web Services
- Messages
- Interoperationale Anwendungen
27Beispiele für Informationssysteme
- Datenbank
- Anfrage Komplexe Sprache, z.B. SQL
- Informationseinheit Tupel / Attribut, Objekt
- StrukturRelational, OO, Hierarchisch
- Beispiele
- Relationale DBMS
- OO DBMS
- Auch XML DBMS
- Einsatzgebiete
- Data Warehouses
- OLTP
- Banken/Versicherungen
28Beispiele für Informationssysteme
- HTML Formular
- InformationseinheitHTML Seite, Text
- AnfrageSuchworte, Formular (inkl. Radiobutton,
dropdown-list, etc.) - Strukturwie Markup Datei Flach, hierarchisch
oder graph-basiert I.d.R. flach
- Beispiele
- Einfache Suchformulare
- Komplexe Anfrageformulare
- Einsatzgebiete
- Suchmaschinen
- Reisedienste
- Kataloge
29(No Transcript)
30Beispiele für Informationssysteme
- Web Service
- Informationseinheit XML Dokument
- Anfrage XML Dokument
- Struktur Wie XML Flach, hierarchisch,
graph- basiert
- Beispiele
- Einfach Temperaturdienst, etc
- Komplex Reservierungen (Schachtelung und
Verknüpfung von Web Services) - Einsatzgebiete
- Intra-organisatorische Workflows
- E-Marketplaces
- Datenaustausch
31(No Transcript)
32Beispiele für Informationssysteme
- Anwendung
- Informationseinheit Java Objekt, Text
- Anfrage via Anwendungs- schnittstelle oder GUI
- Struktur Objekt (Interface) Display (GUI)
- Beispiele
- Java, C, etc
- Legacy Informationssysteme
- Einsatzgebiete
- Komplexe Analysen (Data Mining, Statistik)
33Beispiele für Informationssysteme
- Integriertes Informationssystem
- Verhält sich in Anfrage, Struktur und
Informationseinheit je nach Design - DBMS
- HTML Formular
- Web Service
- ...
- Beispiele
- Data Warehouses
- Föderierte Datenbanken
- Portale
- Einsatzgebiete
- Meta Search
- Life Sciences
- Int. Unternehmen
- Intranets
34Integrierte Informationssysteme
Anfrage
Integriertes Informations- system
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
35Integrierte Suchmaschinen
Anfrage
Meta-Suchmaschine
IntranetIndex
Thesaurus
36Integration Abstraktion
- Logisches DB-Design abstrahiert von physischem
DB-Design - Datenunabhängigkeit
- Anfragen Prozedural vs. deklarativ
- Informationsintegration abstrahiert von logischen
DB Design - Quellenunabhängigkeit (Speicherort)
- Datenmodell- und Syntaxunabhängigkeit
- Unabhängigkeit von semantischen Unterschieden
(hoffentlich!)
37Anwendungsgebiet 1 BusinessHalevy04
38Anwendungsgebiet 2 Wissenschaft Halevy04
39Anwendungsgebiet 3 Das WebHalevy04
40Informationsintegration Ein altes Problem
- Seit 50 Jahren auf der Forschungsagenda
- Frühe Systeme in den 70ern
- Integration per Hand natürlich noch früher
- Neue Probleme
- Viele, viele Quellen
- Heterogenität
- Neue Arten von Daten (XML, GIS, OO,...)
- Neue Arten von Anfragen (Search, UDFs,...)
- Neue Arten von Ergebnissen (Ranking,
Visualisierung, ...) - Neue Arten von Nutzern (Laien, Manager, Admins,
...) - Alon Halevy Its plain hard! Halevy04
41Warum ist es so schwer? Halevy04
- System-bedingte Gründe
- Verschiedene Plattformen
- Anfragebearbeitung über mehrere Systeme
- Soziale Gründe
- Finden relevanter Daten in Unternehmen
- Beschaffen relevanter Daten in Unternehmen
- Menschen zur Zusammenarbeit überreden
- Logik-bedingte Gründe
- Schema- und Datenheterogenität
- Dies ist unabhängig von der jeweiligen
Integrationsarchitektur.
42Überblick
- Vorstellung der Arbeitsgruppe
- Organisatorisches
- Informationssysteme
- Informationsintegration am Beispiel
- Ausblick auf das Semester
43Informationsintegration
ltpubgt ltTitelgt Federated Database
Systems lt/Titelgt ltAutorengt
ltAutorgt Amit Sheth lt/Autorgt ltAutorgt
James Larson lt/Autorgt lt/Autorengt lt/pubgt
Web Service A
ltpublicationgt lttitlegt Federated Database
Systems for Managing
Distributed, Heterogeneous, and
Autonomous Databases lt/titlegt
ltauthgt Scheth Larson lt/authgt ltyeargt 1990
lt/yeargt lt/publicationgt
Web Service B
Fusion
Optimierung
Visualisierung
Identifikation
Integration
44Beispiel Web Service A
- Web Service A
- Standort Trier
- Operation
- getPubByAuthor(firstName, lastName)
- getPubByTitle(title)
- Output-Struktur
45Beispiel Web Service A Output
46Beispiel Web Service B
- Web Service B
- Standort Humboldt-Universität
- Operation myPubs(Autor, Jahr)
- Struktur
47Beispiel Web Service B Output
48Integration von Web Services A B
- Nutzerschnittstelle
- Schema Integration / Schema Mapping
- Anfrage-Umwandlung
- Zeit abschätzen (Optimierung)
- Requests an beide Services abschicken
- Antworten einholen
- Objektidentifikation
- Integrationsschritte
- Konfliktlösung etc.
- Entscheidung kleinster gemeinsamer Nenner?
- Durchführung (deklarativ, prozedural)
- Anzeige beim Nutzer
49Nutzerschnittstellen
50Informationsintegration
ltpubgt ltTitelgt lt/Titelgt ltAutorengt
ltAutorgt lt/Autorgt ltAutorgt lt/Autorgt
lt/Autorengt ltyeargt lt/yeargt lt/pubgt
ltpubgt ltTitelgt Federated Database
Systems lt/Titelgt ltAutorengt
ltAutorgt Amit Sheth lt/Autorgt ltAutorgt
James Larson lt/Autorgt lt/Autorengt lt/pubgt
Web Service A
ltpublicationgt lttitlegt Federated Database
Systems for Managing
Distributed, Heterogeneous, and
Autonomous Databases lt/titlegt
ltauthgt Scheth Larson lt/authgt ltyeargt 1990
lt/yeargt lt/publicationgt
Web Service B
Schemaintegration
Modellierung durch eine Menge von Anfragen (Views)
51Anfrage Umwandlung
- Integration der Anfrage durch Mediator
- Integrierte Schnittstelle
- Z.B. Concat(First Name, Last Name) Autor
52Anfrageoptimierung
- Was ist besser Eine schnelle Antwort oder
vollständige Antwort? - Web Service A in Trier (remote)
- Web Service B in Adlershof (local)
- Web Service A hat mehr Attribute und mehr
Objekte. - Web Service B hat weniger Attribute.
- Außerdem
- Eine Suche nach year kann nur durch Web Service
B beantwortet werden. - Transformationen können teuer sein.
53Zwei Resultate
Web Service A
Web Service B
54Schema Matching
55Objektidentifikation
56Objektidentifikation
Edit-distance 5
Zusammen?
Edit-distance 6
57Stand der Dinge
- Wir haben die heterogenen Informationen.
- Wir wissen, was wir integrieren wollen.
- Aber noch nicht wie
- Integriertes Schema
- Integrierte Daten
58Angestrebtes Integrationsergebnis
Integriertes Schema
59Angestrebtes Integrationsergebnis
Integrierte Daten
60Integrierte Daten was ist passiert?
Konflikt-lösung
Vorher Naumann
Neu-Strukturierung
Neu
61Implementierung
- Auf Folien ist alles klar, aber wie
implementieren? - Deklarativ?
- SQL, XQuery, XSLT
- Oft nicht alles möglich
- Langsam
- Prozedural?
- Java, C
- Schlecht wartbar
- Schnell
62Anzeige beim Nutzer
- Visualisierung der
- Datenherkunft
- Qualität
- veränderten Daten
- Operationen
Konflikt-lösung
Vorher Naumann
63Überblick
- Vorstellung der Arbeitsgruppe
- Organisatorisches
- Informationssysteme
- Informationsintegration am Beispiel
- Ausblick auf das Semester
64Integrierte Informationssysteme
Anfrage
Design time
Run time
Integriertes Informations- system
Architekturen
Datenfusion / ETL
Anfragesprache
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
65Erste Hälfte
- Einführung in die Informationsintegration
- Szenarien der Informationsintegration
- Verteilung und Autonomie
- Heterogenität
- Materialisierte und virtuelle Integration
- Klassifikation integrierter Informationssysteme
und 5-Schichten Architektur - Mediator/Wrapper-Architektur
- Global-as-View und Lokal-as-View Modellierung
- Global-as-View Anfragebearbeitung
- SchemaSQL
- Verteilte Anfragebearbeitung
- Dynamische Programmierung in verteilten
Datenbanken - Top-N Anfragen
Problemstellung
Architekturen
Modellierung
Optimierung
66Zweite Hälfte
Konflikte
- Informationsqualität
- Duplikaterkennung
- ETL Data Lineage
- Datenfusion - Union Co.
- Containment Local-as-View Anfragebearbeitung
- Bucket Algorithmus
- Peer-Data-Management Systeme (PDMS)
- Schema Mapping
- Schema Matching
- Hidden Web
- Semantic Web
- Forschungsprojekte - TSIMMIS, Garlic, Revere,
etc - Data Streams
Anfragen
Mapping
Systeme
67Fragen, Wünsche und Vorstellungen
- Jetzt, oder...
- Raum IV.122
- Sprechstunden Donnerstags 15 Uhr oder n.V.
- Email naumann_at_informatik
- Telefon (030) 2093 3905
The end.