Informationsintegration Einf - PowerPoint PPT Presentation

1 / 67
About This Presentation
Title:

Informationsintegration Einf

Description:

Informationsintegration Einf hrung 18.10.2005 Felix Naumann Integrierte Informationssysteme Einige Untertitel Content Merging Objekt Fusion Datenintegration Data ... – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 68
Provided by: FelixN9
Category:

less

Transcript and Presenter's Notes

Title: Informationsintegration Einf


1
InformationsintegrationEinführung
  • 18.10.2005
  • Felix Naumann

2
Integrierte Informationssysteme
Anfrage
3
Einige Untertitel
  • Content Merging
  • Objekt Fusion
  • Datenintegration
  • Data Amalgamation
  • Data Cleansing
  • Intelligent Information Integration I³
  • Data Consolidation

4
Überblick
  • Vorstellung der Arbeitsgruppe
  • Organisatorisches
  • Informationssysteme
  • Informationsintegration am Beispiel
  • Ausblick auf das Semester

5
Forschungsgruppe Informationsintegration
  • Juniorprofessor Felix Naumann
  • Wissenschaftliche Mitarbeiter / Doktoranden
  • Jens Bleiholder
  • Melanie Weis
  • Armin Roth
  • Alexander Bilke
  • Studentische Hilfskräfte
  • Karsten Draba (HumMer Projekt)
  • Veronique Tietz (Aladin Projekt)
  • Erik Witzmann (DB2 Metasearch Projekt)
  • http//www.informatik.hu-berlin.de/mac/

6
Metadata Services
Graphical Query Builder
Data Visualization
User Interface
SQL XQuery
Tables XML
Data Lineage
Data Statistics
Data Fusion
Query Optimization
Metadata Repository
RDB XML
HumMer Humboldt Merger
Duplicate Detection
SQL XQuery
Query Execution
Schema Mapping
RDB XML
Schema Matching
Data transformation
RDB2XML
XML2RDB
Samples
Data Import
Schema conversion
RDB2XML
XML2RDB
DBMS
DBMS
...
XML
XML
...
7
Kleine Demo
8
Laufende Studien- und Diplomarbeiten
  • Diplomarbeiten
  • Entwicklung einer Testumgebung für ein Peer Data
    Management System
  • Entwurf eines Peer Data Management Systems mit
    Steuerungs- und Simulationskomponente
  • Datentransformation mittels Schema Mapping
  • Tree-Edit Distance für XML Duplikaterkennung
  • Studienarbeiten
  • Transformation von DB2 Datenbanken in XML
    Dokumente mittels SQL/XML
  • Similar Pattern Search in History Data
  • Minimum Union als DB2 table function

9
Freie Stellen
  • Studentische Hilfskraft
  • HumMerDB Testdaten für den Humboldt Merger
  • 80h / Monat
  • Demnächst ausgeschrieben
  • Studien- und Diplomarbeiten
  • Zurzeit keine frei
  • Themenvorschläge sind aber willkommen
  • Mehr gegen Ende des Semesters

10
Überblick
  • Vorstellung der Arbeitsgruppe
  • Organisatorisches
  • Informationssysteme
  • Informationsintegration am Beispiel
  • Ausblick auf das Semester

11
Voraussetzungen
  • Vordiplom
  • VL Datenbanken I (DBS I) oder äquivalente
    Grundkenntnisse in Datenbanken
  • Falls Sie Fragen haben in Bezug auf die
    äquivalenten Grundkenntnisse, schreiben Sie mir
    bitte eine Email.
  • Es genügt nicht, DBS I parallel zu dieser VL zu
    hören.
  • Einordnung in den Fahrplan zum Datenbankstudium
  • Voraussetzung zur Zulassung zur mündlichen
    Prüfung ist die erfolgreiche Teilnahme am
    Praktikum.

Anmeldung in GOYA!
12
Termine
  • Vorlesung
  • Dienstags 1315 1445
  • Donnerstags 1315 1445
  • Praktikum
  • Dienstags 1515 1645
  • Erstes Praktikum 25.10.
  • Letzte Vorlesung 16.2.2005
  • Weihnachten 19.12. 29.12.
  • Insgesamt 32 Veranstaltungen
  • Prüfungstermine
  • i.d.R. 2 Wochen nach Wintersemester
  • i.d.R. 2 Wochen vor Sommersemester

13
Andere Veranstaltungen
  • Fahrplan durch das DB Studium
  • http//www.informatik.hu-berlin.de/mac/fahrplandat
    enbanken.html
  • Forschungsseminar
  • Neue Entwicklungen in der Bioinformatik und
    Informationsintegration
  • Termin Mittwochs 11 Uhr in 4.113
  • Weitere
  • Blockseminar Graphmanagement in
    DatenbankenDozent Prof. Ulf Leser

14
Feedback
  • Schon Evaluation angesehen?
  • http//www.informatik.hu-berlin.de/koessler/evalu
    /Fragebogen_auswertung.html
  • Evaluation am Ende des Semesters
  • Fragen bitte jederzeit!
  • In der VL
  • Sprechstunde Donnerstags, nach der Vorlesung (15
    Uhr)
  • Email naumann_at_informatik.hu-berlin.de
  • Anregungen zur Verbesserung
  • Z.B. zu
  • Gebrauch der Folien
  • Infos im WWW
  • Jeweils nach der VL oder in der Sprechstunde
  • Oder per Email naumann_at_informatik.hu-berlin.de

15
Literatur
  • Leider kein geeignetes Lehrbuch
  • Themen u.a. aus
  • Föderierte Datenbanksysteme. Konzepte der
    Datenintegration, Stefan Conrad, ISBN 3540631763
  • Principles of Distributed Database SystemsM.
    Tamer Özsu, Patrick ValduriezISBN 0136597076
  • Jeweils Hinweise in den Vorlesungen
  • Alle genannten Artikel können von mir per Email
    angefragt werden. Oder
  • Google Scholar http//scholar.google.com/
  • DBLP http//www.informatik.uni-trier.de/ley/db/i
    ndex.html
  • CiteSeer http//citeseer.ist.psu.edu/
  • Homepages der Autoren

16
Fotos
17
Praktikum
  • Metasuchmaschine
  • Web Services
  • Phase I
  • Wrapper Web Service für eine Suchmaschine
  • Phase II
  • Spezielle Web Services für die Metasuchmaschine,
    z.B.
  • WrapperService Automatische Erstellung eines
    neuen Suchmaschinen Wrappers
  • DirectoryService Liste aller verfügbaren
    Suchmaschinen mit Metadaten
  • SamplingService Metadaten Sammlung
  • OptimierungsService Auswahl relevanter
    Suchmaschinen
  • DuplikaterkennungsService Erkennung doppelter
    HTML Seiten
  • DatenfusionsService Konfliktlösung verschiedener
    Suchergebnisse
  • RankmergingService Erstellung eines globalen
    Ergebnisrankings
  • AnfrageerweiterungsService Automatisches
    Umschreiben einer Anfrage

18
Praktikum
  • Scheinvoraussetzungen
  • Besuch der Vorlesung Informationsintegration
  • Aktive Teilnahme an den Praktikumsterminen
  • Erfolgreiche Erstellung eines Wrapper-Services
    für eine Suchmaschine in Einzelarbeit
  • Kurze Vorstellung Ihres Wrapper-Services vor dem
    Plenum
  • Erfolgreiche Erstellung eines weiteren Web
    Services für die Metasuchmaschine in
    Gruppenarbeit
  • Vorstellung Ihres Integrations-Services vor dem
    Plenum
  • Erstellung eines Abschlußberichts in
    Gruppenarbeit

Für besonders mutige Studenten!
19
Überblick
  • Vorstellung der Arbeitsgruppe
  • Organisatorisches
  • Informationssysteme
  • Informationsintegration am Beispiel
  • Ausblick auf das Semester

20
Integrierte Informationssysteme
Anfrage
Integriertes Informations- system
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
21
Was ist Informationsintegration?
  • Informationsintegration ist die Zusammenführung
    von Daten und Inhalt verschiedener Quellen zu
    einer einheitlichen Informationsmenge.
  • Informationsintegration ist die korrekte,
    vollständige und effiziente Zusammenführung von
    Daten und Inhalt verschiedener, heterogener
    Quellen zu einer einheitlichen und strukturierten
    Informationsmenge zur effektiven Interpretation
    durch Nutzer und Anwendungen.

22
Wo herrscht Informationsintegration?
  • Im weiteren Sinne
  • Business-Integration
  • Application-Integration
  • Prozess-Integration (Workflow-Integration)
  • Im engeren Sinne
  • Datenbanken und Informationssysteme
  • Verteilt
  • Autonom
  • Heterogen

23
Beispiele für Informationssysteme
  • Dateisystem
  • Informationseinheit Flat file
  • Anfrage File search, RegEx
  • Struktur Flach oder hierarchisch
  • Beispiele
  • NTFS
  • NIS
  • FTP Zugriff
  • Einsatzgebiete
  • WWW (HTML Dateien)
  • Desktop-Anwendungen (Textverarbeitung, etc.)

24
Beispiele für Informationssysteme
  • Datei
  • Informationseinheit Zeile /Token
  • Anfrage Parser
  • Struktur Flach
  • Beispiele
  • Komma-delimited files
  • Annotated files
  • Einsatzgebiete
  • SwissProt

25
(No Transcript)
26
Beispiele für Informationssysteme
  • Markup Datei
  • InformationseinheitTagged text
  • AnfrageParser, Anfragesprache
  • StrukturFlach, hierarchisch oder graph-basiert
  • Beispiele
  • XML
  • HTML
  • Einsatzgebiete
  • Web Services
  • Messages
  • Interoperationale Anwendungen

27
Beispiele für Informationssysteme
  • Datenbank
  • Anfrage Komplexe Sprache, z.B. SQL
  • Informationseinheit Tupel / Attribut, Objekt
  • StrukturRelational, OO, Hierarchisch
  • Beispiele
  • Relationale DBMS
  • OO DBMS
  • Auch XML DBMS
  • Einsatzgebiete
  • Data Warehouses
  • OLTP
  • Banken/Versicherungen

28
Beispiele für Informationssysteme
  • HTML Formular
  • InformationseinheitHTML Seite, Text
  • AnfrageSuchworte, Formular (inkl. Radiobutton,
    dropdown-list, etc.)
  • Strukturwie Markup Datei Flach, hierarchisch
    oder graph-basiert I.d.R. flach
  • Beispiele
  • Einfache Suchformulare
  • Komplexe Anfrageformulare
  • Einsatzgebiete
  • Suchmaschinen
  • Reisedienste
  • Kataloge

29
(No Transcript)
30
Beispiele für Informationssysteme
  • Web Service
  • Informationseinheit XML Dokument
  • Anfrage XML Dokument
  • Struktur Wie XML Flach, hierarchisch,
    graph- basiert
  • Beispiele
  • Einfach Temperaturdienst, etc
  • Komplex Reservierungen (Schachtelung und
    Verknüpfung von Web Services)
  • Einsatzgebiete
  • Intra-organisatorische Workflows
  • E-Marketplaces
  • Datenaustausch

31
(No Transcript)
32
Beispiele für Informationssysteme
  • Anwendung
  • Informationseinheit Java Objekt, Text
  • Anfrage via Anwendungs- schnittstelle oder GUI
  • Struktur Objekt (Interface) Display (GUI)
  • Beispiele
  • Java, C, etc
  • Legacy Informationssysteme
  • Einsatzgebiete
  • Komplexe Analysen (Data Mining, Statistik)

33
Beispiele für Informationssysteme
  • Integriertes Informationssystem
  • Verhält sich in Anfrage, Struktur und
    Informationseinheit je nach Design
  • DBMS
  • HTML Formular
  • Web Service
  • ...
  • Beispiele
  • Data Warehouses
  • Föderierte Datenbanken
  • Portale
  • Einsatzgebiete
  • Meta Search
  • Life Sciences
  • Int. Unternehmen
  • Intranets

34
Integrierte Informationssysteme
Anfrage
Integriertes Informations- system
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
35
Integrierte Suchmaschinen
Anfrage
Meta-Suchmaschine
IntranetIndex
Thesaurus
36
Integration Abstraktion
  • Logisches DB-Design abstrahiert von physischem
    DB-Design
  • Datenunabhängigkeit
  • Anfragen Prozedural vs. deklarativ
  • Informationsintegration abstrahiert von logischen
    DB Design
  • Quellenunabhängigkeit (Speicherort)
  • Datenmodell- und Syntaxunabhängigkeit
  • Unabhängigkeit von semantischen Unterschieden
    (hoffentlich!)

37
Anwendungsgebiet 1 BusinessHalevy04
38
Anwendungsgebiet 2 Wissenschaft Halevy04
39
Anwendungsgebiet 3 Das WebHalevy04
40
Informationsintegration Ein altes Problem
  • Seit 50 Jahren auf der Forschungsagenda
  • Frühe Systeme in den 70ern
  • Integration per Hand natürlich noch früher
  • Neue Probleme
  • Viele, viele Quellen
  • Heterogenität
  • Neue Arten von Daten (XML, GIS, OO,...)
  • Neue Arten von Anfragen (Search, UDFs,...)
  • Neue Arten von Ergebnissen (Ranking,
    Visualisierung, ...)
  • Neue Arten von Nutzern (Laien, Manager, Admins,
    ...)
  • Alon Halevy Its plain hard! Halevy04

41
Warum ist es so schwer? Halevy04
  • System-bedingte Gründe
  • Verschiedene Plattformen
  • Anfragebearbeitung über mehrere Systeme
  • Soziale Gründe
  • Finden relevanter Daten in Unternehmen
  • Beschaffen relevanter Daten in Unternehmen
  • Menschen zur Zusammenarbeit überreden
  • Logik-bedingte Gründe
  • Schema- und Datenheterogenität
  • Dies ist unabhängig von der jeweiligen
    Integrationsarchitektur.

42
Überblick
  • Vorstellung der Arbeitsgruppe
  • Organisatorisches
  • Informationssysteme
  • Informationsintegration am Beispiel
  • Ausblick auf das Semester

43
Informationsintegration
ltpubgt ltTitelgt Federated Database
Systems lt/Titelgt ltAutorengt
ltAutorgt Amit Sheth lt/Autorgt ltAutorgt
James Larson lt/Autorgt lt/Autorengt lt/pubgt
Web Service A
ltpublicationgt lttitlegt Federated Database
Systems for Managing
Distributed, Heterogeneous, and
Autonomous Databases lt/titlegt
ltauthgt Scheth Larson lt/authgt ltyeargt 1990
lt/yeargt lt/publicationgt
Web Service B
Fusion
Optimierung
Visualisierung
Identifikation
Integration
44
Beispiel Web Service A
  • Web Service A
  • Standort Trier
  • Operation
  • getPubByAuthor(firstName, lastName)
  • getPubByTitle(title)
  • Output-Struktur

45
Beispiel Web Service A Output
46
Beispiel Web Service B
  • Web Service B
  • Standort Humboldt-Universität
  • Operation myPubs(Autor, Jahr)
  • Struktur

47
Beispiel Web Service B Output
48
Integration von Web Services A B
  1. Nutzerschnittstelle
  2. Schema Integration / Schema Mapping
  3. Anfrage-Umwandlung
  4. Zeit abschätzen (Optimierung)
  5. Requests an beide Services abschicken
  6. Antworten einholen
  7. Objektidentifikation
  8. Integrationsschritte
  9. Konfliktlösung etc.
  10. Entscheidung kleinster gemeinsamer Nenner?
  11. Durchführung (deklarativ, prozedural)
  12. Anzeige beim Nutzer

49
Nutzerschnittstellen
50
Informationsintegration
ltpubgt ltTitelgt lt/Titelgt ltAutorengt
ltAutorgt lt/Autorgt ltAutorgt lt/Autorgt
lt/Autorengt ltyeargt lt/yeargt lt/pubgt
ltpubgt ltTitelgt Federated Database
Systems lt/Titelgt ltAutorengt
ltAutorgt Amit Sheth lt/Autorgt ltAutorgt
James Larson lt/Autorgt lt/Autorengt lt/pubgt
Web Service A
ltpublicationgt lttitlegt Federated Database
Systems for Managing
Distributed, Heterogeneous, and
Autonomous Databases lt/titlegt
ltauthgt Scheth Larson lt/authgt ltyeargt 1990
lt/yeargt lt/publicationgt
Web Service B
Schemaintegration
Modellierung durch eine Menge von Anfragen (Views)
51
Anfrage Umwandlung
  • Integration der Anfrage durch Mediator
  • Integrierte Schnittstelle
  • Z.B. Concat(First Name, Last Name) Autor

52
Anfrageoptimierung
  • Was ist besser Eine schnelle Antwort oder
    vollständige Antwort?
  • Web Service A in Trier (remote)
  • Web Service B in Adlershof (local)
  • Web Service A hat mehr Attribute und mehr
    Objekte.
  • Web Service B hat weniger Attribute.
  • Außerdem
  • Eine Suche nach year kann nur durch Web Service
    B beantwortet werden.
  • Transformationen können teuer sein.

53
Zwei Resultate
Web Service A
Web Service B
54
Schema Matching
55
Objektidentifikation
56
Objektidentifikation
Edit-distance 5
Zusammen?
Edit-distance 6
57
Stand der Dinge
  • Wir haben die heterogenen Informationen.
  • Wir wissen, was wir integrieren wollen.
  • Aber noch nicht wie
  • Integriertes Schema
  • Integrierte Daten

58
Angestrebtes Integrationsergebnis


Integriertes Schema
59
Angestrebtes Integrationsergebnis
Integrierte Daten
60
Integrierte Daten was ist passiert?
Konflikt-lösung
Vorher Naumann
Neu-Strukturierung
Neu
61
Implementierung
  • Auf Folien ist alles klar, aber wie
    implementieren?
  • Deklarativ?
  • SQL, XQuery, XSLT
  • Oft nicht alles möglich
  • Langsam
  • Prozedural?
  • Java, C
  • Schlecht wartbar
  • Schnell

62
Anzeige beim Nutzer
  • Visualisierung der
  • Datenherkunft
  • Qualität
  • veränderten Daten
  • Operationen

Konflikt-lösung
Vorher Naumann
63
Überblick
  • Vorstellung der Arbeitsgruppe
  • Organisatorisches
  • Informationssysteme
  • Informationsintegration am Beispiel
  • Ausblick auf das Semester

64
Integrierte Informationssysteme
Anfrage
Design time
Run time
Integriertes Informations- system
Architekturen
Datenfusion / ETL
Anfragesprache
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
65
Erste Hälfte
  1. Einführung in die Informationsintegration
  2. Szenarien der Informationsintegration
  3. Verteilung und Autonomie
  4. Heterogenität
  5. Materialisierte und virtuelle Integration
  6. Klassifikation integrierter Informationssysteme
    und 5-Schichten Architektur
  7. Mediator/Wrapper-Architektur
  8. Global-as-View und Lokal-as-View Modellierung
  9. Global-as-View Anfragebearbeitung
  10. SchemaSQL
  11. Verteilte Anfragebearbeitung
  12. Dynamische Programmierung in verteilten
    Datenbanken
  13. Top-N Anfragen

Problemstellung
Architekturen
Modellierung
Optimierung
66
Zweite Hälfte
Konflikte
  1. Informationsqualität
  2. Duplikaterkennung
  3. ETL Data Lineage
  4. Datenfusion - Union Co.
  5. Containment Local-as-View Anfragebearbeitung
  6. Bucket Algorithmus
  7. Peer-Data-Management Systeme (PDMS)
  8. Schema Mapping
  9. Schema Matching
  10. Hidden Web
  11. Semantic Web
  12. Forschungsprojekte  - TSIMMIS, Garlic, Revere,
    etc
  13. Data Streams

Anfragen
Mapping
Systeme
67
Fragen, Wünsche und Vorstellungen
  • Jetzt, oder...
  • Raum IV.122
  • Sprechstunden Donnerstags 15 Uhr oder n.V.
  • Email naumann_at_informatik
  • Telefon (030) 2093 3905

The end.
Write a Comment
User Comments (0)
About PowerShow.com