Datenqualit - PowerPoint PPT Presentation

About This Presentation
Title:

Datenqualit

Description:

Datenqualit t Seminar Informationsintegration und Informationsqualit t TU Kaiserslautern SS 2006 Lehrgebiet Datenverwaltungssysteme Siegfried Wirth – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 37
Provided by: Siegfri8
Category:

less

Transcript and Presenter's Notes

Title: Datenqualit


1
Datenqualität
  • Seminar Informationsintegration und
    Informationsqualität
  • TU Kaiserslautern SS 2006Lehrgebiet
    Datenverwaltungssysteme
  • Siegfried Wirth

2
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

3
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

4
Bedeutung der Datenqualität
  • Heterogene Informationssysteme
  • Datenquellen sind
  • autonom
  • heterogen
  • verteilt
  • Beispiele
  • Metasuchmaschinen
  • Gen-Datenbanken
  • Börsenkurse

5
Verarbeitung von Anfragen
  • Auswahl von Datenquellen
  • Relevante Datenquellen finden
  • Integration zu einem guten Ergebnis
  • Auswahl der besten Quellen
  • Beschreibung von Güte / Qualität
  • Begriff der Datenqualität
  • Beurteilung von Datenqualität

6
Architekturmodell
Integrierte Schema
View auf
Wrapper modellieren Datenquellen als relationale
Schemata
Heterogene Datenquellen
7
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

8
Qualitätskriterien
  • Inhaltsbezogene
  • Technische
  • Intellektuelle
  • Präsentationsbezogene

9
Inhaltsbezogene
  • Eigenschaften der Daten in der Datenquelle
  • Genauigkeit Anteil von Daten ohne Datenfehler
  • Vollständigkeit Verhältnis von Not-Null-Werten
    zu allen Werten in der Anwendungsdomäne
  • Relevanz Wie gut sind die Daten im Bezug auf die
    Anforderungen des Nutzers

ID Name Geburtsdatum Alter Telefon PLZ
14 Müller 24.11.1966 18 0640390070 35398
19 Meier 24.12.1956 50 0999999 67663
14 Schmidt 18.18.1986 20 06303412314 67662
10
Technische
  • Hard- und Software des Mediators, der Wrapper,
    des Netzwerks und aller sonstigen Komponenten des
    Informationssystems
  • Verfügbarkeit Wahrscheinlichkeit, dass die
    Datenquelle auf eine Anfrage antwortet
  • Statistische Wahrscheinlichkeit
  • Komplexe Schwankungen
  • Latenzzeit Zeit bis zum Erhalt der ersten Werte
  • Aktualität Durchschnittliches Alter der Daten

11
Intellektuelle (1)
  • Subjektive Einstellungen und Meinungen über
    Datenquellen
  • Reputation Guter Ruf der Datenquelle
  • Bekannte Forschungsinstitute
  • Interne Datenquellen

12
Intellektuelle (2)
  • Objektivität Unverfälschte und unbeeinflusste
    Daten
  • Schwer festzustellen, falls nicht angegeben
  • Beispiel Beeinflusstes Ranking in Suchmaschinen

13
Präsentationsbezogene (1)
  • Merkmale konkret gelieferter Datensätze
  • Verständlichkeit Adäquate Darstellung
  • In Mediator-Wrapper-Architektur immer
    relationales Schema
  • Präsentation der Datenquelle verdeckt
  • Ausnahme z.B. bei Bildern, Texten

14
Präsentationsbezogene (2)
  • Datenmenge Größe des gelieferten Suchergebnisses

15
Anwendung
  • Qualitätskriterien müssen für jede Anwendung
    spezifisch interpretiert werden
  • Beispiel Aktualität in Tagen oder Sekunden,
    Definition von Null-Werten
  • Für jede Anwendung muss eine sinnvolle Auswahl
    getroffen werden
  • Beispiel Reputation bei Suchmaschinen unwichtig,
    Relevanz sehr wichtig
  • Beides zusammen definiert n-dimensionalen Raum
    von Qualitätsvektoren

16
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

17
Klassen von Qualitätsdaten
18
Datenerhebung (1)
  • Subjektive Qualitätskriterien
  • Können nur durch den Nutzer festgelegt werden
  • Angabe auf Skalen durch einfach Formulare
  • Es gibt keine natürlichen Einheiten, daher meist
    von 1 (sehr schlecht) 10 (sehr gut)
  • Anfragespezifische
  • Hängen von der konkreten Anfrage ab
  • Können vor Bearbeitung nur geschätzt werden
  • Datenerhebung während der Anfragebearbeitung zur
    Verbesserung der Statistik
  • Beispiel Eine sehr komplexe Anfrage aus alten
    Daten hat längere Latenzzeit, als Abfrage eines
    Wertes, der im Cache vorhanden ist

19
Datenerhebung (2)
  • Objektive
  • Können objektiv festgestellt werden
  • Prinzipiell sind Datenquellen in der Lage dazu
    Angaben zu machen
  • Zumeist Datenerhebung durch Stichproben,
    Hochrechnungen
  • Aktualisierung der Daten
  • Bei starken Qualitätsänderungen (der autonomen
    Datenquellen) müssen die Werte aktualisiert
    werden
  • Regelmäßige Stichproben erforderlich

20
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

21
Qualitätsmodell (1)
  • Mathematische Modellierung der Qualität
  • Beurteilung der Datenquellen auf Grund der
    erhobenen Qualitätswerte
  • Ordnung auf dem n-dimensionalen Raum der
    Qualitätsvektoren festlegen
  • Vergleich von Datenquellen gemäß ihrer
    Datenqualität

22
Qualitätsmodell (2)
  • Beispiel Suchmaschinen
  • Relevanz und Aktualität

Relevanz Aktualität
1 0,5 3
2 0,75 10
3 0,9 5
23
Qualitätsmodell (3)
  • Skalierung
  • Abbildung der einzelnen Werte auf 01
  • Berücksichtigung positiver und negativer
    Qualitätskriterien

Relevanz Aktualität
1 0 1
2 0,65 0
3 1 0,71
24
SAW-Methode (1)
  • Bewertung von Datenquellen
  • Berechnung eines Gesamtwertes in 01 für jede
    Datenquelle
  • Berücksichtigung der Wichtigkeit der einzelnen
    Kriterien durch entsprechende Gewichtung auf
    Skala 0 (nicht wichtig) 10 (sehr wichtig)
  • Single Additive Weighting (SAW)
  • Nutzer gibt Gewichtung vor
  • Einfache Berechnung auf Basis der skalierten
    Werte

25
SAW-Methode (2)
  • Gewichtung
  • Aktualität 3 weniger wichtig
  • Relevanz 9 sehr wichtig

Legt Ordnung fest
Relevanz Aktualität
1 0 1 0,25
2 0,65 0 0,47
3 1 0,71 0,93
26
DEA-Methode (1)
  • Data Envelopment Analysis (DEA)
  • Keine Angabe von Wichtigkeiten durch den Nutzer
  • Optimierungsproblem mit den Gewichtungen als zu
    optimierenden Parametern

27
DEA-Methode (2)
  • Beispiel in 2-D

28
DEA-Methode (3)
  • Analog für mehr Dimensionen
  • Komplexere Berechnung
  • Mit Methoden aus der Optimierung Komplexität
    beherrschbar
  • Schwieriger zu verstehen
  • Unterteilt Datenquellen in gute und schlechte
    Datenquellen
  • Keine Ordnung auf dem Raum der Qualitätsvektoren
  • Probleme berücksichtigen
  • Viele Qualitätskriterien bei wenigen Datenquellen
    führt mit hoher Wahrscheinlichkeit zu (fast) nur
    guten Datenquellen
  • Jede Datenquelle, die in irgendeiner Dimension
    die beste ist, ist gut

29
Übersicht
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration

30
Integration
Firmenname Firmenprofil Aktienwert Entwicklung

31
Reduziere Komplexität
  • Schlechte Datenquellen nicht betrachten
  • Nutze DEA-Methode zur Reduktion

32
Berechne Anfragepläne
Firmenname Firmenprofil Aktienwert Entwicklung

33
Bewerte Anfragepläne
  • Bewerte nicht mehr Datenquellen, sondern
    komplette Anfragepläne

0,5 9s
0,7
Skalierung SAW
0,56 9s
0,9 3s
0,7 9s
0,8 2s
Erreichbarkeit Latenzzeit
34
Merge-Funktionen
  • Berechne Qualitätswert nach einem Join aus Werten
    an den eingehenden Kanten
  • Qualitätswert unabhängig von Reihenfolge
  • Assoziativität
  • Kommutativität
  • Unterschiedliche Funktionen
  • Erreichbarkeit Produkt
  • Latenzzeit Maximum

35
Anfragebearbeitung
  • Reduziere Komplexität
  • Berechne und bewerte die Anfragepläne
  • Führe die N besten Pläne aus

36
BranchBound (1)
Branch
37
BranchBound (2)
Anfang des Planes
Branch-Möglichkeit
BoundWert-
38
Zusammenfassung
  • Motivation und Architekturmodell
  • Qualitätskriterien
  • Erhebung von Qualitätsdaten
  • Bewertung von Datenquellen
  • Qualitätsgetriebene Integration
Write a Comment
User Comments (0)
About PowerShow.com