Title: Datenqualit
1Datenqualität
- Seminar Informationsintegration und
Informationsqualität - TU Kaiserslautern SS 2006Lehrgebiet
Datenverwaltungssysteme - Siegfried Wirth
2Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
3Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
4Bedeutung der Datenqualität
- Heterogene Informationssysteme
- Datenquellen sind
- autonom
- heterogen
- verteilt
- Beispiele
- Metasuchmaschinen
- Gen-Datenbanken
- Börsenkurse
5Verarbeitung von Anfragen
- Auswahl von Datenquellen
- Relevante Datenquellen finden
- Integration zu einem guten Ergebnis
- Auswahl der besten Quellen
- Beschreibung von Güte / Qualität
- Begriff der Datenqualität
- Beurteilung von Datenqualität
6Architekturmodell
Integrierte Schema
View auf
Wrapper modellieren Datenquellen als relationale
Schemata
Heterogene Datenquellen
7Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
8Qualitätskriterien
- Inhaltsbezogene
- Technische
- Intellektuelle
- Präsentationsbezogene
9Inhaltsbezogene
- Eigenschaften der Daten in der Datenquelle
- Genauigkeit Anteil von Daten ohne Datenfehler
- Vollständigkeit Verhältnis von Not-Null-Werten
zu allen Werten in der Anwendungsdomäne - Relevanz Wie gut sind die Daten im Bezug auf die
Anforderungen des Nutzers
ID Name Geburtsdatum Alter Telefon PLZ
14 Müller 24.11.1966 18 0640390070 35398
19 Meier 24.12.1956 50 0999999 67663
14 Schmidt 18.18.1986 20 06303412314 67662
10Technische
- Hard- und Software des Mediators, der Wrapper,
des Netzwerks und aller sonstigen Komponenten des
Informationssystems - Verfügbarkeit Wahrscheinlichkeit, dass die
Datenquelle auf eine Anfrage antwortet - Statistische Wahrscheinlichkeit
- Komplexe Schwankungen
- Latenzzeit Zeit bis zum Erhalt der ersten Werte
- Aktualität Durchschnittliches Alter der Daten
11Intellektuelle (1)
- Subjektive Einstellungen und Meinungen über
Datenquellen - Reputation Guter Ruf der Datenquelle
- Bekannte Forschungsinstitute
- Interne Datenquellen
12Intellektuelle (2)
- Objektivität Unverfälschte und unbeeinflusste
Daten - Schwer festzustellen, falls nicht angegeben
- Beispiel Beeinflusstes Ranking in Suchmaschinen
13Präsentationsbezogene (1)
- Merkmale konkret gelieferter Datensätze
- Verständlichkeit Adäquate Darstellung
- In Mediator-Wrapper-Architektur immer
relationales Schema - Präsentation der Datenquelle verdeckt
- Ausnahme z.B. bei Bildern, Texten
14Präsentationsbezogene (2)
- Datenmenge Größe des gelieferten Suchergebnisses
15Anwendung
- Qualitätskriterien müssen für jede Anwendung
spezifisch interpretiert werden - Beispiel Aktualität in Tagen oder Sekunden,
Definition von Null-Werten - Für jede Anwendung muss eine sinnvolle Auswahl
getroffen werden - Beispiel Reputation bei Suchmaschinen unwichtig,
Relevanz sehr wichtig - Beides zusammen definiert n-dimensionalen Raum
von Qualitätsvektoren
16Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
17Klassen von Qualitätsdaten
18Datenerhebung (1)
- Subjektive Qualitätskriterien
- Können nur durch den Nutzer festgelegt werden
- Angabe auf Skalen durch einfach Formulare
- Es gibt keine natürlichen Einheiten, daher meist
von 1 (sehr schlecht) 10 (sehr gut) - Anfragespezifische
- Hängen von der konkreten Anfrage ab
- Können vor Bearbeitung nur geschätzt werden
- Datenerhebung während der Anfragebearbeitung zur
Verbesserung der Statistik - Beispiel Eine sehr komplexe Anfrage aus alten
Daten hat längere Latenzzeit, als Abfrage eines
Wertes, der im Cache vorhanden ist
19Datenerhebung (2)
- Objektive
- Können objektiv festgestellt werden
- Prinzipiell sind Datenquellen in der Lage dazu
Angaben zu machen - Zumeist Datenerhebung durch Stichproben,
Hochrechnungen - Aktualisierung der Daten
- Bei starken Qualitätsänderungen (der autonomen
Datenquellen) müssen die Werte aktualisiert
werden - Regelmäßige Stichproben erforderlich
20Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
21Qualitätsmodell (1)
- Mathematische Modellierung der Qualität
- Beurteilung der Datenquellen auf Grund der
erhobenen Qualitätswerte - Ordnung auf dem n-dimensionalen Raum der
Qualitätsvektoren festlegen - Vergleich von Datenquellen gemäß ihrer
Datenqualität
22Qualitätsmodell (2)
- Beispiel Suchmaschinen
- Relevanz und Aktualität
Relevanz Aktualität
1 0,5 3
2 0,75 10
3 0,9 5
23Qualitätsmodell (3)
- Skalierung
- Abbildung der einzelnen Werte auf 01
- Berücksichtigung positiver und negativer
Qualitätskriterien
Relevanz Aktualität
1 0 1
2 0,65 0
3 1 0,71
24SAW-Methode (1)
- Bewertung von Datenquellen
- Berechnung eines Gesamtwertes in 01 für jede
Datenquelle - Berücksichtigung der Wichtigkeit der einzelnen
Kriterien durch entsprechende Gewichtung auf
Skala 0 (nicht wichtig) 10 (sehr wichtig) - Single Additive Weighting (SAW)
- Nutzer gibt Gewichtung vor
- Einfache Berechnung auf Basis der skalierten
Werte
25SAW-Methode (2)
- Gewichtung
- Aktualität 3 weniger wichtig
- Relevanz 9 sehr wichtig
Legt Ordnung fest
Relevanz Aktualität
1 0 1 0,25
2 0,65 0 0,47
3 1 0,71 0,93
26DEA-Methode (1)
- Data Envelopment Analysis (DEA)
- Keine Angabe von Wichtigkeiten durch den Nutzer
- Optimierungsproblem mit den Gewichtungen als zu
optimierenden Parametern
27DEA-Methode (2)
28DEA-Methode (3)
- Analog für mehr Dimensionen
- Komplexere Berechnung
- Mit Methoden aus der Optimierung Komplexität
beherrschbar - Schwieriger zu verstehen
- Unterteilt Datenquellen in gute und schlechte
Datenquellen - Keine Ordnung auf dem Raum der Qualitätsvektoren
- Probleme berücksichtigen
- Viele Qualitätskriterien bei wenigen Datenquellen
führt mit hoher Wahrscheinlichkeit zu (fast) nur
guten Datenquellen - Jede Datenquelle, die in irgendeiner Dimension
die beste ist, ist gut
29Übersicht
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration
30Integration
Firmenname Firmenprofil Aktienwert Entwicklung
31Reduziere Komplexität
- Schlechte Datenquellen nicht betrachten
- Nutze DEA-Methode zur Reduktion
32Berechne Anfragepläne
Firmenname Firmenprofil Aktienwert Entwicklung
33Bewerte Anfragepläne
- Bewerte nicht mehr Datenquellen, sondern
komplette Anfragepläne
0,5 9s
0,7
Skalierung SAW
0,56 9s
0,9 3s
0,7 9s
0,8 2s
Erreichbarkeit Latenzzeit
34Merge-Funktionen
- Berechne Qualitätswert nach einem Join aus Werten
an den eingehenden Kanten - Qualitätswert unabhängig von Reihenfolge
- Assoziativität
- Kommutativität
- Unterschiedliche Funktionen
- Erreichbarkeit Produkt
- Latenzzeit Maximum
-
35Anfragebearbeitung
- Reduziere Komplexität
- Berechne und bewerte die Anfragepläne
- Führe die N besten Pläne aus
36BranchBound (1)
Branch
37BranchBound (2)
Anfang des Planes
Branch-Möglichkeit
BoundWert-
38Zusammenfassung
- Motivation und Architekturmodell
- Qualitätskriterien
- Erhebung von Qualitätsdaten
- Bewertung von Datenquellen
- Qualitätsgetriebene Integration