Title: Nincs diac
1SQL OLAP6. óra
2Általános integrációs szintek
3A források integrálása a DW rendszerek
legfontosabb eleme
Elemei - séma integráció - adat
integráció -- virtuális -- valós
4ETL folyamatok
5Séma integráció
Célja homogén, konzisztens közös séma eloállítása
Integráció fobb lépései - elo integráció
(preintegration) - séma összehasonlítás (schema
comparison) - séma illesztés (schema
conforming) - séma összevonás (schema merging)
6Name
City
Title
Publisher
Book
University
Published by
Adopted by
Refer to
Name
Address
Name
Topics
- - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - -
-
Title
Publication
Code
Publisher
contains
Word
Keywords
Code
Research Area
7Name
City
Title
A
Publisher
Book
University
Published by
Adopted by
Refer to
Name
Address
Name
Topics
- - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - -
-
B
Title
Publication
Publisher
Published by
Code
contains
Name
Word
Name
Keywords
Topics
Code
Research Area
8Name
City
Title
Name
Address
Publisher
Book
University
Published by
Adopted by
Published by
Refer to
Name
Topics
Publication
contains
Code
Research Area
Title
Code
9Elointegráció lépései
- az egyes sémák elemzése - integrációba
bevonandó elemek kiválasztása - integrációs
sorrend meghatározása - integritási elvek
összegyüjtése - szemantikai kibovités - közös
szemantikai modellre alakítás (EER, ODL,
formális logikai nyelv,...) - adatszótár
létrehozás
1.
gt0
2.
gt0
10Séma összehasonlítás lépései
- a különbözo sémák elemei közötti kapcsolatok
meghatározása - séma struktúra hasonlóság
vizsgálata - modell heterogenitási konfliktusok
feloldása - elnevezési konfliktusok
feloldása (hononima, szinonima) - szemantikai
konfliktusok felodása - strukturális konfliktusok
feloldása
nev
vezeto
tel
fiz
nev
oszt.vez
cim
11Séma illesztés elemei - elnevezés --
szinonímák -- általánosítás -- elírás -
struktúra -- kapcsolatok -- szerkezet --
viselkedés
12Séma illesztés és összevonás lépései
- konfliktusok számbavétele - konfiktusok
feloldása - sémak kombinálása - közös séma
átalaktítása (séma hasonlóság alapú vizsgálat) -
séma optimalizálása - teljesség, helyesség,
minimalitás ellenorzés
nev
vezeto
nev
vezeto
tel
fiz
tel
cim
nev
oszt.vez
cim
13Adat integrációs lépések
- adat illesztés -- formátum -- kódolás --
érték - adatszurés (közös integritási
feltételek) - adat ellenorzés (inkozisztencia
feloldása)
A séma integrációban megadott leképzés (mapping)
alapján muködik
speciális feladatok - adattisztítás - adat
illesztés
14DW
Integrációs struktúra
kliens séma
kliens modell
mediators
fogalmi szint alkalmazás modell (EER, logikai f.)
logikai szint DW séma (relációk, kockák)
wrapper
meta-modell
adatforrások
15Integráció tervezési módszerek
Egyszintu (one-shot) csak egy célséma
van Inkrementális modulok független parciális
sémák inter-séma megkötések, szabályok
Forrás vezérelt tervezés vállalati szintu modell
kialakítása a források alapján a meglévo adatok
határozzák meg az integrált modellt Kliens
vezérelt tervezés a felhasználói igények
kielégítése a cél az igények határozzák meg az
integrált modellt
16Adattisztítás (data cleaning)
DSS garbage in garbage out
17Data Cleaning
tipikus betöltési inkozisztenciák
- hiányos séma elem
- hiányos adatelofordulás
- hibásan bevitt érték
- téves számítások
- dupplikációk
- eltéro formátum
- eltéro kódolás
- átfedo kódolás
- integritási szabályok hiánya
- nem összetartozó adatok
- hiányzó kapcsolat
- elnevezés konfliktus
- strukturális konfliktus
18(No Transcript)
19(No Transcript)
20Adat tisztítási módszerek
A DW rendszer egyik legnehezebb feladata
a séma/adat integrációval együtt hajtódik végre
Fázisai - adatelemzés a lehetséges hibák
felderítésére - transzformációs, leképzési
metódusok elkészítése - algoritmusok
ellenorzése, validálás - adatok módosítása -
tisztított adatok beépítése
21Adatelemzés két fo áramlata - data
profileing - data mining
A transzformáció általános formátuma SQL
22Elírási hibák felderítése - n-gram
módszer gyors pontatlan - szótár
alapú hash (hasító fv) - editálási
távolság dinamikus programozás lassú pont
os
23Minimális költség kiszámítása az editálási
távolságnál
alap muveletek insertion, deletion, substitution
c(sn,tm) d(sn-1,tm-1) c(sn,0)
d(sn-1,tm) c(0,tm) d(sn,tm-1)
d(sn,tm) min
Átalakítási mátrix
t a r g e t
s o u r c e
O (nm) O (n m / log n)
24Hiányzó érték pótlása
nem pontos, statisztikai alapú
a többi attribútum alapján vett legvalószínubb
érték megadása
1. attribútum-párok közötti korreláció
számítása korr szumma(xiyi) / (szumma(xi)
szumma(yi)) 2. legszorosabb kapcsolatú
attributumok kiválasztása 3. értékek
közelítése d szumma ((yi xi)2) d ?
szélsoérték
25Rekord illesztési módszerek
más helyrol származó rekordok illesztése (pl.
biztosítottak)
nem egyeznek meg a kapcsolódó kulcsok (hiány,
elírás)
módszerek - egy index pontatlan, lassú -
több index ablak technika - valószínuségi
pozitív és negatív minták vizsgálatával
megbecsüli az illeszkedési
valószínuséget maradnak bizonytalan
esetek
26Piaci termékek
cleaning.html