Title: Algorithms and Application for spatial data mining
1Algorithms and Application for spatial data mining
2Inhoud
- Spatial data mining
- Framework
- Spatial clustering algorithms
- Spatial characterization
- Spatial trend detection
- Spatial classification
3Spatial data mining Waarom?
- Handmatige interpretatie onmogelijk
- Door
- Grote hoeveelheid data
- Continue groei in de hoeveelheid data
4Spatial data mining Wat?
- Het vinden van
- Onregelmatigheden
- Regels
- Patronen
- In spatiële databases
- Voortgekomen uit KDD (Knowledge discovery in
databases)
5Wat is een spatiële database?
- Bevat objecten gekenmerkt door
- Spatiele locatie / extentie
- Meerdere niet-spatiele attributen
6Wat is KDD?
- The non-trivial process of discovering valid,
novel, potentially usefull and ultimately
understandable patterns from data - - Fayyad et al. 1996
7Spatial data mining Hoe?
- Gebruik maken van neighbourhood van objecten
- Waarde attributen buren kan invloed hebben op
waarde attributen object
8Spatial data mining
- Spatial clustering
- Spatial characterization
- Spatial trend detection
- Spatial classification
9Framework voor spatial data mining
- Gebaseerd op
- Neighbourhood relations
- Neighbourhood graphs
- Neighbourhood paths
10Waarom een Framework?
- Versnelt de ontwikkeling
- Maakt algoritmes portable
- Gebruik beter index structuren versnelt alle
algoritmen die framework gebruiken - Integratie in comerciele DBMSen
11Spatial neighbourhood relations
- Topologisch
- Afstand
- Richting
- En combinaties
12Topologische relaties
- Disjoint
- Overlap
- Equals
- Covers
- Coverd by
- Contains
- Inside
13Distance en Direction
B
A
B
A
14Spatial neighbourhood graphs
- Definition
- G (N,E)
- Nodes N DB
- Edges E subset_of N x N
- edge e (n1,n2) exists iff neighbour(n1,n2)
holds
DB
neighbour
15Spatial neighbourhood paths
- Definition
- Neighbourhood path of length k is a sequence
n1,n2,,nk - where neighbour(ni,ni1) holds for all nodes
with 1 i lt k
16KDD en paths
- Paths geven een mogelijkheid om de ruimte af te
zoeken - Kunnen gebruikt worden om de zoekruimte te
beperken - Beperken met filters
17Filters
- Geven restricties op de mogelijke paden vanaf een
start object
Starlike
Variable-Starlike
Vertical-Starlike
18Extra neighbourhood operations
- Neighbours
- Graph x Object x Predicate ? Sets_of_Objects
- Paths
- Sets_of_Objects x Int ? Sets_of_Paths
- Extensions
- Graph x s_of_p x Int x Predicate ? Sets_of_Paths
19DBMS ondersteuning
- Neighbourhood index
- Maximum distance voor relaties om aantal object
paren te beperken - Voor alle relatie types (topologisch, afstand,
richting) worden de concrete relaties opgeslagen
20Neighbourhood index
Object-ID Neighbour Distance Direction Topology
A B 2.7 South-West Disjoint
A C 0 North-West Overlap
21Spatial clustering
- Groepeer objecten in clusters
- Objecten in een cluster lijken zoveel mogelijk op
elkaar - Objecten uit verschillende clusters verschillen
zo veel mogelijk - betekenis clusters staat niet vast
22Spatial clustering
- Density based algoritme
- Voor elk punt in een cluster geldt
- Eps-neighbourhood bevat minstens een vastgesteld
aantal punten - density in dit gebied moet boven een threshold
liggen
23Spatial clustering GDBSCAN
- GDBSCAN(DB,NPred,MinWeight)
- DB zijn de spatiële objecten
- NPred is de neighbourhood relation
- MinWeight is de density threshold
24Spatial clustering GDBSCAN
- Berekent de neighbourhood van elk object
- Als density (neigbourhood) gt threshold
- Maak hier een cluster van
- Bereken neighbourhood van alle toegevoegde
objecten - Laat cluster groeien zolang density gt threshold
25Spatial clustering toepassing 1
- Verdeel 5-D featurespace verkregen uit
verschillende satteliet fotos van Californië in
classen
- Methode
- GDBSCAN met
- NPred(X,Y) dist(X,Y) lt 1.42
- MinWeight(N) cardinality(N) 20
- Objecten in classen waarscheinlijk van zelfde
type grond
26Spatial clustering toepassing 2
- Detecteren van influence regions in Economisch
geografische data over Duitsland
- Methode
- Detecteer influence regions
- Zoek maximale neighbourhood die lijkt op het
centrale object van de cluster - Vergelijk met theoretische waarde voor het vinden
van afwijkingen
27Spatial characterization
- Vinden van compacte beschrijving van een subset
uit een database - beschrijving bestaat uit spatial association
rules
28Spatial association rules
- Beschrijven van associaties door middel van
spatiële neighbourhood relaties - Is_a(X,town) ? close_to(X,Y) and is_a(Y,water)
(80)
29Spatial Apriori
- Maakt gebruik van de realieve frequentie van
waarden in de database ten opzichte van de subset - ƒ (prop)
Freqtargets(prop)
freqDB(prop)
DB
Card(targets)
Card(DB)
targets
30Spatial characterization
- Het vinden van alle eigenschappen waarvoor
geldt - ƒ (prop) significance
- voor ten minste min_confidence objecten
DB
nh(subset)
31Spatial characterization Toepassing
- Vinden van spatial characterization van
economische kracht van een gemeenschap
- Methode
- Vergroot de regio om de start subset
- Kies eigenschappen in deze regio die meest
informatie bevatten - Genereer spatial rules die deze regio beschrijven
32Spatial trend detection
- Spatial trend is gelijkmatige verandering van 1
of meer attributen wanneer je afstand neemt van
startobject O - Gelijkmatigheid wordt beschreven door regressie
op de attributen van objecten in een
neighbourhood path
33Spatial trend detection Algoritme
- Lineare Regressie
- Start vanuit een source object O1
- Bepaal de afstand to object O2 op een
neighbourhood path vanuit O1 - Bepaal het verschil in niet-spatiële attributen
tussen de 2 objecten - Er is een trend wanneer er genoeg correlatie
tussen deze 2 waarden is
34Spatial trend detection
- Detecteren globale trend
- Breath-first search op all neighbourhood paths
vanuit O1 - Detecteren locale trend
- Depth-first search op all neighbourhood paths
vanuit O1
35Spatial trend detection Toepassing
- Detecteer trends in de economische welvaart van
communities in Duitsland
- Methode
- Lineare regressie
- 0.6 lt Correlatie lt 0.8
- op gemiddelde huur
- Filter vertical-starlike
- 4 lt Path lengte lt 7
36Spatial Classification
- Ken object toe aan classe
- Mogelijke classen zijn gegeven
- Toekenning gebasseerd op waarde van attributen
- Waarde van attributen van buren kunnen ook van
invloed zijn
37Spatial classification Algoritme
- Decision tree algorithm
- Uitbreiding op ID3
- Generalized attributes
- lijst met alle waardes van dit atribuut op een
neighbourhood path - Lengte paden is begrenst omdat invloed van verre
buren kleiner is
38Spatial classification Algoritme
- Nearest neighbour
- Nearest hit en nearest miss gebruikt om
kenmerkende eigenschappen van classe te vinden - Decision tree wordt gemaakt met kenmerkende
attributen - Boom gemaakt met geaggregeerde data
39Conclusie
- Door gebruik te maken van neighbourhood graphs en
paths kunnen mining algoritmen efficient
uitgevoerd worden op commerciële DBMSen - Het model kan uitgebreidt worden met de
tijd-dimensie om analyse op historische gegevens
mogelijk te maken