Algorithms and Application for spatial data mining - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Algorithms and Application for spatial data mining

Description:

Algorithms and Application for spatial data mining Ronnie Bathoorn Inhoud Spatial data mining Framework Spatial clustering algorithms Spatial characterization Spatial ... – PowerPoint PPT presentation

Number of Views:198
Avg rating:3.0/5.0
Slides: 40
Provided by: Ron8172
Category:

less

Transcript and Presenter's Notes

Title: Algorithms and Application for spatial data mining


1
Algorithms and Application for spatial data mining
  • Ronnie Bathoorn

2
Inhoud
  • Spatial data mining
  • Framework
  • Spatial clustering algorithms
  • Spatial characterization
  • Spatial trend detection
  • Spatial classification

3
Spatial data mining Waarom?
  • Handmatige interpretatie onmogelijk
  • Door
  • Grote hoeveelheid data
  • Continue groei in de hoeveelheid data

4
Spatial data mining Wat?
  • Het vinden van
  • Onregelmatigheden
  • Regels
  • Patronen
  • In spatiële databases
  • Voortgekomen uit KDD (Knowledge discovery in
    databases)

5
Wat is een spatiële database?
  • Bevat objecten gekenmerkt door
  • Spatiele locatie / extentie
  • Meerdere niet-spatiele attributen

6
Wat is KDD?
  • The non-trivial process of discovering valid,
    novel, potentially usefull and ultimately
    understandable patterns from data
  • - Fayyad et al. 1996

7
Spatial data mining Hoe?
  • Gebruik maken van neighbourhood van objecten
  • Waarde attributen buren kan invloed hebben op
    waarde attributen object

8
Spatial data mining
  • Spatial clustering
  • Spatial characterization
  • Spatial trend detection
  • Spatial classification

9
Framework voor spatial data mining
  • Gebaseerd op
  • Neighbourhood relations
  • Neighbourhood graphs
  • Neighbourhood paths

10
Waarom een Framework?
  • Versnelt de ontwikkeling
  • Maakt algoritmes portable
  • Gebruik beter index structuren versnelt alle
    algoritmen die framework gebruiken
  • Integratie in comerciele DBMSen

11
Spatial neighbourhood relations
  • Topologisch
  • Afstand
  • Richting
  • En combinaties

12
Topologische relaties
  • Disjoint
  • Overlap
  • Equals
  • Covers
  • Coverd by
  • Contains
  • Inside

13
Distance en Direction
  • Distance
  • A distancegt2 B
  • Direction
  • B northeast A

B
A
B
A
14
Spatial neighbourhood graphs
  • Definition
  • G (N,E)
  • Nodes N DB
  • Edges E subset_of N x N
  • edge e (n1,n2) exists iff neighbour(n1,n2)
    holds

DB
neighbour
15
Spatial neighbourhood paths
  • Definition
  • Neighbourhood path of length k is a sequence
    n1,n2,,nk
  • where neighbour(ni,ni1) holds for all nodes
    with 1 i lt k

16
KDD en paths
  • Paths geven een mogelijkheid om de ruimte af te
    zoeken
  • Kunnen gebruikt worden om de zoekruimte te
    beperken
  • Beperken met filters

17
Filters
  • Geven restricties op de mogelijke paden vanaf een
    start object

Starlike
Variable-Starlike
Vertical-Starlike
18
Extra neighbourhood operations
  • Neighbours
  • Graph x Object x Predicate ? Sets_of_Objects
  • Paths
  • Sets_of_Objects x Int ? Sets_of_Paths
  • Extensions
  • Graph x s_of_p x Int x Predicate ? Sets_of_Paths

19
DBMS ondersteuning
  • Neighbourhood index
  • Maximum distance voor relaties om aantal object
    paren te beperken
  • Voor alle relatie types (topologisch, afstand,
    richting) worden de concrete relaties opgeslagen

20
Neighbourhood index
Object-ID Neighbour Distance Direction Topology
A B 2.7 South-West Disjoint
A C 0 North-West Overlap

21
Spatial clustering
  • Groepeer objecten in clusters
  • Objecten in een cluster lijken zoveel mogelijk op
    elkaar
  • Objecten uit verschillende clusters verschillen
    zo veel mogelijk
  • betekenis clusters staat niet vast

22
Spatial clustering
  • Density based algoritme
  • Voor elk punt in een cluster geldt
  • Eps-neighbourhood bevat minstens een vastgesteld
    aantal punten
  • density in dit gebied moet boven een threshold
    liggen

23
Spatial clustering GDBSCAN
  • GDBSCAN(DB,NPred,MinWeight)
  • DB zijn de spatiële objecten
  • NPred is de neighbourhood relation
  • MinWeight is de density threshold

24
Spatial clustering GDBSCAN
  • Berekent de neighbourhood van elk object
  • Als density (neigbourhood) gt threshold
  • Maak hier een cluster van
  • Bereken neighbourhood van alle toegevoegde
    objecten
  • Laat cluster groeien zolang density gt threshold

25
Spatial clustering toepassing 1
  • Verdeel 5-D featurespace verkregen uit
    verschillende satteliet fotos van Californië in
    classen
  • Methode
  • GDBSCAN met
  • NPred(X,Y) dist(X,Y) lt 1.42
  • MinWeight(N) cardinality(N) 20
  • Objecten in classen waarscheinlijk van zelfde
    type grond

26
Spatial clustering toepassing 2
  • Detecteren van influence regions in Economisch
    geografische data over Duitsland
  • Methode
  • Detecteer influence regions
  • Zoek maximale neighbourhood die lijkt op het
    centrale object van de cluster
  • Vergelijk met theoretische waarde voor het vinden
    van afwijkingen

27
Spatial characterization
  • Vinden van compacte beschrijving van een subset
    uit een database
  • beschrijving bestaat uit spatial association
    rules

28
Spatial association rules
  • Beschrijven van associaties door middel van
    spatiële neighbourhood relaties
  • Is_a(X,town) ? close_to(X,Y) and is_a(Y,water)
    (80)

29
Spatial Apriori
  • Maakt gebruik van de realieve frequentie van
    waarden in de database ten opzichte van de subset
  • Æ’ (prop)

Freqtargets(prop)
freqDB(prop)
DB
Card(targets)
Card(DB)
targets
30
Spatial characterization
  • Het vinden van alle eigenschappen waarvoor
    geldt
  • Æ’ (prop) significance
  • voor ten minste min_confidence objecten

DB
nh(subset)
31
Spatial characterization Toepassing
  • Vinden van spatial characterization van
    economische kracht van een gemeenschap
  • Methode
  • Vergroot de regio om de start subset
  • Kies eigenschappen in deze regio die meest
    informatie bevatten
  • Genereer spatial rules die deze regio beschrijven

32
Spatial trend detection
  • Spatial trend is gelijkmatige verandering van 1
    of meer attributen wanneer je afstand neemt van
    startobject O
  • Gelijkmatigheid wordt beschreven door regressie
    op de attributen van objecten in een
    neighbourhood path

33
Spatial trend detection Algoritme
  • Lineare Regressie
  • Start vanuit een source object O1
  • Bepaal de afstand to object O2 op een
    neighbourhood path vanuit O1
  • Bepaal het verschil in niet-spatiële attributen
    tussen de 2 objecten
  • Er is een trend wanneer er genoeg correlatie
    tussen deze 2 waarden is

34
Spatial trend detection
  • Detecteren globale trend
  • Breath-first search op all neighbourhood paths
    vanuit O1
  • Detecteren locale trend
  • Depth-first search op all neighbourhood paths
    vanuit O1

35
Spatial trend detection Toepassing
  • Detecteer trends in de economische welvaart van
    communities in Duitsland
  • Methode
  • Lineare regressie
  • 0.6 lt Correlatie lt 0.8
  • op gemiddelde huur
  • Filter vertical-starlike
  • 4 lt Path lengte lt 7

36
Spatial Classification
  • Ken object toe aan classe
  • Mogelijke classen zijn gegeven
  • Toekenning gebasseerd op waarde van attributen
  • Waarde van attributen van buren kunnen ook van
    invloed zijn

37
Spatial classification Algoritme
  • Decision tree algorithm
  • Uitbreiding op ID3
  • Generalized attributes
  • lijst met alle waardes van dit atribuut op een
    neighbourhood path
  • Lengte paden is begrenst omdat invloed van verre
    buren kleiner is

38
Spatial classification Algoritme
  • Nearest neighbour
  • Nearest hit en nearest miss gebruikt om
    kenmerkende eigenschappen van classe te vinden
  • Decision tree wordt gemaakt met kenmerkende
    attributen
  • Boom gemaakt met geaggregeerde data

39
Conclusie
  • Door gebruik te maken van neighbourhood graphs en
    paths kunnen mining algoritmen efficient
    uitgevoerd worden op commerciële DBMSen
  • Het model kan uitgebreidt worden met de
    tijd-dimensie om analyse op historische gegevens
    mogelijk te maken
Write a Comment
User Comments (0)
About PowerShow.com