Conception d - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Conception d

Description:

Conception d un mod le d analyse multidimensionnelle de donn es spatialement continues (SOLAP raster) Analyse de hotspots de criminalit – PowerPoint PPT presentation

Number of Views:59
Avg rating:3.0/5.0
Slides: 53
Provided by: jpk8
Category:

less

Transcript and Presenter's Notes

Title: Conception d


1
Conception dun modèle danalyse
multidimensionnelle de données spatialement
continues (SOLAP raster)
  • Analyse de hotspots de criminalité

Jean-Paul Kasprzyk, doctorant
Réunion du comité de thèse Jean-Paul Donnay,
Thérèse Libourel, Marc Simon, Jef Wijsen
Novembre 2013
2
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

3
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

4
Les données aspect transactionnel
Introduction business intelligence
5
Les données aspect décisionnel
Introduction business intelligence
Le volume des données numériques croit
exponentiellement
6
Business Intelligence
Introduction business intelligence
Architecture dun système BI (Badard et al, 2009)
7
SOLAP
Introduction business intelligence
  • Les outils SOLAP actuels ne gèrent linformation
    spatiale quà travers le mode vectoriel
  • Pas de gestion de linformation spatialement
    continue
  • Intérêt dun SOLAP en mode maillé (raster)

8
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

9
Modèle SOLAP raster généralités
Modèle SOLAP raster
  • Objet de larticle  Le raster en tant que mesure
    dans un modèle SOLAP relationnel 
  • Etat de lart (Miquel et al, 2002 Ahmed
    Miquel, 2005 Vaisman Zimanyi, 2009 Gomez et
    al, 2012)
  • Principes de base
  • Modèle Relationnel OLAP
  • Schéma en étoile, en flocon de neige ou en
    constellation
  • Cube de données collection dimages
    géoréférencées couvrant un même territoire
  • Une vue du cube agrégation dun ensemble
    dimages par opération locale de  map algebra 
    (Tomlin, 1983)
  • La sélection des images à agréger dépend des
    dimensions non spatiales

10
Relation fait raster
Modèle SOLAP raster
  • Un raster O
  • r x c pixels de valeur v où
    et
  • Une fonction de géoréférenciation
  • Propriété
  • Une relation fait raster F collection de
    mesures raster de même domaine

Les dimensions non spatiales sont reliées à la
table des faits comme dans un SOLAP classique
11
Agrégation des mesures raster
Modèle SOLAP raster
  • Agrégation de n rasters
  • Agrégation dun raster en une valeur unique
  • Agrégation spatiale dun raster

Fonction dagrégation a appliquée entre pixels
homologues
Fonction dagrégation a appliquée sur lensemble
des pixels de O
Cas 1 intersection avec un raster binaire (objet
spatial)
Cas 2 intersection avec un objet vecteur ?
Fonction dagrégation a appliquée à un
sous-ensemble de pixels de O
12
Schéma en étoile ou en flocon de neige
Modèle SOLAP raster
D2
D1
Schéma en étoile
Fait_raster
D spatiales (raster ou vecteur)
Dn
  • Dimension spatiale liée par jointure spatiale
  • Dimension non spatiale liée par jointure
    relationnelle

Jointure dune dimension non spatiale dun schéma
en flocon de neige
13
Changement déchelle
Modèle SOLAP raster
Fact_table_NO
Fact_table_NE
Fact_table
Fact_table_SO
Fact_table_SE
14
Schéma en constellation
Modèle SOLAP raster
Dimensions non spatiales
  • Schéma en constellation
  • Même nombre de faits par table
  • Toutes les mesures sont des images de même taille
  • Une table des faits ? une fonction de
    géoréférenciation
  • Un niveau déchelle ? une résolution? (une
    bandwidth)
  • Un jeu de dimensions spatiales raster par
     coverage 
  • Taille de lentrepôt F4F16F32F
  • Alternative une seule table des faits avec
    plusieurs mesures raster

Tables des faits
Dimensions spatiales raster
Dimensions spatiales vecteur
(F NO NE SO SE)
15
Représentations
Modèle SOLAP raster
  • Une vue dun cube raster correspond à
    lagrégation des mesures raster selon les membres
    de plusieurs dimensions
  • La représentation dune vue dépend du nombre de
    dimensions visibles

 0  D
1 D
1D
2D
16
Pourquoi du ROLAP?
Modèle SOLAP raster
  • ROLAP opérations dans un SGBD relationnel
  • Traitements plus longs
  • Grande capacité de stockage
  • Supporte le format raster
  • MOLAP opérations dans un système
    multidimensionnel
  • Traitements moins longs
  • Capacité de stockage limitée
  • Ne supporte pas (encore) le format raster

Temps de traitement relatifs dun SOLAP raster
Agrégation des données
Sélection des données
Partie optimisée par un MOLAP ? négligeable dans
un SOLAP raster
17
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

18
But de lapplication
Application analyse de hotspots de criminalité
Crime.csv LocalisationType de crimeDate
Entrepôt
ETL
Serveur M-SOLAPvecteur
Serveur R-SOLAP raster
Analyse de la criminalité spatialement discrète
Analyse de la criminalité spatialement continue
(hotspots)
19
Estimation de densité par noyau (KDE)
Application analyse de hotspots de criminalité
  • Technique très populaire pour la génération et la
    visualisation de hotspots
  • Hotspots utilisés, entre autres, en criminalité
    pour de la prédiction
  • Principe
  • Transformation de données ponctuelles en un champ
    continu (raster)
  • Chaque cellule a comme valeur une fréquence
    dépendant du nombre de points à proximité
  • Les hotspots sont isolés par classification de
    limage (quantiles)

Classification
KDE
20
Propriété dun KDE
Application analyse de hotspots de criminalité
Si
sont de même taille, même résolution, et même
 bandwidth 


21
Intérêt technique de lapplication
Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster diminue avec
  • Nombre de dimensions non spatiales
  • Taille des images
  • Génération de hotspots
  • Nécessite peu de dimensions
  • Type de crime
  • Temps
  • (espace)
  • KDE nécessite deux paramètres
  • Bandwidth indépendant de la taille de limage
    dépendant de léchelle danalyse
  • Résolution influence sur la taille de limage
    MAIS peu dinfluence sur le résultat?
    utilisation de  petites images  (entre 200 et
    600 ko non compressé)
  • (Chainey, 2013) 150 x 150
  • ArcGIS 250 x 250

22
Présentation des données
Application analyse de hotspots de criminalité
  • Données de criminalité londonienne provenant de
    la  Metropolitan Police  et de la  City of
    London Police 
  • http//www.police.uk/
  • Territoire denviron 50km X 50km
  • Année 2012
  • Fichiers CSV
  • Environ 1 200 000 crimes
  • Données par mois et par type de crimes
  • Latitude / longitude en WGS84
  • Fichiers KML
  • Environ 7600 polygones des zones de police par
    mois

23
Types de crime
Application analyse de hotspots de criminalité
Type de crime Occurrences
Anti-social behaviour 348806
Other theft 192893
Violent crime 136324
Vehicule crime 96843
Burglary 94679
Criminal damage and arson 60638
Drugs 48659
Other crime 48464
Shoplifting 37068
Robbery 35528
Public disorder and weapons 30744
24
Modèle conceptuel (UML)
Application analyse de hotspots de criminalité
SOLAP classique
SOLAP Raster

Crime_fact
Raster_fact
ID_factMonthCrime_type
ID_crimeMonthCrime_type
0-N
1
Changement déchelle
0-N
1-N
Force_boundary
ID_forceMonth
25
Intégration des données
Application analyse de hotspots de criminalités
  • Alimentation de la table  crime_fact  (1200000
    faits)
  • Alimentation de la table  force_boundary 
  • Suppression des données sans localisation
  • Conversion latitude/longitude en  geometry 
  • Projection dans British National Grid (SRID
    27700)
  • Suppression des données en dehors de la zone
    détude
  • Etablissement du lien relationnel entre
     crime_fact  et  force_boundary 
  • Export de 132 shapefiles de points pour chaque
    croisement de dimension  crime_type-month 
  • Génération de 132 images KDE
  • Resolution 300m
  • Bandwidth 1500m
  • Alimentation de la table  raster_fact 
  • Mise à jour des dimensions de la table
     raster_fact 

26
Vue raster_column
Application analyse de hotspots de criminalités
27
Comparaison SOLAP raster SOLAP vecteur
Application analyse de hotspots de criminalité
 Quelle est la répartition spatiale de la
criminalité générale pour lannée 2012?  ?
Requête la plus lourde possible
Entrepôt classique
Entrepôt raster
  • Addition des 132 images environ 35 sec
  • Sélection des 1200000 entrées environ 27 sec
  • KDE sur les données environ 52 sec
  • TOTAL environ 79 sec

28
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les hotspots de criminalité liée à
la drogue pour le premier trimestre 2012? 
Stretch  standard deviation 
Fact107 fact207 fact307
29
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les hotspots de criminalité liée à
la drogue pour le premier trimestre 2012? 
Ajout de la couche  Pub raster 
30
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les pubs générateurs de criminalité
liée à la drogue pour le premier trimestre 2012? 
- Slice couche  Pub raster 
Zoom in
Pub(measure)
31
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les pubs générateurs de criminalité
liée à la drogue pour le premier trimestre 2012? 
Ajout couche  Pub point 
Shoreditch
Soho
32
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les pubs générateurs de criminalité
liée à la drogue (poids 2) et aux armes (poids
1) pour le premier trimestre 2012? 

Shoreditch
Soho
(2(fact107fact107fact107)(fact106fact206fact
306))pub
33
Exemples de requête
Application analyse de hotspots de criminalité
Quel est le nombre de crimes liés à la drogue et
aux armes par force de police de mars 2012? 
  • Drill across
  • Add dimension force_boundary

34
Application analyse de hotspots de criminalité
  • 3 mois plus tard

35
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les pubs générateurs de criminalité
liée à la drogue pour le premier trimestre 2012? 
  • Retour à la vue précédente

Shoreditch
Soho
(Fact107 fact207 fact307)pub
36
Exemples de requête
Application analyse de hotspots de criminalité
 Quels sont les pubs générateurs de criminalité
liée à la drogue pour le second trimestre 2012? 
Cranbrook Estate
Shoreditch
Soho
(Fact407 fact507 fact607)pub
37
Exemples de requête
Application analyse de hotspots de criminalité
 Quelle est lévolution des pubs générateurs de
criminalité liée à la drogue entre le premier
trimestre et le second trimestre 2012?
  • Evolution avec la vue précédente
  • Zoom out

Cranbrook Estate
Shoreditch
Soho
Mesure - mesure(-1)
38
Exemples de requête
Application analyse de hotspots de criminalité
 Quelle est lévolution des hotspots de
criminalité liée à la drogue entre le premier
trimestre et le second trimestre 2012?
Suppression de la dimension spatiale pub
(Fact407 fact507 fact607) -(Fact107 fact207
fact307)
39
Optimisation du paramétrage des KDE
Application analyse de hotspots de criminalité
  • Prediction accuracy index (PAI)
  • Indice utilisé en crime mapping pour évaluer la
    qualité de prédiction de hotspots
  • PAI
  • PAI permet dévaluer la qualité du paramètre
     bandwidth  dun KDE
  • A exploiter pour optimiser le paramétrage des KDE
    au moment de lintégration des données
  • Rappel une  bandwidth  par niveau déchelle
    pour garder des images comparables
  • (nombre de crimes dans hotspots / nombre de
    crimes total)
  • (surface de hotspot / surface détude)

40
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

41
Contrainte de performance dun OLAP
Performance dun SOLAP raster
  • OLAP report groupement de chercheurs sur le OLAP
    créé en 1994
  • Définition du OLAP en 5 mots-clés
  • Fast
  • Requête simple lt 1 sec
  • Requête basique lt 5 sec
  • Requête complexe lt 20 sec
  • Analysis
  • Shared
  • Multidimensionnality
  • Information

42
Performance dun SOLAP classique
Performance dun SOLAP raster
Nombre de faits
Nombre de données
43
Performance dun SOLAP raster
Performance dun SOLAP raster
Temps dagrégation
Taille des rasters
44
Performance dun SOLAP raster
Performance dun SOLAP raster
Nombre de faits
Nombre de membres
45
Performance dun SOLAP raster
Performance dun SOLAP raster
Nombre de faits
Nombre de dimensions non spatiales
46
Plusieurs solutions
Performance dun SOLAP raster
  • Garcia Gutierrez Baumann, 2008
  • Pré-agrégation des données
  • Impossible de couvrir toutes les possibilités
    (infinité) ?
  • Kang et al, 2013
  • Etablissement de clusters de rasters
  • Simplification des calculs dagrégation
  • exemple
  • A B C D 2A 2C
  • Perte de précision du résultat final ?

47
Network OLAP (NOLAP)
Performance dun SOLAP raster
  • Solutions précédentes
  • simplification des calculs
  • Solution proposée
  • Répartir les calculs sur plusieurs serveurs
    (cloud)
  • Cube de données ? cube de serveurs
  • Principe
  • Requête divisée en sous-requêtes
  • Agrégation des crime de type  drugs  et
     violent crime  pour lannée 2012
  • Agrégation des crimes de type  drugs  pour
    lannée 2012 agrégation des crimes de type
     violent crime  pour lannée 2012
  • Temps dagrégation divisé par nombre de serveurs

48
Exemple darchitecture NOLAP
Performance dun SOLAP raster
Gestion dimension  type de crime  Gestion
dimensions spatiales
Gestion dimension  temps 
Cloud
 Quels sont les hotspots de criminalité pour
2012? 
Sous-requêtes dagrégation selon dimension
 temps  pour chaque type de crime
Anti-social behaviour
Other theft
Client
Requête principale
Violent crime
Vehicule crime
Image finale
Agrégation des images renvoyées selon dimension
 type de crime 
Burglary
Criminal damage
Chaque serveur renvoie son image dagrégation
Drugs
Weapons
  • Deux alternatives
  • Un sous-cube par serveur du cloud? table des
    faits du serveur maître liste dadresse vers le
    cloud
  • Cube complet copié dans chaque serveur

Shoplifting
Robbery
49
NOLAP caractéristiques
Performance dun SOLAP raster
  • Nombre de serveurs
  • croît linéairement avec nombre de membres gérés
    par le serveur principal (exemple types de
    crime)? Privilégier cloud pour la dimension
    temporelle
  • croît exponentiellement avec nombre de dimensions
    non spatiales? Rester raisonnable
  • Temps dagrégation considérablement
    diminuéMAISil faut rajouter le temps de
    transfert des requêtes et des images à travers le
    réseau
  • Dans notre cas une image lt 600 ko, maximum 11
    images transférées
  • Utilisation dun langage de programmation capable
    de gérer le  multi tâches  DotNet, php,

50
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale

51
Conclusions
  • Modèle SOLAP raster théorique
  • Analyse multidimensionnelle de linformation
    spatialement continue
  • Mesure raster
  • Méthodes dagrégations spécifiques
  • Modèle en constellation pour le changement
    déchelle
  • Application analyse de hotspots de criminalité
  • SOLAP raster adapté aux besoins et méthodes de la
    police (KDE)
  • Application originale adaptée au système (petites
    images, peu de dimensions)
  • Association dun SOLAP raster et dun SOLAP
    classique
  • Intégration dobjets spatiaux à la volée
  • A développer
  • Interface utilisateur
  • Processus dintégration des données (choix de la
     bandwidth )
  • Système NOLAP
  • Autres applications possibles reporting, data
    mining

52
Plan de lexposé
  • Introduction business intelligence
  • Modèle SOLAP raster
  • Application analyse de hotspots de criminalité
  • Performance dun SOLAP raster
  • Conclusions
  • Formation doctorale
Write a Comment
User Comments (0)
About PowerShow.com