Title: Entrepts de donnes spatiales
1Entrepôts de données spatiales
- Notions avancées de bases de données SIG
- Yvan Bédard
2Table des matières
- Entrepôts de données
- Systèmes transactionnels vs systèmes danalyse
- Définition dun entrepôt de données
- Définition dun marché de données
- Composantes dun entrepôt de données
- Différentes architectures dentrepôt de données
- Approches dimplantation
- Centralisation vs distribution
- Entrepôts de données spatiales
- Outils clients dun entrepôt de données
3Le marché traditionnel
- Les outils traditionnels de gestion et
dexploitation des données spatiales sont du type
transactionnel ou OLTP (On-Line Transaction
Processing) - SGBD (Système de gestion de base de données)
- SIG (Système dinformation géographique)
- Serveurs SIG-WEB
4Systèmes transactionnels
- Le transactionnel réfère à un mode dexploitation
de données tourné vers la saisie, le stockage, la
mise à jour, la sécurité et lintégrité des
données. - Par exemple, les systèmes de gestion des
transactions boursières ou bancaires, dont les
guichets automatiques ou les systèmes
dinventaire dans les magasins
5Systèmes transactionnels
- Le système transactionnel est généralement une
base de données, développée par application,
stockant les données courantes dune
organisation, cest-Ã -dire que typiquement, il
ny a pas de données darchives dans les systèmes
transactionnels
6Systèmes transactionnels
- Le système transactionnel réfère aux bases de
données développées afin de gérer les
transactions quotidiennes - Ces bases de données supportent habituellement
des applications particulières telles que les
inventaires de magasins, les réservations
dhôtel, etc
7Systèmes transactionnels
- Le contenu est fait de données actuelles, pas
darchives - Les données sont très détaillées (détails de
chacune des transactions) - La mise à jour seffectue par de nouvelles
transactions - Très souvent plusieurs de ces systèmes existent
indépendamment les uns des autres dans les
grandes organisations
8Systèmes transactionnels
- La plupart des systèmes transactionnels sont
implantés selon une structure relationnelle
normalisée (à différents degrés) - Redondance minimum
- Intégrité des données
- Facilité de mise à jour
9Systèmes transactionnels
- Opérations dans les systèmes transactionnels
- Ajout
- Effacement
- Mise à jour
- des enregistrements (habituellement, gros volume
de transactions impliquant chacune un petit
volume de données détaillées) - Requêtes simples (de type non-agrégatif)
10Obstacles à lanalyse dans les systèmes
transactionnels
- Les bases de données transactionnelles sont
habituellement normalisées de telle sorte que la
duplication des données est à son minimum - Assure lintégrité des données
- Simplifie la mise à jour des données
- Cependant, une très forte normalisation
complexifie lanalyse des données - Nombre élevé de tables donc nombre élevé de
jointures nécessaires entre les tables
(performance pauvre) - Temps de traitement long
- Élaboration complexe des requêtes
- Difficulté doptimiser le fonctionnement des
systèmes transactionnels et des systèmes daide Ã
la décision qui partagent la même structure de
données.
11Obstacles à lanalyse dans les systèmes
transactionnels
- De plus, les types danalyses servant aux
processus de décision des organisations
nécessitent - Données sommaires (agrégées ou résumées) sur
lensemble de lorganisation (provenant des
différentes BD dispersées de lorganisation et
intégrées) - Données historiques
- Réponses rapides (requêtes surtout de type
agrégatif), interfaces à lusager faciles Ã
utiliser - Besoin de systèmes dédiés à lanalyse
12Systèmes danalyse
- Les nouveaux outils dexploitation des données
spatiales sont de type analytique - Entrepôts de données (Data Warehouses)
- Marchés de données (Data Marts)
- Clients
- Requêteurs et rapporteurs (Querying and Reporting
Tools) - OLAP (On-Line Analytical Processing)
- Forage de données automatique (Data Mining)
13Entrepôts de données
- Origine de deux besoins distincts mais
complémentaires - Besoin pour une entreprise davoir un panorama
complet de son information - Besoin pour un département de mieux gérer les
données de lentreprise - Tel que mentionné difficulté doptimiser le
fonctionnement des systèmes transactionnels et
des systèmes daide à la décision qui partagent
le même ordinateur, la même plate-forme
logicielle et la même structure de données
14Entrepôts de données
- Les termes tels que entrepôt de données, magasin
de données et marché de données se succèdent
autour de la même idée - déposer des données initialement disparates
- dans un dépôt, endroit, magasin, i.e. très grande
base de données (TGBD (en anglais VLDB) volume
nb. enregistrements nb usagers concurrents) - organisée en fonction dune analyse facile et
rapide de cet ensemble de données. -
- Basé sur Bédard, et al, 1997,  Geospatial data
warehousing positionnement technologique et
stratégique .
15Entrepôts de données
-  Un entrepôt de données est une collection de
données portant sur des sujets touchant une
organisation, intégrée, variant dans le temps, et
non-volatile pour supporter le processus de prise
de décision dune organisation (Inmon et al.
1996)
16Entrepôts de données
- Sujets touchant une organisation
- Par exemple, les ventes et les produits
- Données intégrées
- Proviennent de différentes sources systèmes
transactionnels, systèmes darchivage, sources
externes à lorganisation - Données qui varient dans le temps
- Données courantes et données historiques
- Données non-volatiles
- Aucune mise à jour, seulement des ajouts
- Données qui servent à supporter les processus de
décision - Serviront à lanalyse
17Entrepôts de données
-  Un entrepôt de données est un dépôt unique,
complet et cohérent de données obtenues dune
variété de sources et accessibles aux usagers
dune manière leur permettant de comprendre ces
données et de les utiliser dans un contexte
dentreprise traduction libre Devlin 1997
18Entrepôts de données
- Lentrepôt de données réfère aux bases de données
développées afin danalyser un grand volume de
données - Le contenu est fait des données actuelles et
darchives - Les données sont agrégées ou résumées
- Aucune mise à jour nest effectuée, mais lajout
de nouvelles données est possible - Un système global existe dans les grandes
organisations
19Marché de données
-  Le marché de données est une implantation
localisée dun entrepôt de données à usage
unique (traduction libre Devlin 1997) -  Lentrepôt de données est prévu pour
lentreprise dans son ensemble alors que le
marché de données est sectoriel (il peut être un
sous-ensemble exact ou modifié de lentrepôt de
données) (Bédard et al, 1997)
20Résumé des concepts
21Résumé des concepts
- Certains auteurs distinguent, à lintérieur
dun système danalyse, deux dispositifs - le système de collecte et dintégration
- nécessite un modèle conceptuel dintégration
normalisé - le système de diffusion et de présentation
- nécessite un modèle de diffusion dénormalisé
(ex. modèles multidimensionnels) - (Gouarné, 1997)
22Architecture des entrepôts de données
- Une architecture dentrepôt de données possède
les caractéristiques suivantes - les données sources sont extraites de systèmes,
de bases de données et de fichiers - les données sources sont nettoyées, transformées
et intégrées avant dêtre stockées dans
lentrepôt - lentrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision
organisationnelle - les usagers accèdent à lentrepôt à partir
dinterfaces et dapplications (clients)
23Architecture centralisée(Corporated architecture)
Entrepôt de données centralisé, unique et
intégré de lorganisation
Systèmes transactionnels de lorganisation
Clients distribués
Il sagit de la version centralisée et intégrée
dun entrepôt regroupant lensemble des données
de lentreprise. Les différentes bases de données
sources sont intégrées et sont distribuées Ã
partir de la même plate-forme physique
24Architecture fédérée(Federated architecture)
Département A
Département B
Département C
Entrepôt de données de lorganisation
Systèmes transactionnels de lorganisation
Marchés de données distribués par département
Clients distribués
Il sagit de la version intégrée dun entrepôt
où les données sont introduites dans les marchés
de données orientés selon les différentes
fonctions de lentreprise
25Architecture trois-tiers(Three-tiers
architecture)
Tiers 3
Tiers 2
Tiers 1
Département A
Département B
Département C
Entrepôt de données (données détaillées)
Systèmes transactionnels (données très
détaillées)
Marchés de données (données résumées et agrégées)
Clients distribués
Il sagit dune variante de larchitecture
fédérée où les données sont divisées par niveau
de détail
26Architecture à niveaux multiples(Multiple-tiers
architecture)
Tiers 4
Tiers 3
Tiers 2
Tiers 1
Département A
Département B
Département C
Entrepôt (données détaillées)
Entrepôt (données résumées)
Systèmes transactionnels (données très
détaillées)
Clients distribués
Marchés de données (données résumées et agrégées)
Il sagit dune variante de larchitecture
trois-tiers où lentrepôt se compose de deux
niveaux de détail (utile pour entrepôt de données
spatiales)
27Architecture  sans entrepôtÂ
Département A
Département B
Département C
Systèmes transactionnels de lorganisation
Marchés de données distribués par département
Clients distribués
Situation fréquente et facile à réaliser, mais
sans les bénéfices intégrateurs de lentrepôt de
données
28Approches dimplantation
Entrepôt de données
Marchés de données
Bottom up
29Approches dimplantation
- Approche Bottom up
- Avantages
- permet de répondre rapidement à des besoins
extrêmement urgents dans des départements où la
gestion est décentralisée - utile lorsque le budget alloué pour le
déploiement de l'architecture ne permet pas la
construction d'un système global intégré - permet de voir des résultats à court terme
- permet de justifier la poursuite des
développements plus globaux - nécessite des coûts moindres en termes
déquipements et autres ressources à court terme - peut être utilisée lorsque la gestion des données
est déjà décentralisée et que les données gérées
sont propres à chacun des groupes de
lorganisation - Inconvénients
- peut entraîner des problèmes dévolutivité vers
une architecture plus robuste - doit faire partie dun processus global pour être
réussi - des problèmes de redondance et dinconsistances
sont possibles
30Approches dimplantation
Entrepôt de données
Marchés de données
Top down
31Approches dimplantation
- Approche Top down
- Avantages
- définition des données intégrée et très
consistante - fonctionne habituellement bien lorsque la gestion
des données est déjà centralisée à un certain
niveau - Inconvénients
- demande des efforts très importants de
planification, danalyse et de conception au
début du projet - coût de réalisation significatif
- présente des délais avant que limplantation
finale puisse être fonctionnelle - retour dinvestissement et bénéfices visibles
seulement à long terme - demande une bonne coordination entre les
différents groupes de lorganisation et les
consensus peuvent être difficiles à obtenir
32Centralisation vs distribution
- Deux points de vue différents
- Point de vue organisationnel
- Point de vue technologique
- Par exemple, du point de vue technologique, une
approche centralisée implique que toutes les
données se retrouvent stockées sur la même
composante physique du système
33Centralisation vs distribution
- La centralisation est appropriée lorsque
- Lorganisation fonctionne déjà dune façon
centralisée - Le volume de données permet dutiliser un seul
dépôt de données - La centralisation permet de réduire la complexité
au niveau - de la coordination
- des responsabilités
- de la gestion (ex. copies de sécurité)
- des métadonnées
- du transfert de données
34Centralisation vs distribution
- La distribution implique une répartition des
données sur plusieurs composantes physiques - Plusieurs types de distribution
- Horizontale
- ex. en fonction de la distribution géographique
des différentes entités de lorganisation - ex. par chaîne de produits
- ex. par groupe dusagers
- Verticale
- en fonction du niveau de détail des données (ex.
architecture à niveaux multiples)
35Centralisation vs distribution
- La distribution peut sappliquer
- aux données sémantiques et temporelles seulement
- aux données spatiales seulement
- aux données sémantiques, temporelles et spatiales
- à différents niveaux (ex. entrepôt de données,
marchés de données)
36Centralisation vs distribution
Région A
Région B
Systèmes transactionnels
Clients
Région C
Entrepôt de données distribué (1 seul entrepôt,
plusieurs plates-formes)
37Entrepôts physiques et virtuels
38Entrepôts de données spatiales
 Un entrepôt de données spatiales est une
collection de données spatiales de qualité,
orientée par sujet, non-volatile, variable dans
le temps, qui inclut un ensemble doutils de base
permettant daccéder et dextraire
linformation. (Traduction libre, Rawling et al
1997)
39Entrepôts de données spatiales
- La nature des données spatiales nécessite de
tenir compte des possibles incompatibilités - dans la référence spatiale (position, forme,
orientation, taille) - dans les systèmes de référence
- dans les unités de mesure
- dans lincertitude spatiale
- dans la précision
- dans le format
-
- ? Besoin doutils ETL dintégration ou daccès
spécialisés (ex. FME, GDO, Talend Open Studio
SDI, GeoKettle)
40Entrepôts de données spatiales
- Autres éléments à prendre en considération lors
de lintégration des données spatiales - la topologie
- les contraintes dintégrité spatiale
- la consistance entre les échelles
-
- ? Traitements longs, complexes et coûteux
- Afin déviter de répéter les efforts
dintégration, il peut être utile de stocker le
résultat des différentes étapes dintégration,
par exemple dans une architecture à niveaux
multiples
41Outils clients dun entrepôt de données
- Différents types dusagers nécessitent différents
outils dexploitation de données. Il en existe
cinq principaux types - Les logiciels requêteurs
- Les logiciels ce création de rapports
- Les tableaux de bord
- Les outils OLAP et SOLAP
- Les outils de fouille de données (data mining)