Title: Chapitre 1 :
1Chapitre 1
Le Système dinformation décisionnel SID
2Enjeux des entreprises
- Objectifs stratégiques
- Améliorer les performances décisionnelles de
lentreprise. - Identifier les tendances du marché.
- Connaître le passé pour anticiper sur le futur.
- Simuler des situations.
- Augmenter le rendement des actions commerciales.
- Augmenter les services fournis.
- Fidéliser sa clientèle.
- Transformer les données du si en informations
cohérentes et de qualités. - Meilleure connaissance de son activité.
- Disposer dun pilotage fiable.
- Réaliser des analyses.
- Présenter des statistiques.
- Forer les informations.
3Enjeux des entreprises
- Comment ?
- En répondant aux demandes danalyse des
décideurs. - Réponses correctes et rapides
- Exemple
- Clientèle Qui sont mes clients ? Comment les
conserver , les fidéliser ou les faire revenir ?
Qui sont mes meilleurs clients depuis 5 ans. - Marketing comment améliorer le ciblage de mes
actions commerciales ? Ou placer ce produit dans
les rayons. - Simuler les risques
4Enjeux des entreprises
- Défi
- Transformer leur système dinformation qui avait
une vocation de production à un SI décisionnel
dont la vocation de pilotage devient majeure - Évoluer dun SI production à un SI production
un SI décisionnel. - ( Si système dinformation ).
5Problématique
- Une grande masse de donnée
- Éparpillées
- Volatiles
- Incohérentes
- Pas ou peu de données externes.
- Pour une utilisation par
- Décideur
- Pilotage par agrégats , investigations, analyses
transversales - Gestionnaire
- Préparation de décision, simulation
- Opérationnel
- Accès à linformation élémentaires, requêtes
adhoc - ? utilisation par des NON INFORMATICIENS
-
6Problématique
- Utilisation par des NON INFORMATICIENS
- Informations fiables et documentées.
- Accès à linformation via des outils conviviaux
et intuitifs. - Des temps de réponses acceptables.
-
7Métiers du décisionnel
- SPM Strategic performance management.
- Déterminer et controler les indicateurs clé de la
performance de lentreprise. - FI Finance intelligence.
- Planifier, analyser et diffuser linformation
financière. - Mesurer et gérer les risques.
- CRM Customer relationship management.
- Améliorer la connaissance client. Identifier et
prévoir la rentabilité client. - Accroître lefficacité du marketing client.
- SRM Supplier relationship management.
- Classifier et évaluer lensemble des
fournisseurs. - Planifier et piloter la stratégie Achat.
8la solution Le sid
- L information courante et passée devient vitale
pour l entreprise. - Toutes les données utiles , qu elles
proviennent du système de production de
lentreprise ou quelles soient achetées vont
devoir être - Organisées dans un ensemble cohérent.
- Intégrées.
- Stockées.
- ? Pour constituer la mémoire de lentreprise.
- Modèle dintégration
- ? Pour donner à lutilisateur une vue intégrée et
orientée métier de ces informations.
9la solution le data warehouse
- Le système dinformation décisionnel
- est un système dinformation dédié aux
applications décisionnelles - En aval des bases de production ( des bases
opérationnelles ) - En amont des prises de décision
- ? sid data warehouse
10chapitre 2
- Définitions et objectifs du data warehouse.
11Lentrepot de données data warehouse
- Définition de Bill Inmon (1996)
- Le data warehouse est une collection de données
orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support dun
processus daide à la décision. - Définition utilisateur
- Un ensemble de données organisées spécifiquement
et utilisées pour laide à la décision. - Une transformation et une représentation
intelligente des données en informations. - Un pole dinformations détaillées,
fiables,historisées et facilement accessible et
compréhensible. -
12Lentrepot de données data warehouse
- Des données aux informations
- Exemple
- Le profil client à partir des données
- - Emprunts
- - Épargne
- - Carte de crédit
13Les notions fondamentales
- Les données du data warehouse sont
- Orientées sujet.
- Intégrées.
- Non volatiles.
- Agrégées en fonction du temps.
- Documentées.
- ? Mémoire de lentreprise
14orientées sujets
- Disposer de lensemble des informations utiles
sur un sujet le plus souvent transversal aux
structures fonctionnelles et organisationnelles
de lentreprise. - Le data warehouse est organisé autour des sujets
majeurs de lentreprise. - Client contrat contrôle de gestion salariés
..ect - Structuration par thème.
- A noter les données des différents sujets
seront intégrées dans un modèle de données
unique.
15Données intégrées
- Divers sources de données.
- A noter possibilité de source externe.
- Il faut les collecter.
- Elles ne sont pas structurées à lidentique.
- Il faut les filtrer, les transformer,les
contrôler,les synchroniser. - Chaque donnée doit avoir
- une seule définition.
- Un seul codage.
- Pas de redondance dans le modèle de donnée
- un attribut unique
- ? Afin de garantir
- Qualité de la donnée.
- Cohérence des résultats.
-
16Données non volatiles
- Ne pas supprimer les données du DW.
- Les données sont datées.
- Pas dannule et remplace.
- Historique
- On conserve les données détaillées avec un
historique de plusieurs années - Objectif analyser les tendances.
- La nouvelle valeur dune donnée fait passer
lancienne en historique - Objectif analyser à périmètre fonctionnel
stable. - ?il faudra choisir les données à historiser.
17 données agrégées en fonction du temps
- Les données sont historisées pour suivre leurs
évolutions. - Les données récentes
- sont disponibles en ligne.
- Sont détaillées au niveau le plus fin.
- Concernent des utilisateurs experts et peu
nombreux. - Les données anciennes
- Ne sont plus disponibles en ligne au niveau
détail le plus fin, mais néanmoins archivées. - Sont disponibles en lignes consolidées, agrégées.
- Concernent la plupart des utilisateurs.
18 données documentées les metadonnées
- Les métadonnées ou dictionnaire des données
- Description technique des processus.
- Collecte source et transformation des données.
- Description technique des données.
- Description utilisateurs des données.
- Sémantique des données.
- Règle de gestion.
- Localisation.
- Les métadonnées sont mises à disposition dans un
ou des référentiels.
19 données documentées les metadonnées
- Pour chaque colonne de chaque table
- Lorigine ( en production ).
- Lévolution processus de transformation.
- Lhistorique date des changements.
- La signification.
- Ce référentiel sert
- Aux processus dalimentation.
- Aux utilisateurs.
20 Sio / sid des objectifs différents
SIOpérationnel SIDécisionnel
Activité au quotidien Analyse et aide à la décision
Orienté mise à jour Lecture uniquement
Requêtes simples Requêtes évoluées
Faible volume manipulé (par transaction ) Gros volume manipulé ( par requêtes )
Consommation maîtrisée Consommation aléatoire
Temps de réponse en seconde Temps de réponse en minutes ou heures
Critique stratégique
21 Chapitre 3
Architecture du data warehouse
22 Systèmes intermédiaires
- L exploitation informationnelle des données de
production est antérieure à lapparition du sid. - Mise a disposition des décideurs, de données
assimilées à des informations de pilotage via des
systèmes intermédiaires - Tableaux de bord opérationnels à partir du sio.
- Outils de requêtes sur les données du sio.
- Outils de requêtes sur des données dédiées et
copiées à partir du sio. - Outils de requêtes sur des données dédiées,
organisées à partir des données du sio - ? ne sont pas un sid.
23 Systèmes intermédiaires
- Tableaux de bord opérationnels à partir du sio.
- L application de production ne dispose que de
ses propres données et n offre pas de vision
informationnelle adaptée au périmètre du domaine
danalyse. - Toute nouvelle requête informationnelle
- Maintenance difficile, voir sur la structure des
données. - Délai dattente prohibitifs.
24 Systèmes intermédiaires
- outils de requêtes sur les données du sio.
- Données hétérogènes et incohérentes.
- Données non préparées à lanalyse décisionnelle.
- Dépendance aux contraintes de la production.
- Temps de réponse élevés.
- ? correspond à un outil de présentation adossé
aux données de production.
25 Systèmes intermédiaires
- Outils de requêtes sur des données dédiées et
copiées à partir du sio. - Avantage
- Données séparées entre les bases de production et
les bases danalyse. - Inconvénients
- Données hétérogènes et incohérentes.
- Données non intégrées , non unifiées, non
documentées - Difficulté décriture des requêtes.
- ? correspond à une organisation de type
infocentre.
26 Systèmes intermédiaires
- Outils de requêtes sur des données dédiées et
partiellement organisées. - Avantages
- Données séparées entre les bases de production et
les bases danalyse. - Bribes de modèle de données unifiées et
organisées pour une analyse métier. - Inconvénients
- Pas de modèle de donnée complet.
- Pas ou peu de transformation des données.
- Pas ou peu de documentation.
- Difficulté décriture des requêtes.
- ? correspond à une organisation de type
infocentre évolué.
27 architecture de référence du sid
- Nécessite deux dispositifs distincts
- Entrepôt ou data warehouse
- Stockage des informations en un point unique.
- Magasin de données ou Datamart
- Stockage des données nécessaires à lanalyse dun
thème (sujet ). - Un entrepôt unique.
- N Datamart suivant les thèmes à analyser.
28 architecture de référence du sid
Données de production
sci
Entrepôt de données
sdp
datamart
datamart
datamart
Outils de présentation
Utilisateurs finaux
29 architecture de référence du sid
- Deux dispositifs distincts
- 1. Le système de collecte et dintégration
- La Fonction de collecte assure l
approvisionnement des données du sid à partir des
données de production. - La Fonction dintégration des données assure la
cohérence globale et le stockage en un point
unique. - ? stocke les données dans lentrepôt de données.
-
30 architecture de référence du sid
- Deux dispositifs distincts
- 2. Le système de diffusion et de présentation
- La Fonction de diffusion met à disposition des
applications décisionnelles les données sous une
forme dimensionnelle. - ? stocke les données orientées sujet dans un
magasin de données. - La Fonction de présentation gère laccès de
lutilisateur final aux données stockées sous
forme dimensionnelle. - ? puise les données dans les magasins de données
( datamart ). - Fonction assurée par les outils de présentation.
31 lentrepôt de données
- Mémoire de lentreprise.
- Stockage des données en un point unique.
- Données unifiées et documentées.
- Modèle conceptuel de données classique
- Type entité/association.
- Normalisé en 3éme forme normale.
32 lentrepôt de données
- Partie la plus complexe et difficile du sid.
- En autres
- Capture des données sans impacter le sio.
- Mode dalimentation globale.
- Mode dalimentation incrémentale.
- Modèle conceptuel évolutif. (gestion du temps)
- Volumétrie très importantes.
- Charge de recette importantes.
- Contrôle qualité des données avant chargement.
- Temps de chargement.
- Documentation
- Procédure de reprise des données
- .
33datamart
- Base de données thématique
- Stocke les données nécessaires à lanalyse du
sujet. - Modéliser lactivité que lon souhaite analyser.
- Modélisation sous forme multidimensionnelle.
- Modèle en étoile.
- Modèle en Flocon.
- Cube multidimensionnel.
- Orienté utilisateur finale
- Compréhensible par lutilisateur.
- Temps de réponse acceptable.
-
34Architecture du sid
- Dans un sid
- Un entrepôt de données unique.
- Un ensemble de datamart par sujet à traiter.
-
35Chapitre 4
- Construction du data warehouse
-
36 le système de Collecte et dintégration le
sci
- Objectif alimenter le socle sur lequel repose
le sid - Socle entrepôt de données.
- L entrepôt de données est la base de données
unique pour toutes les applications du système de
diffusion et de présentation. - Le système sci
- La partie du sid la plus complexe.
- Nombre de traitement important et lourd.
- Prototypage de la solution finale difficile.
- Ne doit pas perturber le système de production.
- Architecture propre à chaque entreprise.
37 le système de Collecte et dintégration le
sci
- Fonctions
- Extrait, transforme, unifie et charge les données
à partir des sites de production. - Génération des niveaux dagrégation.
- Génération des règles de correspondance des méta
données. - Génération des fichiers daudit.
- Technologie utilisée
- Code manuel.
- Outils d extraction automatique ETL
- Etl extract transformation loading
38 le système de Collecte et dintégration sci
- Conception
- Pour chaque table de l entrepôt
- Création de lidentifiant
- Les identifiants sont propres à lentrepôt.
- Pour chaque donnée de la table
- Recherche de la ou les données source dans le
sio. - Définition des règles de transformation.
- Définition des règles dagrégation.
- Définition de la périodicité de rafraîchissement.
- Définition des règles et mode de contrôle des
données avant intégration dans lentrepôt de
données.
39 le système de Collecte et dintégration sci
- Architecture technique
- Choix du mode de capture des données.
- Localisation des traitements
- Machine sio et/ou machine sid
- Procédure de contrôle des données.
- Procédure de réfection des données.
40 le système de Collecte et dintégration sci
- Solution de collecte via un ods
- Ods opérationnel data store
- Les applications de production déversent les
données nécessaires au data warehouse dans un
ensemble de fichiers normalisés. - Lods sera la source de lalimentation de
lentrepôt de données. - ? permet une indépendance entre le monde de la
production et le monde du décisionnel. - ? simplifie la synchronisation des données entre
les applications de production.
41 le système de présentation
- Le sdp est un ensemble dapplications destiné à
répondre aux demandes dinformation des
utilisateurs - États prédéfinis.
- Requêtes paramétrables.
- Requêtes adhoc ( non connues à lavance).
- Manipulation main libre.
- Simulation.
- Recherche de connaissance (corrélation des
données data mining) - Alertes.
- Applications verticales.
42 la modélisation dimensionnelle
- Les Datamarts se modélisent sous forme
multidimensionnelle - Contient les informations destinées à répondre
aux requêtes des utilisateurs. - objectifs datamart
- Accessibilité des informations
- Facile à comprendre, donc facile à utiliser.
- Informations cohérentes
- Une seule réponse possible.(un seul chemin sql)
- Incomplétude signalée.
- Temps de réponse acceptable.
43 la modélisation dimensionnelle
- Différentes formes de modélisation.
- Modèle en étoile.
- Modèle en flocon.
- Cube multidimensionnelle olap
44 Modèle en étoile
- Datamart analyse des frais de déplacement des
commerciaux par région et véhicule
Dimension employé
Dimension véhicule
Clé_employé Nom Prénom fonction
Clé_véhicule Immatricula Puissance Marque
Table de Faits
0,N
0,N
Clé_employé Clé_région Clé_véhicule Clé_mois Frai
_deplac Kilométrage
Dimension région
Dimension mois
0,N
Clé_région Région pays
Clé_mois Mois Trimestre Semestre annéé
0,N
45 Modèle en étoile
- Une association unique et des entités.
- La Table de fait Association unique.
- Contient les faits ( mesure , indicateur ). Une
information déterminée par la combinaison de deux
ou plusieurs entités. - Les Tables entités les Dimensions.
- Contiennent les conditions caractéristique d
une entité susceptible dintervenir comme critère
de définition dune requête.
46 Modèle en étoile
- Les questions
- Quels ont été les frais de déplacement et le
kilométrage des commerciaux de la région pays de
la loire ayant des véhicules de 12 à 14 cv en
juillet 1996. - La liste des noms des commerciaux de la région
pays de la loire ayant des véhicules de 12 à 14
cv avec, pour chacun, les frais de déplacement,
le kilométrage, et la marque de véhicule pour
juillet 1996. - La liste des régions avec, pour chacune, les
frais de déplacements de lannée en cours. - La liste des véhicules ayant parcouru plus de 50
000 km cette année.
47 Modèle en étoile
- hiérarchies
- Exemple Département,région,pays
- Représente pour lutilisateur des chemins de
consolidations dindicateurs. - Sont stockées dans les dimensions.
- Résister à une normalisation sous forme entité
association. - Modèle en flocon.
- Une dimension peut comporter plusieurs
hiérarchies.
48 Modèle en étoile
- le grain
- Le grain dune dimension est le niveau de
sélection le plus fin possible de cette
dimension. - Le grain dun datamart est le niveau de détail
pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu
toutes les dimensions.
49 Modèle en étoile
- Propriété d additivité des faits
- Fait additif.
- Additionnable suivant toutes les dimensions.
- Fait semi-additif.
- Additionnable seulement suivant certaines
dimensions. - Fait non additif.
- Non additionnable quelque soit la dimension.
50 Modèle en étoile
- Les règles de base
- Règle 1 il ne doit pas y avoir de dépendance
fonctionnelle entre deux entités appartenant à
des dimensions différentes. - Règle 2 Tous les faits doit etre définis dune
maniére cohérente pour toutes les combinaisons
dimensionnelles. - Règle 3 Tous les faits doivent etre définis
pour le grain. - Règle 4 le graphe de chaque dimension doit être
acyclique.
51 Modèle en flocon
- Datamart analyse des frais de déplacement des
commerciaux par région et véhicule
Dimension employé
Dimension véhicule
fonction
marque
Clé_employé Nom Prénom Fonction
Clé_véhicule Immatricula Puissance Marque
Clé_fonction Grade sal_min Sal_max
Clé_marque Constructeur Pays_contruc .
Table de Faits
0,N
0,N
Clé_employé Clé_région Clé_véhicule Clé_mois Frai
_deplac Kilométrage
Dimension région
semestre
Année
Dimension mois
trimestre
pays
Clé_ mois Mois Trimestre
Clé_ trimestre Lib_trim Semestre
Clé_ semestre Lib_sem Année
Clé_ Année Typ_année
Clé_région Région Pays
0,N
0,N
Clé_pays Pays Continent Devise
52 Modèle en flocon
- Modèle en flocon modèle en étoile
normalisation des dimensions - Lorsque les tables sont trop volumineuses.
- Avantages
- Réduction du volume
- Inconvénients
- Nombreuses jointures.
- Performances dégradées.
- ?Règles Préférer le modèle en étoile au modèle
en flocon.
53 les faits
- Faits dynamiques et faits statiques.
- Un fait dynamique représente un flux affectant le
système observé. - Ex montant dun dépôt, dun retrait
- Sont généralement additif.
- Peuvent se produire un nombre quelconque de fois
au cours dune période. - Un fait statique est un élément descriptif de
létat du système à un instant donné. - Ex solde dun compte courant.
- Sont généralement semi-additif ( excepté sur la
dimension temps )
54 Les faits.
- Faits dynamiques et faits statiques.
- En théorie un fait statique peut être
reconstitué à partir de lhistoire dun fait
dynamique. - Ne nécessite pas de stockage.
- En pratique le stockage des faits statiques
peut apporter une valeur ajoutée - Pas de nécessité de stocker lensemble des faits
dynamiques. - Lutilisateur peut sintéresser uniquement aux
faits statiques.
55 Les faits.
- Faits dynamiques et faits statiques.
- ? coexistence de faits statiques et dynamiques
dans le datamart. - Implique des comportements différents des faits
dans les hiérarchies. - Implique présentation des méthodes de
consolidation des faits aux utilisateurs. - Les méthodes de consolidation des faits doivent
faire partie intégrante des méta-données.
56 Les formes dimensionnelles complexes.
- Dérives dimensionnelles
- Dérive de contenu.
- Dérive de périmètre.
- Les indicateurs qualifiés.
- Dimension douteuse.
- Dimension dégénérée.
- Dimension causale.
- Dimension temps.
- Inégalité temporelle.
- Les grandes dimensions.
- Les entités hétérogènes.
- Table de faits sans fait.
- Les agrégats.
57 Dérive de contenu
- Modification des attributs des dimensions
- L écoulement du temps
- Ajoute de nouveaux faits.
- Modifie les attributs des dimensions
- changement de situation de famille
- changement de condition de log
- Ces dérives dimensionnelles doivent être prises
en compte dés la conception du modèle
dimensionnel.
58 Dérive de contenu
- Dimensions à évolution lente
- Dimension presque constante mais dont certains
attributs changent de valeurs dans le temps. - Solutions
- 1 type Perdre les valeurs anciennes.
- 2 type Créer un nouveau enregistrement.
- 3 type Créer des champs actuels et historiques
à lintérieur de lenregistrement dorigine. - Ne pas tout mettre dans la table de faits.
59 Dimension à évolution lente du 2 éme type
- Créer un nouveau enregistrement.
-
- Nécessite une extension de la clé primaire.
- Clé étendue Clé primaire suffixe de version
- Clé étendue gérée par léquipe de lentrepôt.
- Deux possibilités
- Attributs permanents et mouvants dans la table de
dimension. (modèle en étoile ) - Création dune table avec uniquement les
attributs changeants. ( modèle en flocon )
60 Dimension à évolution lente du 2 éme type
- Partitionne lhistorique
-
- la table de faits assurera la relation à
lenregistrement actuel ou historique de la
dimension à évolution lente. - Pas de nécessité de gérer des dates deffet dans
la dimension à évolution lente. - Ne permet pas le what if sur lhistoire. (ce que
lhistoire aurait été si la situation avait été
celle-là depuis le début). - Tous les changements sont conservés.
61 Dimension à évolution du 3éme type
- Créer des champs actuels et historiques à
lintérieur de lenregistrement dorigine. - Attribut actuel et attribut dorigine date
effet de lattribut actuel. - Pas de partitionnement de lhistorique dans la
table de fait. - Nécessite dutiliser la date effet pour
partitionner lhistorique. - Les valeurs intermédiaires sont perdues.
- ? Permet de suivre à la fois lancienne et la
nouvelle valeur.
62 Dérive de périmètre
- Les dérives de périmètre sont des changements de
dimension liés généralement à des mutations que
traversent les entreprises ( fusions, cessions,
réorganisations internes). - Elles sont parfois assimilables à des dérives de
contenu et peuvent être traitées selon cette
méthode.
63 Dérive de périmètre
- exemple
- Changement de périmètre dune région commerciale
- Ajout du département de la Loire atlantique.
- Les analyses peuvent sintéresser au périmètre de
la région tel quil était au début de la période
analysée,ou tel quil est aujourdhui. - Si ce besoin danalyse à périmètre variable est
vérifié alors nécessité de représenter cette
dérive dans le datamart. - ? Autre Solution possible la méthode des
indicateurs qualifiés
64 Les indicateurs qualifiés
- Plusieurs indicateurs dun domaine danalyse
peuvent correspondre en réalité à plusieurs
façons de représenter un même indicateur
fonctionnel. - Un même montant peut ainsi être exprimé
- hors taxes et taxes incluses.
- en euros, en dollars.
- selon plusieurs unité de mesure.
- Ce sont des faits différemment qualifiés,différemm
ent représentés ou encore exprimés selon des
métriques différents. - Ne spécifier comme faits que les indicateurs
véritablement distincts.
65 Les indicateurs qualifiés
- Implémentation
- Le fait qualifié ( fondamental ) est présent une
seule fois en tant que fait dans la table des
faits. - Toutes ses qualifications possibles sont définies
par des dimensions supplémentaires dun type
particulier, pouvant se combiner avec les autres
dimensions. - Ce sont des dimensions qualificatives.
- Exemple avoir plusieurs indicateurs
correspondants chacun à un certain découpage
régional passé ou actuel.
66 Dimension douteuse
- Dimension contenant
- De nombreux doublons.
- Des informations douteuses.
- Exemple une dimension client dans laquelle la
même personne peut apparaître de nombreuses fois,
éventuellement avec des orthographes de nom
légèrement différentes, et dautres attributs. - Liée à une qualité médiocre des informations en
production. - Si dimension douteuse alors étudier la
possibilité de nettoyer les données de
production. - La qualité dun sid repose sur la qualité des
données en production. - Le sid ne doit pas masquer les problèmes de
production.
67 Dimension dégénérée
- Une clé de dimension, tel quun numéro de
facture, un numéro de ticket qui na pas d
attribut, et donc na pas de table de dimension. - Exemple un modèle dimensionnel avec une table
de fait contenant la clé date et sans table de
dimension temps.
68 Dimension Causale
- Dimension qui provoque le fait.
- Ex Dans une analyse des ventes liée au suivi
des promotions dun magasin, la dimension
promotion est supposée avoir provoquée le fait.
69 Dimension temps
- Commune à tout datamart. (sauf exception)
- 2 choix dimplantation
- Type sql date sans dimension temps.
- Jour,mois,trimestre calculés à partir de la clé
date de la table de fait. - Dimension temps.
- Jours fériés, vacances, période fiscale.
- Événement ( match de finale de coupe du monde)
70 Inégalité du temps
- Forte inégalité du grain temporel invoqué par les
utilisateurs. - Fréquemment, les utilisateurs analysent
- Les données journalières du mois en cours.
- Les données agrégées sur les mois de lannée en
cours. (ou la photo des données à fin de mois) - Les données agrégées sur lannée des années
précédentes. (ou la photo des données au 31/12). - Ces fortes différences temporelles danalyse
seront à traiter dans l analyse des agrégats.
71 Les grandes dimensions
- Les minidimensions
- Objectifs
- Améliorer les temps de réponse.
- Dans une dimension
- Bon nombre de champs ne sont presque jamais la
source de contraintes. - Souvent, les champs source de contraintes sont
parfaitement connus. - Exemple soit une dimension client
- les champs fortement utilisés sont les champs
démographiques, tels que lage, le sexe, le
nombre denfants, le niveau de ressources, le
niveau déducation et des mesures de comportement
en matière dachat et de crédits.
72 Les grandes dimensions
- Solution créer des minidimensions
- En regroupant dans une minidimension des
attributs choisis pour ne comporter quun nombre
limité de combinaison de valeurs. - Les attributs type age seront des fourchettes de
valeurs. - Soit directement liée à la table de fait, soit
liée à la table de dimension mère . - A noter possible d intégrer la clé primaire de
la minidimension dans la table mère. - ?Conseil moins de 100 000 combinaisons
distinctes des attributs choisis.
73 Les entités hétérogènes
- Dans un contexte danalyse ou les attributs des
dimensions et des faits sont hétérogènes - Il est recommandé de
- Créer une table de faits réduite et une table de
dimension réduite permettant aux requêtes de
naviguer dans les types disparates. - Créer une table de fait particularisée et une
table de dimension particularisée pour faire des
requêtes en profondeur sur chaque type
particulier. - Exemple dans une banque
- - table de faits et dimensions réduites
de tous les comptes. - - table de faits et dimension
particularisée des comptes de chèques - - table de faits et diemension
particularisée des comptes épargne - - ect
-
74 Table de faits réduites et particularisées.
- Application avec des produits hétérogènes
- Des attributs et faits commun.
- De nombreux Attributs et faits valables pour un
seul produit. - Compte de chèque, compte d épargne, compte
titre - Police et sinistre automobile, habitation
- Objectifs
- Permettre une analyse globale.
- Permettre une analyse détaillée.
- En veillant
- Compréhension du datamart
- Économie de place.
75 Table de faits réduites et particularisées.
- Solution
- Créer un datamart générique avec
- Table de fait réduite
- Table de dimension réduite.
- Créer des datamarts spécialisés métiers
- Table de fait particularisé.
- Table de dimension particularisé.
- A noter tous les faits du datamart générique
sont présents dans la table de fait
particularisée.
76 Table de faits sans fait
- Table de faits composée uniquement de clés sur
les dimensions. - Absence de faits mesurés.
- Deux principales variétés de table de fait sans
fait - Tables de suivi dévénement
- Tables de couverture
77 Table de faits sans fait
- Tables de suivi dévénement
- Exemple Analyse de la fréquentation journalière
dans une université. - Dimension
- Cours , Étudiant, heure/date, professeur,
salle de cours. - Table de fait
- Clé cours,clé étudiant, clé heure/date, clé
professeur, clé salle de cours.
78 Table de faits sans fait
- Tables de couverture des tables dévénement qui
nont pas eu lieu. - Exemple quels articles étaient en promotion et
ne se sont pas vendus - Dimension
- Temps, magasin, produit, promotion.
- Table de couverture
- indique quels produits étaient ou sont en
promotion.
79 Les agrégats
- Gestion des agrégats dans le système de collecte
et dintégration. - Objectifs
- Réduire le volume de lentrepôt et simplifier sa
structure. - Comment
- Éliminer les données opérationnelles détaillées
et les remplacer par des données plus
synthétiques. - Les valeurs détaillées ne sont pas enregistrées
dans lentrepôt ( attention au reprise ! ). - Seules les valeurs synthétiques sont stockées
dans lentrepôt. - Remarques
- Nintroduit pas de dénormalisation.
- A effectuer le plus en amont des traitements.
80 Les agrégats
- Gestion des agrégats dans le système de diffusion
et de présentation. ( au niveau datamart ) - Objectifs
- Améliorer de façon significative les temps de
réponse. - Réduire le volume des données.
- Comment
- Créer des datamarts agrégés dans lesquels seront
pré calculer les informations très utilisées par
les utilisateurs à partir des données
élémentaires. - Conserver les données élémentaires.
- Remarques
- Introduit de la redondance des données.
- Les données élémentaires sont toujours
disponibles.
81 Les agrégats
- Gestion des agrégats dans le système de diffusion
et de présentation. ( au niveau datamart ) - Exemples
- Cumul des ventes par mois et vendeur à partir des
données journalières. - Cumul des ventes par année et vendeur à partir
des données journalières. - Les données ventes journalières sont disponibles
sur trois mois glissants. - Détention contrat dun foyer à partir des
détentions contrats des membres du foyer.
82 olap
- Objectifs
- Permettre à lutilisateur une navigation main
libre dans les données. - Manipulation libres et intuitives.
- Pas de nécessité d écrire ou de lancer une
requête pour continuer lanalyse. - Temps de réponse très courts.
- Les agrégats sont pré-calculés.
- Sappuie sur un stockage des données sous forme
dhypercube. ( structure matricielle ).
83 olap
- Contraintes
- Temps de construction du cube.
- Temps de calcul des combinaisons dimensionnelles.
- Base de stockage est souvent propriétaire.
- La pré agrégation génère des volumes de données
totales importantes. - Ajout daxes peut savérer difficile.
- Temps de chargement prohibitifs.
- Maintenance peut savérer difficile.
- Le périmètre danalyse est figé.
84 olap
- Quand utiliser l olap
- Intéressant lorsque les angles danalyse sont
parfaitement connus. - Généralement, correspond à des applications mises
à disposition dutilisateur presse bouton devant
naviguer facilement et rapidement dans un
ensemble de données importants - Navigation main libre
- Drill down zoom sur les données
- Slice and dice changement daxe
danalyse
85 olap les architectures
- Deux architectures se distinguent sur le mode
de stockage des données. - Molap Multidimensionnel Olap
- Logiciel de manipulation des données adossé à une
base de donnée matricielle de type propriétaire.
- Hypercube local ou partagé.
- Coût élevé des licences en général.
- Rolap Relationnel Olap
- Logiciel de manipulation des données adossé à une
base de données relationnelles - Présentation multidimensionnelle.(hypercube
virtuelle). - Peut autoriser lutilisateur à passer à travers
lhypercube pour exécuter des requêtes
directes.
86Chapitre 5
87 La démarche
- Comment procéder deux étapes fondamentales.
- 1ére étape
- Définition des objectifs stratégiques du sid.
- Priorisation des objectifs stratégiques.
- Choix de larchitecture technique globale.
88 La démarche
- 2éme étape Pour chaque projet
- Létude préalable.
- Réalisation entrepôt
- Alimentation de lentrepôt.
- Dictionnaire des données.
- Recette données entrepôt.
- Réalisation datamart
- Création des datamarts.
- Dictionnaire des données.
- Recette données datamart.
- Mise en œuvre outil de restitution.
- Dictionnaire utilisateur.
- Recette utilisateurs finaux.
- Déploiement.
- Formation.
89 Définition des objectifs stratégiques du sid.
- Identifier la stratégie globale du sid
- Synergie entre les objectifs du datawarehouse et
la stratégie de lentreprise. - Projet dentreprise validé par la direction
générale, construit par itération. - Identifier le sponsor
- Fonctionnel, surtout pas technique.
- Mandaté par le management.
- Connaissance de lentreprise.
- Chargé de mettre en place une équipe
motivée,écoutée et connaissant le métier à
modéliser - Gestionnaire du projet globale.
- Définir les objectifs fondamentaux.
- Estimer Budget et calendrier de réalisation.
90Priorisation des objectifs
- La démarche de mise en œuvre est
- Itérative
- Incrémentale
- Fonctionner par lot
- Un data warehouse réussi nest jamais terminé.
- Il faut prioriser les objectifs.
91 Choix de larchitecture technique globale
- Objectifs
- Avant le démarrage du premier pr