Title: Entrept de donnes Data Warehouse DW
1Entrepôt de données (Data Warehouse DW)
- Quest-ce quun entrepôt de données?
- Modélisation multi-dimensionnelle
- Architecture dun entrepôt de données
2Entrepôt de données (Data Warehouse DW)
- Définition de Bill Immon (1996)
- collection de données orientées pour un sujet,
intégrées, non volatiles et historisées,
organisées pour le support du processus daide à
la décisionbase de données dans laquelle sont
déposées après nettoyage et homogénéisation les
informations en provenance des différents
systèmes de production de lentreprise
3Données Orientées Sujet
- Organisées autour de sujets majeurs comme
consommateur, produit, ventes - Données pour lanalyse et la modélisation en vue
de laide à la décision, et non pas pour les
opérations et transactions journalières - Vue synthétique des données selon les sujets
intéressant les décideurs
4Données Intégrées
- Construit en intégrant des sources de données
multiples et hétérogènes - BD relationnelles, fichiers, enregistrements de
transactions - Nettoyage et intégration des données
- Consistence dans les noms des champs, le codage
des données issues de plusieurs sources - La conversion se fait quand les donnés sont
transférées dans le DW
5Données historisées
- Léchelle de temps dans le DW est beaucoup plus
longue que dans les BD - BD opérationnelle valeur courante des données
- DW information dans une perspective historique
(ex les 5 dernières années) - Chaque structure dans le DW contient un élément
décrivant le temps
6Données Non Volatiles
- Stockage indépendant des BD opérationnelles
- Pas de mises à jour des données dans le DW
- 2 actions sur le DW
- Alimentation du DW à partir des données des BD
opérationnelles - Accès (lecture) de ces données
7DW vs. BD Operationnelles
- OLTP (on-line transaction processing)
- Tache principale des SGBD
- Operations journalières purchasing, inventory,
banking, manufacturing, payroll, registration,
accounting, etc. - OLAP (on-line analytical processing)
- Tache principale des DW
- Analyse des données et prise de décision
8OLTP vs. OLAP
9Entrepôt de données (Data Warehouse DW)
- Quest-ce quun entrepôt de données?
- Modélisation multi-dimensionnelle
- Architecture dun entrepôt de données
10Des tables aux cubes
- Un DW est basé sur une modélisation
multidimensionnelle qui réprésente les données
dans un cube - Un cube, ventes par ex, permet de voir les
données suivant plusieurs dimensions - tables de dimensions, ex article (id_art, marque,
type), ou temps(jour, semaine, mois, trimestre,
année) - La table des faits contient les mesures (montant
par ex) et les clés des dimensions
11Modélisation dun DW
- Modélisation dimensions mesures
- Schéma en étoile la table des faits au centre et
les tables de dimensions autour - Schéma en flocon même principe que dans le
schéma en étoile mais certaines dimensions sont
normalisées
12Schéma en étoile
Table des faits Ventes
id_date
id_art
id_site
nb_ventes
montant_ventes
13Schéma en flocon
Table des faits Ventes
id_date
id_art
id_site
nb_ventes
montant_ventes
14Schéma en constellation
- Plusieurs tables de faits pour décrire plusieurs
séries de données sur le métier étudié et
partageant les tables dimensionnellles - Ex table des faits expéditions ayant pour tables
de dimensions temps, article, site
15 Data Mining Query Language DMQL (daprès Han
Kamber)
- Cube Definition (Fact Table)
- define cube ltcube_namegt ltdimension_listgt
ltmeasure_listgt - Dimension Definition ( Dimension Table )
- define dimension ltdimension_namegt as
(ltattribute_or_subdimension_listgt)
16Exemple schéma en étoile
- define cube ventes temps, produit, site
- Montant_ventes sum(ventes_in_euros), nb_ventes
count() - define dimension temps as (id_date,jour,
jour_semaine, mois, trimestre, année) - define dimension article as (id_article,
nom_article, marque, type, fournisseur) - define dimension site as (id_site, rue, ville,
région, pays)
17Exemple schéma en flocon
- define cube ventes temps, produit, site
- Montant_ventes sum(ventes_in_euros), nb_ventes
count() - define dimension temps as (id_date,jour,
jour_semaine, mois, trimestre, année) - define dimension article as (id_article,
nom_article, marque, type, fournisseur(id-fourniss
eur, nom_fournisseur) ) - define dimension site as (id_site, rue,
ville(id_ville, région, pays) )
18Cube de données
- Représentation de la table des faits sous forme
dun cube, chaque axe correspondant à une
dimension
19Données Multidimensionnelles
- Données vente suivant les axes temps, produit et
site
Site
Produit
Temps
20Browsing a Data Cube
- Visualization
- OLAP capabilities
- Interactive manipulation
21Données Multidimensionnelles
Dimensions Article, Temps, Site Sur chaque
dimension peut exister une hiérarchie linéaire ou
en forme de treillis
Type Pays Année Marque
Région Trim. Product Ville Mois
Sem Bureau Jour
22Cuboïdes correspondant au Cube
tous
0-D(apex) cuboïde
site
produit
temps
1-D cuboides
produit,temps
produit,site
temps, site
2-D cuboides
3-D(base) cuboide
produit, temps, site
23Opérations OLAP
- Roll up (drill-up) résumer, agréger des données
- En montant dans une hiérachie ou en oubliant une
dimension - Drill down (roll down) inverse de roll-up
- En descendant dans une hiérachie ou en ajoutant
une dimension - Slice and dice
- Projection et sélection
- Pivot (rotate)
- Réorienter le cube
24Modélisation multi-dimensionnelle
- Outre le cube de base, certains cuboïdes pourront
être stockés afin daccélérer les réponses aux
requêtes fréquentes - Compromis entre matérialiser tous les cuboïdes /
seulement le cube de base
25Entrepôt de données (Data Warehouse DW)
- Quest-ce quun entrepôt de données?
- Modélisation multi-dimensionnelle
- Architecture dun entrepôt de données
26 Architecture du DW
Monitor Integrator
OLAP Server
Meta- données
Analyse Requêtes Rapports Data mining
Data Warehouse
Data Marts
Sources
OLAP
Outils Front-End
Stockage
27Bibliographie
- Le Data Warehouse. JM Franco Eyrolles
- Concevoir et déployer un Data Warehouse. Kimball
et Reeves Eyrolles - Data Mining Concepts and Techniques J. Han M.
Kamber Morgan Kaufmann